Kwangmin Kim - Ch.8 Modeling Accounting for Data Collection — 베이즈 분석의 다섯 번째 걸음

1 개요 — 왜 데이터 수집을 모형에 반영해야 하는가

베이즈 분석의 다섯 걸음을 나란히 놓으면 Ch.7 와 Ch.8 의 경계가 드러난다.

모형 구성 — 사전 $p(\theta)$ + 우도 $p(y \mid \theta)$.
사후 계산 — $p(\theta \mid y)$.
모델 점검 (Ch.6) — 내부 자기 일관성.
모델 평가·비교·확장 (Ch.7) — 외부 예측 성능.
수집 과정의 모형화 (Ch.8) — “이 $y$ 가 어떻게 모여 왔는가” 가 추론에 어떻게 영향을 주는가.

Ch.7 까지가 관측된 $y$ 에 대한 모형 을 다뤘다면, Ch.8 은 관측 자체의 생성 과정 을 대상으로 확장한다. 관측은 공짜로 오지 않는다 — 표본 프레임이 선택되고, 실험자가 처치를 배정하고, 관찰 연구에서 자가 선택이 일어나고, 일부 값은 검열되거나 절단된다. 이 모든 “수집 구조” 가 사후 추론에 흔적을 남긴다.

1.1 직관 — “같은 10 번의 6” 이 세 가지 다른 증거가 되는 이유

Gelman 의 유명한 예시 (§ 8.1):

우리가 여러분에게 “주사위 10 번 던졌더니 모두 6 이 나왔다” 는 자료를 줬다고 하자. 당신의 주사위에 대한 태도는 다음 세 경우에 따라 완전히 달라진다.

경우	수집 프로토콜	해석
(i)	“이게 전부다 (10 번만 굴렸다)”	$p = 6^{-10} \approx 1.65 \times 10^{-8}$. 공정한 주사위 가정이 강하게 반박됨.
(ii)	“60 번 굴렸는데 6 만 10 개 보고”	평균 10 개 기대. 전혀 놀랍지 않음.
(iii)	“6 이 10 번 나올 때까지 계속 굴렸다 (500 번 걸림)”	평균 60 번 필요. 오히려 6 의 빈도가 낮다.

같은 관측값 (“10 개 6”), 같은 우도 구조 (각 던짐은 $\mathrm{Bernoulli}(1/6)$), 그러나 사후 결론은 정반대 방향. 차이는 오로지 수집 규칙 에서 온다.

“우도 원리만 보면 데이터 수집이 무관” 이라는 오해

순진한 베이즈 학생은 “모든 추론이 관측 데이터에 조건부이므로 수집 과정은 무관하다” 고 주장할 수 있다. 이것이 우도 원리의 오용 이다.

Gelman 의 교정: “관측 데이터” 의 완전한 정의 에는 그 값들이 어떻게 생겼는지 에 대한 정보가 포함되어야 한다. 위 주사위 예시가 정확히 이 점을 보인다. 우도 원리 자체는 맞지만, 우도를 무엇으로 세우느냐 가 바뀐다.

2 정의 — 수집 과정 모형화의 도구 상자

Ch.8 은 네 가지 핵심 표기를 도입한다.

정의 1: Complete data vs Observed data

Complete data $y = (y_1, \ldots, y_N)$: 관측 여부와 무관한 완전한 가상 데이터 벡터. Observed data $y_{\mathrm{obs}}$: $y$ 중 실제로 관측된 부분. Missing data $y_{\mathrm{mis}}$: $y$ 중 관측되지 않은 부분 ($y = (y_{\mathrm{obs}}, y_{\mathrm{mis}})$).

상황	‘Observed’	‘Complete’
표본 조사	표본 $n$ 개 값	모집단 $N$ 개 값
실험	배정된 처치의 결과	모든 처치 × 모든 단위의 결과
결측	관측된 값	관측 + 결측
검열	구간만 알고 있는 값	정확한 값

정의 2: 포함 지시자 (Inclusion Indicator, $I$)

$I = (I_1, \ldots, I_N)$, $I_{ij} \in \{0, 1\}$:

$I_{ij} = 1$: $y_{ij}$ 가 관측됨
$I_{ij} = 0$: $y_{ij}$ 가 관측되지 않음

$I$ 자체는 항상 관측 가능하다고 가정 (표본 조사에서 “누가 응답했는지” 는 알려짐).

정의 3: 두 층위의 우도

Complete-data likelihood:

\[ p(y, I \mid \theta, \phi) = p(y \mid \theta) \, p(I \mid y, \phi) \tag{8.1} \]

$p(y \mid \theta)$: 완전 데이터 모형. 수집 과정 무관.
$p(I \mid y, \phi)$: 포함 모형 (inclusion model). 어떤 값이 왜 관측되는지 기술.
$\theta$: 관심 모수 (과학적 추정 목적).
$\phi$: 수집 과정 모수 (일반적으로 실질적 관심 없음).

Observed-data likelihood: 실제 추론에 쓰이는 것.

\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int p(y, I \mid \theta, \phi) \, dy_{\mathrm{mis}} \]

정의 4: Ignorability (무시가능성)

수집 과정을 무시 해도 정확한 $\theta$ 사후가 나오는가? 수식으로는:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x, y_{\mathrm{obs}}) \tag{8.3} \]

우변은 $I$ 를 모델링하지 않고 $y_{\mathrm{obs}}$ 만으로 계산한 “단순 사후”. 좌변은 $I$ 의 정보까지 쓴 “정직한 사후”. 두 개가 같으면 수집 과정을 무시 가능 (ignorable) 하다고 한다.

무시 가능의 충분 조건 두 가지:

Missing At Random (MAR): $p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)$ — $y_{\mathrm{mis}}$ 에 의존하지 않음.
Distinct Parameters: $\theta$ 와 $\phi$ 의 사전이 독립 ($p(\theta, \phi) = p(\theta) p(\phi)$) 이거나 적어도 사전이 공유하지 않음.

두 조건이 동시에 만족되면 $p(I \mid y_{\mathrm{obs}}, \phi)$ 가 $\theta$ 사후에서 상수 취급되어 자동으로 무시됨.

3 § 8.1 — 두 가지 일반 메시지

Gelman 은 Ch.8 전체를 관통하는 두 원칙을 제시한다.

수집 과정을 기술하는 변수를 분석에 포함하라 — 보통 회귀 공변량으로. 예: 층화 표본에서 층 지시자 를 모형에 넣음. 무작위 블록 실험에서 블록 지시자 를 넣음.
부분 정보는 확률 모형으로 연결하라 — 관측값이 구간만 아는 경우 (검열), 완전히 잃은 경우 (결측), 임계값 기반 필터 (절단) 모두 명시적 확률 모형으로 다룬다.

두 원칙의 근본적 이유: 무엇이 관측됐는지 자체가 정보 이기 때문이다. 관측 패턴 $I$ 를 무시하면 그 정보가 사후에서 사라진다.

3.1 네 가지 실무 지침

Ch.8 은 수집 과정 모형화의 네 지침을 나열한다.

지침	요지
1	모든 관련 정보 사용 — 관측 패턴 자체가 정보일 수 있음
2	Ignorable 설계가 선호됨 — 무작위화 기반 설계가 모형 선택에 덜 민감
3	설명 변수 많을수록 조건부 타당, 모형 민감 — trade-off 유의
4	사후 예측 점검에서 $y^{\mathrm{rep}}$ 도 설계에 의존 — Ch.6 점검이 설계를 반영해야 함

직관 — “관측 패턴이 정보다”

설문에서 응답률이 소득 분위에 따라 다르다 고 하자. 고소득층이 응답을 더 안 한다면, 단순히 응답자 평균을 쓰면 전체 모집단 평균을 과소 추정한다. 이 “누가 응답 안 했는지 의 정보” 가 $I$ 의 분포에 담긴다. MAR 이면 응답률이 소득 분위를 포함한 공변량 $x$ 에만 의존하므로, 모형에 $x$ 를 넣으면 편향이 사라진다. MNAR 이면 응답률이 응답값 자체에 의존 하므로 공변량 조정만으로는 부족.

4 § 8.2 — Ignorability 의 수학적 구조

4.1 Joint Posterior 유도

완전 데이터 우도 (공변량 $x$ 포함):

\[ p(y, I \mid x, \theta, \phi) = p(y \mid x, \theta) \, p(I \mid x, y, \phi) \]

Joint posterior (모든 미지수에 대해):

\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \]

$\theta$ 만의 marginal:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \, d\phi \tag{8.2} \]

복잡해 보인다. Ignorability 가 이를 극적으로 단순화시킨다.

4.2 Ignorable 한 경우의 단순화

MAR 이 성립하면 $p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)$. 즉 $I$ 의 모형이 $y_{\mathrm{mis}}$ 에 의존하지 않음. 이를 식 (8.2) 에 대입:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(I \mid x, y_{\mathrm{obs}}, \phi) \, \left[\int p(y \mid x, \theta) \, dy_{\mathrm{mis}}\right] d\phi \]

$\int p(y \mid x, \theta) dy_{\mathrm{mis}} = p(y_{\mathrm{obs}} \mid x, \theta)$ 이고, $p(I \mid x, y_{\mathrm{obs}}, \phi)$ 항은 $\theta$ 에 무관한 $\phi$ 의 함수. distinct parameters 가정 하에서 $\int p(\phi \mid x, \theta) p(I \mid x, y_{\mathrm{obs}}, \phi) d\phi$ 는 $\theta$ 사후에서 상수 역할.

결과:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) = p(\theta \mid x, y_{\mathrm{obs}}) \]

즉 $I$ 를 완전히 무시해도 된다. 이것이 ignorability 의 핵심.

4.3 MAR 의 세 가지 유형

결측 메커니즘은 세 층위로 분류된다 (Rubin, 1976).

유형	조건	무시 가능?
MCAR (Missing Completely At Random)	$p(I \mid x, y, \phi) = p(I \mid \phi)$. 무작위 누락.	O
MAR (Missing At Random)	$p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)$. 공변량·관측값에만 의존.	O
MNAR (Missing Not At Random)	위 둘 다 아님. $y_{\mathrm{mis}}$ 자체에 의존.	X

직관 — MAR 이 “랜덤” 이 아니다

“MAR = missing at random” 이라는 이름이 오해를 부른다. 실제로는 “관측된 정보 조건부로 랜덤” — 즉 공변량과 관측값을 통제한 후에 누락이 랜덤이라는 뜻.

예: “소득 > $1M 이면 무조건 회계감사 수행” 은 결정론적 선택 이지만 $x$ (선언 소득) 에만 의존하므로 MAR. 따라서 무시 가능. 반면 “감사 대상자의 숨긴 소득 크기에 따라 감사 확률이 달라지면” MNAR — 숨긴 소득 자체를 모형에 넣지 않으면 편향.

4.4 Finite-Population vs Superpopulation Estimand

Ch.8 은 두 종류의 추정 목표를 구분한다.

유형	정의	예시
Finite-population	구체적 $N$ 개 단위의 함수	이 학교 8 개의 평균 효과 $\bar{\theta}_{\mathrm{fp}} = \frac{1}{8}\sum \theta_j$
Superpopulation	$\theta$ (모형 모수) 의 함수	모든 가능 학교의 평균 효과 $\mu$

실무 관점: 관측 비율이 높을수록 finite-population 추론이 모형 가정에 덜 민감. 모집단 전체를 관측했다면 finite-population quantity 는 정확히 알려짐, 반면 superpopulation $\theta$ 에는 여전히 불확실성.

4.5 Multiple Imputation

결측 데이터 처리의 표준 기법. 절차:

Joint posterior $p(\theta, \phi \mid x, y_{\mathrm{obs}}, I)$ 에서 $(\theta, \phi)^{(s)}$ 추출.
조건부 $p(y_{\mathrm{mis}} \mid x, y_{\mathrm{obs}}, I, \theta^{(s)}, \phi^{(s)})$ 에서 $y_{\mathrm{mis}}^{(s)}$ 추출.
각 $(y_{\mathrm{obs}}, y_{\mathrm{mis}}^{(s)})$ 조합에서 완전 데이터 분석 수행.
결과를 Rubin’s rule 로 결합.

이것이 Chapter 18 의 주제.

4.6 Stability (SUTVA) 가정

“수집 과정이 데이터 값 자체를 바꾸지 않는다” 는 가정.

실험: Stable Unit Treatment Value Assumption (SUTVA) — 한 단위에 적용한 처치가 다른 단위의 결과에 영향 주지 않음. 실패 사례: 비료 실험에서 이웃 구획 침투.
일반: 완전 데이터 $y$ 가 포함 벡터 $I$ 에 영향 받지 않음.

SUTVA 가 깨지면 표기 자체를 확장해야 함 (예: Exercise 8.4).

5 § 8.3~8.7 — 다섯 가지 특별 경우

같은 ignorability 수식이 실제 설계에서 어떻게 구현되는지 요약.

5.1 § 8.3 Sample Surveys — 표본 조사

핵심 질문: 모집단 $N$ 개 중 $n$ 개만 관측. 모집단 특성을 어떻게 추정?

설계	포함 모형 $p(I \mid x, \phi)$	공변량 필요?
Simple random sample	$p(I) \propto \binom{N}{n}^{-1}$ (동일 확률)	X
Stratified sample	층별 $\pi_h$ 에 비례	층 지시자 $x$ 필수
Cluster sample	군집 단위 선택	군집 지시자 $x$
Probability-proportional-to-size	$\pi_i \propto$ size $x_i$	크기 변수 $x$ 필수

원칙: 포함 확률 $\pi_i$ 가 $x_i$ 의 함수이면, $x$ 를 회귀 공변량으로 모형에 넣으면 MAR 이 자동 성립 → ignorable.

5.2 § 8.4 Designed Experiments — 설계 실험

핵심 질문: 단위 $i$ 에게 처치 $T_i$ 를 배정. 처치 효과는?

Potential outcomes 프레임: 각 단위 $i$ 는 $y_i(0)$ (통제) 과 $y_i(1)$ (처치) 두 잠재 결과를 갖지만, 실제로는 하나만 관측 됨. 인과 추론의 핵심 문제가 결측 데이터 문제 로 재정립.

완전 데이터: $(y(0), y(1))$ — $2N$ 개 값. 관측 데이터: $y = T \cdot y(1) + (1-T) \cdot y(0)$ — $N$ 개 값.

처치 배정 $T$ 가 포함 지시자 역할.

5.3 § 8.5 Randomization 의 역할

무작위화가 ignorability 를 보장한다는 수학적 정당화.

Completely randomized: $p(T \mid y(0), y(1), x) = p(T)$ — MCAR 에 해당.
Randomized block: $p(T \mid y(0), y(1), x) = p(T \mid x)$ — MAR. 블록 지시자 $x$ 를 모형에 포함하면 ignorable.

직관 — 왜 무작위화가 베이즈 분석을 “쉽게” 만드는가

무작위화 없이 관찰 연구를 하면, $T$ 배정이 잠재 결과에 의존 할 수 있음 (confounding). 이 경우 배정 메커니즘 $p(T \mid y(0), y(1), x)$ 를 모형에 명시해야 함 — MNAR 의 일종. 사후 추론이 이 미스터리 메커니즘의 가정에 민감해짐.

무작위화는 이 의존성을 끊는다 — $T$ 가 잠재 결과와 독립적으로 배정됨. 결과적으로 배정 메커니즘을 무시 가능. 이것이 “무작위화가 인과 추론의 gold standard” 인 베이즈적 정당화.

5.4 § 8.6 Observational Studies — 관찰 연구

핵심 도전: 처치 배정이 무작위가 아님. Confounder $x$ 로 조건화해야 ignorable.

기법:

Regression with covariates: $y \mid x, T, \theta$ 를 공변량 포함 회귀로 모형화.
Propensity score: $\pi(x) = P(T = 1 \mid x)$ 를 추정 후 matching 또는 weighting.
Principal stratification: 잠재 결과의 결합 분포를 잠재 변수로 분해.
Instrumental variables: 외생적 도구를 이용한 인과 효과 식별.

한계: “숨겨진 confounder” 가 있으면 (MNAR), 아무리 많은 공변량을 넣어도 편향 발생. 이 경우 감도 분석 이 중요.

5.5 § 8.7 Censoring and Truncation — 검열과 절단

Censoring: 값이 임계값을 넘으면 구간만 보고됨. 예: 생존 분석에서 추적 기간 끝까지 사건이 없으면 “이 시점 이후” 만 알려짐.

\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int_{c}^{\infty} p(y \mid \theta) \, dy \quad (\text{우측 검열}) \]

Truncation: 값이 임계값 밖이면 아예 표본에 포함 안 됨. 예: 최소 소득 미만인 가구는 조사에서 제외.

\[ p(y_{\mathrm{obs}} \mid y_{\mathrm{obs}} > c, \theta) = \frac{p(y_{\mathrm{obs}} \mid \theta)}{P(y > c \mid \theta)} \]

핵심 차이: 검열은 “임계값을 넘은 단위가 있었다” 는 정보가 있음 (건수 관측). 절단은 “그런 단위가 있었는지조차 모름”.

6 왜 Ch.8 도구가 필요한가

수집 과정을 무시하면 발생하는 사고:

자가선택 편향 — 관찰 연구에서 $T$ 배정 메커니즘 무시 → 처치 효과 과대·과소 추정.
비응답 편향 — 설문에서 응답률 패턴 무시 → 모집단 특성 왜곡.
검열 누락 — 생존 분석에서 검열 단위를 “사건 없음” 으로 취급 → 생존 확률 과대.
표본 크기 혼동 — 층화·군집 표본에서 $n$ 을 유효 표본 크기 로 쓰면 구간이 잘못된 폭.
SUTVA 붕괴 — 네트워크 실험에서 spillover 무시 → 잘못된 인과 결론.

Ch.8 는 이 모든 사고를 “수집 과정도 확률 모형의 일부” 라는 원칙으로 차단한다.

7 응용 분야

분야	Ch.8 도구의 역할
여론조사	층화·군집 반영, 비응답 조정
임상시험	무작위 배정의 ignorability, 중도 탈락 처리
역학	관찰 연구에서 confounder 조정, 자가선택
마케팅	A/B 실험의 사용자 처치 전달, 이탈 반영
생존 분석	우측·좌측·구간 검열, 관찰 종료
정책 평가	자연 실험, 도구 변수, 회귀 불연속
소셜 미디어 분석	노출 편향, 알고리즘 매개

8 예시 — 열 번의 6 의 세 가지 해석

8.1 완전 데이터 정의

세 경우 모두 주사위 던짐의 결과 시퀀스가 완전 데이터. 차이는 어떤 부분을 관측했는지.

8.2 경우 (i): 10 번만 던졌다 (데이터 전부 관측)

완전 데이터 = 관측 데이터 = $(6, 6, \ldots, 6)$, 10 개.

\[ p(y \mid \theta) = \theta^{10} \]

$\theta = P(6)$. 공정한 주사위 $\theta = 1/6$ 하 우도: $(1/6)^{10} \approx 1.65 \times 10^{-8}$. 강한 증거로 공정성 반박.

8.3 경우 (ii): 60 번 던진 중 6 만 10 개 보고

완전 데이터 = 60 번 결과 시퀀스. 관측 데이터 = “6 이 10 번 나왔다” 만.

포함 모형: $I_i = 1$ iff $y_i = 6$. 관측은 “모든 6 을 보고 함” 이라는 결정론적 규칙.

\[ p(y_{\mathrm{obs}} = \text{10 개 6} \mid n = 60, \theta) = \binom{60}{10} \theta^{10} (1-\theta)^{50} \]

$\theta = 1/6$ 하 기대값: $60/6 = 10$. 관측 10 개는 정확히 기대값. 아무 정보 없음.

8.4 경우 (iii): 10 번의 6 이 나올 때까지 계속 던짐

음이항 (negative binomial) 프로토콜. $N$ (총 던짐) 이 랜덤 변수.

\[ p(N = 500 \mid \theta, r = 10) = \binom{500 - 1}{10 - 1} \theta^{10} (1-\theta)^{490} \]

$\theta = 1/6$ 하 $E[N] = 10 \cdot 6 = 60$. 관측 500 은 기대값의 8 배. 6 의 빈도가 오히려 낮다 는 증거.

8.5 세 경우의 우도 비교

경우	우도 (up to constant)	$\theta$ 의 MLE
(i)	$\theta^{10}$	$1$ (즉 “항상 6”)
(ii)	$\theta^{10} (1-\theta)^{50}$	$1/6$ (공정)
(iii)	$\theta^{10} (1-\theta)^{490}$	$1/50$ (6 희귀)

같은 숫자 10 + 관측값 내용 $y_{\mathrm{obs}}$ 가 동일 함에도, 우도에 $(1-\theta)$ 의 지수가 다르게 들어가며 이것이 수집 프로토콜에서 온다. 우도 원리는 “$\theta$ 에 대한 우도 함수의 모양이 결론을 결정” 이라고 했지만, 그 함수 자체가 수집 과정으로 바뀐다.

9 코드 — MAR vs MNAR 간단 시뮬레이션

결측 메커니즘에 따라 사후가 달라지는 것을 확인한다.

9.1 Step 1: 합성 데이터 + MAR/MNAR 결측 생성

import numpy as np
import pymc as pm
import arviz as az

rng = np.random.default_rng(42)

N = 200
x = rng.normal(0, 1, size=N)
y_full = 2 + 1.5 * x + rng.normal(0, 1, size=N)

# MAR: 결측 확률이 x 에만 의존 (y 자체에 무관)
p_mis_mar = 1 / (1 + np.exp(-0.8 * x))  # x 가 크면 결측 확률 증가
I_mar = rng.binomial(1, 1 - p_mis_mar, size=N).astype(bool)

# MNAR: 결측 확률이 y 자체에 의존
p_mis_mnar = 1 / (1 + np.exp(-0.8 * (y_full - y_full.mean())))
I_mnar = rng.binomial(1, 1 - p_mis_mnar, size=N).astype(bool)

print(f"MAR 관측 수:  {I_mar.sum()}, 관측 평균 y = {y_full[I_mar].mean():.2f}")
print(f"MNAR 관측 수: {I_mnar.sum()}, 관측 평균 y = {y_full[I_mnar].mean():.2f}")
print(f"진짜 평균 y:  {y_full.mean():.2f}")

기대 결과: MAR 관측 평균은 전체 평균 근처, MNAR 관측 평균은 체계적으로 편향.

9.2 Step 2: MAR 하에서 ignorable 분석 (x 를 공변량으로)

y_obs_mar = y_full[I_mar]
x_obs_mar = x[I_mar]

with pm.Model() as m_mar:
    a     = pm.Normal("a", 0, 10)
    b     = pm.Normal("b", 0, 10)
    sigma = pm.HalfNormal("sigma", 5)
    pm.Normal("y", mu=a + b * x_obs_mar, sigma=sigma, observed=y_obs_mar)
    idata_mar = pm.sample(2000, tune=1000, random_seed=42)

print(az.summary(idata_mar, var_names=["a", "b", "sigma"], round_to=2))

MAR 이므로 $x$ 를 공변량으로 포함한 회귀가 자동으로 무시 가능 → 참값 $a = 2$, $b = 1.5$ 근처 추정.

9.3 Step 3: MNAR 을 MAR 처럼 다루면 편향

y_obs_mnar = y_full[I_mnar]
x_obs_mnar = x[I_mnar]

with pm.Model() as m_mnar_naive:
    a     = pm.Normal("a", 0, 10)
    b     = pm.Normal("b", 0, 10)
    sigma = pm.HalfNormal("sigma", 5)
    pm.Normal("y", mu=a + b * x_obs_mnar, sigma=sigma, observed=y_obs_mnar)
    idata_mnar_naive = pm.sample(2000, tune=1000, random_seed=42)

print(az.summary(idata_mnar_naive, var_names=["a", "b", "sigma"], round_to=2))

MNAR 이므로 $x$ 조건화만으로는 부족. 결측 메커니즘 $p(I \mid y, \phi)$ 를 추가 모형화해야 한다 (selection model 또는 pattern-mixture model). 이 경우 참값에서 체계적 편향 이 관찰되는 것이 정상.

10 실전 체크리스트

Ch.8 도구를 실무에 녹이는 8 단계.

수집 과정 기술 먼저 — 누가/어떻게/왜 관측되었는지 문서화.
Stability 가정 점검 — SUTVA 성립하는가? spillover 있는가?
MAR 여부 판단 — 결측이 $y_{\mathrm{mis}}$ 에 직접 의존하는가?
공변량 포함 — 수집에 영향 주는 변수 $x$ 를 회귀 공변량으로.
무작위화 여부 확인 — 실험이면 배정 메커니즘, 관찰이면 confounder 관리.
Finite vs Superpopulation — 관심 estimand 가 어느 층위인가?
MNAR 가능성이면 감도 분석 — selection model 과 pattern-mixture 대안 비교.
사후 예측 점검도 설계 반영 — $y^{\mathrm{rep}}$ 생성이 같은 수집 규칙 하에서 이뤄져야.

11 관련 주제

선행 지식

Ch.7 Evaluating, Comparing, Expanding Models — Ch.8 직전 단계
Ch.6 Model Checking Overview — $y^{\mathrm{rep}}$ 생성이 수집 구조에 의존
§ 7.5~7.8 — 연속 확장·NY 예제 — § 8.3 표본 조사의 원판

Ch.8 세부 절 (후속 작성 예정)

01-8-1-* — § 8.1~8.2 심화 (주사위 예시 완결, ignorability 정리, MAR 삼분류)
01-8-2-* — § 8.3~8.5 (표본조사·설계실험·무작위화 수리적 전개)
01-8-3-* — § 8.6~8.10 (관찰연구·검열·절단·연습문제)

후속 주제

Ch.9 Decision Analysis — 관측 수집의 효용 계산
Ch.18 Missing Data — multiple imputation 상세, MNAR 모형화
Ch.22 Finite Mixture Models — selection model 의 혼합 모형 표현

관련 개념

Rubin (1976) — Inference and Missing Data (MCAR/MAR/MNAR 원저)
Rosenbaum & Rubin (1983) — Propensity score 선구
Rubin (1987) — Multiple Imputation 교과서
sklearn.impute, IterativeImputer, mice R 패키지 — 현대 도구
SUTVA 와 network interference — 소셜 네트워크·플랫폼 실험의 현대 도전

경우	우도 (up to constant)	\(\theta\) 의 MLE
(i)	\(\theta^{10}\)	\(1\) (즉 “항상 6”)
(ii)	\(\theta^{10} (1-\theta)^{50}\)	\(1/6\) (공정)
(iii)	\(\theta^{10} (1-\theta)^{490}\)	\(1/50\) (6 희귀)