Ch.8 Modeling Accounting for Data Collection — 베이즈 분석의 다섯 번째 걸음

Gelman BDA Ch.8 개관 — 수집 과정·무시가능성·MAR·표본조사·실험 설계·관찰 연구·검열

Ch.7 이 “여러 모형 중 어느 것이 더 예측을 잘하는가” 였다면, Ch.8 은 “데이터가 어떻게 모여 왔는가를 모형이 반영해야 한다” 고 주장한다. 같은 관측값도 수집 프로토콜이 다르면 결론이 달라진다 — 주사위를 열 번 던져 모두 6 이 나왔다는 관측이, 열 번만 던졌는지 / 육십 번 중 6 만 골랐는지 / 6 이 열 번 나올 때까지 계속 던졌는지에 따라 완전히 다른 추론을 낳는다. 이 포스트는 Ch.8 의 전체 지도를 제공한다. 완전 데이터 y 와 포함 지시자 I 의 분해 (8.1), 관측 데이터 우도 유도, 무시가능성 (ignorability) 정의와 충분 조건 (MAR + distinct parameters), 표본조사 (8.3)·설계실험 (8.4)·무작위화 (8.5)·관찰연구 (8.6)·검열·절단 (8.7) 의 다섯 가지 특별 경우를 관통하는 공통 구조까지 — 각 수식 옆에 “왜 수집 과정을 모형에 넣어야 하는가” 를 붙여 전개한다.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 22일

1 개요 — 왜 데이터 수집을 모형에 반영해야 하는가

베이즈 분석의 다섯 걸음을 나란히 놓으면 Ch.7 와 Ch.8 의 경계가 드러난다.

  1. 모형 구성 — 사전 \(p(\theta)\) + 우도 \(p(y \mid \theta)\).
  2. 사후 계산\(p(\theta \mid y)\).
  3. 모델 점검 (Ch.6) — 내부 자기 일관성.
  4. 모델 평가·비교·확장 (Ch.7) — 외부 예측 성능.
  5. 수집 과정의 모형화 (Ch.8) — “이 \(y\) 가 어떻게 모여 왔는가” 가 추론에 어떻게 영향을 주는가.

Ch.7 까지가 관측된 \(y\) 에 대한 모형 을 다뤘다면, Ch.8 은 관측 자체의 생성 과정 을 대상으로 확장한다. 관측은 공짜로 오지 않는다 — 표본 프레임이 선택되고, 실험자가 처치를 배정하고, 관찰 연구에서 자가 선택이 일어나고, 일부 값은 검열되거나 절단된다. 이 모든 “수집 구조” 가 사후 추론에 흔적을 남긴다.

1.1 직관 — “같은 10 번의 6” 이 세 가지 다른 증거가 되는 이유

Gelman 의 유명한 예시 (§ 8.1):

우리가 여러분에게 “주사위 10 번 던졌더니 모두 6 이 나왔다” 는 자료를 줬다고 하자. 당신의 주사위에 대한 태도는 다음 세 경우에 따라 완전히 달라진다.

경우 수집 프로토콜 해석
(i) “이게 전부다 (10 번만 굴렸다)” \(p = 6^{-10} \approx 1.65 \times 10^{-8}\). 공정한 주사위 가정이 강하게 반박됨.
(ii) “60 번 굴렸는데 6 만 10 개 보고” 평균 10 개 기대. 전혀 놀랍지 않음.
(iii) “6 이 10 번 나올 때까지 계속 굴렸다 (500 번 걸림)” 평균 60 번 필요. 오히려 6 의 빈도가 낮다.

같은 관측값 (“10 개 6”), 같은 우도 구조 (각 던짐은 \(\mathrm{Bernoulli}(1/6)\)), 그러나 사후 결론은 정반대 방향. 차이는 오로지 수집 규칙 에서 온다.

“우도 원리만 보면 데이터 수집이 무관” 이라는 오해

순진한 베이즈 학생은 “모든 추론이 관측 데이터에 조건부이므로 수집 과정은 무관하다” 고 주장할 수 있다. 이것이 우도 원리의 오용 이다.

Gelman 의 교정: “관측 데이터” 의 완전한 정의 에는 그 값들이 어떻게 생겼는지 에 대한 정보가 포함되어야 한다. 위 주사위 예시가 정확히 이 점을 보인다. 우도 원리 자체는 맞지만, 우도를 무엇으로 세우느냐 가 바뀐다.

2 정의 — 수집 과정 모형화의 도구 상자

Ch.8 은 네 가지 핵심 표기를 도입한다.

정의 1: Complete data vs Observed data

Complete data \(y = (y_1, \ldots, y_N)\): 관측 여부와 무관한 완전한 가상 데이터 벡터. Observed data \(y_{\mathrm{obs}}\): \(y\) 중 실제로 관측된 부분. Missing data \(y_{\mathrm{mis}}\): \(y\) 중 관측되지 않은 부분 (\(y = (y_{\mathrm{obs}}, y_{\mathrm{mis}})\)).

상황 ‘Observed’ ‘Complete’
표본 조사 표본 \(n\) 개 값 모집단 \(N\) 개 값
실험 배정된 처치의 결과 모든 처치 × 모든 단위의 결과
결측 관측된 값 관측 + 결측
검열 구간만 알고 있는 값 정확한 값
정의 2: 포함 지시자 (Inclusion Indicator, \(I\))

\(I = (I_1, \ldots, I_N)\), \(I_{ij} \in \{0, 1\}\):

  • \(I_{ij} = 1\): \(y_{ij}\) 가 관측됨
  • \(I_{ij} = 0\): \(y_{ij}\) 가 관측되지 않음

\(I\) 자체는 항상 관측 가능하다고 가정 (표본 조사에서 “누가 응답했는지” 는 알려짐).

정의 3: 두 층위의 우도

Complete-data likelihood:

\[ p(y, I \mid \theta, \phi) = p(y \mid \theta) \, p(I \mid y, \phi) \tag{8.1} \]

  • \(p(y \mid \theta)\): 완전 데이터 모형. 수집 과정 무관.
  • \(p(I \mid y, \phi)\): 포함 모형 (inclusion model). 어떤 값이 왜 관측되는지 기술.
  • \(\theta\): 관심 모수 (과학적 추정 목적).
  • \(\phi\): 수집 과정 모수 (일반적으로 실질적 관심 없음).

Observed-data likelihood: 실제 추론에 쓰이는 것.

\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int p(y, I \mid \theta, \phi) \, dy_{\mathrm{mis}} \]

정의 4: Ignorability (무시가능성)

수집 과정을 무시 해도 정확한 \(\theta\) 사후가 나오는가? 수식으로는:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x, y_{\mathrm{obs}}) \tag{8.3} \]

우변은 \(I\) 를 모델링하지 않고 \(y_{\mathrm{obs}}\) 만으로 계산한 “단순 사후”. 좌변은 \(I\) 의 정보까지 쓴 “정직한 사후”. 두 개가 같으면 수집 과정을 무시 가능 (ignorable) 하다고 한다.

무시 가능의 충분 조건 두 가지:

  1. Missing At Random (MAR): \(p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)\)\(y_{\mathrm{mis}}\) 에 의존하지 않음.
  2. Distinct Parameters: \(\theta\)\(\phi\) 의 사전이 독립 (\(p(\theta, \phi) = p(\theta) p(\phi)\)) 이거나 적어도 사전이 공유하지 않음.

두 조건이 동시에 만족되면 \(p(I \mid y_{\mathrm{obs}}, \phi)\)\(\theta\) 사후에서 상수 취급되어 자동으로 무시됨.

3 § 8.1 — 두 가지 일반 메시지

Gelman 은 Ch.8 전체를 관통하는 두 원칙을 제시한다.

  1. 수집 과정을 기술하는 변수를 분석에 포함하라 — 보통 회귀 공변량으로. 예: 층화 표본에서 층 지시자 를 모형에 넣음. 무작위 블록 실험에서 블록 지시자 를 넣음.
  2. 부분 정보는 확률 모형으로 연결하라 — 관측값이 구간만 아는 경우 (검열), 완전히 잃은 경우 (결측), 임계값 기반 필터 (절단) 모두 명시적 확률 모형으로 다룬다.

두 원칙의 근본적 이유: 무엇이 관측됐는지 자체가 정보 이기 때문이다. 관측 패턴 \(I\) 를 무시하면 그 정보가 사후에서 사라진다.

3.1 네 가지 실무 지침

Ch.8 은 수집 과정 모형화의 네 지침을 나열한다.

지침 요지
1 모든 관련 정보 사용 — 관측 패턴 자체가 정보일 수 있음
2 Ignorable 설계가 선호됨 — 무작위화 기반 설계가 모형 선택에 덜 민감
3 설명 변수 많을수록 조건부 타당, 모형 민감 — trade-off 유의
4 사후 예측 점검에서 \(y^{\mathrm{rep}}\) 도 설계에 의존 — Ch.6 점검이 설계를 반영해야 함
직관 — “관측 패턴이 정보다”

설문에서 응답률이 소득 분위에 따라 다르다 고 하자. 고소득층이 응답을 더 안 한다면, 단순히 응답자 평균을 쓰면 전체 모집단 평균을 과소 추정한다. 이 “누가 응답 안 했는지 의 정보” 가 \(I\) 의 분포에 담긴다. MAR 이면 응답률이 소득 분위를 포함한 공변량 \(x\) 에만 의존하므로, 모형에 \(x\) 를 넣으면 편향이 사라진다. MNAR 이면 응답률이 응답값 자체에 의존 하므로 공변량 조정만으로는 부족.

4 § 8.2 — Ignorability 의 수학적 구조

4.1 Joint Posterior 유도

완전 데이터 우도 (공변량 \(x\) 포함):

\[ p(y, I \mid x, \theta, \phi) = p(y \mid x, \theta) \, p(I \mid x, y, \phi) \]

Joint posterior (모든 미지수에 대해):

\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \]

\(\theta\) 만의 marginal:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \, d\phi \tag{8.2} \]

복잡해 보인다. Ignorability 가 이를 극적으로 단순화시킨다.

4.2 Ignorable 한 경우의 단순화

MAR 이 성립하면 \(p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)\). 즉 \(I\) 의 모형이 \(y_{\mathrm{mis}}\) 에 의존하지 않음. 이를 식 (8.2) 에 대입:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(I \mid x, y_{\mathrm{obs}}, \phi) \, \left[\int p(y \mid x, \theta) \, dy_{\mathrm{mis}}\right] d\phi \]

\(\int p(y \mid x, \theta) dy_{\mathrm{mis}} = p(y_{\mathrm{obs}} \mid x, \theta)\) 이고, \(p(I \mid x, y_{\mathrm{obs}}, \phi)\) 항은 \(\theta\) 에 무관한 \(\phi\) 의 함수. distinct parameters 가정 하에서 \(\int p(\phi \mid x, \theta) p(I \mid x, y_{\mathrm{obs}}, \phi) d\phi\)\(\theta\) 사후에서 상수 역할.

결과:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) = p(\theta \mid x, y_{\mathrm{obs}}) \]

\(I\) 를 완전히 무시해도 된다. 이것이 ignorability 의 핵심.

4.3 MAR 의 세 가지 유형

결측 메커니즘은 세 층위로 분류된다 (Rubin, 1976).

유형 조건 무시 가능?
MCAR (Missing Completely At Random) \(p(I \mid x, y, \phi) = p(I \mid \phi)\). 무작위 누락. O
MAR (Missing At Random) \(p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)\). 공변량·관측값에만 의존. O
MNAR (Missing Not At Random) 위 둘 다 아님. \(y_{\mathrm{mis}}\) 자체에 의존. X
직관 — MAR 이 “랜덤” 이 아니다

“MAR = missing at random” 이라는 이름이 오해를 부른다. 실제로는 “관측된 정보 조건부로 랜덤” — 즉 공변량과 관측값을 통제한 후에 누락이 랜덤이라는 뜻.

예: “소득 > $1M 이면 무조건 회계감사 수행” 은 결정론적 선택 이지만 \(x\) (선언 소득) 에만 의존하므로 MAR. 따라서 무시 가능. 반면 “감사 대상자의 숨긴 소득 크기에 따라 감사 확률이 달라지면” MNAR — 숨긴 소득 자체를 모형에 넣지 않으면 편향.

4.4 Finite-Population vs Superpopulation Estimand

Ch.8 은 두 종류의 추정 목표를 구분한다.

유형 정의 예시
Finite-population 구체적 \(N\) 개 단위의 함수 이 학교 8 개의 평균 효과 \(\bar{\theta}_{\mathrm{fp}} = \frac{1}{8}\sum \theta_j\)
Superpopulation \(\theta\) (모형 모수) 의 함수 모든 가능 학교의 평균 효과 \(\mu\)

실무 관점: 관측 비율이 높을수록 finite-population 추론이 모형 가정에 덜 민감. 모집단 전체를 관측했다면 finite-population quantity 는 정확히 알려짐, 반면 superpopulation \(\theta\) 에는 여전히 불확실성.

4.5 Multiple Imputation

결측 데이터 처리의 표준 기법. 절차:

  1. Joint posterior \(p(\theta, \phi \mid x, y_{\mathrm{obs}}, I)\) 에서 \((\theta, \phi)^{(s)}\) 추출.
  2. 조건부 \(p(y_{\mathrm{mis}} \mid x, y_{\mathrm{obs}}, I, \theta^{(s)}, \phi^{(s)})\) 에서 \(y_{\mathrm{mis}}^{(s)}\) 추출.
  3. \((y_{\mathrm{obs}}, y_{\mathrm{mis}}^{(s)})\) 조합에서 완전 데이터 분석 수행.
  4. 결과를 Rubin’s rule 로 결합.

이것이 Chapter 18 의 주제.

4.6 Stability (SUTVA) 가정

“수집 과정이 데이터 값 자체를 바꾸지 않는다” 는 가정.

  • 실험: Stable Unit Treatment Value Assumption (SUTVA) — 한 단위에 적용한 처치가 다른 단위의 결과에 영향 주지 않음. 실패 사례: 비료 실험에서 이웃 구획 침투.
  • 일반: 완전 데이터 \(y\) 가 포함 벡터 \(I\) 에 영향 받지 않음.

SUTVA 가 깨지면 표기 자체를 확장해야 함 (예: Exercise 8.4).

5 § 8.3~8.7 — 다섯 가지 특별 경우

같은 ignorability 수식이 실제 설계에서 어떻게 구현되는지 요약.

5.1 § 8.3 Sample Surveys — 표본 조사

핵심 질문: 모집단 \(N\) 개 중 \(n\) 개만 관측. 모집단 특성을 어떻게 추정?

설계 포함 모형 \(p(I \mid x, \phi)\) 공변량 필요?
Simple random sample \(p(I) \propto \binom{N}{n}^{-1}\) (동일 확률) X
Stratified sample 층별 \(\pi_h\) 에 비례 층 지시자 \(x\) 필수
Cluster sample 군집 단위 선택 군집 지시자 \(x\)
Probability-proportional-to-size \(\pi_i \propto\) size \(x_i\) 크기 변수 \(x\) 필수

원칙: 포함 확률 \(\pi_i\)\(x_i\) 의 함수이면, \(x\) 를 회귀 공변량으로 모형에 넣으면 MAR 이 자동 성립 → ignorable.

5.2 § 8.4 Designed Experiments — 설계 실험

핵심 질문: 단위 \(i\) 에게 처치 \(T_i\) 를 배정. 처치 효과는?

Potential outcomes 프레임: 각 단위 \(i\)\(y_i(0)\) (통제) 과 \(y_i(1)\) (처치) 두 잠재 결과를 갖지만, 실제로는 하나만 관측 됨. 인과 추론의 핵심 문제가 결측 데이터 문제 로 재정립.

완전 데이터: \((y(0), y(1))\)\(2N\) 개 값. 관측 데이터: \(y = T \cdot y(1) + (1-T) \cdot y(0)\)\(N\) 개 값.

처치 배정 \(T\) 가 포함 지시자 역할.

5.3 § 8.5 Randomization 의 역할

무작위화가 ignorability 를 보장한다는 수학적 정당화.

  • Completely randomized: \(p(T \mid y(0), y(1), x) = p(T)\) — MCAR 에 해당.
  • Randomized block: \(p(T \mid y(0), y(1), x) = p(T \mid x)\) — MAR. 블록 지시자 \(x\) 를 모형에 포함하면 ignorable.
직관 — 왜 무작위화가 베이즈 분석을 “쉽게” 만드는가

무작위화 없이 관찰 연구를 하면, \(T\) 배정이 잠재 결과에 의존 할 수 있음 (confounding). 이 경우 배정 메커니즘 \(p(T \mid y(0), y(1), x)\) 를 모형에 명시해야 함 — MNAR 의 일종. 사후 추론이 이 미스터리 메커니즘의 가정에 민감해짐.

무작위화는 이 의존성을 끊는다 — \(T\) 가 잠재 결과와 독립적으로 배정됨. 결과적으로 배정 메커니즘을 무시 가능. 이것이 “무작위화가 인과 추론의 gold standard” 인 베이즈적 정당화.

5.4 § 8.6 Observational Studies — 관찰 연구

핵심 도전: 처치 배정이 무작위가 아님. Confounder \(x\) 로 조건화해야 ignorable.

기법:

  • Regression with covariates: \(y \mid x, T, \theta\) 를 공변량 포함 회귀로 모형화.
  • Propensity score: \(\pi(x) = P(T = 1 \mid x)\) 를 추정 후 matching 또는 weighting.
  • Principal stratification: 잠재 결과의 결합 분포를 잠재 변수로 분해.
  • Instrumental variables: 외생적 도구를 이용한 인과 효과 식별.

한계: “숨겨진 confounder” 가 있으면 (MNAR), 아무리 많은 공변량을 넣어도 편향 발생. 이 경우 감도 분석 이 중요.

5.5 § 8.7 Censoring and Truncation — 검열과 절단

Censoring: 값이 임계값을 넘으면 구간만 보고됨. 예: 생존 분석에서 추적 기간 끝까지 사건이 없으면 “이 시점 이후” 만 알려짐.

\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int_{c}^{\infty} p(y \mid \theta) \, dy \quad (\text{우측 검열}) \]

Truncation: 값이 임계값 밖이면 아예 표본에 포함 안 됨. 예: 최소 소득 미만인 가구는 조사에서 제외.

\[ p(y_{\mathrm{obs}} \mid y_{\mathrm{obs}} > c, \theta) = \frac{p(y_{\mathrm{obs}} \mid \theta)}{P(y > c \mid \theta)} \]

핵심 차이: 검열은 “임계값을 넘은 단위가 있었다” 는 정보가 있음 (건수 관측). 절단은 “그런 단위가 있었는지조차 모름”.

6 왜 Ch.8 도구가 필요한가

수집 과정을 무시하면 발생하는 사고:

  1. 자가선택 편향 — 관찰 연구에서 \(T\) 배정 메커니즘 무시 → 처치 효과 과대·과소 추정.
  2. 비응답 편향 — 설문에서 응답률 패턴 무시 → 모집단 특성 왜곡.
  3. 검열 누락 — 생존 분석에서 검열 단위를 “사건 없음” 으로 취급 → 생존 확률 과대.
  4. 표본 크기 혼동 — 층화·군집 표본에서 \(n\)유효 표본 크기 로 쓰면 구간이 잘못된 폭.
  5. SUTVA 붕괴 — 네트워크 실험에서 spillover 무시 → 잘못된 인과 결론.

Ch.8 는 이 모든 사고를 “수집 과정도 확률 모형의 일부” 라는 원칙으로 차단한다.

7 응용 분야

분야 Ch.8 도구의 역할
여론조사 층화·군집 반영, 비응답 조정
임상시험 무작위 배정의 ignorability, 중도 탈락 처리
역학 관찰 연구에서 confounder 조정, 자가선택
마케팅 A/B 실험의 사용자 처치 전달, 이탈 반영
생존 분석 우측·좌측·구간 검열, 관찰 종료
정책 평가 자연 실험, 도구 변수, 회귀 불연속
소셜 미디어 분석 노출 편향, 알고리즘 매개

8 예시 — 열 번의 6 의 세 가지 해석

8.1 완전 데이터 정의

세 경우 모두 주사위 던짐의 결과 시퀀스가 완전 데이터. 차이는 어떤 부분을 관측했는지.

8.2 경우 (i): 10 번만 던졌다 (데이터 전부 관측)

완전 데이터 = 관측 데이터 = \((6, 6, \ldots, 6)\), 10 개.

\[ p(y \mid \theta) = \theta^{10} \]

\(\theta = P(6)\). 공정한 주사위 \(\theta = 1/6\) 하 우도: \((1/6)^{10} \approx 1.65 \times 10^{-8}\). 강한 증거로 공정성 반박.

8.3 경우 (ii): 60 번 던진 중 6 만 10 개 보고

완전 데이터 = 60 번 결과 시퀀스. 관측 데이터 = “6 이 10 번 나왔다” 만.

포함 모형: \(I_i = 1\) iff \(y_i = 6\). 관측은 “모든 6 을 보고 함” 이라는 결정론적 규칙.

\[ p(y_{\mathrm{obs}} = \text{10 개 6} \mid n = 60, \theta) = \binom{60}{10} \theta^{10} (1-\theta)^{50} \]

\(\theta = 1/6\) 하 기대값: \(60/6 = 10\). 관측 10 개는 정확히 기대값. 아무 정보 없음.

8.4 경우 (iii): 10 번의 6 이 나올 때까지 계속 던짐

음이항 (negative binomial) 프로토콜. \(N\) (총 던짐) 이 랜덤 변수.

\[ p(N = 500 \mid \theta, r = 10) = \binom{500 - 1}{10 - 1} \theta^{10} (1-\theta)^{490} \]

\(\theta = 1/6\)\(E[N] = 10 \cdot 6 = 60\). 관측 500 은 기대값의 8 배. 6 의 빈도가 오히려 낮다 는 증거.

8.5 세 경우의 우도 비교

경우 우도 (up to constant) \(\theta\) 의 MLE
(i) \(\theta^{10}\) \(1\) (즉 “항상 6”)
(ii) \(\theta^{10} (1-\theta)^{50}\) \(1/6\) (공정)
(iii) \(\theta^{10} (1-\theta)^{490}\) \(1/50\) (6 희귀)

같은 숫자 10 + 관측값 내용 \(y_{\mathrm{obs}}\) 가 동일 함에도, 우도에 \((1-\theta)\) 의 지수가 다르게 들어가며 이것이 수집 프로토콜에서 온다. 우도 원리는 “\(\theta\) 에 대한 우도 함수의 모양이 결론을 결정” 이라고 했지만, 그 함수 자체가 수집 과정으로 바뀐다.

9 코드 — MAR vs MNAR 간단 시뮬레이션

결측 메커니즘에 따라 사후가 달라지는 것을 확인한다.

9.1 Step 1: 합성 데이터 + MAR/MNAR 결측 생성

import numpy as np
import pymc as pm
import arviz as az

rng = np.random.default_rng(42)

N = 200
x = rng.normal(0, 1, size=N)
y_full = 2 + 1.5 * x + rng.normal(0, 1, size=N)

# MAR: 결측 확률이 x 에만 의존 (y 자체에 무관)
p_mis_mar = 1 / (1 + np.exp(-0.8 * x))  # x 가 크면 결측 확률 증가
I_mar = rng.binomial(1, 1 - p_mis_mar, size=N).astype(bool)

# MNAR: 결측 확률이 y 자체에 의존
p_mis_mnar = 1 / (1 + np.exp(-0.8 * (y_full - y_full.mean())))
I_mnar = rng.binomial(1, 1 - p_mis_mnar, size=N).astype(bool)

print(f"MAR 관측 수:  {I_mar.sum()}, 관측 평균 y = {y_full[I_mar].mean():.2f}")
print(f"MNAR 관측 수: {I_mnar.sum()}, 관측 평균 y = {y_full[I_mnar].mean():.2f}")
print(f"진짜 평균 y:  {y_full.mean():.2f}")

기대 결과: MAR 관측 평균은 전체 평균 근처, MNAR 관측 평균은 체계적으로 편향.

9.2 Step 2: MAR 하에서 ignorable 분석 (x 를 공변량으로)

y_obs_mar = y_full[I_mar]
x_obs_mar = x[I_mar]

with pm.Model() as m_mar:
    a     = pm.Normal("a", 0, 10)
    b     = pm.Normal("b", 0, 10)
    sigma = pm.HalfNormal("sigma", 5)
    pm.Normal("y", mu=a + b * x_obs_mar, sigma=sigma, observed=y_obs_mar)
    idata_mar = pm.sample(2000, tune=1000, random_seed=42)

print(az.summary(idata_mar, var_names=["a", "b", "sigma"], round_to=2))

MAR 이므로 \(x\) 를 공변량으로 포함한 회귀가 자동으로 무시 가능 → 참값 \(a = 2\), \(b = 1.5\) 근처 추정.

9.3 Step 3: MNAR 을 MAR 처럼 다루면 편향

y_obs_mnar = y_full[I_mnar]
x_obs_mnar = x[I_mnar]

with pm.Model() as m_mnar_naive:
    a     = pm.Normal("a", 0, 10)
    b     = pm.Normal("b", 0, 10)
    sigma = pm.HalfNormal("sigma", 5)
    pm.Normal("y", mu=a + b * x_obs_mnar, sigma=sigma, observed=y_obs_mnar)
    idata_mnar_naive = pm.sample(2000, tune=1000, random_seed=42)

print(az.summary(idata_mnar_naive, var_names=["a", "b", "sigma"], round_to=2))

MNAR 이므로 \(x\) 조건화만으로는 부족. 결측 메커니즘 \(p(I \mid y, \phi)\) 를 추가 모형화해야 한다 (selection model 또는 pattern-mixture model). 이 경우 참값에서 체계적 편향 이 관찰되는 것이 정상.

10 실전 체크리스트

Ch.8 도구를 실무에 녹이는 8 단계.

  1. 수집 과정 기술 먼저 — 누가/어떻게/왜 관측되었는지 문서화.
  2. Stability 가정 점검 — SUTVA 성립하는가? spillover 있는가?
  3. MAR 여부 판단 — 결측이 \(y_{\mathrm{mis}}\) 에 직접 의존하는가?
  4. 공변량 포함 — 수집에 영향 주는 변수 \(x\) 를 회귀 공변량으로.
  5. 무작위화 여부 확인 — 실험이면 배정 메커니즘, 관찰이면 confounder 관리.
  6. Finite vs Superpopulation — 관심 estimand 가 어느 층위인가?
  7. MNAR 가능성이면 감도 분석 — selection model 과 pattern-mixture 대안 비교.
  8. 사후 예측 점검도 설계 반영\(y^{\mathrm{rep}}\) 생성이 같은 수집 규칙 하에서 이뤄져야.

11 관련 주제

선행 지식

Ch.8 세부 절 (후속 작성 예정)

  • 01-8-1-* — § 8.1~8.2 심화 (주사위 예시 완결, ignorability 정리, MAR 삼분류)
  • 01-8-2-* — § 8.3~8.5 (표본조사·설계실험·무작위화 수리적 전개)
  • 01-8-3-* — § 8.6~8.10 (관찰연구·검열·절단·연습문제)

후속 주제

  • Ch.9 Decision Analysis — 관측 수집의 효용 계산
  • Ch.18 Missing Data — multiple imputation 상세, MNAR 모형화
  • Ch.22 Finite Mixture Models — selection model 의 혼합 모형 표현

관련 개념

  • Rubin (1976) — Inference and Missing Data (MCAR/MAR/MNAR 원저)
  • Rosenbaum & Rubin (1983) — Propensity score 선구
  • Rubin (1987) — Multiple Imputation 교과서
  • sklearn.impute, IterativeImputer, mice R 패키지 — 현대 도구
  • SUTVA 와 network interference — 소셜 네트워크·플랫폼 실험의 현대 도전

Subscribe

Enjoy this blog? Get notified of new posts by email: