1 개요 — 세 절을 한 포스트로 묶는 이유
Ch.8 § 8.1~8.3 는 “왜 수집이 문제인가 → 어떤 언어로 수집을 기술할까 → 가장 단순한 수집(표본조사)에서 그 언어가 어떻게 작동하는가” 의 일관된 흐름이다.
| 절 | 역할 | 한 줄 요약 |
|---|---|---|
| 8.1 | 동기 | 우도 원리 오용 폭로 — “같은 10 개 6” 이 세 다른 증거가 되는 이유 |
| 8.2 | 언어 설정 | \((y, I)\) 분해·완전/관측 우도·ignorability·MAR·distinct parameters |
| 8.3 | 첫 응용 | 표본조사 — SRS, 층화, 군집, PPS 가 모두 같은 ignorable 수식의 특수 사례 |
Overview (01-8-0) 가 결론과 도구를 지도로 제시했다면, 이 포스트는 각 수식의 유도, 각 분류의 경계, 실전 예제의 수치 구조를 보인다.
2 § 8.1 — 우도 원리의 오용과 두 일반 메시지
2.1 순진한 베이즈 학생의 주장
베이즈 추론을 갓 배운 학생이 흔히 범하는 오류.
모든 추론은 관측 데이터 \(y_{\mathrm{obs}}\) 에 조건부로 이루어진다. 따라서 같은 \(y_{\mathrm{obs}}\) 와 같은 우도 함수 \(p(y \mid \theta)\), 같은 사전 \(p(\theta)\) 가 주어지면 수집 과정은 무관하다. 이것이 우도 원리 (likelihood principle) 의 함의 아닌가?
Gelman 의 반박 (§ 8.1, p.198): 이 주장의 결함은 “관측 데이터” 의 정의에 있다. “관측 데이터” 는 숫자 벡터만이 아니라 그 숫자들이 어떻게 생겨났는지에 대한 정보까지 포함해야 한다. 수집 규칙이 바뀌면 \(y_{\mathrm{obs}}\) 에 대응하는 우도 함수 자체가 바뀐다.
2.2 주사위 세 경우 완결판
overview 에서 요약했던 주사위 예시를 수식으로 끝까지 풀어본다. \(\theta = P(\text{한 번 던져 6})\) 로 두자.
2.2.1 경우 (i) — “우리는 10 번만 굴렸다”
완전 데이터 = 관측 데이터 = 길이 10 의 Bernoulli 시퀀스. 데이터 생성은 고정된 \(N = 10\).
\[ p(y_{\mathrm{obs}} \mid \theta) = \theta^{10} (1 - \theta)^0 = \theta^{10} \]
MLE: \(\hat{\theta} = 1\). 공정한 주사위 \(\theta = 1/6\) 하 우도 = \((1/6)^{10} \approx 1.65 \times 10^{-8}\). 공정성 가설 강하게 반박.
2.2.2 경우 (ii) — “60 번 굴렸는데 6 만 10 개 보고했다”
완전 데이터 = 60 번 Bernoulli 시퀀스. 관측 데이터 = “60 개 중 6 이 10 번 나왔다” 는 요약 통계량. 포함 지시자 \(I_i = 1\) iff \(y_i = 6\) — 결정론적 필터.
데이터 생성은 이항:
\[ p(\text{10 개 6} \mid n = 60, \theta) = \binom{60}{10} \theta^{10} (1 - \theta)^{50} \]
\(\theta = 1/6\) 에서 평균 \(= 60/6 = 10\). 관측값 = 정확히 평균. 정보 없음.
2.2.3 경우 (iii) — “6 이 10 번 나올 때까지 계속 굴렸다 (500 번 걸림)”
총 던짐 수 \(N\) 이 랜덤 변수. 음이항:
\[ p(N = 500 \mid r = 10, \theta) = \binom{500 - 1}{10 - 1} \theta^{10} (1 - \theta)^{490} \]
\(\theta = 1/6\) 하 \(\mathbb{E}[N] = r / \theta = 60\). 관측 \(N = 500\) 은 평균의 8 배. MLE \(\hat{\theta} = 10/500 = 1/50\). 6 의 빈도가 오히려 낮다 는 증거.
2.2.4 세 우도의 비교
| 경우 | 우도 (상수 제외) | MLE \(\hat{\theta}\) | \(\theta = 1/6\) 하 증거 |
|---|---|---|---|
| (i) | \(\theta^{10}\) | \(1\) | 공정성 반박 (8 자리 수) |
| (ii) | \(\theta^{10} (1-\theta)^{50}\) | \(1/6\) | 완전 중립 |
| (iii) | \(\theta^{10} (1-\theta)^{490}\) | \(1/50\) | 6 이 드물다 |
세 경우 모두 \(\theta^{10}\) 항은 같다. 다른 것은 \((1 - \theta)\) 의 지수 뿐. 경우 (i) 에는 “6 이 아닌 결과” 가 없으므로 지수 0. 경우 (ii) 에는 50 개, 경우 (iii) 에는 490 개.
이 지수는 수집 규칙이 “6 이 아닌 결과” 를 얼마나 많이 지배했는가 를 센다. 우도 원리가 “우도 함수의 모양이 결론을 결정한다” 고 말할 때, 그 모양 자체가 수집 규칙으로 바뀐다. 우도 원리가 틀린 게 아니라, 순진한 적용이 “관측값 = (6, 6, …, 6)” 을 수집 규칙과 독립적으로 취급한 게 오류.
2.3 두 일반 메시지
Gelman 은 Ch.8 전체를 관통하는 두 원칙을 명시한다 (§ 8.1, p.197).
- 수집 과정을 기술하는 변수를 분석에 포함하라 — 일반적으로 회귀 공변량으로.
- 층화 표본 → 층 지시자 \(x\)
- 무작위 블록 실험 → 블록 지시자 \(x\)
- 관찰 연구 → 치료 선택에 영향 주는 confounder \(x\)
- 부분 정보는 확률 모형으로 연결하라 — 검열 (구간 정보), 결측 (완전 손실), 절단 (임계값 필터) 은 모두 명시적 \(p(I \mid y, \phi)\) 로 다룬다.
두 원칙의 근본 이유: \(I\) 의 패턴 자체가 정보이기 때문. 공변량 \(x\) 를 통해 \(I\) 의 의존성을 풀거나, \(p(I \mid y, \phi)\) 를 직접 적어야 그 정보가 사후에 살아남는다.
2.4 네 실무 지침
Ch.8 § 8.1 은 네 가지 구체적 지침을 나열한다.
| 지침 | 요지 | 수식적 근거 |
|---|---|---|
| 1 | 관측 패턴 자체가 정보일 수 있다 | \(I\) 를 모형에 포함 |
| 2 | Ignorable 설계 (무작위화) 가 모델 선택에 덜 민감 | § 8.5 에서 증명 |
| 3 | 공변량 많을수록 조건부 타당, 모델 민감 | § 8.6 의 trade-off |
| 4 | 사후 예측 점검 \(y^{\mathrm{rep}}\) 도 설계에 의존 | Ch.6 의 \(y^{\mathrm{rep}}\) 생성이 \(p(I)\) 를 따라야 함 |
Ch.6 의 사후 예측 점검은 “\(y^{\mathrm{rep}}\) 가 실제 \(y_{\mathrm{obs}}\) 처럼 보이는가” 를 확인한다. 실제 \(y_{\mathrm{obs}}\) 는 특정 수집 규칙의 산물이다 — 예를 들어 층화 표본이면 각 층에서 \(n_j\) 개 뽑힌 구조.
\(y^{\mathrm{rep}}\) 를 단순 무작위 추출로 시뮬레이션하면 \(y^{\mathrm{rep}}\) 의 층별 분포가 실제와 달라진다. 그러면 점검 통계량의 tail-area 가 왜곡된다. Ch.8 의 교훈은 \(y^{\mathrm{rep}}\) 생성도 \(p(I)\) 를 따라야 한다는 것. 설계가 점검에까지 침투한다.
3 § 8.2 — 관측·결측 데이터 프레임워크
3.1 표기법
\(y = (y_1, \ldots, y_N)\) 은 잠재적 완전 데이터 (각 \(y_i\) 는 스칼라 또는 벡터). \(I = (I_1, \ldots, I_N)\) 은 같은 차원의 포함 지시자 행렬:
\[ I_{ij} = \begin{cases} 1 & y_{ij} \text{ 관측됨} \\ 0 & y_{ij} \text{ 결측됨} \end{cases} \]
이로부터 관측·결측 인덱스 집합과 벡터를 정의한다.
\[ \mathrm{obs} = \{(i,j) : I_{ij} = 1\}, \quad \mathrm{mis} = \{(i,j) : I_{ij} = 0\} \]
\[ y_{\mathrm{obs}} = \{y_{ij} : (i,j) \in \mathrm{obs}\}, \quad y_{\mathrm{mis}} = \{y_{ij} : (i,j) \in \mathrm{mis}\} \]
가정: \(I\) 자체는 항상 관측 가능. 즉 어떤 값이 빠졌는지 (누가 응답 안 했는지) 는 알고 있다. 이 가정이 깨지는 경우 (모집단 크기 자체를 모르는 경우) 는 모수화로 우회 (Ch.8 p.199 각주).
| 상황 | Observed | Complete | \(I\) 의 의미 |
|---|---|---|---|
| 표본 조사 | 표본 \(n\) 개 | 모집단 \(N\) 개 | 누가 표본에 뽑혔나 |
| 실험 | 각 단위의 실제 처치 결과 | 모든 처치 × 모든 단위 | 어느 처치가 배정됐나 |
| 반올림 | 반올림된 관측값 | 정확한 값 | 정확도 수준 |
| 비의도적 결측 | 관측된 값 | 관측 + 결측 전체 | 응답 여부 |
핵심 통찰: 실험조차 “결측 데이터 문제” 로 재개념화된다. 잠재 결과 \(y_i(0), y_i(1)\) 중 하나만 관측 — 나머지는 자동으로 결측. 이것이 인과 추론의 Neyman-Rubin 프레임.
3.2 Stability 가정 (SUTVA)
Ch.8 의 모든 수식은 “\(y\) 가 \(I\) 에 영향받지 않는다” 는 가정을 전제한다. 즉 관측 행위가 데이터 값을 바꾸지 않는다.
실험 문맥의 이름: Stable Unit Treatment Value Assumption (SUTVA) — 한 단위에 적용된 처치가 다른 단위의 결과에 영향 없음.
실패 사례:
- 농업 실험의 비료 침투 (Gelman, p.199): 이웃 구획 간 비료가 섞여 \(y_i\) 가 \(T_j\) (\(j \ne i\)) 에 의존. 완전 데이터 구조 자체가 확장돼야 함.
- 네트워크 실험의 spillover: 페이스북 광고 실험에서 친구의 노출이 본인 결과에 영향.
- 격리 안 된 약물 시험: 한 환자의 회복이 이웃 환자의 바이러스 노출을 줄임.
SUTVA 가 깨지면 \(y\) 의 공간을 모든 가능 \(I\) 값에 대한 잠재 결과 벡터로 확장해야 한다 — Exercise 8.4 가 이 확장을 다룸.
3.3 완전 데이터 우도 vs 관측 데이터 우도
완전 데이터 우도 (식 8.1). 완전 데이터와 포함 벡터의 결합 분포:
\[ p(y, I \mid \theta, \phi) = p(y \mid \theta) \, p(I \mid y, \phi) \tag{8.1} \]
이 분해가 Ch.8 의 핵심 언어.
- \(p(y \mid \theta)\) — 데이터 모형 (data model). 과학적 관심사의 모수 \(\theta\) 를 가짐. 수집 과정 무관.
- \(p(I \mid y, \phi)\) — 포함 모형 (inclusion model). 어떤 값이 왜 관측되는지 기술. 모수 \(\phi\) 는 일반적으로 과학적 관심사 아님.
관측 데이터 우도. 실제 추론에 쓰이는 건 \((y_{\mathrm{obs}}, I)\) 의 결합. 결측 부분을 적분으로 없앤다:
\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int p(y, I \mid \theta, \phi) \, dy_{\mathrm{mis}} \]
공변량 \(x\) 가 완전 관측되면 모든 표현이 \(x\) 에 조건부가 된다:
\[ p(y, I \mid x, \theta, \phi) = p(y \mid x, \theta) \, p(I \mid x, y, \phi) \]
(8.1) 의 핵심은 \(p(y \mid \theta)\) 와 \(p(I \mid y, \phi)\) 를 따로 적기로 결심 했다는 점. 통합 우도 \(p(y, I \mid \psi)\) 하나로 써도 수학은 같지만, 두 층위를 분리하지 않으면 “수집 과정이 잘 됐는가” 를 독립적으로 점검할 수 없다.
비유: 식당 리뷰 데이터를 분석하는데 (a) 사람들이 실제로 느낀 만족도 \(y\) 의 모형과 (b) 누가 리뷰를 쓰기로 결심했는지 \(I\) 의 모형을 섞어 버리면, “리뷰가 긍정 편향인 건 음식이 정말 좋아서인가, 불만 있는 사람이 귀찮아서 안 써서인가” 를 구분 못 한다. (8.1) 의 분해가 이 질문을 수학적으로 분리 가능하게 만든다.
3.4 결합 사후분포 유도
\((\theta, \phi)\) 의 결합 사후는 베이즈 규칙 그대로:
\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \, p(y_{\mathrm{obs}}, I \mid x, \theta, \phi) \]
우변의 우도를 (8.1) 로 전개하고 \(y_{\mathrm{mis}}\) 를 적분하면:
\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \]
관심이 \(\theta\) 에만 있다면 \(\phi\) 를 적분해 marginal 을 얻는다:
\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \, d\phi \tag{8.2} \]
복잡해 보이는 이중 적분이 ignorability 가 성립하면 극적으로 단순화된다.
3.5 Ignorability — 정의와 충분 조건
수집 과정이 무시 가능하다는 것은 다음 등식을 의미한다:
\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x, y_{\mathrm{obs}}) \tag{8.3} \]
즉 \(I\) 조건을 떼어내도 같은 사후가 나온다. 우변의 단순한 사후는 \(p(\theta \mid x, y_{\mathrm{obs}}) \propto p(\theta \mid x) \int p(y \mid x, \theta) \, dy_{\mathrm{mis}}\) — 포함 모형을 전혀 쓰지 않은 계산.
두 가지 충분 조건:
3.5.1 조건 1 — Missing At Random (MAR)
\[ p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi) \]
즉 \(I\) 의 분포가 \(y_{\mathrm{mis}}\) 에 의존하지 않는다. 주어진 \(\phi\) 에서 결측 메커니즘이 관측 가능한 것들 (\(x\) 와 \(y_{\mathrm{obs}}\)) 에만 의존.
“Missing at random” 이라는 이름이 오해를 부른다. 실제 정의는:
\(x\) 와 \(y_{\mathrm{obs}}\) 를 조건화한 후에야 “랜덤” 하다.
예 (Gelman, p.203): “선언 소득 > $1M 이면 전수 회계감사” 는 결정론적 규칙이지만 \(x\) (선언 소득) 에만 의존하므로 MAR. “랜덤” 이 아닌 결정론적 배정도 MAR 일 수 있다.
3.5.2 조건 2 — Distinct Parameters
\[ p(\phi \mid x, \theta) = p(\phi \mid x) \]
즉 \(\phi\) 의 사전이 \(\theta\) 에 독립. 좀 더 약한 표현: \(\theta\) 와 \(\phi\) 가 사전에서 정보를 공유하지 않음.
3.6 Ignorable 단순화의 유도
MAR + distinct parameters 가정 하에서 식 (8.2) 를 전개해보자. MAR 로 인해:
\[ p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi) \]
이는 \(y_{\mathrm{mis}}\) 에 무관하므로 \(y_{\mathrm{mis}}\) 적분 밖으로 빠진다:
\[ \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} = p(I \mid x, y_{\mathrm{obs}}, \phi) \int p(y \mid x, \theta) \, dy_{\mathrm{mis}} \]
마지막 적분은 \(y_{\mathrm{mis}}\) 를 적분해 없앤 것으로 \(p(y_{\mathrm{obs}} \mid x, \theta)\). 따라서 (8.2) 는:
\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) \int p(\phi \mid x, \theta) \, p(I \mid x, y_{\mathrm{obs}}, \phi) \, d\phi \]
distinct parameters 로 \(p(\phi \mid x, \theta) = p(\phi \mid x)\). 괄호 안의 \(\phi\) 적분은 \(\theta\) 에 무관한 상수. 따라서:
\[ p(\theta \mid x, y_{\mathrm{obs}}, I) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) = p(\theta \mid x, y_{\mathrm{obs}}) \]
이것이 식 (8.3). \(I\) 를 쓰지 않아도 같은 사후가 나온다.
MAR 혼자로는 부족하다. MAR 이 보장하는 건 “포함 모형을 \(y_{\mathrm{obs}}\) 조건부로 쓸 수 있다” 는 것. 그런데 distinct parameters 가 없으면 \(\phi\) 를 통해 \(\theta\) 에 관한 정보가 사전에서 흘러 들어올 수 있다.
예: “조사 연구자가 \(\theta\) (모집단 평균) 가 높을 때 대답 받기 쉽다고 믿고 \(\phi\) 의 사전을 \(\theta\) 에 의존시킨다” → MAR 이어도 \(\phi\) 적분이 \(\theta\) 함수가 됨. 두 조건이 모두 있어야 상수로 빠진다.
실무적으로 distinct parameters 는 대부분 자연스럽게 성립한다 (응답률 모수와 공 모집단 모수가 사전에서 얽힐 이유 없음). MAR 이 진짜 걸리는 지점.
3.7 MAR 의 세 층위 분류
Rubin (1976) 의 고전 분류. 조건이 강해질수록 범주가 작아진다.
| 분류 | 조건 | 직관 | 무시 가능? |
|---|---|---|---|
| MCAR | \(p(I \mid x, y, \phi) = p(I \mid \phi)\) | 결측이 무작위 — 순전히 우연 | O |
| MAR | \(p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)\) | 관측 가능한 것들에만 의존 | O |
| MNAR | 위 두 조건 모두 실패 | 결측값 자체 에 의존 | X |
포함 관계: \(\text{MCAR} \subset \text{MAR}\). MCAR 가 가장 강하고 (\(I\) 가 \((x, y)\) 모두와 독립), MNAR 은 가장 약함 (\(y_{\mathrm{mis}}\) 에 직접 의존).
MNAR 예시 (Gelman, p.203): “세금 감사에서 숨긴 소득 \(y\) 가 클수록 감사 확률이 높다” — \(p(I \mid y)\) 가 \(y_{\mathrm{mis}}\) 에 의존. 공변량 \(x\) 조건화만으로는 편향 해소 불가. 감사 메커니즘 자체를 모형화해야 함 (selection model 또는 pattern-mixture model).
3.8 Ignorability 의 여섯 분류
Ch.8 § 8.2 는 설계를 ignorable/nonignorable × known/unknown 축으로 교차 분류한다. 여기에 “strongly ignorable” 이 추가되어 실제로는 다섯~여섯 범주.
| 분류 | 수식 | 사례 |
|---|---|---|
| Ignorable & known, no covariates | \(p(I \mid x, y, \phi) = p(I)\) | Simple random sampling, completely randomized experiment |
| Ignorable & known, given \(x\) | \(p(I \mid x, y, \phi) = p(I \mid x, \phi)\) | Stratified sampling, randomized block experiment |
| Strongly ignorable & known | \(p(I \mid x, y, \phi) = p(I \mid x)\) | 완전 관측 공변량에만 의존. \(y\) 영향 전혀 없음 |
| Ignorable & unknown | 비무작위지만 \(x\) 조건부로 MAR | 관찰 연구에서 propensity score 로 조정 |
| Nonignorable & known | 검열·반올림 | 생존 분석의 우측 검열 |
| Nonignorable & unknown | 미지 확률로 \(y\) 에 의존 | 관찰 연구의 hidden confounder |
“Strongly ignorable” 은 강화된 ignorable — “ignorable but not strongly ignorable” 의 예는 순차 실험에서 이전 관측 결과에 기반해 다음 배정 확률이 바뀌는 경우 (adaptive design). 이 경우 \(I\) 가 \(y_{\mathrm{obs}}\) 에 의존하긴 해도 MAR 은 성립 — propensity score 언어는 strongly ignorable 에서만 깔끔하게 적용됨.
3.9 Propensity Score
Strongly ignorable 설계에서 각 단위의 포함 확률:
\[ \pi_i = \Pr(I_i = 1 \mid X) \]
를 propensity score 라 한다. Rosenbaum-Rubin (1983) 의 핵심 결과:
Strongly ignorable 설계에서 \(\pi\) 만 조건화해도 ignorable.
즉 다변량 \(x\) 대신 한 차원 요약 \(\pi(x)\) 로 조건화 가능. 대규모 공변량 공간의 matching·weighting 이 단일 점수로 귀결.
주의 (Gelman, p.204):
- \(\pi\) 만으로는 사후 예측 replication 부족. 완전 RCT (\(\pi_i = 1/2\)) 와 독립 Bernoulli 배정 (\(\pi_i = 1/2\)) 이 같은 propensity 지만 다른 설계다.
- 단순 무작위 표본과 일부 등확률 층화 표본이 같은 \(\pi\) 를 가질 수 있음. 모델 점검에는 전체 설계 정보 필요.
3.10 Finite-Population vs Superpopulation
Ch.8 은 두 종류의 추정 목표를 구분한다.
| 유형 | 정의 | 예 |
|---|---|---|
| Finite-population | 구체적 \(N\) 개 단위의 함수 | \(\bar{y} = \frac{1}{N}\sum_{i=1}^N y_i\) |
| Superpopulation | 모수 \(\theta\) 의 함수 | \(\mu = \mathbb{E}[y_i \mid \theta]\) |
핵심 결과: 관측 비율이 높을수록 finite-population 추론이 모형 가정에 덜 민감.
- 전수 조사 (\(n = N\)) 면 finite-population quantity 는 정확히 알려짐. Superpopulation \(\theta\) 에는 여전히 불확실성.
- 부분 조사 (\(n < N\)) 면 결측 \(y_{\mathrm{mis}}\) 예측에 모형 필요 → 모형 가정 진입.
계산은 두 단계로 분리:
- Superpopulation 단계: \(p(\theta, \phi \mid x, y_{\mathrm{obs}}, I)\) 에서 \((\theta, \phi)^{(s)}\) 추출.
- Finite-population 단계: \(p(y_{\mathrm{mis}} \mid x, y_{\mathrm{obs}}, I, \theta^{(s)}, \phi^{(s)})\) 에서 \(y_{\mathrm{mis}}^{(s)}\) 추출.
각 \((y_{\mathrm{obs}}, y_{\mathrm{mis}}^{(s)})\) 조합에서 관심 함수 평가 → 사후 표본. 이것이 multiple imputation 의 베이즈적 정의 (Ch.18).
3.11 비의도적 결측 — 소규모 vs 대규모
Gelman (p.205) 의 실무적 조언:
- 결측 비율이 작으면 — ignorable 가정 (공변량 조건부) 이 보통 안전.
- 결측 비율이 크면 (50% 이상) — ignorability 가정에 극도로 민감. 인과 추론의 잠재 결과 (50% 미관측) 가 대표 예. Selection model 과 pattern-mixture model 을 모두 적합해 감도 분석 필수.
4 § 8.3 — 표본 조사
4.1 왜 표본조사가 첫 응용인가
§ 8.1 에서 “수집 과정이 문제” 라 했고 § 8.2 에서 “ignorable 이면 \(I\) 무시 가능” 이라 증명했다. § 8.3 은 가장 단순한 ignorable 설계 — 표본조사 — 에서 이 언어가 어떻게 작동하는지를 보인다. 네 설계 모두 식 (8.1) 의 특수화.
4.2 Simple Random Sampling (SRS)
\(N\) 명의 모집단에서 크기 \(n\) 의 단순 무작위 표본. \(y_i\) = 주당 식비 지출. 관심: 모집단 평균 \(\bar{y}\).
모집단은 교환 가능하다고 가정:
\[ p(y) = \int \prod_{i=1}^N p(y_i \mid \theta) \, p(\theta) \, d\theta \]
SRS 의 수학적 정의:
\[ p(I \mid y, \phi) = p(I) = \begin{cases} \binom{N}{n}^{-1} & \sum I_i = n \\ 0 & \text{otherwise} \end{cases} \]
이 포함 모형은:
- \(y\) 에 의존 안 함 (→ MAR, 나아가 MCAR).
- \(\phi\) 없음 (→ known).
- \(x\) 에 의존 안 함 (→ strongly ignorable, no covariates).
따라서 식 (8.4) 형태로 가장 단순한 범주. Propensity score \(\pi_i = n/N\) 모두 같음.
4.3 Finite-population mean 의 분해
관심량 \(\bar{y}\) 를 observed/missing 로 분해:
\[ \bar{y} = \frac{n}{N} \bar{y}_{\mathrm{obs}} + \frac{N - n}{N} \bar{y}_{\mathrm{mis}} \tag{8.5} \]
\(\bar{y}_{\mathrm{obs}}\) 는 관측된 값 — 완전히 알려짐. 불확실성은 오직 \(\bar{y}_{\mathrm{mis}}\) 에서 온다.
베이즈 시뮬레이션 절차:
- \(\theta^{(s)} \sim p(\theta \mid y_{\mathrm{obs}})\) 추출.
- \(y_i^{(s)} \sim p(y_i \mid \theta^{(s)})\) for \(i \in \mathrm{mis}\) — 결측값 imputation.
- \(\bar{y}_{\mathrm{mis}}^{(s)} = \frac{1}{N-n}\sum_{i \in \mathrm{mis}} y_i^{(s)}\) 계산.
- (8.5) 로 \(\bar{y}^{(s)}\) 구성.
4.4 정규 근사 — 식 (8.6)
\(N - n\) 이 크면 중심극한정리로:
\[ p(\bar{y}_{\mathrm{mis}} \mid \theta) \approx \mathrm{N}\left(\mu, \frac{\sigma^2}{N - n}\right) \]
\(n\) 도 크면 \(\theta = (\mu, \sigma)\) 의 사후가 정규 근사되어, 결합하면 정규의 정규 혼합 = 정규. 결과:
\[ \mathbb{E}[\bar{y}_{\mathrm{mis}} \mid y_{\mathrm{obs}}] \approx \bar{y}_{\mathrm{obs}} \]
\[ \mathrm{var}[\bar{y}_{\mathrm{mis}} \mid y_{\mathrm{obs}}] \approx \mathrm{var}[\mu \mid y_{\mathrm{obs}}] + \mathbb{E}\left[\frac{\sigma^2}{N-n} \mid y_{\mathrm{obs}}\right] \approx \frac{s_{\mathrm{obs}}^2}{n} + \frac{s_{\mathrm{obs}}^2}{N-n} = \frac{N \cdot s_{\mathrm{obs}}^2}{n(N-n)} \]
(8.5) 와 결합해 최종 근사:
\[ \bar{y} \mid y_{\mathrm{obs}} \approx \mathrm{N}\left(\bar{y}_{\mathrm{obs}}, \left(\frac{1}{n} - \frac{1}{N}\right) s_{\mathrm{obs}}^2\right) \tag{8.6} \]
이것이 유한 표본조사의 정규 이론 추론에 대한 베이즈 정당화.
\(n = N\) (전수) 이면 \(1/n - 1/N = 0\) — \(\bar{y}\) 가 정확히 알려짐. 표본이 전체가 되면 불확실성 없음.
\(N \to \infty\) (무한 모집단) 이면 \(1/n - 1/N \to 1/n\) — 고전적 평균의 분산.
차이 \(1/n - 1/N\) 은 finite-population correction (FPC). 표본 비율 \(n/N\) 이 클수록 표준오차가 줄어든다. 고전 표본조사 이론의 핵심 공식이 베이즈에서 자연스럽게 도출.
정규 사전 + 정규 우도에서 정확한 결과는 \(t_{n-1}\): \(\bar{y} \mid y_{\mathrm{obs}} \sim t_{n-1}(\bar{y}_{\mathrm{obs}}, (1/n - 1/N) s_{\mathrm{obs}}^2)\). 자유도 \(n-1\) 은 \(\sigma^2\) 추정의 불확실성에서 온다.
4.5 Stratified Sampling
모집단을 \(J\) 개 층 (stratum) 으로 나누고, 각 층 \(j\) 에서 크기 \(n_j\) 의 SRS. 층 지시자:
\[ x_{ij} = \begin{cases} 1 & i \text{ in stratum } j \\ 0 & \text{otherwise} \end{cases} \]
포함 모형: \(x\) 조건부로 ignorable. 즉 \(p(I \mid x, y, \phi) = p(I \mid x)\) — strongly ignorable given \(x\).
분석 전략:
- 각 층 \(j\) 에서 \(y_i \mid \theta_j\) 의 분포를 모형화 → 층별 모수 \(\theta_1, \ldots, \theta_J\).
- 층 간 정보 공유를 위해 계층 모형을 부여: \(\theta_j \sim p(\theta \mid \mu, \tau)\).
- Finite-population 추정량: \(\bar{y} = \sum_{j=1}^J \frac{N_j}{N} \bar{y}_j\).
\(n_j/n\) 와 \(N_j/N\) 이 같을 필요 없음. Finite-population 베이즈 추론이 표본 비율 왜곡을 자동 보정.
층 \(j\) 안에서는 \(n_j\) 명이 \(N_j\) 중에서 SRS 로 뽑힘 — 층 내부는 완전 무작위. 층 간 차이는 오직 \(x\) (층 지시자) 에만 의존. 따라서 \(x\) 를 모형에 넣으면 \(I\) 의 의존성이 모두 공변량으로 흡수 → ignorable.
반대로 \(x\) 를 넣지 않고 SRS 처럼 분석하면? 층 간 분산이 무시되어 표준오차가 왜곡됨. “왜곡” 의 방향은: 비례 할당 (\(n_j/n = N_j/N\)) 일 때 단순 평균은 편향되지 않지만 표준오차가 과대 추정 (층화가 분산을 줄여 주는데 이를 반영 못 함). 비비례 할당이면 평균까지 편향.
4.6 Cluster Sampling
모집단을 군집 (cluster) 으로 묶고, 군집 단위로 무작위 선택 → 선택된 군집 내 모든 단위 관측 (one-stage) 또는 일부 단위 관측 (two-stage).
포함 모형: 군집 지시자가 공변량. Strongly ignorable given cluster indicator.
특징: 같은 군집 내 단위들은 급내상관. 분산이 SRS 보다 크다 (층화와 반대).
4.7 Probability-Proportional-to-Size (PPS)
크기 변수 \(x_i\) 에 비례하는 포함 확률: \(\pi_i \propto x_i\). 예: 학교 조사에서 학생 수에 비례해 학교 선택.
포함 모형: \(p(I_i = 1 \mid x_i) \propto x_i\). Strongly ignorable given \(x\) — \(x\) 를 공변량으로 포함하면 ignorable.
Horvitz-Thompson 추정량 \(\hat{\bar{y}}_{HT} = \frac{1}{N}\sum \frac{y_i}{\pi_i}\) 이 빈도주의 표준이지만, 베이즈에서는 \(y \mid x, \theta\) 의 회귀 모형으로 \(x\) 를 흡수하는 것이 자연스러움.
4.8 1988 CBS 여론조사 — 16 strata 계층 다항 예제
Ch.8 § 8.3 의 실전 예제 (p.207~209). 1988 미국 대통령선거 (Bush vs Dukakis) 예비 조사. 1447 명이 16 개 층 (region × density) 에 분포. 각 응답자는 Bush / Dukakis / 무의견 중 선택.
4.8.1 데이터 구조
층 \(j\) 에서:
- \(n_j\): 표본 수 (1~2 명 ~ 180 명 범위)
- \(y_{\mathrm{obs}\, j} = (y_{\mathrm{obs}\, 1j}, y_{\mathrm{obs}\, 2j}, y_{\mathrm{obs}\, 3j})\): 세 카테고리 카운트
- 모형: \(y_{\mathrm{obs}\, j} \sim \mathrm{Multinomial}(n_j; \theta_{1j}, \theta_{2j}, \theta_{3j})\)
4.8.2 단순 비계층 모형
각 층에 독립 Dirichlet\((1,1,1)\) 사전 → 층별 사후 Dirichlet\((y_{\mathrm{obs}\, 1j} + 1, y_{\mathrm{obs}\, 2j} + 1, y_{\mathrm{obs}\, 3j} + 1)\). 관심 통계량:
\[ \sum_{j=1}^{16} \frac{N_j}{N}(\theta_{1j} - \theta_{2j}) \tag{8.7} \]
각 층의 Bush - Dukakis 격차를 모집단 비중으로 가중. Gelman 의 결과 (Figure 8.1a): 중심 0.097, 사후 중앙값이 비층화 분석 (Chapter 3.4, 0.098) 보다 약간 작음. 폭은 약간 좁음 — 층화 설계의 정보를 반영하면 표준오차 감소.
비층화 분석은 “모든 응답자가 같은 \((\theta_1, \theta_2, \theta_3)\) 에서 왔다” 가정 → Dirichlet 사전이 세 카테고리에 각각 1 명씩 가상 투표 추가.
16 strata 분석은 각 층에 각각 Dirichlet 사전 → 16 × 3 = 48 명의 가상 투표 추가. Dirichlet 파라미터를 \(1/16\) 로 조정하면 두 분석이 같은 중앙값.
여기서 배울 점: 계층 구조를 도입하면 사전의 “총 가상 표본 수” 가 바뀐다. 사전 민감도 분석 시 고려 필요.
4.8.3 계층 모형
로지트 변환으로 모수 재표현 (§ 8.3, p.209):
\[ \alpha_{1j} = \frac{\theta_{1j}}{\theta_{1j} + \theta_{2j}} \quad (\text{Bush 선호 조건부 확률}) \]
\[ \alpha_{2j} = 1 - \theta_{3j} \quad (\text{선호 표현 확률}) \]
\[ \beta_{1j} = \mathrm{logit}(\alpha_{1j}), \quad \beta_{2j} = \mathrm{logit}(\alpha_{2j}) \]
\((\beta_{1j}, \beta_{2j})\) 를 16 층에 대해 이변량 정규로 묶음:
\[ \begin{pmatrix} \beta_{1j} \\ \beta_{2j} \end{pmatrix} \sim \mathrm{N}\left(\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \tau_1^2 & \rho \tau_1 \tau_2 \\ \rho \tau_1 \tau_2 & \tau_2^2 \end{pmatrix}\right) \]
최상위 사전: \((\mu_1, \mu_2, \tau_1, \tau_2, \rho)\) 에 균등 사전 (로그 스케일).
총 파라미터 수: 16 × 2 + 5 = 37 차원. MCMC (Metropolis) 로 샘플링.
4.8.4 계층의 효과
Gelman 결과 (Table 8.3): \(\alpha_{1j}\) (Bush 선호) 의 사후 중앙값이 원 비율 대비 수축 (shrinkage).
- Northeast I: 원 비율 0.33 → 수축 후 0.48.
- South I: 원 비율 0.66 → 수축 후 0.56.
극단 층은 전체 평균 \(\mu_1\) 쪽으로 끌려온다. 작은 \(n_j\) 일수록 큰 수축. 이것이 층 간 부분 풀링 — 정보를 공유해 각 층의 추정을 안정화.
4.9 네 설계의 통일된 관점
| 설계 | \(p(I \mid x, y, \phi)\) | 분류 | 필수 공변량 |
|---|---|---|---|
| SRS | \(\binom{N}{n}^{-1}\) (uniform) | Strongly ignorable, no covariates | 없음 |
| Stratified | 층별 균등 | Strongly ignorable given \(x\) | 층 지시자 |
| Cluster | 군집별 선택 | Strongly ignorable given cluster | 군집 지시자 |
| PPS | \(\propto x_i\) | Strongly ignorable given \(x\) | 크기 변수 |
공통 수식: 모두 \(p(\theta \mid x, y_{\mathrm{obs}}) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta)\) 형태로 귀결. 포함 모형이 \(\theta\) 사후에서 사라진다. 이것이 § 8.2 의 수학이 § 8.3 에서 실현되는 지점.
5 세 절을 관통하는 직관 모음
5.1 주사위와 표본조사는 같은 이야기
§ 8.1 의 주사위 예시와 § 8.3 의 SRS 는 같은 구조. 주사위 (ii) = “60 번 중 6 만 10 개 보고” 는 \(y\) 에 의존하는 포함 모형 (\(I_i = 1\) iff \(y_i = 6\)). MAR 위반. 반면 SRS 는 \(I\) 가 \(y\) 와 독립 → MCAR. 그래서 SRS 는 단순 베이즈로 해결되지만 주사위 (ii) 는 다른 우도 를 요구.
이 대비를 한 문장으로: “관측 규칙이 \(y\) 에 눈이 있는가” 가 ignorability 의 본질.
5.2 MAR 이 “랜덤” 이 아닌 이유를 표로
| 배정 규칙 | \(x\) 에 의존? | \(y_{\mathrm{obs}}\) 에 의존? | \(y_{\mathrm{mis}}\) 에 의존? | 분류 |
|---|---|---|---|---|
| 동전 던지기 | X | X | X | MCAR |
| “\(x > c\) 면 자동 포함” | O | X | X | MAR (결정론적) |
| “응답 값이 낮으면 기록” | X | O | X | MAR |
| “숨긴 값이 크면 포함” | X | X | O | MNAR |
MAR 의 핵심은 \(y_{\mathrm{mis}}\) 의존성이 없다는 것. \(x, y_{\mathrm{obs}}\) 는 얼마든지 의존해도 OK.
5.3 Ignorable 의 경계는 “알려져 있는가 \(\times\) 무시 가능한가”
overview 의 직관에 수식을 추가하면:
| Known | Unknown | |
|---|---|---|
| Ignorable | SRS, stratified, randomized block | 관찰연구에서 \(x\) 로 조정 |
| Nonignorable | 검열, 반올림 | 숨겨진 confounder, 실패한 MAR |
대각선 아래 (nonignorable) 는 선택 모형 또는 pattern-mixture 필수. 대각선 위 는 \(\phi\) 를 무시해도 \(\theta\) 사후 정확. 관찰연구의 도전이 왜 어려운지 이 표가 말해 준다 — 대각선 경계에 걸쳐 있음.
6 코드 — SRS vs Stratified
SRS 와 층화 표본이 같은 모집단에서 다른 표준오차를 주는지 시뮬레이션으로 확인한다.
6.1 데이터 — 세 층의 이질적 모집단
import numpy as np
import pymc as pm
import arviz as az
rng = np.random.default_rng(8)
# 세 층: 평균이 다름. 층별 크기도 다름.
N_j = [300, 500, 200]
mu_j = [10, 15, 20]
sigma_j = [2, 2, 2]
y_full = np.concatenate([
rng.normal(m, s, n) for n, m, s in zip(N_j, mu_j, sigma_j)
])
stratum = np.concatenate([
np.full(n, j) for j, n in enumerate(N_j)
])
N = sum(N_j)
true_mean = y_full.mean()
print(f"모집단 크기 N={N}, 참 평균={true_mean:.3f}")6.2 SRS — 층 정보 무시
n = 100
idx_srs = rng.choice(N, size=n, replace=False)
y_srs = y_full[idx_srs]
with pm.Model() as m_srs:
mu = pm.Normal("mu", 0, 50)
sigma = pm.HalfNormal("sigma", 20)
pm.Normal("y", mu=mu, sigma=sigma, observed=y_srs)
idata_srs = pm.sample(2000, tune=1000, random_seed=8)
print("SRS 사후 mu:")
print(az.summary(idata_srs, var_names=["mu"], round_to=3))\(\mathrm{SD}[\mu]\) 에 FPC 보정 \(\sqrt{1 - n/N}\) 을 수동 적용하면 식 (8.6) 의 베이즈 표준오차.
6.3 Stratified — 층 정보 활용
# 비례 할당
n_j_sample = [int(round(n * Nj / N)) for Nj in N_j]
idx_strat = np.concatenate([
rng.choice(np.where(stratum == j)[0], size=nj, replace=False)
for j, nj in enumerate(n_j_sample)
])
y_strat = y_full[idx_strat]
strat_label = stratum[idx_strat]
with pm.Model() as m_strat:
mu_strat = pm.Normal("mu_strat", 10, 10, shape=3)
sigma = pm.HalfNormal("sigma", 10)
pm.Normal("y", mu=mu_strat[strat_label], sigma=sigma, observed=y_strat)
# 유한 모집단 평균: finite-population weighted mean
weights = np.array(N_j) / N
pm.Deterministic("mu_pop", (mu_strat * weights).sum())
idata_strat = pm.sample(2000, tune=1000, random_seed=8)
print("Stratified 사후 mu_pop:")
print(az.summary(idata_strat, var_names=["mu_pop"], round_to=3))두 분석의 mu 사후 평균은 비슷하지만 표준편차가 다르다 — Stratified 가 더 좁다. 층 간 분산이 층화로 제거되었기 때문.
6.4 계산 실행 후 비교
srs_sd = idata_srs.posterior["mu"].std().item()
strat_sd = idata_strat.posterior["mu_pop"].std().item()
print(f"SRS 표준편차: {srs_sd:.3f}")
print(f"Stratified 표준편차: {strat_sd:.3f}")
print(f"효율 비율: {(srs_sd/strat_sd)**2:.2f}배")Stratified 가 약 2 배 정도 효율적 (분산 기준). 같은 100 명 표본으로 더 좁은 구간을 얻는다. 이것이 “층화가 efficient” 의 베이즈적 의미.
6.5 주사위 (i) vs (iii) 우도 비교
§ 8.1 의 주사위 세 경우의 우도 함수를 그려 본다.
import numpy as np
theta = np.linspace(0.01, 0.99, 200)
like_i = theta**10
like_ii = theta**10 * (1 - theta)**50
like_iii = theta**10 * (1 - theta)**490
# 정규화: 각 우도를 최대값으로 나눔
like_i_n = like_i / like_i.max()
like_ii_n = like_ii / like_ii.max()
like_iii_n = like_iii / like_iii.max()
mle_i = theta[like_i.argmax()]
mle_ii = theta[like_ii.argmax()]
mle_iii = theta[like_iii.argmax()]
print(f"경우 (i) MLE: {mle_i:.3f}")
print(f"경우 (ii) MLE: {mle_ii:.3f}")
print(f"경우 (iii) MLE: {mle_iii:.3f}")
print(f"\n공정 주사위 theta=1/6={1/6:.3f} 에서의 우도 비:")
print(f" (i)/(ii) = {(1/6)**10 / ((1/6)**10 * (5/6)**50):.3e}")
print(f" (i)/(iii) = {(1/6)**10 / ((1/6)**10 * (5/6)**490):.3e}")MLE 가 \(1, 1/6, 1/50\) 으로 완전히 다르게 나온다. 관측값 \(y_{\mathrm{obs}}\) = “10 개 6” 이 동일함에도 \(\theta\) 추론이 정반대 방향. 우도 원리의 순진한 해석이 왜 무너지는지 — 수치적 확인.
7 실전 체크리스트
§ 8.1~8.3 의 교훈을 실무 절차로:
- 수집 규칙 문서화 — 누가/어떻게/왜 표본에 포함됐는가. 이것이 \(p(I \mid x, y, \phi)\) 를 쓰는 첫걸음.
- SUTVA 점검 — 단위 간 간섭 가능성 검토. 확장이 필요하면 잠재 결과 공간 재설계.
- MAR 여부 진단 — \(y_{\mathrm{mis}}\) 에 \(I\) 가 의존하는가? 실제로는 확증 불가. 사전 지식 + 감도 분석으로 평가.
- Distinct Parameters — \(\theta\) 와 \(\phi\) 가 사전에서 독립 가정 가능한가? 대개 자연스러움.
- 공변량 포함 — 포함 확률에 영향 주는 \(x\) 를 모두 회귀에 투입. 이걸로 nonrandom 설계가 ignorable 로 변환.
- Finite vs Superpopulation 결정 — 관심이 이 구체적 \(N\) 개 단위의 평균인가, 가상 초모집단의 모수인가? 보고 양식 선택.
- 표본 비율로 FPC 적용 — \(n/N\) 이 0.1 이상이면 \((1/n - 1/N)\) 보정이 유의미.
- 계층 모형 고려 — 층·군집이 있으면 partial pooling 이 가장 자연스러운 베이즈 접근.
8 관련 주제
선행 지식
- Ch.8 Overview — § 8.1~8.7 의 전체 지도
- § 7.5~7.8 — 연속 확장·NY 예제 — § 8.3 표본조사 예제의 모체
Ch.8 세부 절 (후속 작성 예정)
01-8-2-*— § 8.4~8.5 (설계 실험·무작위화의 수리적 정당화·potential outcomes 프레임)01-8-3-*— § 8.6~8.8 (관찰 연구·검열·절단·나머지 연습문제)
후속 주제
- Ch.9 Decision Analysis — 추가 데이터 수집의 효용 계산 (정보의 가치)
- Ch.18 Missing Data — multiple imputation 상세, MNAR selection model
- Ch.22 Finite Mixture Models — selection model 의 혼합 표현
관련 개념
- Rubin (1976), Inference and missing data — MCAR/MAR/MNAR 삼분류의 원저
- Rosenbaum & Rubin (1983) — propensity score 의 수학적 토대
- Little & Rubin (2002), Statistical Analysis with Missing Data — 결측 데이터 표준 참고서
- Lohr (2019), Sampling: Design and Analysis — 표본조사 설계의 현대 교과서
scikit-learnIterativeImputer, Rmice— 실무 imputation 도구