§ 8.1~8.3 — 수집 모델·무시가능성·표본 조사

Gelman BDA Ch.8 심화 — 우도 원리의 오용, 완전·관측 데이터 우도 유도, MAR + Distinct Parameters, 표본조사의 ignorable 구조, 1988 CBS 16 strata 예제

Ch.8 overview 가 “수집 과정이 모형에 들어가야 한다” 는 전체 지도였다면, 이 포스트는 § 8.1~8.3 의 실제 여정이다. 왜 “관측 데이터 조건부면 수집 과정이 무관하다” 는 우도 원리 주장이 틀렸는지 (주사위 세 경우 완결판), 완전 데이터 우도 \(p(y, I \mid \theta, \phi) = p(y \mid \theta) p(I \mid y, \phi)\) 에서 관측 데이터 우도로 적분이 어떻게 흘러가는지, MAR 과 distinct parameters 두 조건 아래서 식 (8.2) 가 식 (8.3) 으로 극적으로 단순화 되는 유도, ignorable/strongly ignorable/nonignorable 의 여섯 분류가 왜 propensity score 와 직결되는지, 단순·층화·군집·크기비례 네 표본조사 설계가 어떻게 같은 ignorable 수식의 특수 사례인지, 마지막으로 1988 CBS 여론조사 16 strata 계층 다항 모형이 어떻게 \((\mu_1, \mu_2, \tau_1, \tau_2, \rho)\) 의 37 차원 사후를 만드는지 — 각 수식 옆에 “왜 이 항이 \(\theta\) 사후에서 상수가 되는가” 를 붙여 전개한다.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 23일

1 개요 — 세 절을 한 포스트로 묶는 이유

Ch.8 § 8.1~8.3 는 “왜 수집이 문제인가 → 어떤 언어로 수집을 기술할까 → 가장 단순한 수집(표본조사)에서 그 언어가 어떻게 작동하는가” 의 일관된 흐름이다.

역할 한 줄 요약
8.1 동기 우도 원리 오용 폭로 — “같은 10 개 6” 이 세 다른 증거가 되는 이유
8.2 언어 설정 \((y, I)\) 분해·완전/관측 우도·ignorability·MAR·distinct parameters
8.3 첫 응용 표본조사 — SRS, 층화, 군집, PPS 가 모두 같은 ignorable 수식의 특수 사례

Overview (01-8-0) 가 결론과 도구를 지도로 제시했다면, 이 포스트는 각 수식의 유도, 각 분류의 경계, 실전 예제의 수치 구조를 보인다.

2 § 8.1 — 우도 원리의 오용과 두 일반 메시지

2.1 순진한 베이즈 학생의 주장

베이즈 추론을 갓 배운 학생이 흔히 범하는 오류.

모든 추론은 관측 데이터 \(y_{\mathrm{obs}}\) 에 조건부로 이루어진다. 따라서 같은 \(y_{\mathrm{obs}}\) 와 같은 우도 함수 \(p(y \mid \theta)\), 같은 사전 \(p(\theta)\) 가 주어지면 수집 과정은 무관하다. 이것이 우도 원리 (likelihood principle) 의 함의 아닌가?

Gelman 의 반박 (§ 8.1, p.198): 이 주장의 결함은 “관측 데이터” 의 정의에 있다. “관측 데이터” 는 숫자 벡터만이 아니라 그 숫자들이 어떻게 생겨났는지에 대한 정보까지 포함해야 한다. 수집 규칙이 바뀌면 \(y_{\mathrm{obs}}\) 에 대응하는 우도 함수 자체가 바뀐다.

2.2 주사위 세 경우 완결판

overview 에서 요약했던 주사위 예시를 수식으로 끝까지 풀어본다. \(\theta = P(\text{한 번 던져 6})\) 로 두자.

2.2.1 경우 (i) — “우리는 10 번만 굴렸다”

완전 데이터 = 관측 데이터 = 길이 10 의 Bernoulli 시퀀스. 데이터 생성은 고정된 \(N = 10\).

\[ p(y_{\mathrm{obs}} \mid \theta) = \theta^{10} (1 - \theta)^0 = \theta^{10} \]

MLE: \(\hat{\theta} = 1\). 공정한 주사위 \(\theta = 1/6\) 하 우도 = \((1/6)^{10} \approx 1.65 \times 10^{-8}\). 공정성 가설 강하게 반박.

2.2.2 경우 (ii) — “60 번 굴렸는데 6 만 10 개 보고했다”

완전 데이터 = 60 번 Bernoulli 시퀀스. 관측 데이터 = “60 개 중 6 이 10 번 나왔다” 는 요약 통계량. 포함 지시자 \(I_i = 1\) iff \(y_i = 6\)결정론적 필터.

데이터 생성은 이항:

\[ p(\text{10 개 6} \mid n = 60, \theta) = \binom{60}{10} \theta^{10} (1 - \theta)^{50} \]

\(\theta = 1/6\) 에서 평균 \(= 60/6 = 10\). 관측값 = 정확히 평균. 정보 없음.

2.2.3 경우 (iii) — “6 이 10 번 나올 때까지 계속 굴렸다 (500 번 걸림)”

총 던짐 수 \(N\) 이 랜덤 변수. 음이항:

\[ p(N = 500 \mid r = 10, \theta) = \binom{500 - 1}{10 - 1} \theta^{10} (1 - \theta)^{490} \]

\(\theta = 1/6\)\(\mathbb{E}[N] = r / \theta = 60\). 관측 \(N = 500\) 은 평균의 8 배. MLE \(\hat{\theta} = 10/500 = 1/50\). 6 의 빈도가 오히려 낮다 는 증거.

2.2.4 세 우도의 비교

경우 우도 (상수 제외) MLE \(\hat{\theta}\) \(\theta = 1/6\) 하 증거
(i) \(\theta^{10}\) \(1\) 공정성 반박 (8 자리 수)
(ii) \(\theta^{10} (1-\theta)^{50}\) \(1/6\) 완전 중립
(iii) \(\theta^{10} (1-\theta)^{490}\) \(1/50\) 6 이 드물다
직관 — 우도 함수의 “모양” 이 바뀌는 지점

세 경우 모두 \(\theta^{10}\) 항은 같다. 다른 것은 \((1 - \theta)\) 의 지수 뿐. 경우 (i) 에는 “6 이 아닌 결과” 가 없으므로 지수 0. 경우 (ii) 에는 50 개, 경우 (iii) 에는 490 개.

이 지수는 수집 규칙이 “6 이 아닌 결과” 를 얼마나 많이 지배했는가 를 센다. 우도 원리가 “우도 함수의 모양이 결론을 결정한다” 고 말할 때, 그 모양 자체가 수집 규칙으로 바뀐다. 우도 원리가 틀린 게 아니라, 순진한 적용이 “관측값 = (6, 6, …, 6)” 을 수집 규칙과 독립적으로 취급한 게 오류.

2.3 두 일반 메시지

Gelman 은 Ch.8 전체를 관통하는 두 원칙을 명시한다 (§ 8.1, p.197).

  1. 수집 과정을 기술하는 변수를 분석에 포함하라 — 일반적으로 회귀 공변량으로.
    • 층화 표본 → 층 지시자 \(x\)
    • 무작위 블록 실험 → 블록 지시자 \(x\)
    • 관찰 연구 → 치료 선택에 영향 주는 confounder \(x\)
  2. 부분 정보는 확률 모형으로 연결하라 — 검열 (구간 정보), 결측 (완전 손실), 절단 (임계값 필터) 은 모두 명시적 \(p(I \mid y, \phi)\) 로 다룬다.

두 원칙의 근본 이유: \(I\) 의 패턴 자체가 정보이기 때문. 공변량 \(x\) 를 통해 \(I\) 의 의존성을 풀거나, \(p(I \mid y, \phi)\) 를 직접 적어야 그 정보가 사후에 살아남는다.

2.4 네 실무 지침

Ch.8 § 8.1 은 네 가지 구체적 지침을 나열한다.

지침 요지 수식적 근거
1 관측 패턴 자체가 정보일 수 있다 \(I\) 를 모형에 포함
2 Ignorable 설계 (무작위화) 가 모델 선택에 덜 민감 § 8.5 에서 증명
3 공변량 많을수록 조건부 타당, 모델 민감 § 8.6 의 trade-off
4 사후 예측 점검 \(y^{\mathrm{rep}}\) 도 설계에 의존 Ch.6 의 \(y^{\mathrm{rep}}\) 생성이 \(p(I)\) 를 따라야 함
직관 — 왜 \(y^{\mathrm{rep}}\) 도 설계를 반영해야 하는가

Ch.6 의 사후 예측 점검은 “\(y^{\mathrm{rep}}\) 가 실제 \(y_{\mathrm{obs}}\) 처럼 보이는가” 를 확인한다. 실제 \(y_{\mathrm{obs}}\) 는 특정 수집 규칙의 산물이다 — 예를 들어 층화 표본이면 각 층에서 \(n_j\) 개 뽑힌 구조.

\(y^{\mathrm{rep}}\)단순 무작위 추출로 시뮬레이션하면 \(y^{\mathrm{rep}}\) 의 층별 분포가 실제와 달라진다. 그러면 점검 통계량의 tail-area 가 왜곡된다. Ch.8 의 교훈은 \(y^{\mathrm{rep}}\) 생성도 \(p(I)\) 를 따라야 한다는 것. 설계가 점검에까지 침투한다.

3 § 8.2 — 관측·결측 데이터 프레임워크

3.1 표기법

\(y = (y_1, \ldots, y_N)\)잠재적 완전 데이터 (각 \(y_i\) 는 스칼라 또는 벡터). \(I = (I_1, \ldots, I_N)\) 은 같은 차원의 포함 지시자 행렬:

\[ I_{ij} = \begin{cases} 1 & y_{ij} \text{ 관측됨} \\ 0 & y_{ij} \text{ 결측됨} \end{cases} \]

이로부터 관측·결측 인덱스 집합과 벡터를 정의한다.

\[ \mathrm{obs} = \{(i,j) : I_{ij} = 1\}, \quad \mathrm{mis} = \{(i,j) : I_{ij} = 0\} \]

\[ y_{\mathrm{obs}} = \{y_{ij} : (i,j) \in \mathrm{obs}\}, \quad y_{\mathrm{mis}} = \{y_{ij} : (i,j) \in \mathrm{mis}\} \]

가정: \(I\) 자체는 항상 관측 가능. 즉 어떤 값이 빠졌는지 (누가 응답 안 했는지) 는 알고 있다. 이 가정이 깨지는 경우 (모집단 크기 자체를 모르는 경우) 는 모수화로 우회 (Ch.8 p.199 각주).

Table 8.1 (재해석) — 네 가지 수집 상황에서의 \(y\)\(I\)
상황 Observed Complete \(I\) 의 의미
표본 조사 표본 \(n\) 모집단 \(N\) 누가 표본에 뽑혔나
실험 각 단위의 실제 처치 결과 모든 처치 × 모든 단위 어느 처치가 배정됐나
반올림 반올림된 관측값 정확한 값 정확도 수준
비의도적 결측 관측된 값 관측 + 결측 전체 응답 여부

핵심 통찰: 실험조차 “결측 데이터 문제” 로 재개념화된다. 잠재 결과 \(y_i(0), y_i(1)\)하나만 관측 — 나머지는 자동으로 결측. 이것이 인과 추론의 Neyman-Rubin 프레임.

3.2 Stability 가정 (SUTVA)

Ch.8 의 모든 수식은 \(y\)\(I\) 에 영향받지 않는다” 는 가정을 전제한다. 즉 관측 행위가 데이터 값을 바꾸지 않는다.

실험 문맥의 이름: Stable Unit Treatment Value Assumption (SUTVA) — 한 단위에 적용된 처치가 다른 단위의 결과에 영향 없음.

실패 사례:

  • 농업 실험의 비료 침투 (Gelman, p.199): 이웃 구획 간 비료가 섞여 \(y_i\)\(T_j\) (\(j \ne i\)) 에 의존. 완전 데이터 구조 자체가 확장돼야 함.
  • 네트워크 실험의 spillover: 페이스북 광고 실험에서 친구의 노출이 본인 결과에 영향.
  • 격리 안 된 약물 시험: 한 환자의 회복이 이웃 환자의 바이러스 노출을 줄임.

SUTVA 가 깨지면 \(y\) 의 공간을 모든 가능 \(I\) 값에 대한 잠재 결과 벡터로 확장해야 한다 — Exercise 8.4 가 이 확장을 다룸.

3.3 완전 데이터 우도 vs 관측 데이터 우도

완전 데이터 우도 (식 8.1). 완전 데이터와 포함 벡터의 결합 분포:

\[ p(y, I \mid \theta, \phi) = p(y \mid \theta) \, p(I \mid y, \phi) \tag{8.1} \]

이 분해가 Ch.8 의 핵심 언어.

  • \(p(y \mid \theta)\)데이터 모형 (data model). 과학적 관심사의 모수 \(\theta\) 를 가짐. 수집 과정 무관.
  • \(p(I \mid y, \phi)\)포함 모형 (inclusion model). 어떤 값이 왜 관측되는지 기술. 모수 \(\phi\) 는 일반적으로 과학적 관심사 아님.

관측 데이터 우도. 실제 추론에 쓰이는 건 \((y_{\mathrm{obs}}, I)\) 의 결합. 결측 부분을 적분으로 없앤다:

\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int p(y, I \mid \theta, \phi) \, dy_{\mathrm{mis}} \]

공변량 \(x\) 가 완전 관측되면 모든 표현이 \(x\) 에 조건부가 된다:

\[ p(y, I \mid x, \theta, \phi) = p(y \mid x, \theta) \, p(I \mid x, y, \phi) \]

직관 — 왜 이 분해가 “언어” 가 되는가

(8.1) 의 핵심은 \(p(y \mid \theta)\)\(p(I \mid y, \phi)\)따로 적기로 결심 했다는 점. 통합 우도 \(p(y, I \mid \psi)\) 하나로 써도 수학은 같지만, 두 층위를 분리하지 않으면 “수집 과정이 잘 됐는가” 를 독립적으로 점검할 수 없다.

비유: 식당 리뷰 데이터를 분석하는데 (a) 사람들이 실제로 느낀 만족도 \(y\) 의 모형과 (b) 누가 리뷰를 쓰기로 결심했는지 \(I\) 의 모형을 섞어 버리면, “리뷰가 긍정 편향인 건 음식이 정말 좋아서인가, 불만 있는 사람이 귀찮아서 안 써서인가” 를 구분 못 한다. (8.1) 의 분해가 이 질문을 수학적으로 분리 가능하게 만든다.

3.4 결합 사후분포 유도

\((\theta, \phi)\) 의 결합 사후는 베이즈 규칙 그대로:

\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \, p(y_{\mathrm{obs}}, I \mid x, \theta, \phi) \]

우변의 우도를 (8.1) 로 전개하고 \(y_{\mathrm{mis}}\) 를 적분하면:

\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \]

관심이 \(\theta\) 에만 있다면 \(\phi\) 를 적분해 marginal 을 얻는다:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \, d\phi \tag{8.2} \]

복잡해 보이는 이중 적분이 ignorability 가 성립하면 극적으로 단순화된다.

3.5 Ignorability — 정의와 충분 조건

정의 — Ignorability

수집 과정이 무시 가능하다는 것은 다음 등식을 의미한다:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x, y_{\mathrm{obs}}) \tag{8.3} \]

\(I\) 조건을 떼어내도 같은 사후가 나온다. 우변의 단순한 사후는 \(p(\theta \mid x, y_{\mathrm{obs}}) \propto p(\theta \mid x) \int p(y \mid x, \theta) \, dy_{\mathrm{mis}}\) — 포함 모형을 전혀 쓰지 않은 계산.

두 가지 충분 조건:

3.5.1 조건 1 — Missing At Random (MAR)

\[ p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi) \]

\(I\) 의 분포가 \(y_{\mathrm{mis}}\) 에 의존하지 않는다. 주어진 \(\phi\) 에서 결측 메커니즘이 관측 가능한 것들 (\(x\)\(y_{\mathrm{obs}}\)) 에만 의존.

“Missing at random” 이라는 이름이 오해를 부른다. 실제 정의는:

\(x\)\(y_{\mathrm{obs}}\) 를 조건화한 후에야 “랜덤” 하다.

예 (Gelman, p.203): “선언 소득 > $1M 이면 전수 회계감사” 는 결정론적 규칙이지만 \(x\) (선언 소득) 에만 의존하므로 MAR. “랜덤” 이 아닌 결정론적 배정도 MAR 일 수 있다.

3.5.2 조건 2 — Distinct Parameters

\[ p(\phi \mid x, \theta) = p(\phi \mid x) \]

\(\phi\) 의 사전이 \(\theta\) 에 독립. 좀 더 약한 표현: \(\theta\)\(\phi\) 가 사전에서 정보를 공유하지 않음.

3.6 Ignorable 단순화의 유도

MAR + distinct parameters 가정 하에서 식 (8.2) 를 전개해보자. MAR 로 인해:

\[ p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi) \]

이는 \(y_{\mathrm{mis}}\) 에 무관하므로 \(y_{\mathrm{mis}}\) 적분 밖으로 빠진다:

\[ \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} = p(I \mid x, y_{\mathrm{obs}}, \phi) \int p(y \mid x, \theta) \, dy_{\mathrm{mis}} \]

마지막 적분은 \(y_{\mathrm{mis}}\) 를 적분해 없앤 것으로 \(p(y_{\mathrm{obs}} \mid x, \theta)\). 따라서 (8.2) 는:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) \int p(\phi \mid x, \theta) \, p(I \mid x, y_{\mathrm{obs}}, \phi) \, d\phi \]

distinct parameters 로 \(p(\phi \mid x, \theta) = p(\phi \mid x)\). 괄호 안의 \(\phi\) 적분은 \(\theta\) 에 무관한 상수. 따라서:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) = p(\theta \mid x, y_{\mathrm{obs}}) \]

이것이 식 (8.3). \(I\) 를 쓰지 않아도 같은 사후가 나온다.

직관 — 왜 “MAR + distinct parameters” 두 조건이 동시에 필요한가

MAR 혼자로는 부족하다. MAR 이 보장하는 건 “포함 모형을 \(y_{\mathrm{obs}}\) 조건부로 쓸 수 있다” 는 것. 그런데 distinct parameters 가 없으면 \(\phi\) 를 통해 \(\theta\) 에 관한 정보가 사전에서 흘러 들어올 수 있다.

예: “조사 연구자가 \(\theta\) (모집단 평균) 가 높을 때 대답 받기 쉽다고 믿고 \(\phi\) 의 사전을 \(\theta\) 에 의존시킨다” → MAR 이어도 \(\phi\) 적분이 \(\theta\) 함수가 됨. 두 조건이 모두 있어야 상수로 빠진다.

실무적으로 distinct parameters 는 대부분 자연스럽게 성립한다 (응답률 모수와 공 모집단 모수가 사전에서 얽힐 이유 없음). MAR 이 진짜 걸리는 지점.

3.7 MAR 의 세 층위 분류

Rubin (1976) 의 고전 분류. 조건이 강해질수록 범주가 작아진다.

분류 조건 직관 무시 가능?
MCAR \(p(I \mid x, y, \phi) = p(I \mid \phi)\) 결측이 무작위 — 순전히 우연 O
MAR \(p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)\) 관측 가능한 것들에만 의존 O
MNAR 위 두 조건 모두 실패 결측값 자체 에 의존 X

포함 관계: \(\text{MCAR} \subset \text{MAR}\). MCAR 가 가장 강하고 (\(I\)\((x, y)\) 모두와 독립), MNAR 은 가장 약함 (\(y_{\mathrm{mis}}\) 에 직접 의존).

MNAR 예시 (Gelman, p.203): “세금 감사에서 숨긴 소득 \(y\) 가 클수록 감사 확률이 높다” — \(p(I \mid y)\)\(y_{\mathrm{mis}}\) 에 의존. 공변량 \(x\) 조건화만으로는 편향 해소 불가. 감사 메커니즘 자체를 모형화해야 함 (selection model 또는 pattern-mixture model).

3.8 Ignorability 의 여섯 분류

Ch.8 § 8.2 는 설계를 ignorable/nonignorable × known/unknown 축으로 교차 분류한다. 여기에 “strongly ignorable” 이 추가되어 실제로는 다섯~여섯 범주.

분류 수식 사례
Ignorable & known, no covariates \(p(I \mid x, y, \phi) = p(I)\) Simple random sampling, completely randomized experiment
Ignorable & known, given \(x\) \(p(I \mid x, y, \phi) = p(I \mid x, \phi)\) Stratified sampling, randomized block experiment
Strongly ignorable & known \(p(I \mid x, y, \phi) = p(I \mid x)\) 완전 관측 공변량에만 의존. \(y\) 영향 전혀 없음
Ignorable & unknown 비무작위지만 \(x\) 조건부로 MAR 관찰 연구에서 propensity score 로 조정
Nonignorable & known 검열·반올림 생존 분석의 우측 검열
Nonignorable & unknown 미지 확률로 \(y\) 에 의존 관찰 연구의 hidden confounder

Strongly ignorable” 은 강화된 ignorable — “ignorable but not strongly ignorable” 의 예는 순차 실험에서 이전 관측 결과에 기반해 다음 배정 확률이 바뀌는 경우 (adaptive design). 이 경우 \(I\)\(y_{\mathrm{obs}}\) 에 의존하긴 해도 MAR 은 성립 — propensity score 언어는 strongly ignorable 에서만 깔끔하게 적용됨.

3.9 Propensity Score

Strongly ignorable 설계에서 각 단위의 포함 확률:

\[ \pi_i = \Pr(I_i = 1 \mid X) \]

propensity score 라 한다. Rosenbaum-Rubin (1983) 의 핵심 결과:

Strongly ignorable 설계에서 \(\pi\) 만 조건화해도 ignorable.

즉 다변량 \(x\) 대신 한 차원 요약 \(\pi(x)\) 로 조건화 가능. 대규모 공변량 공간의 matching·weighting 이 단일 점수로 귀결.

주의 (Gelman, p.204):

  • \(\pi\) 만으로는 사후 예측 replication 부족. 완전 RCT (\(\pi_i = 1/2\)) 와 독립 Bernoulli 배정 (\(\pi_i = 1/2\)) 이 같은 propensity 지만 다른 설계다.
  • 단순 무작위 표본과 일부 등확률 층화 표본이 같은 \(\pi\) 를 가질 수 있음. 모델 점검에는 전체 설계 정보 필요.

3.10 Finite-Population vs Superpopulation

Ch.8 은 두 종류의 추정 목표를 구분한다.

유형 정의
Finite-population 구체적 \(N\) 개 단위의 함수 \(\bar{y} = \frac{1}{N}\sum_{i=1}^N y_i\)
Superpopulation 모수 \(\theta\) 의 함수 \(\mu = \mathbb{E}[y_i \mid \theta]\)

핵심 결과: 관측 비율이 높을수록 finite-population 추론이 모형 가정에 덜 민감.

  • 전수 조사 (\(n = N\)) 면 finite-population quantity 는 정확히 알려짐. Superpopulation \(\theta\) 에는 여전히 불확실성.
  • 부분 조사 (\(n < N\)) 면 결측 \(y_{\mathrm{mis}}\) 예측에 모형 필요 → 모형 가정 진입.

계산은 두 단계로 분리:

  1. Superpopulation 단계: \(p(\theta, \phi \mid x, y_{\mathrm{obs}}, I)\) 에서 \((\theta, \phi)^{(s)}\) 추출.
  2. Finite-population 단계: \(p(y_{\mathrm{mis}} \mid x, y_{\mathrm{obs}}, I, \theta^{(s)}, \phi^{(s)})\) 에서 \(y_{\mathrm{mis}}^{(s)}\) 추출.

\((y_{\mathrm{obs}}, y_{\mathrm{mis}}^{(s)})\) 조합에서 관심 함수 평가 → 사후 표본. 이것이 multiple imputation 의 베이즈적 정의 (Ch.18).

3.11 비의도적 결측 — 소규모 vs 대규모

Gelman (p.205) 의 실무적 조언:

  • 결측 비율이 작으면 — ignorable 가정 (공변량 조건부) 이 보통 안전.
  • 결측 비율이 크면 (50% 이상) — ignorability 가정에 극도로 민감. 인과 추론의 잠재 결과 (50% 미관측) 가 대표 예. Selection model 과 pattern-mixture model 을 모두 적합해 감도 분석 필수.

4 § 8.3 — 표본 조사

4.1 왜 표본조사가 첫 응용인가

§ 8.1 에서 “수집 과정이 문제” 라 했고 § 8.2 에서 “ignorable 이면 \(I\) 무시 가능” 이라 증명했다. § 8.3 은 가장 단순한 ignorable 설계 — 표본조사 — 에서 이 언어가 어떻게 작동하는지를 보인다. 네 설계 모두 식 (8.1) 의 특수화.

4.2 Simple Random Sampling (SRS)

\(N\) 명의 모집단에서 크기 \(n\) 의 단순 무작위 표본. \(y_i\) = 주당 식비 지출. 관심: 모집단 평균 \(\bar{y}\).

모집단은 교환 가능하다고 가정:

\[ p(y) = \int \prod_{i=1}^N p(y_i \mid \theta) \, p(\theta) \, d\theta \]

SRS 의 수학적 정의:

\[ p(I \mid y, \phi) = p(I) = \begin{cases} \binom{N}{n}^{-1} & \sum I_i = n \\ 0 & \text{otherwise} \end{cases} \]

이 포함 모형은:

  • \(y\) 에 의존 안 함 (→ MAR, 나아가 MCAR).
  • \(\phi\) 없음 (→ known).
  • \(x\) 에 의존 안 함 (→ strongly ignorable, no covariates).

따라서 식 (8.4) 형태로 가장 단순한 범주. Propensity score \(\pi_i = n/N\) 모두 같음.

4.3 Finite-population mean 의 분해

관심량 \(\bar{y}\) 를 observed/missing 로 분해:

\[ \bar{y} = \frac{n}{N} \bar{y}_{\mathrm{obs}} + \frac{N - n}{N} \bar{y}_{\mathrm{mis}} \tag{8.5} \]

\(\bar{y}_{\mathrm{obs}}\) 는 관측된 값 — 완전히 알려짐. 불확실성은 오직 \(\bar{y}_{\mathrm{mis}}\) 에서 온다.

베이즈 시뮬레이션 절차:

  1. \(\theta^{(s)} \sim p(\theta \mid y_{\mathrm{obs}})\) 추출.
  2. \(y_i^{(s)} \sim p(y_i \mid \theta^{(s)})\) for \(i \in \mathrm{mis}\) — 결측값 imputation.
  3. \(\bar{y}_{\mathrm{mis}}^{(s)} = \frac{1}{N-n}\sum_{i \in \mathrm{mis}} y_i^{(s)}\) 계산.
  4. (8.5) 로 \(\bar{y}^{(s)}\) 구성.

4.4 정규 근사 — 식 (8.6)

\(N - n\) 이 크면 중심극한정리로:

\[ p(\bar{y}_{\mathrm{mis}} \mid \theta) \approx \mathrm{N}\left(\mu, \frac{\sigma^2}{N - n}\right) \]

\(n\) 도 크면 \(\theta = (\mu, \sigma)\) 의 사후가 정규 근사되어, 결합하면 정규의 정규 혼합 = 정규. 결과:

\[ \mathbb{E}[\bar{y}_{\mathrm{mis}} \mid y_{\mathrm{obs}}] \approx \bar{y}_{\mathrm{obs}} \]

\[ \mathrm{var}[\bar{y}_{\mathrm{mis}} \mid y_{\mathrm{obs}}] \approx \mathrm{var}[\mu \mid y_{\mathrm{obs}}] + \mathbb{E}\left[\frac{\sigma^2}{N-n} \mid y_{\mathrm{obs}}\right] \approx \frac{s_{\mathrm{obs}}^2}{n} + \frac{s_{\mathrm{obs}}^2}{N-n} = \frac{N \cdot s_{\mathrm{obs}}^2}{n(N-n)} \]

(8.5) 와 결합해 최종 근사:

\[ \bar{y} \mid y_{\mathrm{obs}} \approx \mathrm{N}\left(\bar{y}_{\mathrm{obs}}, \left(\frac{1}{n} - \frac{1}{N}\right) s_{\mathrm{obs}}^2\right) \tag{8.6} \]

이것이 유한 표본조사의 정규 이론 추론에 대한 베이즈 정당화.

직관 — 왜 분산에 \((1/n - 1/N)\) 가 나오는가

\(n = N\) (전수) 이면 \(1/n - 1/N = 0\)\(\bar{y}\) 가 정확히 알려짐. 표본이 전체가 되면 불확실성 없음.

\(N \to \infty\) (무한 모집단) 이면 \(1/n - 1/N \to 1/n\) — 고전적 평균의 분산.

차이 \(1/n - 1/N\)finite-population correction (FPC). 표본 비율 \(n/N\) 이 클수록 표준오차가 줄어든다. 고전 표본조사 이론의 핵심 공식이 베이즈에서 자연스럽게 도출.

정규 사전 + 정규 우도에서 정확한 결과는 \(t_{n-1}\): \(\bar{y} \mid y_{\mathrm{obs}} \sim t_{n-1}(\bar{y}_{\mathrm{obs}}, (1/n - 1/N) s_{\mathrm{obs}}^2)\). 자유도 \(n-1\)\(\sigma^2\) 추정의 불확실성에서 온다.

4.5 Stratified Sampling

모집단을 \(J\) (stratum) 으로 나누고, 각 층 \(j\) 에서 크기 \(n_j\) 의 SRS. 층 지시자:

\[ x_{ij} = \begin{cases} 1 & i \text{ in stratum } j \\ 0 & \text{otherwise} \end{cases} \]

포함 모형: \(x\) 조건부로 ignorable. 즉 \(p(I \mid x, y, \phi) = p(I \mid x)\) — strongly ignorable given \(x\).

분석 전략:

  1. 각 층 \(j\) 에서 \(y_i \mid \theta_j\) 의 분포를 모형화 → 층별 모수 \(\theta_1, \ldots, \theta_J\).
  2. 층 간 정보 공유를 위해 계층 모형을 부여: \(\theta_j \sim p(\theta \mid \mu, \tau)\).
  3. Finite-population 추정량: \(\bar{y} = \sum_{j=1}^J \frac{N_j}{N} \bar{y}_j\).

\(n_j/n\)\(N_j/N\) 이 같을 필요 없음. Finite-population 베이즈 추론이 표본 비율 왜곡을 자동 보정.

직관 — 왜 층화가 “ignorable given \(x\)” 인가

\(j\) 안에서는 \(n_j\) 명이 \(N_j\) 중에서 SRS 로 뽑힘 — 층 내부는 완전 무작위. 층 간 차이는 오직 \(x\) (층 지시자) 에만 의존. 따라서 \(x\) 를 모형에 넣으면 \(I\) 의 의존성이 모두 공변량으로 흡수 → ignorable.

반대로 \(x\) 를 넣지 않고 SRS 처럼 분석하면? 층 간 분산이 무시되어 표준오차가 왜곡됨. “왜곡” 의 방향은: 비례 할당 (\(n_j/n = N_j/N\)) 일 때 단순 평균은 편향되지 않지만 표준오차가 과대 추정 (층화가 분산을 줄여 주는데 이를 반영 못 함). 비비례 할당이면 평균까지 편향.

4.6 Cluster Sampling

모집단을 군집 (cluster) 으로 묶고, 군집 단위로 무작위 선택 → 선택된 군집 내 모든 단위 관측 (one-stage) 또는 일부 단위 관측 (two-stage).

포함 모형: 군집 지시자가 공변량. Strongly ignorable given cluster indicator.

특징: 같은 군집 내 단위들은 급내상관. 분산이 SRS 보다 크다 (층화와 반대).

4.7 Probability-Proportional-to-Size (PPS)

크기 변수 \(x_i\) 에 비례하는 포함 확률: \(\pi_i \propto x_i\). 예: 학교 조사에서 학생 수에 비례해 학교 선택.

포함 모형: \(p(I_i = 1 \mid x_i) \propto x_i\). Strongly ignorable given \(x\)\(x\) 를 공변량으로 포함하면 ignorable.

Horvitz-Thompson 추정량 \(\hat{\bar{y}}_{HT} = \frac{1}{N}\sum \frac{y_i}{\pi_i}\) 이 빈도주의 표준이지만, 베이즈에서는 \(y \mid x, \theta\) 의 회귀 모형으로 \(x\) 를 흡수하는 것이 자연스러움.

4.8 1988 CBS 여론조사 — 16 strata 계층 다항 예제

Ch.8 § 8.3 의 실전 예제 (p.207~209). 1988 미국 대통령선거 (Bush vs Dukakis) 예비 조사. 1447 명이 16 개 층 (region × density) 에 분포. 각 응답자는 Bush / Dukakis / 무의견 중 선택.

4.8.1 데이터 구조

\(j\) 에서:

  • \(n_j\): 표본 수 (1~2 명 ~ 180 명 범위)
  • \(y_{\mathrm{obs}\, j} = (y_{\mathrm{obs}\, 1j}, y_{\mathrm{obs}\, 2j}, y_{\mathrm{obs}\, 3j})\): 세 카테고리 카운트
  • 모형: \(y_{\mathrm{obs}\, j} \sim \mathrm{Multinomial}(n_j; \theta_{1j}, \theta_{2j}, \theta_{3j})\)

4.8.2 단순 비계층 모형

각 층에 독립 Dirichlet\((1,1,1)\) 사전 → 층별 사후 Dirichlet\((y_{\mathrm{obs}\, 1j} + 1, y_{\mathrm{obs}\, 2j} + 1, y_{\mathrm{obs}\, 3j} + 1)\). 관심 통계량:

\[ \sum_{j=1}^{16} \frac{N_j}{N}(\theta_{1j} - \theta_{2j}) \tag{8.7} \]

각 층의 Bush - Dukakis 격차를 모집단 비중으로 가중. Gelman 의 결과 (Figure 8.1a): 중심 0.097, 사후 중앙값이 비층화 분석 (Chapter 3.4, 0.098) 보다 약간 작음. 폭은 약간 좁음 — 층화 설계의 정보를 반영하면 표준오차 감소.

직관 — 층별 독립 Dirichlet 이 비층화와 살짝 다른 이유

비층화 분석은 “모든 응답자가 같은 \((\theta_1, \theta_2, \theta_3)\) 에서 왔다” 가정 → Dirichlet 사전이 세 카테고리에 각각 1 명씩 가상 투표 추가.

16 strata 분석은 각 층에 각각 Dirichlet 사전 → 16 × 3 = 48 명의 가상 투표 추가. Dirichlet 파라미터를 \(1/16\) 로 조정하면 두 분석이 같은 중앙값.

여기서 배울 점: 계층 구조를 도입하면 사전의 “총 가상 표본 수” 가 바뀐다. 사전 민감도 분석 시 고려 필요.

4.8.3 계층 모형

로지트 변환으로 모수 재표현 (§ 8.3, p.209):

\[ \alpha_{1j} = \frac{\theta_{1j}}{\theta_{1j} + \theta_{2j}} \quad (\text{Bush 선호 조건부 확률}) \]

\[ \alpha_{2j} = 1 - \theta_{3j} \quad (\text{선호 표현 확률}) \]

\[ \beta_{1j} = \mathrm{logit}(\alpha_{1j}), \quad \beta_{2j} = \mathrm{logit}(\alpha_{2j}) \]

\((\beta_{1j}, \beta_{2j})\) 를 16 층에 대해 이변량 정규로 묶음:

\[ \begin{pmatrix} \beta_{1j} \\ \beta_{2j} \end{pmatrix} \sim \mathrm{N}\left(\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \tau_1^2 & \rho \tau_1 \tau_2 \\ \rho \tau_1 \tau_2 & \tau_2^2 \end{pmatrix}\right) \]

최상위 사전: \((\mu_1, \mu_2, \tau_1, \tau_2, \rho)\) 에 균등 사전 (로그 스케일).

총 파라미터 수: 16 × 2 + 5 = 37 차원. MCMC (Metropolis) 로 샘플링.

4.8.4 계층의 효과

Gelman 결과 (Table 8.3): \(\alpha_{1j}\) (Bush 선호) 의 사후 중앙값이 원 비율 대비 수축 (shrinkage).

  • Northeast I: 원 비율 0.33 → 수축 후 0.48.
  • South I: 원 비율 0.66 → 수축 후 0.56.

극단 층은 전체 평균 \(\mu_1\) 쪽으로 끌려온다. 작은 \(n_j\) 일수록 큰 수축. 이것이 층 간 부분 풀링 — 정보를 공유해 각 층의 추정을 안정화.

4.9 네 설계의 통일된 관점

설계 \(p(I \mid x, y, \phi)\) 분류 필수 공변량
SRS \(\binom{N}{n}^{-1}\) (uniform) Strongly ignorable, no covariates 없음
Stratified 층별 균등 Strongly ignorable given \(x\) 층 지시자
Cluster 군집별 선택 Strongly ignorable given cluster 군집 지시자
PPS \(\propto x_i\) Strongly ignorable given \(x\) 크기 변수

공통 수식: 모두 \(p(\theta \mid x, y_{\mathrm{obs}}) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta)\) 형태로 귀결. 포함 모형이 \(\theta\) 사후에서 사라진다. 이것이 § 8.2 의 수학이 § 8.3 에서 실현되는 지점.

5 세 절을 관통하는 직관 모음

5.1 주사위와 표본조사는 같은 이야기

§ 8.1 의 주사위 예시와 § 8.3 의 SRS 는 같은 구조. 주사위 (ii) = “60 번 중 6 만 10 개 보고” 는 \(y\) 에 의존하는 포함 모형 (\(I_i = 1\) iff \(y_i = 6\)). MAR 위반. 반면 SRS 는 \(I\)\(y\) 와 독립 → MCAR. 그래서 SRS 는 단순 베이즈로 해결되지만 주사위 (ii) 는 다른 우도 를 요구.

이 대비를 한 문장으로: “관측 규칙이 \(y\) 에 눈이 있는가” 가 ignorability 의 본질.

5.2 MAR 이 “랜덤” 이 아닌 이유를 표로

배정 규칙 \(x\) 에 의존? \(y_{\mathrm{obs}}\) 에 의존? \(y_{\mathrm{mis}}\) 에 의존? 분류
동전 던지기 X X X MCAR
\(x > c\) 면 자동 포함” O X X MAR (결정론적)
“응답 값이 낮으면 기록” X O X MAR
“숨긴 값이 크면 포함” X X O MNAR

MAR 의 핵심은 \(y_{\mathrm{mis}}\) 의존성이 없다는 것. \(x, y_{\mathrm{obs}}\) 는 얼마든지 의존해도 OK.

5.3 Ignorable 의 경계는 “알려져 있는가 \(\times\) 무시 가능한가”

overview 의 직관에 수식을 추가하면:

Known Unknown
Ignorable SRS, stratified, randomized block 관찰연구에서 \(x\) 로 조정
Nonignorable 검열, 반올림 숨겨진 confounder, 실패한 MAR

대각선 아래 (nonignorable) 는 선택 모형 또는 pattern-mixture 필수. 대각선 위\(\phi\) 를 무시해도 \(\theta\) 사후 정확. 관찰연구의 도전이 왜 어려운지 이 표가 말해 준다 — 대각선 경계에 걸쳐 있음.

6 코드 — SRS vs Stratified

SRS 와 층화 표본이 같은 모집단에서 다른 표준오차를 주는지 시뮬레이션으로 확인한다.

6.1 데이터 — 세 층의 이질적 모집단

import numpy as np
import pymc as pm
import arviz as az

rng = np.random.default_rng(8)

# 세 층: 평균이 다름. 층별 크기도 다름.
N_j = [300, 500, 200]
mu_j = [10, 15, 20]
sigma_j = [2, 2, 2]

y_full = np.concatenate([
    rng.normal(m, s, n) for n, m, s in zip(N_j, mu_j, sigma_j)
])
stratum = np.concatenate([
    np.full(n, j) for j, n in enumerate(N_j)
])

N = sum(N_j)
true_mean = y_full.mean()
print(f"모집단 크기 N={N}, 참 평균={true_mean:.3f}")

6.2 SRS — 층 정보 무시

n = 100
idx_srs = rng.choice(N, size=n, replace=False)
y_srs = y_full[idx_srs]

with pm.Model() as m_srs:
    mu = pm.Normal("mu", 0, 50)
    sigma = pm.HalfNormal("sigma", 20)
    pm.Normal("y", mu=mu, sigma=sigma, observed=y_srs)
    idata_srs = pm.sample(2000, tune=1000, random_seed=8)

print("SRS 사후 mu:")
print(az.summary(idata_srs, var_names=["mu"], round_to=3))

\(\mathrm{SD}[\mu]\)FPC 보정 \(\sqrt{1 - n/N}\) 을 수동 적용하면 식 (8.6) 의 베이즈 표준오차.

6.3 Stratified — 층 정보 활용

# 비례 할당
n_j_sample = [int(round(n * Nj / N)) for Nj in N_j]
idx_strat = np.concatenate([
    rng.choice(np.where(stratum == j)[0], size=nj, replace=False)
    for j, nj in enumerate(n_j_sample)
])
y_strat = y_full[idx_strat]
strat_label = stratum[idx_strat]

with pm.Model() as m_strat:
    mu_strat = pm.Normal("mu_strat", 10, 10, shape=3)
    sigma = pm.HalfNormal("sigma", 10)
    pm.Normal("y", mu=mu_strat[strat_label], sigma=sigma, observed=y_strat)

    # 유한 모집단 평균: finite-population weighted mean
    weights = np.array(N_j) / N
    pm.Deterministic("mu_pop", (mu_strat * weights).sum())
    idata_strat = pm.sample(2000, tune=1000, random_seed=8)

print("Stratified 사후 mu_pop:")
print(az.summary(idata_strat, var_names=["mu_pop"], round_to=3))

두 분석의 mu 사후 평균은 비슷하지만 표준편차가 다르다 — Stratified 가 더 좁다. 층 간 분산이 층화로 제거되었기 때문.

6.4 계산 실행 후 비교

srs_sd = idata_srs.posterior["mu"].std().item()
strat_sd = idata_strat.posterior["mu_pop"].std().item()
print(f"SRS 표준편차:        {srs_sd:.3f}")
print(f"Stratified 표준편차: {strat_sd:.3f}")
print(f"효율 비율: {(srs_sd/strat_sd)**2:.2f}배")

Stratified 가 약 2 배 정도 효율적 (분산 기준). 같은 100 명 표본으로 더 좁은 구간을 얻는다. 이것이 “층화가 efficient” 의 베이즈적 의미.

6.5 주사위 (i) vs (iii) 우도 비교

§ 8.1 의 주사위 세 경우의 우도 함수를 그려 본다.

import numpy as np

theta = np.linspace(0.01, 0.99, 200)

like_i   = theta**10
like_ii  = theta**10 * (1 - theta)**50
like_iii = theta**10 * (1 - theta)**490

# 정규화: 각 우도를 최대값으로 나눔
like_i_n   = like_i / like_i.max()
like_ii_n  = like_ii / like_ii.max()
like_iii_n = like_iii / like_iii.max()

mle_i   = theta[like_i.argmax()]
mle_ii  = theta[like_ii.argmax()]
mle_iii = theta[like_iii.argmax()]

print(f"경우 (i) MLE:   {mle_i:.3f}")
print(f"경우 (ii) MLE:  {mle_ii:.3f}")
print(f"경우 (iii) MLE: {mle_iii:.3f}")
print(f"\n공정 주사위 theta=1/6={1/6:.3f} 에서의 우도 비:")
print(f"  (i)/(ii) = {(1/6)**10 / ((1/6)**10 * (5/6)**50):.3e}")
print(f"  (i)/(iii) = {(1/6)**10 / ((1/6)**10 * (5/6)**490):.3e}")

MLE 가 \(1, 1/6, 1/50\) 으로 완전히 다르게 나온다. 관측값 \(y_{\mathrm{obs}}\) = “10 개 6” 이 동일함에도 \(\theta\) 추론이 정반대 방향. 우도 원리의 순진한 해석이 왜 무너지는지 — 수치적 확인.

7 실전 체크리스트

§ 8.1~8.3 의 교훈을 실무 절차로:

  1. 수집 규칙 문서화 — 누가/어떻게/왜 표본에 포함됐는가. 이것이 \(p(I \mid x, y, \phi)\) 를 쓰는 첫걸음.
  2. SUTVA 점검 — 단위 간 간섭 가능성 검토. 확장이 필요하면 잠재 결과 공간 재설계.
  3. MAR 여부 진단\(y_{\mathrm{mis}}\)\(I\) 가 의존하는가? 실제로는 확증 불가. 사전 지식 + 감도 분석으로 평가.
  4. Distinct Parameters\(\theta\)\(\phi\) 가 사전에서 독립 가정 가능한가? 대개 자연스러움.
  5. 공변량 포함 — 포함 확률에 영향 주는 \(x\) 를 모두 회귀에 투입. 이걸로 nonrandom 설계가 ignorable 로 변환.
  6. Finite vs Superpopulation 결정 — 관심이 이 구체적 \(N\) 개 단위의 평균인가, 가상 초모집단의 모수인가? 보고 양식 선택.
  7. 표본 비율로 FPC 적용\(n/N\) 이 0.1 이상이면 \((1/n - 1/N)\) 보정이 유의미.
  8. 계층 모형 고려 — 층·군집이 있으면 partial pooling 이 가장 자연스러운 베이즈 접근.

8 관련 주제

선행 지식

Ch.8 세부 절 (후속 작성 예정)

  • 01-8-2-* — § 8.4~8.5 (설계 실험·무작위화의 수리적 정당화·potential outcomes 프레임)
  • 01-8-3-* — § 8.6~8.8 (관찰 연구·검열·절단·나머지 연습문제)

후속 주제

  • Ch.9 Decision Analysis — 추가 데이터 수집의 효용 계산 (정보의 가치)
  • Ch.18 Missing Data — multiple imputation 상세, MNAR selection model
  • Ch.22 Finite Mixture Models — selection model 의 혼합 표현

관련 개념

  • Rubin (1976), Inference and missing data — MCAR/MAR/MNAR 삼분류의 원저
  • Rosenbaum & Rubin (1983) — propensity score 의 수학적 토대
  • Little & Rubin (2002), Statistical Analysis with Missing Data — 결측 데이터 표준 참고서
  • Lohr (2019), Sampling: Design and Analysis — 표본조사 설계의 현대 교과서
  • scikit-learn IterativeImputer, R mice — 실무 imputation 도구

Subscribe

Enjoy this blog? Get notified of new posts by email: