Kwangmin Kim - § 8.1~8.3 — 수집 모델·무시가능성·표본 조사

1 개요 — 세 절을 한 포스트로 묶는 이유

Ch.8 § 8.1~8.3 는 “왜 수집이 문제인가 → 어떤 언어로 수집을 기술할까 → 가장 단순한 수집(표본조사)에서 그 언어가 어떻게 작동하는가” 의 일관된 흐름이다.

절	역할	한 줄 요약
8.1	동기	우도 원리 오용 폭로 — “같은 10 개 6” 이 세 다른 증거가 되는 이유
8.2	언어 설정	$(y, I)$ 분해·완전/관측 우도·ignorability·MAR·distinct parameters
8.3	첫 응용	표본조사 — SRS, 층화, 군집, PPS 가 모두 같은 ignorable 수식의 특수 사례

Overview (01-8-0) 가 결론과 도구를 지도로 제시했다면, 이 포스트는 각 수식의 유도, 각 분류의 경계, 실전 예제의 수치 구조를 보인다.

2 § 8.1 — 우도 원리의 오용과 두 일반 메시지

2.1 순진한 베이즈 학생의 주장

베이즈 추론을 갓 배운 학생이 흔히 범하는 오류.

모든 추론은 관측 데이터 $y_{\mathrm{obs}}$ 에 조건부로 이루어진다. 따라서 같은 $y_{\mathrm{obs}}$ 와 같은 우도 함수 $p(y \mid \theta)$, 같은 사전 $p(\theta)$ 가 주어지면 수집 과정은 무관하다. 이것이 우도 원리 (likelihood principle) 의 함의 아닌가?

Gelman 의 반박 (§ 8.1, p.198): 이 주장의 결함은 “관측 데이터” 의 정의에 있다. “관측 데이터” 는 숫자 벡터만이 아니라 그 숫자들이 어떻게 생겨났는지에 대한 정보까지 포함해야 한다. 수집 규칙이 바뀌면 $y_{\mathrm{obs}}$ 에 대응하는 우도 함수 자체가 바뀐다.

2.2 주사위 세 경우 완결판

overview 에서 요약했던 주사위 예시를 수식으로 끝까지 풀어본다. $\theta = P(\text{한 번 던져 6})$ 로 두자.

2.2.1 경우 (i) — “우리는 10 번만 굴렸다”

완전 데이터 = 관측 데이터 = 길이 10 의 Bernoulli 시퀀스. 데이터 생성은 고정된 $N = 10$.

\[ p(y_{\mathrm{obs}} \mid \theta) = \theta^{10} (1 - \theta)^0 = \theta^{10} \]

MLE: $\hat{\theta} = 1$. 공정한 주사위 $\theta = 1/6$ 하 우도 = $(1/6)^{10} \approx 1.65 \times 10^{-8}$. 공정성 가설 강하게 반박.

2.2.2 경우 (ii) — “60 번 굴렸는데 6 만 10 개 보고했다”

완전 데이터 = 60 번 Bernoulli 시퀀스. 관측 데이터 = “60 개 중 6 이 10 번 나왔다” 는 요약 통계량. 포함 지시자 $I_i = 1$ iff $y_i = 6$ — 결정론적 필터.

데이터 생성은 이항:

\[ p(\text{10 개 6} \mid n = 60, \theta) = \binom{60}{10} \theta^{10} (1 - \theta)^{50} \]

$\theta = 1/6$ 에서 평균 $= 60/6 = 10$. 관측값 = 정확히 평균. 정보 없음.

2.2.3 경우 (iii) — “6 이 10 번 나올 때까지 계속 굴렸다 (500 번 걸림)”

총 던짐 수 $N$ 이 랜덤 변수. 음이항:

\[ p(N = 500 \mid r = 10, \theta) = \binom{500 - 1}{10 - 1} \theta^{10} (1 - \theta)^{490} \]

$\theta = 1/6$ 하 $\mathbb{E}[N] = r / \theta = 60$. 관측 $N = 500$ 은 평균의 8 배. MLE $\hat{\theta} = 10/500 = 1/50$. 6 의 빈도가 오히려 낮다 는 증거.

2.2.4 세 우도의 비교

경우	우도 (상수 제외)	MLE $\hat{\theta}$	$\theta = 1/6$ 하 증거
(i)	$\theta^{10}$	$1$	공정성 반박 (8 자리 수)
(ii)	$\theta^{10} (1-\theta)^{50}$	$1/6$	완전 중립
(iii)	$\theta^{10} (1-\theta)^{490}$	$1/50$	6 이 드물다

직관 — 우도 함수의 “모양” 이 바뀌는 지점

세 경우 모두 $\theta^{10}$ 항은 같다. 다른 것은 $(1 - \theta)$ 의 지수 뿐. 경우 (i) 에는 “6 이 아닌 결과” 가 없으므로 지수 0. 경우 (ii) 에는 50 개, 경우 (iii) 에는 490 개.

이 지수는 수집 규칙이 “6 이 아닌 결과” 를 얼마나 많이 지배했는가 를 센다. 우도 원리가 “우도 함수의 모양이 결론을 결정한다” 고 말할 때, 그 모양 자체가 수집 규칙으로 바뀐다. 우도 원리가 틀린 게 아니라, 순진한 적용이 “관측값 = (6, 6, …, 6)” 을 수집 규칙과 독립적으로 취급한 게 오류.

2.3 두 일반 메시지

Gelman 은 Ch.8 전체를 관통하는 두 원칙을 명시한다 (§ 8.1, p.197).

수집 과정을 기술하는 변수를 분석에 포함하라 — 일반적으로 회귀 공변량으로.
- 층화 표본 → 층 지시자 $x$
- 무작위 블록 실험 → 블록 지시자 $x$
- 관찰 연구 → 치료 선택에 영향 주는 confounder $x$
부분 정보는 확률 모형으로 연결하라 — 검열 (구간 정보), 결측 (완전 손실), 절단 (임계값 필터) 은 모두 명시적 $p(I \mid y, \phi)$ 로 다룬다.

두 원칙의 근본 이유: $I$ 의 패턴 자체가 정보이기 때문. 공변량 $x$ 를 통해 $I$ 의 의존성을 풀거나, $p(I \mid y, \phi)$ 를 직접 적어야 그 정보가 사후에 살아남는다.

2.4 네 실무 지침

Ch.8 § 8.1 은 네 가지 구체적 지침을 나열한다.

지침	요지	수식적 근거
1	관측 패턴 자체가 정보일 수 있다	$I$ 를 모형에 포함
2	Ignorable 설계 (무작위화) 가 모델 선택에 덜 민감	§ 8.5 에서 증명
3	공변량 많을수록 조건부 타당, 모델 민감	§ 8.6 의 trade-off
4	사후 예측 점검 $y^{\mathrm{rep}}$ 도 설계에 의존	Ch.6 의 $y^{\mathrm{rep}}$ 생성이 $p(I)$ 를 따라야 함

직관 — 왜 $y^{\mathrm{rep}}$ 도 설계를 반영해야 하는가

Ch.6 의 사후 예측 점검은 “$y^{\mathrm{rep}}$ 가 실제 $y_{\mathrm{obs}}$ 처럼 보이는가” 를 확인한다. 실제 $y_{\mathrm{obs}}$ 는 특정 수집 규칙의 산물이다 — 예를 들어 층화 표본이면 각 층에서 $n_j$ 개 뽑힌 구조.

$y^{\mathrm{rep}}$ 를 단순 무작위 추출로 시뮬레이션하면 $y^{\mathrm{rep}}$ 의 층별 분포가 실제와 달라진다. 그러면 점검 통계량의 tail-area 가 왜곡된다. Ch.8 의 교훈은 $y^{\mathrm{rep}}$ 생성도 $p(I)$ 를 따라야 한다는 것. 설계가 점검에까지 침투한다.

3 § 8.2 — 관측·결측 데이터 프레임워크

3.1 표기법

$y = (y_1, \ldots, y_N)$ 은 잠재적 완전 데이터 (각 $y_i$ 는 스칼라 또는 벡터). $I = (I_1, \ldots, I_N)$ 은 같은 차원의 포함 지시자 행렬:

\[ I_{ij} = \begin{cases} 1 & y_{ij} \text{ 관측됨} \\ 0 & y_{ij} \text{ 결측됨} \end{cases} \]

이로부터 관측·결측 인덱스 집합과 벡터를 정의한다.

\[ \mathrm{obs} = \{(i,j) : I_{ij} = 1\}, \quad \mathrm{mis} = \{(i,j) : I_{ij} = 0\} \]

\[ y_{\mathrm{obs}} = \{y_{ij} : (i,j) \in \mathrm{obs}\}, \quad y_{\mathrm{mis}} = \{y_{ij} : (i,j) \in \mathrm{mis}\} \]

가정: $I$ 자체는 항상 관측 가능. 즉 어떤 값이 빠졌는지 (누가 응답 안 했는지) 는 알고 있다. 이 가정이 깨지는 경우 (모집단 크기 자체를 모르는 경우) 는 모수화로 우회 (Ch.8 p.199 각주).

Table 8.1 (재해석) — 네 가지 수집 상황에서의 $y$ 와 $I$

상황	Observed	Complete	$I$ 의 의미
표본 조사	표본 $n$ 개	모집단 $N$ 개	누가 표본에 뽑혔나
실험	각 단위의 실제 처치 결과	모든 처치 × 모든 단위	어느 처치가 배정됐나
반올림	반올림된 관측값	정확한 값	정확도 수준
비의도적 결측	관측된 값	관측 + 결측 전체	응답 여부

핵심 통찰: 실험조차 “결측 데이터 문제” 로 재개념화된다. 잠재 결과 $y_i(0), y_i(1)$ 중 하나만 관측 — 나머지는 자동으로 결측. 이것이 인과 추론의 Neyman-Rubin 프레임.

3.2 Stability 가정 (SUTVA)

Ch.8 의 모든 수식은 “$y$ 가 $I$ 에 영향받지 않는다” 는 가정을 전제한다. 즉 관측 행위가 데이터 값을 바꾸지 않는다.

실험 문맥의 이름: Stable Unit Treatment Value Assumption (SUTVA) — 한 단위에 적용된 처치가 다른 단위의 결과에 영향 없음.

실패 사례:

농업 실험의 비료 침투 (Gelman, p.199): 이웃 구획 간 비료가 섞여 $y_i$ 가 $T_j$ ($j \ne i$) 에 의존. 완전 데이터 구조 자체가 확장돼야 함.
네트워크 실험의 spillover: 페이스북 광고 실험에서 친구의 노출이 본인 결과에 영향.
격리 안 된 약물 시험: 한 환자의 회복이 이웃 환자의 바이러스 노출을 줄임.

SUTVA 가 깨지면 $y$ 의 공간을 모든 가능 $I$ 값에 대한 잠재 결과 벡터로 확장해야 한다 — Exercise 8.4 가 이 확장을 다룸.

3.3 완전 데이터 우도 vs 관측 데이터 우도

완전 데이터 우도 (식 8.1). 완전 데이터와 포함 벡터의 결합 분포:

\[ p(y, I \mid \theta, \phi) = p(y \mid \theta) \, p(I \mid y, \phi) \tag{8.1} \]

이 분해가 Ch.8 의 핵심 언어.

$p(y \mid \theta)$ — 데이터 모형 (data model). 과학적 관심사의 모수 $\theta$ 를 가짐. 수집 과정 무관.
$p(I \mid y, \phi)$ — 포함 모형 (inclusion model). 어떤 값이 왜 관측되는지 기술. 모수 $\phi$ 는 일반적으로 과학적 관심사 아님.

관측 데이터 우도. 실제 추론에 쓰이는 건 $(y_{\mathrm{obs}}, I)$ 의 결합. 결측 부분을 적분으로 없앤다:

\[ p(y_{\mathrm{obs}}, I \mid \theta, \phi) = \int p(y, I \mid \theta, \phi) \, dy_{\mathrm{mis}} \]

공변량 $x$ 가 완전 관측되면 모든 표현이 $x$ 에 조건부가 된다:

\[ p(y, I \mid x, \theta, \phi) = p(y \mid x, \theta) \, p(I \mid x, y, \phi) \]

직관 — 왜 이 분해가 “언어” 가 되는가

(8.1) 의 핵심은 $p(y \mid \theta)$ 와 $p(I \mid y, \phi)$ 를 따로 적기로 결심 했다는 점. 통합 우도 $p(y, I \mid \psi)$ 하나로 써도 수학은 같지만, 두 층위를 분리하지 않으면 “수집 과정이 잘 됐는가” 를 독립적으로 점검할 수 없다.

비유: 식당 리뷰 데이터를 분석하는데 (a) 사람들이 실제로 느낀 만족도 $y$ 의 모형과 (b) 누가 리뷰를 쓰기로 결심했는지 $I$ 의 모형을 섞어 버리면, “리뷰가 긍정 편향인 건 음식이 정말 좋아서인가, 불만 있는 사람이 귀찮아서 안 써서인가” 를 구분 못 한다. (8.1) 의 분해가 이 질문을 수학적으로 분리 가능하게 만든다.

3.4 결합 사후분포 유도

$(\theta, \phi)$ 의 결합 사후는 베이즈 규칙 그대로:

\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \, p(y_{\mathrm{obs}}, I \mid x, \theta, \phi) \]

우변의 우도를 (8.1) 로 전개하고 $y_{\mathrm{mis}}$ 를 적분하면:

\[ p(\theta, \phi \mid x, y_{\mathrm{obs}}, I) \propto p(\theta, \phi \mid x) \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \]

관심이 $\theta$ 에만 있다면 $\phi$ 를 적분해 marginal 을 얻는다:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \iint p(\phi \mid x, \theta) \, p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} \, d\phi \tag{8.2} \]

복잡해 보이는 이중 적분이 ignorability 가 성립하면 극적으로 단순화된다.

3.5 Ignorability — 정의와 충분 조건

정의 — Ignorability

수집 과정이 무시 가능하다는 것은 다음 등식을 의미한다:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x, y_{\mathrm{obs}}) \tag{8.3} \]

즉 $I$ 조건을 떼어내도 같은 사후가 나온다. 우변의 단순한 사후는 $p(\theta \mid x, y_{\mathrm{obs}}) \propto p(\theta \mid x) \int p(y \mid x, \theta) \, dy_{\mathrm{mis}}$ — 포함 모형을 전혀 쓰지 않은 계산.

두 가지 충분 조건:

3.5.1 조건 1 — Missing At Random (MAR)

\[ p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi) \]

즉 $I$ 의 분포가 $y_{\mathrm{mis}}$ 에 의존하지 않는다. 주어진 $\phi$ 에서 결측 메커니즘이 관측 가능한 것들 ($x$ 와 $y_{\mathrm{obs}}$) 에만 의존.

“Missing at random” 이라는 이름이 오해를 부른다. 실제 정의는:

$x$ 와 $y_{\mathrm{obs}}$ 를 조건화한 후에야 “랜덤” 하다.

예 (Gelman, p.203): “선언 소득 > $1M 이면 전수 회계감사” 는 결정론적 규칙이지만 $x$ (선언 소득) 에만 의존하므로 MAR. “랜덤” 이 아닌 결정론적 배정도 MAR 일 수 있다.

3.5.2 조건 2 — Distinct Parameters

\[ p(\phi \mid x, \theta) = p(\phi \mid x) \]

즉 $\phi$ 의 사전이 $\theta$ 에 독립. 좀 더 약한 표현: $\theta$ 와 $\phi$ 가 사전에서 정보를 공유하지 않음.

3.6 Ignorable 단순화의 유도

MAR + distinct parameters 가정 하에서 식 (8.2) 를 전개해보자. MAR 로 인해:

\[ p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi) \]

이는 $y_{\mathrm{mis}}$ 에 무관하므로 $y_{\mathrm{mis}}$ 적분 밖으로 빠진다:

\[ \int p(y \mid x, \theta) \, p(I \mid x, y, \phi) \, dy_{\mathrm{mis}} = p(I \mid x, y_{\mathrm{obs}}, \phi) \int p(y \mid x, \theta) \, dy_{\mathrm{mis}} \]

마지막 적분은 $y_{\mathrm{mis}}$ 를 적분해 없앤 것으로 $p(y_{\mathrm{obs}} \mid x, \theta)$. 따라서 (8.2) 는:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) = p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) \int p(\phi \mid x, \theta) \, p(I \mid x, y_{\mathrm{obs}}, \phi) \, d\phi \]

distinct parameters 로 $p(\phi \mid x, \theta) = p(\phi \mid x)$. 괄호 안의 $\phi$ 적분은 $\theta$ 에 무관한 상수. 따라서:

\[ p(\theta \mid x, y_{\mathrm{obs}}, I) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta) = p(\theta \mid x, y_{\mathrm{obs}}) \]

이것이 식 (8.3). $I$ 를 쓰지 않아도 같은 사후가 나온다.

직관 — 왜 “MAR + distinct parameters” 두 조건이 동시에 필요한가

MAR 혼자로는 부족하다. MAR 이 보장하는 건 “포함 모형을 $y_{\mathrm{obs}}$ 조건부로 쓸 수 있다” 는 것. 그런데 distinct parameters 가 없으면 $\phi$ 를 통해 $\theta$ 에 관한 정보가 사전에서 흘러 들어올 수 있다.

예: “조사 연구자가 $\theta$ (모집단 평균) 가 높을 때 대답 받기 쉽다고 믿고 $\phi$ 의 사전을 $\theta$ 에 의존시킨다” → MAR 이어도 $\phi$ 적분이 $\theta$ 함수가 됨. 두 조건이 모두 있어야 상수로 빠진다.

실무적으로 distinct parameters 는 대부분 자연스럽게 성립한다 (응답률 모수와 공 모집단 모수가 사전에서 얽힐 이유 없음). MAR 이 진짜 걸리는 지점.

3.7 MAR 의 세 층위 분류

Rubin (1976) 의 고전 분류. 조건이 강해질수록 범주가 작아진다.

분류	조건	직관	무시 가능?
MCAR	$p(I \mid x, y, \phi) = p(I \mid \phi)$	결측이 무작위 — 순전히 우연	O
MAR	$p(I \mid x, y, \phi) = p(I \mid x, y_{\mathrm{obs}}, \phi)$	관측 가능한 것들에만 의존	O
MNAR	위 두 조건 모두 실패	결측값 자체 에 의존	X

포함 관계: $\text{MCAR} \subset \text{MAR}$. MCAR 가 가장 강하고 ($I$ 가 $(x, y)$ 모두와 독립), MNAR 은 가장 약함 ($y_{\mathrm{mis}}$ 에 직접 의존).

MNAR 예시 (Gelman, p.203): “세금 감사에서 숨긴 소득 $y$ 가 클수록 감사 확률이 높다” — $p(I \mid y)$ 가 $y_{\mathrm{mis}}$ 에 의존. 공변량 $x$ 조건화만으로는 편향 해소 불가. 감사 메커니즘 자체를 모형화해야 함 (selection model 또는 pattern-mixture model).

3.8 Ignorability 의 여섯 분류

Ch.8 § 8.2 는 설계를 ignorable/nonignorable × known/unknown 축으로 교차 분류한다. 여기에 “strongly ignorable” 이 추가되어 실제로는 다섯~여섯 범주.

분류	수식	사례
Ignorable & known, no covariates	$p(I \mid x, y, \phi) = p(I)$	Simple random sampling, completely randomized experiment
Ignorable & known, given $x$	$p(I \mid x, y, \phi) = p(I \mid x, \phi)$	Stratified sampling, randomized block experiment
Strongly ignorable & known	$p(I \mid x, y, \phi) = p(I \mid x)$	완전 관측 공변량에만 의존. $y$ 영향 전혀 없음
Ignorable & unknown	비무작위지만 $x$ 조건부로 MAR	관찰 연구에서 propensity score 로 조정
Nonignorable & known	검열·반올림	생존 분석의 우측 검열
Nonignorable & unknown	미지 확률로 $y$ 에 의존	관찰 연구의 hidden confounder

“Strongly ignorable” 은 강화된 ignorable — “ignorable but not strongly ignorable” 의 예는 순차 실험에서 이전 관측 결과에 기반해 다음 배정 확률이 바뀌는 경우 (adaptive design). 이 경우 $I$ 가 $y_{\mathrm{obs}}$ 에 의존하긴 해도 MAR 은 성립 — propensity score 언어는 strongly ignorable 에서만 깔끔하게 적용됨.

3.9 Propensity Score

Strongly ignorable 설계에서 각 단위의 포함 확률:

\[ \pi_i = \Pr(I_i = 1 \mid X) \]

를 propensity score 라 한다. Rosenbaum-Rubin (1983) 의 핵심 결과:

Strongly ignorable 설계에서 $\pi$ 만 조건화해도 ignorable.

즉 다변량 $x$ 대신 한 차원 요약 $\pi(x)$ 로 조건화 가능. 대규모 공변량 공간의 matching·weighting 이 단일 점수로 귀결.

주의 (Gelman, p.204):

$\pi$ 만으로는 사후 예측 replication 부족. 완전 RCT ($\pi_i = 1/2$) 와 독립 Bernoulli 배정 ($\pi_i = 1/2$) 이 같은 propensity 지만 다른 설계다.
단순 무작위 표본과 일부 등확률 층화 표본이 같은 $\pi$ 를 가질 수 있음. 모델 점검에는 전체 설계 정보 필요.

3.10 Finite-Population vs Superpopulation

Ch.8 은 두 종류의 추정 목표를 구분한다.

유형	정의	예
Finite-population	구체적 $N$ 개 단위의 함수	$\bar{y} = \frac{1}{N}\sum_{i=1}^N y_i$
Superpopulation	모수 $\theta$ 의 함수	$\mu = \mathbb{E}[y_i \mid \theta]$

핵심 결과: 관측 비율이 높을수록 finite-population 추론이 모형 가정에 덜 민감.

전수 조사 ($n = N$) 면 finite-population quantity 는 정확히 알려짐. Superpopulation $\theta$ 에는 여전히 불확실성.
부분 조사 ($n < N$) 면 결측 $y_{\mathrm{mis}}$ 예측에 모형 필요 → 모형 가정 진입.

계산은 두 단계로 분리:

Superpopulation 단계: $p(\theta, \phi \mid x, y_{\mathrm{obs}}, I)$ 에서 $(\theta, \phi)^{(s)}$ 추출.
Finite-population 단계: $p(y_{\mathrm{mis}} \mid x, y_{\mathrm{obs}}, I, \theta^{(s)}, \phi^{(s)})$ 에서 $y_{\mathrm{mis}}^{(s)}$ 추출.

각 $(y_{\mathrm{obs}}, y_{\mathrm{mis}}^{(s)})$ 조합에서 관심 함수 평가 → 사후 표본. 이것이 multiple imputation 의 베이즈적 정의 (Ch.18).

3.11 비의도적 결측 — 소규모 vs 대규모

Gelman (p.205) 의 실무적 조언:

결측 비율이 작으면 — ignorable 가정 (공변량 조건부) 이 보통 안전.
결측 비율이 크면 (50% 이상) — ignorability 가정에 극도로 민감. 인과 추론의 잠재 결과 (50% 미관측) 가 대표 예. Selection model 과 pattern-mixture model 을 모두 적합해 감도 분석 필수.

4 § 8.3 — 표본 조사

4.1 왜 표본조사가 첫 응용인가

§ 8.1 에서 “수집 과정이 문제” 라 했고 § 8.2 에서 “ignorable 이면 $I$ 무시 가능” 이라 증명했다. § 8.3 은 가장 단순한 ignorable 설계 — 표본조사 — 에서 이 언어가 어떻게 작동하는지를 보인다. 네 설계 모두 식 (8.1) 의 특수화.

4.2 Simple Random Sampling (SRS)

$N$ 명의 모집단에서 크기 $n$ 의 단순 무작위 표본. $y_i$ = 주당 식비 지출. 관심: 모집단 평균 $\bar{y}$.

모집단은 교환 가능하다고 가정:

\[ p(y) = \int \prod_{i=1}^N p(y_i \mid \theta) \, p(\theta) \, d\theta \]

SRS 의 수학적 정의:

\[ p(I \mid y, \phi) = p(I) = \begin{cases} \binom{N}{n}^{-1} & \sum I_i = n \\ 0 & \text{otherwise} \end{cases} \]

이 포함 모형은:

$y$ 에 의존 안 함 (→ MAR, 나아가 MCAR).
$\phi$ 없음 (→ known).
$x$ 에 의존 안 함 (→ strongly ignorable, no covariates).

따라서 식 (8.4) 형태로 가장 단순한 범주. Propensity score $\pi_i = n/N$ 모두 같음.

4.3 Finite-population mean 의 분해

관심량 $\bar{y}$ 를 observed/missing 로 분해:

\[ \bar{y} = \frac{n}{N} \bar{y}_{\mathrm{obs}} + \frac{N - n}{N} \bar{y}_{\mathrm{mis}} \tag{8.5} \]

$\bar{y}_{\mathrm{obs}}$ 는 관측된 값 — 완전히 알려짐. 불확실성은 오직 $\bar{y}_{\mathrm{mis}}$ 에서 온다.

베이즈 시뮬레이션 절차:

$\theta^{(s)} \sim p(\theta \mid y_{\mathrm{obs}})$ 추출.
$y_i^{(s)} \sim p(y_i \mid \theta^{(s)})$ for $i \in \mathrm{mis}$ — 결측값 imputation.
$\bar{y}_{\mathrm{mis}}^{(s)} = \frac{1}{N-n}\sum_{i \in \mathrm{mis}} y_i^{(s)}$ 계산.
(8.5) 로 $\bar{y}^{(s)}$ 구성.

4.4 정규 근사 — 식 (8.6)

$N - n$ 이 크면 중심극한정리로:

\[ p(\bar{y}_{\mathrm{mis}} \mid \theta) \approx \mathrm{N}\left(\mu, \frac{\sigma^2}{N - n}\right) \]

$n$ 도 크면 $\theta = (\mu, \sigma)$ 의 사후가 정규 근사되어, 결합하면 정규의 정규 혼합 = 정규. 결과:

\[ \mathbb{E}[\bar{y}_{\mathrm{mis}} \mid y_{\mathrm{obs}}] \approx \bar{y}_{\mathrm{obs}} \]

\[ \mathrm{var}[\bar{y}_{\mathrm{mis}} \mid y_{\mathrm{obs}}] \approx \mathrm{var}[\mu \mid y_{\mathrm{obs}}] + \mathbb{E}\left[\frac{\sigma^2}{N-n} \mid y_{\mathrm{obs}}\right] \approx \frac{s_{\mathrm{obs}}^2}{n} + \frac{s_{\mathrm{obs}}^2}{N-n} = \frac{N \cdot s_{\mathrm{obs}}^2}{n(N-n)} \]

(8.5) 와 결합해 최종 근사:

\[ \bar{y} \mid y_{\mathrm{obs}} \approx \mathrm{N}\left(\bar{y}_{\mathrm{obs}}, \left(\frac{1}{n} - \frac{1}{N}\right) s_{\mathrm{obs}}^2\right) \tag{8.6} \]

이것이 유한 표본조사의 정규 이론 추론에 대한 베이즈 정당화.

직관 — 왜 분산에 $(1/n - 1/N)$ 가 나오는가

$n = N$ (전수) 이면 $1/n - 1/N = 0$ — $\bar{y}$ 가 정확히 알려짐. 표본이 전체가 되면 불확실성 없음.

$N \to \infty$ (무한 모집단) 이면 $1/n - 1/N \to 1/n$ — 고전적 평균의 분산.

차이 $1/n - 1/N$ 은 finite-population correction (FPC). 표본 비율 $n/N$ 이 클수록 표준오차가 줄어든다. 고전 표본조사 이론의 핵심 공식이 베이즈에서 자연스럽게 도출.

정규 사전 + 정규 우도에서 정확한 결과는 $t_{n-1}$: $\bar{y} \mid y_{\mathrm{obs}} \sim t_{n-1}(\bar{y}_{\mathrm{obs}}, (1/n - 1/N) s_{\mathrm{obs}}^2)$. 자유도 $n-1$ 은 $\sigma^2$ 추정의 불확실성에서 온다.

4.5 Stratified Sampling

모집단을 $J$ 개 층 (stratum) 으로 나누고, 각 층 $j$ 에서 크기 $n_j$ 의 SRS. 층 지시자:

\[ x_{ij} = \begin{cases} 1 & i \text{ in stratum } j \\ 0 & \text{otherwise} \end{cases} \]

포함 모형: $x$ 조건부로 ignorable. 즉 $p(I \mid x, y, \phi) = p(I \mid x)$ — strongly ignorable given $x$.

분석 전략:

각 층 $j$ 에서 $y_i \mid \theta_j$ 의 분포를 모형화 → 층별 모수 $\theta_1, \ldots, \theta_J$.
층 간 정보 공유를 위해 계층 모형을 부여: $\theta_j \sim p(\theta \mid \mu, \tau)$.
Finite-population 추정량: $\bar{y} = \sum_{j=1}^J \frac{N_j}{N} \bar{y}_j$.

$n_j/n$ 와 $N_j/N$ 이 같을 필요 없음. Finite-population 베이즈 추론이 표본 비율 왜곡을 자동 보정.

직관 — 왜 층화가 “ignorable given $x$” 인가

층 $j$ 안에서는 $n_j$ 명이 $N_j$ 중에서 SRS 로 뽑힘 — 층 내부는 완전 무작위. 층 간 차이는 오직 $x$ (층 지시자) 에만 의존. 따라서 $x$ 를 모형에 넣으면 $I$ 의 의존성이 모두 공변량으로 흡수 → ignorable.

반대로 $x$ 를 넣지 않고 SRS 처럼 분석하면? 층 간 분산이 무시되어 표준오차가 왜곡됨. “왜곡” 의 방향은: 비례 할당 ($n_j/n = N_j/N$) 일 때 단순 평균은 편향되지 않지만 표준오차가 과대 추정 (층화가 분산을 줄여 주는데 이를 반영 못 함). 비비례 할당이면 평균까지 편향.

4.6 Cluster Sampling

모집단을 군집 (cluster) 으로 묶고, 군집 단위로 무작위 선택 → 선택된 군집 내 모든 단위 관측 (one-stage) 또는 일부 단위 관측 (two-stage).

포함 모형: 군집 지시자가 공변량. Strongly ignorable given cluster indicator.

특징: 같은 군집 내 단위들은 급내상관. 분산이 SRS 보다 크다 (층화와 반대).

4.7 Probability-Proportional-to-Size (PPS)

크기 변수 $x_i$ 에 비례하는 포함 확률: $\pi_i \propto x_i$. 예: 학교 조사에서 학생 수에 비례해 학교 선택.

포함 모형: $p(I_i = 1 \mid x_i) \propto x_i$. Strongly ignorable given $x$ — $x$ 를 공변량으로 포함하면 ignorable.

Horvitz-Thompson 추정량 $\hat{\bar{y}}_{HT} = \frac{1}{N}\sum \frac{y_i}{\pi_i}$ 이 빈도주의 표준이지만, 베이즈에서는 $y \mid x, \theta$ 의 회귀 모형으로 $x$ 를 흡수하는 것이 자연스러움.

4.8 1988 CBS 여론조사 — 16 strata 계층 다항 예제

Ch.8 § 8.3 의 실전 예제 (p.207~209). 1988 미국 대통령선거 (Bush vs Dukakis) 예비 조사. 1447 명이 16 개 층 (region × density) 에 분포. 각 응답자는 Bush / Dukakis / 무의견 중 선택.

4.8.1 데이터 구조

층 $j$ 에서:

$n_j$: 표본 수 (1~2 명 ~ 180 명 범위)
$y_{\mathrm{obs}\, j} = (y_{\mathrm{obs}\, 1j}, y_{\mathrm{obs}\, 2j}, y_{\mathrm{obs}\, 3j})$: 세 카테고리 카운트
모형: $y_{\mathrm{obs}\, j} \sim \mathrm{Multinomial}(n_j; \theta_{1j}, \theta_{2j}, \theta_{3j})$

4.8.2 단순 비계층 모형

각 층에 독립 Dirichlet$(1,1,1)$ 사전 → 층별 사후 Dirichlet$(y_{\mathrm{obs}\, 1j} + 1, y_{\mathrm{obs}\, 2j} + 1, y_{\mathrm{obs}\, 3j} + 1)$. 관심 통계량:

\[ \sum_{j=1}^{16} \frac{N_j}{N}(\theta_{1j} - \theta_{2j}) \tag{8.7} \]

각 층의 Bush - Dukakis 격차를 모집단 비중으로 가중. Gelman 의 결과 (Figure 8.1a): 중심 0.097, 사후 중앙값이 비층화 분석 (Chapter 3.4, 0.098) 보다 약간 작음. 폭은 약간 좁음 — 층화 설계의 정보를 반영하면 표준오차 감소.

직관 — 층별 독립 Dirichlet 이 비층화와 살짝 다른 이유

비층화 분석은 “모든 응답자가 같은 $(\theta_1, \theta_2, \theta_3)$ 에서 왔다” 가정 → Dirichlet 사전이 세 카테고리에 각각 1 명씩 가상 투표 추가.

16 strata 분석은 각 층에 각각 Dirichlet 사전 → 16 × 3 = 48 명의 가상 투표 추가. Dirichlet 파라미터를 $1/16$ 로 조정하면 두 분석이 같은 중앙값.

여기서 배울 점: 계층 구조를 도입하면 사전의 “총 가상 표본 수” 가 바뀐다. 사전 민감도 분석 시 고려 필요.

4.8.3 계층 모형

로지트 변환으로 모수 재표현 (§ 8.3, p.209):

\[ \alpha_{1j} = \frac{\theta_{1j}}{\theta_{1j} + \theta_{2j}} \quad (\text{Bush 선호 조건부 확률}) \]

\[ \alpha_{2j} = 1 - \theta_{3j} \quad (\text{선호 표현 확률}) \]

\[ \beta_{1j} = \mathrm{logit}(\alpha_{1j}), \quad \beta_{2j} = \mathrm{logit}(\alpha_{2j}) \]

$(\beta_{1j}, \beta_{2j})$ 를 16 층에 대해 이변량 정규로 묶음:

\[ \begin{pmatrix} \beta_{1j} \\ \beta_{2j} \end{pmatrix} \sim \mathrm{N}\left(\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}, \begin{pmatrix} \tau_1^2 & \rho \tau_1 \tau_2 \\ \rho \tau_1 \tau_2 & \tau_2^2 \end{pmatrix}\right) \]

최상위 사전: $(\mu_1, \mu_2, \tau_1, \tau_2, \rho)$ 에 균등 사전 (로그 스케일).

총 파라미터 수: 16 × 2 + 5 = 37 차원. MCMC (Metropolis) 로 샘플링.

4.8.4 계층의 효과

Gelman 결과 (Table 8.3): $\alpha_{1j}$ (Bush 선호) 의 사후 중앙값이 원 비율 대비 수축 (shrinkage).

Northeast I: 원 비율 0.33 → 수축 후 0.48.
South I: 원 비율 0.66 → 수축 후 0.56.

극단 층은 전체 평균 $\mu_1$ 쪽으로 끌려온다. 작은 $n_j$ 일수록 큰 수축. 이것이 층 간 부분 풀링 — 정보를 공유해 각 층의 추정을 안정화.

4.9 네 설계의 통일된 관점

설계	$p(I \mid x, y, \phi)$	분류	필수 공변량
SRS	$\binom{N}{n}^{-1}$ (uniform)	Strongly ignorable, no covariates	없음
Stratified	층별 균등	Strongly ignorable given $x$	층 지시자
Cluster	군집별 선택	Strongly ignorable given cluster	군집 지시자
PPS	$\propto x_i$	Strongly ignorable given $x$	크기 변수

공통 수식: 모두 $p(\theta \mid x, y_{\mathrm{obs}}) \propto p(\theta \mid x) \, p(y_{\mathrm{obs}} \mid x, \theta)$ 형태로 귀결. 포함 모형이 $\theta$ 사후에서 사라진다. 이것이 § 8.2 의 수학이 § 8.3 에서 실현되는 지점.

5 세 절을 관통하는 직관 모음

5.1 주사위와 표본조사는 같은 이야기

§ 8.1 의 주사위 예시와 § 8.3 의 SRS 는 같은 구조. 주사위 (ii) = “60 번 중 6 만 10 개 보고” 는 $y$ 에 의존하는 포함 모형 ($I_i = 1$ iff $y_i = 6$). MAR 위반. 반면 SRS 는 $I$ 가 $y$ 와 독립 → MCAR. 그래서 SRS 는 단순 베이즈로 해결되지만 주사위 (ii) 는 다른 우도 를 요구.

이 대비를 한 문장으로: “관측 규칙이 $y$ 에 눈이 있는가” 가 ignorability 의 본질.

5.2 MAR 이 “랜덤” 이 아닌 이유를 표로

배정 규칙	$x$ 에 의존?	$y_{\mathrm{obs}}$ 에 의존?	$y_{\mathrm{mis}}$ 에 의존?	분류
동전 던지기	X	X	X	MCAR
“$x > c$ 면 자동 포함”	O	X	X	MAR (결정론적)
“응답 값이 낮으면 기록”	X	O	X	MAR
“숨긴 값이 크면 포함”	X	X	O	MNAR

MAR 의 핵심은 $y_{\mathrm{mis}}$ 의존성이 없다는 것. $x, y_{\mathrm{obs}}$ 는 얼마든지 의존해도 OK.

5.3 Ignorable 의 경계는 “알려져 있는가 $\times$ 무시 가능한가”

overview 의 직관에 수식을 추가하면:

	Known	Unknown
Ignorable	SRS, stratified, randomized block	관찰연구에서 $x$ 로 조정
Nonignorable	검열, 반올림	숨겨진 confounder, 실패한 MAR

대각선 아래 (nonignorable) 는 선택 모형 또는 pattern-mixture 필수. 대각선 위 는 $\phi$ 를 무시해도 $\theta$ 사후 정확. 관찰연구의 도전이 왜 어려운지 이 표가 말해 준다 — 대각선 경계에 걸쳐 있음.

6 코드 — SRS vs Stratified

SRS 와 층화 표본이 같은 모집단에서 다른 표준오차를 주는지 시뮬레이션으로 확인한다.

6.1 데이터 — 세 층의 이질적 모집단

import numpy as np
import pymc as pm
import arviz as az

rng = np.random.default_rng(8)

# 세 층: 평균이 다름. 층별 크기도 다름.
N_j = [300, 500, 200]
mu_j = [10, 15, 20]
sigma_j = [2, 2, 2]

y_full = np.concatenate([
    rng.normal(m, s, n) for n, m, s in zip(N_j, mu_j, sigma_j)
])
stratum = np.concatenate([
    np.full(n, j) for j, n in enumerate(N_j)
])

N = sum(N_j)
true_mean = y_full.mean()
print(f"모집단 크기 N={N}, 참 평균={true_mean:.3f}")

6.2 SRS — 층 정보 무시

n = 100
idx_srs = rng.choice(N, size=n, replace=False)
y_srs = y_full[idx_srs]

with pm.Model() as m_srs:
    mu = pm.Normal("mu", 0, 50)
    sigma = pm.HalfNormal("sigma", 20)
    pm.Normal("y", mu=mu, sigma=sigma, observed=y_srs)
    idata_srs = pm.sample(2000, tune=1000, random_seed=8)

print("SRS 사후 mu:")
print(az.summary(idata_srs, var_names=["mu"], round_to=3))

$\mathrm{SD}[\mu]$ 에 FPC 보정 $\sqrt{1 - n/N}$ 을 수동 적용하면 식 (8.6) 의 베이즈 표준오차.

6.3 Stratified — 층 정보 활용

# 비례 할당
n_j_sample = [int(round(n * Nj / N)) for Nj in N_j]
idx_strat = np.concatenate([
    rng.choice(np.where(stratum == j)[0], size=nj, replace=False)
    for j, nj in enumerate(n_j_sample)
])
y_strat = y_full[idx_strat]
strat_label = stratum[idx_strat]

with pm.Model() as m_strat:
    mu_strat = pm.Normal("mu_strat", 10, 10, shape=3)
    sigma = pm.HalfNormal("sigma", 10)
    pm.Normal("y", mu=mu_strat[strat_label], sigma=sigma, observed=y_strat)

    # 유한 모집단 평균: finite-population weighted mean
    weights = np.array(N_j) / N
    pm.Deterministic("mu_pop", (mu_strat * weights).sum())
    idata_strat = pm.sample(2000, tune=1000, random_seed=8)

print("Stratified 사후 mu_pop:")
print(az.summary(idata_strat, var_names=["mu_pop"], round_to=3))

두 분석의 mu 사후 평균은 비슷하지만 표준편차가 다르다 — Stratified 가 더 좁다. 층 간 분산이 층화로 제거되었기 때문.

6.4 계산 실행 후 비교

srs_sd = idata_srs.posterior["mu"].std().item()
strat_sd = idata_strat.posterior["mu_pop"].std().item()
print(f"SRS 표준편차:        {srs_sd:.3f}")
print(f"Stratified 표준편차: {strat_sd:.3f}")
print(f"효율 비율: {(srs_sd/strat_sd)**2:.2f}배")

Stratified 가 약 2 배 정도 효율적 (분산 기준). 같은 100 명 표본으로 더 좁은 구간을 얻는다. 이것이 “층화가 efficient” 의 베이즈적 의미.

6.5 주사위 (i) vs (iii) 우도 비교

§ 8.1 의 주사위 세 경우의 우도 함수를 그려 본다.

import numpy as np

theta = np.linspace(0.01, 0.99, 200)

like_i   = theta**10
like_ii  = theta**10 * (1 - theta)**50
like_iii = theta**10 * (1 - theta)**490

# 정규화: 각 우도를 최대값으로 나눔
like_i_n   = like_i / like_i.max()
like_ii_n  = like_ii / like_ii.max()
like_iii_n = like_iii / like_iii.max()

mle_i   = theta[like_i.argmax()]
mle_ii  = theta[like_ii.argmax()]
mle_iii = theta[like_iii.argmax()]

print(f"경우 (i) MLE:   {mle_i:.3f}")
print(f"경우 (ii) MLE:  {mle_ii:.3f}")
print(f"경우 (iii) MLE: {mle_iii:.3f}")
print(f"\n공정 주사위 theta=1/6={1/6:.3f} 에서의 우도 비:")
print(f"  (i)/(ii) = {(1/6)**10 / ((1/6)**10 * (5/6)**50):.3e}")
print(f"  (i)/(iii) = {(1/6)**10 / ((1/6)**10 * (5/6)**490):.3e}")

MLE 가 $1, 1/6, 1/50$ 으로 완전히 다르게 나온다. 관측값 $y_{\mathrm{obs}}$ = “10 개 6” 이 동일함에도 $\theta$ 추론이 정반대 방향. 우도 원리의 순진한 해석이 왜 무너지는지 — 수치적 확인.

7 실전 체크리스트

§ 8.1~8.3 의 교훈을 실무 절차로:

수집 규칙 문서화 — 누가/어떻게/왜 표본에 포함됐는가. 이것이 $p(I \mid x, y, \phi)$ 를 쓰는 첫걸음.
SUTVA 점검 — 단위 간 간섭 가능성 검토. 확장이 필요하면 잠재 결과 공간 재설계.
MAR 여부 진단 — $y_{\mathrm{mis}}$ 에 $I$ 가 의존하는가? 실제로는 확증 불가. 사전 지식 + 감도 분석으로 평가.
Distinct Parameters — $\theta$ 와 $\phi$ 가 사전에서 독립 가정 가능한가? 대개 자연스러움.
공변량 포함 — 포함 확률에 영향 주는 $x$ 를 모두 회귀에 투입. 이걸로 nonrandom 설계가 ignorable 로 변환.
Finite vs Superpopulation 결정 — 관심이 이 구체적 $N$ 개 단위의 평균인가, 가상 초모집단의 모수인가? 보고 양식 선택.
표본 비율로 FPC 적용 — $n/N$ 이 0.1 이상이면 $(1/n - 1/N)$ 보정이 유의미.
계층 모형 고려 — 층·군집이 있으면 partial pooling 이 가장 자연스러운 베이즈 접근.

8 관련 주제

선행 지식

Ch.8 Overview — § 8.1~8.7 의 전체 지도
§ 7.5~7.8 — 연속 확장·NY 예제 — § 8.3 표본조사 예제의 모체

Ch.8 세부 절 (후속 작성 예정)

01-8-2-* — § 8.4~8.5 (설계 실험·무작위화의 수리적 정당화·potential outcomes 프레임)
01-8-3-* — § 8.6~8.8 (관찰 연구·검열·절단·나머지 연습문제)

후속 주제

Ch.9 Decision Analysis — 추가 데이터 수집의 효용 계산 (정보의 가치)
Ch.18 Missing Data — multiple imputation 상세, MNAR selection model
Ch.22 Finite Mixture Models — selection model 의 혼합 표현

관련 개념

Rubin (1976), Inference and missing data — MCAR/MAR/MNAR 삼분류의 원저
Rosenbaum & Rubin (1983) — propensity score 의 수학적 토대
Little & Rubin (2002), Statistical Analysis with Missing Data — 결측 데이터 표준 참고서
Lohr (2019), Sampling: Design and Analysis — 표본조사 설계의 현대 교과서
scikit-learn IterativeImputer, R mice — 실무 imputation 도구