1 개요 — 세 절의 공통 질문
§ 8.4~8.6 은 한 가지 질문의 세 변주다.
“관측된 \(y_{\mathrm{obs}}\) 로 인과 효과를 어떻게 얻는가?”
| 절 | 설계 | 수집 메커니즘 | ignorability 획득 경로 |
|---|---|---|---|
| 8.4 | 설계 실험 | 실험자가 처치 배정 | 무작위화 → 자동 |
| 8.5 | 무작위화 일반론 | 공변량 조건부 임의 배정 | randomization 이 “보험” 역할 |
| 8.6 | 관찰 연구 | 단위가 처치 선택 | 공변량 조건부 ignorability 가정 → 감도 분석 |
§ 8.1~8.3 이 이미 ignorable 한 설계를 다뤘다면, § 8.4~8.6 은 어떻게 ignorability 를 만들거나 합리적으로 가정할 것인가 를 묻는다. Overview (01-8-0) 와 § 8.1~8.3 심화 (01-8-1) 의 연장선이다.
2 § 8.4 — 설계 실험
2.1 실험의 수학적 정의
통계학 용어로 실험 (experiment) 은 처치 (treatment) 를 단위 (unit) 에 배정 (assignment) 하는 과정이 실험자의 통제 하에 있음 을 뜻한다. 목표:
- 관측된 결과를 “다른 처치가 배정되었다면 어땠을까” 라는 가정적 결과로 일반화.
- 실험에 포함된 단위를 넘어 더 큰 모집단으로 일반화.
첫 번째 과정이 인과 추론, 두 번째가 외적 타당도. § 8.4 는 두 과정을 모두 베이즈 프레임워크로 끌어들인다.
2.2 Potential Outcomes — \(n \times 2\) 완전 데이터 행렬
\(n\) 개 단위에 두 처치 \(A, B\) 중 하나를 배정하는 상황. 완전 데이터:
\[ (y_i^A, y_i^B), \quad i = 1, \ldots, n \]
\(y_i^A\) 는 “\(i\) 번 단위가 처치 \(A\) 를 받았다면 나올 결과”, \(y_i^B\) 는 처치 \(B\) 일 때 결과. 두 값 모두 실재하는 가상 현실이다. 관측되는 건 정확히 하나 — 배정된 쪽.
완전 데이터를 \(n \times 2\) 행렬로 나열하면:
\[ Y = \begin{pmatrix} y_1^A & y_1^B \\ y_2^A & y_2^B \\ \vdots & \vdots \\ y_n^A & y_n^B \end{pmatrix} \]
실험 = 각 행에서 한 열을 관측, 다른 열은 결측. 이것이 § 8.2 의 \((y, I)\) 언어가 실험에서 실현되는 방식.
관찰 연구의 인과 추론 문헌은 대개 “교란” (confounding) 언어로 시작한다. Rubin 의 잠재 결과 프레임은 다른 각도 — “관측 안 된 \(y_i^B\) 를 \(y_i^A\) 로부터 어떻게 예측할까”.
행렬 \(Y\) 의 50% 가 결측된 상태에서 평균 차이 \(\bar{y}^A - \bar{y}^B\) 를 복원하는 것이 인과 추론의 본질. § 8.2 의 모든 언어 (ignorability, MAR, distinct parameters) 가 그대로 적용된다. 50% 결측 + “어느 쪽이 결측되는지” 가 처치 배정 \(I\) — 이것이 설계 실험의 베이즈적 재구성.
2.3 Stability (SUTVA) — 실험에서의 의미
§ 8.2 의 stability 가정이 실험 문맥에서는 Stable Unit Treatment Value Assumption (SUTVA):
- 단위 \(i\) 의 잠재 결과 \((y_i^A, y_i^B)\) 는 다른 단위들의 처치 배정에 영향받지 않는다.
- 구체: \(i\) 에게 \(A\) 를 주어도 \(j (\ne i)\) 의 \(y_j^A, y_j^B\) 가 바뀌지 않는다.
실패 사례 (§ 8.4, p.214):
- 이웃 농지 비료 침투 → 한 plot 의 \(y\) 가 옆 plot 의 처치에 의존.
- 전염병 백신 실험 → 한 사람의 접종이 주변 감염률을 낮춤 (herd effect).
- 소셜 플랫폼 실험 → 친구가 본 광고가 본인 결과에 영향 (network interference).
SUTVA 가 깨지면 완전 데이터가 \(n \times 2\) 가 아니라 \(n \times 2^n\) 이 된다 — 모든 배정 벡터 조합에 대한 잠재 결과. 이 확장은 일반적으로 비현실적.
2.4 Superpopulation vs Finite-Population 인과 효과
두 종류의 인과 추정.
| 유형 | 정의 | 질문 |
|---|---|---|
| Superpopulation | \(\mathbb{E}[y_i^A - y_i^B \mid \theta] = \mu_A - \mu_B\) | 이 모집단에서 평균 처치 효과 |
| Finite-population | \(\bar{y}^A - \bar{y}^B = \frac{1}{n}\sum(y_i^A - y_i^B)\) | 이 \(n\) 개 단위의 실제 처치 효과 |
두 수량의 관계: finite-population 은 superpopulation 의 랜덤 실현.
- \(n \to \infty\) 또는 \(N \to \infty\) 일 때 둘이 일치.
- 실험 대상이 그 자체로 관심 — 실제 단위의 실제 효과가 관심사 — 이면 finite-population.
- 유사 상황에 일반화 목적이면 superpopulation.
2.5 Completely Randomized Experiment — 포함 모형
\(n\) 을 짝수, 절반이 \(A\), 절반이 \(B\). 포함 지시자:
\[ I_i = (I_i^A, I_i^B), \quad I_i^A + I_i^B = 1 \]
완전 무작위 배정:
\[ p(I \mid y, \phi) = p(I) = \begin{cases} \binom{n}{n/2}^{-1} & \sum I_i^A = \sum I_i^B = n/2 \\ 0 & \text{otherwise} \end{cases} \]
\(y\) 에 의존 안 함 → strongly ignorable. \(\phi\) 없음 → known. Propensity score \(\pi_i = 1/2\) for all \(i\). SRS 와 쌍둥이 구조.
2.6 관측 데이터 우도와 Superpopulation 사후
Ignorable 설계이므로 \(\theta\) 사후는 \(I\) 무시 가능:
\[ p(\theta \mid y_{\mathrm{obs}}) \propto p(\theta) \, p(y_{\mathrm{obs}} \mid \theta) \]
i.i.d. 혼합 모형 하에서:
\[ p(y_{\mathrm{obs}} \mid \theta) = \prod_{i: I_i^A = 1} p(y_i^A \mid \theta_A) \prod_{i: I_i^B = 1} p(y_i^B \mid \theta_B) \]
주변 분포의 모수 \(\theta_A, \theta_B\) 는 관측 데이터로 직접 추정 가능. \(\theta_A\) 는 \(A\) 집단만의 우도, \(\theta_B\) 는 \(B\) 집단만의 우도로부터.
2.7 Finite-Population 추정의 어려움 — Joint Distribution
Superpopulation 추정 \(\mu_A - \mu_B\) 는 \(\theta_A, \theta_B\) 로부터 계산되지만, finite-population \(\bar{y}^A - \bar{y}^B\) 는 다르다.
\(\bar{y}^B\) 계산에 필요한 \(y_i^B\) (통제군 결측) 를 예측하려면 관측된 \(y_i^A\) 조건부 분포가 필요:
\[ p(y_{\mathrm{mis}}^B \mid \theta, y_{\mathrm{obs}}^A) = p(y_i^B \mid \theta_{AB}, y_i^A) \]
이건 두 잠재 결과의 결합 분포 \(p(y_i^A, y_i^B \mid \theta_{AB})\) 의 모수 \(\theta_{AB}\) 를 요구. 그런데 우도에는 \(\theta_{AB}\) 가 나타나지 않는다 — 한 단위에서 한 값만 관측.
결과적으로:
\[ p(\theta_{AB} \mid y_{\mathrm{obs}}) = \int p(\theta_{AB} \mid \theta_A, \theta_B) \, p(\theta_A, \theta_B \mid y_{\mathrm{obs}}) \, d\theta_A \, d\theta_B \]
즉 \(\theta_{AB}\) 의 사후는 순전히 사전 \(p(\theta_{AB} \mid \theta_A, \theta_B)\) (특히 \(\mathrm{corr}(y_i^A, y_i^B \mid \theta)\) 가정) 에 의존. 데이터로 확증 불가.
한 단위에서 \(y_i^A\) 와 \(y_i^B\) 를 동시에 관측할 수 없다. 실험에서 \(i\) 번 단위에 \(A\) 를 주면 \(y_i^B\) 는 영원히 결측 — 다른 어떤 단위의 데이터도 이 단위의 잠재 결과 쌍을 복원 못 한다.
이 한계가 인과 추론의 근본 문제 (Fundamental Problem of Causal Inference, Holland 1986). Finite-population 추정은 이 결합 분포에 민감하지만, 다행히 대표본 한계에서는 민감도가 사라진다 — 다음 식 (8.17) 이 그 이유.
2.8 식 (8.17) — 대표본 점근 정규
\(n\) 이 크고 \(N/n\) 이 크면 (무한 모집단 근사):
\[ (\bar{y}^A - \bar{y}^B) \mid y_{\mathrm{obs}} \approx \mathrm{N}\!\left(\bar{y}_{\mathrm{obs}}^A - \bar{y}_{\mathrm{obs}}^B, \; \frac{2}{n}(s_{\mathrm{obs}}^{2A} + s_{\mathrm{obs}}^{2B})\right) \tag{8.17} \]
평균: 관측 표본 평균 차이. 분산: 두 집단의 관측 분산 합 에 \(2/n\) 배. 이것이 고전 두 표본 평균 차이 의 표준오차와 정확히 같다:
\[ \mathrm{Var}[\bar{y}_{\mathrm{obs}}^A - \bar{y}_{\mathrm{obs}}^B] = \frac{s_A^2}{n/2} + \frac{s_B^2}{n/2} = \frac{2}{n}(s_A^2 + s_B^2) \]
베이즈 추론과 빈도주의 추론의 점근 일치. § 4.4 의 일반 결과가 완전 무작위 실험에서 구체화된다.
분산 공식 (8.17) 에는 \(\theta_{AB}\) (두 잠재 결과의 결합) 가 안 나타난다. 왜?
대표본에서는 \(\bar{y}^A - \bar{y}^B\) 가 \(\mu_A - \mu_B\) 에 수렴. 두 평균의 차이는 \(y_i^A, y_i^B\) 의 상관에 무관 — 평균은 주변 분포의 함수. 따라서 결합 분포의 세부가 지워진다.
작은 \(n\) 이나 \(N \approx n\) 이면? 이야기가 다르다. Finite-population 인과 효과가 개별 단위의 \(y_i^A - y_i^B\) 쌍에 본질적으로 의존 → 사전 민감. 소규모 실험에서 “사전의 역할이 크다” 는 이유.
2.9 Randomized Blocks와 Latin Square
완전 무작위가 strongly ignorable (no covariates) 였다면, 블록·Latin square 은 strongly ignorable given \(x\). 공변량 (블록 지시자, plot 위치) 을 넣으면 ignorable.
Gelman § 8.4 의 Millet Latin Square 예제 (Table 8.4, p.216): 25 plot × 5 처치 (A~E, 간격 2~10 인치). 각 행·각 열에 각 처치가 정확히 한 번 등장. 완전 데이터 \(Y\) 는 \(25 \times 5\), 관측은 행당 하나.
설계가 ignorable 이 되도록 하는 공변량: plot 의 좌표 \(x_{ij}\) (수평·수직 위치). 어떤 ignorable 모형도 \(p(y \mid x, \theta)\) 형태여야 함. 추가 정보 (강의 흐름, 토양 구배) 있으면 포함.
분석은 두 단계:
- Superpopulation: \(\log y\) 에 대한 선형 additive 모형 (행 효과 + 열 효과 + 처치 효과 \(\pm\) 처치-위치 interaction).
- Finite-population: 25 plot 의 \(x\) 값 조건부로 각 처치의 기대 수확 평균.
Gelman 의 교육적 문답 (p.216): “Table 8.4 데이터가 실제로 Latin square 가 아니라 완전 무작위 실험인데 우연히 각 행·열이 balanced 된 것이라면, 분석을 바꿔야 하는가?”
답: 아니다. 여전히 \(x\) (plot 위치) 조건부로 분석하는 게 맞다. 이유: 완전 무작위였다면 \(p(y \mid \theta)\) 만으로도 ignorable — \(x\) 를 무시해도 valid. 그러나 \(x\) 가 \(y\) 에 진짜 영향을 주면 (위치별 토양 차이), \(x\) 를 포함하는 모형이 더 정밀.
결론: ignorability 는 “무시해도 되는” 이지 “무시해야 하는” 이 아니다. 추가 공변량은 정보를 늘린다. 단, 추가 공변량이 \(y\) 와 무관 하면 오히려 사후를 flatten (noise 주입) — 무턱대고 다 넣으면 안 됨.
2.10 Sequential Designs — Ignorable but Not Strongly
\(i\) 번째 단위의 처치 확률이 이전 관측 결과 \(y_{1}, \ldots, y_{i-1}\) 에 의존하는 설계 (adaptive trial).
\[ p(I_i \mid y_{1:i-1}, x, \phi) \ne p(I_i \mid x, \phi) \]
\(I\) 가 \(y_{\mathrm{obs}}\) 에 의존하지만 \(y_{\mathrm{mis}}\) 에는 의존 안 함 → MAR 유지, ignorable. 그러나 \(y_{\mathrm{obs}}\) 의존이 있으므로 strongly ignorable 은 아님 (propensity score 언어 제한적 적용).
실무 함의: 적응 실험은 “완전 무작위처럼 분석해도 된다” 가 아니다. 배정 규칙에 사용된 모든 이전 변수를 조건부로 분석해야 함.
2.11 Minimally Adequate Summary vs 확장 분석
§ 8.4 (p.217) 의 미묘한 포인트. Minimally adequate summary — ignorability 를 유지하는 최소 공변량 집합.
그러나 실제로는 추가 공변량 사용이 유익. 예: 100 명 SRS 에서 성별 분포가 모집단 (51% 여 / 49% 남) 과 다르면, 성별을 공변량으로 층화하는 것이 추가 정보를 활용. Minimal analysis 에선 성별 무시해도 valid 하지만 non-minimal 이 더 정밀.
단, 모집단 성별 분포를 모른다면 공변량으로 성별을 쓰는 것이 오히려 부담 — \(p(x)\) 의 모수를 추정해야 함. 이 trade-off 가 “more valid conditionally but possibly more sensitive” 원칙.
2.12 사례 — 50 마리 소 실험 (재무작위화)
§ 8.4 (p.217~218) 의 ignorable & unknown 예제. 50 마리 소에 4 가지 메티오닌 하이드록시 유사체 처치. 3 개 전처치 공변량 (수유 단계, 나이, 초기 체중) 을 기준으로 처치군 간 balance 확인.
절차:
- 완전 무작위 배정.
- 세 공변량의 처치군 간 분포 점검.
- balance 가 “best” 인 배정이 나올 때까지 여러 차례 재무작위화.
이 설계의 분류:
- Ignorable — 배정이 공변량에만 의존 (\(y\) 에 의존 안 함).
- Unknown — 재무작위화 결정 규칙이 명시적으로 기술되지 않음.
분석 전략: \(y\) 를 처치 + 3 공변량의 함수로 모델링. \(\phi\) (배정 모수) 가 \(\theta\) 와 distinct 하다고 가정.
완전 무작위 → balanced 할 기대값은 맞지만, 작은 \(n\) 에선 우연히 unbalanced 될 수 있다. 재무작위화는 “우연” 을 제거한다. 그런데 “몇 번 시도했나, 어떤 balance 기준인가” 를 공식적으로 기록하지 않으면 \(\phi\) 가 사실상 “unknown”.
이 설계는 ignorability 는 살아 있지만 명시적 확률 모형을 적기 어렵다. 베이즈 분석자의 실용적 대응: 공변량 \(x\) 를 충분히 포함해서 \(p(I \mid x) = p(I \mid x, y)\) 가 근사적으로 성립하도록 설계 정보를 활용. 완전한 정당화는 공변량 풍부도에 의존.
2.13 Ignorability 와 정밀성은 다른 문제
§ 8.4 핵심 교훈:
고정 모형·데이터에서 \(\theta\) 사후는 모든 ignorable 설계에서 동일.
그러나 더 좋은 설계는 더 정보량 높은 데이터를 산출. 소 실험의 경우 — 단순 재무작위화보다 명시적 randomized block 이 더 precise 한 추론을 주었을 것. Ignorability 는 “최소 요건”, 정밀성은 “설계 선택의 자유도”.
3 § 8.5 — 무작위화의 역할
3.1 왜 무작위화인가 — 첫 번째 대답
§ 8.5 의 핵심 질문: 설계가 ignorable 이기만 하면 같은 사후가 나오는데, 왜 무작위화가 필요한가?
첫 답: 공변량이 전혀 없을 때 ignorable 하려면 결국 무작위화밖에 없다.
\(p(I_1, \ldots, I_n \mid \phi)\) 가 permutation invariant (\(i\) 인덱스 바꿔도 같음) 여야 ignorable (단위 간 구별 정보 없음). Permutation invariant 한 비자명 분포는 랜덤 배정. “랜덤” 이 자연스러운 귀결.
3.2 정밀성의 두 번째 대답
두 이형 랜덤 배정 비교: 10 명에 2 처치 주는 두 방법.
- 방법 A: 각 subject 에 독립 동전 던지기 (\(I_i \sim \mathrm{Bernoulli}(1/2)\)).
- 방법 B: 랜덤하게 절반 \(A\), 절반 \(B\) 배정.
두 방법 모두 ignorable. 그러나 방법 B 가 일반적으로 정밀성 높음 — 두 집단 크기가 정확히 같아 분산 더 작음. 방법 A 는 가끔 7-3 으로 쏠려 고분산 추정.
Ignorability 는 최소 요건, 정밀성은 추가 요구. 두 기준이 분리됨.
3.3 공변량이 있을 때 — Randomization vs 결정론적 Ignorable
Gelman 의 fertilizer 예제 (§ 8.5, p.218): 12 개 인접 plot 에 비료 \(A, B\) 를 6 개씩. 두 설계 비교:
- Randomized: 6 plot 에 \(A\), 6 에 \(B\) 를 무작위 배정.
- Systematic: \(A B A B A B B A B A B A\) (결정론적 교차).
\(x_i\) = plot 위치라 하자. 두 설계 모두 \(x\) 조건부로 ignorable. 실제 분석은 둘 다 \(p(y \mid x, \theta)\) 로 하되, 예를 들어 “위치 선형 추세” 를 포함해 공변량 효과를 처리.
그럼 왜 무작위화를 선호하는가?
3.3.1 이유 1 — “\(x\) 무시해도 valid”
무작위 설계 하에선 \(x\) 를 아예 사용하지 않은 분석도 valid (ignorable 이 \(x\) 조건부 아니어도 성립). 즉 최소 분석 \(p(y \mid \theta)\) 도 쓸 수 있고, 확장 분석 \(p(y \mid x, \theta)\) 는 더 정밀. 두 분석의 일관성을 비교할 수 있다 — 일관성 깨지면 모형 가정 재검토.
결정론 설계 하에선 \(x\) 를 써야만 ignorable 이 유지되므로 이 모델 진단 도구가 없다.
3.3.2 이유 2 — 사후 예측 점검의 유연성
\(y^{\mathrm{rep}}\) 시뮬레이션 시, 무작위 설계는 미래 replication 에 다른 배정을 줄 수 있다. \(y^{\mathrm{rep}}\) 의 분포가 설계 변동을 반영. 결정론 설계는 항상 같은 배정 → \(y^{\mathrm{rep}}\) 가 좁음.
3.3.3 이유 3 — “Cheating” 방지
모든 결정론 설계는 관측 안 된 변수 와 체계적으로 상관될 위험. 예: 옥외 실험에서 \(ABABAB\) 배정이 우연히 “햇볕-그늘” 패턴과 일치하면, 햇볕을 \(A\) 가, 그늘을 \(B\) 가 독점 → 교란 변수와 처치가 구별 불가능. 무작위화는 이 가능성을 기대값에서 차단.
Ignorability 만 보면 결정론 설계와 무작위 설계가 같다. 그러나 실제 세계에는 모델이 포착 못 한 공변량이 항상 있다. 무작위화는 그 알려지지 않은 공변량에 대해서도 기대값 기준 balance 를 보장.
비유: 알려진 위험은 보험 증서로, 알려지지 않은 위험은 분산 투자로 대응. 무작위화는 “알려지지 않은 위험에 대한 분산 투자”.
3.4 Cheating 의 세 베이즈 경로
§ 8.5 (p.219~220) 의 세 위험 경로.
3.4.1 경로 1 — 미기록 공변량에 의존
처치 배정이 기록되지 않은 공변량 (예: 햇볕/그늘) 에 의존하면 nonignorable. 선택 효과를 명시 모형화해야 하는데, 일반적으로 모델 민감도 극도로 높음.
3.4.2 경로 2 — 기록 공변량에 의존하지만 collinearity
처치 지시자와 공변량이 완전 collinear 하면 (모든 햇볕 plot 에 \(A\), 모든 그늘 plot 에 \(B\)), 관측 우도가 둘을 구별 불가 — 처치 효과와 공변량 효과가 identifiable 하지 않음.
3.4.3 경로 3 — Distinct Parameters 위반
명시적으로 무작위라도 \(\phi\) 와 \(\theta\) 의 사전이 얽히면 nonignorable. 예: “효과가 클 거라 믿으면 완전 무작위, 작을 거라 믿으면 randomized block 을 선택” — \(\phi\) (설계) 가 \(\theta\) (효과) 에 관한 사전 신념에 의존.
실무에선 데이터가 사전을 압도하면 이 의존이 희석되지만, 소표본에선 민감.
3.5 Nonrandomized Ignorable 설계의 민감도
Gelman 의 street corner 예제 (§ 8.5, p.220): 도시 성인 여론 조사. 11 am~noon 에 지나가는 사람 모두 인터뷰.
두 가지 모델링:
3.5.1 모델 1 — Nonignorable
\(I_i = 1\) iff \(i\) 가 그 시간대 통과. 통과 여부가 개인 행동 패턴 \(y\) (의견) 에 의존한다 가정. 포함 모형 \(p(I \mid y, \phi)\) 명시 필요.
3.5.2 모델 2 — Ignorable
\(x_i = 1\) iff 통과 — 완전 관측 공변량. \(p(I \mid x) = x\) (통과하면 100% 포함). 분석: \(p(y \mid x = 1)\) 만 가능, \(p(y \mid x = 0)\) 는 데이터 0 개.
두 접근 모두 \(n/N\) 이 1 에 가깝지 않으면 결론이 사전 분포에 극도로 민감. 관찰 연구와 본질적으로 같은 상황 — 공변량 \(x\) 가 없으면 처치 배정이 미확인 변수에 의존.
Strongly ignorable 설계의 장점: 공변량 \(x\) 조건부로 같은 \(x\) 값을 가진 두 단위는 같은 포함 확률:
\[ p(I_i \mid x_i) = p(I_j \mid x_j) \quad \text{if } x_i = x_j \]
이는 \(x\) 에 포함되지 않은 모든 변수에 대해 암묵적 무작위화.
4 § 8.6 — 관찰 연구
4.1 실험 vs 관찰
§ 8.6 의 정의: 관찰 연구는 처치가 실험자 통제 밖. 데이터는 “처치 + 결과” 쌍으로 실험과 같아 보이지만, 처치 배정 메커니즘은 단위 자체의 선택 (또는 알려지지 않은 과정).
SAT 코칭 연구 (Ch.5.5): 학교에서 학생에게 코칭 배정 → 실험. 만약 학생이 스스로 코칭 등록 결정했다면 → 관찰 연구.
| 측면 | 실험 | 관찰 연구 |
|---|---|---|
| 처치 배정 | 실험자 통제 | 단위 자발적 선택 |
| Balance | 기대값 기준 자동 | 대개 unbalanced |
| Ignorability | 무작위화로 보장 | 공변량 조건부로 가정 |
| 감도 분석 | 부차적 | 필수 |
4.2 좋은 관찰 연구의 다섯 요건
Gelman (§ 8.6, p.221) 의 리스트:
- 배경 balance — 처치군 간 사전 차이를 잘 통제.
- 충분한 독립 단위 — 좁은 사후 구간을 위해 크기 확보.
- 결과 무관 설계 — 분석 결과를 미리 보고 설계 수정 금지.
- 결측 최소화 — 이탈·드롭아웃을 최소화하거나 명시 모형화.
- 설계 정보 활용 — 층화·짝짓기에 쓰인 정보를 분석에 반영.
대부분 관찰 연구가 이들 중 1~2 개 이상 실패. 특히 요건 1 (사전 차이) 이 핵심 — 체계적 pre-treatment 차이가 결과 해석을 오염.
4.3 Figure 8.2 — Balance 와 모델 민감도의 직결
§ 8.6 의 Figure 8.2 (p.221) 는 세 패널로 balance 가 모델 민감도에 미치는 영향을 보인다.
- 패널 (a) — Balanced. 처치·통제 두 군의 \(x\) 분포 거의 동일. 선형 회귀로 추정한 처치 효과가 모델 형태에 둔감. 무작위 실험에서 흔한 패턴.
- 패널 (b) — Unbalanced + 선형 fit. 통제군 \(x\) 작음, 처치군 \(x\) 큼. 선형 회귀는 양의 처치 효과 추정.
- 패널 (c) — 같은 unbalanced 데이터 + 약한 비선형 fit. 처치 효과 0 에 가깝게 추정.
Balanced 데이터 (a) 에선 처치군·통제군이 같은 \(x\) 구간에서 겹친다. 모델이 두 군의 평균을 비교하면 됨 — 추세를 extrapolate 할 필요 없다.
Unbalanced 데이터 (b, c) 는 두 군의 \(x\) 분포가 거의 겹치지 않음. 처치 효과 추정은 반드시 “\(x\) 에서 추세를 외삽” 해야 함 — 관측 안 된 영역으로. 그런데 외삽은 함수 형태에 극도로 민감. 선형이면 한 결론, 약간만 굽어도 반대 결론.
Balance = 외삽 회피 = 모델 독립성. 설계의 힘이 함수형 사전의 역할을 대체한다.
4.4 Propensity Score 의 진단 역할
Figure 8.2 의 unbalance 는 propensity score 분포의 비겹침 (non-overlap) 으로 정량화된다.
\[ \pi(x) = \Pr(I = 1 \mid X = x) \]
를 로지스틱 회귀로 추정. 처치군과 통제군에서 \(\hat{\pi}\) 의 분포를 비교:
- 두 분포가 겹치면 → 공통 support. 공변량 조정 의미 있음.
- 두 분포가 분리되면 → non-overlap. 공변량 조정으로 해결 안 됨. 실무 전략: non-overlap 영역 제거 후 분석 (restricted sample).
Propensity score 가 강력한 이유: 다변량 \(x\) 를 스칼라로 요약. 고차원 covariate 에서도 overlap 진단 가능.
4.5 관찰 연구의 두 일반적 난점
§ 8.6 (p.222) 의 실무 경고.
4.5.1 난점 1 — Unbalance
처치군·통제군 간 공변량 분포가 크게 다르면, Figure 8.2 의 (b), (c) 상황 — 결론이 함수형 가정에 민감. 이 경우 데이터가 “실질적으로 정보 없음” 이 될 수 있다.
4.5.2 난점 2 — 미관측 Confounder
처치 배정이 측정되지 않은 변수 (학생의 “당일 기분”, 의사의 “환자별 직관”) 에 의존. 아무리 관측 공변량을 넣어도 ignorability 회복 불가. MNAR 상황. 선택 모형의 가정에 민감.
4.6 Matching·Stratification·Regression 조정
관찰 연구 분석의 표준 도구:
| 방법 | 원리 | 베이즈 해석 |
|---|---|---|
| Matching | 비슷한 \(x\) 를 가진 처치-통제 쌍 형성 | Local \(p(y \mid x, \theta)\) 추정 후 평균 |
| Stratification | \(x\) 를 구간별로 나눠 각 구간 내 비교 | Finite-population 가중 평균 |
| Regression | \(y\) 에 \(x\) 회귀 추가 | \(p(y \mid x, T, \theta)\) 의 회귀 조정 |
| Propensity score matching | \(\hat{\pi}(x)\) 가 비슷한 쌍 | Overlap 보장 후 local 비교 |
공통 아이디어: \(x\) 에 조건부 분석 → \(x\) 분포로 평균. § 8.3 의 stratified sampling 분석과 동일 구조.
4.7 Principal Stratification — 중간 결과를 Covariate 처럼
§ 8.6 (p.223) 의 진보된 주제. 처치와 최종 결과 사이에 중간 변수 \(C\) 가 있다. 예:
- 처치 = 공부 프로그램 등록 권유, 중간 = 실제 참여 여부, 결과 = 시험 점수.
- 처치 = 금연 캠페인 노출, 중간 = 금연 시도, 결과 = 건강.
\(C\) 의 잠재 결과 \((C(0), C(1))\) — 처치 배정 \(I = 0, 1\) 각각에 대한 \(C\) 값.
관측값: \(C_{\mathrm{obs}, i} = I_i C_i(1) + (1 - I_i) C_i(0)\) — 배정된 쪽의 \(C\) 만.
“\(C_{\mathrm{obs}}\) 에 따라 분석을 층화” 는 잘못. \(C_{\mathrm{obs}}\) 는 처치 \(I\) 에 의존 — covariate 가 아니다.
올바른 접근: \((C(0), C(1))\) 쌍을 층화 기준으로 사용. 이 쌍은 \(I\) 와 독립 (unit-level 잠재 결과이므로) → 진정한 covariate 역할 가능.
문제: \((C(0), C(1))\) 는 일반적으로 관측 불가. 이것이 principal stratification 을 “정통 베이즈 문제” 로 만든다 — 잠재 변수로 취급, MCMC 로 사후 추출.
4.8 Sommer-Zeger Indonesian Vitamin A 예제
§ 8.6 (p.223~224) 의 대표 예시. 인도네시아 마을의 비타민 A 보충제 실험. 단점: 처치군에 배정된 사람도 자발적으로 복용 안 할 수 있음. 이것이 noncompliance.
4.8.1 Potential Outcomes 구조
\(C_i(1)\): 처치 배정 시 \(i\) 가 실제 복용하는가 (1 = yes). \(C_i(0)\): 통제 배정 시 \(i\) 가 복용하는가. 이 연구에선 통제군은 비타민 A 접근 자체가 없으므로 \(C_i(0) = 0\) for all \(i\).
두 principal strata:
- Complier — \(C_i(1) = 1, C_i(0) = 0\). 배정되면 복용, 아니면 복용 안 함.
- Never-taker — \(C_i(1) = 0, C_i(0) = 0\). 배정돼도 복용 안 함.
(Always-taker 와 defier 는 \(C_i(0) = 0\) 제약으로 배제.)
4.8.2 Table 8.5 데이터
| 범주 | \(I_{\mathrm{obs}}\) | \(U_{\mathrm{obs}}\) | \(Y_{\mathrm{obs}}\) | 단위 수 |
|---|---|---|---|---|
| Complier or never-taker | 0 | 0 | 0 | 74 |
| Complier or never-taker | 0 | 0 | 1 | 11514 |
| Never-taker | 1 | 0 | 0 | 34 |
| Never-taker | 1 | 0 | 1 | 2385 |
| Complier | 1 | 1 | 0 | 12 |
| Complier | 1 | 1 | 1 | 9663 |
\(I_{\mathrm{obs}} = 1\): 처치 배정됨. \(U_{\mathrm{obs}} = 1\): 실제 복용함. \(Y_{\mathrm{obs}} = 1\): 생존.
관찰 가능한 strata: 처치군에서는 복용 여부로 complier/never-taker 구분 가능. 통제군에서는 구분 불가능 (둘 다 \(U = 0\)).
4.9 ITT, CACE, NACE, IV Estimate
4.9.1 Intention-to-Treat (ITT) 효과
배정 자체의 효과 — 복용 여부 무시:
\[ \mathrm{ITT} = \bar{Y}_1 - \bar{Y}_0 \]
\(\bar{Y}_1\) = 처치 배정군 평균 결과, \(\bar{Y}_0\) = 통제 배정군 평균 결과. 무작위화 덕에 직접 추정 가능.
4.9.2 ITT 의 분해 — 식 (8.18)
\[ \bar{Y}_1 - \bar{Y}_0 = p_c \cdot \mathrm{CACE} + (1 - p_c) \cdot \mathrm{NACE} \tag{8.18} \]
- \(p_c\): complier 비율.
- \(\mathrm{CACE}\): complier 들의 평균 인과 효과.
- \(\mathrm{NACE}\): noncomplier 들의 평균 인과 효과 (배정만으로의 효과).
4.9.3 Exclusion Restriction
가정: noncomplier 에겐 배정 자체가 결과에 영향 없음.
\[ \mathrm{NACE} = 0 \]
이 가정은 “약을 안 먹은 사람은 배정만으로 생존율 변화 없음” — 그럴듯함. 그러나 검증 불가 (counterfactual).
4.9.4 IV Estimate — 식 (8.19)
Exclusion restriction 하에서:
\[ \widehat{\mathrm{CACE}} = \frac{\bar{y}_1 - \bar{y}_0}{\hat{p}_c} \tag{8.19} \]
“ITT 를 complier 비율로 나눔”. 경제학의 Instrumental Variables (IV) estimator 의 기본형.
직관: 배정 → 복용의 “효율” 이 \(p_c\). ITT 는 전체 배정군에 걸친 평균. 복용한 사람만 봤을 때 의 효과는 \(p_c\) 배 키워진 것.
비유: 약물 효과가 complier 에게만 100% 효율. 처치군 1000 명 중 \(p_c = 0.8\) 이면 800 명이 복용. ITT 효과는 “1000 명 평균” 이고, CACE 는 “800 명 평균”. 결과가 복용자에게만 생긴다면 ITT 는 CACE 의 0.8 배 — 뒤집으면 \(\mathrm{CACE} = \mathrm{ITT} / 0.8\).
무작위 배정 + exclusion restriction 이 이 간단한 나눗셈을 인과적 해석 가능하게 만든다. 무작위화 없으면 complier 와 never-taker 의 외생적 특성이 다를 수 있어 비교 불가. Exclusion restriction 없으면 NACE ≠ 0 을 분해 못 함.
4.10 Vitamin A 예제의 수치
Table 8.5 로부터 (처치군: \(I = 1\), 통제군: \(I = 0\)):
- 처치군 총: \(34 + 2385 + 12 + 9663 = 12094\).
- 처치군 complier 수: \(12 + 9663 = 9675\) → \(\hat{p}_c = 9675 / 12094 \approx 0.800\).
- 처치군 생존율: \((2385 + 9663) / 12094 \approx 0.996\).
- 통제군 생존율: \(11514 / (74 + 11514) \approx 0.9936\).
- ITT: \(0.996 - 0.9936 \approx 0.0026\).
- CACE: \(0.0026 / 0.800 \approx 0.0033\).
CACE 해석: 실제 복용자에서 사망 확률이 약 0.33% 포인트 감소. 영유아 사망률 맥락에서 실질적 의미 있음.
4.11 Bayesian Compliance — Missing Data 재구성
IV estimator 는 method-of-moments — 정확한 사후를 주지 않는다. 베이즈 접근:
- 통제군 각 단위의 compliance 상태를 결측 변수로 취급.
- \((I_i, U_i, Y_i)\) 데이터와 compliance prior 를 결합한 우도로 MCMC.
- Exclusion restriction 을 강제 제약 이 아닌 사전 정보 (완화 가능) 로 취급.
장점:
- CACE 와 NACE 를 동시에 추정 가능 (exclusion restriction 약화).
- 불확실성을 사후 분포 전체로 전파.
- 여러 층의 결측 (중도 탈락, 두 종류 non-compliance) 을 통합 처리.
Influenza shot encouragement 연구가 대표 확장 예 — 처치·통제 양쪽에 noncomplier 존재, 전통 IV 는 부적절.
5 세 절을 관통하는 직관 모음
5.1 Ignorability 의 스펙트럼
§ 8.4~8.6 은 ignorability 의 획득 방식이 어떻게 분화하는지 보여준다.
| 설계 | Ignorability 달성 | 수치적 민감도 |
|---|---|---|
| 완전 무작위 (§ 8.4) | 자동 (no covariates) | 최저 |
| Randomized block (§ 8.4) | 자동 (given covariates) | 낮음 |
| Latin square (§ 8.4) | 자동 (given coordinates) | 낮음 |
| Sequential (§ 8.4) | 자동 (given history) | 낮음 but not strongly |
| Non-random ignorable (§ 8.5) | 가정 + 공변량 포함 | 중간 |
| Observational (§ 8.6) | 가정 + balance + overlap | 높음 (감도 분석 필수) |
“자동 → 가정” 으로 내려갈수록 모델 민감도와 정당화 부담이 증가.
5.2 Potential Outcomes 는 Missing Data 다
§ 8.4 의 \((y_i^A, y_i^B)\) 행렬은 50% 결측 MCAR (완전 무작위 실험의 경우). § 8.6 의 \((C_i(0), C_i(1))\) 는 100% latent — 개별 단위에선 둘 중 아무것도 관측 안 됨, 집단 수준에서만 분포가 식별 가능.
이 관점이 § 8.2 의 ignorable 수식을 §§ 8.4~8.6 에 통일적으로 적용 가능하게 한다.
5.3 무작위화의 네 이득
§ 8.5 정리: 무작위화는 단순 ignorable 달성을 넘는 네 가지 이득.
| 이득 | 내용 |
|---|---|
| 1 | Permutation invariance → ignorable (공변량 없을 때 유일한 경로) |
| 2 | 집단 크기 고정 → 정밀성 향상 |
| 3 | 미관측 공변량에 대한 기대값 balance |
| 4 | 사후 예측 점검의 유연성 + cheating 방지 |
관찰 연구는 이들 전부 포기. 그래서 공변량 풍부도와 감도 분석이 대체재로 들어온다.
5.4 ITT vs CACE — 무엇이 실무의 답인가
| 질문 | 답변 추정량 |
|---|---|
| “이 정책을 도입하면 평균적으로 뭐가 바뀌는가?” | ITT (정책 결정에 유용) |
| “이 약을 실제로 먹으면 몸에 뭐가 일어나는가?” | CACE (생리적 효과) |
| “복용 안 한 사람에게도 배정 자체가 영향 있는가?” | NACE (플라시보·라벨 효과) |
세 양이 다른 질문에 답한다. § 8.6 의 principal stratification 은 질문을 구분해 답할 수 있게 하는 언어.
6 코드 — Latin Square와 Compliance 시뮬레이션
6.1 1. Latin Square 의 ignorable 분석
Gelman Table 8.4 의 millet spacing 데이터를 토대로 한 간단 합성 예.
import numpy as np
import pymc as pm
import arviz as az
rng = np.random.default_rng(84)
# 5x5 Latin square — 각 행·열에 A~E 한 번씩
# 행·열 효과 + 처치 효과로 수확량 생성
n_rows, n_cols = 5, 5
row_eff = np.array([0.1, -0.2, 0.3, -0.1, 0.2])
col_eff = np.array([0.0, 0.1, -0.1, 0.2, -0.2])
trt_eff = np.array([0.0, 0.3, -0.1, 0.2, 0.1]) # A,B,C,D,E
# Latin square 배열 (표준 형태)
square = np.array([
[0, 1, 2, 3, 4],
[1, 2, 3, 4, 0],
[2, 3, 4, 0, 1],
[3, 4, 0, 1, 2],
[4, 0, 1, 2, 3],
])
# 관측 수확
y = np.zeros((n_rows, n_cols))
for i in range(n_rows):
for j in range(n_cols):
y[i, j] = 10 + row_eff[i] + col_eff[j] + trt_eff[square[i, j]] + rng.normal(0, 0.3)
# long format
rows = np.repeat(np.arange(n_rows), n_cols)
cols = np.tile(np.arange(n_cols), n_rows)
trts = square.flatten()
yields = y.flatten()
with pm.Model() as latin_model:
mu = pm.Normal("mu", 10, 5)
a_row = pm.Normal("a_row", 0, 1, shape=n_rows)
a_col = pm.Normal("a_col", 0, 1, shape=n_cols)
a_trt = pm.Normal("a_trt", 0, 1, shape=5)
sigma = pm.HalfNormal("sigma", 1)
mean = mu + a_row[rows] + a_col[cols] + a_trt[trts]
pm.Normal("y", mu=mean, sigma=sigma, observed=yields)
idata = pm.sample(2000, tune=1000, random_seed=84)
print(az.summary(idata, var_names=["a_trt"], round_to=3))처치 효과 a_trt 의 사후가 참값 trt_eff 를 회복하면 Latin square 의 ignorable given \(x\) 원리가 작동한 것. 행·열 효과를 공변량으로 포함했기 때문에 ignorable 이 유지됨.
6.2 2. Vitamin A CACE 의 IV vs Bayes 비교
import numpy as np
# Table 8.5 요약 통계 (실제 Sommer-Zeger)
n_control = 74 + 11514
n_treat_nevertaker = 34 + 2385
n_treat_complier = 12 + 9663
n_treat = n_treat_nevertaker + n_treat_complier
y_control_survive = 11514
y_treat_nevertaker_survive = 2385
y_treat_complier_survive = 9663
# ITT
p_survive_treat = (y_treat_nevertaker_survive + y_treat_complier_survive) / n_treat
p_survive_control = y_control_survive / n_control
ITT = p_survive_treat - p_survive_control
# Complier 비율
p_c = n_treat_complier / n_treat
# IV estimate for CACE
CACE_iv = ITT / p_c
print(f"처치군 생존율: {p_survive_treat:.5f}")
print(f"통제군 생존율: {p_survive_control:.5f}")
print(f"ITT: {ITT:.5f}")
print(f"Complier 비율: {p_c:.3f}")
print(f"CACE (IV estimate): {CACE_iv:.5f}")출력 해석: ITT (배정 기준) 는 약 0.003, CACE (실제 복용자 기준) 는 약 0.003 / 0.8 ≈ 0.0037. 정책 결정 에는 ITT (배정하면 평균 어떻게 되는가), 생리적 효과 에는 CACE 가 답.
6.3 3. 베이즈 CACE — PyMC 로 compliance 를 latent 로
import numpy as np
import pymc as pm
import arviz as az
# 동일 데이터
n_c_0 = 74 + 11514 # control 배정, complier or never-taker (구분 안 됨)
n_c_0_dead = 74
n_t_never = 34 + 2385
n_t_never_dead = 34
n_t_comp = 12 + 9663
n_t_comp_dead = 12
with pm.Model() as cace_model:
# compliance 비율 (모집단 전체)
p_comp = pm.Beta("p_comp", 2, 2)
# 사망률
p_death_never = pm.Beta("p_death_never", 1, 1) # never-taker 사망률 (두 배정 공통 — exclusion)
p_death_comp_trt = pm.Beta("p_death_comp_trt", 1, 1) # complier 처치 시
p_death_comp_ctl = pm.Beta("p_death_comp_ctl", 1, 1) # complier 통제 시
# 통제군: complier 또는 never-taker 섞여 있음
# 사망 = p_comp * p_death_comp_ctl + (1 - p_comp) * p_death_never
p_ctl_dead = p_comp * p_death_comp_ctl + (1 - p_comp) * p_death_never
pm.Binomial("ctl_dead", n=n_c_0, p=p_ctl_dead, observed=n_c_0_dead)
# 처치군 never-taker: p_death_never (exclusion restriction)
pm.Binomial("trt_never_dead", n=n_t_never, p=p_death_never, observed=n_t_never_dead)
# 처치군 complier: p_death_comp_trt
pm.Binomial("trt_comp_dead", n=n_t_comp, p=p_death_comp_trt, observed=n_t_comp_dead)
# 처치군 complier 비율
pm.Binomial("trt_is_comp", n=n_t_never + n_t_comp, p=p_comp, observed=n_t_comp)
CACE = pm.Deterministic("CACE", p_death_comp_ctl - p_death_comp_trt)
idata_cace = pm.sample(2000, tune=1000, random_seed=84)
print(az.summary(idata_cace, var_names=["CACE", "p_comp",
"p_death_never",
"p_death_comp_ctl", "p_death_comp_trt"],
round_to=5))베이즈 추정은 IV 와 달리 사후 분포 전체를 제공. Exclusion restriction 을 p_death_never 공유 제약으로 모형화 — 처치군 never-taker 와 통제군 never-taker 의 사망률이 같다는 가정. 가정을 완화하려면 두 모수를 분리하고 약정보 사전으로 조정.
7 실전 체크리스트
§ 8.4~8.6 의 교훈을 실무 절차로:
- 완전 데이터 정의 먼저 — 잠재 결과 \((y_i^A, y_i^B)\) 또는 \((C_i(0), C_i(1))\) 를 명시. 관측은 이 중 어느 부분인가?
- SUTVA 점검 — spillover, 네트워크 효과 가능성. 실패하면 구조 재설계.
- 배정 메커니즘 문서화 — 무작위면 규칙 기록, 결정론이면 공변량 의존성 명시.
- 공변량 balance 점검 — Figure 8.2 의 (a) 가 나오도록 설계. Propensity score overlap 시각화.
- Overlap 부족 영역 제거 — 관찰 연구에서 외삽을 피한다.
- Compliance 변수 구분 — 중간 결과가 있으면 \(C_{\mathrm{obs}}\) 를 covariate 취급 금지. Principal stratification 언어 사용.
- ITT 와 CACE 를 다 보고 — 정책 결정 질문과 생리적 효과 질문을 구분.
- Exclusion restriction 명시 — noncompliance 모형에서 이 가정을 분명히. 가능하면 완화한 베이즈 모형과 비교.
- 모델 감도 분석 — 관찰 연구에선 필수. 선형 vs 비선형, 변수 추가/제거, propensity score vs 회귀.
- 사후 예측 점검 — 무작위 설계의 이득 중 하나. \(y^{\mathrm{rep}}\) 이 실제 수집 구조를 반영하는지 확인.
8 관련 주제
선행 지식
- Ch.8 Overview (01-8-0) — § 8.1~8.7 전체 지도
- § 8.1~8.3 심화 (01-8-1) — 수집 모델 언어와 표본 조사
- Ch.6 Model Checking (01-6-0) — § 8.5 의 \(y^{\mathrm{rep}}\) 점검 기초
Ch.8 세부 절 (후속 작성 예정)
01-8-3-*— § 8.7~8.8 (검열·절단·나머지 연습문제)
후속 주제
- Ch.9 Decision Analysis — 인과 효과의 효용 변환
- Ch.18 Missing Data — multiple imputation 과 principal stratification 의 계산
- Ch.22 Finite Mixture Models — compliance 의 혼합 모형 표현
관련 개념
- Holland (1986), Statistics and causal inference — “근본 문제” 언어의 원저
- Rubin (1978), Bayesian inference for causal effects — 잠재 결과 프레임의 베이즈적 정식화
- Imbens & Angrist (1994) — LATE 와 IV 의 현대적 정식화
- Frangakis & Rubin (2002) — principal stratification 원저
- Sommer & Zeger (1991) — 본문 vitamin A 예제의 원전
- Angrist, Imbens, Rubin (1996) — IV 와 principal stratification 의 통합적 관점