1 개요
Ch.12 의 IP 가중은 처치 모형 \(\Pr(A=a|L)\) 에 의존했다. Ch.13 의 표준화는 같은 인과량을 결과 모형 \(\mathrm{E}[Y|A=a, L=l]\) 에 의존해 추정한다. 두 방법은 같은 식별 가정 (교환가능성·양의 확률·일관성) 위에서 작동하지만 의존하는 모형이 다르다.
직관 — 두 길의 본질적 차이: IPW 는 “처치를 받게 한 요인” 을 모형화하고, 표준화는 “결과를 결정한 요인” 을 모형화한다. 두 길은 같은 인과량(반사실 평균) 을 향하지만 출발점이 다르다. 어느 쪽을 선택할지는 어느 모형이 더 신뢰할 만한지에 달려 있다.
조건부 교환가능성 \(Y^a \perp\!\!\!\perp A | L\) 과 양의 확률 아래
\[\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y | A=a, L=l] \Pr(L=l)\]
가 성립한다 (이산 \(L\)). 연속 \(L\) 에서는 적분 형태:
\[\mathrm{E}[Y^a] = \int \mathrm{E}[Y | A=a, L=l] f_L(l) \, dl\]
이 식의 우변을 데이터에서 추정하는 것이 표준화이다.
표준화의 우변을 추정할 때 \(\mathrm{E}[Y|A,L]\) 을 모수 모형(예: 선형 회귀) 으로 적합하면 parametric g-formula 라 부른다 (Robins 1986). 시간변동 처치로 일반화되어 Part III 에서 재등장한다.
직관 — “g-formula” 라는 이름의 유래: Robins (1986) 가 시간변동 처치에 대해 표준화를 일반화하면서 도입한 이름. “general formula”, “g-computation algorithm formula” 의 약어. 핵심은 같은 인과량 식별식을 시간이 한 시점이든 여러 시점이든 같은 형태로 표현한다는 점.
2 5 개 소챕터의 흐름
| 소챕터 | 핵심 질문 | 답 |
|---|---|---|
| 13.1 | IP 가중 대신 무엇을 쓰는가? | 표준화 — 결과 모형의 평균 |
| 13.2 | 결과 모형을 어떻게 적합하는가? | 9 변수 + 상호작용 항의 선형 회귀 |
| 13.3 | 교란자 분포는 어떻게 다루는가? | 표본 분포로 직접 평균 (4 단계 알고리즘) |
| 13.4 | IPW 와 표준화 중 무엇을 쓰나? | 둘 다 — 결과가 일치하면 robustness 증거 |
| 13.5 | 추정값을 얼마나 신뢰할 것인가? | bootstrap CI + sensitivity analysis |
3 NHEFS 사례 — IPW 와 같은 답?
- \(\widehat{\mathrm{E}}[Y^{a=1, c=0}] = 5.18\) kg (모두 금연 시 평균 체중 변화)
- \(\widehat{\mathrm{E}}[Y^{a=0, c=0}] = 1.66\) kg (모두 비금연 시 평균 체중 변화)
- 차이 \(= 3.5\) kg, 95% bootstrap CI \(= (2.6, 4.5)\)
Ch.12 의 IPW 추정값 3.4 kg 와 거의 일치. 두 방법이 비슷한 답을 주는 것은 결과의 robustness 에 대한 증거.
직관 — 일치하는 답이 의미하는 것: IPW 와 표준화가 의존하는 모형이 다르므로 두 모형이 동일한 방향으로 잘못될 가능성은 낮다. 두 추정값이 비슷하면 (a) 두 모형이 모두 합리적이거나 (b) 진짜 인과 효과가 둘 다의 misspecification 을 흡수할 만큼 강건한 것. 큰 차이가 나면 적어도 한쪽 모형이 심각하게 잘못됐다는 경보.
직관 — 일치하지만 약간 다른 이유: Ch.12 의 IPW 는 3.4kg, Ch.13 의 표준화는 3.5kg. 0.1kg 차이는 두 모형의 misspecification 이 약간 다른 방향으로 영향을 준 결과. 진짜 두 방법은 비모수 한도에서 정확히 같은 값으로 수렴한다 — Hernan 의 Technical Point 2.3 의 이론적 동등성. 실제 차이는 모형 선택의 흔적이다.
4 4 단계 plug-in g-formula 알고리즘
데이터를 3 블록으로 확장한다.
- 블록 확장: 원 데이터 \(n\) 행 → 같은 데이터 3 블록 (\(3n\) 행).
- 블록 1: 원 데이터 그대로 (\(A\) 와 \(Y\) 모두 관측).
- 블록 2: \(A := 0\), \(Y := \text{NA}\) — 모두 비처치.
- 블록 3: \(A := 1\), \(Y := \text{NA}\) — 모두 처치.
이후
- 결과 모형 적합: 블록 1 의 데이터로 \(\mathrm{E}[Y|A,L]\) 회귀.
- 예측: 블록 2·3 에서 적합 모형으로 \(\widehat{Y}\) 예측.
- 평균: 블록 2 의 평균 = \(\widehat{\mathrm{E}}[Y^{a=0}]\), 블록 3 의 평균 = \(\widehat{\mathrm{E}}[Y^{a=1}]\).
직관 — 왜 데이터를 복제하는가: 블록 2·3 은 “만약 모두 비처치/처치 받았다면” 의 가상 시나리오를 데이터의 형태로 표현한다. 결과 모형이 한번 적합되면 같은 모형으로 두 시나리오의 결과를 예측해 평균낸다. 반사실을 데이터의 행으로 표현하는 코드 트릭이다.
직관 — 가상 데이터의 안전성: 블록 2·3 의 \(Y\) 가 missing 이라 이 블록들은 모형 적합에 영향을 주지 않는다 (블록 1 만 사용). 그러나 예측 시에는 블록 2·3 의 \(L\), \(A\) 값이 사용되어 적합된 모형 함수에 통과된다. 결과 모형이 옳다면 이 예측치는 진짜 잠재 결과 평균에 수렴.
5 핵심 개념 4 가지
5.1 1. 결과 모형 vs 처치 모형
| 항목 | 표준화 | IPW |
|---|---|---|
| 모형 대상 | \(\mathrm{E}[Y|A, L]\) | \(\Pr(A=a|L)\) |
| 모형 형태 | 선형 회귀, GLM | logistic, multinomial |
| 추정 방식 | 모형 평균 | 가중 평균 |
| Misspecification 위험 | 결과 함수 형태 | 처치 확률 함수 형태 |
| Positivity 영향 | 외삽 가능 (덜 민감) | 가중치 폭발 (더 민감) |
직관 — 두 모형의 위험 분리: 어느 모형이 misspecified 되어도 다른 모형은 영향을 안 받는다. Doubly robust 추정량은 이 분리를 활용해 두 모형 중 한쪽만 옳아도 일치 추정을 보장한다. Ch.18 의 핵심 메시지의 출발점.
5.2 2. 표준화의 외삽 능력
\(\Pr(A=a|L=l) = 0\) 인 셀 (구조적 nonpositivity) 이 있으면 IPW 의 가중치는 정의되지 않는다 (division by zero). 표준화는 같은 셀에서 \(\mathrm{E}[Y|A=a, L=l]\) 의 외삽치 를 사용하므로 형식적으로 추정 가능하다 — 단, 결과 모형이 그 외삽 영역에서도 옳다는 강한 가정에 의존.
직관 — 외삽의 양면성: 표준화는 데이터 없는 영역까지 결과 모형 함수 형태를 따라 외삽하므로 “정의되지 않는 추정” 이 안 생긴다. 그러나 외삽치의 옳음은 모형 가정에 의존하는 것이라, 추정 가능 ≠ 추정 옳음. 양의 확률 위반 영역의 추정값을 보여줄 때는 외삽 의존성을 명시해야 한다.
직관 — IPW vs 표준화의 위반 영향: IPW 는 위반 영역의 추정이 아예 불가능하므로 위반을 즉시 인지한다. 표준화는 위반을 모르는 채로 외삽치를 내놓아 위반을 숨길 수 있다. 양 도구를 함께 쓰면 IPW 의 가중치 분포가 위반의 진단 도구 역할을 한다.
5.3 3. IPW vs 표준화 — 같은 답으로 수렴하는 이유
비모수 한도에서
\[\sum_l \widehat{\mathrm{E}}[Y|A=a, L=l] \widehat{\Pr}(L=l) = \widehat{\mathrm{E}}_{ps}[Y|A=a]\]
가 정확히 성립 (Hernan & Robins, 2020, Technical Point 2.3). 두 방법이 동등.
모수 모형에서는 작은 차이가 발생하지만, 큰 차이가 나면 모형 misspecification 의 경보.
직관 — 비모수 동등성의 의미: 무한 표본 + 모형 가정 없이 한다면 두 방법이 정확히 같은 답을 준다. 차이는 모형 가정의 흔적이다 — 모수 모형이 진짜 분포에서 약간 벗어났음을 알리는 신호. 두 방법을 함께 보고하는 것이 분석의 표준 관행이 된 이유.
5.4 4. Bootstrap 신뢰구간
- 원 데이터 \(n\) 명에서 복원 추출(with replacement) 로 \(n\) 명의 bootstrap 표본 생성.
- 그 표본에서 g-formula 또는 IPW 적용해 추정값 계산.
- 1~2 단계를 1000 번 반복.
- 1000 개 추정값의 표준편차 = 표준오차 추정량.
- ±1.96 × SE 로 95% CI 구성 (Wald 형태).
NHEFS 표준화에서 이 방식으로 95% CI = (2.6, 4.5) 도출.
직관 — Bootstrap 의 마법: 표본을 모집단의 축소판으로 보고, 그 축소판에서 다시 표본을 뽑는 행위를 반복한다. 마치 무한히 많은 평행 우주에서 비슷한 데이터로 같은 분석을 반복하는 것 — 이로부터 추정량의 sampling distribution 을 직접 얻는다.
직관 — 왜 1000 번? 추정량의 표준편차가 약 0.05 의 정밀도로 추정될 만큼의 횟수. 200~500 번도 자주 쓰이지만 신뢰구간 polynomial 부분이 약간 흔들릴 수 있다. 1000 번이면 안정적, 5000 번이면 거의 정확.
6 핵심 가정 점검
- 조건부 교환가능성: \(Y^a \perp\!\!\!\perp A | L\) — IPW 와 동일.
- 양의 확률: \(\Pr(A=a|L) > 0\) — 외삽치는 가정에 의존하므로 약간 완화.
- 일관성: \(A=a\) 일 때 \(Y = Y^a\) — IPW 와 동일.
- 결과 모형 옳음: \(\mathrm{E}[Y|A,L]\) 의 함수 형태가 정확.
이 가정 위에서 plug-in g-formula 가 일치 추정량.
직관 — 모형 가정의 위치: IPW 의 모형 가정은 처치 모형, 표준화의 모형 가정은 결과 모형. 두 모형의 specification 위험이 따로 분리되어 있어 doubly robust 의 기반이 된다.
7 왜 필요한가
| 상황 | IPW | 표준화 |
|---|---|---|
| 보정 변수 1~2 개 (이항) | 같은 결과 (비모수 동등) | 같은 결과 |
| 처치가 매우 흔하거나 드묾 | 가중치 폭발 | 안정 |
| 결과가 매우 흔하거나 드묾 | 안정 | 결과 모형 적합 어려움 |
| 양의 확률 위반 (구조적) | 적용 불가 | 외삽 (가정 의존) |
| 양의 확률 위반 (random) | 가중치 큼 | 부드러운 외삽 |
| 효과 수정 (HTE) | MSM + product term | 부분 표본 평균 |
직관 — 두 도구의 강점이 보완적: IPW 는 처치 모형이 단순할 때 강하고, 표준화는 결과 모형이 단순할 때 강하다. 어느 한쪽이 복잡한 데이터에서 두 도구의 결합(이중 강건) 이 가장 robust 한 추정을 준다.
8 응용 분야
- 임상 관찰 연구: 두 방법으로 결과를 비교하는 표준 분석 전략
- 헬스케어 비용 분석: 결과 모형 기반 잠재 비용 예측
- 공중보건 정책 평가: 무엇을 가정할지에 따라 도구 선택
- A/B 테스트의 보정 분석: 무작위 배정 깨졌을 때 표준화로 보정
- 마케팅 incremental analysis: 처치 대비 비처치 시나리오의 결과 평균 비교
9 코드 미리보기
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
nhefs = pd.read_csv("nhefs.csv").dropna(subset=["wt82_71"]).reset_index(drop=True)
# Step 1: 결과 모형 적합 (Block 1 만 사용)
outcome_formula = (
"wt82_71 ~ qsmk * smokeintensity + I(qsmk * smokeintensity**2) "
"+ sex + race + C(education) + age + I(age**2) "
"+ smokeintensity + I(smokeintensity**2) "
"+ smokeyrs + I(smokeyrs**2) + C(exercise) + C(active) "
"+ wt71 + I(wt71**2)"
)
out_model = smf.ols(outcome_formula, data=nhefs).fit()
# Step 2: 가상 시나리오 데이터 생성
treated = nhefs.copy(); treated["qsmk"] = 1
untreated = nhefs.copy(); untreated["qsmk"] = 0
# Step 3: 예측 후 평균
mean_y1 = out_model.predict(treated).mean() # ~5.18
mean_y0 = out_model.predict(untreated).mean() # ~1.66
ate = mean_y1 - mean_y0 # ~3.52
# Step 4: bootstrap CI
def bootstrap_ate(data, n_boot=1000):
estimates = []
for _ in range(n_boot):
boot = data.sample(n=len(data), replace=True)
m = smf.ols(outcome_formula, data=boot).fit()
t = boot.copy(); t["qsmk"] = 1
u = boot.copy(); u["qsmk"] = 0
estimates.append(m.predict(t).mean() - m.predict(u).mean())
return np.percentile(estimates, [2.5, 97.5])
ci = bootstrap_ate(nhefs)
print(f"ATE = {ate:.2f} kg, 95% CI = {ci}")10 후속 글로 이어지는 다리
| 글 | 다루는 내용 |
|---|---|
| 12-1 | 13.1 + 13.2 — 표준화의 정의 + 결과 모형 추정 |
| 12-2 | 13.3 + 13.4 — 4 단계 알고리즘 + IPW vs 표준화 |
| 12-3 | 13.5 — 추정값 신뢰성 평가 + sensitivity analysis |
11 Doubly Robust 의 미리보기
처치 모형 \(\Pr(A|L)\) 과 결과 모형 \(\mathrm{E}[Y|A,L]\) 둘 중 한쪽만 옳으면 일치 추정인 추정량. 대표적으로 AIPW (Augmented Inverse Probability Weighting):
\[\widehat{\mathrm{E}}[Y^a]_\text{AIPW} = \frac{1}{n} \sum_i \left[ \frac{\mathbb{1}\{A_i=a\}}{\widehat{f}(A_i|L_i)} (Y_i - \widehat{m}(A_i, L_i)) + \widehat{m}(a, L_i) \right]\]
여기서 \(\widehat{m}(a, L) = \widehat{\mathrm{E}}[Y|A=a, L]\).
직관 — Doubly Robust 의 마법: 결과 모형이 옳으면 두 번째 항이 일치 추정량이고 첫 항의 평균이 0 으로 수렴 → 결과 모형 추정이 답. 처치 모형이 옳으면 첫 항의 IPW 가 일치 추정 → 첫 항이 답. 어느 한쪽만 옳아도 답이 나오므로 두 번의 기회가 있다. Ch.18 의 ML 결합 추정량 이 이 원리의 현대 확장이다.
12 한 줄 요약
표준화는 결과 모형 \(\mathrm{E}[Y|A,L]\) 을 적합한 후 가상 시나리오의 예측치를 평균해 잠재 결과 평균을 추정한다. NHEFS 사례에서 IPW 와 거의 같은 3.5kg 결과. 두 방법은 비모수 한도에서 동등하지만 모형 가정이 분리되어 있어 doubly robust 의 기반이 된다. Bootstrap 으로 신뢰구간 계산이 표준 — 가정 적고 정확.
13 관련 주제
선행 지식
후속 주제
- 표준화 절차 + 결과 모형 추정 — Ch.13.1-13.2
- 4 단계 알고리즘 + IPW vs 표준화 — Ch.13.3-13.4
- 추정값 신뢰성 — Ch.13.5
- G-estimation 과 SNMM — Ch.14
- 성향점수 — Ch.15
- Variable Selection 과 Doubly Robust ML — Ch.18
다른 카테고리 연결
14 표준화의 역사적 위치
- 인구 표준화 (epidemiology, 19 세기 후반): 두 인구의 사망률 비교 시 연령 분포의 차이를 보정하기 위해 표준 인구로 가중 평균 — direct standardization.
- 인과적 표준화 (Robins, 1986): 잠재 결과의 평균을 식별식으로 표현. 시간변동 처치로 일반화.
두 사용은 산술적으로 같지만 인과적 해석이 추가된 것이 후자.
직관 — 같은 산술의 다른 해석: 19 세기 인구학자가 “연령 보정 사망률” 을 계산할 때 사용한 산술이 21 세기 인과 추론의 핵심 도구가 됐다. 같은 식이지만 가정과 해석이 인과적이라는 점이 차이. 인과 추론은 통계 도구의 새 발견이 아니라 새 해석의 역사.
직관 — Robins 가 추가한 것: (a) 식별 가정의 명시 (교환·양·일관). (b) 시간변동 처치로의 일반화. (c) g-estimation 과의 통합. 단순 인구 표준화에서 현대 인과 추론의 기둥 으로 격상 시킨 기여.
15 회귀와 표준화의 관계
OLS 의 처치 계수 \(\widehat{\beta}_A\) 는 conditional ATE (\(\mathrm{E}[Y^{a=1} - Y^{a=0} | L]\)) 의 평균에 가까운 양. 표준화는 marginal ATE (\(\mathrm{E}[Y^{a=1} - Y^{a=0}]\)).
처치-공변량 상호작용이 없으면 두 양이 같지만, 효과 수정이 있으면 다르다 — 표준화가 ATE 를 정확히 추정하고 회귀 계수는 ATE 에 가깝지만 정확히 같지는 않다.
직관 — 효과 수정의 영향: 처치 효과가 \(L\) 에 따라 다르면, 회귀 계수는 \(L\) 의 (가중) 평균 효과를 추정. 가중치가 표본 분포와 정확히 같지 않을 수 있어 ATE 와 차이. 표준화는 명시적으로 표본 분포로 평균하므로 정확.
직관 — 단순 회귀가 인과 분석의 입문이 아닌 이유: “교란 변수 보정 = 회귀에 추가” 라는 발상은 효과 수정 + 비선형 효과가 있으면 부정확. 표준화·g-formula 는 이런 함정을 회피하는 명시적 절차. OLS 의 단순함은 인과 분석의 미묘함을 가린다.