1 정의
조건부 교환가능성 \(Y^{a, c=0} \perp\!\!\!\perp (A, C) | L\), 양의 확률, 일관성 아래
\[\mathrm{E}[Y^{a, c=0}] = \sum_l \mathrm{E}[Y | A=a, C=0, L=l] \, \Pr(L=l)\]
좌변이 잠재 결과의 평균(반사실), 우변이 관측 분포로 표현된 양 (식별식). 표준화는 우변을 데이터에서 추정한다.
조건부 평균 \(\mathrm{E}[Y|A,C=0,L]\) 을 모수 모형(주로 선형 회귀)으로 적합한 것. NHEFS 사례에서 처치 + 9 개 보정 변수 + quadratic 항 + 일부 product term 으로 specification.
직관 — 식별식과 추정의 분리: 좌변(반사실 평균) 은 직접 관측 불가. 우변(관측 분포의 함수) 은 데이터에서 추정 가능. 식별식은 두 양을 같다고 선언하고, 추정은 우변을 계산하는 절차다. 식별 가정이 깨지면 좌우변이 같지 않고, 모형 가정이 깨지면 우변 추정이 부정확.
2 13.1 IPW 의 대안 — 표준화
2.1 IPW 와 표준화의 식별식 비교
| 식별식 | 추정 대상 |
|---|---|
| IPW | \(\mathrm{E}[Y^a] = \mathrm{E}\left[\frac{\mathbb{1}\{A=a\} Y}{f(A|L)}\right]\) |
| 표준화 | \(\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y|A=a, L=l] \Pr(L=l)\) |
두 식이 같은 양을 표현하는 두 가지 방법이라는 점이 핵심이다 (Hernan, Technical Point 2.3).
직관 — 같은 인과량의 두 표현: IPW 는 “처치 받은 사람의 결과를 처치 확률로 나누어 평균”, 표준화는 “\(L\) 의 각 셀에서 처치 받은 사람의 평균을 셀의 비율로 가중 평균”. 두 절차의 산술이 다르지만 진짜 분포에서는 같은 결과로 수렴.
2.2 Censoring 을 결합한 표준화
NHEFS 의 1629 명 baseline 흡연자 중 1566 명만 1982 체중 측정. 결합 효과 \(\mathrm{E}[Y^{a, c=0}]\) 의 식별식은
\[\mathrm{E}[Y^{a, c=0}] = \sum_l \mathrm{E}[Y | A=a, C=0, L=l] \Pr(L=l)\]
조건부 분포 \(\Pr(L=l)\) 가 censoring 전 모집단의 분포라는 점이 중요하다 — 실용적으로 \(L\) 이 처치에 영향 받지 않으면 1629 명 표본의 분포로 직접 추정.
직관 — censoring 의 통합: 결과 모형에 \(C=0\) 조건을 추가해 적합한 후 같은 표본 분포로 평균. censoring 보정이 결과 모형의 specification 안에 자연스럽게 들어간다 — IPW 처럼 별도 가중치를 곱할 필요 없음.
2.3 양의 확률 위반에 대한 robustness
\(\Pr(A=a|L=l) = 0\) 인 셀에서 IPW 는 \(1/0\) 으로 정의되지 않는다. 표준화는 결과 모형이 그 셀의 \(\mathrm{E}[Y|A=a, L=l]\) 을 함수 형태로 외삽해 추정 가능 (Hernan, Fine Point 13.1).
단, 이 외삽치의 옳음은 결과 모형이 그 영역에서도 옳다는 강한 가정에 의존한다.
직관 — IPW 가 침묵하는 곳에서 표준화가 말한다: 양의 확률 위반은 정보가 없는 영역. IPW 는 “정의되지 않음” 으로 침묵, 표준화는 “회귀 외삽” 으로 답변. 답이 있다고 옳은 답은 아니다 — 외삽 의존성이 명시되지 않은 표준화 결과는 위험.
직관 — 구조적 vs 무작위 위반: 구조적 위반(특정 \(L\) 에서 처치 원리적으로 불가능) 에서는 표준화의 외삽이 도덕적·실무적으로 의미 없다. 무작위 위반(우연히 표본에 빈 셀) 에서는 외삽이 합리적. 둘을 구별하는 것이 표준화 결과 신뢰의 첫 단계.
3 13.2 결과 모형 추정
3.1 비모수 표준화의 한계
이상적으로 \(\mathrm{E}[Y|A=a, C=0, L=l]\) 의 각 셀별 표본 평균을 직접 계산. NHEFS 의 9 개 보정 변수에서는 셀이 200 만 개를 넘어 평균 0~1 명 — 비모수 추정 불가능.
직관 — Ch.12 와 같은 동기: high-dimensional 보정에서는 셀 추정이 무너진다. Ch.12 는 이를 처치 모형으로 해결, Ch.13 은 결과 모형으로 해결한다 — 다른 모형으로 같은 한계를 우회.
3.2 선형 결과 모형 specification
Hernan 의 Program 13.1 모형:
\[\mathrm{E}[Y | A, C=0, L] = \beta_0 + \beta_1 A + \beta_2 (A \times \text{smokeintensity}) + \boldsymbol\beta_L^\top L + \boldsymbol\beta_{L^2}^\top L^2\]
핵심 specification 결정:
| 결정 | 내용 | 함의 |
|---|---|---|
| 9 개 보정 변수 모두 포함 | sex, race, age, education, smokeintensity, smokeyrs, exercise, active, wt71 | confounding 보정 |
| Quadratic 항 | age, smokeintensity, smokeyrs, wt71 의 \(L^2\) | 비선형 관계 일부 포착 |
| Product term | \(A \times \text{smokeintensity}\) 만 추가 | 처치 효과가 baseline 흡연량에 따라 달라질 가능성 |
| 다른 product term 없음 | 변수 간 상호작용 가정 안 함 | 단순성 |
직관 — Product term 의 선택: 흡연량이 많은 사람이 끊으면 체중 증가가 더 클까? 도메인 지식상 합리적 가설이라 모형에 반영. 다른 변수와 처치의 상호작용은 도메인 가설이 약하므로 제외. 모형 specification 은 통계가 아닌 도메인 의사결정.
직관 — Quadratic 의 효과: 나이가 1 살 늘 때 체중 변화가 일정한 속도로 감소(직선) 가 아니라, 어린 나이에는 빠르게 감소하다 노인에서 평탄해질 수 있다(곡선). Quadratic 항은 이 곡선을 허용한다.
3.3 적합 결과의 진단
NHEFS 적합 결과:
- 추정 평균 결과: 2.6 kg (관측 표본 평균과 같음 — sanity check 통과)
- 예측치 범위: -41.3 kg 부터 48.5 kg
- 한 환자 예시: 비금연 백인 남성 26 세, 대학 중퇴, 15 개비/일, 12 년 흡연, 운동·활동 활발, baseline 체중 112 kg → 예측 체중 변화 0.34 kg.
직관 — 표본 평균 일치의 의미: 회귀 적합값의 표본 평균이 관측 평균과 같은 것은 OLS 의 자연스러운 성질 (절편이 두 값을 일치시키도록 결정됨). 모형이 합리적임을 확인하는 첫 진단.
직관 — 예측치 범위의 의미: 진짜 표본의 결과 범위(\(Y\) 의 min~max) 와 예측치 범위가 비슷하면 모형이 데이터의 변동을 합리적으로 포착. 예측치가 진짜 범위 밖으로 크게 벗어나면(예: -100kg) 모형 misspecification 또는 outlier 의 영향.
3.4 잔차 진단
- 잔차 vs 적합값 산점도: 무작위 패턴 → linearity·homoscedasticity OK.
- QQ-plot: 정규성 (신뢰구간 calibration 에 영향).
- Cook’s distance: 영향력 큰 관측치 식별.
- VIF: 다중공선성 점검.
- 부분 잔차 그림: 각 변수의 함수 형태 점검.
직관 — 진단의 통합: 다섯 도구 중 어느 하나도 단독으로 모형 옳음을 보장하지 않는다. 함께 보면서 의심스러운 패턴이 있는지 점검. 모든 도구가 통과해도 진짜 모형 옳음을 데이터로 증명할 수는 없다 — sensitivity analysis 가 마지막 보호 장치.
4 비포화 결과 모형의 모수
NHEFS 결과 모형은 saturated 가 아니다. \(L\) 의 9 개 변수와 quadratic·상호작용 항이 있어 모수 약 20 개. 셀 수 200 만 → 모수 20 으로 매우 매끄러운 모형 — Ch.11 의 트레이드오프.
직관 — 매끄러움의 가격: 모수 20 개로 200 만 셀의 평균을 표현하므로 매우 압축적. 진짜 \(\mathrm{E}[Y|A,L]\) 함수가 이 모수 안에서 표현 가능한 형태가 아니면 misspecification 편향. 더 많은 모수(상호작용 추가) 를 두면 편향 ↓, 분산 ↑.
5 가정의 위계
| 가정 | 위치 | 깨졌을 때 결과 |
|---|---|---|
| 식별 가정 (교환·양·일관) | Part I 의 영역 | 식별 자체 실패 |
| 결과 모형 specification | Ch.13 의 영역 | 추정 편향 |
| 표본 무작위성 | 관습적 | 신뢰구간 편향 |
직관 — 가정의 다층 구조: 식별 가정이 첫 보호 막. 무한 표본에서도 깨지면 답이 안 나온다. 모형 가정은 두 번째 막. 유한 표본 추정의 정확도를 결정. 표본 가정은 세 번째 막. SE 와 CI 의 신뢰성. 세 막 모두 통과해야 추정량이 의미 있다.
6 왜 필요한가
| 상황 | 비모수 셀 평균 | 모수 결과 모형 |
|---|---|---|
| 보정 변수 1~2 개 | 직접 계산 | 같은 결과 |
| 보정 변수 5~10 개 | 셀 폭발 | 회귀로 가능 |
| 연속 변수 보정 | 정의 불가 | 함수 형태 가정 |
| 처치-결과 비선형 | 비모수가 robust | 가정 의존 |
| Censoring | 셀별 수동 | 모형에 자연 통합 |
직관 — 표준화가 일상 도구가 된 이유: 거의 모든 인과 분석에 보정 변수 5+ 개가 있다. 표준화는 회귀 모형 1 개만 잘 specify 하면 인과 효과 추정 가능. IPW 는 처치 모형 1 개, 표준화는 결과 모형 1 개 — 둘은 도구로 동등하지만 specification 책임의 위치가 다름.
7 응용 분야
- 임상시험의 보정 분석: ANCOVA 와 본질적으로 같음
- 관찰 코호트의 처치 효과: NHEFS 같은 사례
- 공중보건 정책 평가: 정책 적용 시 잠재 결과 추정
- HEOR (Health Economic Outcomes Research): 비용 결과의 시나리오 비교
- A/B 테스트의 보정 분석: pre-experiment 변수로 분산 감소 (CUPED 와 본질적 유사)
8 코드 — NHEFS 결과 모형 적합
import pandas as pd
import statsmodels.formula.api as smf
nhefs = pd.read_csv("nhefs.csv").dropna(subset=["wt82_71"]).reset_index(drop=True)
# 결과 모형: 9 confounders + age^2/wt71^2/smokeintensity^2/smokeyrs^2 + qsmk*smokeintensity
formula = (
"wt82_71 ~ qsmk + I(qsmk * smokeintensity) "
"+ sex + race + C(education) "
"+ age + I(age**2) "
"+ smokeintensity + I(smokeintensity**2) "
"+ smokeyrs + I(smokeyrs**2) "
"+ C(exercise) + C(active) "
"+ wt71 + I(wt71**2)"
)
out_model = smf.ols(formula, data=nhefs).fit()
print(out_model.summary())
# 적합값의 표본 평균 — 관측 평균과 일치 점검
print("Fitted mean:", out_model.fittedvalues.mean()) # ~2.64
print("Observed mean:", nhefs["wt82_71"].mean()) # ~2.64
# 한 환자 예측 (id 24770 — 본문 사례)
pat = nhefs.iloc[[24]] # 임의 환자 예시
print("Predicted Y:", out_model.predict(pat).values)9 잔차 진단 코드
import matplotlib.pyplot as plt
# 잔차 vs 적합값
fig, axes = plt.subplots(1, 2, figsize=(10, 4))
axes[0].scatter(out_model.fittedvalues, out_model.resid, alpha=0.4)
axes[0].axhline(0, color="gray")
axes[0].set_xlabel("Fitted"); axes[0].set_ylabel("Residual")
axes[0].set_title("Residual vs Fitted")
# QQ-plot
import statsmodels.api as sm
sm.qqplot(out_model.resid, line="s", ax=axes[1])
axes[1].set_title("Normal QQ-plot")
plt.tight_layout(); plt.show()
# Cook's distance
infl = out_model.get_influence()
cooks = infl.cooks_distance[0]
print("Top 5 influential observations:", sorted(enumerate(cooks), key=lambda x: -x[1])[:5])10 결과 모형 vs 처치 모형의 specification 부담
| 측면 | 결과 모형 (표준화) | 처치 모형 (IPW) |
|---|---|---|
| 종속변수 | \(Y\) (연속·이산) | \(A\) (이항·다범주) |
| 분포 가정 | 정규(OLS), 이항(로지스틱), 등 | 베르누이(로지스틱) 표준 |
| 함수 형태 | 결과의 비선형성 모두 모델링 | 처치 확률의 비선형성만 |
| 확장성 | 다양한 결과 분포 | 이항·다범주에 한정 |
| 연구자 친숙도 | 회귀에 익숙 | propensity 개념 학습 필요 |
직관 — 두 모형의 specification 난이도 비교: 일반적으로 결과 모형 (continuous \(Y\) 의 회귀) 가 처치 모형 (binary \(A\) 의 logistic) 보다 specification 이 어렵다. \(Y\) 의 함수 형태는 무한히 다양할 수 있고, \(A\) 의 확률 모형은 logistic 한 형태로 좁혀져 있다.
직관 — 도구 선택의 실무 가이드: (a) 결과가 단순한 연속 변수 + 보정 변수가 뚜렷한 비선형성 없음 → 표준화 우선. (b) 처치가 이항이고 propensity 가 안정적 → IPW 우선. (c) 둘 다 잘 모르겠으면 → 두 방법 모두 시도해 결과 비교. (d) 강건성을 원하면 → doubly robust.
11 한 줄 요약
표준화는 식별식 \(\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y|A=a, L=l] \Pr(L=l)\) 의 우변을 결과 모형으로 추정한다. NHEFS 의 9 개 보정 변수 + quadratic 항 + 처치-흡연량 상호작용을 포함한 선형 회귀로 결과 모형을 specify. 양의 확률 위반에 robust 하지만 그 영역의 외삽은 모형 가정에 의존. IPW 와 비교해 specification 책임의 위치만 다르다.
12 관련 주제
선행 지식
후속 주제
다른 카테고리 연결
13 결과 모형의 함수 형태 결정 워크플로우
- DAG 분석: 보정해야 할 \(L\) 변수 결정 (교란자만, 매개자·충돌자 제외).
- 단변량 EDA: 각 \(L\) 의 분포·이상치·결측 확인.
- 함수 형태 탐색: 각 연속 변수의 처치-결과 관계 시각화. spline·다항식 후보 식별.
- 상호작용 검토: 도메인 지식 기반으로 product term 후보 결정.
- 모형 적합 후 진단: 잔차 그림, QQ-plot, Cook’s distance.
직관 — DAG 가 먼저, 통계가 다음: 변수 선택을 통계적 유의성으로 결정하면 충돌자를 보정해 새 편향을 만들 수 있다. DAG 가 변수의 인과적 역할을 결정한 후, 통계는 함수 형태를 정한다. 인과 분석의 첫 도구는 데이터가 아닌 그래프.
직관 — 비선형성 탐색의 도구들: 산점도 + LOWESS 곡선, partial dependence plot, GAM 의 매끄러운 함수, splines. 이들이 직선 가정 위반을 시각적으로 드러내준다. NHEFS 의 quadratic 항은 이런 탐색의 결과물 — 통계적 유의성보다 데이터의 시각적 패턴 이 결정 근거.
14 회귀 vs 매칭의 비교
| 측면 | 표준화 | 매칭 |
|---|---|---|
| 기반 | 결과 모형 | 처치군-대조군 짝짓기 |
| 가정 의존 | 결과 함수 형태 | 매칭 거리 정의 |
| 보정 대상 | 모든 보정 변수 | 매칭 변수 |
| 외삽 의존 | 가능 (모형이 처리) | 어려움 (짝 없으면 제외) |
| 효과 수정 | 부분 표본 분석으로 | 매칭 후 부분군별 |
직관 — 매칭은 표준화의 비모수 사촌: 매칭은 같은 \(L\) 값을 가진 처치-대조 짝의 결과 차이를 평균. 표준화는 같은 양을 결과 모형으로 추정. 매칭이 더 robust 지만 차원이 늘면 짝 찾기가 어렵다 — Ch.15 의 propensity score matching 이 이 한계를 해결.