표준화와 parametric g-formula — Ch.13 개관

Hernan Ch.13 — 결과 모형 기반 표준화, IPW 와의 비교, 이중 강건성

Hernan & Robins (2020) Ch.13 의 5 개 소챕터를 한 흐름으로 정리한다. NHEFS 사례에서 표준화로 흡연 중단 효과를 추정하는 절차, 결과 모형 추정, 4 단계 plug-in g-formula 알고리즘, IPW 와의 비교, doubly robust 추정량의 미리보기, bootstrap 신뢰구간을 압축한다.

Experimentation
Causal Inference
저자

Kwangmin Kim

공개

2026년 05월 08일

1 개요

Ch.12 의 IP 가중은 처치 모형 \(\Pr(A=a|L)\) 에 의존했다. Ch.13 의 표준화는 같은 인과량을 결과 모형 \(\mathrm{E}[Y|A=a, L=l]\) 에 의존해 추정한다. 두 방법은 같은 식별 가정 (교환가능성·양의 확률·일관성) 위에서 작동하지만 의존하는 모형이 다르다.

직관 — 두 길의 본질적 차이: IPW 는 “처치를 받게 한 요인” 을 모형화하고, 표준화는 “결과를 결정한 요인” 을 모형화한다. 두 길은 같은 인과량(반사실 평균) 을 향하지만 출발점이 다르다. 어느 쪽을 선택할지는 어느 모형이 더 신뢰할 만한지에 달려 있다.

정의: 표준화 (Standardization)

조건부 교환가능성 \(Y^a \perp\!\!\!\perp A | L\) 과 양의 확률 아래

\[\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y | A=a, L=l] \Pr(L=l)\]

가 성립한다 (이산 \(L\)). 연속 \(L\) 에서는 적분 형태:

\[\mathrm{E}[Y^a] = \int \mathrm{E}[Y | A=a, L=l] f_L(l) \, dl\]

이 식의 우변을 데이터에서 추정하는 것이 표준화이다.

정의: Parametric g-formula

표준화의 우변을 추정할 때 \(\mathrm{E}[Y|A,L]\) 을 모수 모형(예: 선형 회귀) 으로 적합하면 parametric g-formula 라 부른다 (Robins 1986). 시간변동 처치로 일반화되어 Part III 에서 재등장한다.

직관 — “g-formula” 라는 이름의 유래: Robins (1986) 가 시간변동 처치에 대해 표준화를 일반화하면서 도입한 이름. “general formula”, “g-computation algorithm formula” 의 약어. 핵심은 같은 인과량 식별식을 시간이 한 시점이든 여러 시점이든 같은 형태로 표현한다는 점.

2 5 개 소챕터의 흐름

소챕터 핵심 질문
13.1 IP 가중 대신 무엇을 쓰는가? 표준화 — 결과 모형의 평균
13.2 결과 모형을 어떻게 적합하는가? 9 변수 + 상호작용 항의 선형 회귀
13.3 교란자 분포는 어떻게 다루는가? 표본 분포로 직접 평균 (4 단계 알고리즘)
13.4 IPW 와 표준화 중 무엇을 쓰나? 둘 다 — 결과가 일치하면 robustness 증거
13.5 추정값을 얼마나 신뢰할 것인가? bootstrap CI + sensitivity analysis

3 NHEFS 사례 — IPW 와 같은 답?

NHEFS 표준화 결과 (Hernan, Program 13.2)
  • \(\widehat{\mathrm{E}}[Y^{a=1, c=0}] = 5.18\) kg (모두 금연 시 평균 체중 변화)
  • \(\widehat{\mathrm{E}}[Y^{a=0, c=0}] = 1.66\) kg (모두 비금연 시 평균 체중 변화)
  • 차이 \(= 3.5\) kg, 95% bootstrap CI \(= (2.6, 4.5)\)

Ch.12 의 IPW 추정값 3.4 kg 와 거의 일치. 두 방법이 비슷한 답을 주는 것은 결과의 robustness 에 대한 증거.

직관 — 일치하는 답이 의미하는 것: IPW 와 표준화가 의존하는 모형이 다르므로 두 모형이 동일한 방향으로 잘못될 가능성은 낮다. 두 추정값이 비슷하면 (a) 두 모형이 모두 합리적이거나 (b) 진짜 인과 효과가 둘 다의 misspecification 을 흡수할 만큼 강건한 것. 큰 차이가 나면 적어도 한쪽 모형이 심각하게 잘못됐다는 경보.

직관 — 일치하지만 약간 다른 이유: Ch.12 의 IPW 는 3.4kg, Ch.13 의 표준화는 3.5kg. 0.1kg 차이는 두 모형의 misspecification 이 약간 다른 방향으로 영향을 준 결과. 진짜 두 방법은 비모수 한도에서 정확히 같은 값으로 수렴한다 — Hernan 의 Technical Point 2.3 의 이론적 동등성. 실제 차이는 모형 선택의 흔적이다.

4 4 단계 plug-in g-formula 알고리즘

표준화 절차 (Hernan, Program 13.3)

데이터를 3 블록으로 확장한다.

  1. 블록 확장: 원 데이터 \(n\) 행 → 같은 데이터 3 블록 (\(3n\) 행).
  2. 블록 1: 원 데이터 그대로 (\(A\)\(Y\) 모두 관측).
  3. 블록 2: \(A := 0\), \(Y := \text{NA}\) — 모두 비처치.
  4. 블록 3: \(A := 1\), \(Y := \text{NA}\) — 모두 처치.

이후

  1. 결과 모형 적합: 블록 1 의 데이터로 \(\mathrm{E}[Y|A,L]\) 회귀.
  2. 예측: 블록 2·3 에서 적합 모형으로 \(\widehat{Y}\) 예측.
  3. 평균: 블록 2 의 평균 = \(\widehat{\mathrm{E}}[Y^{a=0}]\), 블록 3 의 평균 = \(\widehat{\mathrm{E}}[Y^{a=1}]\).

직관 — 왜 데이터를 복제하는가: 블록 2·3 은 “만약 모두 비처치/처치 받았다면” 의 가상 시나리오를 데이터의 형태로 표현한다. 결과 모형이 한번 적합되면 같은 모형으로 두 시나리오의 결과를 예측해 평균낸다. 반사실을 데이터의 행으로 표현하는 코드 트릭이다.

직관 — 가상 데이터의 안전성: 블록 2·3 의 \(Y\) 가 missing 이라 이 블록들은 모형 적합에 영향을 주지 않는다 (블록 1 만 사용). 그러나 예측 시에는 블록 2·3 의 \(L\), \(A\) 값이 사용되어 적합된 모형 함수에 통과된다. 결과 모형이 옳다면 이 예측치는 진짜 잠재 결과 평균에 수렴.

5 핵심 개념 4 가지

5.1 1. 결과 모형 vs 처치 모형

항목 표준화 IPW
모형 대상 \(\mathrm{E}[Y|A, L]\) \(\Pr(A=a|L)\)
모형 형태 선형 회귀, GLM logistic, multinomial
추정 방식 모형 평균 가중 평균
Misspecification 위험 결과 함수 형태 처치 확률 함수 형태
Positivity 영향 외삽 가능 (덜 민감) 가중치 폭발 (더 민감)

직관 — 두 모형의 위험 분리: 어느 모형이 misspecified 되어도 다른 모형은 영향을 안 받는다. Doubly robust 추정량은 이 분리를 활용해 두 모형 중 한쪽만 옳아도 일치 추정을 보장한다. Ch.18 의 핵심 메시지의 출발점.

5.2 2. 표준화의 외삽 능력

표준화가 양의 확률 위반에 robust 한 이유

\(\Pr(A=a|L=l) = 0\) 인 셀 (구조적 nonpositivity) 이 있으면 IPW 의 가중치는 정의되지 않는다 (division by zero). 표준화는 같은 셀에서 \(\mathrm{E}[Y|A=a, L=l]\)외삽치 를 사용하므로 형식적으로 추정 가능하다 — 단, 결과 모형이 그 외삽 영역에서도 옳다는 강한 가정에 의존.

직관 — 외삽의 양면성: 표준화는 데이터 없는 영역까지 결과 모형 함수 형태를 따라 외삽하므로 “정의되지 않는 추정” 이 안 생긴다. 그러나 외삽치의 옳음은 모형 가정에 의존하는 것이라, 추정 가능 ≠ 추정 옳음. 양의 확률 위반 영역의 추정값을 보여줄 때는 외삽 의존성을 명시해야 한다.

직관 — IPW vs 표준화의 위반 영향: IPW 는 위반 영역의 추정이 아예 불가능하므로 위반을 즉시 인지한다. 표준화는 위반을 모르는 채로 외삽치를 내놓아 위반을 숨길 수 있다. 양 도구를 함께 쓰면 IPW 의 가중치 분포가 위반의 진단 도구 역할을 한다.

5.3 3. IPW vs 표준화 — 같은 답으로 수렴하는 이유

비모수 한도에서

\[\sum_l \widehat{\mathrm{E}}[Y|A=a, L=l] \widehat{\Pr}(L=l) = \widehat{\mathrm{E}}_{ps}[Y|A=a]\]

가 정확히 성립 (Hernan & Robins, 2020, Technical Point 2.3). 두 방법이 동등.

모수 모형에서는 작은 차이가 발생하지만, 큰 차이가 나면 모형 misspecification 의 경보.

직관 — 비모수 동등성의 의미: 무한 표본 + 모형 가정 없이 한다면 두 방법이 정확히 같은 답을 준다. 차이는 모형 가정의 흔적이다 — 모수 모형이 진짜 분포에서 약간 벗어났음을 알리는 신호. 두 방법을 함께 보고하는 것이 분석의 표준 관행이 된 이유.

5.4 4. Bootstrap 신뢰구간

Nonparametric Bootstrap 절차 (Hernan, Technical Point 13.1)
  1. 원 데이터 \(n\) 명에서 복원 추출(with replacement) 로 \(n\) 명의 bootstrap 표본 생성.
  2. 그 표본에서 g-formula 또는 IPW 적용해 추정값 계산.
  3. 1~2 단계를 1000 번 반복.
  4. 1000 개 추정값의 표준편차 = 표준오차 추정량.
  5. ±1.96 × SE 로 95% CI 구성 (Wald 형태).

NHEFS 표준화에서 이 방식으로 95% CI = (2.6, 4.5) 도출.

직관 — Bootstrap 의 마법: 표본을 모집단의 축소판으로 보고, 그 축소판에서 다시 표본을 뽑는 행위를 반복한다. 마치 무한히 많은 평행 우주에서 비슷한 데이터로 같은 분석을 반복하는 것 — 이로부터 추정량의 sampling distribution 을 직접 얻는다.

직관 — 왜 1000 번? 추정량의 표준편차가 약 0.05 의 정밀도로 추정될 만큼의 횟수. 200~500 번도 자주 쓰이지만 신뢰구간 polynomial 부분이 약간 흔들릴 수 있다. 1000 번이면 안정적, 5000 번이면 거의 정확.

6 핵심 가정 점검

표준화가 의존하는 가정
  • 조건부 교환가능성: \(Y^a \perp\!\!\!\perp A | L\) — IPW 와 동일.
  • 양의 확률: \(\Pr(A=a|L) > 0\) — 외삽치는 가정에 의존하므로 약간 완화.
  • 일관성: \(A=a\) 일 때 \(Y = Y^a\) — IPW 와 동일.
  • 결과 모형 옳음: \(\mathrm{E}[Y|A,L]\) 의 함수 형태가 정확.

이 가정 위에서 plug-in g-formula 가 일치 추정량.

직관 — 모형 가정의 위치: IPW 의 모형 가정은 처치 모형, 표준화의 모형 가정은 결과 모형. 두 모형의 specification 위험이 따로 분리되어 있어 doubly robust 의 기반이 된다.

7 왜 필요한가

상황 IPW 표준화
보정 변수 1~2 개 (이항) 같은 결과 (비모수 동등) 같은 결과
처치가 매우 흔하거나 드묾 가중치 폭발 안정
결과가 매우 흔하거나 드묾 안정 결과 모형 적합 어려움
양의 확률 위반 (구조적) 적용 불가 외삽 (가정 의존)
양의 확률 위반 (random) 가중치 큼 부드러운 외삽
효과 수정 (HTE) MSM + product term 부분 표본 평균

직관 — 두 도구의 강점이 보완적: IPW 는 처치 모형이 단순할 때 강하고, 표준화는 결과 모형이 단순할 때 강하다. 어느 한쪽이 복잡한 데이터에서 두 도구의 결합(이중 강건) 이 가장 robust 한 추정을 준다.

8 응용 분야

  • 임상 관찰 연구: 두 방법으로 결과를 비교하는 표준 분석 전략
  • 헬스케어 비용 분석: 결과 모형 기반 잠재 비용 예측
  • 공중보건 정책 평가: 무엇을 가정할지에 따라 도구 선택
  • A/B 테스트의 보정 분석: 무작위 배정 깨졌을 때 표준화로 보정
  • 마케팅 incremental analysis: 처치 대비 비처치 시나리오의 결과 평균 비교

9 코드 미리보기

import pandas as pd
import numpy as np
import statsmodels.formula.api as smf

nhefs = pd.read_csv("nhefs.csv").dropna(subset=["wt82_71"]).reset_index(drop=True)

# Step 1: 결과 모형 적합 (Block 1 만 사용)
outcome_formula = (
    "wt82_71 ~ qsmk * smokeintensity + I(qsmk * smokeintensity**2) "
    "+ sex + race + C(education) + age + I(age**2) "
    "+ smokeintensity + I(smokeintensity**2) "
    "+ smokeyrs + I(smokeyrs**2) + C(exercise) + C(active) "
    "+ wt71 + I(wt71**2)"
)
out_model = smf.ols(outcome_formula, data=nhefs).fit()

# Step 2: 가상 시나리오 데이터 생성
treated = nhefs.copy(); treated["qsmk"] = 1
untreated = nhefs.copy(); untreated["qsmk"] = 0

# Step 3: 예측 후 평균
mean_y1 = out_model.predict(treated).mean()      # ~5.18
mean_y0 = out_model.predict(untreated).mean()    # ~1.66
ate = mean_y1 - mean_y0                          # ~3.52

# Step 4: bootstrap CI
def bootstrap_ate(data, n_boot=1000):
    estimates = []
    for _ in range(n_boot):
        boot = data.sample(n=len(data), replace=True)
        m = smf.ols(outcome_formula, data=boot).fit()
        t = boot.copy(); t["qsmk"] = 1
        u = boot.copy(); u["qsmk"] = 0
        estimates.append(m.predict(t).mean() - m.predict(u).mean())
    return np.percentile(estimates, [2.5, 97.5])

ci = bootstrap_ate(nhefs)
print(f"ATE = {ate:.2f} kg, 95% CI = {ci}")

10 후속 글로 이어지는 다리

다루는 내용
12-1 13.1 + 13.2 — 표준화의 정의 + 결과 모형 추정
12-2 13.3 + 13.4 — 4 단계 알고리즘 + IPW vs 표준화
12-3 13.5 — 추정값 신뢰성 평가 + sensitivity analysis

11 Doubly Robust 의 미리보기

정의: Doubly Robust Estimator

처치 모형 \(\Pr(A|L)\) 과 결과 모형 \(\mathrm{E}[Y|A,L]\) 둘 중 한쪽만 옳으면 일치 추정인 추정량. 대표적으로 AIPW (Augmented Inverse Probability Weighting):

\[\widehat{\mathrm{E}}[Y^a]_\text{AIPW} = \frac{1}{n} \sum_i \left[ \frac{\mathbb{1}\{A_i=a\}}{\widehat{f}(A_i|L_i)} (Y_i - \widehat{m}(A_i, L_i)) + \widehat{m}(a, L_i) \right]\]

여기서 \(\widehat{m}(a, L) = \widehat{\mathrm{E}}[Y|A=a, L]\).

직관 — Doubly Robust 의 마법: 결과 모형이 옳으면 두 번째 항이 일치 추정량이고 첫 항의 평균이 0 으로 수렴 → 결과 모형 추정이 답. 처치 모형이 옳으면 첫 항의 IPW 가 일치 추정 → 첫 항이 답. 어느 한쪽만 옳아도 답이 나오므로 두 번의 기회가 있다. Ch.18 의 ML 결합 추정량 이 이 원리의 현대 확장이다.

12 한 줄 요약

표준화는 결과 모형 \(\mathrm{E}[Y|A,L]\) 을 적합한 후 가상 시나리오의 예측치를 평균해 잠재 결과 평균을 추정한다. NHEFS 사례에서 IPW 와 거의 같은 3.5kg 결과. 두 방법은 비모수 한도에서 동등하지만 모형 가정이 분리되어 있어 doubly robust 의 기반이 된다. Bootstrap 으로 신뢰구간 계산이 표준 — 가정 적고 정확.

13 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

14 표준화의 역사적 위치

표준화의 두 가지 의미
  1. 인구 표준화 (epidemiology, 19 세기 후반): 두 인구의 사망률 비교 시 연령 분포의 차이를 보정하기 위해 표준 인구로 가중 평균 — direct standardization.
  2. 인과적 표준화 (Robins, 1986): 잠재 결과의 평균을 식별식으로 표현. 시간변동 처치로 일반화.

두 사용은 산술적으로 같지만 인과적 해석이 추가된 것이 후자.

직관 — 같은 산술의 다른 해석: 19 세기 인구학자가 “연령 보정 사망률” 을 계산할 때 사용한 산술이 21 세기 인과 추론의 핵심 도구가 됐다. 같은 식이지만 가정과 해석이 인과적이라는 점이 차이. 인과 추론은 통계 도구의 새 발견이 아니라 새 해석의 역사.

직관 — Robins 가 추가한 것: (a) 식별 가정의 명시 (교환·양·일관). (b) 시간변동 처치로의 일반화. (c) g-estimation 과의 통합. 단순 인구 표준화에서 현대 인과 추론의 기둥 으로 격상 시킨 기여.

15 회귀와 표준화의 관계

“회귀로 보정” 과 “표준화” 의 미묘한 차이

OLS 의 처치 계수 \(\widehat{\beta}_A\)conditional ATE (\(\mathrm{E}[Y^{a=1} - Y^{a=0} | L]\)) 의 평균에 가까운 양. 표준화는 marginal ATE (\(\mathrm{E}[Y^{a=1} - Y^{a=0}]\)).

처치-공변량 상호작용이 없으면 두 양이 같지만, 효과 수정이 있으면 다르다 — 표준화가 ATE 를 정확히 추정하고 회귀 계수는 ATE 에 가깝지만 정확히 같지는 않다.

직관 — 효과 수정의 영향: 처치 효과가 \(L\) 에 따라 다르면, 회귀 계수는 \(L\) 의 (가중) 평균 효과를 추정. 가중치가 표본 분포와 정확히 같지 않을 수 있어 ATE 와 차이. 표준화는 명시적으로 표본 분포로 평균하므로 정확.

직관 — 단순 회귀가 인과 분석의 입문이 아닌 이유: “교란 변수 보정 = 회귀에 추가” 라는 발상은 효과 수정 + 비선형 효과가 있으면 부정확. 표준화·g-formula 는 이런 함정을 회피하는 명시적 절차. OLS 의 단순함은 인과 분석의 미묘함을 가린다.

Subscribe

Enjoy this blog? Get notified of new posts by email: