Kwangmin Kim - IP 가중과 marginal structural model

1 개요

Ch.2 에서 IP 가중은 비모수(nonparametric) 도구로 도입되었다. 작은 트리 그래프에서 각 셀의 처치 비율을 표본 비율로 추정해 \(1/\Pr(A=a|L)\) 가중치를 만들었다. 이 접근은 공변량 \(L\) 의 차원이 작을 때만 작동한다 — 셀이 비면 비율 자체를 셀 수 없다.

Ch.12 는 같은 IP 가중을 모수적(parametric) 도구로 확장한다. 9 개 보정 변수가 있는 NHEFS 데이터에서 각 셀별 비율을 직접 세는 대신, 로지스틱 회귀로 \(\Pr(A=1|L)\) 를 모형화한다. 이로써 high-dimensional 보정이 가능해지지만, 모형 misspecification 위험이라는 새 비용이 추가된다.

직관 — 한 줄로 본 Ch.12 의 변환: “분모를 셈으로 추정하던 것을 → 분모를 회귀로 추정하는 것으로” 바꾸는 챕터. 셈은 가정이 적지만 셀이 비면 무력하다. 회귀는 함수 형태 가정을 부과하지만 셀이 비어도 작동한다. 셈에서 회귀로 넘어가는 것이 곧 Part I 에서 Part II 로 넘어가는 것이다.

정의: IP 가중 (Inverse Probability Weighting)

처치 \(A\), 공변량 \(L\) 에서 각 개인의 가중치를

\[W^A = \frac{1}{f(A|L)}\]

로 부여하면, 가중된 가상 모집단(pseudo-population) 에서 \(A \perp\!\!\!\perp L\) 이 성립한다. 조건부 교환가능성 \(Y^a \perp\!\!\!\perp A | L\) 아래 \(\mathrm{E}_{ps}[Y|A=a] = \mathrm{E}[Y^a]\) 가 되어 가상 모집단에서의 연관이 곧 인과효과가 된다 (Hernan & Robins, 2020, Ch.12.2).

직관 — Pseudo-population 의 비유: 같은 환자를 처치 확률에 반비례해 “복제”하는 것과 같다. 어떤 환자가 처치 받을 확률이 0.1 이었다면 그 환자는 가상 모집단에서 10 명으로 복제된다 — 처치 받기 어려운 환경에 처해 있던 사람일수록 가중치가 크다. 이렇게 만들어진 가상 모집단에서는 처치가 공변량과 독립이 되어 무작위 실험의 조건이 회복된다.

2 6 개 소챕터의 흐름

소챕터	핵심 질문	답
12.1	NHEFS 데이터에서 무엇을 추정하는가?	\(\mathrm{E}[Y^{a=1}] - \mathrm{E}[Y^{a=0}]\) — 흡연 중단의 평균 인과 효과
12.2	high-dimensional \(L\) 에서 IP 가중을 어떻게 계산하는가?	로지스틱 회귀로 propensity score 추정 후 역수 가중
12.3	가중치 분포가 너무 넓으면?	\(f(A)/f(A\|L)\) 의 안정화 가중
12.4	가중 회귀는 무엇을 추정하는 모형인가?	Marginal structural model (MSM) — 잠재 결과 평균
12.5	효과 수정은 어떻게 다루는가?	MSM 에 공변량을 더해 product term 으로
12.6	결과 변수가 결측되면?	\(W^{A,C} = W^A \times W^C\) 의 결합 가중

3 NHEFS 사례 — 흡연 중단의 체중 효과

NHEFS 데이터 (Hernan & Robins, 2020, Ch.12.1)

\(A\): 1971-75 baseline 흡연자 중 1982 까지 금연 여부 (이항)
\(Y\): 같은 기간 체중 변화 (kg, 연속)
\(L\): 9 개 보정 변수 (성별, 나이, 인종, 교육, 흡연량·기간, 운동, 비활동, 체중)
\(n = 1566\) — 금연자 403 명, 비금연자 1163 명

3.1 보정 없는 단순 비교의 함정

\[\widehat{\mathrm{E}}[Y|A=1] - \widehat{\mathrm{E}}[Y|A=0] = 4.5 - 2.0 = 2.5 \text{ kg}, \quad 95\%\text{ CI} = (1.7, 3.4)\]

직관 — 왜 이 숫자가 인과 효과가 아닌가: 금연자는 비금연자보다 평균 4 살 많고, 나이가 많을수록 체중 증가가 적다. 이 두 요소를 합치면 단순 차이 2.5 는 진짜 인과 효과를 과소 추정 할 가능성이 크다. 즉 “금연하면 체중이 2.5kg 더 늘어난다”는 결론은 나이라는 교란을 반영하지 못한 결과이다.

3.2 IP 가중 적용 결과

9 개 보정 변수로 logistic 회귀 적합 후 IP 가중을 적용하면

\[\widehat{\theta}_1 = 3.4 \text{ kg}, \quad 95\%\text{ CI} = (2.4, 4.5).\]

직관 — 0.9kg 의 의미: 단순 비교 2.5 → IP 가중 3.4. 약 0.9kg 의 차이는 9 개 보정 변수가 흡수한 교란의 양이다. 나이가 많은 금연자(체중 증가가 작은 그룹) 의 비중이 비금연자보다 컸으므로 이를 보정하면 효과 추정치가 커진다. 교란 보정의 방향은 데이터의 구조에 따라 달라지며, 미리 알 수 없다.

4 핵심 개념 5 가지

4.1 1. Pseudo-population 의 본질 (12.2)

가중치 \(W^A = 1/f(A|L)\) 를 적용한 데이터의 가상 모집단에서

\(A\) 와 \(L\) 이 독립이 된다 (DAG 의 \(L \to A\) 화살표 제거).
\(\mathrm{E}_{ps}[Y|A=a] = \sum_l \mathrm{E}[Y|A=a, L=l] \Pr(L=l)\) 가 된다 — 이 양은 Ch.13 의 표준화 공식과 같다.

따라서 IP 가중과 표준화는 같은 인과량을 다른 길로 추정하는 두 도구이다.

직관 — 가중치가 화살표를 끊는 메커니즘: 처치 확률이 작은 사람을 큰 가중치로 복제하면 가상 모집단에서는 모든 \(L\) 값에서 처치 확률이 균등(또는 사전 명시된 분포) 이 된다. \(L\) 이 처치 결정에 영향을 주지 못하므로 \(L \to A\) 화살표가 끊긴 것과 같다 — DAG 가 무작위 실험의 모양으로 변환된다.

4.2 2. Propensity Score (12.2)

정의: 성향 점수 (Propensity Score)

이항 처치의 조건부 확률 \(e(L) = \Pr(A=1|L)\) 를 성향 점수라 한다 (Rosenbaum & Rubin 1983). IP 가중의 분모는 처치된 사람에게 \(e(L)\), 비처치 사람에게 \(1 - e(L)\) 이다.

NHEFS 에서 9 개 변수의 logistic 회귀로 \(\widehat{e}(L)\) 추정. 추정된 가중치는 1.05 ~ 16.7, 평균 2.0 (가상 모집단 크기가 원 표본의 두 배 = \(2 \times 1566 = 3132\)).

직관 — 성향 점수가 핵심인 이유: 9 개 변수의 다차원 분포 전체를 직접 다루는 대신, 단일 스칼라 \(e(L)\) 만으로 처치 확률 정보를 압축한다. 성향 점수가 같은 두 사람은 처치 받을 확률이 같으므로 — 9 개 변수가 정확히 일치하지 않더라도 — 인과 효과 추정 목적으로는 같은 그룹으로 취급할 수 있다.

4.3 3. 안정화 가중치 SW^A (12.3)

가중치 \(W^A\) 의 분포가 너무 넓으면 추정량의 분산이 커진다. 분자에 \(f(A)\) 를 두면

\[SW^A = \frac{f(A)}{f(A|L)}\]

가 된다. 가상 모집단의 크기가 원 표본과 같아지고 가중치 평균이 1, NHEFS 사례에서 \(SW^A \in [0.33, 4.30]\) 으로 분포가 좁아진다.

가중치	분자	범위	가상 모집단 크기
\(W^A\) (비안정화)	1	1.05~16.7	3132
\(SW^A\) (안정화)	\(f(A)\)	0.33~4.30	1566

직관 — 분자 추가가 어떻게 효율성을 늘리는가: 분자 \(f(A)\) 가 분모와 같은 비율로 영향을 주지만 \(L\) 에 의존하지 않으므로 가중치의 변동성을 줄인다. 점추정은 같지만 신뢰구간이 좁아진다. 이 효과는 모형이 saturated 가 아닐 때에만 나타나며, NHEFS 의 이항 처치 saturated 모형에서는 둘이 같은 결과를 준다 (다만 연속 처치에서는 안정화가 필수).

4.4 4. Marginal Structural Model (12.4)

정의: Marginal Structural Mean Model (MSMM)

잠재 결과 \(Y^a\) 의 평균을 \(a\) 의 함수로 모형화한 등식.

\[\mathrm{E}[Y^a] = \beta_0 + \beta_1 a\]

좌변이 잠재 결과의 함수이므로 직접 데이터에 적합할 수 없다. 그러나 IP 가중된 회귀 모형 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 의 모수 \(\theta\) 가 MSM 의 모수 \(\beta\) 와 일치한다 — 즉 가중 회귀가 MSM 을 추정한다 (Hernan & Robins, 2020, Ch.12.4).

직관 — MSM 의 위치: 일반 회귀는 관측된 \(Y\) 의 조건부 평균 모형, MSM 은 잠재 결과 \(Y^a\) 의 평균 모형. 수식이 거의 똑같이 생겼지만 좌변의 의미가 본질적으로 다르다. 이항 처치 + 모든 보정 변수 \(L\) 에서 IPW 가중 회귀가 MSM 의 일치 추정이라는 점이 마법의 핵심이다.

직관 — 연속 처치 MSM 의 필요성: \(A\) 가 흡연량 변화 같은 연속 변수이면 saturated 모형이 불가능하다. \(\mathrm{E}[Y^a] = \beta_0 + \beta_1 a + \beta_2 a^2\) 같은 비포화 MSM 을 두고 가중 회귀로 \(\beta\) 를 추정한다 — Ch.11 의 함수 형태 가정이 인과 추정량으로 이어진다.

4.5 5. 효과 수정과 censoring (12.5, 12.6)

효과 수정: 성별 \(V\) 에 따른 효과 수정이 의심되면 MSM 에 product term 추가.

\[\mathrm{E}[Y^a | V] = \beta_0 + \beta_1 a + \beta_2 V a + \beta_3 V\]

\(\beta_2 \neq 0\) 이면 효과가 성별에 따라 다르다. NHEFS 사례에서 \(\widehat{\beta}_2\) 의 95% CI 가 \((-2.2, 1.9)\) 이라 효과 수정 증거 약함.

Censoring: 결과 변수 \(Y\) 가 결측된 사람을 분석에서 제외하면 선택 편향 위험. 이 편향을 보정하려면 처치 가중치 \(W^A\) 와 censoring 가중치 \(W^C = 1/\Pr(C=0|L,A)\) 의 곱 \(W^{A,C}\) 사용. NHEFS 에서 \(W^{A,C}\) 적용 시 추정값 3.5kg (95% CI 2.5~4.5) — 단독 \(SW^A\) 의 3.4kg 와 거의 같음.

직관 — 결합 가중의 일반성: “처치를 결정하는 요인 \(L \to A\)” 와 “결과 결측을 결정하는 요인 \(L \to C\)” 는 같은 변수 집합에서 나오는 두 가지 위협이다. 두 가지를 모두 보정하려면 두 가중치를 곱한다 — 이는 Part III 에서 시간변동 처치를 다룰 때의 일반 원칙으로 확장된다.

5 핵심 가정 점검

IP 가중이 의존하는 가정

조건부 교환가능성: \(Y^a \perp\!\!\!\perp A | L\) — 측정된 \(L\) 이 모든 교란을 포함한다.
양의 확률 (positivity): \(0 < \Pr(A=a|L=l) < 1\) — 모든 \(L\) 값에서 처치 받은 사람과 받지 않은 사람이 모두 존재.
일관성 (consistency): 관측된 \(Y\) 가 \(A=a\) 일 때 잠재 결과 \(Y^a\) 와 일치.
모형 옳음: \(\Pr(A=1|L)\) 의 logistic 모형이 옳다.

이 중 어느 하나가 깨지면 추정량이 편향된다.

직관 — 양의 확률 위반의 두 종류: 구조적 위반(특정 \(L\) 에서 처치가 원리적으로 불가능) 과 무작위 위반(우연히 표본에 그 셀이 비어 있음). NHEFS 의 “백인 여성 66 세” 셀이 비어 있는 것은 후자다 — logistic 모형이 다른 셀의 정보로 interpolation 하여 가중치를 추정하지만, 이는 사실상 무작위 nonpositivity 가정 을 묵시적으로 두는 것이다.

직관 — 교환가능성과 양의 확률의 긴장: 더 많은 변수를 \(L\) 에 넣으면 교환가능성에 가까워지지만 양의 확률 위반 가능성이 늘어난다. 변수가 많을수록 셀이 비어 있을 확률이 커지고, logistic 모형이 그 빈 셀을 강하게 외삽해야 한다. 두 가정은 trade-off 를 이루며, Ch.18 의 변수 선택 논의가 이 균형을 다룬다.

6 왜 필요한가

상황	Part I 비모수 IPW	Part II 모수 IPW
보정 변수 1~2 개 (이항)	셈으로 충분	같은 결과
보정 변수 5 개 + 다범주	셀이 빈다	회귀로 추정 가능
보정 변수 9 개 (NHEFS)	200 만 셀 → 무력	로지스틱 회귀 1 개로 해결
연속 처치	정의 불가	\(f(A\|L)\) 모형으로 가능

직관 — 모수 IPW 가 표준이 된 이유: 실제 인과 분석에서 보정 변수 5~10 개는 흔하다. Part I 의 비모수 IPW 는 시뮬레이션 학습용이고, Part II 의 로지스틱 회귀 기반 IPW 가 실무 표준이다.

7 Horvitz-Thompson 추정량과 Hajek 추정량

두 가지 IPW 추정 형태

Horvitz-Thompson (HT): \[\widehat{\mathrm{E}}[Y^a]_\text{HT} = \frac{1}{n} \sum_i \frac{\mathbb{1}\{A_i = a\} Y_i}{\widehat{f}(A_i|L_i)}\]

Hajek (정규화): \[\widehat{\mathrm{E}}[Y^a]_\text{Hajek} = \frac{\sum_i \mathbb{1}\{A_i = a\} Y_i / \widehat{f}(A_i|L_i)} {\sum_i \mathbb{1}\{A_i = a\} / \widehat{f}(A_i|L_i)}\]

Hernan 의 가중 회귀 OLS 는 Hajek 형태이다.

직관 — HT 와 Hajek 의 차이: HT 는 “고정된 모집단 크기 \(n\) 으로 나눔”, Hajek 는 “가중치 합으로 나눔”. 가중치 추정값이 모형 misspecification 으로 약간 어긋나면 HT 의 분모는 영향을 안 받지만 Hajek 의 분모는 자동 보정된다 — 따라서 Hajek 가 일반적으로 분산이 작고 robust 하다. 이항 결과의 경우 Hajek 추정값은 [0,1] 범위를 보장하지만 HT 는 모형이 어긋나면 1 을 넘을 수 있다.

직관 — 왜 가중 회귀가 Hajek 추정량인가: WLS 는 가중치를 정규화하지 않은 형태로 풀어 \(\sum_i W_i (Y_i - \theta_0 - \theta_1 A_i)^2\) 를 최소화한다. 이 정규화 방정식의 해는 \(\widehat{\theta}_0 = \widehat{\mathrm{E}}[Y^{a=0}]_\text{Hajek}\), \(\widehat{\theta}_0 + \widehat{\theta}_1 = \widehat{\mathrm{E}}[Y^{a=1}]_\text{Hajek}\) 가 된다. WLS 의 산술이 자동으로 Hajek 정규화를 수행하는 셈이다.

8 응용 분야

임상 관찰 연구: 치료 효과의 인과 추정 (관찰 데이터에서 RCT 모방)
온라인 실험: 무작위 배정이 깨진 자연 실험의 보정
정책 평가: 정책 개입 효과의 관찰 데이터 추정
헬스케어 비용 분석: 처치 선택의 self-selection 보정
마케팅 attribution: 캠페인 노출의 인과 효과 추정 (관찰 데이터)
기업 인사 분석: 교육 프로그램의 자기선택 보정한 효과 추정
A/B 테스트의 비순응: per-protocol 분석에서 비순응의 self-selection 보정

8.1 IPW 와 randomization 의 관계

직관 — RCT 가 IPW 의 특수 경우: 무작위 실험에서는 \(A \perp\!\!\!\perp L\) 이 설계상 성립하므로 모든 가중치가 같다. \(f(A|L) = f(A) = 1/2\) (50:50 배정) → \(W^A = 2\) (모든 사람). 이때 가중 회귀는 일반 OLS 와 같다. 관찰 연구의 IPW 는 RCT 의 무작위성을 인공적으로 회복하려는 시도 이고, 그 회복의 정확도는 \(L\) 이 모든 교란을 포함하느냐에 달려 있다.

직관 — 자연 실험과 IPW: instrument 가 명확하지 않은 자연 실험(예: 정책 변화 전후) 에서도 propensity score 보정으로 처치군과 대조군의 baseline 분포를 맞출 수 있다. DiD·RDD 같은 다른 준실험 설계와 결합되어 robust 한 인과 추정을 가능하게 한다.

9 후속 글로 이어지는 다리

글	다루는 내용
11-1	12.1 + 12.2 — NHEFS 인과 질문 + IP 가중치 모델링 추정
11-2	12.3 + 12.4 — 안정화 IP 가중치 + MSM (연속 처치 포함)
11-3	12.5 + 12.6 — 효과 수정 MSM + censoring 보정

이후 Ch.13 의 표준화·g-formula 는 같은 인과량을 다른 길로 추정하는 도구이다.

10 코드 미리보기

import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

nhefs = pd.read_csv("nhefs.csv").dropna(subset=["wt82_71"])

# Step 1: propensity score 모형 적합
ps_model = smf.logit(
    "qsmk ~ sex + race + age + I(age**2) + C(education) + smokeintensity"
    " + I(smokeintensity**2) + smokeyrs + I(smokeyrs**2) + C(exercise)"
    " + C(active) + wt71 + I(wt71**2)",
    data=nhefs,
).fit()
nhefs["ps"] = ps_model.predict()

# Step 2: 비안정화 가중치
nhefs["w"] = 1 / nhefs["ps"].where(nhefs["qsmk"] == 1, 1 - nhefs["ps"])

# Step 3: 안정화 가중치
p_a = nhefs["qsmk"].mean()
nhefs["sw"] = (
    nhefs["qsmk"] * p_a / nhefs["ps"]
    + (1 - nhefs["qsmk"]) * (1 - p_a) / (1 - nhefs["ps"])
)

# Step 4: 가중 회귀로 ATE 추정 (robust SE)
gee = smf.gee(
    "wt82_71 ~ qsmk", "seqn", data=nhefs, weights=nhefs["sw"]
).fit()
print(gee.params)         # qsmk ~ 3.4
print(gee.conf_int())     # (2.4, 4.5)

직관 — robust SE 의 역할: 가중치는 데이터에 비독립성을 도입하므로 일반 OLS 의 표준오차가 적절하지 않다. GEE 의 robust 분산 추정량 또는 bootstrap 으로 보정해야 신뢰구간이 calibration 을 유지한다.

11 IPW 의 한계와 후속 챕터의 동기

IPW 가 무너지는 두 시나리오

Propensity score 모형 misspecification: \(\Pr(A|L)\) 가 실제로 비선형이거나 상호작용이 강한데 logistic 모형이 이를 포착 못 하면 추정량이 편향. 이 위험은 Ch.18 의 ML 기반 propensity 추정으로 완화한다.
Practical positivity violation: \(L\) 의 일부 셀에서 \(\Pr(A=1|L)\) 가 0 또는 1 에 매우 가까우면 가중치가 폭발해 추정량의 분산이 커지고 이상치가 추정에 과도한 영향을 준다. Trimming, weight stabilization, doubly robust 추정량으로 완화한다.

직관 — Ch.13 의 표준화가 등장하는 이유: IPW 는 처치 모형 \(\Pr(A|L)\) 에 의존한다. 표준화는 결과 모형 \(\mathrm{E}[Y|A,L]\) 에 의존한다. 두 모형 중 한쪽이 잘못되면 한 도구는 무너지지만 다른 도구는 유효할 수 있다 — 이 비대칭성이 이중 강건 추정량(Doubly Robust) 의 출발점이며, Ch.18 의 핵심 주제이다.

직관 — Ch.15 의 propensity score 가 등장하는 이유: IPW 는 propensity score 의 한 사용 방식일 뿐이다. Ch.15 는 같은 propensity score 를 (a) 가중, (b) 매칭, (c) 층화, (d) 회귀 보정의 네 방식으로 사용한다. 각 방식이 다른 가정을 두고 다른 표본 효율을 가진다.

12 한 줄 요약

Ch.12 는 IP 가중을 비모수에서 모수로 확장해 high-dimensional 인과 추정을 가능하게 한다. Pseudo-population 에서 처치와 공변량을 독립으로 만든 후, MSM 의 모수를 가중 회귀로 추정한다. 안정화 가중치는 분산을 줄이고, censoring 가중치는 결측 결과의 선택 편향을 보정한다. 모형 옳음·교환가능성·양의 확률·일관성의 네 가정 위에서 추정량이 일치성을 가진다.

13 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

로지스틱 회귀 — propensity score 모형의 통계적 기초
GEE 와 robust SE — 가중 회귀의 분산 추정

14 인과 분석 워크플로우 안에서의 위치

단계	도구	Ch.12 의 기여
1. 인과 질문 명확화	Potential outcomes 표기	\(\mathrm{E}[Y^{a=1}] - \mathrm{E}[Y^{a=0}]\) 정의
2. DAG 그리기	DAG, d-separation	\(L \to A\) 화살표 식별
3. 식별 가정 점검	exchangeability, positivity, consistency	4 가정의 명시
4. 추정량 선택	IPW, standardization, g-estimation, IV	IPW 의 모수적 형태
5. 분산 추정	bootstrap, robust SE	conservative SE 의 사용
6. 민감도 분석	E-value, sensitivity bounds	unmeasured 교란에 대한 점검

직관 — IPW 가 워크플로우의 어디에 있는가: 1~3 단계에서 인과 질문이 식별 가능하다고 결론이 나야 IPW 가 의미를 갖는다. 식별이 통과하지 않은 데이터에 IPW 를 적용해도 추정량이 인과 효과를 향하지 않는다 — 추정 도구는 식별을 대체하지 못한다.

15 학파별 IPW 의 위치

학파	IPW 의 도구적 위치	강조점
Hernan & Robins	식별식의 우변 추정 도구	모형 가정과 식별 가정의 분리
Rosenbaum & Rubin (PS)	매칭·층화·가중의 4 가지 방식 중 하나	같은 PS 의 다양한 활용
Pearl SCM	\(do\)-calculus 의 추정 도구	그래프 기반 식별 후 추정
계량경제학	self-selection 보정 도구	Heckman correction 과 비교

직관 — 같은 IPW, 다른 강조점: 학파마다 IPW 의 통계적 의미는 같지만, 언제·왜 사용하는지 의 직관이 다르다. Hernan 은 식별 후 추정의 한 도구로, Rubin 학파는 PS 의 한 사용 방식으로, Pearl 은 그래프 식별의 추정 도구로, 계량경제학자는 self-selection 의 직접 보정으로 이해한다. 어느 관점이든 산술은 동일하고, 적용 시 강조하는 가정의 명시 방식이 다를 뿐이다.