효과 수정 MSM과 censoring 보정

Hernan Ch.12.5~12.6 — V 층화 + W^{A,C} 결합 가중

Hernan & Robins (2020) Ch.12.5~12.6 을 다룬다. Marginal structural model 에 효과 수정 변수 \(V\) 를 추가하는 방법, 안정화 가중치 \(SW^A(V) = f(A|V)/f(A|L)\) 의 효율 이득, faux MSM 의 개념, 그리고 결과 변수의 censoring 으로 인한 선택 편향을 \(W^{A,C} = W^A \times W^C\) 의 결합 가중으로 보정하는 절차를 정리한다.

Experimentation
Causal Inference
저자

Kwangmin Kim

공개

2026년 05월 08일

1 정의

정의: 효과 수정 (Effect Modification)

처치 \(A\) 의 인과 효과가 다른 변수 \(V\) 의 값에 따라 달라지면 효과 수정이라 한다 (역학) / heterogeneous treatment effect (HTE, IT 용어). 형식적으로

\[\mathrm{E}[Y^{a=1} - Y^{a=0} | V=v] \neq \mathrm{E}[Y^{a=1} - Y^{a=0} | V=v']\]

이면 \(V\) 가 효과 수정 변수.

정의: Censoring 가중치

결측 결과의 선택 편향을 보정하는 가중치.

\[W^C = \frac{1}{\Pr(C=0|L,A)}, \qquad SW^C = \frac{\Pr(C=0|A)}{\Pr(C=0|L,A)}\]

\(C=0\) 인 (uncensored) 환자에게만 부여되며, \(C=1\) 인 환자는 가중치 0 이라 분석에서 사실상 제외.

직관 — 효과 수정과 교란의 차이: 둘 다 회귀에서 다른 변수가 \(A\)-\(Y\) 관계에 영향을 주지만 메커니즘이 다르다. 교란\(A\)\(Y\) 모두에 인과적으로 영향을 주는 변수(\(L \to A, L \to Y\)) — 보정 안 하면 편향. 효과 수정\(A\) 의 효과 자체가 그룹별로 다른 현상 — 보정의 문제가 아니라 모형의 표현력 문제. 효과 수정은 발견하면 결과 보고에 반영하지만, 교란은 보정으로 제거.

2 12.5 효과 수정과 MSM

2.1 효과 수정을 표현하는 MSM 확장

성별 \(V \in \{0(남), 1(여)\}\) 같은 한 변수의 효과 수정을 모형에 명시적으로 표현:

\[\mathrm{E}[Y^a | V] = \beta_0 + \beta_1 a + \beta_2 V a + \beta_3 V\]

모수 의미
\(\beta_0\) \(V=0\), \(a=0\) 일 때 평균 결과
\(\beta_1\) \(V=0\) 그룹의 평균 인과 효과
\(\beta_2\) \(V=1\) vs \(V=0\) 그룹의 효과 차이 (\(\beta_2 \neq 0\) 이면 효과 수정)
\(\beta_3\) \(V\) 의 결과에 대한 baseline 효과 (인과적 의미는 보장 X)

2.2 엄밀히는 conditional model 이지만 MSM 이라 부른다

Hernan 의 표기 관습에서 \(\mathrm{E}[Y^a | V]\)\(V\) 에 조건부이므로 엄밀히는 conditional SMM 이다. 그러나 효과 수정 변수가 명시적으로 들어 있을 뿐 다른 보정 변수 \(L \setminus V\) 는 가중으로 처리하므로 marginal 의 정신을 유지한다 — 관습상 marginal structural model 로 부른다.

직관 — 진짜 conditional 과의 차이: 진짜 conditional SMM 은 \(L\) 의 모든 변수를 모형 안에 직접 넣는다 (회귀 보정). 효과 수정 MSM 은 \(V\) 만 모형 안에 두고 나머지는 가중으로 처리 — “marginal 분석 + 한 변수 명시적 표현” 의 절충 형태.

2.3 가중치 분자 선택의 효율 이득

효과 수정 분석에서 가중치는 두 가지 선택:

분자 가중치 효율
\(f(A)\) \(SW^A = f(A)/f(A|L)\) 표준
\(f(A|V)\) \(SW^A(V) = f(A|V)/f(A|L)\) 더 효율적

두 가중치 모두 \(A \perp\!\!\!\perp L \setminus V | V\) 조건을 가상 모집단에서 만든다 — 즉 \(V\) 외의 보정 변수가 처치 결정과 독립이 된다. 효과 수정 모형의 입장에서 두 가중치는 동등하지만 \(SW^A(V)\) 가 보통 더 좁은 분산을 가진다.

직관 — 분자에 \(V\) 를 넣는 이유: \(V\) 는 효과 수정 변수로 모형에 이미 들어와 있다. 가중치가 \(V\) 의 처치 분포까지 균등화할 필요 없이, \(V\) 외의 \(L\) 만 균등화하면 된다. 그러면 가중치 분포의 변동이 줄어든다 — 같은 인과 정보를 더 좁은 분포로 전달.

직관 — 효율 이득의 산술적 근거: 두 가중치는 같은 분모를 갖고 분자만 다르다. \(f(A|V)\)\(f(A)\) 보다 \(V\) 의 정보로 condition 된 좁은 분포 → 가중치 비율 \(f(A|V)/f(A)\) 가 1 근처에 집중 → 가중치 자체의 변동성 감소. 분산이 평균 가중치의 제곱과 가중치 분산의 합으로 나오므로 효율이 올라간다.

2.4 NHEFS 의 효과 수정 분석

성별 \(V\) 에 따른 흡연 중단 효과의 차이 검정. NHEFS 사례에서

\[\widehat{\beta}_2 = -0.15, \quad 95\%\text{ CI} = (-2.2, 1.9)\]

CI 가 0 을 포함하므로 효과 수정의 통계적 증거 약함. 남녀 효과 차이가 있다고 결론 내릴 근거가 부족하다.

직관 — Null 결론의 한계: “효과 수정 없다” 는 결론은 \(\beta_2\) 에 대한 검정의 기각 실패 — 효과 수정의 부재를 증명한 게 아니라 증거가 부족함 을 의미. 표본이 충분히 크지 않거나 효과 차이가 작아도 같은 결과가 나온다. 95% CI 폭 ±2.0kg 는 의미 있는 효과 차이를 배제하기에 너무 넓을 수 있다.

2.5 Faux MSM — \(L\) 전체를 모형에 넣으면

정의: Faux Marginal Structural Model

MSM 에 모든 보정 변수 \(L\) 을 효과 수정 항으로 넣으면 가중치가 모두 1 이 된다 (가상 모집단 변환이 불필요). 이 경우 가중 회귀가 아닌 일반 outcome regression (Ch.15) 과 같다 — 실질적으로 표준화·g-formula 의 특수 경우.

직관 — Faux MSM 의 농담: Hernan 은 약간의 유머로 이를 “faux MSM” 이라 부른다 — “marginal” 이라는 이름이 무색하다. \(L\) 전체가 모형에 들어가면 marginal 효과를 묻는 것이 아니라 \(L\) 의 각 셀별 효과를 추정하는 것이라 conditional 모형이다. MSM 의 본질은 \(L\) 을 가중으로 처리하고 모형은 효과 수정 변수만 명시적으로 두는 것 — 분리의 미학.

2.6 효과 수정 vs 교란 — 다시 한 번

항목 교란(confounding) 효과 수정(effect modification)
정체 \(L \to A, L \to Y\) 의 공통 원인 효과의 그룹별 이질성
처리 보정으로 제거 모형에 명시적 표현
도구 IPW, 표준화, matching MSM + product term
데이터 의존 데이터 분포의 인공물 진짜 인과 구조의 일부
결정 DAG · 도메인 지식 사후 분석에서 발견 가능

직관 — 같은 변수가 둘 다일 수 있다: 성별이 \(A\) 결정과 \(Y\) 결정 모두에 영향을 주면 교란. 동시에 효과가 성별로 다르면 효과 수정. 두 역할은 양립한다 — 회귀에서 보정도 하고 product term 도 둔다.

3 12.6 Censoring 과 결측 데이터

3.1 결측이 만드는 선택 편향

NHEFS 의 1629 명 베이스라인 흡연자 중 1566 명만 1982 체중 측정이 있다. 63 명은 결과 변수 \(Y\) 가 결측. 결측 환자를 분석에서 제외하면

  • 남은 1566 명은 \(Y\)관측된 부분 표본 (selection on outcome).
  • 처치와 결과 결측이 연관 있으면 (\(A \to C\)) 또는 결과 예측 변수와 결측이 연관 있으면 (\(L \to C\)) 남은 표본에서 추정값이 모집단 인과 효과와 다르다.
NHEFS 의 censoring 패턴 (Hernan, 12.6)
  • 처치-결측 연관: 금연자 중 5.8% censored, 비금연자 중 3.2% censored.
  • 공변량-결측 연관: censored 환자의 baseline 체중 평균 76.6kg vs uncensored 70.8kg.

→ Selection bias 위험 존재.

직관 — Selection bias 의 메커니즘: 결측 (\(C=1\)) 이 처치와 결과 모두에 의존하면, 남은 표본은 처치-결과 관계의 특정 단면만 보여준다. DAG 에서 \(C\)\(A\)\(Y\) 의 collider 이고 \(C\) 에 대한 conditioning 이 새 path 를 활성화 — Ch.8 의 핵심 결론.

3.2 인과 추정 대상의 재정의

원래 추정 대상: \(\mathrm{E}[Y^{a=1}] - \mathrm{E}[Y^{a=0}]\).

결측 보정 후 추정 대상: \(\mathrm{E}[Y^{a=1, c=0}] - \mathrm{E}[Y^{a=0, c=0}]\) — “모두 처치 받았고 아무도 결측 안 됐을 때의 평균 결과 차이”.

이는 처치 \(A\) 와 censoring \(C\)결합 효과.

직관 — ‘c=0’ superscript 의 의미: “censoring 도 인과 처치처럼 다룬다” 는 발상. 사람들에게 “결과를 측정한다” 는 처치를 강제로 부여한 가상 시나리오 — 모두 측정됐으니 결측이 없는 가상 모집단. 이 양이 전체 인과 효과의 의미 있는 정의이다.

3.3 결합 가중치 \(W^{A,C}\)

\[W^{A,C} = W^A \times W^C, \qquad W^C = \frac{1}{\Pr(C=0 | L, A)}\]

\(C=0\) 인 환자에게만 부여 (censored 환자는 \(W^{A,C} = 0\), 즉 분석에서 제외).

\(W^{A,C}\) 의 두 단계 분해

\(f(A, C=0 | L) = f(A | L) \times \Pr(C=0 | L, A)\) 이므로

\[W^{A,C} = \frac{1}{f(A|L) \cdot \Pr(C=0|L,A)} = \frac{1}{f(A|L)} \cdot \frac{1}{\Pr(C=0|L,A)} = W^A \cdot W^C\]

직관 — 곱 가중의 의미: 처치 가중과 censoring 가중이 독립적으로 작용해 곱셈으로 결합. 만약 어떤 환자의 \(W^A = 5, W^C = 2\) 이면 그 환자는 가상 모집단에서 10 명처럼 가중된다 — 처치 받기 어려웠고 + 결측 위험도 컸던 사람일수록 가중치가 크다.

3.4 안정화 censoring 가중치

\[SW^C = \frac{\Pr(C=0 | A)}{\Pr(C=0 | L, A)}, \qquad SW^{A,C} = SW^A \cdot SW^C\]

가상 모집단 크기는 \(SW^A\) 의 효과로 원 표본 크기와 같음. NHEFS 에서 \(SW^{A,C} \in [0.35, 4.09]\), 평균 1.00.

3.5 Logistic 회귀로 \(\Pr(C=0|L,A)\) 추정

처치 모형과 같은 9 개 보정 변수로 logistic 회귀를 적합. 추정 후 \(\widehat{W^C}\) 계산.

NHEFS 에서 \(W^{A,C}\) 적용 후

\[\widehat{\theta}_1 = 3.5 \text{ kg}, \quad 95\%\text{ CI} = (2.5, 4.5)\]

단독 \(W^A\) 의 3.4kg 와 거의 같음. 이는 censoring 으로 인한 선택 편향이 측정 변수로 보정 가능 한 한도에서 작거나, 또는 측정 변수가 그 편향을 잡지 못함 을 시사.

직관 — 결과 안정성의 두 해석: 단독 IPW 와 결합 IPW 결과가 같으면 (a) 진짜 selection bias 가 거의 없거나, (b) 측정된 \(L\) 이 censoring 과정을 잘 모형화하지 못해서 보정이 작동 안 했다. 두 가능성을 데이터만으로 구별 불가 — sensitivity analysis 가 필요.

3.6 가정의 점검

\(W^{A,C}\) 의 식별 가정
  • 결합 교환가능성: \(Y^{a, c=0} \perp\!\!\!\perp (A, C) | L\).
  • 결합 양의 확률: \(\Pr(A=a, C=0 | L=l) > 0\) 모든 \(l\) 에서.
  • 일관성: 관측된 \(Y\)\(A=a, C=0\) 일 때 \(Y^{a, c=0}\) 와 일치.
  • 두 모형 모두 옳음: \(f(A|L)\) 의 logistic + \(\Pr(C=0|L,A)\) 의 logistic.

이 중 어느 하나가 깨지면 결합 추정량이 편향.

직관 — 두 모형 의존성: IPW 만 사용하면 처치 모형 1 개의 misspecification 위험. IPW + censoring weight 는 모형 2 개의 misspecification 위험 — 어느 한쪽이 잘못되어도 추정 편향. 이 위험을 줄이려면 doubly robust 추정량으로 결과 모형까지 결합 (Ch.18).

4 응용 분야

  • 임상시험 손실 (loss to follow-up): 결측 결과 보정
  • 종단 코호트의 dropout: 시간변동 censoring 가중 (Part III)
  • 온라인 실험의 user dropoff: A/B 테스트 결과 결측 보정
  • survey 의 응답 결측: weighted survey analysis 와 본질적 동일
  • EHR 의 후속 진료 결측: 의료 코호트 분석

5 코드 — 효과 수정 + censoring

import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

# 결측 포함 1629 명 표본
nhefs = pd.read_csv("nhefs.csv").reset_index(drop=True)
nhefs["censored"] = nhefs["wt82_71"].isna().astype(int)

# Step 1: propensity score on full 1629
ps_formula = (
    "qsmk ~ sex + race + C(education) + age + I(age**2) "
    "+ smokeintensity + I(smokeintensity**2) + smokeyrs + I(smokeyrs**2) "
    "+ C(exercise) + C(active) + wt71 + I(wt71**2)"
)
ps_model = smf.logit(ps_formula, data=nhefs).fit(disp=False)
nhefs["ps"] = ps_model.predict()

# Step 2: censoring 모형 — Pr(C=0 | L, A)
c_formula = ps_formula.replace("qsmk ~", "uncensored ~ qsmk + ")
nhefs["uncensored"] = 1 - nhefs["censored"]
c_model = smf.logit(c_formula, data=nhefs).fit(disp=False)
nhefs["pc"] = c_model.predict()

# Step 3: 결합 안정화 가중치
p_a = nhefs["qsmk"].mean()
p_c_given_a = (
    nhefs.groupby("qsmk")["uncensored"].transform("mean")
)
nhefs["sw_a"] = np.where(
    nhefs["qsmk"] == 1, p_a / nhefs["ps"], (1 - p_a) / (1 - nhefs["ps"])
)
nhefs["sw_c"] = p_c_given_a / nhefs["pc"]
nhefs["sw_ac"] = nhefs["sw_a"] * nhefs["sw_c"]

# Step 4: uncensored 부분 표본에서 가중 회귀
sub = nhefs[nhefs["censored"] == 0].copy()
X = sm.add_constant(sub["qsmk"])
gee = sm.WLS(sub["wt82_71"], X, weights=sub["sw_ac"]).fit(cov_type="HC0")
print(gee.params)             # qsmk ~3.5
print(gee.conf_int(alpha=0.05))   # (~2.5, ~4.5)

# Step 5: 효과 수정 — 성별
sub["sex_qsmk"] = sub["sex"] * sub["qsmk"]
X_em = sm.add_constant(sub[["qsmk", "sex_qsmk", "sex"]])
em = sm.WLS(sub["wt82_71"], X_em, weights=sub["sw_ac"]).fit(cov_type="HC0")
print(em.params)
# const ~1.78, qsmk ~3.52, sex_qsmk ~-0.15, sex ~-1.61
print(em.conf_int(alpha=0.05).loc["sex_qsmk"])   # (-2.2, 1.9)

6 Censoring 가정의 두 종류

MAR vs MNAR vs MCAR
  • MCAR (Missing Completely At Random): 결측이 완전 무작위. 어떤 변수와도 무관.
  • MAR (Missing At Random): 결측이 관측된 변수에 의존하지만 결측된 값 자체에는 의존 안 함. \(\Pr(C=1 | L, A, Y) = \Pr(C=1 | L, A)\).
  • MNAR (Missing Not At Random): 결측이 결측된 값에도 의존. \(\Pr(C=1 | L, A, Y)\)\(Y\) 에 의존.

IPW censoring 보정은 MAR 가정 아래에서만 작동한다.

직관 — MAR 가정의 의미: 1982 체중 결측 여부가 그 사람의 1982 체중 자체에 의존하면 (예: 체중이 늘어난 사람이 부끄러워서 응답 안 함) MAR 가 깨지고 IPW 보정 불가능. 측정된 \(L\) 만으로는 결측 패턴을 완전히 설명할 수 없다 — sensitivity analysis 필수.

직관 — MAR 점검의 어려움: 결측된 \(Y\) 값은 관측되지 않으므로 MAR 를 데이터로 직접 검증 불가. 도메인 지식과 sensitivity analysis 로 우회 — “결측이 \(Y\) 에 약하게 의존했다면 결과가 어떻게 달라질까?” 같은 시나리오 분석.

7 두 처치의 상호작용 vs 효과 수정

흔한 혼동의 해소

두 처치 \(A\)\(B\) 가 모두 인과적으로 흥미로운 변수일 때 그 상호작용을 분석하려면 두 가중치를 결합:

\[W^{A, B} = \frac{1}{f(A, B | L)}\]

이는 두 처치의 상호작용 — 효과 수정과 다르다.

  • 효과 수정: \(V\) 가 처치가 아니지만 \(A\) 의 효과가 \(V\) 에 따라 다름. \(V\) 의 인과 효과는 묻지 않음.
  • 두 처치 상호작용: \(A\)\(B\) 모두의 인과 효과를 결합 모델링.

후자는 결합 교환가능성·양의 확률·일관성을 두 처치 모두에 가정해야 한다.

직관 — V 의 인과적 지위가 결정: 사용자 성별이 V 라면, 성별이 광고 효과를 다르게 만들지만 성별 자체를 처치하는 게 아니다 — 효과 수정. UI 변경 + 가격 변경처럼 둘 다 디자인 가능한 처치이면 두 처치의 상호작용. 연구자가 무엇을 처치할 수 있는가 가 분석 형태를 결정한다.

8 가중치 결합의 일반화

Part III 의 시간변동 가중치 미리보기

시간 \(t = 0, 1, \ldots, T\) 의 각 시점에서 처치 \(A_t\) 와 censoring \(C_t\) 가 발생하면

\[W = \prod_{t=0}^{T} \frac{1}{f(A_t | \bar{L}_t, \bar{A}_{t-1})} \cdot \prod_{t=0}^{T} \frac{1}{\Pr(C_t = 0 | \bar{L}_t, \bar{A}_t)}\]

가중치가 시점마다 곱해진다. 분포가 길수록 (T 클수록) 가중치가 폭발할 수 있어 안정화가 필수.

직관 — 시간변동 가중의 곱셈 효과: 한 시점의 misspecification 이 작아도 \(T=10\) 시점에서 누적되면 큰 편향. Part III 의 g-formula·g-estimation 도 같은 동기 — 곱셈 누적을 피해 단일 모형으로 다루는 대안.

9 한 줄 요약

효과 수정 변수 \(V\) 를 MSM 에 product term 으로 더해 그룹별 효과를 추정한다. 가중치 분자에 \(f(A|V)\) 를 두면 효율 향상. NHEFS 에서 성별 효과 수정 증거 약함. 결과 결측은 \(W^{A,C} = W^A \times W^C\) 의 결합 가중으로 보정한다. 모형 2 개의 옳음을 모두 가정해야 일치성 보장. Part III 의 시간변동 가중치는 같은 원리의 시간 차원 확장.

10 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

11 A/B 테스트와의 연결

IT 실험에서 IPW 가 의미 있을 때
  • 자연 실험·관찰 데이터: 무작위 배정이 안 되거나 깨졌을 때.
  • A/A 의 비순응 검토: 비순응자의 self-selection 보정.
  • 장기 효과 추정: 단기 RCT 데이터로 장기 결과를 외삽할 때 (관찰 부분 통합).
  • Cohort 효과: 사용자 가입 시기에 따른 baseline 차이 보정.
  • Quasi-experimental 분석: DiD·RDD 와 결합한 보강 도구.

순수 무작위 배정이 잘 작동하는 일반 A/B 테스트에서는 IPW 가 불필요하지만, 실무의 거의 모든 인과 분석은 어딘가에서 무작위성이 깨진다 — IPW 는 그 보정의 핵심 도구이다.

직관 — IT 실무에서 IPW 의 중요성: A/B 테스트가 깨지는 흔한 시나리오는 (1) interleaved rollout 으로 처치-시간 confound (2) opt-in user 의 self-selection (3) 결과 측정 결측. 이 세 시나리오 모두 IPW 또는 그 변형으로 보정 가능하다 — 인과 추론 도구 상자의 표준 장비.

Subscribe

Enjoy this blog? Get notified of new posts by email: