Kwangmin Kim - 효과 수정 MSM과 censoring 보정

1 정의

정의: 효과 수정 (Effect Modification)

처치 \(A\) 의 인과 효과가 다른 변수 \(V\) 의 값에 따라 달라지면 효과 수정이라 한다 (역학) / heterogeneous treatment effect (HTE, IT 용어). 형식적으로

\[\mathrm{E}[Y^{a=1} - Y^{a=0} | V=v] \neq \mathrm{E}[Y^{a=1} - Y^{a=0} | V=v']\]

이면 \(V\) 가 효과 수정 변수.

정의: Censoring 가중치

결측 결과의 선택 편향을 보정하는 가중치.

\[W^C = \frac{1}{\Pr(C=0|L,A)}, \qquad SW^C = \frac{\Pr(C=0|A)}{\Pr(C=0|L,A)}\]

\(C=0\) 인 (uncensored) 환자에게만 부여되며, \(C=1\) 인 환자는 가중치 0 이라 분석에서 사실상 제외.

직관 — 효과 수정과 교란의 차이: 둘 다 회귀에서 다른 변수가 \(A\)-\(Y\) 관계에 영향을 주지만 메커니즘이 다르다. 교란은 \(A\) 와 \(Y\) 모두에 인과적으로 영향을 주는 변수(\(L \to A, L \to Y\)) — 보정 안 하면 편향. 효과 수정은 \(A\) 의 효과 자체가 그룹별로 다른 현상 — 보정의 문제가 아니라 모형의 표현력 문제. 효과 수정은 발견하면 결과 보고에 반영하지만, 교란은 보정으로 제거.

2 12.5 효과 수정과 MSM

2.1 효과 수정을 표현하는 MSM 확장

성별 \(V \in \{0(남), 1(여)\}\) 같은 한 변수의 효과 수정을 모형에 명시적으로 표현:

\[\mathrm{E}[Y^a | V] = \beta_0 + \beta_1 a + \beta_2 V a + \beta_3 V\]

모수	의미
\(\beta_0\)	\(V=0\), \(a=0\) 일 때 평균 결과
\(\beta_1\)	\(V=0\) 그룹의 평균 인과 효과
\(\beta_2\)	\(V=1\) vs \(V=0\) 그룹의 효과 차이 (\(\beta_2 \neq 0\) 이면 효과 수정)
\(\beta_3\)	\(V\) 의 결과에 대한 baseline 효과 (인과적 의미는 보장 X)

2.2 엄밀히는 conditional model 이지만 MSM 이라 부른다

Hernan 의 표기 관습에서 \(\mathrm{E}[Y^a | V]\) 는 \(V\) 에 조건부이므로 엄밀히는 conditional SMM 이다. 그러나 효과 수정 변수가 명시적으로 들어 있을 뿐 다른 보정 변수 \(L \setminus V\) 는 가중으로 처리하므로 marginal 의 정신을 유지한다 — 관습상 marginal structural model 로 부른다.

직관 — 진짜 conditional 과의 차이: 진짜 conditional SMM 은 \(L\) 의 모든 변수를 모형 안에 직접 넣는다 (회귀 보정). 효과 수정 MSM 은 \(V\) 만 모형 안에 두고 나머지는 가중으로 처리 — “marginal 분석 + 한 변수 명시적 표현” 의 절충 형태.

2.3 가중치 분자 선택의 효율 이득

효과 수정 분석에서 가중치는 두 가지 선택:

분자	가중치	효율
\(f(A)\)	\(SW^A = f(A)/f(A\|L)\)	표준
\(f(A\|V)\)	\(SW^A(V) = f(A\|V)/f(A\|L)\)	더 효율적

두 가중치 모두 \(A \perp\!\!\!\perp L \setminus V | V\) 조건을 가상 모집단에서 만든다 — 즉 \(V\) 외의 보정 변수가 처치 결정과 독립이 된다. 효과 수정 모형의 입장에서 두 가중치는 동등하지만 \(SW^A(V)\) 가 보통 더 좁은 분산을 가진다.

직관 — 분자에 \(V\) 를 넣는 이유: \(V\) 는 효과 수정 변수로 모형에 이미 들어와 있다. 가중치가 \(V\) 의 처치 분포까지 균등화할 필요 없이, \(V\) 외의 \(L\) 만 균등화하면 된다. 그러면 가중치 분포의 변동이 줄어든다 — 같은 인과 정보를 더 좁은 분포로 전달.

직관 — 효율 이득의 산술적 근거: 두 가중치는 같은 분모를 갖고 분자만 다르다. \(f(A|V)\) 는 \(f(A)\) 보다 \(V\) 의 정보로 condition 된 좁은 분포 → 가중치 비율 \(f(A|V)/f(A)\) 가 1 근처에 집중 → 가중치 자체의 변동성 감소. 분산이 평균 가중치의 제곱과 가중치 분산의 합으로 나오므로 효율이 올라간다.

2.4 NHEFS 의 효과 수정 분석

성별 \(V\) 에 따른 흡연 중단 효과의 차이 검정. NHEFS 사례에서

\[\widehat{\beta}_2 = -0.15, \quad 95\%\text{ CI} = (-2.2, 1.9)\]

CI 가 0 을 포함하므로 효과 수정의 통계적 증거 약함. 남녀 효과 차이가 있다고 결론 내릴 근거가 부족하다.

직관 — Null 결론의 한계: “효과 수정 없다” 는 결론은 \(\beta_2\) 에 대한 검정의 기각 실패 — 효과 수정의 부재를 증명한 게 아니라 증거가 부족함 을 의미. 표본이 충분히 크지 않거나 효과 차이가 작아도 같은 결과가 나온다. 95% CI 폭 ±2.0kg 는 의미 있는 효과 차이를 배제하기에 너무 넓을 수 있다.

2.5 Faux MSM — \(L\) 전체를 모형에 넣으면

정의: Faux Marginal Structural Model

MSM 에 모든 보정 변수 \(L\) 을 효과 수정 항으로 넣으면 가중치가 모두 1 이 된다 (가상 모집단 변환이 불필요). 이 경우 가중 회귀가 아닌 일반 outcome regression (Ch.15) 과 같다 — 실질적으로 표준화·g-formula 의 특수 경우.

직관 — Faux MSM 의 농담: Hernan 은 약간의 유머로 이를 “faux MSM” 이라 부른다 — “marginal” 이라는 이름이 무색하다. \(L\) 전체가 모형에 들어가면 marginal 효과를 묻는 것이 아니라 \(L\) 의 각 셀별 효과를 추정하는 것이라 conditional 모형이다. MSM 의 본질은 \(L\) 을 가중으로 처리하고 모형은 효과 수정 변수만 명시적으로 두는 것 — 분리의 미학.

2.6 효과 수정 vs 교란 — 다시 한 번

항목	교란(confounding)	효과 수정(effect modification)
정체	\(L \to A, L \to Y\) 의 공통 원인	효과의 그룹별 이질성
처리	보정으로 제거	모형에 명시적 표현
도구	IPW, 표준화, matching	MSM + product term
데이터 의존	데이터 분포의 인공물	진짜 인과 구조의 일부
결정	DAG · 도메인 지식	사후 분석에서 발견 가능

직관 — 같은 변수가 둘 다일 수 있다: 성별이 \(A\) 결정과 \(Y\) 결정 모두에 영향을 주면 교란. 동시에 효과가 성별로 다르면 효과 수정. 두 역할은 양립한다 — 회귀에서 보정도 하고 product term 도 둔다.

3 12.6 Censoring 과 결측 데이터

3.1 결측이 만드는 선택 편향

NHEFS 의 1629 명 베이스라인 흡연자 중 1566 명만 1982 체중 측정이 있다. 63 명은 결과 변수 \(Y\) 가 결측. 결측 환자를 분석에서 제외하면

남은 1566 명은 \(Y\) 가 관측된 부분 표본 (selection on outcome).
처치와 결과 결측이 연관 있으면 (\(A \to C\)) 또는 결과 예측 변수와 결측이 연관 있으면 (\(L \to C\)) 남은 표본에서 추정값이 모집단 인과 효과와 다르다.

NHEFS 의 censoring 패턴 (Hernan, 12.6)

처치-결측 연관: 금연자 중 5.8% censored, 비금연자 중 3.2% censored.
공변량-결측 연관: censored 환자의 baseline 체중 평균 76.6kg vs uncensored 70.8kg.

→ Selection bias 위험 존재.

직관 — Selection bias 의 메커니즘: 결측 (\(C=1\)) 이 처치와 결과 모두에 의존하면, 남은 표본은 처치-결과 관계의 특정 단면만 보여준다. DAG 에서 \(C\) 가 \(A\) 와 \(Y\) 의 collider 이고 \(C\) 에 대한 conditioning 이 새 path 를 활성화 — Ch.8 의 핵심 결론.

3.2 인과 추정 대상의 재정의

원래 추정 대상: \(\mathrm{E}[Y^{a=1}] - \mathrm{E}[Y^{a=0}]\).

결측 보정 후 추정 대상: \(\mathrm{E}[Y^{a=1, c=0}] - \mathrm{E}[Y^{a=0, c=0}]\) — “모두 처치 받았고 아무도 결측 안 됐을 때의 평균 결과 차이”.

이는 처치 \(A\) 와 censoring \(C\) 의 결합 효과.

직관 — ‘c=0’ superscript 의 의미: “censoring 도 인과 처치처럼 다룬다” 는 발상. 사람들에게 “결과를 측정한다” 는 처치를 강제로 부여한 가상 시나리오 — 모두 측정됐으니 결측이 없는 가상 모집단. 이 양이 전체 인과 효과의 의미 있는 정의이다.

3.3 결합 가중치 \(W^{A,C}\)

\[W^{A,C} = W^A \times W^C, \qquad W^C = \frac{1}{\Pr(C=0 | L, A)}\]

\(C=0\) 인 환자에게만 부여 (censored 환자는 \(W^{A,C} = 0\), 즉 분석에서 제외).

\(W^{A,C}\) 의 두 단계 분해

\(f(A, C=0 | L) = f(A | L) \times \Pr(C=0 | L, A)\) 이므로

\[W^{A,C} = \frac{1}{f(A|L) \cdot \Pr(C=0|L,A)} = \frac{1}{f(A|L)} \cdot \frac{1}{\Pr(C=0|L,A)} = W^A \cdot W^C\]

직관 — 곱 가중의 의미: 처치 가중과 censoring 가중이 독립적으로 작용해 곱셈으로 결합. 만약 어떤 환자의 \(W^A = 5, W^C = 2\) 이면 그 환자는 가상 모집단에서 10 명처럼 가중된다 — 처치 받기 어려웠고 + 결측 위험도 컸던 사람일수록 가중치가 크다.

3.4 안정화 censoring 가중치

\[SW^C = \frac{\Pr(C=0 | A)}{\Pr(C=0 | L, A)}, \qquad SW^{A,C} = SW^A \cdot SW^C\]

가상 모집단 크기는 \(SW^A\) 의 효과로 원 표본 크기와 같음. NHEFS 에서 \(SW^{A,C} \in [0.35, 4.09]\), 평균 1.00.

3.5 Logistic 회귀로 \(\Pr(C=0|L,A)\) 추정

처치 모형과 같은 9 개 보정 변수로 logistic 회귀를 적합. 추정 후 \(\widehat{W^C}\) 계산.

NHEFS 에서 \(W^{A,C}\) 적용 후

\[\widehat{\theta}_1 = 3.5 \text{ kg}, \quad 95\%\text{ CI} = (2.5, 4.5)\]

단독 \(W^A\) 의 3.4kg 와 거의 같음. 이는 censoring 으로 인한 선택 편향이 측정 변수로 보정 가능 한 한도에서 작거나, 또는 측정 변수가 그 편향을 잡지 못함 을 시사.

직관 — 결과 안정성의 두 해석: 단독 IPW 와 결합 IPW 결과가 같으면 (a) 진짜 selection bias 가 거의 없거나, (b) 측정된 \(L\) 이 censoring 과정을 잘 모형화하지 못해서 보정이 작동 안 했다. 두 가능성을 데이터만으로 구별 불가 — sensitivity analysis 가 필요.

3.6 가정의 점검

\(W^{A,C}\) 의 식별 가정

결합 교환가능성: \(Y^{a, c=0} \perp\!\!\!\perp (A, C) | L\).
결합 양의 확률: \(\Pr(A=a, C=0 | L=l) > 0\) 모든 \(l\) 에서.
일관성: 관측된 \(Y\) 가 \(A=a, C=0\) 일 때 \(Y^{a, c=0}\) 와 일치.
두 모형 모두 옳음: \(f(A|L)\) 의 logistic + \(\Pr(C=0|L,A)\) 의 logistic.

이 중 어느 하나가 깨지면 결합 추정량이 편향.

직관 — 두 모형 의존성: IPW 만 사용하면 처치 모형 1 개의 misspecification 위험. IPW + censoring weight 는 모형 2 개의 misspecification 위험 — 어느 한쪽이 잘못되어도 추정 편향. 이 위험을 줄이려면 doubly robust 추정량으로 결과 모형까지 결합 (Ch.18).

4 응용 분야

임상시험 손실 (loss to follow-up): 결측 결과 보정
종단 코호트의 dropout: 시간변동 censoring 가중 (Part III)
온라인 실험의 user dropoff: A/B 테스트 결과 결측 보정
survey 의 응답 결측: weighted survey analysis 와 본질적 동일
EHR 의 후속 진료 결측: 의료 코호트 분석

5 코드 — 효과 수정 + censoring

import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

# 결측 포함 1629 명 표본
nhefs = pd.read_csv("nhefs.csv").reset_index(drop=True)
nhefs["censored"] = nhefs["wt82_71"].isna().astype(int)

# Step 1: propensity score on full 1629
ps_formula = (
    "qsmk ~ sex + race + C(education) + age + I(age**2) "
    "+ smokeintensity + I(smokeintensity**2) + smokeyrs + I(smokeyrs**2) "
    "+ C(exercise) + C(active) + wt71 + I(wt71**2)"
)
ps_model = smf.logit(ps_formula, data=nhefs).fit(disp=False)
nhefs["ps"] = ps_model.predict()

# Step 2: censoring 모형 — Pr(C=0 | L, A)
c_formula = ps_formula.replace("qsmk ~", "uncensored ~ qsmk + ")
nhefs["uncensored"] = 1 - nhefs["censored"]
c_model = smf.logit(c_formula, data=nhefs).fit(disp=False)
nhefs["pc"] = c_model.predict()

# Step 3: 결합 안정화 가중치
p_a = nhefs["qsmk"].mean()
p_c_given_a = (
    nhefs.groupby("qsmk")["uncensored"].transform("mean")
)
nhefs["sw_a"] = np.where(
    nhefs["qsmk"] == 1, p_a / nhefs["ps"], (1 - p_a) / (1 - nhefs["ps"])
)
nhefs["sw_c"] = p_c_given_a / nhefs["pc"]
nhefs["sw_ac"] = nhefs["sw_a"] * nhefs["sw_c"]

# Step 4: uncensored 부분 표본에서 가중 회귀
sub = nhefs[nhefs["censored"] == 0].copy()
X = sm.add_constant(sub["qsmk"])
gee = sm.WLS(sub["wt82_71"], X, weights=sub["sw_ac"]).fit(cov_type="HC0")
print(gee.params)             # qsmk ~3.5
print(gee.conf_int(alpha=0.05))   # (~2.5, ~4.5)

# Step 5: 효과 수정 — 성별
sub["sex_qsmk"] = sub["sex"] * sub["qsmk"]
X_em = sm.add_constant(sub[["qsmk", "sex_qsmk", "sex"]])
em = sm.WLS(sub["wt82_71"], X_em, weights=sub["sw_ac"]).fit(cov_type="HC0")
print(em.params)
# const ~1.78, qsmk ~3.52, sex_qsmk ~-0.15, sex ~-1.61
print(em.conf_int(alpha=0.05).loc["sex_qsmk"])   # (-2.2, 1.9)

6 Censoring 가정의 두 종류

MAR vs MNAR vs MCAR

MCAR (Missing Completely At Random): 결측이 완전 무작위. 어떤 변수와도 무관.
MAR (Missing At Random): 결측이 관측된 변수에 의존하지만 결측된 값 자체에는 의존 안 함. \(\Pr(C=1 | L, A, Y) = \Pr(C=1 | L, A)\).
MNAR (Missing Not At Random): 결측이 결측된 값에도 의존. \(\Pr(C=1 | L, A, Y)\) 가 \(Y\) 에 의존.

IPW censoring 보정은 MAR 가정 아래에서만 작동한다.

직관 — MAR 가정의 의미: 1982 체중 결측 여부가 그 사람의 1982 체중 자체에 의존하면 (예: 체중이 늘어난 사람이 부끄러워서 응답 안 함) MAR 가 깨지고 IPW 보정 불가능. 측정된 \(L\) 만으로는 결측 패턴을 완전히 설명할 수 없다 — sensitivity analysis 필수.

직관 — MAR 점검의 어려움: 결측된 \(Y\) 값은 관측되지 않으므로 MAR 를 데이터로 직접 검증 불가. 도메인 지식과 sensitivity analysis 로 우회 — “결측이 \(Y\) 에 약하게 의존했다면 결과가 어떻게 달라질까?” 같은 시나리오 분석.

7 두 처치의 상호작용 vs 효과 수정

흔한 혼동의 해소

두 처치 \(A\) 와 \(B\) 가 모두 인과적으로 흥미로운 변수일 때 그 상호작용을 분석하려면 두 가중치를 결합:

\[W^{A, B} = \frac{1}{f(A, B | L)}\]

이는 두 처치의 상호작용 — 효과 수정과 다르다.

효과 수정: \(V\) 가 처치가 아니지만 \(A\) 의 효과가 \(V\) 에 따라 다름. \(V\) 의 인과 효과는 묻지 않음.
두 처치 상호작용: \(A\) 와 \(B\) 모두의 인과 효과를 결합 모델링.

후자는 결합 교환가능성·양의 확률·일관성을 두 처치 모두에 가정해야 한다.

직관 — V 의 인과적 지위가 결정: 사용자 성별이 V 라면, 성별이 광고 효과를 다르게 만들지만 성별 자체를 처치하는 게 아니다 — 효과 수정. UI 변경 + 가격 변경처럼 둘 다 디자인 가능한 처치이면 두 처치의 상호작용. 연구자가 무엇을 처치할 수 있는가 가 분석 형태를 결정한다.

8 가중치 결합의 일반화

Part III 의 시간변동 가중치 미리보기

시간 \(t = 0, 1, \ldots, T\) 의 각 시점에서 처치 \(A_t\) 와 censoring \(C_t\) 가 발생하면

\[W = \prod_{t=0}^{T} \frac{1}{f(A_t | \bar{L}_t, \bar{A}_{t-1})} \cdot \prod_{t=0}^{T} \frac{1}{\Pr(C_t = 0 | \bar{L}_t, \bar{A}_t)}\]

가중치가 시점마다 곱해진다. 분포가 길수록 (T 클수록) 가중치가 폭발할 수 있어 안정화가 필수.

직관 — 시간변동 가중의 곱셈 효과: 한 시점의 misspecification 이 작아도 \(T=10\) 시점에서 누적되면 큰 편향. Part III 의 g-formula·g-estimation 도 같은 동기 — 곱셈 누적을 피해 단일 모형으로 다루는 대안.

9 한 줄 요약

효과 수정 변수 \(V\) 를 MSM 에 product term 으로 더해 그룹별 효과를 추정한다. 가중치 분자에 \(f(A|V)\) 를 두면 효율 향상. NHEFS 에서 성별 효과 수정 증거 약함. 결과 결측은 \(W^{A,C} = W^A \times W^C\) 의 결합 가중으로 보정한다. 모형 2 개의 옳음을 모두 가정해야 일치성 보장. Part III 의 시간변동 가중치는 같은 원리의 시간 차원 확장.

10 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

HTE 분석 — 효과 수정의 비모수 확장 (causal forest 등)
Missing data 와 MAR — censoring 의 통계적 기초

11 A/B 테스트와의 연결

IT 실험에서 IPW 가 의미 있을 때

자연 실험·관찰 데이터: 무작위 배정이 안 되거나 깨졌을 때.
A/A 의 비순응 검토: 비순응자의 self-selection 보정.
장기 효과 추정: 단기 RCT 데이터로 장기 결과를 외삽할 때 (관찰 부분 통합).
Cohort 효과: 사용자 가입 시기에 따른 baseline 차이 보정.
Quasi-experimental 분석: DiD·RDD 와 결합한 보강 도구.

순수 무작위 배정이 잘 작동하는 일반 A/B 테스트에서는 IPW 가 불필요하지만, 실무의 거의 모든 인과 분석은 어딘가에서 무작위성이 깨진다 — IPW 는 그 보정의 핵심 도구이다.

직관 — IT 실무에서 IPW 의 중요성: A/B 테스트가 깨지는 흔한 시나리오는 (1) interleaved rollout 으로 처치-시간 confound (2) opt-in user 의 self-selection (3) 결과 측정 결측. 이 세 시나리오 모두 IPW 또는 그 변형으로 보정 가능하다 — 인과 추론 도구 상자의 표준 장비.