Kwangmin Kim - Propensity·Structural·Predictive 모형의 차이

1 정의

세 가지 모형의 분류

Propensity model: \(\Pr(A=1|L)\) 의 모형. 모수는 nuisance — 인과 의미 없음. - 활용: IPW, matching, stratification, g-estimation 의 처치 모형.

Structural model: \(\mathrm{E}[Y^a]\) 또는 \(\mathrm{E}[Y^a - Y^{a=0}|L]\) 의 모형. 모수는 인과 효과. - 활용: MSM (Ch.12), SNMM (Ch.14), faux MSM (Ch.13, 15.1).

Predictive model: \(\mathrm{E}[Y|X]\) 의 모형. 모수는 예측 도구 — 인과 의미 없음. - 활용: 비즈니스 예측, 의료 진단, 추천 시스템.

직관 — 같은 회귀의 세 가지 다른 의미: Logistic 회귀 한 줄이 propensity 모형(처치 결정), structural model 의 nuisance(faux MSM), predictive model(고객 분류) 로 동시에 사용 가능. 같은 산술이 다른 인과적 지위를 갖는다 — 모형의 의미는 모수의 인과적 해석에 달려 있다.

2 15.5 세 모형의 비교

2.1 모수의 인과적 의미

모형	모수	인과적 의미	검증 가능성
Propensity	\(\Pr(A=1\|L)\) 의 logistic 계수	없음 (nuisance)	데이터에서 검증 가능
Structural	\(\mathrm{E}[Y^a]\) 의 함수 모수	있음	식별 가정 위에서 검증 가능
Predictive	\(\mathrm{E}[Y\|X]\) 의 함수 모수	없음	데이터에서 검증 가능

직관 — Nuisance 의 의미: Propensity 모수 \(\alpha_2\) 가 0.5 라는 사실 자체는 처치 효과 추정에 직접 관계 없다. Nuisance 는 추정 절차의 경유지 — “처치 결정 메커니즘이 어떻게 생겼는지” 의 도구. 인과 모수 \(\beta\) 의 추정에 도움.

직관 — 같은 정확도, 다른 의미: Propensity 모형이 처치를 정확히 예측 (AUC = 0.9) 한다고 인과 분석이 정확한 것은 아님. 모형의 평가 기준이 모형의 의미에 따라 다르다.

2.2 변수 선택의 본질적 차이

인과 분석에 예측 변수 선택 절차의 위험

forward selection, backward elimination, stepwise selection, lasso, neural network 등의 변수 선택 절차는 예측 정확도를 최적화 한다. 인과 분석에 직접 적용 시:

충돌자 포함 → 새 편향 (Berkson, M-bias).
매개자 포함 → 효과 일부 차단 (over-adjustment).
bias amplification → 미관측 교란 영향 증폭.
Variance 폭발 → 매우 strong predictor 가 propensity 가 0/1 에 가까움 → overlap 손실.

해결책: DAG 분석으로 변수 선택, 그 후 모형 적합. 통계가 아닌 인과 그래프의 영역.

직관 — 충돌자(collider) 포함의 자기파괴: 변수 \(C\) 가 \(A\) 와 \(Y\) 의 공통 결과 (예: “병원 입원 여부” 가 처치와 결과의 결과) 면 \(C\) 보정 시 새 backdoor 가 생긴다. 보정 안 하는 것이 정답. 그러나 예측 모형의 변수 선택은 \(C\) 가 \(A\) 또는 \(Y\) 와 강한 연관을 가지면 자동 포함 — 인과적으로 잘못된 선택.

직관 — 매개자(mediator) 포함: 처치가 영향 준 변수 \(M\) (\(A \to M \to Y\)) 를 보정하면 처치-매개자 경로의 효과가 차단됨. ATE 의 일부만 추정 — over-adjustment. 예측에는 도움 되지만 인과 분석에는 해.

2.3 Bias Amplification 의 사례

극단 예시 (Hernan): 환자가 두 병원 (Aceso vs Panacea) 중 하나에 간다고 하자. - Aceso: 99% 의 환자에게 처치 (\(A=1\)). - Panacea: 99% 의 환자에게 비처치 (\(A=0\)).

병원이 결과에 직접 영향이 없으면 보정 변수에 포함할 필요 없음. 그러나 변수 선택 절차가 병원을 “처치를 잘 예측” 한다는 이유로 포함 → propensity 가 거의 0 또는 1 → overlap 손실 → variance 폭발.

직관 — 강한 처치 예측자 ≠ 보정해야 할 교란자: 두 개념이 다르다. 강한 예측자는 propensity 분리도를 높이지만 (예측에 좋음), 인과 분석에는 단점 (overlap 손실). 인과 분석에서 propensity 분리도는 적당히 낮은 것이 더 좋다.

2.4 ML 알고리즘 적용 시 주의

ML 의 인과 분석 응용

표준 ML (random forest, gradient boosting, lasso) 은 예측 정확도 최적화. 인과 분석에 직접 적용:

변수 선택의 위험 (위와 같음).
정규화 편향 (lasso 의 shrinkage 가 인과 모수에도 작용).
비대칭 모형 (deep learning 의 hyperparameter 선택).

해결책: Doubly robust ML (Chernozhukov et al. 2018) — Ch.18 의 핵심 도구. 두 모형 모두에 ML 적용 + cross-fitting 으로 정규화 편향 제거.

직관 — DR ML 의 비밀: 정규화 ML 의 편향을 두 모형의 결합으로 자동 상쇄. 한 모형의 편향이 다른 모형의 잔차에서 0 으로 평균. 단순 ML 도입은 위험, DR ML 은 안전.

3 Outcome Regression 의 dual use 의 위험

Outcome regression 이 인과 분석과 예측 모두에 사용되면서 흔한 오해:

오해	진실
“예측 정확도 높은 모형 = 인과 추정 정확”	거짓 — 예측 ≠ 인과
“변수 추가가 항상 좋다”	거짓 — 충돌자·매개자 위험
“AIC 가 낮은 모형이 좋다”	인과에는 미미 — DAG 가 우선
“AUC 높은 propensity 가 좋다”	거짓 — overlap 손실 위험
“ML 이 통계 회귀보다 robust”	인과에는 거짓 — DR 결합 필요

직관 — 통계 교과서의 한계: 표준 통계 교과서는 예측을 가르치지만 인과 분석을 명시적으로 구별하지 않는 경우가 많다. 변수 선택 절차의 자동 적용은 인과 분석에서 흔한 함정. Hernan 의 강조는 이 함정의 인식.

4 변수 선택의 올바른 절차

인과 분석을 위한 변수 선택 절차

Step 1: DAG 분석 — 처치 \(A\), 결과 \(Y\), 측정된 변수 \(L\) 들의 인과 관계 그림.

Step 2: 각 변수의 역할 식별: - 교란자 (confounder): 보정 필요. - 매개자 (mediator): 보정 안 함 (효과 차단 위험). - 충돌자 (collider): 보정 안 함 (새 편향). - 도구 (instrument): 도구변수 분석에 사용. - 효과 수정자: 모형에 product term.

Step 3: Backdoor criterion 확인 — 보정해야 할 최소 변수 집합.

Step 4: 함수 형태 결정 (linear, spline, interaction).

Step 5: 적합 후 진단 (overlap, balance, residuals).

직관 — Step 1 의 도전: DAG 작성은 도메인 지식 + 가정. 같은 데이터에 다른 DAG 가 가능. Sensitivity analysis 로 다양한 DAG 시나리오 점검. 변수 선택의 모호성은 데이터가 아닌 가정의 문제.

직관 — 백도어 기준의 단순 의미: 처치-결과 경로 중 backdoor 경로 (처치를 향하는 화살표로 시작) 를 모두 차단하는 변수 집합. 이 집합 보정으로 confounding 제거. PS 가 이 집합의 정보를 1 차원으로 압축한 형태.

5 Predictive Model 과의 본질적 분리

데이터 사이언스 협업의 흔한 함정

데이터 사이언티스트가 “AUC 0.95 의 모형으로 처치를 정확히 예측” 한다고 자랑할 때, 인과 분석가는 경고해야 한다 — “그 모형이 인과 분석에는 부적합”.

높은 AUC = strong predictor 포함 = overlap 손실 위험. 정밀한 예측이 인과 분석의 정확도를 보장하지 않는다.

직관 — 학제 간 협업의 명확화: ML 엔지니어와 인과 분석가가 같은 데이터에 다른 목표. “이 변수가 처치 예측에 도움” 이 ML 엔지니어의 신호, “이 변수가 confounder 인지” 가 인과 분석가의 신호. 협업 시 목표의 명시가 필수.

6 응용 분야

임상 코호트 분석: DAG → propensity → matching/regression
공중보건 정책 평가: 변수 선택의 도메인 의존성
마케팅 attribution: ML 적용 시 DR 결합 필수
의약품 안전성 (PV): regulator 가 DAG 명시 요구
A/B 테스트 보정: pre-experiment 변수만 (post-experiment 은 충돌자 위험)

7 코드 — 변수 선택의 위험 시뮬레이션

import numpy as np
import pandas as pd
import statsmodels.formula.api as smf

# 시뮬레이션: collider 보정의 위험
np.random.seed(42)
n = 1000
L = np.random.normal(0, 1, n)
A = (L + np.random.normal(0, 1, n) > 0).astype(int)
Y = 2 * A + L + np.random.normal(0, 1, n)
C = A + Y + np.random.normal(0, 1, n)   # 충돌자: A 와 Y 의 결과

df = pd.DataFrame({"A": A, "L": L, "Y": Y, "C": C})

# 1. 정상 회귀 (L 만 보정)
m1 = smf.ols("Y ~ A + L", data=df).fit()
print(f"L 만 보정: A 효과 = {m1.params['A']:.3f} (진짜 = 2)")

# 2. C 도 보정 (충돌자!)
m2 = smf.ols("Y ~ A + L + C", data=df).fit()
print(f"L + C 보정: A 효과 = {m2.params['A']:.3f} (편향됨)")

# 3. 변수 선택 절차 (예: stepwise — 여기는 간단히 둘 다 포함)
# stepwise 는 C 가 Y 예측에 강하게 기여하므로 자동 포함 → 편향

8 통계 vs 인과 분석의 인식 전환

Hernan 의 메시지

“통계 분석에서 변수 선택 절차는 예측을 위한 도구다. 인과 분석에서는 도메인 지식과 DAG 가 변수 선택의 first authority 다. 이 구별을 흐리는 통계 교과서가 인과 분석의 흔한 함정의 원천.”

직관 — 학제의 정직한 인식: 데이터 분석가가 통계 도구를 자유 자재로 다뤄도, 인과 분석에서는 “어떤 변수를 왜 포함하는가?” 의 질문에 도메인 답이 필요. 통계의 자동화 절차가 그 답을 대체할 수 없다.

9 한 줄 요약

Propensity·structural·predictive 모형은 모수의 인과적 의미가 본질적으로 다르다. 변수 선택 절차 (stepwise, lasso, random forest) 의 자동 적용은 인과 분석에 위험 — 충돌자·매개자 포함, bias amplification, overlap 손실. DAG 분석이 변수 선택의 first authority. ML 적용은 doubly robust 결합으로 안전화. 통계 도구와 인과 분석의 인식적 분리 가 Ch.15 의 핵심 메시지.

10 관련 주제

선행 지식

후속 주제

다른 카테고리 연결