Kwangmin Kim - 표준화 절차와 결과 모형 추정

1 정의

정의: 표준화 식별식 (with Censoring)

조건부 교환가능성 \(Y^{a, c=0} \perp\!\!\!\perp (A, C) | L\), 양의 확률, 일관성 아래

\[\mathrm{E}[Y^{a, c=0}] = \sum_l \mathrm{E}[Y | A=a, C=0, L=l] \, \Pr(L=l)\]

좌변이 잠재 결과의 평균(반사실), 우변이 관측 분포로 표현된 양 (식별식). 표준화는 우변을 데이터에서 추정한다.

정의: 결과 모형 (Outcome Model)

조건부 평균 \(\mathrm{E}[Y|A,C=0,L]\) 을 모수 모형(주로 선형 회귀)으로 적합한 것. NHEFS 사례에서 처치 + 9 개 보정 변수 + quadratic 항 + 일부 product term 으로 specification.

직관 — 식별식과 추정의 분리: 좌변(반사실 평균) 은 직접 관측 불가. 우변(관측 분포의 함수) 은 데이터에서 추정 가능. 식별식은 두 양을 같다고 선언하고, 추정은 우변을 계산하는 절차다. 식별 가정이 깨지면 좌우변이 같지 않고, 모형 가정이 깨지면 우변 추정이 부정확.

2 13.1 IPW 의 대안 — 표준화

2.1 IPW 와 표준화의 식별식 비교

식별식	추정 대상
IPW	\(\mathrm{E}[Y^a] = \mathrm{E}\left[\frac{\mathbb{1}\{A=a\} Y}{f(A\|L)}\right]\)
표준화	\(\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y\|A=a, L=l] \Pr(L=l)\)

두 식이 같은 양을 표현하는 두 가지 방법이라는 점이 핵심이다 (Hernan, Technical Point 2.3).

직관 — 같은 인과량의 두 표현: IPW 는 “처치 받은 사람의 결과를 처치 확률로 나누어 평균”, 표준화는 “\(L\) 의 각 셀에서 처치 받은 사람의 평균을 셀의 비율로 가중 평균”. 두 절차의 산술이 다르지만 진짜 분포에서는 같은 결과로 수렴.

2.2 Censoring 을 결합한 표준화

NHEFS 의 1629 명 baseline 흡연자 중 1566 명만 1982 체중 측정. 결합 효과 \(\mathrm{E}[Y^{a, c=0}]\) 의 식별식은

\[\mathrm{E}[Y^{a, c=0}] = \sum_l \mathrm{E}[Y | A=a, C=0, L=l] \Pr(L=l)\]

조건부 분포 \(\Pr(L=l)\) 가 censoring 전 모집단의 분포라는 점이 중요하다 — 실용적으로 \(L\) 이 처치에 영향 받지 않으면 1629 명 표본의 분포로 직접 추정.

직관 — censoring 의 통합: 결과 모형에 \(C=0\) 조건을 추가해 적합한 후 같은 표본 분포로 평균. censoring 보정이 결과 모형의 specification 안에 자연스럽게 들어간다 — IPW 처럼 별도 가중치를 곱할 필요 없음.

2.3 양의 확률 위반에 대한 robustness

표준화의 외삽 가능성

\(\Pr(A=a|L=l) = 0\) 인 셀에서 IPW 는 \(1/0\) 으로 정의되지 않는다. 표준화는 결과 모형이 그 셀의 \(\mathrm{E}[Y|A=a, L=l]\) 을 함수 형태로 외삽해 추정 가능 (Hernan, Fine Point 13.1).

단, 이 외삽치의 옳음은 결과 모형이 그 영역에서도 옳다는 강한 가정에 의존한다.

직관 — IPW 가 침묵하는 곳에서 표준화가 말한다: 양의 확률 위반은 정보가 없는 영역. IPW 는 “정의되지 않음” 으로 침묵, 표준화는 “회귀 외삽” 으로 답변. 답이 있다고 옳은 답은 아니다 — 외삽 의존성이 명시되지 않은 표준화 결과는 위험.

직관 — 구조적 vs 무작위 위반: 구조적 위반(특정 \(L\) 에서 처치 원리적으로 불가능) 에서는 표준화의 외삽이 도덕적·실무적으로 의미 없다. 무작위 위반(우연히 표본에 빈 셀) 에서는 외삽이 합리적. 둘을 구별하는 것이 표준화 결과 신뢰의 첫 단계.

3 13.2 결과 모형 추정

3.1 비모수 표준화의 한계

이상적으로 \(\mathrm{E}[Y|A=a, C=0, L=l]\) 의 각 셀별 표본 평균을 직접 계산. NHEFS 의 9 개 보정 변수에서는 셀이 200 만 개를 넘어 평균 0~1 명 — 비모수 추정 불가능.

직관 — Ch.12 와 같은 동기: high-dimensional 보정에서는 셀 추정이 무너진다. Ch.12 는 이를 처치 모형으로 해결, Ch.13 은 결과 모형으로 해결한다 — 다른 모형으로 같은 한계를 우회.

3.2 선형 결과 모형 specification

Hernan 의 Program 13.1 모형:

\[\mathrm{E}[Y | A, C=0, L] = \beta_0 + \beta_1 A + \beta_2 (A \times \text{smokeintensity}) + \boldsymbol\beta_L^\top L + \boldsymbol\beta_{L^2}^\top L^2\]

핵심 specification 결정:

결정	내용	함의
9 개 보정 변수 모두 포함	sex, race, age, education, smokeintensity, smokeyrs, exercise, active, wt71	confounding 보정
Quadratic 항	age, smokeintensity, smokeyrs, wt71 의 \(L^2\)	비선형 관계 일부 포착
Product term	\(A \times \text{smokeintensity}\) 만 추가	처치 효과가 baseline 흡연량에 따라 달라질 가능성
다른 product term 없음	변수 간 상호작용 가정 안 함	단순성

직관 — Product term 의 선택: 흡연량이 많은 사람이 끊으면 체중 증가가 더 클까? 도메인 지식상 합리적 가설이라 모형에 반영. 다른 변수와 처치의 상호작용은 도메인 가설이 약하므로 제외. 모형 specification 은 통계가 아닌 도메인 의사결정.

직관 — Quadratic 의 효과: 나이가 1 살 늘 때 체중 변화가 일정한 속도로 감소(직선) 가 아니라, 어린 나이에는 빠르게 감소하다 노인에서 평탄해질 수 있다(곡선). Quadratic 항은 이 곡선을 허용한다.

3.3 적합 결과의 진단

NHEFS 적합 결과:

추정 평균 결과: 2.6 kg (관측 표본 평균과 같음 — sanity check 통과)
예측치 범위: -41.3 kg 부터 48.5 kg
한 환자 예시: 비금연 백인 남성 26 세, 대학 중퇴, 15 개비/일, 12 년 흡연, 운동·활동 활발, baseline 체중 112 kg → 예측 체중 변화 0.34 kg.

직관 — 표본 평균 일치의 의미: 회귀 적합값의 표본 평균이 관측 평균과 같은 것은 OLS 의 자연스러운 성질 (절편이 두 값을 일치시키도록 결정됨). 모형이 합리적임을 확인하는 첫 진단.

직관 — 예측치 범위의 의미: 진짜 표본의 결과 범위(\(Y\) 의 min~max) 와 예측치 범위가 비슷하면 모형이 데이터의 변동을 합리적으로 포착. 예측치가 진짜 범위 밖으로 크게 벗어나면(예: -100kg) 모형 misspecification 또는 outlier 의 영향.

3.4 잔차 진단

결과 모형의 진단 도구

잔차 vs 적합값 산점도: 무작위 패턴 → linearity·homoscedasticity OK.
QQ-plot: 정규성 (신뢰구간 calibration 에 영향).
Cook’s distance: 영향력 큰 관측치 식별.
VIF: 다중공선성 점검.
부분 잔차 그림: 각 변수의 함수 형태 점검.

직관 — 진단의 통합: 다섯 도구 중 어느 하나도 단독으로 모형 옳음을 보장하지 않는다. 함께 보면서 의심스러운 패턴이 있는지 점검. 모든 도구가 통과해도 진짜 모형 옳음을 데이터로 증명할 수는 없다 — sensitivity analysis 가 마지막 보호 장치.

4 비포화 결과 모형의 모수

NHEFS 결과 모형은 saturated 가 아니다. \(L\) 의 9 개 변수와 quadratic·상호작용 항이 있어 모수 약 20 개. 셀 수 200 만 → 모수 20 으로 매우 매끄러운 모형 — Ch.11 의 트레이드오프.

직관 — 매끄러움의 가격: 모수 20 개로 200 만 셀의 평균을 표현하므로 매우 압축적. 진짜 \(\mathrm{E}[Y|A,L]\) 함수가 이 모수 안에서 표현 가능한 형태가 아니면 misspecification 편향. 더 많은 모수(상호작용 추가) 를 두면 편향 ↓, 분산 ↑.

5 가정의 위계

가정	위치	깨졌을 때 결과
식별 가정 (교환·양·일관)	Part I 의 영역	식별 자체 실패
결과 모형 specification	Ch.13 의 영역	추정 편향
표본 무작위성	관습적	신뢰구간 편향

직관 — 가정의 다층 구조: 식별 가정이 첫 보호 막. 무한 표본에서도 깨지면 답이 안 나온다. 모형 가정은 두 번째 막. 유한 표본 추정의 정확도를 결정. 표본 가정은 세 번째 막. SE 와 CI 의 신뢰성. 세 막 모두 통과해야 추정량이 의미 있다.

6 왜 필요한가

상황	비모수 셀 평균	모수 결과 모형
보정 변수 1~2 개	직접 계산	같은 결과
보정 변수 5~10 개	셀 폭발	회귀로 가능
연속 변수 보정	정의 불가	함수 형태 가정
처치-결과 비선형	비모수가 robust	가정 의존
Censoring	셀별 수동	모형에 자연 통합

직관 — 표준화가 일상 도구가 된 이유: 거의 모든 인과 분석에 보정 변수 5+ 개가 있다. 표준화는 회귀 모형 1 개만 잘 specify 하면 인과 효과 추정 가능. IPW 는 처치 모형 1 개, 표준화는 결과 모형 1 개 — 둘은 도구로 동등하지만 specification 책임의 위치가 다름.

7 응용 분야

임상시험의 보정 분석: ANCOVA 와 본질적으로 같음
관찰 코호트의 처치 효과: NHEFS 같은 사례
공중보건 정책 평가: 정책 적용 시 잠재 결과 추정
HEOR (Health Economic Outcomes Research): 비용 결과의 시나리오 비교
A/B 테스트의 보정 분석: pre-experiment 변수로 분산 감소 (CUPED 와 본질적 유사)

8 코드 — NHEFS 결과 모형 적합

import pandas as pd
import statsmodels.formula.api as smf

nhefs = pd.read_csv("nhefs.csv").dropna(subset=["wt82_71"]).reset_index(drop=True)

# 결과 모형: 9 confounders + age^2/wt71^2/smokeintensity^2/smokeyrs^2 + qsmk*smokeintensity
formula = (
    "wt82_71 ~ qsmk + I(qsmk * smokeintensity) "
    "+ sex + race + C(education) "
    "+ age + I(age**2) "
    "+ smokeintensity + I(smokeintensity**2) "
    "+ smokeyrs + I(smokeyrs**2) "
    "+ C(exercise) + C(active) "
    "+ wt71 + I(wt71**2)"
)
out_model = smf.ols(formula, data=nhefs).fit()
print(out_model.summary())

# 적합값의 표본 평균 — 관측 평균과 일치 점검
print("Fitted mean:", out_model.fittedvalues.mean())   # ~2.64
print("Observed mean:", nhefs["wt82_71"].mean())       # ~2.64

# 한 환자 예측 (id 24770 — 본문 사례)
pat = nhefs.iloc[[24]]   # 임의 환자 예시
print("Predicted Y:", out_model.predict(pat).values)

9 잔차 진단 코드

import matplotlib.pyplot as plt

# 잔차 vs 적합값
fig, axes = plt.subplots(1, 2, figsize=(10, 4))
axes[0].scatter(out_model.fittedvalues, out_model.resid, alpha=0.4)
axes[0].axhline(0, color="gray")
axes[0].set_xlabel("Fitted"); axes[0].set_ylabel("Residual")
axes[0].set_title("Residual vs Fitted")

# QQ-plot
import statsmodels.api as sm
sm.qqplot(out_model.resid, line="s", ax=axes[1])
axes[1].set_title("Normal QQ-plot")
plt.tight_layout(); plt.show()

# Cook's distance
infl = out_model.get_influence()
cooks = infl.cooks_distance[0]
print("Top 5 influential observations:", sorted(enumerate(cooks), key=lambda x: -x[1])[:5])

10 결과 모형 vs 처치 모형의 specification 부담

두 모형의 비교

측면	결과 모형 (표준화)	처치 모형 (IPW)
종속변수	\(Y\) (연속·이산)	\(A\) (이항·다범주)
분포 가정	정규(OLS), 이항(로지스틱), 등	베르누이(로지스틱) 표준
함수 형태	결과의 비선형성 모두 모델링	처치 확률의 비선형성만
확장성	다양한 결과 분포	이항·다범주에 한정
연구자 친숙도	회귀에 익숙	propensity 개념 학습 필요

직관 — 두 모형의 specification 난이도 비교: 일반적으로 결과 모형 (continuous \(Y\) 의 회귀) 가 처치 모형 (binary \(A\) 의 logistic) 보다 specification 이 어렵다. \(Y\) 의 함수 형태는 무한히 다양할 수 있고, \(A\) 의 확률 모형은 logistic 한 형태로 좁혀져 있다.

직관 — 도구 선택의 실무 가이드: (a) 결과가 단순한 연속 변수 + 보정 변수가 뚜렷한 비선형성 없음 → 표준화 우선. (b) 처치가 이항이고 propensity 가 안정적 → IPW 우선. (c) 둘 다 잘 모르겠으면 → 두 방법 모두 시도해 결과 비교. (d) 강건성을 원하면 → doubly robust.

11 한 줄 요약

표준화는 식별식 \(\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y|A=a, L=l] \Pr(L=l)\) 의 우변을 결과 모형으로 추정한다. NHEFS 의 9 개 보정 변수 + quadratic 항 + 처치-흡연량 상호작용을 포함한 선형 회귀로 결과 모형을 specify. 양의 확률 위반에 robust 하지만 그 영역의 외삽은 모형 가정에 의존. IPW 와 비교해 specification 책임의 위치만 다르다.

12 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

선형 회귀
GLM — 결과 분포 일반화

13 결과 모형의 함수 형태 결정 워크플로우

Specification 결정의 5 단계

DAG 분석: 보정해야 할 \(L\) 변수 결정 (교란자만, 매개자·충돌자 제외).
단변량 EDA: 각 \(L\) 의 분포·이상치·결측 확인.
함수 형태 탐색: 각 연속 변수의 처치-결과 관계 시각화. spline·다항식 후보 식별.
상호작용 검토: 도메인 지식 기반으로 product term 후보 결정.
모형 적합 후 진단: 잔차 그림, QQ-plot, Cook’s distance.

직관 — DAG 가 먼저, 통계가 다음: 변수 선택을 통계적 유의성으로 결정하면 충돌자를 보정해 새 편향을 만들 수 있다. DAG 가 변수의 인과적 역할을 결정한 후, 통계는 함수 형태를 정한다. 인과 분석의 첫 도구는 데이터가 아닌 그래프.

직관 — 비선형성 탐색의 도구들: 산점도 + LOWESS 곡선, partial dependence plot, GAM 의 매끄러운 함수, splines. 이들이 직선 가정 위반을 시각적으로 드러내준다. NHEFS 의 quadratic 항은 이런 탐색의 결과물 — 통계적 유의성보다 데이터의 시각적 패턴 이 결정 근거.

14 회귀 vs 매칭의 비교

표준화 vs 매칭 (matching)

측면	표준화	매칭
기반	결과 모형	처치군-대조군 짝짓기
가정 의존	결과 함수 형태	매칭 거리 정의
보정 대상	모든 보정 변수	매칭 변수
외삽 의존	가능 (모형이 처리)	어려움 (짝 없으면 제외)
효과 수정	부분 표본 분석으로	매칭 후 부분군별

직관 — 매칭은 표준화의 비모수 사촌: 매칭은 같은 \(L\) 값을 가진 처치-대조 짝의 결과 차이를 평균. 표준화는 같은 양을 결과 모형으로 추정. 매칭이 더 robust 지만 차원이 늘면 짝 찾기가 어렵다 — Ch.15 의 propensity score matching 이 이 한계를 해결.