Kwangmin Kim - 왜 모형이 필요한가

1 개요

Part I 은 식별(identification) 의 세계였다. 무한 표본을 가정하고 SUTVA, 교환가능성, 양의 확률(positivity) 같은 가정만 만족하면 인과 효과가 관측 가능한 분포의 함수로 표현된다는 점을 보였다. Part II 는 정반대 출발점에 선다. 표본은 유한하며, 처치 수준이 연속이거나 다범주이면 어떤 처치 값 \(a\) 에 대해서는 데이터에 단 한 명의 관측치도 없을 수 있다. 이때 표본 평균은 정의되지 않는다.

이 한계를 넘기 위해 Part II 는 모형(model) 을 도입한다. Hernan & Robins (2020, Ch.11) 은 모형의 본질, 모수·비모수 추정량의 차이, 평활(smoothing) 의 의미, 편향-분산 트레이드오프를 인과 추론과 분리해서 먼저 정리한다. Ch.12 이후의 IPW, g-공식, g-추정, 성향점수, 도구변수, 시간변동 g-방법은 모두 이 장에서 정의한 통계적 도구를 인과 추정량에 결합한 것이다.

직관 — Part I 과 Part II 의 본질적 분기: Part I 은 “이 데이터가 진짜 인과 효과를 담고 있는가?” 를 묻고, Part II 는 “이 데이터로 인과 효과를 실제로 계산해 낼 수 있는가?” 를 묻는다. 두 질문은 다르다. 무한 표본이 있어도 식별 가정이 깨지면 답이 안 나오고, 식별이 통과해도 표본이 적으면 추정이 무너진다. Ch.11 은 후자의 영역으로 들어가는 입구이다.

직관 — 왜 인과 분석에서 “그저 회귀를 돌린다”가 위험한가: 통계학 교과서에서 회귀는 예측·기술 도구로 등장하지만, 인과 분석에서는 인과량의 식별식을 모형으로 추정하는 도구다. 같은 OLS 가 (1) 단순 예측 (2) 표준화 (3) IPW outcome model (4) g-formula 에서 각각 다른 인과 의미를 가진다. Ch.11 은 이 기계 자체의 작동 원리를 인과 의미와 분리해 먼저 점검한다.

정의: Part II 의 의제 (agenda)

Hernan 의 Part II 는 Part I 의 식별식 — 예: \(\mathrm{E}[Y^a] = \sum_l \mathrm{E}[Y|A=a, L=l] \Pr(L=l)\) — 의 우변을 유한 표본에서 추정하기 위한 도구를 다룬다. 표본 평균만으로는 안 되는 이유, 회귀 모형으로 메우는 방법, 모형 가정의 비용, 강건한 추정량이 핵심 의제이다.

정의: 모형 (Model)

모형은 데이터의 결합 분포가 가질 수 있는 형태에 대한 사전(a priori) 수학적 제약이다 (Robins, Greenland 1986).

제약을 둠으로써 데이터가 부족한 영역에서도 추정을 가능하게 한다.
제약이 잘못되면(model misspecification) 추정에 편향이 생긴다.
역학: parametric / nonparametric model
IT: regression model, smoothing model, kernel model

직관 — 모형은 “가정의 안경”이다. 16 개의 점만 흩뿌려진 산점도는 그 자체로는 무한히 많은 곡선과 양립한다. 모형이라는 안경을 끼면 “이 안경 너머로는 직선만 보인다”는 식으로 가능한 곡선의 집합을 좁힌다. 좁히는 만큼 데이터가 부족한 영역까지 외삽이 가능해지지만, 안경의 도수가 틀리면 모든 추정이 같은 방향으로 비틀린다.

직관 — 식별과 추정의 차이가 곧 가정의 분리다. Part I 의 가정(교환가능성 등) 은 “관측 분포로부터 인과량을 표현하는 데 필요한 가정”이고, Ch.11 의 모형 가정은 “유한 표본에서 실제로 추정해 내는 데 필요한 가정”이다. 같은 인과량을 두 단계의 가정 위에서 추정한다 — 한 안경은 “어디를 볼지”를, 다른 안경은 “어떻게 초점을 맞출지”를 결정한다.

2 5개 소챕터의 흐름

Ch.11 은 다음 다섯 단계로 모형의 역할을 점진적으로 드러낸다.

소챕터	핵심 질문	답
11.1	16 명에게서 100 단계 처치의 평균 결과를 어떻게 추정하는가?	표본 평균만으로는 불가능하다 — 모형이 필요하다
11.2	어떤 가정이 부족한 정보를 메우는가?	\(\mathrm{E}[Y\|A] = \theta_0 + \theta_1 A\) 처럼 함수 형태를 사전에 제약한다
11.3	제약 없이도 가능한 추정은 무엇인가?	saturated 모형 — 모수 수 = 미지수 수
11.4	모형이 데이터를 어떻게 매끄럽게 만드는가?	평활(smoothing) — 다른 \(A\) 값의 정보를 빌려온다
11.5	매끄러움이 더 좋은가, 덜 매끄러운 게 좋은가?	편향-분산 트레이드오프로 선택한다

3 핵심 개념 다섯 가지

3.1 1. 데이터는 스스로 말하지 않는다 (11.1)

연속 또는 다범주 처치 \(A\) 에 대해 표본 평균 \(\widehat{\mathrm{E}}[Y|A=a] = \frac{1}{n_a} \sum_{i: A_i=a} Y_i\) 는 \(n_a = 0\) 인 영역에서 정의되지 않는다. 처치가 0~100 mg 의 정수 값을 갖고 표본이 16 명뿐이면, 대부분의 \(A=a\) 에서 \(n_a = 0\) 이다.

직관: 16 개의 점만 흩뿌려진 산점도를 보고 “\(A=90\) 일 때 \(Y\) 의 평균은?”이라고 묻는 셈이다. 점 자체가 거기에 없으면 산술 평균은 계산할 수 없다.

분모의 직관: \(n_a\) 는 “그 처치 값이 적힌 상자에 들어 있는 환자 수”이다. 상자가 비면 분모가 0 이 되어 \(0/0\) 의 무정의 상태에 빠진다. 더 어려운 점은 처치가 연속이면 거의 모든 상자가 비어 있다는 사실이다 — 표본 부족 문제가 아니라, 표본 평균이라는 추정 도구 자체가 연속 처치와 어울리지 않는다.

3.2 2. 모수적 조건부 평균 모형 (11.2)

\(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 는 “\(\mathrm{E}[Y|A=a]\) 는 \(a\) 에 대해 직선이다”라는 강한 사전 제약이다. 이 제약 덕분에 \(A=90\) 의 자리에는 점이 없어도 \(\mathrm{E}[Y|A=80]\) 과 \(\mathrm{E}[Y|A=100]\) 사이로 값이 결정된다.

직관 — 모수의 역할: \(\theta_0\) 는 “원점에서의 출발점”, \(\theta_1\) 은 “한 발짝 옆으로 갈 때 위로 얼마나 올라가는지”의 보폭이다. 두 숫자만 정해지면 직선의 모든 점 — \(A=0\) 부터 \(A=100\) 까지 — 의 평균값이 결정된다. 데이터가 16 점뿐이지만 추정 대상은 101 개의 평균이다. 두 모수가 101 개를 한꺼번에 잡아낸다는 점에서 모형은 101 개 미지수에 대해 단 하나의 직선이라는 조건을 부과해 자유도를 99 개나 줄이는 장치다.

모형 = 정보 보충

모형은 데이터에 없는 정보를 가정의 형태로 끼워 넣는 장치이다. 가정이 옳으면 부족한 데이터를 메워 주지만, 틀리면 체계적 편향을 만든다. “공짜 점심은 없다”는 표현이 이 맥락에서 자주 등장한다.

직관 — 모형 = 사전 지식의 외주: 16 개의 점은 자체 정보가 부족하다. 모자란 정보를 어디서 빌릴 것인가? 외부 데이터(불가능, 그래서 표본을 늘리지 않은 것), 베이지안 사전 분포(주관적 지식), 또는 함수 형태 가정(연속성·매끄러움 같은 구조적 지식). 모형은 세 번째 옵션이며, “직선이라고 가정한다”는 진술은 사실 “이 영역에서 평균은 갑자기 점프하지 않는다”는 약한 매끄러움 가정의 가장 단순한 형태이다.

3.3 3. 비모수 추정량과 saturated 모형 (11.3)

이항 처치 \(A \in \{0,1\}\) 에 대해 같은 선형 모형 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 를 적합하면 \(\widehat{\theta}_0 = \overline{Y}_{A=0}\), \(\widehat{\theta}_0 + \widehat{\theta}_1 = \overline{Y}_{A=1}\) 이 되어 표본 평균과 정확히 일치한다.

이 경우 모형의 모수 수(2 개) 가 추정 대상 수(2 개) 와 같으므로 saturated 모형이라 부른다. saturated 모형은 형식상 모형의 외관을 갖지만 실질적 제약을 가하지 않는다 — Part I 의 표준화, IP 가중, 매칭, 층화는 모두 saturated 모형 위에서 정의된 비모수 추정량이다.

직관 — 포화의 의미: 미지수 2 개 = 방정식 2 개 → 해가 유일하게 결정. 이때 “직선이다”라는 가정은 의미를 잃는다. 어떤 두 점도 직선 하나로 정확히 잇는다 — 두 점만으로는 직선과 곡선, 어느 가설도 반박 불가능하다. 따라서 saturated 모형의 결과는 모형 가정과 무관한 답이다.

직관 — Part I 방법이 비모수인 이유: 표준화·IP 가중·매칭·층화는 공변량의 분포를 데이터에서 그대로 사용한다. 어디에도 “선형”·“매끄러움” 같은 함수 형태 가정이 들어가지 않는다. Part II 에서 IPW 가 모수적으로 바뀌는 결정적 이유는 공변량 차원이 늘면 셀이 비어 Part I 식 비모수 추정이 무너지기 때문이다.

3.4 4. 평활(smoothing) (11.4)

\(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A + \theta_2 A^2\) 처럼 모수를 늘리면 곡선의 변곡점이 늘어 함수 모양이 더 “구불구불”해진다. 모수 수가 데이터 수와 같아지면 모든 점을 정확히 통과하는 보간(interpolation) 곡선이 되어 평활은 사라진다.

모수 수	곡선	빌려오는 정보
2 (직선)	가장 매끄러움	전체 표본
3~5 (다항식)	중간	지역적 평균
\(n\) (포화)	보간	빌리지 않음

직관 — 평활은 정보의 평균화: \(A=90\) 의 평균을 추정할 때 직선 모형은 \(A=3\) 의 점부터 \(A=97\) 의 점까지 16 개 모두를 활용한다. 멀리 있는 점은 약하게, 가까이 있는 점은 강하게 영향을 주지만 어쨌든 모두 합산된다. 이차 모형은 같은 정보를 더 좁게 평균화한다 — “근처에 있는 점들이 더 큰 가중치”로 들어간다. 모수 16 개의 보간은 이 평균화를 완전히 차단해 자기 점의 정보만 본다.

직관 — 매끄러움과 강건성: 직선 모형은 한 데이터 점이 흔들려도 직선의 위치가 거의 변하지 않는다(전체 평균이 흡수). 보간 곡선은 한 점이 흔들리면 그 근처가 통째로 따라 움직인다. 매끄러운 모형은 데이터의 노이즈를 덜 따라가지만, 진짜 신호도 덜 따라간다.

3.5 5. 편향-분산 트레이드오프 (11.5)

모수가 적을수록 — 곡선이 매끄러울수록 — 모형 오기(misspecification) 시 편향이 커지고, 모수가 많을수록 추정값의 분산이 커진다. Hernan 의 16 명 예에서 2-모수 직선 모형은 점추정 \(216.9\) 에 95% 신뢰구간 \((172.1, 261.6)\) 폭 89.5, 3-모수 이차 모형은 점추정 \(197.1\) 에 신뢰구간 \((142.8, 251.5)\) 폭 108.7 이다. 이차 모형이 편향에는 더 강건하나 분산이 더 크다.

반사실 시나리오: 진짜 관계가 직선이라면 둘 다 일치 추정량이지만 직선 모형의 신뢰구간이 좁다. 진짜 관계가 곡선인데 직선을 가정하면 점추정 자체가 틀려서 신뢰구간이 진짜 값을 95% 자주 덮지 못한다.

직관 — 두 비용의 통화 환산: 편향 = “점추정이 진짜 값에서 얼마나 떨어져 있는지”, 분산 = “다른 표본을 뽑았을 때 점추정이 얼마나 다르게 나올지”. 둘 다 통화로 환산하면 평균 제곱 오차(MSE) 라는 공통 화폐가 된다. 모수가 적은 모형은 분산을 절약하고 편향을 산다. 모수가 많은 모형은 편향을 절약하고 분산을 산다. 양쪽 다 공짜가 아니다.

직관 — 신뢰구간 폭의 의미: Hernan 사례에서 폭이 89.5 → 108.7 로 19.2 늘었다. 이는 “이차 모형이 직선 모형보다 약 20 단위만큼 확신이 약하다”는 뜻이다. 만약 진짜 관계가 직선이라면 직선 모형의 좁은 신뢰구간이 정직하다(진짜 값의 95% 를 덮음). 진짜 관계가 곡선이라면 직선 모형의 좁은 신뢰구간은 거짓말이다(편향된 값 주변에서만 좁게 형성되고 진짜 값은 종종 놓침).

4 식별 가정 vs 모형 가정

Hernan 은 두 부류의 가정을 명확히 구분한다.

정의: 식별 가정과 모형 가정

식별 가정(identifiability assumption): 무한 표본에서도 인과 모수를 관측 분포로 표현하기 위해 필요한 가정. 교환가능성, 양의 확률, 일관성 등.
모형 가정(modeling assumption): 유한 표본에서 추정 가능하도록 분포에 추가로 거는 함수 형태 제약. 선형성, 동분산성 등.

Part I 의 가정은 모두 식별 가정이었다. Ch.11 부터는 식별 가정에 더해 모형 가정을 동반한다. Ch.12 의 IPW 는 처치 모형(treatment model) 의 모수 가정, Ch.13 의 표준화는 결과 모형(outcome model) 의 모수 가정, Ch.18 의 이중 강건 추정량은 두 가정을 결합한다.

직관 — 두 가정의 역할 분담: 식별 가정은 “이 데이터로 인과 효과를 원리적으로 추정할 수 있는가?”에 답하고, 모형 가정은 “주어진 표본 크기에서 실제로 추정해 낼 수 있는가?”에 답한다. 식별 가정이 깨지면 표본을 무한히 늘려도 진짜 답에 도달하지 못한다. 모형 가정이 깨지면 표본이 충분해도 추정량이 잘못된 표적을 향한다. 둘 다 통과해야 추정이 진짜 값에 수렴한다.

직관 — 이중 강건성(double robustness) 의 출발점: 두 모형 중 하나만 옳아도 추정이 일관(consistent) 하다는 마법은 Ch.18 에서 등장한다. 그 출발점이 바로 이 “식별·모형 가정의 분리” 다 — 같은 인과량을 두 가지 방식으로 표현할 수 있을 때, 두 표현 중 어느 한쪽이 잘 작동하면 그 길로 우회해 답에 도달한다.

5 왜 필요한가

연속/다범주 처치: A/B 테스트는 이항 처치라 saturated 모형으로 충분하지만, 광고비, 추천 횟수, 복용량처럼 연속 또는 다단계 처치는 모형 없이는 처치-반응 관계를 추정할 수 없다.
공변량 보정: 이항 처치도 교란을 보정하려면 \(\mathrm{E}[Y|A,L]\) 의 함수 형태를 가정해야 한다. \(L\) 의 차원이 커질수록 비모수 추정은 차원의 저주(curse of dimensionality, Ch.10) 로 무너진다.
외삽(extrapolation): 관측되지 않은 처치 영역의 효과를 묻는 정책 평가에서는 모형이 외삽의 유일한 합법적 도구이다.

6 응용 분야

영역	Ch.11 의 도구가 쓰이는 방식
임상시험	용량-반응 곡선의 회귀 모형 적합
마케팅	광고비 \(A\) 의 매출 \(Y\) 에 대한 효과 추정
헬스케어	EHR 코호트에서 연속 lab 값의 결과 효과
정책 평가	최저임금 인상폭의 고용 효과 회귀
MAB	보상 함수의 사전 분포·평활 가정

각 영역에서 모수 모형은 데이터 부족 영역의 추정을 가능하게 하지만, 모형 misspecification 가 발생하면 편향이 시스템적으로 누적된다. 이것이 Ch.18 의 이중 강건 추정량과 ML 기반 인과 추정으로 이어지는 동기이다.

7 예시: 16 명 HIV 표본

Hernan 의 본문 사례를 압축한다.

처치 형태	모수 수	\(\widehat{\mathrm{E}}[Y\|A=90]\)	95% CI	가정
이항 \(A \in \{0,1\}\)	2	(해당 없음)	-	saturated, 가정 없음
4 범주 \(A \in \{1,2,3,4\}\)	4	(해당 없음)	-	saturated, 가정 없음
연속 \(A \in [0,100]\), 직선	2	216.9	(172.1, 261.6)	직선
연속 \(A \in [0,100]\), 이차	3	197.1	(142.8, 251.5)	이차 곡선

같은 16 개 점에서 같은 질문에 두 답이 나오는 이유는 가정이 다르기 때문이다. 모형 선택은 본질적으로 사전 지식의 선택이다.

8 코드 (개관)

본 시리즈의 후속 글에서 statsmodels OLS 로 Hernan 의 Program 11.1~11.3 을 재현한다. 여기서는 골격만 제시한다.

import numpy as np
import statsmodels.api as sm

A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 67, 79, 83, 97, 60, 71, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 111, 200, 140, 220, 230, 217, 11, 190])

# 2-모수 선형 모형
X1 = sm.add_constant(A)
res1 = sm.OLS(Y, X1).fit()

# 3-모수 이차 모형
X2 = sm.add_constant(np.column_stack([A, A**2]))
res2 = sm.OLS(Y, X2).fit()

# A=90 에서 예측 + 신뢰구간
print(res1.get_prediction([1, 90]).summary_frame(alpha=0.05))
print(res2.get_prediction([1, 90, 90**2]).summary_frame(alpha=0.05))

9 후속 글로 이어지는 다리

글	다루는 내용
10-1	11.1 + 11.2 — 표본 평균의 한계와 OLS 의 정보 차용 메커니즘
10-2	11.3 + 11.4 — saturated 모형의 정의와 평활의 정도 조절
10-3	11.5 — 편향-분산 트레이드오프와 모형 선택 기준

이후 Ch.12 부터는 이 모형 위에 인과 추정량을 얹는다.

10 Ch.11 의 도구가 후속 챕터에서 어떻게 쓰이는가

각 후속 챕터의 핵심 도구는 Ch.11 의 어떤 개념에 직접 의존하는지 정리하면 다음과 같다.

챕터	핵심 도구	Ch.11 의 어떤 부분에 의존
Ch.12 IPW	처치 모형 \(\Pr(A\|L)\) 의 모수 추정	11.2 모수 모형 + 11.5 misspecification
Ch.13 g-formula	결과 모형 \(\mathrm{E}[Y\|A,L]\) 의 모수 추정	11.2 모수 모형 + 11.4 평활
Ch.14 g-estimation	SNMM 의 모수 추정	11.2 + 11.5
Ch.15 PS	성향점수 모형의 모수 적합	11.2 + 11.3 saturated 비교
Ch.16 IV	Wald 추정량과 2SLS 회귀	11.2
Ch.17 Causal Survival	Cox·MSM 의 모수 적합	11.2 + 11.4
Ch.18 Variable Selection	이중 강건 ML 추정량	11.5 + 차원의 저주
Ch.19~21 시간변동 g-방법	반복적 결과 모형·처치 모형	11.2 + 11.4 + 11.5

직관 — Ch.11 은 “공통 인프라”: 같은 회귀·평활·모형 선택 도구가 13 개 챕터에서 반복 등장한다. Ch.11 을 정확히 이해하면 후속 챕터에서 새로 배우는 것은 “이 도구를 어떻게 결합해 인과량을 추정하느냐”의 결합 방식뿐이다 — 도구 자체는 모두 Ch.11 에 압축되어 있다.

11 차원의 저주와 모형의 필연성

Ch.10.5 에서 Hernan 이 정리한 차원의 저주(curse of dimensionality) 는 Ch.11 의 모수 모형 도입의 또 다른 이유이다.

정의: 차원의 저주 (Curse of Dimensionality)

공변량 차원 \(p\) 가 늘면 표본 공간이 기하급수적으로 커져, 같은 표본 크기로는 각 셀(공변량 조합)에 배정되는 평균 관측치 수가 0 에 수렴한다. 비모수 추정은 이 영역에서 무력해진다.

직관 — 셀의 수: 이항 공변량 \(L\) 이 2 개면 셀 4 개, 5 개면 32 개, 10 개면 1024 개, 20 개면 100 만 개다. 표본 1 만 명이라도 셀 100 만 개에 평균 0.01 명만 들어간다. Part I 의 표준화 공식 \(\sum_l \mathrm{E}[Y|A=a,L=l] \Pr(L=l)\) 은 모든 셀에서 평균을 추정해야 하므로, 빈 셀이 있으면 합계 자체가 정의되지 않는다.

직관 — 모형이 차원 저주의 해결책인 이유: 회귀 모형 \(\mathrm{E}[Y|A,L] = \beta_0 + \beta_1 A + \boldsymbol\beta_L^\top L\) 은 \(L\) 의 각 셀별 평균을 따로 추정하는 대신, \(L\) 의 차원 수만큼의 계수만 추정한다. 셀 수는 \(2^{20}\) 이지만 모수는 21 개. 함수 형태 가정이 추정 부담을 지수적에서 선형적으로 줄인다.

이 trick 의 비용은 misspecification 위험 — 진짜 \(\mathrm{E}[Y|A,L]\) 이 선형이 아니면 추정이 편향된다. 11.5 의 편향-분산 트레이드오프와 18 장의 ML·이중 강건 추정량은 이 비용을 줄이려는 시도이다.

12 모형 vs 식별 — 정확한 구분

흔한 혼동

“모형이 옳다”와 “식별 가정이 충족된다”를 같은 것으로 보는 것은 흔한 오해다. 두 개념은 독립적이다.

식별 가정은 “이 데이터로 인과량이 관측 분포의 함수로 표현되는가?”의 문제 — 무한 표본 가정.
모형 가정은 “유한 표본에서 그 함수를 어떻게 추정하는가?”의 문제 — 표본 의존.

식별이 깨지면 어떤 모형도 답을 주지 못한다. 식별이 통과해도 모형이 misspecified 되면 추정이 편향된다. 두 통과는 모두 필요하며, 어느 한쪽으로도 환원되지 않는다.

직관 — 4 가지 가능한 조합: 식별 통과 + 모형 통과 → 답이 옳다. 식별 통과 + 모형 실패 → 무한 표본에서도 추정이 편향. 식별 실패 + 모형 통과 → 모형이 잘 맞아도 인과량 아닌 다른 양을 추정. 식별 실패 + 모형 실패 → 추정과 식별 모두 의미 없음. 인과 분석은 두 통과를 모두 점검하는 작업이다.

13 시간변동 처치에서 모형의 의미가 폭발한다

Part III (Ch.19~22) 의 시간변동 처치는 Ch.11 의 모형 가정을 매 시점마다 부과해야 한다. 시점이 \(T\) 개라면 처치 모형 \(T\) 개, 결과 모형 \(T\) 개, 또는 한 번의 결합 모형으로 추정해야 한다.

직관 — 모형의 곱셈 효과: 한 시점에서 misspecification 확률이 작더라도, \(T=10\) 시점이라면 어디서든 한 번 어긋날 확률이 누적된다. 약학에서 약물의 반복 처방을 분석할 때 매 처방 시점의 \(\Pr(A_t | \text{과거 경과})\) 모형이 모두 옳아야 IPW 가 작동한다 — 시간이 길어질수록 모형 가정 위반 위험이 누적적으로 커진다.

직관 — Big g-formula 의 동기: Ch.21.6 에서 등장하는 big g-formula 는 시간변동 처치에 대해 단일 결합 모형으로 모든 시점을 동시에 다룬다. 모수 수가 시점 수에 비례해 늘어나므로 차원의 저주에 가깝지만, 이중 강건 ML 추정량과 결합되면 misspecification 누적을 일정 부분 통제할 수 있다. Ch.11 의 트레이드오프가 시간 차원으로 확장된 형태이다.

14 Hernan 식 모형 vs Pearl·Rubin 식 모형

세 학파의 인과 분석 전통은 모형의 위치가 약간 다르다.

학파	모형의 역할	강조점
Hernan & Robins	식별식의 우변 추정 도구	모형 가정과 식별 가정의 분리
Pearl SCM	데이터 생성 메커니즘 자체의 표현	DAG·구조방정식·do-calculus
Rubin (PO)	조건부 평균 추정 도구	잠재 결과·SUTVA·ignorability

세 관점은 식별이 통과한 후에는 같은 추정량으로 수렴하는 경우가 많지만, 모형 misspecification 의 의미와 진단 방식이 미묘하게 다르다.

직관 — 같은 회귀, 다른 해석: \(\mathrm{E}[Y|A,L]\) 회귀는 Hernan 에게는 “표준화·g-formula 의 추정 도구”, Pearl 에게는 “구조방정식의 모수화”, Rubin 에게는 “조건부 잠재 결과의 평균 모형”. 같은 회귀의 결과 해석이 학파별로 다른 의미를 갖는다 — Ch.11 에서 모형의 본질을 통계 도구로 한정해 다루는 이유는 이 해석 다양성에 묶이지 않기 위함이다.

15 한 줄 요약

Ch.11 은 “표본은 유한하고, 처치 공간은 클 수 있다” 라는 현실의 비대칭을 모수 모형으로 메우는 방법을 다룬다. 모형은 가정의 형태로 데이터의 빈자리를 메우며, 그 비용은 misspecification 위험 이다. 편향-분산 트레이드오프는 이 비용의 통합 회계 — 모형을 매끄럽게 할지, 유연하게 할지의 결정은 도메인 지식과 데이터의 정보량의 균형으로 정해진다.

16 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

회귀의 통계적 기초 — 모수적 추정량의 분포 이론
Bias-Variance 분해 — 같은 트레이드오프의 ML 관점