1 정의
추정량 \(\widehat{\theta}\) 의 평균제곱오차는
\[\mathrm{MSE}(\widehat{\theta}) = \mathrm{Bias}(\widehat{\theta})^2 + \mathrm{Var}(\widehat{\theta})\]
로 분해된다. 모형의 매끄러움(smoothness) 을 조절하면 두 항이 반대 방향으로 움직인다. 모수를 늘리면 편향이 줄지만 분산이 늘고, 줄이면 그 반대이다.
직관 — 두 종류의 틀림: 점추정이 진짜 값과 다른 이유는 두 가지다 — (1) 추정 절차가 체계적으로 한쪽으로 비뚤어졌거나(편향), (2) 표본을 다시 뽑으면 다른 답이 나오는 운(분산). “활을 쏘는 비유” 가 자주 쓰인다. 편향은 “조준점이 과녁 중심에서 벗어남”, 분산은 “여러 발이 한 점에 모이지 않고 흩어짐”. 이상적인 사수는 둘 다 작지만, 현실에서는 한쪽을 줄이면 다른 쪽이 늘어난다.
직관 — 왜 분산이 늘어나는가: 모수가 많을수록 같은 데이터에서 더 많은 미지수를 풀어야 한다. 16 명으로 모수 2 개를 추정하면 잔차 자유도가 14, 모수 3 개면 13, 모수 16 개면 0 이다. 잔차 자유도가 줄면 잔차의 정보로 추정한 분산(\(\widehat{\sigma}^2\)) 이 부풀려지고, 모수 분산도 따라 부풀려진다. 추정해야 할 것이 많을수록 각 추정치의 정밀도가 희석된다.
95% 신뢰구간이 calibrated 되었다는 것은 동일한 데이터 생성 절차를 무한 반복할 때 구간이 진짜 모수를 포함할 빈도가 95% 라는 frequentist 의미이다. 모형이 misspecified 되면 표준 Wald 신뢰구간은 calibration 을 잃어 명목 95% 보다 적은 빈도로 모수를 덮는다.
직관 — Calibration 은 일기예보의 “비 올 확률 70%” 같은 보장: 일기예보가 “비 올 확률 70%” 라고 했을 때, 그런 예보가 1000 번 나왔다면 실제로 비가 온 날이 약 700 번 이어야 한다. 95% 신뢰구간도 마찬가지로, 그런 구간 1000 개를 만들었을 때 약 950 개가 진짜 모수를 포함해야 한다. 명목 신뢰수준은 약속, calibration 은 약속 이행 빈도. 모형이 misspecified 되면 약속을 어긴다 — 95% 라고 적힌 구간이 실제로는 80% 만 진짜 값을 덮는 식.
2 11.5 트레이드오프의 기본 구도
2.1 16 명 표본의 두 추정값
Hernan 의 16 명 표본에서 \(\mathrm{E}[Y|A=90]\) 의 추정은 모형 선택에 크게 의존한다.
| 모형 | 모수 수 | 점추정 \(\widehat{\mathrm{E}}[Y|A=90]\) | 95% Wald CI | CI 폭 |
|---|---|---|---|---|
| 직선 \(\theta_0 + \theta_1 A\) | 2 | 216.9 | (172.1, 261.6) | 89.5 |
| 이차 \(+ \theta_2 A^2\) | 3 | 197.1 | (142.8, 251.5) | 108.7 |
같은 16 개 점에서 두 점추정이 약 19 정도 차이 난다. 어느 쪽이 진짜 평균에 더 가까운가는 진짜 함수 형태가 무엇이냐에 달려 있다.
2.2 시나리오별 옳음
- 진짜가 직선이라면: 두 모형 모두 일치 추정량. 다만 직선 모형이 모수가 적어 분산이 작다.
- 진짜가 곡선이라면: 직선 모형은 misspecified 되어 점추정이 체계적으로 편향됨. 신뢰구간도 calibration 을 잃음. 이차 모형이 더 안전하다.
- 진짜가 모르는 더 복잡한 형태: 이차도 부족할 수 있음 — 더 유연한 모형이 필요.
가정이 옳은지 증명할 방법은 데이터만으로는 없다. 진단(diagnostics) 으로 의심을 줄일 뿐이다.
2.3 핵심 명제
Hernan 의 명제(Ch.11.5) 를 정리하면 다음과 같다.
- 모수 수 증가 → 편향 감소: 더 많은 모수를 두면 진짜 함수 형태를 포착할 가능성이 커진다. 3-모수 이차 모형은 진짜가 직선이든 이차든 모두 옳게 specified 된다 (\(\theta_2 = 0\) 이거나 \(\theta_2 \neq 0\)).
- 모수 수 증가 → 분산 증가: 같은 표본 크기에서 더 많은 모수를 추정하면 추정값의 분산이 커진다. Hernan 의 사례에서 이차 모형의 신뢰구간이 직선 모형보다 약 22 더 넓다.
- 편향 + 분산 = MSE: 통합 비용은 평균제곱오차로 측정된다. 둘 중 어느 한쪽만 보면 안 된다.
3 MSE 분해의 유도와 직관
추정량 \(\widehat{\theta}\) 와 진짜 모수 \(\theta\) 에 대해
\[ \mathrm{MSE}(\widehat{\theta}) = \mathrm{E}[(\widehat{\theta} - \theta)^2] = (\mathrm{E}[\widehat{\theta}] - \theta)^2 + \mathrm{Var}(\widehat{\theta}) \]
가 성립한다. 첫째 항이 편향의 제곱, 둘째 항이 분산이다.
3.1 분해의 단계별 유도
\(\mu := \mathrm{E}[\widehat{\theta}]\) 로 놓고 다음과 같이 전개한다.
\[ \begin{aligned} \mathrm{MSE}(\widehat{\theta}) &= \mathrm{E}[(\widehat{\theta} - \theta)^2] \\ &= \mathrm{E}[((\widehat{\theta} - \mu) + (\mu - \theta))^2] \\ &= \mathrm{E}[(\widehat{\theta} - \mu)^2] + 2 \mathrm{E}[(\widehat{\theta} - \mu)(\mu - \theta)] + (\mu - \theta)^2 \\ &= \mathrm{Var}(\widehat{\theta}) + 0 + \mathrm{Bias}^2(\widehat{\theta}). \end{aligned} \]
교차항이 0 인 이유는 \((\mu - \theta)\) 가 상수이고 \(\mathrm{E}[\widehat{\theta} - \mu] = 0\) 이기 때문이다.
직관 — 두 차이의 분리: \(\widehat{\theta} - \theta\) 라는 “총 오차”를 “추정량 평균에서의 흔들림 \((\widehat{\theta} - \mu)\)” + “추정량 평균과 진짜의 거리 \((\mu - \theta)\)” 로 분리한다. 전자는 표본마다 다른 운, 후자는 절차의 체계적 비뚤어짐. 두 종류의 오차가 직교(uncorrelated) 하므로 제곱합으로 더해진다 — 운과 절차의 비뚤어짐은 독립적이다.
3.2 예측 MSE 의 별도 분해
테스트 점 \(A=a_0\) 에서의 예측 MSE 는 한 항이 더 추가된다.
\[ \mathrm{E}[(\widehat{Y}(a_0) - Y(a_0))^2] = \underbrace{(\mathrm{E}[\widehat{Y}(a_0)] - \mathrm{E}[Y|A=a_0])^2}_{\text{편향}^2} + \underbrace{\mathrm{Var}(\widehat{Y}(a_0))}_{\text{분산}} + \underbrace{\sigma^2}_{\text{환원 불가능 노이즈}}. \]
직관 — 환원 불가능 노이즈의 의미: 같은 \(A=a_0\) 에서도 새 관측치 \(Y(a_0)\) 는 무작위 변동을 포함한다 — 어떤 모형도 이 변동을 줄일 수 없다. 모형 선택은 편향과 분산을 조절할 뿐, 노이즈 \(\sigma^2\) 은 데이터의 본질적 한계이다. ML 의 “Bayes optimal error” 와 같은 개념이다.
직관 — 분해의 출처: \(\widehat{\theta} - \theta = (\widehat{\theta} - \mathrm{E}[\widehat{\theta}]) + (\mathrm{E}[\widehat{\theta}] - \theta)\) 로 두 항을 더한 형태. 첫째는 평균에서 떨어진 거리(분산 원천), 둘째는 평균이 진짜에서 떨어진 거리(편향). 제곱 후 기댓값을 취하면 교차항이 0 이 되어 두 항의 합으로 깔끔하게 갈라진다 — 두 종류의 오차가 서로 독립적으로 더해진다는 점이 이 분해의 핵심이다.
- 더 매끄러운 모형(모수 수 적음): \(\mathrm{Var}\) 감소, 편향 가능성 증가
- 덜 매끄러운 모형(모수 수 많음): 편향 감소, \(\mathrm{Var}\) 증가
반사실: 모수를 무한히 늘리면 편향은 0 으로 수렴하지만 분산이 폭발해 MSE 가 커진다. 무모수에 가까운 모형이 자동으로 더 좋은 것은 아니다.
직관 — 최적 복잡도가 존재하는 이유: 모수 수를 가로축으로, MSE 를 세로축으로 그리면 보통 U 자 곡선이 나온다. 너무 적으면 편향이 커서 MSE 가 크고, 너무 많으면 분산이 커서 MSE 가 크다. U 자의 최저점이 최적 모수 수다. 이 최저점을 데이터에서 찾는 도구가 AIC, BIC, cross-validation 이다.
4 Calibration 의 손실
옳은 모형 아래에서 OLS 추정량은 점근적으로 정규 분포를 따르고 표준 Wald 신뢰구간은 명목 신뢰수준을 만족한다. 모형이 misspecified 되면 이 보장이 깨진다.
진짜 함수 형태가 곡선인데 직선 모형을 적합하면
- 점추정이 진짜 값과 체계적으로 떨어진 곳으로 수렴 — 이 거리가 편향.
- 표준오차가 잔차의 분산에서 계산되는데, 이 분산이 미명세 오차를 흡수해 부풀려짐.
- 결과적으로 신뢰구간은 편향된 값 주변으로 형성되며, 진짜 모수를 95% 자주 덮지 못함.
따라서 명목 95% 신뢰구간이 실제로는 80%, 60%, 또는 더 낮을 수 있다. 이를 calibration loss 라 한다.
직관 — “정확하다”는 착각: misspecified 직선 모형의 신뢰구간이 좁다는 것은 그 직선 가정이 옳다고 한 안에서의 정확성이다. 가정 자체가 틀렸다면 좁은 신뢰구간은 “틀린 답을 자신 있게 주장하는 셈”이다. 통계학에서 “강한 가정 하의 정밀한 결과” 와 “약한 가정 하의 덜 정밀한 결과” 중 어느 쪽이 더 가치 있는지는 도메인 지식의 신뢰성에 달려 있다.
직관 — 분산 추정이 부풀려지는 메커니즘: 진짜 곡선 데이터를 직선 모형에 넣으면 잔차에는 “노이즈” 외에 “직선이 곡선을 따라가지 못해 남은 체계적 오차”가 섞인다. OLS 는 이 둘을 구별하지 못해 잔차 분산 \(\widehat{\sigma}^2\) 을 진짜보다 크게 추정한다. 신뢰구간은 이 \(\widehat{\sigma}\) 를 사용해 계산되므로 노이즈만 있을 때보다 폭이 더 넓어진다 — 그래도 진짜 값을 덮을 만큼 넓어지지는 않는 게 문제다(중심이 편향된 값 근처에 있어서).
5 다른 손실 함수와의 비교
MSE 는 가장 흔한 손실이지만 유일하지 않다. 손실 함수의 선택이 트레이드오프의 균형점을 바꾼다.
| 손실 | 정의 | 특징 |
|---|---|---|
| 제곱오차 (L2) | \((\widehat{\theta} - \theta)^2\) | 큰 오차 강조, 미분 가능, 계산 편리 |
| 절댓값 (L1) | \(|\widehat{\theta} - \theta|\) | outlier 강건, 미분 불연속 |
| Huber | 작은 오차에서는 L2, 큰 오차에서는 L1 | 강건성 + 매끄러움 절충 |
| 0-1 (분류) | \(\mathbb{1}\{\widehat{\theta} \neq \theta\}\) | 분류 정확도 |
| KL divergence | \(\sum p \log(p/\widehat{p})\) | 분포 비교, 가능도 기반 |
직관 — L2 가 표준이 된 이유: 제곱은 미분 가능 + 큰 오차 페널티 강조 + 분산 분해 가능 이라는 세 장점을 한꺼번에 제공한다. 정규성 가정 아래에서 L2 손실 최소화는 곧 가능도 최대화 와 일치하므로 통계 이론과 자연스럽게 결합된다. 단점은 outlier 에 민감하다는 점 — 한 개의 큰 오차가 전체 적합을 왜곡할 수 있다.
직관 — Huber 손실의 절충: 자율주행·로봇·금융 같이 outlier 가 흔한 도메인에서는 Huber 손실이 표준이다. 작은 오차는 L2 처럼 매끄럽게 다루고 큰 오차는 L1 처럼 강건하게 잘라낸다 — MSE 분해의 두 항을 둘 다 제어하면서 outlier 의 분산 부풀림 효과를 차단한다.
6 Hernan 의 실용 권고
Hernan & Robins (2020, Ch.11.5) 는 다음 실용 권고를 제시한다.
- 약간의 잉여 모수가 안전 마진: 진짜 함수 형태를 모르므로 약간 더 많은 모수를 두는 게 편향 위험을 줄인다.
- 편향-분산 절충은 자동 결정될 수 없다: 형식적 절차(AIC, BIC, cross-validation) 가 존재하나 실무에서는 traditional, interpretability, software availability 등의 요인이 크게 작용한다.
- 민감도 분석(sensitivity analysis) 필수: 다른 모형 specification 으로 같은 분석을 반복하여 결론의 강건성을 확인한다.
- Part II 의 가정: 책 본문은 대체로 “모형이 옳다”고 가정하지만 이는 비현실적이다. misspecification 자체는 인과 분석에 국한된 문제가 아니라 모든 데이터 분석의 공통 문제이다.
7 모형 선택 기준의 비교
- AIC (\(-2 \log L + 2k\)): 가능도와 모수 수의 균형. 점근적으로 KL 거리를 최소화.
- BIC (\(-2 \log L + k \log n\)): 모수 수에 대한 페널티가 더 강함. 점근적으로 진짜 모형 선택.
- CV: 데이터를 train/test 로 분할해 일반화 오차를 직접 추정.
이들은 모두 편향-분산 트레이드오프의 다른 측면을 정량화하는 도구이다.
| 기준 | 강점 | 약점 |
|---|---|---|
| AIC | 예측 정확도 최적 | 진짜 모형으로 수렴하지 않음 |
| BIC | 진짜 모형 일치성 | 일반화 오차에서는 AIC 보다 떨어질 수 있음 |
| CV (k-fold) | 가정 적음, 데이터 의존 | 계산 비용, 분포 변동에 민감 |
| 잔차 진단 | 시각적 해석 | 정성적, 자동화 어려움 |
실무에서는 이들을 동시에 사용하고 사전 지식과 결합해 판단한다.
7.1 세 기준의 작동 원리
AIC (\(-2\log L + 2k\)): 가능도를 모수 1 개당 2 만큼 페널티한다. 표본 크기 무관 페널티. 점근적으로 KL divergence 최소화 ↔︎ 예측 오차 최소화의 모형을 선택.
BIC (\(-2\log L + k\log n\)): 페널티가 \(\log n\) 으로 가중됨. 표본이 클수록 모수 추가에 더 가혹. 점근적으로 진짜 모형이 후보에 있으면 그 모형을 선택할 확률이 1 로 수렴.
Cross-Validation: 데이터를 \(K\) 개 fold 로 나누고, \(K-1\) 개로 적합 후 1 개에서 예측 오차 계산을 \(K\) 번 반복해 평균. 분포 가정 없이 일반화 오차를 직접 추정.
직관 — AIC vs BIC 의 철학 차이: AIC 는 “잘 예측하는 모형” 을 찾고, BIC 는 “진짜 모형” 을 찾는다. 두 목표는 일치할 수도 있고 갈라질 수도 있다 — 진짜 모형이 매우 복잡하면 작은 표본에서는 더 단순한 잘못된 모형이 예측 성능이 더 좋을 수 있다(편향-분산 트레이드오프 때문). AIC 가 BIC 보다 모수가 많은 모형을 자주 고르는 이유다.
직관 — CV 의 정직함: AIC·BIC 는 가능도와 모수 수의 함수로 단순하지만, 모수 모형의 가정에 의존한다(misspecified 하면 수치가 오도). CV 는 데이터를 직접 분할해 일반화 오차를 측정하므로 모형 가정이 깨져도 정직한 평가를 제공한다. 단점은 계산 비용 — \(K\) 번 적합이 필요. 작은 표본에서는 leave-one-out CV 가 표준.
7.2 인과 추론 맥락의 특수성
회귀의 편향-분산 트레이드오프는 예측 맥락에서 잘 정립되어 있다. 인과 추론에서는 한 가지 중요한 차이가 있다.
예측에서는 변수가 결과 예측에 도움이 되면 포함시킨다. 인과 추론에서는 다음 두 위험을 구분해야 한다 (Hernan Ch.18 미리보기).
- 교란 변수(confounder): 반드시 보정해야 함. 빠뜨리면 편향.
- 충돌자(collider): 보정하면 새 편향을 유발. 빠뜨려야 함.
- 편향 증폭 변수(bias-amplifying instrument): 미관측 교란이 있을 때 IV-like 변수를 보정에 추가하면 편향이 증폭된다.
따라서 “예측 정확도” 만 보고 변수를 추가하면 인과 효과 추정은 더 나빠질 수 있다. 인과 모형 선택은 도메인 지식·DAG 분석을 통해 결정되어야 한다.
직관 — 같은 변수 다른 운명: 어떤 공변량이 예측 모형에서는 “AIC 가 줄어드므로 포함” 으로 결정되고, 인과 모형에서는 “DAG 상 충돌자라 빠뜨려야 함”으로 결정될 수 있다. 두 결정이 충돌하면 인과 의도가 우선해야 한다 — 예측 정확도가 인과 추정의 정확도와 같지 않다.
직관 — Ch.18 의 이중 강건 ML 추정량이 등장하는 동기: 표준 ML 은 예측 정확도를 최적화한다. 그래서 ML 적합값을 그대로 인과 효과 추정에 쓰면 정규화 편향(regularization bias) 이 인과 추정량으로 새어 들어간다. 이중 강건 추정량은 ML 의 편향이 추정량의 일계 영향력 함수 (first-order influence function) 에서 자동 상쇄되도록 설계된 — Ch.11 의 트레이드오프를 인과 맥락에 맞게 조정한 결과물이다.
8 왜 필요한가
| 상황 | 트레이드오프 인식 안 함 | 인식 함 |
|---|---|---|
| 표본 작음, 직선 가정 | 점추정만 보고 결론 | 신뢰구간이 너무 좁다 의심 |
| 데이터 부족 영역 외삽 | 외삽치를 그대로 사용 | 가정에 의존함을 명시 |
| 신뢰구간이 좁다 | “정확하다”고 믿음 | misspecification 가능성 점검 |
| 모형이 잘 맞는다 | 종결 | 다른 specification 으로 sensitivity check |
편향-분산 트레이드오프 인식 없이 모형 결과를 보고하는 것은 추정량의 사용설명서를 무시하는 것과 같다.
9 응용 분야
- 임상시험 용량-반응: 직선 vs spline vs 비선형 회귀 비교
- 광고 attribution: 함수 형태의 선택이 ROI 추정에 큰 영향
- EHR 코호트의 risk model: 비선형성이 흔하므로 spline 권장
- A/B 테스트 처치 강도 효과: 다단계 처치에서 모형 선택의 영향
- 정책 평가 RDD: bandwidth 선택이 곧 평활의 정도
10 예시: Hernan 16 명 표본의 트레이드오프
| 가정한 진짜 형태 | 직선 모형 점추정 | 직선 모형 편향 | 이차 모형 점추정 | 이차 모형 편향 |
|---|---|---|---|---|
| 직선 (\(\theta_2 = 0\)) | \(\widehat{\theta}_0 + 90 \widehat{\theta}_1\) | 0 (불편) | 같음 | 0 (불편) |
| 곡선 (\(\theta_2 \neq 0\)) | misspecified | 비영 | 같은 곡선이면 0 | 0 (불편) |
진짜를 모르므로 두 모형 모두 시도해 결과가 robust 한지 확인하는 것이 표준 절차이다.
11 코드: Bootstrap 으로 분산 추정과 MSE 비교
import numpy as np
import statsmodels.api as sm
A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 60, 67, 71, 79, 83, 97, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 230, 111, 217, 200, 140, 220, 11, 190])
def fit_predict(A_b, Y_b, degree, A_target=90):
X_b = np.column_stack([A_b**k for k in range(1, degree+1)])
X_b = sm.add_constant(X_b)
res = sm.OLS(Y_b, X_b).fit()
x_target = np.array([1] + [A_target**k for k in range(1, degree+1)])
return res.predict(x_target)[0]
n_boot = 2000
rng = np.random.default_rng(42)
for degree in [1, 2, 3, 4]:
estimates = []
for _ in range(n_boot):
idx = rng.integers(0, len(A), len(A))
estimates.append(fit_predict(A[idx], Y[idx], degree))
estimates = np.array(estimates)
print(f"degree {degree}: "
f"mean = {estimates.mean():.1f}, "
f"sd = {estimates.std():.1f}, "
f"95% bootstrap CI = ({np.percentile(estimates, 2.5):.1f}, "
f"{np.percentile(estimates, 97.5):.1f})")차수가 늘면 표준편차가 단조 증가하는 패턴이 보인다. 모형 선택은 이 분산 증가가 얼마만큼의 편향 감소를 살 가치가 있는지의 판단이다.
12 Bayesian 관점 — Fine Point 11.2 요약
Hernan 의 Fine Point 11.2 는 frequentist 신뢰구간과 Bayesian credible interval 의 관계를 정리한다.
- 저차원 모수 모형 + 큰 표본: 두 구간이 거의 일치. 사전 분포의 영향이 미미.
- 고차원/비모수 모형: 두 구간이 갈라질 수 있음. Bayesian credible interval 이 명목 95% 미만의 frequentist coverage 를 가질 수 있음.
- 이유: 고차원에서는 사전 분포의 영향이 데이터의 정보를 압도할 수 있음. 진짜 모수가 사전 분포에서 낮은 확률 영역에 있으면 Bayes 추정이 그쪽으로 끌려가지 않음.
이 차이는 모수 수가 늘 때 분산이 빠르게 증가하는 같은 현상의 다른 모습이다.
직관 — 두 구간 해석의 본질적 차이: 95% 신뢰구간은 “이런 절차로 구간을 계속 만들면 95% 의 구간이 진짜 모수를 포함” — 빈도 기반 보장. 95% credible interval 은 “주어진 데이터 아래에서 진짜 모수가 이 구간 안에 있을 사후 확률 95%” — 사후 확률 기반. 단순 모형 + 큰 표본에서는 데이터가 사전 분포를 압도해 두 해석이 같은 숫자를 가리키지만, 모수 수가 표본 수에 가까워지면 사전 분포의 영향이 살아나 두 구간이 갈라진다.
직관 — 사전 분포가 영향력을 발휘하는 임계점: 모수 수 \(p\), 표본 수 \(n\) 에서 \(p/n\) 이 작으면 데이터의 가능도(likelihood) 가 사후 분포를 결정한다. \(p/n\) 이 1 에 가까워지면 가능도가 평탄해져 사전 분포의 형태가 사후 분포 모양을 결정한다. 모수 수가 표본 수의 수십 분의 1 이하인 영역에서만 베이즈와 빈도가 같은 답을 준다 — 그 밖에서는 사전 분포 선택이 결과에 본질적으로 영향을 미친다.
13 관련 주제
선행 지식
후속 주제
다른 카테고리 연결
- Bias-Variance 분해 — ML 관점의 같은 트레이드오프
- 모형 선택 기준 — AIC/BIC/CV 의 통계적 토대
- 차원의 저주 — 분산 폭발의 기하학적 원인