Kwangmin Kim - 편향-분산 트레이드오프

1 정의

정의: 편향-분산 트레이드오프 (Bias-Variance Trade-off)

추정량 \(\widehat{\theta}\) 의 평균제곱오차는

\[\mathrm{MSE}(\widehat{\theta}) = \mathrm{Bias}(\widehat{\theta})^2 + \mathrm{Var}(\widehat{\theta})\]

로 분해된다. 모형의 매끄러움(smoothness) 을 조절하면 두 항이 반대 방향으로 움직인다. 모수를 늘리면 편향이 줄지만 분산이 늘고, 줄이면 그 반대이다.

직관 — 두 종류의 틀림: 점추정이 진짜 값과 다른 이유는 두 가지다 — (1) 추정 절차가 체계적으로 한쪽으로 비뚤어졌거나(편향), (2) 표본을 다시 뽑으면 다른 답이 나오는 운(분산). “활을 쏘는 비유” 가 자주 쓰인다. 편향은 “조준점이 과녁 중심에서 벗어남”, 분산은 “여러 발이 한 점에 모이지 않고 흩어짐”. 이상적인 사수는 둘 다 작지만, 현실에서는 한쪽을 줄이면 다른 쪽이 늘어난다.

직관 — 왜 분산이 늘어나는가: 모수가 많을수록 같은 데이터에서 더 많은 미지수를 풀어야 한다. 16 명으로 모수 2 개를 추정하면 잔차 자유도가 14, 모수 3 개면 13, 모수 16 개면 0 이다. 잔차 자유도가 줄면 잔차의 정보로 추정한 분산(\(\widehat{\sigma}^2\)) 이 부풀려지고, 모수 분산도 따라 부풀려진다. 추정해야 할 것이 많을수록 각 추정치의 정밀도가 희석된다.

정의: Calibration 의 의미

95% 신뢰구간이 calibrated 되었다는 것은 동일한 데이터 생성 절차를 무한 반복할 때 구간이 진짜 모수를 포함할 빈도가 95% 라는 frequentist 의미이다. 모형이 misspecified 되면 표준 Wald 신뢰구간은 calibration 을 잃어 명목 95% 보다 적은 빈도로 모수를 덮는다.

직관 — Calibration 은 일기예보의 “비 올 확률 70%” 같은 보장: 일기예보가 “비 올 확률 70%” 라고 했을 때, 그런 예보가 1000 번 나왔다면 실제로 비가 온 날이 약 700 번 이어야 한다. 95% 신뢰구간도 마찬가지로, 그런 구간 1000 개를 만들었을 때 약 950 개가 진짜 모수를 포함해야 한다. 명목 신뢰수준은 약속, calibration 은 약속 이행 빈도. 모형이 misspecified 되면 약속을 어긴다 — 95% 라고 적힌 구간이 실제로는 80% 만 진짜 값을 덮는 식.

2 11.5 트레이드오프의 기본 구도

2.1 16 명 표본의 두 추정값

Hernan 의 16 명 표본에서 \(\mathrm{E}[Y|A=90]\) 의 추정은 모형 선택에 크게 의존한다.

모형	모수 수	점추정 \(\widehat{\mathrm{E}}[Y\|A=90]\)	95% Wald CI	CI 폭
직선 \(\theta_0 + \theta_1 A\)	2	216.9	(172.1, 261.6)	89.5
이차 \(+ \theta_2 A^2\)	3	197.1	(142.8, 251.5)	108.7

같은 16 개 점에서 두 점추정이 약 19 정도 차이 난다. 어느 쪽이 진짜 평균에 더 가까운가는 진짜 함수 형태가 무엇이냐에 달려 있다.

2.2 시나리오별 옳음

진짜 함수 형태에 따른 결론

진짜가 직선이라면: 두 모형 모두 일치 추정량. 다만 직선 모형이 모수가 적어 분산이 작다.
진짜가 곡선이라면: 직선 모형은 misspecified 되어 점추정이 체계적으로 편향됨. 신뢰구간도 calibration 을 잃음. 이차 모형이 더 안전하다.
진짜가 모르는 더 복잡한 형태: 이차도 부족할 수 있음 — 더 유연한 모형이 필요.

가정이 옳은지 증명할 방법은 데이터만으로는 없다. 진단(diagnostics) 으로 의심을 줄일 뿐이다.

2.3 핵심 명제

Hernan 의 명제(Ch.11.5) 를 정리하면 다음과 같다.

모수 수 증가 → 편향 감소: 더 많은 모수를 두면 진짜 함수 형태를 포착할 가능성이 커진다. 3-모수 이차 모형은 진짜가 직선이든 이차든 모두 옳게 specified 된다 (\(\theta_2 = 0\) 이거나 \(\theta_2 \neq 0\)).
모수 수 증가 → 분산 증가: 같은 표본 크기에서 더 많은 모수를 추정하면 추정값의 분산이 커진다. Hernan 의 사례에서 이차 모형의 신뢰구간이 직선 모형보다 약 22 더 넓다.
편향 + 분산 = MSE: 통합 비용은 평균제곱오차로 측정된다. 둘 중 어느 한쪽만 보면 안 된다.

3 MSE 분해의 유도와 직관

추정량 \(\widehat{\theta}\) 와 진짜 모수 \(\theta\) 에 대해

\[ \mathrm{MSE}(\widehat{\theta}) = \mathrm{E}[(\widehat{\theta} - \theta)^2] = (\mathrm{E}[\widehat{\theta}] - \theta)^2 + \mathrm{Var}(\widehat{\theta}) \]

가 성립한다. 첫째 항이 편향의 제곱, 둘째 항이 분산이다.

3.1 분해의 단계별 유도

\(\mu := \mathrm{E}[\widehat{\theta}]\) 로 놓고 다음과 같이 전개한다.

\[ \begin{aligned} \mathrm{MSE}(\widehat{\theta}) &= \mathrm{E}[(\widehat{\theta} - \theta)^2] \\ &= \mathrm{E}[((\widehat{\theta} - \mu) + (\mu - \theta))^2] \\ &= \mathrm{E}[(\widehat{\theta} - \mu)^2] + 2 \mathrm{E}[(\widehat{\theta} - \mu)(\mu - \theta)] + (\mu - \theta)^2 \\ &= \mathrm{Var}(\widehat{\theta}) + 0 + \mathrm{Bias}^2(\widehat{\theta}). \end{aligned} \]

교차항이 0 인 이유는 \((\mu - \theta)\) 가 상수이고 \(\mathrm{E}[\widehat{\theta} - \mu] = 0\) 이기 때문이다.

직관 — 두 차이의 분리: \(\widehat{\theta} - \theta\) 라는 “총 오차”를 “추정량 평균에서의 흔들림 \((\widehat{\theta} - \mu)\)” + “추정량 평균과 진짜의 거리 \((\mu - \theta)\)” 로 분리한다. 전자는 표본마다 다른 운, 후자는 절차의 체계적 비뚤어짐. 두 종류의 오차가 직교(uncorrelated) 하므로 제곱합으로 더해진다 — 운과 절차의 비뚤어짐은 독립적이다.

3.2 예측 MSE 의 별도 분해

테스트 점 \(A=a_0\) 에서의 예측 MSE 는 한 항이 더 추가된다.

\[ \mathrm{E}[(\widehat{Y}(a_0) - Y(a_0))^2] = \underbrace{(\mathrm{E}[\widehat{Y}(a_0)] - \mathrm{E}[Y|A=a_0])^2}_{\text{편향}^2} + \underbrace{\mathrm{Var}(\widehat{Y}(a_0))}_{\text{분산}} + \underbrace{\sigma^2}_{\text{환원 불가능 노이즈}}. \]

직관 — 환원 불가능 노이즈의 의미: 같은 \(A=a_0\) 에서도 새 관측치 \(Y(a_0)\) 는 무작위 변동을 포함한다 — 어떤 모형도 이 변동을 줄일 수 없다. 모형 선택은 편향과 분산을 조절할 뿐, 노이즈 \(\sigma^2\) 은 데이터의 본질적 한계이다. ML 의 “Bayes optimal error” 와 같은 개념이다.

직관 — 분해의 출처: \(\widehat{\theta} - \theta = (\widehat{\theta} - \mathrm{E}[\widehat{\theta}]) + (\mathrm{E}[\widehat{\theta}] - \theta)\) 로 두 항을 더한 형태. 첫째는 평균에서 떨어진 거리(분산 원천), 둘째는 평균이 진짜에서 떨어진 거리(편향). 제곱 후 기댓값을 취하면 교차항이 0 이 되어 두 항의 합으로 깔끔하게 갈라진다 — 두 종류의 오차가 서로 독립적으로 더해진다는 점이 이 분해의 핵심이다.

더 매끄러운 모형(모수 수 적음): \(\mathrm{Var}\) 감소, 편향 가능성 증가
덜 매끄러운 모형(모수 수 많음): 편향 감소, \(\mathrm{Var}\) 증가

반사실: 모수를 무한히 늘리면 편향은 0 으로 수렴하지만 분산이 폭발해 MSE 가 커진다. 무모수에 가까운 모형이 자동으로 더 좋은 것은 아니다.

직관 — 최적 복잡도가 존재하는 이유: 모수 수를 가로축으로, MSE 를 세로축으로 그리면 보통 U 자 곡선이 나온다. 너무 적으면 편향이 커서 MSE 가 크고, 너무 많으면 분산이 커서 MSE 가 크다. U 자의 최저점이 최적 모수 수다. 이 최저점을 데이터에서 찾는 도구가 AIC, BIC, cross-validation 이다.

4 Calibration 의 손실

옳은 모형 아래에서 OLS 추정량은 점근적으로 정규 분포를 따르고 표준 Wald 신뢰구간은 명목 신뢰수준을 만족한다. 모형이 misspecified 되면 이 보장이 깨진다.

Misspecified 모형의 신뢰구간

진짜 함수 형태가 곡선인데 직선 모형을 적합하면

점추정이 진짜 값과 체계적으로 떨어진 곳으로 수렴 — 이 거리가 편향.
표준오차가 잔차의 분산에서 계산되는데, 이 분산이 미명세 오차를 흡수해 부풀려짐.
결과적으로 신뢰구간은 편향된 값 주변으로 형성되며, 진짜 모수를 95% 자주 덮지 못함.

따라서 명목 95% 신뢰구간이 실제로는 80%, 60%, 또는 더 낮을 수 있다. 이를 calibration loss 라 한다.

직관 — “정확하다”는 착각: misspecified 직선 모형의 신뢰구간이 좁다는 것은 그 직선 가정이 옳다고 한 안에서의 정확성이다. 가정 자체가 틀렸다면 좁은 신뢰구간은 “틀린 답을 자신 있게 주장하는 셈”이다. 통계학에서 “강한 가정 하의 정밀한 결과” 와 “약한 가정 하의 덜 정밀한 결과” 중 어느 쪽이 더 가치 있는지는 도메인 지식의 신뢰성에 달려 있다.

직관 — 분산 추정이 부풀려지는 메커니즘: 진짜 곡선 데이터를 직선 모형에 넣으면 잔차에는 “노이즈” 외에 “직선이 곡선을 따라가지 못해 남은 체계적 오차”가 섞인다. OLS 는 이 둘을 구별하지 못해 잔차 분산 \(\widehat{\sigma}^2\) 을 진짜보다 크게 추정한다. 신뢰구간은 이 \(\widehat{\sigma}\) 를 사용해 계산되므로 노이즈만 있을 때보다 폭이 더 넓어진다 — 그래도 진짜 값을 덮을 만큼 넓어지지는 않는 게 문제다(중심이 편향된 값 근처에 있어서).

5 다른 손실 함수와의 비교

MSE 는 가장 흔한 손실이지만 유일하지 않다. 손실 함수의 선택이 트레이드오프의 균형점을 바꾼다.

손실	정의	특징
제곱오차 (L2)	\((\widehat{\theta} - \theta)^2\)	큰 오차 강조, 미분 가능, 계산 편리
절댓값 (L1)	\(\|\widehat{\theta} - \theta\|\)	outlier 강건, 미분 불연속
Huber	작은 오차에서는 L2, 큰 오차에서는 L1	강건성 + 매끄러움 절충
0-1 (분류)	\(\mathbb{1}\{\widehat{\theta} \neq \theta\}\)	분류 정확도
KL divergence	\(\sum p \log(p/\widehat{p})\)	분포 비교, 가능도 기반

직관 — L2 가 표준이 된 이유: 제곱은 미분 가능 + 큰 오차 페널티 강조 + 분산 분해 가능 이라는 세 장점을 한꺼번에 제공한다. 정규성 가정 아래에서 L2 손실 최소화는 곧 가능도 최대화 와 일치하므로 통계 이론과 자연스럽게 결합된다. 단점은 outlier 에 민감하다는 점 — 한 개의 큰 오차가 전체 적합을 왜곡할 수 있다.

직관 — Huber 손실의 절충: 자율주행·로봇·금융 같이 outlier 가 흔한 도메인에서는 Huber 손실이 표준이다. 작은 오차는 L2 처럼 매끄럽게 다루고 큰 오차는 L1 처럼 강건하게 잘라낸다 — MSE 분해의 두 항을 둘 다 제어하면서 outlier 의 분산 부풀림 효과를 차단한다.

6 Hernan 의 실용 권고

Hernan & Robins (2020, Ch.11.5) 는 다음 실용 권고를 제시한다.

약간의 잉여 모수가 안전 마진: 진짜 함수 형태를 모르므로 약간 더 많은 모수를 두는 게 편향 위험을 줄인다.
편향-분산 절충은 자동 결정될 수 없다: 형식적 절차(AIC, BIC, cross-validation) 가 존재하나 실무에서는 traditional, interpretability, software availability 등의 요인이 크게 작용한다.
민감도 분석(sensitivity analysis) 필수: 다른 모형 specification 으로 같은 분석을 반복하여 결론의 강건성을 확인한다.
Part II 의 가정: 책 본문은 대체로 “모형이 옳다”고 가정하지만 이는 비현실적이다. misspecification 자체는 인과 분석에 국한된 문제가 아니라 모든 데이터 분석의 공통 문제이다.

7 모형 선택 기준의 비교

정의: 형식적 모형 선택 기준

AIC (\(-2 \log L + 2k\)): 가능도와 모수 수의 균형. 점근적으로 KL 거리를 최소화.
BIC (\(-2 \log L + k \log n\)): 모수 수에 대한 페널티가 더 강함. 점근적으로 진짜 모형 선택.
CV: 데이터를 train/test 로 분할해 일반화 오차를 직접 추정.

이들은 모두 편향-분산 트레이드오프의 다른 측면을 정량화하는 도구이다.

기준	강점	약점
AIC	예측 정확도 최적	진짜 모형으로 수렴하지 않음
BIC	진짜 모형 일치성	일반화 오차에서는 AIC 보다 떨어질 수 있음
CV (k-fold)	가정 적음, 데이터 의존	계산 비용, 분포 변동에 민감
잔차 진단	시각적 해석	정성적, 자동화 어려움

실무에서는 이들을 동시에 사용하고 사전 지식과 결합해 판단한다.

7.1 세 기준의 작동 원리

AIC, BIC, CV 의 차이

AIC (\(-2\log L + 2k\)): 가능도를 모수 1 개당 2 만큼 페널티한다. 표본 크기 무관 페널티. 점근적으로 KL divergence 최소화 ↔︎ 예측 오차 최소화의 모형을 선택.

BIC (\(-2\log L + k\log n\)): 페널티가 \(\log n\) 으로 가중됨. 표본이 클수록 모수 추가에 더 가혹. 점근적으로 진짜 모형이 후보에 있으면 그 모형을 선택할 확률이 1 로 수렴.

Cross-Validation: 데이터를 \(K\) 개 fold 로 나누고, \(K-1\) 개로 적합 후 1 개에서 예측 오차 계산을 \(K\) 번 반복해 평균. 분포 가정 없이 일반화 오차를 직접 추정.

직관 — AIC vs BIC 의 철학 차이: AIC 는 “잘 예측하는 모형” 을 찾고, BIC 는 “진짜 모형” 을 찾는다. 두 목표는 일치할 수도 있고 갈라질 수도 있다 — 진짜 모형이 매우 복잡하면 작은 표본에서는 더 단순한 잘못된 모형이 예측 성능이 더 좋을 수 있다(편향-분산 트레이드오프 때문). AIC 가 BIC 보다 모수가 많은 모형을 자주 고르는 이유다.

직관 — CV 의 정직함: AIC·BIC 는 가능도와 모수 수의 함수로 단순하지만, 모수 모형의 가정에 의존한다(misspecified 하면 수치가 오도). CV 는 데이터를 직접 분할해 일반화 오차를 측정하므로 모형 가정이 깨져도 정직한 평가를 제공한다. 단점은 계산 비용 — \(K\) 번 적합이 필요. 작은 표본에서는 leave-one-out CV 가 표준.

7.2 인과 추론 맥락의 특수성

회귀의 편향-분산 트레이드오프는 예측 맥락에서 잘 정립되어 있다. 인과 추론에서는 한 가지 중요한 차이가 있다.

인과 회귀의 모수 선택은 “변수 선택”과 다르다

예측에서는 변수가 결과 예측에 도움이 되면 포함시킨다. 인과 추론에서는 다음 두 위험을 구분해야 한다 (Hernan Ch.18 미리보기).

교란 변수(confounder): 반드시 보정해야 함. 빠뜨리면 편향.
충돌자(collider): 보정하면 새 편향을 유발. 빠뜨려야 함.
편향 증폭 변수(bias-amplifying instrument): 미관측 교란이 있을 때 IV-like 변수를 보정에 추가하면 편향이 증폭된다.

따라서 “예측 정확도” 만 보고 변수를 추가하면 인과 효과 추정은 더 나빠질 수 있다. 인과 모형 선택은 도메인 지식·DAG 분석을 통해 결정되어야 한다.

직관 — 같은 변수 다른 운명: 어떤 공변량이 예측 모형에서는 “AIC 가 줄어드므로 포함” 으로 결정되고, 인과 모형에서는 “DAG 상 충돌자라 빠뜨려야 함”으로 결정될 수 있다. 두 결정이 충돌하면 인과 의도가 우선해야 한다 — 예측 정확도가 인과 추정의 정확도와 같지 않다.

직관 — Ch.18 의 이중 강건 ML 추정량이 등장하는 동기: 표준 ML 은 예측 정확도를 최적화한다. 그래서 ML 적합값을 그대로 인과 효과 추정에 쓰면 정규화 편향(regularization bias) 이 인과 추정량으로 새어 들어간다. 이중 강건 추정량은 ML 의 편향이 추정량의 일계 영향력 함수 (first-order influence function) 에서 자동 상쇄되도록 설계된 — Ch.11 의 트레이드오프를 인과 맥락에 맞게 조정한 결과물이다.

8 왜 필요한가

상황	트레이드오프 인식 안 함	인식 함
표본 작음, 직선 가정	점추정만 보고 결론	신뢰구간이 너무 좁다 의심
데이터 부족 영역 외삽	외삽치를 그대로 사용	가정에 의존함을 명시
신뢰구간이 좁다	“정확하다”고 믿음	misspecification 가능성 점검
모형이 잘 맞는다	종결	다른 specification 으로 sensitivity check

편향-분산 트레이드오프 인식 없이 모형 결과를 보고하는 것은 추정량의 사용설명서를 무시하는 것과 같다.

9 응용 분야

임상시험 용량-반응: 직선 vs spline vs 비선형 회귀 비교
광고 attribution: 함수 형태의 선택이 ROI 추정에 큰 영향
EHR 코호트의 risk model: 비선형성이 흔하므로 spline 권장
A/B 테스트 처치 강도 효과: 다단계 처치에서 모형 선택의 영향
정책 평가 RDD: bandwidth 선택이 곧 평활의 정도

10 예시: Hernan 16 명 표본의 트레이드오프

가정한 진짜 형태	직선 모형 점추정	직선 모형 편향	이차 모형 점추정	이차 모형 편향
직선 (\(\theta_2 = 0\))	\(\widehat{\theta}_0 + 90 \widehat{\theta}_1\)	0 (불편)	같음	0 (불편)
곡선 (\(\theta_2 \neq 0\))	misspecified	비영	같은 곡선이면 0	0 (불편)

진짜를 모르므로 두 모형 모두 시도해 결과가 robust 한지 확인하는 것이 표준 절차이다.

11 코드: Bootstrap 으로 분산 추정과 MSE 비교

import numpy as np
import statsmodels.api as sm

A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 60, 67, 71, 79, 83, 97, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 230, 111, 217, 200, 140, 220, 11, 190])

def fit_predict(A_b, Y_b, degree, A_target=90):
    X_b = np.column_stack([A_b**k for k in range(1, degree+1)])
    X_b = sm.add_constant(X_b)
    res = sm.OLS(Y_b, X_b).fit()
    x_target = np.array([1] + [A_target**k for k in range(1, degree+1)])
    return res.predict(x_target)[0]

n_boot = 2000
rng = np.random.default_rng(42)

for degree in [1, 2, 3, 4]:
    estimates = []
    for _ in range(n_boot):
        idx = rng.integers(0, len(A), len(A))
        estimates.append(fit_predict(A[idx], Y[idx], degree))
    estimates = np.array(estimates)
    print(f"degree {degree}: "
          f"mean = {estimates.mean():.1f}, "
          f"sd = {estimates.std():.1f}, "
          f"95% bootstrap CI = ({np.percentile(estimates, 2.5):.1f}, "
          f"{np.percentile(estimates, 97.5):.1f})")

차수가 늘면 표준편차가 단조 증가하는 패턴이 보인다. 모형 선택은 이 분산 증가가 얼마만큼의 편향 감소를 살 가치가 있는지의 판단이다.

12 Bayesian 관점 — Fine Point 11.2 요약

Hernan 의 Fine Point 11.2 는 frequentist 신뢰구간과 Bayesian credible interval 의 관계를 정리한다.

저차원 모수 모형 + 큰 표본: 두 구간이 거의 일치. 사전 분포의 영향이 미미.
고차원/비모수 모형: 두 구간이 갈라질 수 있음. Bayesian credible interval 이 명목 95% 미만의 frequentist coverage 를 가질 수 있음.
이유: 고차원에서는 사전 분포의 영향이 데이터의 정보를 압도할 수 있음. 진짜 모수가 사전 분포에서 낮은 확률 영역에 있으면 Bayes 추정이 그쪽으로 끌려가지 않음.

이 차이는 모수 수가 늘 때 분산이 빠르게 증가하는 같은 현상의 다른 모습이다.

직관 — 두 구간 해석의 본질적 차이: 95% 신뢰구간은 “이런 절차로 구간을 계속 만들면 95% 의 구간이 진짜 모수를 포함” — 빈도 기반 보장. 95% credible interval 은 “주어진 데이터 아래에서 진짜 모수가 이 구간 안에 있을 사후 확률 95%” — 사후 확률 기반. 단순 모형 + 큰 표본에서는 데이터가 사전 분포를 압도해 두 해석이 같은 숫자를 가리키지만, 모수 수가 표본 수에 가까워지면 사전 분포의 영향이 살아나 두 구간이 갈라진다.

직관 — 사전 분포가 영향력을 발휘하는 임계점: 모수 수 \(p\), 표본 수 \(n\) 에서 \(p/n\) 이 작으면 데이터의 가능도(likelihood) 가 사후 분포를 결정한다. \(p/n\) 이 1 에 가까워지면 가능도가 평탄해져 사전 분포의 형태가 사후 분포 모양을 결정한다. 모수 수가 표본 수의 수십 분의 1 이하인 영역에서만 베이즈와 빈도가 같은 답을 준다 — 그 밖에서는 사전 분포 선택이 결과에 본질적으로 영향을 미친다.

13 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

Bias-Variance 분해 — ML 관점의 같은 트레이드오프
모형 선택 기준 — AIC/BIC/CV 의 통계적 토대
차원의 저주 — 분산 폭발의 기하학적 원인