1 Brier Score — 종합 정확도
\[\text{BS} = \frac{1}{n} \sum_{i=1}^n (\hat r_i - Y_i)^2\]
- 작을수록 좋음.
- Range: 0 ~ 1 (이항).
(Brier, 1950).
1.1 직관 — BS 의 의미
- 추상 정의: 예측 확률과 진성 결과의 squared error. AUC + calibration 의 종합 측도.
- 일상어 비유: 일기 예보의 정확도 — “비 30%” 예측이 진성 비 (1) 또는 무비 (0) 와 얼마나 가까운가.
- 반사실 시나리오: BS 가 작아도 모형의 본성 (calibration vs discrimination) 모름 → 분해 필요.
2 BS 의 분해
\[\text{BS} = \text{Reliability} - \text{Resolution} + \text{Uncertainty}\]
- Uncertainty: \(\bar Y (1 - \bar Y)\) — 자료의 본성. 모형 무관.
- Reliability (calibration): \(\frac{1}{n} \sum_g n_g (\bar{\hat r}_g - \bar Y_g)^2\) — 작을수록 좋음.
- Resolution (discrimination): \(\frac{1}{n} \sum_g n_g (\bar Y_g - \bar Y)^2\) — 클수록 좋음.
(Murphy, 1973).
2.1 직관 — 3 component 의 의미
- Uncertainty: 자료가 얼마나 예측 어려운가. 모형 통제 불가.
- Reliability: 예측 확률의 정직성 (= calibration).
- Resolution: 모형이 위험 ↑ vs ↓ 그룹 구분 능력 (= discrimination).
3 단계 직관:
- 추상 정의: BS 의 작은 값은 reliability ↓ + resolution ↑ 의 결합.
- 일상어 비유: 시험 점수 — 점수의 정직성 + 학생 분류 능력.
- 반사실 시나리오: BS 만 보면 어느 component 의 강·약점인지 모름. 분해가 진단 도구.
3 Scaled Brier Score
\[\text{BSS} = 1 - \frac{\text{BS}_{\text{model}}}{\text{BS}_{\text{reference}}}\]
여기서 reference = 모든 사람에 평균 위험 \(\bar Y\) 예측.
BSS = 0 → 모형이 reference 와 동등. BSS = 1 → 완벽 모형. BSS < 0 → 모형이 reference 보다 나쁨.
- 추상 정의: BS 의 표준화 — 자료 간 비교 가능.
- 일상어 비유: R² 의 binary 판 — 모형의 설명력 비율.
- 반사실 시나리오: BS 만으로 모형 비교 어려움 (자료 의존). BSS 가 표준 도구.
4 13.8 Extraneous Variable
Extraneous = 결과와 무관 변수.
문제: 모형에 추가 시: - AUC 약간 ↑ (자료 noise 적합). - Calibration 부정확. - Over-fit.
3 단계 직관:
- 추상 정의: 변수의 진성 효과 0 이지만 자료 noise 와 우연 상관. Out-of-sample 에서 효과 무관.
- 일상어 비유: 시험 모의고사에 “학생 이름 길이” 변수 추가 — 우연 상관 가능 but 진성 효과 0.
- 반사실 시나리오: 변수 선택 없이 모든 변수 추가 → over-fit. Cross-validation 또는 정규화 (Lasso) 가 회피.
4.1 Multiple Testing 의 함정
가설: 100 개 변수 중 가장 유의한 5 개 선택 → 모형.
문제: \(\alpha = 0.05\) 에서 5 개 false positive 기대 (귀무 시).
3 단계 직관:
- 추상 정의: 변수 선택 자체가 multiple testing — Bonferroni 보정 필요.
- 일상어 비유: 다수 시험 후 통과한 시험만 보고 — 부정 행위 위험.
- 반사실 시나리오: 사전 지정 변수 (인과 그래프 기반) + cross-validation 으로 over-fit 회피.
5 Penalized Regression — Over-fit 회피
Lasso (L1): \[\hat\beta = \arg\min \left\{ -\log L(\beta) + \lambda \sum_j |\beta_j| \right\}\]
L1 penalty 가 일부 \(\beta_j\) 를 정확히 0 → 자동 변수 선택.
Ridge (L2): \[\hat\beta = \arg\min \left\{ -\log L(\beta) + \lambda \sum_j \beta_j^2 \right\}\]
L2 가 모든 \(\beta\) 축소 → over-fit 회피.
Elastic Net: L1 + L2 결합.
- 추상 정의: \(\lambda\) 가 vs over-fit (작은 \(\lambda\)) bias-variance trade-off 의 dial.
- 일상어 비유: 과도한 메모리 사용을 막는 부담금 — 가장 중요한 정보만 남김.
- 반사실 시나리오: \(\lambda\) 너무 크면 under-fit, 너무 작으면 over-fit. CV 로 최적 \(\lambda\) 선택.
5.1 Lasso 의 위험 모형 활용
from sklearn.linear_model import LogisticRegressionCV
# Cross-validated Lasso
lasso_cv = LogisticRegressionCV(penalty="l1", solver="liblinear", cv=10)
lasso_cv.fit(X_train, y_train)
# 선택된 변수 (β ≠ 0)
selected = np.where(lasso_cv.coef_[0] != 0)[0]
print(f"Selected variables: {selected}")
# 새 자료의 예측
y_pred = lasso_cv.predict_proba(X_test)[:, 1]6 Cross-Validation
자료를 \(K\) 분할 → 각 분할을 test 로, 나머지를 train.
5-fold CV: 5 분할. 10-fold CV: 표준. Leave-one-out: \(K = n\).
- 추상 정의: Out-of-sample 검증 — 진성 generalization 능력.
- 일상어 비유: 시험 자료로 채점 vs 새 자료로 채점. 후자가 진성 평가.
- 반사실 시나리오: In-sample 평가만 보면 over-fit 못 잡음. CV 가 표준.
7 A/B 테스트의 Brier Score
from sklearn.metrics import brier_score_loss
y_pred = model.predict_proba(X_test)[:, 1]
bs = brier_score_loss(y_test, y_pred)
# Reference (mean prediction)
bs_ref = np.mean((y_test.mean() - y_test)**2)
bss = 1 - bs / bs_ref
print(f"BS: {bs:.4f}")
print(f"BSS: {bss:.4f}")3 단계 직관:
- 추상 정의: BSS > 0 → 모형이 단순 평균보다 나음.
- 일상어 비유: 정밀 도구가 대충 도구보다 나은 정도.
- 반사실 시나리오: BSS 작음 → 모형의 정보 가치 ↓. AUC 도 함께 평가.
8 Brier Score Decomposition 의 시각화
가설: 두 모형 비교.
| 모형 | BS | Reliability | Resolution | Uncertainty |
|---|---|---|---|---|
| Model A | 0.18 | 0.02 | 0.04 | 0.20 |
| Model B | 0.16 | 0.05 | 0.09 | 0.20 |
해석: - A: Reliability ↑ (calibrated), Resolution ↓ (분류 약). BS 평균. - B: Reliability ↓ (calibration 부정확), Resolution ↑ (분류 ↑). 작은 BS.
3 단계 직관:
- 추상 정의: BS 가 작은 모형 (B) 이 좋은가? 한 dimension (resolution) 에서만 우월.
- 일상어 비유: 시험 — 점수 정직성 vs 학생 분류력. 다른 강점.
- 반사실 시나리오: BS 만 보면 B 우월. Decomposition 가 더 풍부 정보. 임상 활용에 따라 다른 모형 선택.
9 Cross-Validation 의 종류
1. Hold-out (split): - 자료를 train/test 분할 (70/30). - 단순하나 자료 효율 ↓.
2. K-fold CV (가장 흔함): - \(K\) 분할, 각 분할이 test → 평균. - 5-fold 또는 10-fold 표준.
3. Stratified K-fold: - 각 fold 의 결과 분포 균등 보존. - 희귀 결과 자료에 필수.
4. Leave-one-out (LOO): - \(K = n\). - 작은 자료에 적합. 계산 부담 ↑.
5. Repeated CV: - K-fold 를 여러 번 반복. - 분산 ↓.
- 추상 정의: 자료 크기 + 결과 prevalence 가 결정.
- 일상어 비유: 시험 검증 — 1 회 모의고사 vs 5 회 모의고사 평균. 후자가 안정.
- 반사실 시나리오: 작은 자료 + 희귀 결과 → stratified K-fold 또는 repeated 권장. 큰 자료 + 흔한 결과 → 단순 hold-out OK.
10 Lasso vs Ridge vs Elastic Net 비교
| 방법 | Penalty | 효과 |
|---|---|---|
| Lasso (L1) | \(\sum |\beta_j|\) | 일부 \(\beta = 0\) — 자동 변수 선택 |
| Ridge (L2) | \(\sum \beta_j^2\) | 모든 \(\beta\) 축소 — over-fit 회피 |
| Elastic Net | \(\alpha L_1 + (1-\alpha) L_2\) | 둘 다 결합 |
- Lasso: 변수 다수 + 일부만 진성 → 자동 선택.
- Ridge: 모든 변수 약한 효과 + 다중공선성 → 안정 추정.
- Elastic Net: 강한 상관 + 변수 선택 모두 필요 → 균형.
3 단계 직관:
- 추상 정의: Penalty 형태가 변수 선택 행동 결정.
- 일상어 비유: Lasso = 가방의 가장 무거운 짐만 남김. Ridge = 모든 짐 무게 ↓. Elastic = 둘 다.
- 반사실 시나리오: 자료 + 가설에 따라 방법 결정. CV 로 검증 + 비교.
10.1 Lasso 의 한계
- 상관 변수: Lasso 가 두 강한 상관 변수 중 한 개만 선택 (임의).
- 인과 추론: Lasso 가 변수 선택 알고리즘 — 인과 그래프 무시.
- CI 산출 어려움: post-selection inference 부정확.
3 단계 직관:
- 추상 정의: Lasso 가 예측 도구 — 인과 도구 아님.
- 일상어 비유: 자동 분류 알고리즘 — 분류 정확도 ↑ but 분류 이유 모호.
- 반사실 시나리오: 인과 분석은 DAG 기반 변수 선택. Lasso 는 prognosis 우선.
11 Q&A — BS 와 Over-fit 의 흔한 오해
A: 아니다. Reliability 와 Resolution 의 trade-off 점검.
3 단계 직관:
- 추상 정의: BS = R - R + U. Reliability 만 ↑ (calibrated but 분류력 ↓) 또는 Resolution 만 ↑ (분류력 but 부정확).
- 일상어 비유: 시험 점수 + 학생 분류 모두 평가.
- 반사실 시나리오: BS 만 보면 한 dimension 만. Decomposition 이 진성 평가.
A: Cross-validation + 정규화 (Lasso) 권장.
3 단계 직관:
- 추상 정의: 단순 p-value 기반 stepwise 는 over-fit. CV 기반 selection 이 robust.
- 일상어 비유: 시험 답안에 모든 정보 추가 vs 핵심만 — 후자가 일반화 ↑.
- 반사실 시나리오: 모든 변수 사용 시 train AUC ↑ but test AUC ↓. Lasso 가 자동 균형.
A: 다른 dimension — 둘 다 보고.
3 단계 직관:
- 추상 정의: AUC = rank, BS = absolute. 다른 평가.
- 일상어 비유: 시험 등수 (rank) vs 정답률 (absolute). 둘 다 평가.
- 반사실 시나리오: AUC 0.85 + BS 0.18 — rank 좋지만 절대 정확도 약. Calibration 점검.
12 결론
BS = reliability + resolution + uncertainty 의 분해. BSS 가 표준화 도구. 외래 변수의 over-fit 위험 — penalized regression + CV 가 회피 도구. AUC 와 BS 가 다른 dimension — 둘 다 보고. Cross-validation 종류 선정 (자료 크기 + prevalence 기반) 이 robustness 의 핵심.
다음 글 (H-WOO13-8) 에서 NRI, IDI 의 reclassification 도구를 본다.
13 관련 주제
- Calibration
- Recalibration
- 1111-11-11, Reclassification (NRI, IDI)