Kwangmin Kim - Brier Score 와 외래 변수

1 Brier Score — 종합 정확도

정의: Brier Score

\[\text{BS} = \frac{1}{n} \sum_{i=1}^n (\hat r_i - Y_i)^2\]

작을수록 좋음.
Range: 0 ~ 1 (이항).

(Brier, 1950).

1.1 직관 — BS 의 의미

직관 3 단계: BS 의 종합성

추상 정의: 예측 확률과 진성 결과의 squared error. AUC + calibration 의 종합 측도.
일상어 비유: 일기 예보의 정확도 — “비 30%” 예측이 진성 비 (1) 또는 무비 (0) 와 얼마나 가까운가.
반사실 시나리오: BS 가 작아도 모형의 본성 (calibration vs discrimination) 모름 → 분해 필요.

2 BS 의 분해

정의: Brier Score Decomposition

\[\text{BS} = \text{Reliability} - \text{Resolution} + \text{Uncertainty}\]

Uncertainty: \(\bar Y (1 - \bar Y)\) — 자료의 본성. 모형 무관.
Reliability (calibration): \(\frac{1}{n} \sum_g n_g (\bar{\hat r}_g - \bar Y_g)^2\) — 작을수록 좋음.
Resolution (discrimination): \(\frac{1}{n} \sum_g n_g (\bar Y_g - \bar Y)^2\) — 클수록 좋음.

(Murphy, 1973).

2.1 직관 — 3 component 의 의미

직관 3 단계: 분해의 가치

Uncertainty: 자료가 얼마나 예측 어려운가. 모형 통제 불가.
Reliability: 예측 확률의 정직성 (= calibration).
Resolution: 모형이 위험 ↑ vs ↓ 그룹 구분 능력 (= discrimination).

3 단계 직관:

추상 정의: BS 의 작은 값은 reliability ↓ + resolution ↑ 의 결합.
일상어 비유: 시험 점수 — 점수의 정직성 + 학생 분류 능력.
반사실 시나리오: BS 만 보면 어느 component 의 강·약점인지 모름. 분해가 진단 도구.

3 Scaled Brier Score

정의: Brier Skill Score (BSS)

\[\text{BSS} = 1 - \frac{\text{BS}_{\text{model}}}{\text{BS}_{\text{reference}}}\]

여기서 reference = 모든 사람에 평균 위험 \(\bar Y\) 예측.

BSS = 0 → 모형이 reference 와 동등. BSS = 1 → 완벽 모형. BSS < 0 → 모형이 reference 보다 나쁨.

직관: BSS 의 활용

추상 정의: BS 의 표준화 — 자료 간 비교 가능.
일상어 비유: R² 의 binary 판 — 모형의 설명력 비율.
반사실 시나리오: BS 만으로 모형 비교 어려움 (자료 의존). BSS 가 표준 도구.

4 13.8 Extraneous Variable

가정 위반: 외래 변수의 함정

Extraneous = 결과와 무관 변수.

문제: 모형에 추가 시: - AUC 약간 ↑ (자료 noise 적합). - Calibration 부정확. - Over-fit.

3 단계 직관:

추상 정의: 변수의 진성 효과 0 이지만 자료 noise 와 우연 상관. Out-of-sample 에서 효과 무관.
일상어 비유: 시험 모의고사에 “학생 이름 길이” 변수 추가 — 우연 상관 가능 but 진성 효과 0.
반사실 시나리오: 변수 선택 없이 모든 변수 추가 → over-fit. Cross-validation 또는 정규화 (Lasso) 가 회피.

4.1 Multiple Testing 의 함정

가정 위반: 변수 후보 다수 + cherry-picking

가설: 100 개 변수 중 가장 유의한 5 개 선택 → 모형.

문제: \(\alpha = 0.05\) 에서 5 개 false positive 기대 (귀무 시).

3 단계 직관:

추상 정의: 변수 선택 자체가 multiple testing — Bonferroni 보정 필요.
일상어 비유: 다수 시험 후 통과한 시험만 보고 — 부정 행위 위험.
반사실 시나리오: 사전 지정 변수 (인과 그래프 기반) + cross-validation 으로 over-fit 회피.

5 Penalized Regression — Over-fit 회피

정의: Lasso, Ridge, Elastic Net

Lasso (L1): \[\hat\beta = \arg\min \left\{ -\log L(\beta) + \lambda \sum_j |\beta_j| \right\}\]

L1 penalty 가 일부 \(\beta_j\) 를 정확히 0 → 자동 변수 선택.

Ridge (L2): \[\hat\beta = \arg\min \left\{ -\log L(\beta) + \lambda \sum_j \beta_j^2 \right\}\]

L2 가 모든 \(\beta\) 축소 → over-fit 회피.

Elastic Net: L1 + L2 결합.

직관 3 단계: Penalty 의 효과

추상 정의: \(\lambda\) 가 vs over-fit (작은 \(\lambda\)) bias-variance trade-off 의 dial.
일상어 비유: 과도한 메모리 사용을 막는 부담금 — 가장 중요한 정보만 남김.
반사실 시나리오: \(\lambda\) 너무 크면 under-fit, 너무 작으면 over-fit. CV 로 최적 \(\lambda\) 선택.

5.1 Lasso 의 위험 모형 활용

from sklearn.linear_model import LogisticRegressionCV

# Cross-validated Lasso
lasso_cv = LogisticRegressionCV(penalty="l1", solver="liblinear", cv=10)
lasso_cv.fit(X_train, y_train)

# 선택된 변수 (β ≠ 0)
selected = np.where(lasso_cv.coef_[0] != 0)[0]
print(f"Selected variables: {selected}")

# 새 자료의 예측
y_pred = lasso_cv.predict_proba(X_test)[:, 1]

6 Cross-Validation

정의: K-fold CV

자료를 \(K\) 분할 → 각 분할을 test 로, 나머지를 train.

5-fold CV: 5 분할. 10-fold CV: 표준. Leave-one-out: \(K = n\).

직관 3 단계: CV 의 가치

추상 정의: Out-of-sample 검증 — 진성 generalization 능력.
일상어 비유: 시험 자료로 채점 vs 새 자료로 채점. 후자가 진성 평가.
반사실 시나리오: In-sample 평가만 보면 over-fit 못 잡음. CV 가 표준.

7 A/B 테스트의 Brier Score

사례: A/B 의 conversion 예측 평가

from sklearn.metrics import brier_score_loss

y_pred = model.predict_proba(X_test)[:, 1]
bs = brier_score_loss(y_test, y_pred)

# Reference (mean prediction)
bs_ref = np.mean((y_test.mean() - y_test)**2)
bss = 1 - bs / bs_ref
print(f"BS: {bs:.4f}")
print(f"BSS: {bss:.4f}")

3 단계 직관:

추상 정의: BSS > 0 → 모형이 단순 평균보다 나음.
일상어 비유: 정밀 도구가 대충 도구보다 나은 정도.
반사실 시나리오: BSS 작음 → 모형의 정보 가치 ↓. AUC 도 함께 평가.

8 Brier Score Decomposition 의 시각화

사례: BS 분해의 임상 활용

가설: 두 모형 비교.

모형	BS	Reliability	Resolution	Uncertainty
Model A	0.18	0.02	0.04	0.20
Model B	0.16	0.05	0.09	0.20

해석: - A: Reliability ↑ (calibrated), Resolution ↓ (분류 약). BS 평균. - B: Reliability ↓ (calibration 부정확), Resolution ↑ (분류 ↑). 작은 BS.

3 단계 직관:

추상 정의: BS 가 작은 모형 (B) 이 좋은가? 한 dimension (resolution) 에서만 우월.
일상어 비유: 시험 — 점수 정직성 vs 학생 분류력. 다른 강점.
반사실 시나리오: BS 만 보면 B 우월. Decomposition 가 더 풍부 정보. 임상 활용에 따라 다른 모형 선택.

9 Cross-Validation 의 종류

정의: 5 가지 CV 종류

1. Hold-out (split): - 자료를 train/test 분할 (70/30). - 단순하나 자료 효율 ↓.

2. K-fold CV (가장 흔함): - \(K\) 분할, 각 분할이 test → 평균. - 5-fold 또는 10-fold 표준.

3. Stratified K-fold: - 각 fold 의 결과 분포 균등 보존. - 희귀 결과 자료에 필수.

4. Leave-one-out (LOO): - \(K = n\). - 작은 자료에 적합. 계산 부담 ↑.

5. Repeated CV: - K-fold 를 여러 번 반복. - 분산 ↓.

직관 3 단계: CV 종류 선정

추상 정의: 자료 크기 + 결과 prevalence 가 결정.
일상어 비유: 시험 검증 — 1 회 모의고사 vs 5 회 모의고사 평균. 후자가 안정.
반사실 시나리오: 작은 자료 + 희귀 결과 → stratified K-fold 또는 repeated 권장. 큰 자료 + 흔한 결과 → 단순 hold-out OK.

10 Lasso vs Ridge vs Elastic Net 비교

정의: 3 정규화 비교

방법	Penalty	효과
Lasso (L1)	\(\sum \|\beta_j\|\)	일부 \(\beta = 0\) — 자동 변수 선택
Ridge (L2)	\(\sum \beta_j^2\)	모든 \(\beta\) 축소 — over-fit 회피
Elastic Net	\(\alpha L_1 + (1-\alpha) L_2\)	둘 다 결합

직관 3 단계: 3 방법의 분업

Lasso: 변수 다수 + 일부만 진성 → 자동 선택.
Ridge: 모든 변수 약한 효과 + 다중공선성 → 안정 추정.
Elastic Net: 강한 상관 + 변수 선택 모두 필요 → 균형.

3 단계 직관:

추상 정의: Penalty 형태가 변수 선택 행동 결정.
일상어 비유: Lasso = 가방의 가장 무거운 짐만 남김. Ridge = 모든 짐 무게 ↓. Elastic = 둘 다.
반사실 시나리오: 자료 + 가설에 따라 방법 결정. CV 로 검증 + 비교.

10.1 Lasso 의 한계

가정 위반: Lasso 의 한계

상관 변수: Lasso 가 두 강한 상관 변수 중 한 개만 선택 (임의).
인과 추론: Lasso 가 변수 선택 알고리즘 — 인과 그래프 무시.
CI 산출 어려움: post-selection inference 부정확.

3 단계 직관:

추상 정의: Lasso 가 예측 도구 — 인과 도구 아님.
일상어 비유: 자동 분류 알고리즘 — 분류 정확도 ↑ but 분류 이유 모호.
반사실 시나리오: 인과 분석은 DAG 기반 변수 선택. Lasso 는 prognosis 우선.

11 Q&A — BS 와 Over-fit 의 흔한 오해

Q1: BS 가 작으면 항상 좋은 모형?

A: 아니다. Reliability 와 Resolution 의 trade-off 점검.

3 단계 직관:

추상 정의: BS = R - R + U. Reliability 만 ↑ (calibrated but 분류력 ↓) 또는 Resolution 만 ↑ (분류력 but 부정확).
일상어 비유: 시험 점수 + 학생 분류 모두 평가.
반사실 시나리오: BS 만 보면 한 dimension 만. Decomposition 이 진성 평가.

Q2: 100 개 변수 중 강한 predictor 만 선택?

A: Cross-validation + 정규화 (Lasso) 권장.

3 단계 직관:

추상 정의: 단순 p-value 기반 stepwise 는 over-fit. CV 기반 selection 이 robust.
일상어 비유: 시험 답안에 모든 정보 추가 vs 핵심만 — 후자가 일반화 ↑.
반사실 시나리오: 모든 변수 사용 시 train AUC ↑ but test AUC ↓. Lasso 가 자동 균형.

Q3: AUC 와 BS 가 다른 결과를 주면?

A: 다른 dimension — 둘 다 보고.

3 단계 직관:

추상 정의: AUC = rank, BS = absolute. 다른 평가.
일상어 비유: 시험 등수 (rank) vs 정답률 (absolute). 둘 다 평가.
반사실 시나리오: AUC 0.85 + BS 0.18 — rank 좋지만 절대 정확도 약. Calibration 점검.

12 결론

BS = reliability + resolution + uncertainty 의 분해. BSS 가 표준화 도구. 외래 변수의 over-fit 위험 — penalized regression + CV 가 회피 도구. AUC 와 BS 가 다른 dimension — 둘 다 보고. Cross-validation 종류 선정 (자료 크기 + prevalence 기반) 이 robustness 의 핵심.

다음 글 (H-WOO13-8) 에서 NRI, IDI 의 reclassification 도구를 본다.

1 Brier Score — 종합 정확도

1.1 직관 — BS 의 의미

2 BS 의 분해

2.1 직관 — 3 component 의 의미

3 Scaled Brier Score

4 13.8 Extraneous Variable

4.1 Multiple Testing 의 함정

5 Penalized Regression — Over-fit 회피

5.1 Lasso 의 위험 모형 활용

6 Cross-Validation

7 A/B 테스트의 Brier Score

8 Brier Score Decomposition 의 시각화

9 Cross-Validation 의 종류

10 Lasso vs Ridge vs Elastic Net 비교

10.1 Lasso 의 한계

11 Q&A — BS 와 Over-fit 의 흔한 오해

12 결론

13 관련 주제