1 Risk Score 의 정체성
위험 인자에서 개인의 결과 발생 확률을 예측하는 통계 모형 (Woodward, 2014, Ch.13).
예시: - Framingham Risk Score: 10 년 CV 사건 위험. - CHA₂DS₂-VASc: 심방세동 환자의 stroke 위험. - MELD score: 간 이식 우선순위. - EuroSCORE: 심장 수술 사망률.
1.1 Population vs Individual Level
- 추상 정의: Logistic·Cox 의 회귀 계수가 인구 수준 효과 (RR, OR, HR). Risk score 는 개인 수준 위험 예측.
- 일상어 비유: 의사가 “흡연이 폐암 위험 ↑” 알지만 환자에게 “당신의 5 년 폐암 위험 3%” 처럼 개인 위험 예측 필요.
- 반사실 시나리오: 인구 수준 효과만으로 임상 의사 결정 어려움. 개인 위험 예측이 환자 의사소통 도구.
2 Ch.13 전체 구조
WOO Ch.13 — Risk Scores·Decision Rules
│
├── 13.1 Intro (Population vs Individual) → H-WOO13-1
├── 13.2 Association vs Prognosis → H-WOO13-2
├── 13.3 Risk score from statistical models → H-WOO13-3
├── 13.4 ROC + AUC → H-WOO13-4
├── 13.5 Calibration → H-WOO13-5
├── 13.6 Recalibration → H-WOO13-6
├── 13.7 Brier Score + Accuracy → H-WOO13-7
├── 13.8 Extraneous variable → H-WOO13-7
├── 13.9 Reclassification (NRI, IDI) → H-WOO13-8
├── 13.10 Validation → H-WOO13-9
├── 13.11 Presentation → H-WOO13-9
└── 13.12 Impact studies → H-WOO13-9
3 13.1 Population vs Individual Intervention
Population-level: - 모든 인구에 일률적 개입 (예: 백신, 식이 가이드라인). - 작은 효과 × 큰 인구 = 큰 인구 단위 영향.
Individual-level: - 위험 ↑ 개인에 표적 개입 (예: statin, 항응고제). - 큰 효과 × 작은 인구 = 정밀 의료.
(Rose, 1985; Woodward, 2014, Ch.13.1).
- 추상 정의: 개인 수준 효과 (RR) 가 작아도 인구 수준 영향 큼 (Population Attributable Risk).
- 일상어 비유: 모든 사람이 BP 1 mmHg 낮춤 → 인구 단위 stroke 사망 ↓ 큼. 1 명만 보면 미미.
- 반사실 시나리오: Risk score 가 individual 수준 도구 — population 수준 분석은 별도.
4 13.2 Association vs Prognosis
Association (인과): - 변수가 결과의 원인인가? - Confounder 통제 + 인과 추론. - 출력: Adjusted OR/HR.
Prognosis (예측): - 변수가 결과 예측에 유용한가? - 인과 무관, 예측 정확도만 평가. - 출력: AUC, calibration.
- 추상 정의: Association 은 인과, prognosis 는 상관. 다른 도구.
- 일상어 비유: 학력-소득 — 학력이 소득의 원인인가 (association) vs 학력이 소득 예측에 유용한가 (prognosis). 두 답이 다를 수 있음.
- 반사실 시나리오: 예측 모형은 confounder 도 좋은 predictor. 인과 모형은 confounder 통제. 같은 변수의 다른 활용.
4.1 Discrimination Threshold
위험 ↑ vs ↓ 그룹을 구분하는 능력. 이분 결과의 ROC, continuous 의 R².
Threshold-dependent: 사후 확률 임계값 (예: 5%, 10%) 의 분류 정확도. Threshold-free: ROC AUC.
5 13.3 Risk Score from Statistical Models
Logistic regression: \[\text{Score} = \hat\beta^T X \quad \to \quad \hat r = 1/(1 + e^{-\text{Score}})\]
Cox regression: \[\text{Score} = \hat\beta^T X \quad \to \quad \hat S(t \mid X) = S_0(t)^{\exp(\text{Score})}\]
Multiple-stage: 단계별 위험 인자 추가 후 score 갱신.
상세는 H-WOO13-3 에서.
6 13.4 ROC + AUC — Discrimination
각 cut-point 의 (1-Specificity, Sensitivity) 쌍을 plot.
AUC (Area Under Curve): - 0.5 = random. - 1.0 = perfect. - Hosmer 가이드: 0.7~0.8 acceptable, 0.8~0.9 excellent.
(Woodward, 2014, Ch.13.4).
- 추상 정의: 무작위 case + 무작위 control 쌍에서 case 의 score 가 control 보다 높을 확률.
- 일상어 비유: 시험 점수 — 합격자가 불합격자보다 높은 점수일 확률.
- 반사실 시나리오: AUC 0.5 = 두 그룹 구별 0. 1.0 = 완벽 구별. 임상에서 0.7~0.8 이 일반적 acceptable.
상세는 H-WOO13-4 에서.
7 13.5~13.6 Calibration + Recalibration
예측 확률 = 진성 발생률.
\[\hat r = 0.10 \quad \Rightarrow \quad P(Y = 1) \approx 0.10\]
Plot: 예측 확률 deciles vs 관찰 비율. 대각선 (y=x) 에 가까우면 calibrated.
Hosmer-Lemeshow test: deciles 별 chi-square.
- 추상 정의: 모형의 예측이 진성 위험을 정직히 반영. AUC 와 다른 dimension.
- 일상어 비유: 일기예보 — “비 30%” 의 예측이 진성 30% 비 빈도와 일치.
- 반사실 시나리오: AUC 높지만 calibration 부정 가능 (예: 모든 위험 → 50% 예측 평탄화). 두 도구 모두 평가 필요.
7.1 Recalibration
다른 인구에 모형 적용 시 calibration 유지 안 됨 → 보정.
옵션: - Intercept update: \(\hat\beta_0\) 만 재추정. - Slope update: 모든 \(\hat\beta\) scale. - Full re-estimation: 모든 모수 재추정.
상세는 H-WOO13-5, 13-6 에서.
8 13.7 Brier Score — 정확도
\[\text{BS} = \frac{1}{n} \sum_{i=1}^n (\hat r_i - Y_i)^2\]
작을수록 좋음. Range 0~1 (이항 결과).
Decomposition: BS = Reliability + Resolution + Uncertainty.
- 추상 정의: BS 가 calibration + discrimination 의 결합 측도.
- 일상어 비유: 시험 점수 + 등수 결합 측도.
- 반사실 시나리오: AUC + calibration 가 별도 평가, BS 가 통합. 두 접근 모두 활용.
9 13.9 Reclassification — NRI, IDI
새 변수 추가 시 위험 카테고리 변경의 효과.
NRI (Net Reclassification Improvement): \[\text{NRI} = (P(\uparrow \mid Y=1) - P(\downarrow \mid Y=1)) + (P(\downarrow \mid Y=0) - P(\uparrow \mid Y=0))\]
IDI (Integrated Discrimination Improvement): \[\text{IDI} = (\bar{\hat r}_{\text{new}}^{Y=1} - \bar{\hat r}_{\text{old}}^{Y=1}) - (\bar{\hat r}_{\text{new}}^{Y=0} - \bar{\hat r}_{\text{old}}^{Y=0})\]
상세는 H-WOO13-8 에서.
10 13.10 Validation
Internal: Same dataset (split, bootstrap, k-fold CV). External: 다른 인구·시점 자료.
External 이 진성 모형 검증.
상세는 H-WOO13-9 에서.
11 결론 — Ch.13 시리즈 길잡이
| 글 | 주제 |
|---|---|
| H-WOO13-0 (이 글) | Overview |
| H-WOO13-1 | Population vs Individual |
| H-WOO13-2 | Association vs Prognosis |
| H-WOO13-3 | Risk score from logistic·Cox |
| H-WOO13-4 | ROC + AUC |
| H-WOO13-5 | Calibration |
| H-WOO13-6 | Recalibration |
| H-WOO13-7 | Brier Score + Extraneous |
| H-WOO13-8 | Reclassification (NRI, IDI) |
| H-WOO13-9 | Validation + Presentation + Impact |
12 Risk Score 의 역사 — 50 년의 발전
| 연도 | Score | 영역 |
|---|---|---|
| 1976 | Apgar | 신생아 |
| 1985 | Charlson | 만성 질환 부담 |
| 1989 | EuroSCORE | 심장 수술 사망 |
| 1991 | Framingham | 10 년 CV |
| 1996 | TIMI | 급성 관상동맥 |
| 2008 | CHA₂DS₂-VASc | AF stroke |
| 2013 | ASCVD (Pooled Cohort) | 미국 CV |
| 2016 | NICE QRISK3 | 영국 CV |
각 score 가 이전 score 의 한계 보완 + 새 변수 추가.
13 Score 의 4 가지 임상 활용
1. Diagnosis (진단): - 환자의 질병 가능성 평가. - 예: HEART score (chest pain → MI 가능성).
2. Prognosis (예후): - 환자의 미래 결과 예측. - 예: Framingham (10 년 CV).
3. Treatment Selection: - High-risk 만 처치 → 효율. - 예: CHA₂DS₂-VASc (항응고제).
4. Quality Benchmark: - 병원·의사의 quality 비교. - 예: STS Risk Calculator (수술 후 사망률).
- 추상 정의: 같은 통계 도구 (logistic·Cox) 의 다른 활용.
- 일상어 비유: 시험 점수의 4 활용 — 합격 결정, 학습 평가, 등급 분류, 학교 비교.
- 반사실 시나리오: 한 score 가 모든 활용에 적합하지 않을 수 있음. 활용별 다른 score 또는 cut-point.
14 Discrimination + Calibration + Decision
1. Discrimination: 위험 ↑ vs ↓ 그룹 구분 능력. - AUC, C-statistic.
2. Calibration: 예측 확률 = 진성 확률. - Calibration plot, slope, intercept.
3. Clinical Utility: 의사 결정의 net benefit. - Decision Curve Analysis, NNT.
- 추상 정의: AUC ↑ but calibration 부정확 가능. Calibration ↑ but utility ↓ 가능. 셋 모두 평가 필요.
- 일상어 비유: 시험 — 분류력 (등수), 점수 정확도, 임상 활용성 (실제 효과).
- 반사실 시나리오: 한 dimension 만 평가 시 임상 활용 위험. 종합 평가가 표준.
14.1 Decision Curve Analysis (DCA)
각 cut-point \(p\) 의 net benefit:
\[\text{Net Benefit} = \frac{TP}{n} - \frac{FP}{n} \cdot \frac{p}{1-p}\]
여러 cut-point 에서 plot → 어느 임계값에서 모형이 “treat all” 또는 “treat none” 보다 우월?
- 추상 정의: 의사 결정의 비용·이익 통합 평가.
- 일상어 비유: 광고 캠페인의 ROI — 모든 사용자 vs 일부 사용자 vs 무시.
- 반사실 시나리오: AUC 만 보면 임상 활용성 모름. DCA 가 의사 결정 직접.
15 Risk Score 의 함정
1. Over-fit: 변수 다수 + 작은 자료 → train AUC ↑ but test 부정확.
2. Inappropriate variables: Mediator, collider 포함 시 잘못된 결론.
3. External invalidity: 다른 인구에서 calibration 부정확.
4. Spectrum bias: 학습 자료의 spectrum 이 적용 자료와 다름.
5. Updating without re-validation: 모형 갱신 후 검증 부족.
- 추상 정의: TRIPOD 가이드라인 + Cross-validation + External validation 모두 적용.
- 일상어 비유: 시험 도구의 다단계 검증 — 1 회 시험 vs 모의고사 + 본 시험 + 후속.
- 반사실 시나리오: 단계 누락 시 임상 활용 위험. TRIPOD 가 표준.
16 A/B 테스트의 Risk Score Engineering
대규모 IT 회사의 사용자 분류 score:
1. Churn Risk: 이탈 가능성. 2. LTV Score: Lifetime value 예측. 3. Conversion Score: 구매 가능성. 4. Fraud Score: 사기 가능성. 5. Engagement Score: 활성도.
각 score 가 다른 caivariate + outcome.
3 단계 직관:
- 추상 정의: IT 의 personalization 의 통계 기초 = risk score.
- 일상어 비유: 보험 회사의 위험 분류 — 사고·소방·해상 등 별도 score.
- 반사실 시나리오: 단일 score 로 모든 의사 결정 시 정밀도 ↓. 다중 score 가 정확.
17 관련 주제
Phase B 크로스링크