Kwangmin Kim - Risk Scores 와 Clinical Decision Rules 개관

1 Risk Score 의 정체성

정의: Risk Score

위험 인자에서 개인의 결과 발생 확률을 예측하는 통계 모형 (Woodward, 2014, Ch.13).

예시: - Framingham Risk Score: 10 년 CV 사건 위험. - CHA₂DS₂-VASc: 심방세동 환자의 stroke 위험. - MELD score: 간 이식 우선순위. - EuroSCORE: 심장 수술 사망률.

1.1 Population vs Individual Level

직관 3 단계: 두 수준의 분업

추상 정의: Logistic·Cox 의 회귀 계수가 인구 수준 효과 (RR, OR, HR). Risk score 는 개인 수준 위험 예측.
일상어 비유: 의사가 “흡연이 폐암 위험 ↑” 알지만 환자에게 “당신의 5 년 폐암 위험 3%” 처럼 개인 위험 예측 필요.
반사실 시나리오: 인구 수준 효과만으로 임상 의사 결정 어려움. 개인 위험 예측이 환자 의사소통 도구.

2 Ch.13 전체 구조

WOO Ch.13 — Risk Scores·Decision Rules
│
├── 13.1 Intro (Population vs Individual)    → H-WOO13-1
├── 13.2 Association vs Prognosis           → H-WOO13-2
├── 13.3 Risk score from statistical models → H-WOO13-3
├── 13.4 ROC + AUC                          → H-WOO13-4
├── 13.5 Calibration                        → H-WOO13-5
├── 13.6 Recalibration                      → H-WOO13-6
├── 13.7 Brier Score + Accuracy             → H-WOO13-7
├── 13.8 Extraneous variable                → H-WOO13-7
├── 13.9 Reclassification (NRI, IDI)        → H-WOO13-8
├── 13.10 Validation                        → H-WOO13-9
├── 13.11 Presentation                      → H-WOO13-9
└── 13.12 Impact studies                    → H-WOO13-9

3 13.1 Population vs Individual Intervention

정의: 두 수준의 개입

Population-level: - 모든 인구에 일률적 개입 (예: 백신, 식이 가이드라인). - 작은 효과 × 큰 인구 = 큰 인구 단위 영향.

Individual-level: - 위험 ↑ 개인에 표적 개입 (예: statin, 항응고제). - 큰 효과 × 작은 인구 = 정밀 의료.

(Rose, 1985; Woodward, 2014, Ch.13.1).

직관 3 단계: Rose 의 역설

추상 정의: 개인 수준 효과 (RR) 가 작아도 인구 수준 영향 큼 (Population Attributable Risk).
일상어 비유: 모든 사람이 BP 1 mmHg 낮춤 → 인구 단위 stroke 사망 ↓ 큼. 1 명만 보면 미미.
반사실 시나리오: Risk score 가 individual 수준 도구 — population 수준 분석은 별도.

4 13.2 Association vs Prognosis

정의: 두 분석의 차이

Association (인과): - 변수가 결과의 원인인가? - Confounder 통제 + 인과 추론. - 출력: Adjusted OR/HR.

Prognosis (예측): - 변수가 결과 예측에 유용한가? - 인과 무관, 예측 정확도만 평가. - 출력: AUC, calibration.

직관 3 단계: 두 분석의 분업

추상 정의: Association 은 인과, prognosis 는 상관. 다른 도구.
일상어 비유: 학력-소득 — 학력이 소득의 원인인가 (association) vs 학력이 소득 예측에 유용한가 (prognosis). 두 답이 다를 수 있음.
반사실 시나리오: 예측 모형은 confounder 도 좋은 predictor. 인과 모형은 confounder 통제. 같은 변수의 다른 활용.

4.1 Discrimination Threshold

정의: Discrimination

위험 ↑ vs ↓ 그룹을 구분하는 능력. 이분 결과의 ROC, continuous 의 R².

Threshold-dependent: 사후 확률 임계값 (예: 5%, 10%) 의 분류 정확도. Threshold-free: ROC AUC.

5 13.3 Risk Score from Statistical Models

정의: 모형에서 Risk Score 산출

Logistic regression: \[\text{Score} = \hat\beta^T X \quad \to \quad \hat r = 1/(1 + e^{-\text{Score}})\]

Cox regression: \[\text{Score} = \hat\beta^T X \quad \to \quad \hat S(t \mid X) = S_0(t)^{\exp(\text{Score})}\]

Multiple-stage: 단계별 위험 인자 추가 후 score 갱신.

상세는 H-WOO13-3 에서.

6 13.4 ROC + AUC — Discrimination

정의: ROC

각 cut-point 의 (1-Specificity, Sensitivity) 쌍을 plot.

AUC (Area Under Curve): - 0.5 = random. - 1.0 = perfect. - Hosmer 가이드: 0.7~0.8 acceptable, 0.8~0.9 excellent.

(Woodward, 2014, Ch.13.4).

직관 3 단계: AUC 의 의미

추상 정의: 무작위 case + 무작위 control 쌍에서 case 의 score 가 control 보다 높을 확률.
일상어 비유: 시험 점수 — 합격자가 불합격자보다 높은 점수일 확률.
반사실 시나리오: AUC 0.5 = 두 그룹 구별 0. 1.0 = 완벽 구별. 임상에서 0.7~0.8 이 일반적 acceptable.

상세는 H-WOO13-4 에서.

7 13.5~13.6 Calibration + Recalibration

정의: Calibration

예측 확률 = 진성 발생률.

\[\hat r = 0.10 \quad \Rightarrow \quad P(Y = 1) \approx 0.10\]

Plot: 예측 확률 deciles vs 관찰 비율. 대각선 (y=x) 에 가까우면 calibrated.

Hosmer-Lemeshow test: deciles 별 chi-square.

직관 3 단계: Calibration 의 가치

추상 정의: 모형의 예측이 진성 위험을 정직히 반영. AUC 와 다른 dimension.
일상어 비유: 일기예보 — “비 30%” 의 예측이 진성 30% 비 빈도와 일치.
반사실 시나리오: AUC 높지만 calibration 부정 가능 (예: 모든 위험 → 50% 예측 평탄화). 두 도구 모두 평가 필요.

7.1 Recalibration

다른 인구에 모형 적용 시 calibration 유지 안 됨 → 보정.

옵션: - Intercept update: \(\hat\beta_0\) 만 재추정. - Slope update: 모든 \(\hat\beta\) scale. - Full re-estimation: 모든 모수 재추정.

상세는 H-WOO13-5, 13-6 에서.

8 13.7 Brier Score — 정확도

정의: Brier Score

\[\text{BS} = \frac{1}{n} \sum_{i=1}^n (\hat r_i - Y_i)^2\]

작을수록 좋음. Range 0~1 (이항 결과).

Decomposition: BS = Reliability + Resolution + Uncertainty.

직관: BS 의 다차원 정보

추상 정의: BS 가 calibration + discrimination 의 결합 측도.
일상어 비유: 시험 점수 + 등수 결합 측도.
반사실 시나리오: AUC + calibration 가 별도 평가, BS 가 통합. 두 접근 모두 활용.

9 13.9 Reclassification — NRI, IDI

정의: Reclassification

새 변수 추가 시 위험 카테고리 변경의 효과.

NRI (Net Reclassification Improvement): \[\text{NRI} = (P(\uparrow \mid Y=1) - P(\downarrow \mid Y=1)) + (P(\downarrow \mid Y=0) - P(\uparrow \mid Y=0))\]

IDI (Integrated Discrimination Improvement): \[\text{IDI} = (\bar{\hat r}_{\text{new}}^{Y=1} - \bar{\hat r}_{\text{old}}^{Y=1}) - (\bar{\hat r}_{\text{new}}^{Y=0} - \bar{\hat r}_{\text{old}}^{Y=0})\]

상세는 H-WOO13-8 에서.

10 13.10 Validation

정의: 두 종류

Internal: Same dataset (split, bootstrap, k-fold CV). External: 다른 인구·시점 자료.

External 이 진성 모형 검증.

상세는 H-WOO13-9 에서.

11 결론 — Ch.13 시리즈 길잡이

글	주제
H-WOO13-0 (이 글)	Overview
H-WOO13-1	Population vs Individual
H-WOO13-2	Association vs Prognosis
H-WOO13-3	Risk score from logistic·Cox
H-WOO13-4	ROC + AUC
H-WOO13-5	Calibration
H-WOO13-6	Recalibration
H-WOO13-7	Brier Score + Extraneous
H-WOO13-8	Reclassification (NRI, IDI)
H-WOO13-9	Validation + Presentation + Impact

12 Risk Score 의 역사 — 50 년의 발전

정의: 주요 Risk Score 의 역사

연도	Score	영역
1976	Apgar	신생아
1985	Charlson	만성 질환 부담
1989	EuroSCORE	심장 수술 사망
1991	Framingham	10 년 CV
1996	TIMI	급성 관상동맥
2008	CHA₂DS₂-VASc	AF stroke
2013	ASCVD (Pooled Cohort)	미국 CV
2016	NICE QRISK3	영국 CV

각 score 가 이전 score 의 한계 보완 + 새 변수 추가.

13 Score 의 4 가지 임상 활용

정의: Risk Score 의 활용

1. Diagnosis (진단): - 환자의 질병 가능성 평가. - 예: HEART score (chest pain → MI 가능성).

2. Prognosis (예후): - 환자의 미래 결과 예측. - 예: Framingham (10 년 CV).

3. Treatment Selection: - High-risk 만 처치 → 효율. - 예: CHA₂DS₂-VASc (항응고제).

4. Quality Benchmark: - 병원·의사의 quality 비교. - 예: STS Risk Calculator (수술 후 사망률).

직관 3 단계: 4 활용의 분업

추상 정의: 같은 통계 도구 (logistic·Cox) 의 다른 활용.
일상어 비유: 시험 점수의 4 활용 — 합격 결정, 학습 평가, 등급 분류, 학교 비교.
반사실 시나리오: 한 score 가 모든 활용에 적합하지 않을 수 있음. 활용별 다른 score 또는 cut-point.

14 Discrimination + Calibration + Decision

정의: 모형 평가의 3 차원

1. Discrimination: 위험 ↑ vs ↓ 그룹 구분 능력. - AUC, C-statistic.

2. Calibration: 예측 확률 = 진성 확률. - Calibration plot, slope, intercept.

3. Clinical Utility: 의사 결정의 net benefit. - Decision Curve Analysis, NNT.

직관 3 단계: 3 차원의 직교성

추상 정의: AUC ↑ but calibration 부정확 가능. Calibration ↑ but utility ↓ 가능. 셋 모두 평가 필요.
일상어 비유: 시험 — 분류력 (등수), 점수 정확도, 임상 활용성 (실제 효과).
반사실 시나리오: 한 dimension 만 평가 시 임상 활용 위험. 종합 평가가 표준.

14.1 Decision Curve Analysis (DCA)

정의: DCA

각 cut-point \(p\) 의 net benefit:

\[\text{Net Benefit} = \frac{TP}{n} - \frac{FP}{n} \cdot \frac{p}{1-p}\]

여러 cut-point 에서 plot → 어느 임계값에서 모형이 “treat all” 또는 “treat none” 보다 우월?

직관: DCA 의 임상 가치

추상 정의: 의사 결정의 비용·이익 통합 평가.
일상어 비유: 광고 캠페인의 ROI — 모든 사용자 vs 일부 사용자 vs 무시.
반사실 시나리오: AUC 만 보면 임상 활용성 모름. DCA 가 의사 결정 직접.

15 Risk Score 의 함정

가정 위반: 5 가지 함정

1. Over-fit: 변수 다수 + 작은 자료 → train AUC ↑ but test 부정확.

2. Inappropriate variables: Mediator, collider 포함 시 잘못된 결론.

3. External invalidity: 다른 인구에서 calibration 부정확.

4. Spectrum bias: 학습 자료의 spectrum 이 적용 자료와 다름.

5. Updating without re-validation: 모형 갱신 후 검증 부족.

직관: 함정 회피의 표준

추상 정의: TRIPOD 가이드라인 + Cross-validation + External validation 모두 적용.
일상어 비유: 시험 도구의 다단계 검증 — 1 회 시험 vs 모의고사 + 본 시험 + 후속.
반사실 시나리오: 단계 누락 시 임상 활용 위험. TRIPOD 가 표준.

16 A/B 테스트의 Risk Score Engineering

사례: IT 의 사용자 score 개발

대규모 IT 회사의 사용자 분류 score:

1. Churn Risk: 이탈 가능성. 2. LTV Score: Lifetime value 예측. 3. Conversion Score: 구매 가능성. 4. Fraud Score: 사기 가능성. 5. Engagement Score: 활성도.

각 score 가 다른 caivariate + outcome.

3 단계 직관:

추상 정의: IT 의 personalization 의 통계 기초 = risk score.
일상어 비유: 보험 회사의 위험 분류 — 사고·소방·해상 등 별도 score.
반사실 시나리오: 단일 score 로 모든 의사 결정 시 정밀도 ↓. 다중 score 가 정확.

17 관련 주제

Logistic 개관
Cox PH 와 Weibull PH
1111-11-11, Population vs Individual Level

Phase B 크로스링크