1 13.10 Validation — 두 종류
Internal: Same dataset 의 모형 검증. - Split (train/test). - Bootstrap. - K-fold cross-validation.
External: 다른 인구·시점 자료의 검증. - 다른 지역·국가. - 다른 시기. - 다른 임상 환경.
(Woodward, 2014, Ch.13.10).
1.1 Internal Validation 의 3 도구
Split sample: - 자료를 train/test 분할 (예: 70/30). - 단순하나 자료 효율 ↓.
Bootstrap: - 자료에서 resample → over-fit 보정 추정. - 자료 효율 ↑, 일반적 권장.
K-fold CV: - 자료 K 분할, 각 분할이 test → 평균. - Robust + 자료 효율 ↑.
3 단계 직관:
- 추상 정의: 같은 자료의 over-fit 보정 도구.
- 일상어 비유: 시험 자료로 채점 → 자료 새로 봐서 평가. 다른 채점이 더 정직.
- 반사실 시나리오: Internal 만 좋은 결과는 over-fit 의심. External 이 진성 검증.
1.2 Bootstrap 의 절차
- 원 자료 \(D\) 에서 \(B\) 회 resample → \(D_b^*\).
- 각 \(D_b^*\) 에서 모형 적합.
- 각 모형의 in-sample 성능 (\(\text{stat}_b^{\text{in}}\)) + out-of-sample 성능 (원 \(D\)) 산출.
- Optimism = \(\overline{\text{stat}^{\text{in}} - \text{stat}^{\text{out}}}\).
- Optimism-corrected: \(\text{stat}_{\text{original}} - \text{Optimism}\).
- 추상 정의: Bootstrap sample 의 over-fit 정도 측정 → 원 모형의 over-fit 보정.
- 일상어 비유: 모의고사 점수 vs 실제 점수의 차이 — 평균 차이가 over-fit 정도.
- 반사실 시나리오: 원 자료의 in-sample 평가만 보면 over-fit 무관. Bootstrap 이 보정.
1.3 External Validation
Internal validation 만 좋아도 다른 인구에서 부정확 가능.
원인: - 인구 분포 다름. - 측정 도구 다름. - 시간 추세.
3 단계 직관:
- 추상 정의: Internal = same population, external = different. 진성 generalization 검증은 external.
- 일상어 비유: 한 학교의 모형이 다른 학교에 적용 — 다른 학생 분포.
- 반사실 시나리오: External validation 없이 적용 → 임상 의사 결정 위험. 표준 권장.
TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) 가이드라인이 external validation 의 표준 보고.
2 13.11 Presentation — 임상 활용 도구
Nomogram: 시각 score 산출 도구. Risk chart: 카테고리 별 위험 표. Web calculator: 디지털 계산기. Mobile app: Bedside 즉시 사용.
2.1 Nomogram 의 활용
- 추상 정의: Logistic·Cox 의 시각 simplification — 자 + 종이로 score 산출.
- 일상어 비유: 환율 변환표 — 직선 그어 즉시 변환.
- 반사실 시나리오: 디지털 도구가 있으면 모형 직접 산출. Nomogram 이 bedside 의 backup.
2.2 Risk Chart — Categorical 표현
| Age | Smoke | SBP | Cholesterol | 10-yr CV Risk |
|---|---|---|---|---|
| 50 | No | 130 | 200 | 5% |
| 50 | Yes | 130 | 200 | 12% |
| 60 | Yes | 160 | 240 | 25% |
각 환자의 categorical covariate 조합 → 위험 lookup.
- 추상 정의: Continuous 변수의 categorical 변환 → 임상 활용성 ↑.
- 일상어 비유: 환율표의 단순화 — 정확보다 빠른 lookup.
- 반사실 시나리오: 정밀도 ↓ but 임상 활용성 ↑.
2.3 Web Calculator + App
미국 AHA/ACC 의 ASCVD 위험 계산기 (https://tools.acc.org/ASCVD-Risk-Estimator-Plus/).
- 환자 변수 입력 → 10 년 ASCVD 위험 산출.
- 임상 의사 결정 (statin 권장 임계값 7.5%) 지원.
3 단계 직관:
- 추상 정의: 모바일 + 웹 도구 — 임상 활용 표준.
- 일상어 비유: 휴대 계산기 — 침대 옆 즉시 사용.
- 반사실 시나리오: 종이 chart 보다 정확 + 빠름.
3 13.12 Impact Studies
Risk score 의 임상 도입이 환자 outcome 에 영향 미치는가의 평가.
설계: - Cluster RCT: 의사·병원 단위 무작위 배정. - Stepped wedge: 단계적 도입. - Before-after: 도입 전후 비교 (단 confounder 위험).
(Woodward, 2014, Ch.13.12).
3.1 Impact Study 의 RoQ
- 추상 정의: Risk score 의 prognostic 가치 (AUC, calibration) 와 별개 — 환자 outcome 의 진성 변화.
- 일상어 비유: 진단 도구의 정확도 vs 진단 도구가 환자 결과를 변화시키는가.
- 반사실 시나리오: 모형이 정확해도 임상 의사가 사용 안 하면 outcome 변화 0. Impact study 가 진성 가치.
예시: ASCVD 위험 계산기 도입 후 statin 처방 ↑, MI 발생 ↓.
3.2 Cluster RCT 의 설계
병원·의사 단위 무작위 배정 → 일부는 risk score 사용, 일부는 표준 진료.
비교: 환자 outcome (MI 발생, mortality) 의 cluster 간 차이.
ICC (Intraclass Correlation): 같은 cluster 내 환자의 outcome 상관 → 표본 크기 계산 영향.
3.3 Stepped Wedge
- 추상 정의: 단계적 도입 — 모든 cluster 가 결국 처치 받음. 윤리 + 통계 효율.
- 일상어 비유: 신약 단계 도입 — 일부 병원부터, 점차 확장.
- 반사실 시나리오: Cluster RCT 가 윤리 부담 (한 그룹은 처치 안 받음) 시 stepped wedge 대안.
4 A/B 테스트의 Validation·Impact
Internal validation: - Train/test split. - Cross-validation.
External validation: - 다른 시장 (예: 한국 → 일본) 의 자료. - 다른 시점 (예: 6 개월 후).
Impact study: - 일부 user에 risk-based 보존 캠페인. - A/B 비교: risk score 사용 vs 무사용 → retention 차이.
3 단계 직관:
- 추상 정의: 모형의 정확도 (AUC) 와 임상 (IT) 영향 별도 측정.
- 일상어 비유: 보험 회사의 위험 점수 정확도 + 보험 정책의 사고 발생 영향.
- 반사실 시나리오: 모형 정확하나 정책 활용 안 함 → impact 0. 두 측면 모두 평가.
5 TRIPOD 가이드라인
Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis.
필수 항목 (22): - Source of data + participants. - Outcome definition. - Predictor candidates + selection. - 모형 적합 + assumption. - Internal + external validation. - Performance measures. - Risk of bias. - …
(Collins et al., 2015).
6 ProBAST — 예측 모형의 RoB 평가
Prediction model Risk Of Bias ASsessment Tool — 예측 모형의 quality 평가.
4 영역: 1. Participants: 표본 추출의 적절성. 2. Predictors: 변수 측정·정의. 3. Outcome: 결과 측정의 적절성. 4. Analysis: 모형 개발의 적절성.
(Wolff et al., 2019).
- 추상 정의: ProBAST 가 예측 모형 (prognosis) 의 RoB 도구. RoB 2 가 RCT 의 도구.
- 일상어 비유: 분야별 평가 도구.
- 반사실 시나리오: 같은 자료의 RCT 분석 (RoB 2) vs 예측 모형 (ProBAST) 가 다른 평가.
7 Validation Sample Size 계산
Riley et al. (2021) 의 계산:
- 사건 수 ≥ 100 권장 (small).
- 사건 수 ≥ 200 (medium).
- 정밀 calibration 평가 시 ≥ 500.
- 추상 정의: External validation 도 적절한 사건 수 필요.
- 일상어 비유: 시험의 검증도 충분한 표본.
- 반사실 시나리오: 작은 validation 자료 시 calibration 부정확. 결과 보류.
8 Decision Curve Analysis (DCA) — 임상 의사 결정
각 임계값 \(p\) 의 net benefit:
\[\text{NB}(p) = \frac{TP}{n} - \frac{FP}{n} \cdot \frac{p}{1-p}\]
여러 \(p\) 에서 plot → 모형이 “treat all” 또는 “treat none” 보다 우월한 임계값.
- 추상 정의: Treatment 의 net benefit 직접 측정.
- 일상어 비유: 캠페인의 ROI — 다중 사용자 vs 일부 vs 무시.
- 반사실 시나리오: AUC 만 보면 임상 가치 모름. DCA 가 의사 결정 직접.
(Vickers & Elkin, 2006).
9 결론 — Phase H WOO Ch.13 시리즈 마무리
Phase H WOO Ch.13 시리즈 (10 편 완성)
│
├── H-WOO13-0: Overview
├── H-WOO13-1: Population vs Individual
├── H-WOO13-2: Association vs Prognosis
├── H-WOO13-3: Risk Score from Models
├── H-WOO13-4: ROC + AUC
├── H-WOO13-5: Calibration
├── H-WOO13-6: Recalibration
├── H-WOO13-7: Brier Score + Extraneous
├── H-WOO13-8: Reclassification (NRI, IDI)
└── H-WOO13-9: Validation·Presentation·Impact (이 글)
Phase H 전체 (37 편 완성):
- WOO Ch.10 Logistic (8 편)
- WOO Ch.11 Survival (10 편)
- WOO Ch.12 Meta-analysis (9 편)
- WOO Ch.13 Risk Scores (10 편)
다음은 사용자 일괄 검수 + render + commit.
10 관련 주제
Phase H 전체 시리즈