Kwangmin Kim - Validation·Presentation·Impact Studies

1 13.10 Validation — 두 종류

정의: Internal vs External Validation

Internal: Same dataset 의 모형 검증. - Split (train/test). - Bootstrap. - K-fold cross-validation.

External: 다른 인구·시점 자료의 검증. - 다른 지역·국가. - 다른 시기. - 다른 임상 환경.

(Woodward, 2014, Ch.13.10).

1.1 Internal Validation 의 3 도구

직관 3 단계: 3 방법 분업

Split sample: - 자료를 train/test 분할 (예: 70/30). - 단순하나 자료 효율 ↓.

Bootstrap: - 자료에서 resample → over-fit 보정 추정. - 자료 효율 ↑, 일반적 권장.

K-fold CV: - 자료 K 분할, 각 분할이 test → 평균. - Robust + 자료 효율 ↑.

3 단계 직관:

추상 정의: 같은 자료의 over-fit 보정 도구.
일상어 비유: 시험 자료로 채점 → 자료 새로 봐서 평가. 다른 채점이 더 정직.
반사실 시나리오: Internal 만 좋은 결과는 over-fit 의심. External 이 진성 검증.

1.2 Bootstrap 의 절차

정의: Bootstrap Validation

원 자료 \(D\) 에서 \(B\) 회 resample → \(D_b^*\).
각 \(D_b^*\) 에서 모형 적합.
각 모형의 in-sample 성능 (\(\text{stat}_b^{\text{in}}\)) + out-of-sample 성능 (원 \(D\)) 산출.
Optimism = \(\overline{\text{stat}^{\text{in}} - \text{stat}^{\text{out}}}\).
Optimism-corrected: \(\text{stat}_{\text{original}} - \text{Optimism}\).

직관: Bootstrap 의 over-fit 보정

추상 정의: Bootstrap sample 의 over-fit 정도 측정 → 원 모형의 over-fit 보정.
일상어 비유: 모의고사 점수 vs 실제 점수의 차이 — 평균 차이가 over-fit 정도.
반사실 시나리오: 원 자료의 in-sample 평가만 보면 over-fit 무관. Bootstrap 이 보정.

1.3 External Validation

가정 위반: Internal 만의 한계

Internal validation 만 좋아도 다른 인구에서 부정확 가능.

원인: - 인구 분포 다름. - 측정 도구 다름. - 시간 추세.

3 단계 직관:

추상 정의: Internal = same population, external = different. 진성 generalization 검증은 external.
일상어 비유: 한 학교의 모형이 다른 학교에 적용 — 다른 학생 분포.
반사실 시나리오: External validation 없이 적용 → 임상 의사 결정 위험. 표준 권장.

TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis) 가이드라인이 external validation 의 표준 보고.

2 13.11 Presentation — 임상 활용 도구

정의: Presentation 형식

Nomogram: 시각 score 산출 도구. Risk chart: 카테고리 별 위험 표. Web calculator: 디지털 계산기. Mobile app: Bedside 즉시 사용.

2.1 Nomogram 의 활용

직관 3 단계: Nomogram 의 가치

추상 정의: Logistic·Cox 의 시각 simplification — 자 + 종이로 score 산출.
일상어 비유: 환율 변환표 — 직선 그어 즉시 변환.
반사실 시나리오: 디지털 도구가 있으면 모형 직접 산출. Nomogram 이 bedside 의 backup.

2.2 Risk Chart — Categorical 표현

정의: Framingham Risk Chart

Age	Smoke	SBP	Cholesterol	10-yr CV Risk
50	No	130	200	5%
50	Yes	130	200	12%
60	Yes	160	240	25%

각 환자의 categorical covariate 조합 → 위험 lookup.

직관: Chart 의 단순화

추상 정의: Continuous 변수의 categorical 변환 → 임상 활용성 ↑.
일상어 비유: 환율표의 단순화 — 정확보다 빠른 lookup.
반사실 시나리오: 정밀도 ↓ but 임상 활용성 ↑.

2.3 Web Calculator + App

사례: ASCVD Risk Estimator

미국 AHA/ACC 의 ASCVD 위험 계산기 (https://tools.acc.org/ASCVD-Risk-Estimator-Plus/).

환자 변수 입력 → 10 년 ASCVD 위험 산출.
임상 의사 결정 (statin 권장 임계값 7.5%) 지원.

3 단계 직관:

추상 정의: 모바일 + 웹 도구 — 임상 활용 표준.
일상어 비유: 휴대 계산기 — 침대 옆 즉시 사용.
반사실 시나리오: 종이 chart 보다 정확 + 빠름.

3 13.12 Impact Studies

정의: Impact Study

Risk score 의 임상 도입이 환자 outcome 에 영향 미치는가의 평가.

설계: - Cluster RCT: 의사·병원 단위 무작위 배정. - Stepped wedge: 단계적 도입. - Before-after: 도입 전후 비교 (단 confounder 위험).

(Woodward, 2014, Ch.13.12).

3.1 Impact Study 의 RoQ

직관 3 단계: Impact Study 의 가치

추상 정의: Risk score 의 prognostic 가치 (AUC, calibration) 와 별개 — 환자 outcome 의 진성 변화.
일상어 비유: 진단 도구의 정확도 vs 진단 도구가 환자 결과를 변화시키는가.
반사실 시나리오: 모형이 정확해도 임상 의사가 사용 안 하면 outcome 변화 0. Impact study 가 진성 가치.

예시: ASCVD 위험 계산기 도입 후 statin 처방 ↑, MI 발생 ↓.

3.2 Cluster RCT 의 설계

정의: Cluster RCT

병원·의사 단위 무작위 배정 → 일부는 risk score 사용, 일부는 표준 진료.

비교: 환자 outcome (MI 발생, mortality) 의 cluster 간 차이.

ICC (Intraclass Correlation): 같은 cluster 내 환자의 outcome 상관 → 표본 크기 계산 영향.

3.3 Stepped Wedge

직관: Stepped Wedge 의 활용

추상 정의: 단계적 도입 — 모든 cluster 가 결국 처치 받음. 윤리 + 통계 효율.
일상어 비유: 신약 단계 도입 — 일부 병원부터, 점차 확장.
반사실 시나리오: Cluster RCT 가 윤리 부담 (한 그룹은 처치 안 받음) 시 stepped wedge 대안.

4 A/B 테스트의 Validation·Impact

사례: 사용자 churn risk score 의 검증

Internal validation: - Train/test split. - Cross-validation.

External validation: - 다른 시장 (예: 한국 → 일본) 의 자료. - 다른 시점 (예: 6 개월 후).

Impact study: - 일부 user에 risk-based 보존 캠페인. - A/B 비교: risk score 사용 vs 무사용 → retention 차이.

3 단계 직관:

추상 정의: 모형의 정확도 (AUC) 와 임상 (IT) 영향 별도 측정.
일상어 비유: 보험 회사의 위험 점수 정확도 + 보험 정책의 사고 발생 영향.
반사실 시나리오: 모형 정확하나 정책 활용 안 함 → impact 0. 두 측면 모두 평가.

5 TRIPOD 가이드라인

정의: TRIPOD

Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis.

필수 항목 (22): - Source of data + participants. - Outcome definition. - Predictor candidates + selection. - 모형 적합 + assumption. - Internal + external validation. - Performance measures. - Risk of bias. - …

(Collins et al., 2015).

6 ProBAST — 예측 모형의 RoB 평가

Definition: ProBAST

Prediction model Risk Of Bias ASsessment Tool — 예측 모형의 quality 평가.

4 영역: 1. Participants: 표본 추출의 적절성. 2. Predictors: 변수 측정·정의. 3. Outcome: 결과 측정의 적절성. 4. Analysis: 모형 개발의 적절성.

(Wolff et al., 2019).

직관: ProBAST vs RoB 2

추상 정의: ProBAST 가 예측 모형 (prognosis) 의 RoB 도구. RoB 2 가 RCT 의 도구.
일상어 비유: 분야별 평가 도구.
반사실 시나리오: 같은 자료의 RCT 분석 (RoB 2) vs 예측 모형 (ProBAST) 가 다른 평가.

7 Validation Sample Size 계산

정의: External Validation Sample Size

Riley et al. (2021) 의 계산:

사건 수 ≥ 100 권장 (small).
사건 수 ≥ 200 (medium).
정밀 calibration 평가 시 ≥ 500.

직관: Validation 의 사이즈

추상 정의: External validation 도 적절한 사건 수 필요.
일상어 비유: 시험의 검증도 충분한 표본.
반사실 시나리오: 작은 validation 자료 시 calibration 부정확. 결과 보류.

8 Decision Curve Analysis (DCA) — 임상 의사 결정

Definition: DCA

각 임계값 \(p\) 의 net benefit:

\[\text{NB}(p) = \frac{TP}{n} - \frac{FP}{n} \cdot \frac{p}{1-p}\]

여러 \(p\) 에서 plot → 모형이 “treat all” 또는 “treat none” 보다 우월한 임계값.

직관 3 단계: DCA 의 임상 가치

추상 정의: Treatment 의 net benefit 직접 측정.
일상어 비유: 캠페인의 ROI — 다중 사용자 vs 일부 vs 무시.
반사실 시나리오: AUC 만 보면 임상 가치 모름. DCA 가 의사 결정 직접.

(Vickers & Elkin, 2006).

9 결론 — Phase H WOO Ch.13 시리즈 마무리

Phase H WOO Ch.13 시리즈 (10 편 완성)
│
├── H-WOO13-0: Overview
├── H-WOO13-1: Population vs Individual
├── H-WOO13-2: Association vs Prognosis
├── H-WOO13-3: Risk Score from Models
├── H-WOO13-4: ROC + AUC
├── H-WOO13-5: Calibration
├── H-WOO13-6: Recalibration
├── H-WOO13-7: Brier Score + Extraneous
├── H-WOO13-8: Reclassification (NRI, IDI)
└── H-WOO13-9: Validation·Presentation·Impact (이 글)

Phase H 전체 (37 편 완성):

WOO Ch.10 Logistic (8 편)
WOO Ch.11 Survival (10 편)
WOO Ch.12 Meta-analysis (9 편)
WOO Ch.13 Risk Scores (10 편)

다음은 사용자 일괄 검수 + render + commit.

10 관련 주제

Phase H 전체 시리즈