1 Lead-Time Bias — 진단 시점만 앞당김
선별이 진단 시점을 앞당기는 만큼 “발견 후 생존 기간” 이 길어진다. 그러나 진성 사망 시점은 변하지 않을 수 있음 (Schulz & Grimes, 2019, Ch.8.4).
[선별 없음]
임상 진단
↓
┌─────────────[5년 생존]─────────►사망
[선별 있음]
조기 발견
↓
┌────[8년 생존]───────────────────►사망 (같은 시점)
8 - 5 = 3 년이 lead time.
- 추상: \(\text{Survival}_{\text{post-diagnosis}} = T_{\text{death}} - T_{\text{diagnosis}}\). \(T_{\text{diagnosis}}\) ↓ → survival ↑ 이지만 \(T_{\text{death}}\) 변화 없으면 진성 효과 0.
- 일상어 비유: 출발선을 앞당기면 결승선까지 시간 ↑ — 그러나 도착 시점은 같다면 빠른 출발이 도움 안 됨.
- 반사실: 진성 효과 측정은 결과 발생 시점 (사망률) 으로. “발견 후 5 년 생존율” 이 아니라 인구 단위 mortality.
1.1 사례 — 폐암 선별의 lead-time
가설: CT 선별 도입 후 폐암 환자의 5 년 생존율이 15% → 25% 로 ↑.
원인 추론: - (A) 선별이 조기 발견 → 조기 치료 → 진성 mortality 감소. - (B) Lead-time bias — 진단 시점만 앞당겨져 “5 년 생존” 측정 시점이 변함.
진성 검증: NLST RCT (Aberle et al., 2011) — CT 선별군 vs 흉부 X-ray 군. 폐암 mortality 20% ↓. Lead-time 만이 아닌 진성 효과.
3 단계 직관:
- 추상: RCT 의 mortality 비교가 lead-time 회피의 표준. Survival 비교는 lead-time + 진성 효과 혼합.
- 일상어 비유: 두 학교의 학생 점수 평균 비교 — 한 학교가 시험을 일찍 봤다면 단순 점수 비교 부적절. 같은 시점의 mortality 가 정직.
- 반사실: NLST 결과가 mortality ↓ 안 보였다면 폐암 CT 선별의 가치 없음으로 결론. Survival ↑ 만으로는 결정 불가.
2 Length Bias — 천천히 진행하는 종양만 잡힘
선별이 종양의 천천히 진행하는 (덜 공격적인) sub-type 을 더 자주 발견한다.
빠르게 진행하는 종양 → 선별 사이에 발생·진행·사망 → 선별로 발견 안 됨. 천천히 진행하는 종양 → 선별 시점에 발견 가능.
→ 선별로 발견된 종양은 baseline 보다 덜 공격적 → 5 년 생존율 ↑.
- 추상: \(P(\text{detected by screen} \mid \text{tumor type}) \propto \text{detection window}\). 천천히 진행하는 종양은 detection window ↑ → 선별 발견 가능성 ↑.
- 일상어 비유: 길거리에서 사과 줍기 — 빠르게 굴러가는 사과는 못 잡음. 천천히 굴러가는 사과만 잡음. 잡힌 사과의 평균 속도가 일반 사과보다 ↓.
- 반사실: 선별 발견 종양의 5 년 생존이 baseline 보다 ↑ — 진성 효과가 아니라 selection. RCT 만이 진성 효과 측정.
2.1 Overdiagnosis 와의 관계
Length bias 의 극단 — 임상 의의 없는 indolent 종양도 발견. 이들은 평생 사망 안 시킬 종양인데도 발견·치료 → overdiagnosis.
전립선암 PSA 선별의 핵심 비판이 length bias + overdiagnosis 의 결합.
3 두 Bias 의 회피 — RCT 가 표준
- 추상: 무작위 배정 → 선별군과 비-선별군이 baseline 동일. 양쪽 모두에서 진성 사망률 측정 → lead-time + length 의 인구 평균 효과 자동 통제.
- 일상어 비유: 두 그룹 학생을 random 분반 후 한 그룹만 추가 학습 → 두 그룹의 평균 점수 비교가 진성 학습 효과.
- 반사실: 자기 선택 (선별 받은 사람 vs 안 받은 사람) 비교는 selection bias + lead-time + length 의 혼합 → 진성 효과 추정 불가.
3.1 주요 선별 RCT 사례
| 선별 | RCT | mortality 효과 |
|---|---|---|
| 유방 mammography (50~74 세) | 다수 | 15~30% ↓ |
| 자궁경부 Pap | 관찰 + 모형 | 70% ↓ |
| 대장 colonoscopy | 다수 | 20~30% ↓ |
| 폐 CT (high-risk) | NLST | 20% ↓ |
| PSA 전립선 | ERSPC | 21% ↓ (단 overdiagnosis 우려) |
| Mammography (40~49 세) | 다수 | 모호 — 효과 작거나 0 |
4 평가 지침 — USPSTF, WHO, GRADE
미국 USPSTF (United States Preventive Services Task Force) 의 권장 등급.
| Grade | 의미 |
|---|---|
| A | High certainty, substantial net benefit. 권장. |
| B | High certainty, moderate net benefit. 권장. |
| C | Moderate certainty, small net benefit. 개별 결정. |
| D | Moderate-high certainty, no benefit or harm > benefit. 권장 안 함. |
| I | Insufficient evidence. 결정 불가. |
3 단계 직관:
- 추상: 증거 quality + net benefit 의 2 차원 grading. 단순 binary 추천 아님.
- 일상어 비유: 영화 평론의 stars — quality 와 인기의 결합. 단순 추천 vs 비추천 아님.
- 반사실: Grade I 가 가장 흔한 결과 — 많은 선별이 evidence 부족. “당신을 위한 결정” 으로 환자에게 위임.
4.1 자궁경부암 선별의 모범 — Grade A
USPSTF 의 자궁경부 Pap/HPV 선별 = Grade A — 명확한 mortality ↓ 증거.
4.2 Mammography 의 논란 — Age-based Grade
| 연령 | USPSTF Grade |
|---|---|
| 50~74 세 | B (권장) |
| 40~49 세 | C (개별 결정) |
| ≥ 75 세 | I (불충분 증거) |
40~49 세 mammography 의 논란이 length bias·overdiagnosis 의 비용을 보여줌.
5 선별 평가의 자기 비판 도구
선별 효과를 평가할 때 다음을 자문.
- Mortality 비교인가 survival 비교인가? (Lead-time 점검)
- 선별군의 종양 분포가 baseline 과 다른가? (Length bias 점검)
- RCT 또는 quasi-experimental 인가, 단순 cohort 인가? (Selection bias 점검)
- Overdiagnosis 의 추정이 있는가? (Welch 의 metrics)
- Net benefit (이익 - 해) 가 명시되었는가?
이 5 자문이 선별 평가의 표준 점검 항목.
6 IT 대응 — Lead-time 과 Length 의 IT 판
| 의학 | IT |
|---|---|
| Lead-time bias | A/B 테스트의 첫 노출 효과 (novelty effect) |
| Length bias | 활성 사용자의 retention 비교 — 활성한 사용자만 표본 |
| Overdiagnosis | False positive 광고 노출의 비용 |
| Net benefit | A/B 테스트의 OEC (Overall Evaluation Criterion) |
- 추상: 시간 변화의 분리 + 자기선택의 분리가 IT 에도 동일 도전.
- 일상어 비유: 새 기능 출시 후 retention ↑ — 진성 효과 vs novelty 효과 vs 활성 사용자 자기선택.
- 반사실: 무작위 배정 + 장기 추적이 IT 의 RCT — 선별 RCT 와 같은 정직성.
7 결론 — Phase B SCH Ch.8 시리즈 마무리
SCH Ch.8 시리즈 (5 편 마무리)
│
├── B33: Overview + Wilson-Jungner
├── B34: Ethics + Criteria
├── B35: Validity + PV
├── B36: Combinations
└── B37: Time biases + Guidelines (이 글)
다음 묶음 (SCH Ch.9 — Likelihood Ratio, B38~B42) 은 진단·선별의 통계적 기초 — likelihood ratio 와 Bayes 변환 — 을 5 편으로 깊이 다룬다.
8 관련 주제
다음 묶음 (SCH Ch.9)
- 1111-11-11, Likelihood Ratio overview