Lead-time / Length bias 와 선별 평가 지침

Schulz & Grimes Ch.8.4~8.5 — Time-related Biases & Guidelines

선별 검사 평가의 두 가지 핵심 시간 편향 (lead-time bias, length bias) 의 메커니즘과 우회 방법(mortality 비교, RCT) 을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. USPSTF·WHO 등의 국제 평가 지침과 grade 시스템의 의미도 정리한다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 Lead-Time Bias — 진단 시점만 앞당김

정의: Lead-Time Bias

선별이 진단 시점을 앞당기는 만큼 “발견 후 생존 기간” 이 길어진다. 그러나 진성 사망 시점은 변하지 않을 수 있음 (Schulz & Grimes, 2019, Ch.8.4).

[선별 없음]
              임상 진단
                ↓
┌─────────────[5년 생존]─────────►사망

[선별 있음]
   조기 발견
      ↓
┌────[8년 생존]───────────────────►사망 (같은 시점)

8 - 5 = 3 년이 lead time.

직관 3 단계: Lead-Time 의 함정
  • 추상: \(\text{Survival}_{\text{post-diagnosis}} = T_{\text{death}} - T_{\text{diagnosis}}\). \(T_{\text{diagnosis}}\) ↓ → survival ↑ 이지만 \(T_{\text{death}}\) 변화 없으면 진성 효과 0.
  • 일상어 비유: 출발선을 앞당기면 결승선까지 시간 ↑ — 그러나 도착 시점은 같다면 빠른 출발이 도움 안 됨.
  • 반사실: 진성 효과 측정은 결과 발생 시점 (사망률) 으로. “발견 후 5 년 생존율” 이 아니라 인구 단위 mortality.

1.1 사례 — 폐암 선별의 lead-time

가정 위반: Survival 만 본 폐암 선별

가설: CT 선별 도입 후 폐암 환자의 5 년 생존율이 15% → 25% 로 ↑.

원인 추론: - (A) 선별이 조기 발견 → 조기 치료 → 진성 mortality 감소. - (B) Lead-time bias — 진단 시점만 앞당겨져 “5 년 생존” 측정 시점이 변함.

진성 검증: NLST RCT (Aberle et al., 2011) — CT 선별군 vs 흉부 X-ray 군. 폐암 mortality 20% ↓. Lead-time 만이 아닌 진성 효과.

3 단계 직관:

  • 추상: RCT 의 mortality 비교가 lead-time 회피의 표준. Survival 비교는 lead-time + 진성 효과 혼합.
  • 일상어 비유: 두 학교의 학생 점수 평균 비교 — 한 학교가 시험을 일찍 봤다면 단순 점수 비교 부적절. 같은 시점의 mortality 가 정직.
  • 반사실: NLST 결과가 mortality ↓ 안 보였다면 폐암 CT 선별의 가치 없음으로 결론. Survival ↑ 만으로는 결정 불가.

2 Length Bias — 천천히 진행하는 종양만 잡힘

정의: Length Bias

선별이 종양의 천천히 진행하는 (덜 공격적인) sub-type 을 더 자주 발견한다.

빠르게 진행하는 종양 → 선별 사이에 발생·진행·사망 → 선별로 발견 안 됨. 천천히 진행하는 종양 → 선별 시점에 발견 가능.

→ 선별로 발견된 종양은 baseline 보다 덜 공격적 → 5 년 생존율 ↑.

직관 3 단계: 선별이 잡는 것은 덜 위험한 종양
  • 추상: \(P(\text{detected by screen} \mid \text{tumor type}) \propto \text{detection window}\). 천천히 진행하는 종양은 detection window ↑ → 선별 발견 가능성 ↑.
  • 일상어 비유: 길거리에서 사과 줍기 — 빠르게 굴러가는 사과는 못 잡음. 천천히 굴러가는 사과만 잡음. 잡힌 사과의 평균 속도가 일반 사과보다 ↓.
  • 반사실: 선별 발견 종양의 5 년 생존이 baseline 보다 ↑ — 진성 효과가 아니라 selection. RCT 만이 진성 효과 측정.

2.1 Overdiagnosis 와의 관계

Length bias 의 극단 — 임상 의의 없는 indolent 종양도 발견. 이들은 평생 사망 안 시킬 종양인데도 발견·치료 → overdiagnosis.

전립선암 PSA 선별의 핵심 비판이 length bias + overdiagnosis 의 결합.

3 두 Bias 의 회피 — RCT 가 표준

직관: RCT 가 두 bias 모두 회피
  • 추상: 무작위 배정 → 선별군과 비-선별군이 baseline 동일. 양쪽 모두에서 진성 사망률 측정 → lead-time + length 의 인구 평균 효과 자동 통제.
  • 일상어 비유: 두 그룹 학생을 random 분반 후 한 그룹만 추가 학습 → 두 그룹의 평균 점수 비교가 진성 학습 효과.
  • 반사실: 자기 선택 (선별 받은 사람 vs 안 받은 사람) 비교는 selection bias + lead-time + length 의 혼합 → 진성 효과 추정 불가.

3.1 주요 선별 RCT 사례

선별 RCT mortality 효과
유방 mammography (50~74 세) 다수 15~30% ↓
자궁경부 Pap 관찰 + 모형 70% ↓
대장 colonoscopy 다수 20~30% ↓
폐 CT (high-risk) NLST 20% ↓
PSA 전립선 ERSPC 21% ↓ (단 overdiagnosis 우려)
Mammography (40~49 세) 다수 모호 — 효과 작거나 0

4 평가 지침 — USPSTF, WHO, GRADE

정의: USPSTF Grade 시스템

미국 USPSTF (United States Preventive Services Task Force) 의 권장 등급.

Grade 의미
A High certainty, substantial net benefit. 권장.
B High certainty, moderate net benefit. 권장.
C Moderate certainty, small net benefit. 개별 결정.
D Moderate-high certainty, no benefit or harm > benefit. 권장 안 함.
I Insufficient evidence. 결정 불가.

3 단계 직관:

  • 추상: 증거 quality + net benefit 의 2 차원 grading. 단순 binary 추천 아님.
  • 일상어 비유: 영화 평론의 stars — quality 와 인기의 결합. 단순 추천 vs 비추천 아님.
  • 반사실: Grade I 가 가장 흔한 결과 — 많은 선별이 evidence 부족. “당신을 위한 결정” 으로 환자에게 위임.

4.1 자궁경부암 선별의 모범 — Grade A

USPSTF 의 자궁경부 Pap/HPV 선별 = Grade A — 명확한 mortality ↓ 증거.

4.2 Mammography 의 논란 — Age-based Grade

연령 USPSTF Grade
50~74 세 B (권장)
40~49 세 C (개별 결정)
≥ 75 세 I (불충분 증거)

40~49 세 mammography 의 논란이 length bias·overdiagnosis 의 비용을 보여줌.

5 선별 평가의 자기 비판 도구

직관: 선별 효과의 자기 점검

선별 효과를 평가할 때 다음을 자문.

  1. Mortality 비교인가 survival 비교인가? (Lead-time 점검)
  2. 선별군의 종양 분포가 baseline 과 다른가? (Length bias 점검)
  3. RCT 또는 quasi-experimental 인가, 단순 cohort 인가? (Selection bias 점검)
  4. Overdiagnosis 의 추정이 있는가? (Welch 의 metrics)
  5. Net benefit (이익 - 해) 가 명시되었는가?

이 5 자문이 선별 평가의 표준 점검 항목.

6 IT 대응 — Lead-time 과 Length 의 IT 판

의학 IT
Lead-time bias A/B 테스트의 첫 노출 효과 (novelty effect)
Length bias 활성 사용자의 retention 비교 — 활성한 사용자만 표본
Overdiagnosis False positive 광고 노출의 비용
Net benefit A/B 테스트의 OEC (Overall Evaluation Criterion)
직관: A/B 테스트의 같은 함정
  • 추상: 시간 변화의 분리 + 자기선택의 분리가 IT 에도 동일 도전.
  • 일상어 비유: 새 기능 출시 후 retention ↑ — 진성 효과 vs novelty 효과 vs 활성 사용자 자기선택.
  • 반사실: 무작위 배정 + 장기 추적이 IT 의 RCT — 선별 RCT 와 같은 정직성.

7 결론 — Phase B SCH Ch.8 시리즈 마무리

SCH Ch.8 시리즈 (5 편 마무리)
│
├── B33: Overview + Wilson-Jungner
├── B34: Ethics + Criteria
├── B35: Validity + PV
├── B36: Combinations
└── B37: Time biases + Guidelines (이 글)

다음 묶음 (SCH Ch.9 — Likelihood Ratio, B38~B42) 은 진단·선별의 통계적 기초 — likelihood ratio 와 Bayes 변환 — 을 5 편으로 깊이 다룬다.

8 관련 주제

다음 묶음 (SCH Ch.9)

Subscribe

Enjoy this blog? Get notified of new posts by email: