이 글은 Schulz Ch.18 Surrogate Endpoints and Composite Outcomes 시리즈 (5 편) 의 첫 글이다. 이전 챕터들이 연구 설계의 무결성 (무작위·concealment·blinding·ITT) 을 다뤘다면, Ch.18 은 결과 측정 의 함정을 다룬다 (Schulz full md L:8047~8923).
1 진입 직관 — 왜 결과 변수가 결정적인가
RCT 의 모든 무결성 (무작위·concealment·blinding·ITT) 을 갖춰도, 결과 변수가 잘못되면 시험 자체의 의미 가 사라진다.
Schulz 의 핵심 메시지: “Clinical research should focus on outcomes that matter. 그러나 두 흔한 워크어라운드 (surrogate · composite) 가 outcomes that don’t matter 를 측정한다.”
이 글의 목적: Surrogate 와 composite 의 본질·동기·위험 을 큰 그림으로.
충격적 사례 — Encainide & Flecainide: 심근경색 후 부정맥 억제 시험. Surrogate (조기 심실 수축 감소) 효과 좋음 → FDA 승인. 그러나 진짜 결과 (사망) 는 3 배 증가. 미국에서 200,000+ 환자 처방, 수천 명 사망. (Schulz 2019, Ch.18, Panel 18.1)
2 정의: Surrogate Endpoint vs Composite Outcome
임상적 중요 결과의 대체 (proxy). 보통 생물학적 과정의 측정 — 혈액 검사, 영상 등. 인과 경로 상에 있다고 추정 되지만 실제는 parallel track 인 경우 흔함.
2.1 사례
| Surrogate | True Clinical Outcome |
|---|---|
| 안압 (intraocular pressure) | 시력 손실 (녹내장) |
| 혈압 | 심근경색·뇌졸중 |
| 사구체 여과율 | 신부전 |
| HbA1c | 당뇨 합병증 |
| LDL 콜레스테롤 | 심혈관 사건 |
| 골밀도 | 골절 |
3 정의: Composite Outcome
두 개 이상 component 를 하나로 합친 결과. 환자가 어느 component 라도 경험하면 composite 발생.
3.1 사례
- MACE (Major Adverse Cardiac Events): MI + 뇌졸중 + 사망
- 사망 또는 입원 (심부전 시험)
- 암 재발 또는 사망 (항암제 시험)
- 통증 또는 기능 상실 (관절염 시험)
4 두 도구의 공통 동기 — 효율
4.1 공통 문제
임상 연구의 도전: 인구 건강 개선으로 심각한 결과 (사망·뇌졸중) 의 빈도 감소. 효과 검증 시험은 더 크고·길어야 함. 비용·시간 폭증.
4.2 두 가지 워크어라운드
4.2.1 Surrogate
메커니즘: 임상 결과 대신 생물학적 측정 (혈액·영상) 사용. 빠르고 저렴.
예: 콜레스테롤 시험에서 심근경색 추적 (5~10 년) 대신 LDL 측정 (3~6 개월). Sample size·기간 축소.
4.2.2 Composite
메커니즘: 여러 결과를 합쳐 event rate 증가 → sample size 감소.
예: 사망률 5% 시험에서 사망만 측정하면 8000+ 명 필요. 사망 + MI + 뇌졸중 (= 20%) 합치면 수백 명 으로 충분.
Schulz 의 비판: “두 도구 모두 통계적 효율 을 위한 과학적 무결성 trade-off. 자주 outcomes that don’t matter 측정.”
5 Surrogate Endpoint 의 충격적 실패 사례 — Panel 18.1
Schulz 가 인용하는 9 가지 FDA 승인 후 사망률 증가 약물:
| 약 | 적응증 | Surrogate | 결과 |
|---|---|---|---|
| Encainide, Flecainide | 심근경색 후 부정맥 | 조기 심실 수축 감소 | 사망 3 배 증가 |
| Aprotinin | 고위험 심장 수술 | 수혈 필요량 감소 | 사망 증가 |
| Clofibrate | 고콜레스테롤 | 혈청 콜레스테롤 감소 | 사망 증가 |
| Erythropoietin | 신부전 빈혈 | 헤모글로빈 증가 | 사망 증가 |
| Flosequinan | 만성 심부전 | 심실 기능 호전 | 사망 증가 |
| Ibopamine | 심한 심부전 | 운동 내성·혈관 저항 | 사망 증가 |
| Milrinone | 심한 심부전 | 심수축력 증가 | 사망 증가 |
| Metoprolol | 비심장 수술 (심혈관 위험) | 수술 후 심근 허혈 | 사망 증가 |
| Moxonidine | 심부전 | 노르에피네프린 감소 | 사망 증가 |
공통 패턴: Surrogate 호전 → FDA 승인 → 임상 사용 → 진짜 결과 (사망) 악화 발견 → 시장 회수 또는 제한.
Schulz 의 결론: “Surrogate 의존이 수만 명의 예방 가능한 사망 을 야기. Poor-quality research is unethical.”
6 추가 사례 — Fluoride for Osteoporosis
골다공증 시험. Fluoride 가 골밀도 35% 증가. 기대: 골절 감소. 실제: 골절 증가.
메커니즘: 골밀도 ≠ 골 건강. Fluoride 가 골을 밀도 높지만 부서지기 쉬움 (brittle) 으로 만듦. 골밀도는 bone quantity 만 측정, bone quality 는 측정 안 함.
7 추가 사례 — DMPA Black Box Warning
2004 년 FDA: DMPA (피임 주사) 에 Black Box Warning (가장 심각한 경고) 부착. 이유: 골밀도 일시 감소 (수유 중 변화와 비슷한 정도).
문제: 골밀도 ≠ 골절 위험 (이미 fluoride 사례에서 입증). 그러나 FDA 가 invalid surrogate 로 결정.
결과: 일부 부인과 의사가 10 대 환자에게 골밀도 검사 + 에스트로겐·비스포스포네이트 처방. WHO 는 DMPA 사용 제한 권장 안 함 (정반대 입장).
8 추가 사례 — Bedaquiline (2012)
다제내성 결핵 약 bedaquiline. FDA 가 47 + 161 명의 작은 시험 으로 가속 승인. Surrogate: 객담 배양 음성 전환. 그러나 사망률 5 배 증가. 알 수 없는 메커니즘.
충격: Schulz 가 인용하는 가장 최근 사례. Surrogate 가 진짜 결과 (사망) 와 반대 방향 인데도 약 승인.
9 Composite Outcome 의 misrepresentation — DREAM Trial
Gerstein 외 (2006, Lancet) 의 DREAM trial. 5269 명의 공복혈당장애 환자, rosiglitazone vs placebo 비교.
Composite outcome: 당뇨 발생 또는 사망
9.1 결과 (Panel 18.4)
| Outcome | Rosiglitazone (%) | Placebo (%) | HR (95% CI) |
|---|---|---|---|
| Composite (당뇨 + 사망) | 11.6 | 26.0 | 0.40 (0.35-0.46) |
| 당뇨 발생만 | 10.6 | 25.0 | 0.38 (0.33-0.44) |
| 사망만 | 1.1 | 1.3 | 0.90 (0.55-1.5) |
9.2 보고서의 misleading 문장
“This large, prospective, blinded international clinical trial shows that 8 mg of rosiglitazone daily … substantially reduces the risk of diabetes or death by 60% in individuals at high risk for diabetes.”
함정: “60% reduces risk of diabetes or death” 는 casual reader 가 “사망률 60% 감소” 로 오해하기 쉬움. 실제는 당뇨 60% 감소 + 사망 거의 무영향.
메커니즘: Composite 효과는 흔한 component (당뇨) 가 드문 component (사망) 를 압도. 심각한 결과 는 수치 자체에 거의 기여 안 함.
10 Schulz 의 두 가지 권고
10.1 권고 1 — Surrogate 회피
“Most circumstances, trials should focus on outcomes that matter. Surrogate 는 limited role.”
10.2 예외 (Schulz 인정)
| 예외 | 정당화 |
|---|---|
| 매우 천천히 진행하는 치명 질환 (예: ALS) | 진짜 결과 측정에 너무 오래 |
| 희귀 질환 | Sample size 부족 |
| 검증된 surrogate (HIV viral load, HbA1c, LDL) | 이미 큰 시험으로 validation |
10.3 권고 2 — Composite 신중
“Composite 사용 시 components 가 동등 중요·빈도·방향 충족해야. 모든 component 의 개별 결과 보고 필수.”
11 챕터의 줄기 — 후속 글 안내
11.1 후속 글 1 — Surrogate 정의와 장단점 (32-27)
- Surrogate 의 효율적 매력
- Encainide·Flecainide 사례 깊이
- Fluoride·DMPA·Bedaquiline·Rosiglitazone 사례
11.2 후속 글 2 — Validation 과 Evidence Levels (32-28)
- Fleming-DeMets 의 두 검증 기준
- Levels of Evidence (Panel 18.3) — 4 단계 분류
- 검증된 surrogate 의 드묾
11.3 후속 글 3 — Terminological Tangles 와 Way Forward (32-29)
- BEST Resource (FDA-NIH 2016) 의 6 가지 용어
- “Validated”, “Reasonably Likely”, “Candidate” 분류
- 미래 방향
11.4 후속 글 4 — Composite Outcomes 함정 (32-30)
- 4 가지 component 동등성 기준
- Adv/Disadv 깊이
- DREAM trial 사례 + 304 시험 메타분석 (Lim 2008)
12 IT / 디지털 실험 매핑
| 역학 (RCT) | IT (A/B Test) |
|---|---|
| Surrogate (HbA1c) | Click-through rate as proxy for revenue |
| 진짜 결과 (사망) | Long-term retention, profitability |
| Composite (MACE) | “Engagement score” = sessions + clicks + time |
| DREAM 60% misleading | “Composite metric 60% improvement” 의 misuse |
| Bedaquiline 5 배 사망 | “Surrogate metric 호전, 진짜 비즈니스 결과 악화” 의 IT 함정 |
IT 의 흔한 함정: A/B test 에서 long-term outcome (retention, LTV) 측정 어려움 → short-term proxy (click, conversion) 사용. 그러나 proxy 가 진짜 결과와 상관 약하면 잘못된 결정. RCT 의 surrogate 함정과 동형.
13 코드 예시 — Composite 의 misleading
import numpy as np
# DREAM trial 시뮬레이션
n_per_arm = 2500
# 진짜 효과
true_diabetes_effect = 0.60 # rosiglitazone 가 당뇨 발생 60% 감소
true_death_effect = 0.0 # 사망에 효과 없음
# Baseline event rates
baseline_diabetes = 0.25
baseline_death = 0.013
# 시뮬레이션
np.random.seed(42)
# Group A (Rosiglitazone)
diabetes_A = np.random.binomial(1, baseline_diabetes * (1 - true_diabetes_effect), n_per_arm)
death_A = np.random.binomial(1, baseline_death * (1 - true_death_effect), n_per_arm)
composite_A = (diabetes_A | death_A)
# Group B (Placebo)
diabetes_B = np.random.binomial(1, baseline_diabetes, n_per_arm)
death_B = np.random.binomial(1, baseline_death, n_per_arm)
composite_B = (diabetes_B | death_B)
print("[DREAM Trial 시뮬레이션]")
print(f"\n[Composite (당뇨 + 사망)]")
print(f"Rosiglitazone: {composite_A.mean():.1%}")
print(f"Placebo: {composite_B.mean():.1%}")
print(f"감소율: {(1 - composite_A.mean()/composite_B.mean()):.1%}")
print(f"\n[당뇨만]")
print(f"Rosiglitazone: {diabetes_A.mean():.1%}, Placebo: {diabetes_B.mean():.1%}")
print(f"\n[사망만]")
print(f"Rosiglitazone: {death_A.mean():.1%}, Placebo: {death_B.mean():.1%}")
print("\n→ 'Reduces diabetes or death by 60%' 는 misleading.")
print("→ 60% 는 *당뇨* 효과. *사망* 효과는 거의 0.")14 결론 — Ch.18 개관의 한 줄 요약
Surrogate · Composite 는 통계적 효율 의 도구지만 임상적 진실 을 가릴 위험. 환자에게 실제 해를 끼친 사례 다수.
핵심 메시지:
- Surrogate 의 위험 — Encainide 등 9 가지 약 사례
- Composite 의 misrepresentation — DREAM trial
- Schulz 의 권고: 일반적으로 회피. 예외 시 components 모두 보고
- 임상적 직관 (clinical hunch) 는 검증 없이 신뢰 불가
- “Difference must make a difference” — 의미 있는 결과만
후속 글에서 깊이 분석.
15 관련 주제
선행 지식
Phase C 후속 글
- Surrogate 정의와 장단점 (placeholder)
- Surrogate Validation 과 Evidence Levels (placeholder)
- Terminological Tangles + Way Forward (placeholder)
- Composite Outcomes 함정 (placeholder)
16 참고문헌
- Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.18. Elsevier.
- Grimes, D. A. & Schulz, K. F. (2005). Surrogate end points in clinical research: hazardous to your health. Obstet. Gynecol. 105, 1114-1118.
- Fleming, T. R. & DeMets, D. L. (1996). Surrogate end points in clinical trials: are we being misled? Ann. Intern. Med. 125, 605-613.
- Fleming, T. R. & Powers, J. H. (2012). Biomarkers and surrogate endpoints in clinical trials. Stat. Med. 31, 2973-2984.
- Gerstein, H. C., Yusuf, S., Bosch, J., et al. (2006). DREAM trial. Lancet 368, 1096-1105.
- Avorn, J. (2013). Approval of a tuberculosis drug based on a paradoxical surrogate measure. JAMA 309, 1349-1350.
- Cordoba, G., Schwartz, L., Woloshin, S., Bae, H., Gøtzsche, P. C. (2010). Definition, reporting, and interpretation of composite outcomes. BMJ 341, c3920.