Surrogate · Composite Outcomes — Ch.18 개관 (Shortcuts to Unknown Destinations)

결과 변수 선택의 함정과 두 가지 워크어라운드

Schulz Ch.18 Surrogate Endpoints and Composite Outcomes 의 큰 그림. 임상 연구의 결과 측정 의 두 가지 흔한 지름길 이 어떻게 환자에게 실제 해를 끼치는가. (1) Surrogate endpoint 의 정의와 위험 — Encainide·Flecainide 사망률 3 배 사례, (2) Composite outcome 의 정의와 함정 — DREAM trial 의 60% 감소 misrepresentation, (3) 두 도구의 공통 동기 (효율) 와 공통 위험 (validity 부재). 후속 글의 안내.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

이 글은 Schulz Ch.18 Surrogate Endpoints and Composite Outcomes 시리즈 (5 편) 의 첫 글이다. 이전 챕터들이 연구 설계의 무결성 (무작위·concealment·blinding·ITT) 을 다뤘다면, Ch.18 은 결과 측정 의 함정을 다룬다 (Schulz full md L:8047~8923).

1 진입 직관 — 왜 결과 변수가 결정적인가

RCT 의 모든 무결성 (무작위·concealment·blinding·ITT) 을 갖춰도, 결과 변수가 잘못되면 시험 자체의 의미 가 사라진다.

Schulz 의 핵심 메시지: “Clinical research should focus on outcomes that matter. 그러나 두 흔한 워크어라운드 (surrogate · composite) 가 outcomes that don’t matter 를 측정한다.”

이 글의 목적: Surrogate 와 composite 의 본질·동기·위험 을 큰 그림으로.

충격적 사례 — Encainide & Flecainide: 심근경색 후 부정맥 억제 시험. Surrogate (조기 심실 수축 감소) 효과 좋음 → FDA 승인. 그러나 진짜 결과 (사망)3 배 증가. 미국에서 200,000+ 환자 처방, 수천 명 사망. (Schulz 2019, Ch.18, Panel 18.1)

2 정의: Surrogate Endpoint vs Composite Outcome

정의: Surrogate Endpoint

임상적 중요 결과의 대체 (proxy). 보통 생물학적 과정의 측정 — 혈액 검사, 영상 등. 인과 경로 상에 있다고 추정 되지만 실제는 parallel track 인 경우 흔함.

2.1 사례

Surrogate True Clinical Outcome
안압 (intraocular pressure) 시력 손실 (녹내장)
혈압 심근경색·뇌졸중
사구체 여과율 신부전
HbA1c 당뇨 합병증
LDL 콜레스테롤 심혈관 사건
골밀도 골절

3 정의: Composite Outcome

두 개 이상 component 를 하나로 합친 결과. 환자가 어느 component 라도 경험하면 composite 발생.

3.1 사례

  • MACE (Major Adverse Cardiac Events): MI + 뇌졸중 + 사망
  • 사망 또는 입원 (심부전 시험)
  • 암 재발 또는 사망 (항암제 시험)
  • 통증 또는 기능 상실 (관절염 시험)

4 두 도구의 공통 동기 — 효율

4.1 공통 문제

임상 연구의 도전: 인구 건강 개선으로 심각한 결과 (사망·뇌졸중) 의 빈도 감소. 효과 검증 시험은 더 크고·길어야 함. 비용·시간 폭증.

4.2 두 가지 워크어라운드

4.2.1 Surrogate

메커니즘: 임상 결과 대신 생물학적 측정 (혈액·영상) 사용. 빠르고 저렴.

: 콜레스테롤 시험에서 심근경색 추적 (5~10 년) 대신 LDL 측정 (3~6 개월). Sample size·기간 축소.

4.2.2 Composite

메커니즘: 여러 결과를 합쳐 event rate 증가 → sample size 감소.

: 사망률 5% 시험에서 사망만 측정하면 8000+ 명 필요. 사망 + MI + 뇌졸중 (= 20%) 합치면 수백 명 으로 충분.

Schulz 의 비판: “두 도구 모두 통계적 효율 을 위한 과학적 무결성 trade-off. 자주 outcomes that don’t matter 측정.”

5 Surrogate Endpoint 의 충격적 실패 사례 — Panel 18.1

Schulz 가 인용하는 9 가지 FDA 승인 후 사망률 증가 약물:

적응증 Surrogate 결과
Encainide, Flecainide 심근경색 후 부정맥 조기 심실 수축 감소 사망 3 배 증가
Aprotinin 고위험 심장 수술 수혈 필요량 감소 사망 증가
Clofibrate 고콜레스테롤 혈청 콜레스테롤 감소 사망 증가
Erythropoietin 신부전 빈혈 헤모글로빈 증가 사망 증가
Flosequinan 만성 심부전 심실 기능 호전 사망 증가
Ibopamine 심한 심부전 운동 내성·혈관 저항 사망 증가
Milrinone 심한 심부전 심수축력 증가 사망 증가
Metoprolol 비심장 수술 (심혈관 위험) 수술 후 심근 허혈 사망 증가
Moxonidine 심부전 노르에피네프린 감소 사망 증가

공통 패턴: Surrogate 호전 → FDA 승인 → 임상 사용 → 진짜 결과 (사망) 악화 발견 → 시장 회수 또는 제한.

Schulz 의 결론: “Surrogate 의존이 수만 명의 예방 가능한 사망 을 야기. Poor-quality research is unethical.”

6 추가 사례 — Fluoride for Osteoporosis

골다공증 시험. Fluoride 가 골밀도 35% 증가. 기대: 골절 감소. 실제: 골절 증가.

메커니즘: 골밀도 ≠ 골 건강. Fluoride 가 골을 밀도 높지만 부서지기 쉬움 (brittle) 으로 만듦. 골밀도는 bone quantity 만 측정, bone quality 는 측정 안 함.

7 추가 사례 — DMPA Black Box Warning

2004 년 FDA: DMPA (피임 주사) 에 Black Box Warning (가장 심각한 경고) 부착. 이유: 골밀도 일시 감소 (수유 중 변화와 비슷한 정도).

문제: 골밀도 ≠ 골절 위험 (이미 fluoride 사례에서 입증). 그러나 FDA 가 invalid surrogate 로 결정.

결과: 일부 부인과 의사가 10 대 환자에게 골밀도 검사 + 에스트로겐·비스포스포네이트 처방. WHO 는 DMPA 사용 제한 권장 안 함 (정반대 입장).

8 추가 사례 — Bedaquiline (2012)

다제내성 결핵 약 bedaquiline. FDA 가 47 + 161 명의 작은 시험 으로 가속 승인. Surrogate: 객담 배양 음성 전환. 그러나 사망률 5 배 증가. 알 수 없는 메커니즘.

충격: Schulz 가 인용하는 가장 최근 사례. Surrogate 가 진짜 결과 (사망) 와 반대 방향 인데도 약 승인.

9 Composite Outcome 의 misrepresentation — DREAM Trial

Gerstein 외 (2006, Lancet) 의 DREAM trial. 5269 명의 공복혈당장애 환자, rosiglitazone vs placebo 비교.

Composite outcome: 당뇨 발생 또는 사망

9.1 결과 (Panel 18.4)

Outcome Rosiglitazone (%) Placebo (%) HR (95% CI)
Composite (당뇨 + 사망) 11.6 26.0 0.40 (0.35-0.46)
당뇨 발생만 10.6 25.0 0.38 (0.33-0.44)
사망만 1.1 1.3 0.90 (0.55-1.5)

9.2 보고서의 misleading 문장

This large, prospective, blinded international clinical trial shows that 8 mg of rosiglitazone daily … substantially reduces the risk of diabetes or death by 60% in individuals at high risk for diabetes.

함정: “60% reduces risk of diabetes or death” 는 casual reader 가 “사망률 60% 감소” 로 오해하기 쉬움. 실제는 당뇨 60% 감소 + 사망 거의 무영향.

메커니즘: Composite 효과는 흔한 component (당뇨)드문 component (사망) 를 압도. 심각한 결과수치 자체에 거의 기여 안 함.

10 Schulz 의 두 가지 권고

10.1 권고 1 — Surrogate 회피

“Most circumstances, trials should focus on outcomes that matter. Surrogate 는 limited role.”

10.2 예외 (Schulz 인정)

예외 정당화
매우 천천히 진행하는 치명 질환 (예: ALS) 진짜 결과 측정에 너무 오래
희귀 질환 Sample size 부족
검증된 surrogate (HIV viral load, HbA1c, LDL) 이미 큰 시험으로 validation

10.3 권고 2 — Composite 신중

“Composite 사용 시 components 가 동등 중요·빈도·방향 충족해야. 모든 component 의 개별 결과 보고 필수.”

11 챕터의 줄기 — 후속 글 안내

11.1 후속 글 1 — Surrogate 정의와 장단점 (32-27)

  • Surrogate 의 효율적 매력
  • Encainide·Flecainide 사례 깊이
  • Fluoride·DMPA·Bedaquiline·Rosiglitazone 사례

11.2 후속 글 2 — Validation 과 Evidence Levels (32-28)

  • Fleming-DeMets 의 두 검증 기준
  • Levels of Evidence (Panel 18.3) — 4 단계 분류
  • 검증된 surrogate 의 드묾

11.3 후속 글 3 — Terminological Tangles 와 Way Forward (32-29)

  • BEST Resource (FDA-NIH 2016) 의 6 가지 용어
  • “Validated”, “Reasonably Likely”, “Candidate” 분류
  • 미래 방향

11.4 후속 글 4 — Composite Outcomes 함정 (32-30)

  • 4 가지 component 동등성 기준
  • Adv/Disadv 깊이
  • DREAM trial 사례 + 304 시험 메타분석 (Lim 2008)

12 IT / 디지털 실험 매핑

역학 (RCT) IT (A/B Test)
Surrogate (HbA1c) Click-through rate as proxy for revenue
진짜 결과 (사망) Long-term retention, profitability
Composite (MACE) “Engagement score” = sessions + clicks + time
DREAM 60% misleading “Composite metric 60% improvement” 의 misuse
Bedaquiline 5 배 사망 “Surrogate metric 호전, 진짜 비즈니스 결과 악화” 의 IT 함정

IT 의 흔한 함정: A/B test 에서 long-term outcome (retention, LTV) 측정 어려움short-term proxy (click, conversion) 사용. 그러나 proxy 가 진짜 결과와 상관 약하면 잘못된 결정. RCT 의 surrogate 함정과 동형.

13 코드 예시 — Composite 의 misleading

import numpy as np

# DREAM trial 시뮬레이션
n_per_arm = 2500

# 진짜 효과
true_diabetes_effect = 0.60   # rosiglitazone 가 당뇨 발생 60% 감소
true_death_effect = 0.0       # 사망에 효과 없음

# Baseline event rates
baseline_diabetes = 0.25
baseline_death = 0.013

# 시뮬레이션
np.random.seed(42)

# Group A (Rosiglitazone)
diabetes_A = np.random.binomial(1, baseline_diabetes * (1 - true_diabetes_effect), n_per_arm)
death_A = np.random.binomial(1, baseline_death * (1 - true_death_effect), n_per_arm)
composite_A = (diabetes_A | death_A)

# Group B (Placebo)
diabetes_B = np.random.binomial(1, baseline_diabetes, n_per_arm)
death_B = np.random.binomial(1, baseline_death, n_per_arm)
composite_B = (diabetes_B | death_B)

print("[DREAM Trial 시뮬레이션]")
print(f"\n[Composite (당뇨 + 사망)]")
print(f"Rosiglitazone: {composite_A.mean():.1%}")
print(f"Placebo: {composite_B.mean():.1%}")
print(f"감소율: {(1 - composite_A.mean()/composite_B.mean()):.1%}")

print(f"\n[당뇨만]")
print(f"Rosiglitazone: {diabetes_A.mean():.1%}, Placebo: {diabetes_B.mean():.1%}")

print(f"\n[사망만]")
print(f"Rosiglitazone: {death_A.mean():.1%}, Placebo: {death_B.mean():.1%}")

print("\n→ 'Reduces diabetes or death by 60%' 는 misleading.")
print("→ 60% 는 *당뇨* 효과. *사망* 효과는 거의 0.")

14 결론 — Ch.18 개관의 한 줄 요약

Surrogate · Composite 는 통계적 효율 의 도구지만 임상적 진실 을 가릴 위험. 환자에게 실제 해를 끼친 사례 다수.

핵심 메시지:

  1. Surrogate 의 위험 — Encainide 등 9 가지 약 사례
  2. Composite 의 misrepresentation — DREAM trial
  3. Schulz 의 권고: 일반적으로 회피. 예외 시 components 모두 보고
  4. 임상적 직관 (clinical hunch) 는 검증 없이 신뢰 불가
  5. “Difference must make a difference” — 의미 있는 결과만

후속 글에서 깊이 분석.

15 관련 주제

선행 지식

Phase C 후속 글

16 참고문헌

  • Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.18. Elsevier.
  • Grimes, D. A. & Schulz, K. F. (2005). Surrogate end points in clinical research: hazardous to your health. Obstet. Gynecol. 105, 1114-1118.
  • Fleming, T. R. & DeMets, D. L. (1996). Surrogate end points in clinical trials: are we being misled? Ann. Intern. Med. 125, 605-613.
  • Fleming, T. R. & Powers, J. H. (2012). Biomarkers and surrogate endpoints in clinical trials. Stat. Med. 31, 2973-2984.
  • Gerstein, H. C., Yusuf, S., Bosch, J., et al. (2006). DREAM trial. Lancet 368, 1096-1105.
  • Avorn, J. (2013). Approval of a tuberculosis drug based on a paradoxical surrogate measure. JAMA 309, 1349-1350.
  • Cordoba, G., Schwartz, L., Woloshin, S., Bae, H., Gøtzsche, P. C. (2010). Definition, reporting, and interpretation of composite outcomes. BMJ 341, c3920.

Subscribe

Enjoy this blog? Get notified of new posts by email: