Surrogate Validation 과 Evidence Levels — Ch.18.2

Fleming-DeMets 의 두 기준과 Panel 18.3 의 4 단계 위계

Schulz Ch.18.2 — Surrogate 의 validation 메커니즘. (1) Fleming & DeMets 의 두 검증 기준 — correlation + full effect capture, (2) Levels of Evidence — 4 단계 분류 (Panel 18.3), (3) 검증된 surrogate 의 드묾 (HIV viral load, HbA1c, LDL 만), (4) Surrogate 검증 자체의 어려움 — large prospective trial 필요.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

이 글은 Schulz Ch.18 시리즈의 세 번째 글이다. Surrogate 의 validation 메커니즘 을 다룬다.

1 진입 직관 — “Correlate ≠ Surrogate”

이전 글에서 9 가지 surrogate 실패 사례를 보았다. 어떤 surrogate 는 실패하고 어떤 것은 성공하는가?

Fleming & DeMets (1996) 의 핵심 통찰: “A correlate does not a surrogate make.”

번역: 상관관계가 있다고 surrogate 가 되는 건 아니다.

1.1 핵심 차이

개념 정의
Correlate Surrogate 와 true endpoint 가 통계적으로 상관
Surrogate Surrogate 의 변화가 처치 효과를 완전히 capture

반사실: Encainide 의 사례. PVC 와 사망률상관 (PVC 많을수록 사망 위험 증가). 그러나 Encainide 는 PVC 만 억제 하고 다른 부정맥은 악화. 결과: 사망 증가. PVC 가 correlate 였지만 surrogate 가 아니었음.

2 Fleming-DeMets 의 두 검증 기준

2.1 기준 1: Correlation

요건: Surrogate 와 true endpoint 가 임상적으로 의미 있게 상관.

: 콜레스테롤 ↑ → 심혈관 사건 ↑ (역학적 사실)

달성도: 대부분의 surrogate 가 이 기준 충족.

2.2 기준 2: Full Effect Capture

요건: 처치가 surrogate 에 미치는 모든 효과가 true endpoint 에 그대로 반영. 다른 경로 (off-target) 부재.

: 콜레스테롤 강하제 X 가 LDL 30% 감소 + 심혈관 사건 30% 감소. 완전 capture.

달성도: 거의 충족 안 됨. 대부분 약은 off-target effects 또는 다른 경로 작용.

2.3 Prentice (1989) 의 수식 정의

공식 surrogate criterion (Prentice criterion):

Surrogate \(S\), True endpoint \(T\), Treatment \(X\) 에 대해:

  1. \(X\)\(S\) 에 영향: \(f(S \mid X) \neq f(S)\)
  2. \(X\)\(T\) 에 영향: \(f(T \mid X) \neq f(T)\)
  3. 결정적: \(f(T \mid S, X) = f(T \mid S)\)

\(S\) 를 알면 \(X\) 의 추가 정보 없이 \(T\) 예측 가능.

수식 직관: \(S\)처치 효과의 모든 정보를 담고 있어야 surrogate 정당. 그렇지 않으면 \(S\) 변화 대 \(T\) 변화 가 다를 수 있음.

2.4 두 기준 모두 충족의 어려움

현실: 두 기준을 만족하려면 S 와 T 모두 측정한 large prospective trial 필요. 그러나 이런 시험을 하면 애초에 surrogate 가 필요 없음 (T 직접 측정).

순환 논리: Surrogate 사용의 동기는 true endpoint 측정 회피. 그러나 surrogate validation 은 true endpoint 측정 필요.

3 Panel 18.3 — Levels of Evidence (4 단계 위계)

Schulz 가 Fleming & Powers (2012) 의 분류를 인용.

3.1 Level 1: True Clinical Efficacy Measure

진짜 임상적 결과.

3.1.1 사례

  • 사망
  • 사망 또는 입원 (심부전)
  • 사망·뇌졸중·MI 복합 (급성 관상동맥)
  • EDSS 7 (휠체어 의존, 다발성 경화증)
  • 시력 15 글자 손실 (황반변성)
  • 기능 상실 (관절염)
  • 증상성 골절

신뢰도: 최고. 환자가 직접 경험 하는 결과.

3.2 Level 2: Validated Surrogate

큰 prospective 시험으로 검증 된 surrogate.

3.2.1 사례 (드묾)

Surrogate 분야
HbA1c 당뇨 미세혈관 합병증
수축기·이완기 혈압 항고혈압제 (다양한 클래스)
6 분 보행 거리 (>40 m 호전) 폐동맥 고혈압
HIV 감염 일부 HIV 예방 시험 (예방 메커니즘이 susceptibility 만 영향 시)
LDL 콜레스테롤 심혈관 사건 (스타틴 클래스만)

주의: Validated 라도 특정 질병·처치 클래스 에만 유효. 다른 처치 클래스로 외삽 위험.

반사실 — LDL 의 한계: 스타틴은 LDL 강하 + 심혈관 사건 감소. 검증된 surrogate. 그러나 다른 LDL 강하제 (예: torcetrapib) 는 LDL 강하지만 심혈관 사건 증가. 클래스 간 외삽 위험.

3.3 Level 3: Reasonably Likely Surrogate

Validation 부족하지만 mechanistic 또는 epidemiological rationale.

3.3.1 사례

Surrogate 분야
큰·지속적 viral load 효과 HIV 일부 처치
Durable complete responses 혈액 종양
Progression-free survival 큰 효과 일부 고형 종양

사용: FDA accelerated approval 가능. 그러나 post-marketing 시험 필수.

3.4 Level 4: Correlate — Biological Activity Only

생물학적 활성 측정 이지만 higher level 으로 입증되지 않음. 효능 시험에 피해야 함.

3.4.1 사례

Correlate 부적절 분야
CD-4 HIV
발열 지역사회 폐렴
VRE 제거 VRE bacteremia 예방
헤마토크릿 화학요법 빈혈
PSA 전립선암
무증상 골절 증상 골절 예방
FEV-1, FVC 폐 질환
Silent MI 심혈관 질환

Schulz 의 권고: “Level 4 endpoints should be avoided in clinical trials designed to establish efficacy.”

4 검증된 Surrogate — 매우 드물다

4.1 Fully Validated Surrogate (Level 2)

대표 사례 (위에서 본):

  1. HIV viral load — 여러 confirmatory 시험으로 입증
  2. HbA1c — 미세혈관 합병증과 강한 인과
  3. LDL (스타틴 한정) — 다양한 시험으로 입증

Schulz 의 강조: “거의 모든 다른 surrogate 는 validation 부족 또는 invalid.”

4.2 그럼에도 사용되는 이유

  • 효율의 매력 (이전 글)
  • 검증 자체의 어려움 (large trial 필요)
  • 규제 압력 (신약 신속 승인)
  • 임상적 직관 (정당화 안 됨)

5 Schulz 의 3 단계 분류 — Science / Protoscience / Pseudoscience

Grimes, Schulz, Raymond (2010) 의 추가 분류:

단계 정의 Surrogate 사례
Science 체계적 지식, 관찰·실험 기반 Validated surrogate (HbA1c)
Protoscience 신생 과학, 검증 가능 이론 “Reasonably likely” surrogate
Pseudoscience 신념 기반, 검증 안 함 Invalid surrogate (PVC, fluoride 골밀도)

유추: - Alchemy → Chemistry: Protoscience → Science - Alchemy → Pseudoscience: 검증 안 한 채 사용 시 - Astrology → Astronomy: Protoscience → Science (실제는 별 영향 거짓)

Schulz 의 비판: 일부 surrogate 사용은 pseudoscience 수준. 강한 신념 기반 + 검증 부재.

6 코드 예시 — Prentice Criterion 시뮬레이션

import numpy as np

np.random.seed(42)

n = 1000

# 시나리오 A: Valid Surrogate
# 처치 X → Surrogate S → True T (완전 매개)

X_a = np.random.choice([0, 1], n)
S_a = X_a * 0.5 + np.random.normal(0, 0.3, n)   # X → S
T_a = S_a * 0.8 + np.random.normal(0, 0.2, n)   # S → T (X 직접 영향 없음)

# 시나리오 B: Invalid Surrogate (parallel pathway)
# 처치 X → Surrogate S
# 처치 X → True T (별도 경로)

X_b = np.random.choice([0, 1], n)
S_b = X_b * 0.5 + np.random.normal(0, 0.3, n)
T_b = X_b * 0.3 + np.random.normal(0, 0.2, n)   # X → T 직접 (S 무관)

# Prentice criterion 검증 — adjusted regression
from scipy import stats

print("[Valid Surrogate (시나리오 A)]")
# X → T 효과 측정
slope_xt, _, _, p_xt, _ = stats.linregress(X_a, T_a)
print(f"X → T (단순): slope={slope_xt:.3f}, p={p_xt:.3f}")
# X → T | S 효과 측정 (S 보정)
import statsmodels.api as sm
X_full = sm.add_constant(np.column_stack([X_a, S_a]))
model = sm.OLS(T_a, X_full).fit()
print(f"X → T | S: slope={model.params[1]:.3f}, p={model.pvalues[1]:.3f}")
print("→ S 보정 후 X 효과 거의 0 → Valid surrogate (Prentice 충족)")

print("\n[Invalid Surrogate (시나리오 B)]")
slope_xt, _, _, p_xt, _ = stats.linregress(X_b, T_b)
print(f"X → T (단순): slope={slope_xt:.3f}, p={p_xt:.3f}")
X_full = sm.add_constant(np.column_stack([X_b, S_b]))
model = sm.OLS(T_b, X_full).fit()
print(f"X → T | S: slope={model.params[1]:.3f}, p={model.pvalues[1]:.3f}")
print("→ S 보정 후에도 X 효과 유의 → Invalid surrogate (parallel pathway)")

7 결론 — Ch.18.2 의 한 줄 요약

Surrogate validation 은 correlation 이상의 full effect capture 요구. 거의 충족 안 됨.

핵심 메시지:

  1. Correlate ≠ Surrogate (Fleming-DeMets)
  2. Two criteria — Correlation + Full effect capture
  3. Prentice criterion — 수식 정의
  4. Levels of Evidence — 4 단계, Level 1 (true endpoint) 만 항상 안전
  5. Validated surrogate 매우 드물음 — HIV viral load, HbA1c, LDL (제한)

다음 글: Terminological tangles 와 way forward.

8 관련 주제

9 참고문헌

  • Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.18. Elsevier.
  • Fleming, T. R. & DeMets, D. L. (1996). Surrogate end points in clinical trials: are we being misled? Ann. Intern. Med. 125, 605-613.
  • Fleming, T. R. & Powers, J. H. (2012). Biomarkers and surrogate endpoints in clinical trials. Stat. Med. 31, 2973-2984.
  • Prentice, R. L. (1989). Surrogate endpoints in clinical trials: definition and operational criteria. Stat. Med. 8, 431-440.
  • Grimes, D. A., Schulz, K. F., Raymond, E. G. (2010). Surrogate end points in women’s health research: science, protoscience, and pseudoscience. Fertil. Steril. 93, 1731-1734.
  • Lassere, M. N. (2008). The Biomarker-Surrogacy Evaluation Schema. Stat. Methods Med. Res. 17, 303-340.

Subscribe

Enjoy this blog? Get notified of new posts by email: