이 글은 Schulz Ch.18 시리즈의 세 번째 글이다. Surrogate 의 validation 메커니즘 을 다룬다.
1 진입 직관 — “Correlate ≠ Surrogate”
이전 글에서 9 가지 surrogate 실패 사례를 보았다. 어떤 surrogate 는 실패하고 어떤 것은 성공하는가?
Fleming & DeMets (1996) 의 핵심 통찰: “A correlate does not a surrogate make.”
번역: 상관관계가 있다고 surrogate 가 되는 건 아니다.
1.1 핵심 차이
| 개념 | 정의 |
|---|---|
| Correlate | Surrogate 와 true endpoint 가 통계적으로 상관 |
| Surrogate | Surrogate 의 변화가 처치 효과를 완전히 capture |
반사실: Encainide 의 사례. PVC 와 사망률 은 상관 (PVC 많을수록 사망 위험 증가). 그러나 Encainide 는 PVC 만 억제 하고 다른 부정맥은 악화. 결과: 사망 증가. PVC 가 correlate 였지만 surrogate 가 아니었음.
2 Fleming-DeMets 의 두 검증 기준
2.1 기준 1: Correlation
요건: Surrogate 와 true endpoint 가 임상적으로 의미 있게 상관.
예: 콜레스테롤 ↑ → 심혈관 사건 ↑ (역학적 사실)
달성도: 대부분의 surrogate 가 이 기준 충족.
2.2 기준 2: Full Effect Capture
요건: 처치가 surrogate 에 미치는 모든 효과가 true endpoint 에 그대로 반영. 다른 경로 (off-target) 부재.
예: 콜레스테롤 강하제 X 가 LDL 30% 감소 + 심혈관 사건 30% 감소. 완전 capture.
달성도: 거의 충족 안 됨. 대부분 약은 off-target effects 또는 다른 경로 작용.
2.3 Prentice (1989) 의 수식 정의
공식 surrogate criterion (Prentice criterion):
Surrogate \(S\), True endpoint \(T\), Treatment \(X\) 에 대해:
- \(X\) 가 \(S\) 에 영향: \(f(S \mid X) \neq f(S)\)
- \(X\) 가 \(T\) 에 영향: \(f(T \mid X) \neq f(T)\)
- 결정적: \(f(T \mid S, X) = f(T \mid S)\)
즉 \(S\) 를 알면 \(X\) 의 추가 정보 없이 \(T\) 예측 가능.
수식 직관: \(S\) 가 처치 효과의 모든 정보를 담고 있어야 surrogate 정당. 그렇지 않으면 \(S\) 변화 대 \(T\) 변화 가 다를 수 있음.
2.4 두 기준 모두 충족의 어려움
현실: 두 기준을 만족하려면 S 와 T 모두 측정한 large prospective trial 필요. 그러나 이런 시험을 하면 애초에 surrogate 가 필요 없음 (T 직접 측정).
순환 논리: Surrogate 사용의 동기는 true endpoint 측정 회피. 그러나 surrogate validation 은 true endpoint 측정 필요.
3 Panel 18.3 — Levels of Evidence (4 단계 위계)
Schulz 가 Fleming & Powers (2012) 의 분류를 인용.
3.1 Level 1: True Clinical Efficacy Measure
진짜 임상적 결과.
3.1.1 사례
- 사망
- 사망 또는 입원 (심부전)
- 사망·뇌졸중·MI 복합 (급성 관상동맥)
- EDSS 7 (휠체어 의존, 다발성 경화증)
- 시력 15 글자 손실 (황반변성)
- 기능 상실 (관절염)
- 증상성 골절
신뢰도: 최고. 환자가 직접 경험 하는 결과.
3.2 Level 2: Validated Surrogate
큰 prospective 시험으로 검증 된 surrogate.
3.2.1 사례 (드묾)
| Surrogate | 분야 |
|---|---|
| HbA1c | 당뇨 미세혈관 합병증 |
| 수축기·이완기 혈압 | 항고혈압제 (다양한 클래스) |
| 6 분 보행 거리 (>40 m 호전) | 폐동맥 고혈압 |
| HIV 감염 | 일부 HIV 예방 시험 (예방 메커니즘이 susceptibility 만 영향 시) |
| LDL 콜레스테롤 | 심혈관 사건 (스타틴 클래스만) |
주의: Validated 라도 특정 질병·처치 클래스 에만 유효. 다른 처치 클래스로 외삽 위험.
반사실 — LDL 의 한계: 스타틴은 LDL 강하 + 심혈관 사건 감소. 검증된 surrogate. 그러나 다른 LDL 강하제 (예: torcetrapib) 는 LDL 강하지만 심혈관 사건 증가. 클래스 간 외삽 위험.
3.3 Level 3: Reasonably Likely Surrogate
Validation 부족하지만 mechanistic 또는 epidemiological rationale.
3.3.1 사례
| Surrogate | 분야 |
|---|---|
| 큰·지속적 viral load 효과 | HIV 일부 처치 |
| Durable complete responses | 혈액 종양 |
| Progression-free survival 큰 효과 | 일부 고형 종양 |
사용: FDA accelerated approval 가능. 그러나 post-marketing 시험 필수.
3.4 Level 4: Correlate — Biological Activity Only
생물학적 활성 측정 이지만 higher level 으로 입증되지 않음. 효능 시험에 피해야 함.
3.4.1 사례
| Correlate | 부적절 분야 |
|---|---|
| CD-4 | HIV |
| 발열 | 지역사회 폐렴 |
| VRE 제거 | VRE bacteremia 예방 |
| 헤마토크릿 | 화학요법 빈혈 |
| PSA | 전립선암 |
| 무증상 골절 | 증상 골절 예방 |
| FEV-1, FVC | 폐 질환 |
| Silent MI | 심혈관 질환 |
Schulz 의 권고: “Level 4 endpoints should be avoided in clinical trials designed to establish efficacy.”
4 검증된 Surrogate — 매우 드물다
4.1 Fully Validated Surrogate (Level 2)
대표 사례 (위에서 본):
- HIV viral load — 여러 confirmatory 시험으로 입증
- HbA1c — 미세혈관 합병증과 강한 인과
- LDL (스타틴 한정) — 다양한 시험으로 입증
Schulz 의 강조: “거의 모든 다른 surrogate 는 validation 부족 또는 invalid.”
4.2 그럼에도 사용되는 이유
- 효율의 매력 (이전 글)
- 검증 자체의 어려움 (large trial 필요)
- 규제 압력 (신약 신속 승인)
- 임상적 직관 (정당화 안 됨)
5 Schulz 의 3 단계 분류 — Science / Protoscience / Pseudoscience
Grimes, Schulz, Raymond (2010) 의 추가 분류:
| 단계 | 정의 | Surrogate 사례 |
|---|---|---|
| Science | 체계적 지식, 관찰·실험 기반 | Validated surrogate (HbA1c) |
| Protoscience | 신생 과학, 검증 가능 이론 | “Reasonably likely” surrogate |
| Pseudoscience | 신념 기반, 검증 안 함 | Invalid surrogate (PVC, fluoride 골밀도) |
유추: - Alchemy → Chemistry: Protoscience → Science - Alchemy → Pseudoscience: 검증 안 한 채 사용 시 - Astrology → Astronomy: Protoscience → Science (실제는 별 영향 거짓)
Schulz 의 비판: 일부 surrogate 사용은 pseudoscience 수준. 강한 신념 기반 + 검증 부재.
6 코드 예시 — Prentice Criterion 시뮬레이션
import numpy as np
np.random.seed(42)
n = 1000
# 시나리오 A: Valid Surrogate
# 처치 X → Surrogate S → True T (완전 매개)
X_a = np.random.choice([0, 1], n)
S_a = X_a * 0.5 + np.random.normal(0, 0.3, n) # X → S
T_a = S_a * 0.8 + np.random.normal(0, 0.2, n) # S → T (X 직접 영향 없음)
# 시나리오 B: Invalid Surrogate (parallel pathway)
# 처치 X → Surrogate S
# 처치 X → True T (별도 경로)
X_b = np.random.choice([0, 1], n)
S_b = X_b * 0.5 + np.random.normal(0, 0.3, n)
T_b = X_b * 0.3 + np.random.normal(0, 0.2, n) # X → T 직접 (S 무관)
# Prentice criterion 검증 — adjusted regression
from scipy import stats
print("[Valid Surrogate (시나리오 A)]")
# X → T 효과 측정
slope_xt, _, _, p_xt, _ = stats.linregress(X_a, T_a)
print(f"X → T (단순): slope={slope_xt:.3f}, p={p_xt:.3f}")
# X → T | S 효과 측정 (S 보정)
import statsmodels.api as sm
X_full = sm.add_constant(np.column_stack([X_a, S_a]))
model = sm.OLS(T_a, X_full).fit()
print(f"X → T | S: slope={model.params[1]:.3f}, p={model.pvalues[1]:.3f}")
print("→ S 보정 후 X 효과 거의 0 → Valid surrogate (Prentice 충족)")
print("\n[Invalid Surrogate (시나리오 B)]")
slope_xt, _, _, p_xt, _ = stats.linregress(X_b, T_b)
print(f"X → T (단순): slope={slope_xt:.3f}, p={p_xt:.3f}")
X_full = sm.add_constant(np.column_stack([X_b, S_b]))
model = sm.OLS(T_b, X_full).fit()
print(f"X → T | S: slope={model.params[1]:.3f}, p={model.pvalues[1]:.3f}")
print("→ S 보정 후에도 X 효과 유의 → Invalid surrogate (parallel pathway)")7 결론 — Ch.18.2 의 한 줄 요약
Surrogate validation 은 correlation 이상의 full effect capture 요구. 거의 충족 안 됨.
핵심 메시지:
- Correlate ≠ Surrogate (Fleming-DeMets)
- Two criteria — Correlation + Full effect capture
- Prentice criterion — 수식 정의
- Levels of Evidence — 4 단계, Level 1 (true endpoint) 만 항상 안전
- Validated surrogate 매우 드물음 — HIV viral load, HbA1c, LDL (제한)
다음 글: Terminological tangles 와 way forward.
8 관련 주제
9 참고문헌
- Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.18. Elsevier.
- Fleming, T. R. & DeMets, D. L. (1996). Surrogate end points in clinical trials: are we being misled? Ann. Intern. Med. 125, 605-613.
- Fleming, T. R. & Powers, J. H. (2012). Biomarkers and surrogate endpoints in clinical trials. Stat. Med. 31, 2973-2984.
- Prentice, R. L. (1989). Surrogate endpoints in clinical trials: definition and operational criteria. Stat. Med. 8, 431-440.
- Grimes, D. A., Schulz, K. F., Raymond, E. G. (2010). Surrogate end points in women’s health research: science, protoscience, and pseudoscience. Fertil. Steril. 93, 1731-1734.
- Lassere, M. N. (2008). The Biomarker-Surrogacy Evaluation Schema. Stat. Methods Med. Res. 17, 303-340.