Kwangmin Kim - 임상시험의 다중성

1 도입 — 다중성의 두 측면

Schulz & Grimes (2019) Ch.19 는 임상시험의 다중성을 두 측면으로 나눈다.

Multiple endpoints — 한 시험에서 여러 결과 변수 검정
Multiple treatments — 한 시험에서 여러 처치 그룹 비교

이 글은 왜 임상시험에서 다중성이 까다로운가, Bonferroni 보정이 항상 적절하지 않은 이유, 그리고 Schulz 의 권장 접근 을 정리한다. A-MAX5-* 시리즈가 통계적 다중 비교를 다뤘다면, 이 시리즈는 임상 적용 의 미묘함을 다룬다.

2 Multiplicity 의 두 문제

정의: Multiplicity Problem (임상)

한 시험에서 수많은 가능한 비교 가 발생하는 현상. 두 형태가 있다.

Reporting 문제: 연구자가 모든 비교를 보고하지 않고 유의한 결과만 선택적 보고 (selective reporting)
통계적 문제: 진정한 효과가 없어도 우연히 일부 비교가 유의해질 확률 폭증

Schulz 는 Reporting 문제가 더 심각 하다고 본다.

“수천 개의 잠재적 비교가 한 시험에서 발생할 수 있다. 일부 연구자는 자료를 고문해서 자백을 받아낸다 (torture data until they speak).” (Schulz 2019, Ch.19)

3 \(\alpha\) 인플레이션 — 통계적 측면

A-MAX5-1 에서 다룬 공식이 임상 영역에 그대로 적용된다.

\[ \alpha_{EW} = 1 - (1 - \alpha)^d \]

\(d\) = 비교 수.

\(d\)	\(\alpha_{EW}\) (\(\alpha = 0.05\))
1	0.05
5	0.226
10	0.401
20	0.642
100	0.994

10 개 endpoints 면 적어도 한 개가 우연히 유의 할 확률이 40 % 이상.

4 Bonferroni 보정 — 임상에서의 한계

A-MAX5-2 에서 Bonferroni 의 단순함을 다뤘다. 그러나 Schulz 는 임상 영역에서의 부적절성 을 강조한다.

직관 — Bonferroni 가 잘못된 가설을 검정한다

Bonferroni 의 implicit 귀무가설:

\[ H_0: \text{모든 endpoints 에서 효과 없음} \]

\[ H_1: \text{적어도 한 endpoint 에서 효과 있음} \]

이 universal null hypothesis 는 임상적으로 의미 있는 가설이 아니다. 실제 임상 질문은:

“각 endpoint 에서 효과가 있는가, 효과 크기는 얼마인가?”

각 endpoint 가 독립적인 임상적 의미 를 가진다. Bonferroni 처럼 전체 에 대한 검정은 이 임상적 질문에 답하지 못한다.

Rothman 의 비유: “20 개 검사를 처방한 의사에게, 결과가 ‘일부가 비정상’ 이라고만 알려준다. 어느 검사가 비정상인지 모른다.” 이런 보고는 임상적으로 무의미.

5 Schulz 의 권장 접근

5.1 권장 1 — 사전 등록과 Primary 엄격 지정

프로토콜 (사전 등록):
  Primary endpoint: 사망률 (1 개)
  Secondary endpoints: 재입원률, 부작용 발생, QoL (3 개)
  분석 계획: Primary 만 confirmatory, secondary 는 exploratory

이 계층화 가 다중성 문제를 회피하는 가장 단순한 방법.

5.2 권장 2 — Endpoints 수 최소화

“가장 작은 수 의 endpoints 만 사용. 5 개보다 1 개가 좋다.”

해석 단순성 + 검정력 보존.

5.3 권장 3 — 모든 비교 보고

선택적 보고 회피. 모든 분석 결과 (유의 + 미유의) 보고.

5.4 권장 4 — Composite Endpoints 신중

여러 endpoints 를 하나로 합치는 composite (예: 심혈관 사건 = 심근경색 OR 뇌졸중 OR 심혈관 사망) 가 다중성 회피의 한 방법. 그러나 해석의 함정 이 있음 (다음 글 A-SCH19-2 에서 다룸).

6 Multiple Endpoints 의 임상 사례

6.1 사례 — 항생제 시험

Schulz 의 가상 사례:

“새 항생제 vs 표준 항생제 비교. 사전 정의된 1 차 outcome: 발열. 결과: RR = 0.50, 95 % CI [0.25, 0.99], p = 0.048. 통계적 유의.

사후 발견: 상처 감염도 비슷한 감소 (RR = 0.48, 95 % CI [0.24, 0.97], p = 0.041). 두 endpoints 가 생물학적으로 강하게 연관.

Bonferroni 적용 시: \(\alpha / 2 = 0.025\) → 두 결과 모두 유의 X. → ‘효과 없음’ 결론?”

이 Bonferroni 의 역설 이 핵심이다. 두 endpoints 가 서로 보강 하는 결과가 Bonferroni 로 무효화 됨. 임상적으로는 결과가 더 강해진 것인데 통계적 보정은 반대로 약화시킴.

직관 — 보정의 부조리

Schulz 의 비유: “한 환자에서 비정상 hemoglobin 발견 후, 비정상 hematocrit 도 발견. 의사가 두 결과를 서로 모순 으로 해석해 치료를 보류한다.”

이 시나리오는 부조리하다. Hemoglobin 과 hematocrit 는 생물학적으로 강하게 연관 되어 있어, 한 결과가 다른 결과를 보강 한다. Bonferroni 가 두 endpoints 를 독립적 으로 처리하는 것이 같은 종류의 오류.

A/B 테스트의 사례: 클릭률 + 매출 검정. 두 메트릭이 강한 양의 상관 (클릭이 매출로 이어짐). 둘 다 유의하면 결과가 강해진 것이지 약해진 것이 아니다. Bonferroni 보정이 이 상관 정보 를 활용 안 함.

7 Bonferroni 가 적절한 시점

Schulz 가 인정하는 사례:

“임상적 의사결정이 1 개 이상의 primary endpoints 가 유의해야 한다는 명시적 기준 에 의존하는 경우, 보정이 필요하다.”

예시: FDA 신약 승인. 복수의 primary outcomes 모두 유의해야 승인. 이때 Bonferroni 가 적절한 보호 를 제공.

대조: 학술 연구. 각 endpoint 가 독립적 의미. 보정 불필요.

8 Multiarm Trials — 다중 처치

8.1 정의

정의: Multiarm Trial

3 개 이상의 처치 그룹 (보통 대조군 + 2 개 이상 처치) 을 동시 비교하는 시험.

3-arm 시험: A vs B vs C. 가능한 비교:

3 쌍별: A vs B, A vs C, B vs C
3 vs 평균: A vs (B+C)/2, B vs (A+C)/2, C vs (A+B)/2
옴니버스: 모두 같은가?

총 7 개 가능한 비교 (Schulz Fig. 19.1).

8.2 Multiarm 의 빈도

PubMed 무작위 시험의 78 % 가 parallel design 중, 22 % 가 multiarm:

15 %: 3-arm
4 %: 4-arm
3 %: 5-arm 이상

따라서 multiarm 이 흔함.

8.3 Multiarm 의 장점

“표준 처치 + 두 신규 처치 비교 시, 2-arm 방식 (각각 독립 시험) 보다 multiarm 1 회가 비용 효율적.”

또한 공통 대조군 사용으로 표본 절감.

8.4 Multiplicity 처리

Multiarm 에서 다중성 처리는 multiple endpoints 보다 더 다루기 쉬움. 이유:

Treatment 추가는 물리적으로 어려움 (자료 추가 필요) → cherry picking 어려움
옴니버스 F 검정 또는 Dunnett 으로 한 번에 처리 가능

A-MAX5-3 에서 다룬 Dunnett 절차가 multiarm 의 표준 도구.

9 Schulz 의 권장 — 임상 의사결정 시각

시나리오 → 적절한 보정
   ↓
규제 승인 (모든 primary 유의 필요)
   → Bonferroni 또는 Hochberg 적절
   ↓
학술 연구 (각 endpoint 독립적 의미)
   → 보정 불필요, 사전 등록 + 모든 결과 보고
   ↓
탐색적 분석 (가설 생성)
   → FDR 또는 *exploratory* 표시
   ↓
Multiarm 시험 (대조군 vs 여러 처치)
   → Dunnett (효율적)
   ↓
Sequential testing (interim analysis)
   → Alpha spending (Pocock, OBF) — 다음 챕터

이 트리가 상황에 맞는 보정 선택 의 가이드.

10 Bayesian 시각 — 대안

Schulz Ch.19 가 직접 다루진 않지만, Bayesian 분석 은 다중성 문제를 근본적으로 다른 방식으로 처리.

Bayesian 사후 확률은 peeking 문제 면역 (들여다본다고 사후 확률이 변하지 않음)
다중 비교의 명시적 사전 으로 보정 가능 (hierarchical priors)
효과 크기 + 신뢰 (credible) 구간 직접 보고

A/B 테스트 실무에서 베이즈 접근 (Optimizely, VWO 의 일부) 이 다중성에 자연스럽게 강건.

11 A/B 테스트 실무 매핑

임상 시나리오	A/B 테스트 매핑
Primary outcome	Primary metric (예: 매출)
Secondary outcomes	Secondary metrics (체류시간, NPS)
Multiarm trial	A/B/C/D 테스트
Composite endpoint	Composite metric (예: 클릭 OR 구매)
Subgroup analysis	Segment 분석 (모바일·데스크톱·신규)
Sequential testing	일별 모니터링 + alpha spending

A/B 테스트의 다중성 함정과 임상시험의 함정은 구조가 거의 동일. 통계적 도구도 그대로 적용된다.

12 다중성 사례 연구 — 임상 영역

12.1 사례 1 — CAST 시험 (1989)

CAST (Cardiac Arrhythmia Suppression Trial) 의 다중성 함정

배경: 심근경색 환자의 심실 조기수축 이 사망률 증가와 연관. 항부정맥약 (encainide, flecainide) 이 부정맥 억제. 이론적으로 사망률 감소 기대.

설계: 3-arm 시험 (encainide vs flecainide vs 위약). 1500 명.

분석: Multiple endpoints — 사망률, 부정맥 빈도, 입원율, 부작용.

결과: 활성 약물이 사망률 증가 (RR 2.5, p < 0.001). 시험 조기 중단.

다중성 통찰: - 사전 등록된 primary outcome 만 보고 → 단일 가설 검정 - Subgroup 분석 결과는 명시적으로 exploratory 처리 - 부정 결과 (사망 증가) 도 정직 보고

이 시험이 임상 통계의 모범. Selective reporting 회피, 모든 결과 정직 보고.

12.2 사례 2 — DREAM 시험

당뇨병 예방 시험. 다중 endpoints: 당뇨 발생, 심혈관 사건, 사망.

다중성 처리: - Primary: 당뇨 발생 (사전 등록) - Secondary: 다른 outcomes (FDR 보정) - Subgroup: 사전 등록된 5 개만 (BMI 군, 연령군 등)

결과 보고: 모든 endpoints 의 RR + CI + p (FDR 조정 표시).

12.3 사례 3 — A/B 테스트 사례

가상 시나리오: 새 추천 알고리즘의 효과.

사전 등록:
  Primary: 매출 (1 개)
  Secondary: 클릭률, 체류시간, 재방문율 (3 개)
  Guardrail: 페이지 로드 시간, 오류율 (2 개)

결과:
  Primary 분석:
    매출: +1.2 %, 95 % CI [+0.4 %, +2.0 %], p = 0.003
    → 유의 (사전 등록된 단일 가설, 보정 불필요)

  Secondary 분석 (FDR 보정):
    클릭률: +3.5 %, p_adj = 0.012
    체류시간: +5.2 %, p_adj = 0.008
    재방문율: +0.8 %, p_adj = 0.18 (미유의)

  Guardrail 분석:
    페이지 로드: +2 ms, p = 0.42 (악화 없음 OK)
    오류율: +0.01 %, p = 0.38 (악화 없음 OK)

결론: Primary 효과 입증, secondary 일관, guardrail 양호.
      신규 알고리즘 채택 권장.

이 형식이 임상 표준의 A/B 테스트 적용. 계층 구조 + 보정 + guardrail.

13 Hierarchical Testing — 임상 표준

Hierarchical Testing (Sequential)

여러 endpoints 를 우선순위 로 정렬. 각 단계가 유의해야 다음으로.

단계 1: Primary 검정 (α = 0.05)
   유의 → 단계 2
   미유의 → 중단 (모든 후속 미유의)

단계 2: Secondary 1 검정 (α = 0.05)
   유의 → 단계 3
   미유의 → 중단

...

이 순차 종속 검정에서 각 단계가 전체 α 사용. 자동 multiplicity 통제.

13.1 적용 시점

Endpoints 사이 명확한 우선순위
가장 중요한 결과 먼저 검정
후속이 부수적

A/B 테스트의 일반 시나리오에 적합.

13.2 한계

Primary 가 미유의면 모든 후속 미유의 (정보 손실)
Endpoint 간 우선순위 결정 어려움

14 사전 등록 — 다중성 회피의 가장 강력 도구

직관 — 사전 등록의 실제 효과

연구 사례: Kaplan & Irvin (2015) 가 심혈관 시험의 사전 등록 전후 비교.

등록 의무화 전: 57 % 시험이 주요 결과 유의
등록 의무화 후: 8 % 시험만 주요 결과 유의

같은 분야에서 7 배 이상 차이. 등록 전에는 selective reporting 이 광범위했던 증거.

A/B 테스트도 같다. 사전 등록 (pre-registration) 또는 내부 위키 공유 가 cherry picking 방지. 결과 후 가설 변경 어려움.

도구: OSF, AsPredicted, GitHub 의 protocol commit, 회사 내 사전 분석 계획서.

15 Closed Testing Procedure — 다중성의 통합 이론

정의: Closed Testing (Marcus, Peritz, Gabriel 1976)

여러 가설의 모든 부분 집합 의 교집합 가설을 옴니버스로 검정. 각 부분 집합에서 옴니버스가 유의해야 그 안의 개별 가설을 기각 가능.

자동으로 \(\alpha_{EW}\) 통제 보장.

15.1 의미

Closed Testing 은 다중 비교 절차의 통합 이론. 많은 절차 (Holm, Hochberg, Hommel) 가 closed testing 의 특수 사례.

이 이론이 왜 일부 절차가 작동하는가 의 수학적 근거.

16 베이즈 시각의 다중성

직관 — 베이즈가 다중성에 robust 한 이유

빈도주의: 검정 수가 많으면 false positive 폭증. 보정 필수.

베이즈: 사전 분포 가 자동으로 다중성 조절. Hierarchical model 에서 모든 효과를 공통 분포 로부터 표집한다고 가정 → 극단값이 자동으로 줄어듦 (shrinkage).

A/B 테스트에서 100 개 segment 분석 시:

빈도주의: Bonferroni 보정 → α = 0.0005, 검출력 폭락
베이즈: Hierarchical prior → 자동 shrinkage → 검정력 보존

베이즈 분석의 자연스런 다중성 통제 가 다중 비교 패러다임을 근본적으로 다르게 만든다.

베이즈 도구: PyMC, Stan, brms (R). A/B 테스트의 다중 메트릭 분석에 적용 증가.

17 후속 — Endpoints 와 Treatments 자세히

다음 글들:

A-SCH19-1 — The Issue + Proposed Statistical Solution + Bonferroni 비판
A-SCH19-2 — Multiple Endpoints + Composite + Multiarm 자세히

18 관련 주제

선행 지식

후속 주제 (Phase A)

A-SCH19-1, 2 (자세히)

다른 카테고리 연결