1 도입 — 다중성의 두 측면
Schulz & Grimes (2019) Ch.19 는 임상시험의 다중성을 두 측면으로 나눈다.
- Multiple endpoints — 한 시험에서 여러 결과 변수 검정
- Multiple treatments — 한 시험에서 여러 처치 그룹 비교
이 글은 왜 임상시험에서 다중성이 까다로운가, Bonferroni 보정이 항상 적절하지 않은 이유, 그리고 Schulz 의 권장 접근 을 정리한다. A-MAX5-* 시리즈가 통계적 다중 비교를 다뤘다면, 이 시리즈는 임상 적용 의 미묘함을 다룬다.
2 Multiplicity 의 두 문제
한 시험에서 수많은 가능한 비교 가 발생하는 현상. 두 형태가 있다.
- Reporting 문제: 연구자가 모든 비교를 보고하지 않고 유의한 결과만 선택적 보고 (selective reporting)
- 통계적 문제: 진정한 효과가 없어도 우연히 일부 비교가 유의해질 확률 폭증
Schulz 는 Reporting 문제가 더 심각 하다고 본다.
“수천 개의 잠재적 비교가 한 시험에서 발생할 수 있다. 일부 연구자는 자료를 고문해서 자백을 받아낸다 (torture data until they speak).” (Schulz 2019, Ch.19)
3 \(\alpha\) 인플레이션 — 통계적 측면
A-MAX5-1 에서 다룬 공식이 임상 영역에 그대로 적용된다.
\[ \alpha_{EW} = 1 - (1 - \alpha)^d \]
\(d\) = 비교 수.
| \(d\) | \(\alpha_{EW}\) (\(\alpha = 0.05\)) |
|---|---|
| 1 | 0.05 |
| 5 | 0.226 |
| 10 | 0.401 |
| 20 | 0.642 |
| 100 | 0.994 |
10 개 endpoints 면 적어도 한 개가 우연히 유의 할 확률이 40 % 이상.
4 Bonferroni 보정 — 임상에서의 한계
A-MAX5-2 에서 Bonferroni 의 단순함을 다뤘다. 그러나 Schulz 는 임상 영역에서의 부적절성 을 강조한다.
Bonferroni 의 implicit 귀무가설:
\[ H_0: \text{모든 endpoints 에서 효과 없음} \]
vs
\[ H_1: \text{적어도 한 endpoint 에서 효과 있음} \]
이 universal null hypothesis 는 임상적으로 의미 있는 가설이 아니다. 실제 임상 질문은:
“각 endpoint 에서 효과가 있는가, 효과 크기는 얼마인가?”
각 endpoint 가 독립적인 임상적 의미 를 가진다. Bonferroni 처럼 전체 에 대한 검정은 이 임상적 질문에 답하지 못한다.
Rothman 의 비유: “20 개 검사를 처방한 의사에게, 결과가 ‘일부가 비정상’ 이라고만 알려준다. 어느 검사가 비정상인지 모른다.” 이런 보고는 임상적으로 무의미.
5 Schulz 의 권장 접근
5.1 권장 1 — 사전 등록과 Primary 엄격 지정
프로토콜 (사전 등록):
Primary endpoint: 사망률 (1 개)
Secondary endpoints: 재입원률, 부작용 발생, QoL (3 개)
분석 계획: Primary 만 confirmatory, secondary 는 exploratory
이 계층화 가 다중성 문제를 회피하는 가장 단순한 방법.
5.2 권장 2 — Endpoints 수 최소화
“가장 작은 수 의 endpoints 만 사용. 5 개보다 1 개가 좋다.”
해석 단순성 + 검정력 보존.
5.3 권장 3 — 모든 비교 보고
선택적 보고 회피. 모든 분석 결과 (유의 + 미유의) 보고.
5.4 권장 4 — Composite Endpoints 신중
여러 endpoints 를 하나로 합치는 composite (예: 심혈관 사건 = 심근경색 OR 뇌졸중 OR 심혈관 사망) 가 다중성 회피의 한 방법. 그러나 해석의 함정 이 있음 (다음 글 A-SCH19-2 에서 다룸).
6 Multiple Endpoints 의 임상 사례
6.1 사례 — 항생제 시험
Schulz 의 가상 사례:
“새 항생제 vs 표준 항생제 비교. 사전 정의된 1 차 outcome: 발열. 결과: RR = 0.50, 95 % CI [0.25, 0.99], p = 0.048. 통계적 유의.
사후 발견: 상처 감염도 비슷한 감소 (RR = 0.48, 95 % CI [0.24, 0.97], p = 0.041). 두 endpoints 가 생물학적으로 강하게 연관.
Bonferroni 적용 시: \(\alpha / 2 = 0.025\) → 두 결과 모두 유의 X. → ‘효과 없음’ 결론?”
이 Bonferroni 의 역설 이 핵심이다. 두 endpoints 가 서로 보강 하는 결과가 Bonferroni 로 무효화 됨. 임상적으로는 결과가 더 강해진 것인데 통계적 보정은 반대로 약화시킴.
Schulz 의 비유: “한 환자에서 비정상 hemoglobin 발견 후, 비정상 hematocrit 도 발견. 의사가 두 결과를 서로 모순 으로 해석해 치료를 보류한다.”
이 시나리오는 부조리하다. Hemoglobin 과 hematocrit 는 생물학적으로 강하게 연관 되어 있어, 한 결과가 다른 결과를 보강 한다. Bonferroni 가 두 endpoints 를 독립적 으로 처리하는 것이 같은 종류의 오류.
A/B 테스트의 사례: 클릭률 + 매출 검정. 두 메트릭이 강한 양의 상관 (클릭이 매출로 이어짐). 둘 다 유의하면 결과가 강해진 것이지 약해진 것이 아니다. Bonferroni 보정이 이 상관 정보 를 활용 안 함.
7 Bonferroni 가 적절한 시점
Schulz 가 인정하는 사례:
“임상적 의사결정이 1 개 이상의 primary endpoints 가 유의해야 한다는 명시적 기준 에 의존하는 경우, 보정이 필요하다.”
예시: FDA 신약 승인. 복수의 primary outcomes 모두 유의해야 승인. 이때 Bonferroni 가 적절한 보호 를 제공.
대조: 학술 연구. 각 endpoint 가 독립적 의미. 보정 불필요.
8 Multiarm Trials — 다중 처치
8.1 정의
3 개 이상의 처치 그룹 (보통 대조군 + 2 개 이상 처치) 을 동시 비교하는 시험.
3-arm 시험: A vs B vs C. 가능한 비교:
- 3 쌍별: A vs B, A vs C, B vs C
- 3 vs 평균: A vs (B+C)/2, B vs (A+C)/2, C vs (A+B)/2
- 옴니버스: 모두 같은가?
총 7 개 가능한 비교 (Schulz Fig. 19.1).
8.2 Multiarm 의 빈도
PubMed 무작위 시험의 78 % 가 parallel design 중, 22 % 가 multiarm:
- 15 %: 3-arm
- 4 %: 4-arm
- 3 %: 5-arm 이상
따라서 multiarm 이 흔함.
8.3 Multiarm 의 장점
“표준 처치 + 두 신규 처치 비교 시, 2-arm 방식 (각각 독립 시험) 보다 multiarm 1 회가 비용 효율적.”
또한 공통 대조군 사용으로 표본 절감.
8.4 Multiplicity 처리
Multiarm 에서 다중성 처리는 multiple endpoints 보다 더 다루기 쉬움. 이유:
- Treatment 추가는 물리적으로 어려움 (자료 추가 필요) → cherry picking 어려움
- 옴니버스 F 검정 또는 Dunnett 으로 한 번에 처리 가능
A-MAX5-3 에서 다룬 Dunnett 절차가 multiarm 의 표준 도구.
9 Schulz 의 권장 — 임상 의사결정 시각
시나리오 → 적절한 보정
↓
규제 승인 (모든 primary 유의 필요)
→ Bonferroni 또는 Hochberg 적절
↓
학술 연구 (각 endpoint 독립적 의미)
→ 보정 불필요, 사전 등록 + 모든 결과 보고
↓
탐색적 분석 (가설 생성)
→ FDR 또는 *exploratory* 표시
↓
Multiarm 시험 (대조군 vs 여러 처치)
→ Dunnett (효율적)
↓
Sequential testing (interim analysis)
→ Alpha spending (Pocock, OBF) — 다음 챕터
이 트리가 상황에 맞는 보정 선택 의 가이드.
10 Bayesian 시각 — 대안
Schulz Ch.19 가 직접 다루진 않지만, Bayesian 분석 은 다중성 문제를 근본적으로 다른 방식으로 처리.
- Bayesian 사후 확률은 peeking 문제 면역 (들여다본다고 사후 확률이 변하지 않음)
- 다중 비교의 명시적 사전 으로 보정 가능 (hierarchical priors)
- 효과 크기 + 신뢰 (credible) 구간 직접 보고
A/B 테스트 실무에서 베이즈 접근 (Optimizely, VWO 의 일부) 이 다중성에 자연스럽게 강건.
11 A/B 테스트 실무 매핑
| 임상 시나리오 | A/B 테스트 매핑 |
|---|---|
| Primary outcome | Primary metric (예: 매출) |
| Secondary outcomes | Secondary metrics (체류시간, NPS) |
| Multiarm trial | A/B/C/D 테스트 |
| Composite endpoint | Composite metric (예: 클릭 OR 구매) |
| Subgroup analysis | Segment 분석 (모바일·데스크톱·신규) |
| Sequential testing | 일별 모니터링 + alpha spending |
A/B 테스트의 다중성 함정과 임상시험의 함정은 구조가 거의 동일. 통계적 도구도 그대로 적용된다.
12 다중성 사례 연구 — 임상 영역
12.1 사례 1 — CAST 시험 (1989)
배경: 심근경색 환자의 심실 조기수축 이 사망률 증가와 연관. 항부정맥약 (encainide, flecainide) 이 부정맥 억제. 이론적으로 사망률 감소 기대.
설계: 3-arm 시험 (encainide vs flecainide vs 위약). 1500 명.
분석: Multiple endpoints — 사망률, 부정맥 빈도, 입원율, 부작용.
결과: 활성 약물이 사망률 증가 (RR 2.5, p < 0.001). 시험 조기 중단.
다중성 통찰: - 사전 등록된 primary outcome 만 보고 → 단일 가설 검정 - Subgroup 분석 결과는 명시적으로 exploratory 처리 - 부정 결과 (사망 증가) 도 정직 보고
이 시험이 임상 통계의 모범. Selective reporting 회피, 모든 결과 정직 보고.
12.2 사례 2 — DREAM 시험
당뇨병 예방 시험. 다중 endpoints: 당뇨 발생, 심혈관 사건, 사망.
다중성 처리: - Primary: 당뇨 발생 (사전 등록) - Secondary: 다른 outcomes (FDR 보정) - Subgroup: 사전 등록된 5 개만 (BMI 군, 연령군 등)
결과 보고: 모든 endpoints 의 RR + CI + p (FDR 조정 표시).
12.3 사례 3 — A/B 테스트 사례
가상 시나리오: 새 추천 알고리즘의 효과.
사전 등록:
Primary: 매출 (1 개)
Secondary: 클릭률, 체류시간, 재방문율 (3 개)
Guardrail: 페이지 로드 시간, 오류율 (2 개)
결과:
Primary 분석:
매출: +1.2 %, 95 % CI [+0.4 %, +2.0 %], p = 0.003
→ 유의 (사전 등록된 단일 가설, 보정 불필요)
Secondary 분석 (FDR 보정):
클릭률: +3.5 %, p_adj = 0.012
체류시간: +5.2 %, p_adj = 0.008
재방문율: +0.8 %, p_adj = 0.18 (미유의)
Guardrail 분석:
페이지 로드: +2 ms, p = 0.42 (악화 없음 OK)
오류율: +0.01 %, p = 0.38 (악화 없음 OK)
결론: Primary 효과 입증, secondary 일관, guardrail 양호.
신규 알고리즘 채택 권장.
이 형식이 임상 표준의 A/B 테스트 적용. 계층 구조 + 보정 + guardrail.
13 Hierarchical Testing — 임상 표준
여러 endpoints 를 우선순위 로 정렬. 각 단계가 유의해야 다음으로.
단계 1: Primary 검정 (α = 0.05)
유의 → 단계 2
미유의 → 중단 (모든 후속 미유의)
단계 2: Secondary 1 검정 (α = 0.05)
유의 → 단계 3
미유의 → 중단
...
이 순차 종속 검정에서 각 단계가 전체 α 사용. 자동 multiplicity 통제.
13.1 적용 시점
- Endpoints 사이 명확한 우선순위
- 가장 중요한 결과 먼저 검정
- 후속이 부수적
A/B 테스트의 일반 시나리오에 적합.
13.2 한계
- Primary 가 미유의면 모든 후속 미유의 (정보 손실)
- Endpoint 간 우선순위 결정 어려움
14 사전 등록 — 다중성 회피의 가장 강력 도구
연구 사례: Kaplan & Irvin (2015) 가 심혈관 시험의 사전 등록 전후 비교.
- 등록 의무화 전: 57 % 시험이 주요 결과 유의
- 등록 의무화 후: 8 % 시험만 주요 결과 유의
같은 분야에서 7 배 이상 차이. 등록 전에는 selective reporting 이 광범위했던 증거.
A/B 테스트도 같다. 사전 등록 (pre-registration) 또는 내부 위키 공유 가 cherry picking 방지. 결과 후 가설 변경 어려움.
도구: OSF, AsPredicted, GitHub 의 protocol commit, 회사 내 사전 분석 계획서.
15 Closed Testing Procedure — 다중성의 통합 이론
여러 가설의 모든 부분 집합 의 교집합 가설을 옴니버스로 검정. 각 부분 집합에서 옴니버스가 유의해야 그 안의 개별 가설을 기각 가능.
자동으로 \(\alpha_{EW}\) 통제 보장.
15.1 의미
Closed Testing 은 다중 비교 절차의 통합 이론. 많은 절차 (Holm, Hochberg, Hommel) 가 closed testing 의 특수 사례.
이 이론이 왜 일부 절차가 작동하는가 의 수학적 근거.
16 베이즈 시각의 다중성
빈도주의: 검정 수가 많으면 false positive 폭증. 보정 필수.
베이즈: 사전 분포 가 자동으로 다중성 조절. Hierarchical model 에서 모든 효과를 공통 분포 로부터 표집한다고 가정 → 극단값이 자동으로 줄어듦 (shrinkage).
A/B 테스트에서 100 개 segment 분석 시:
- 빈도주의: Bonferroni 보정 → α = 0.0005, 검출력 폭락
- 베이즈: Hierarchical prior → 자동 shrinkage → 검정력 보존
베이즈 분석의 자연스런 다중성 통제 가 다중 비교 패러다임을 근본적으로 다르게 만든다.
베이즈 도구: PyMC, Stan, brms (R). A/B 테스트의 다중 메트릭 분석에 적용 증가.
17 후속 — Endpoints 와 Treatments 자세히
다음 글들:
- A-SCH19-1 — The Issue + Proposed Statistical Solution + Bonferroni 비판
- A-SCH19-2 — Multiple Endpoints + Composite + Multiarm 자세히
18 관련 주제
선행 지식
후속 주제 (Phase A)
- A-SCH19-1, 2 (자세히)
다른 카테고리 연결