이 글은 Schulz Ch.20 Multiplicity II 시리즈 (4 편) 의 첫 글이다. Ch.19 가 결과 변수·치료군의 다중성 을 다뤘다면, Ch.20 은 subgroup 과 interim 분석 의 다중성을 다룬다 (Schulz full md L:9559~10464).
1 진입 직관 — 두 종류의 추가 다중성
Ch.19 에서 본 다중성 (여러 결과 변수 · 여러 치료군) 외에도, RCT 에는 두 추가 다중성 이 있다.
Ch.19 다중성:
Multiple endpoints (여러 결과 변수)
Multiple treatments (여러 치료군)
Ch.20 다중성:
Subgroup analyses (여러 sub-population 분석)
Interim analyses (여러 시점 분석)
두 추가 다중성 모두 false-positive 위험 폭증. 그러나 해결책은 다름.
Schulz 의 핵심 메시지:
“Subgroup analysis 는 가능하면 피하라. 필요하면 interaction test 만. Interim analysis 는 피할 수 없으면 group sequential stopping 사용.”
2 Subgroup Analysis — 충격적 사례
2.1 ISIS-2 (1988) — Gemini·Libra 별자리
17,187 명의 급성 심근경색 환자에 아스피린 vs placebo. 아스피린 군의 사망률 p < 0.00001 — 매우 강한 효과.
Lancet 편집자 요청: 약 40 개 subgroup 분석 제공. 저자들이 그 비신뢰성을 보여주기 위해 별자리 별 분석 제공.
2.1.1 결과
| 별자리 | 아스피린 효과 |
|---|---|
| Gemini · Libra (생) | 9% 사망 증가 (SD 13, 비유의) |
| 그 외 별자리 | 28% 사망 감소 (SD 5, p < 0.00001) |
저자의 결론 (인용): “All these subgroup analyses should, perhaps, be taken less as evidence about who benefits than as evidence that such analyses are potentially misleading.”
함의: 강력한 전체 효과 의 시험에서도 임의 subgroup 으로 반대 결론 가능. 별자리는 우연한 차이지만, 임상 변수 (연령·성별·중증도) 의 우연한 subgroup 차이도 같은 방식으로 misleading.
반사실: 만약 ISIS-2 가 별자리 subgroup 만 발표했다면? Gemini·Libra 환자에게 아스피린 처방 안 함 결정 가능. 임상적 해.
3 Subgroup 다중성의 통계적 분석
3.1 4 stratum age 분석 사례 (Panel 20.1)
가상 시험: 새 vs 표준 항생제, 4 연령 stratum 별 fever 비교.
| Stratum | RR (95% CI) | 유의 여부 |
|---|---|---|
| 20-24 | 1.4 (0.6-3.2) | 비유의 |
| 25-29 | 1.2 (0.4-3.1) | 비유의 |
| 30-34 | 0.3 (0.1-0.9) | 유의 (방향 반대) |
| 35-39 | 1.1 (0.5-2.5) | 비유의 |
| Total | 0.9 (0.6-1.4) | 비유의 |
3.2 Test of Interaction
Breslow-Day 검정: \(p = 0.103\) — 비유의. 즉 4 stratum 의 차이 가 우연으로 설명 가능.
함의: 30-34 의 0.3 RR 는 cherry-picking 의 함정. Interaction test 가 전체 결과 (0.9 RR, 비유의) 가 더 신뢰할 수 있음을 보여줌.
Schulz 의 권고: “전체 효과가 neutral 인 시험에서 유의 subgroup 발견 = cherry-picking 의심. ‘Subgroup salvage’ 의 함정.”
4 Interim Analysis — α Inflation
4.1 문제
RCT 에 5 년간 진행. 매 6 개월 interim 분석. 매 분석 시 \(\alpha = 0.05\) 검정.
4.2 누적 α
| 분석 횟수 | 누적 α (false-positive 확률) |
|---|---|
| 1 | 0.05 |
| 2 | 0.08 |
| 3 | 0.11 |
| 5 | 0.14 |
| 10 | 0.19 |
수식 직관: 독립 검정 \(k\) 회 시 누적 \(\alpha = 1 - (1-0.05)^k\). 10 회면 19% — 거의 1/5.
반사실 (Fig. 20.1): 한 시험이 18 개월에 우연히 \(p < 0.05\) 도달. 그 후로는 다시 비유의. 만약 18 개월에 시험을 중단한다면 false-positive 결론.
5 Group Sequential Stopping — 세 옵션
5.1 Pocock (1977)
모든 interim 분석에서 동일한 작은 p-value.
| 계획 분석 횟수 | Pocock p-value |
|---|---|
| 2 | 0.029 |
| 3 | 0.022 |
| 5 | 0.016 |
5.2 Peto (Haybittle-Peto)
Interim 분석은 매우 엄격 (예: 0.001), 마지막은 거의 0.05.
| 분석 | Peto p-value |
|---|---|
| Interim | 0.001 |
| Final | 0.05 |
5.3 O’Brien-Fleming (1979)
Interim 분석에서 극도로 엄격 시작, 시간이 지나며 완화.
| 5 회 분석 시 | O’Brien-Fleming p-value |
|---|---|
| 1 | 0.00001 |
| 2 | 0.0013 |
| 3 | 0.008 |
| 4 | 0.023 |
| 5 (final) | 0.041 |
5.4 Schulz 의 권고
“Peto 와 O’Brien-Fleming 권장. Pocock 은 final test 가 너무 작은 p 라 disadvantage.”
함의 — O’Brien-Fleming 의 매력: 초기 데이터는 불안정 → 엄격. 후기 데이터는 안정 → 완화. 직관적 일치.
6 Random High — Stopping Bias
현상: Interim 분석으로 일찍 중단된 시험은 처치 효과를 과대 추정 (random high).
6.1 메커니즘
같은 시험을 여러 번 한다고 가정. 우연으로 효과가 큰 쪽 으로 흔들리면 조기 중단 충족 가능성. 우연으로 효과가 작은 쪽 으로 흔들리면 전체 시험 진행.
결과: 조기 중단 시험은 낙관적 편향 (random high).
6.2 Bassler 외 (2010, JAMA)
91 개 truncated RCT vs 424 비truncated RCT 메타분석.
“Truncated RCTs provide biased estimates of effects.”
Schulz 의 권고: “Unbiased estimate 가 우선이라면 fixed-sample design 사용. Stopping 은 절대 필요할 때만.”
7 Stopping for Harm vs Futility
7.1 Stopping for Harm
처치가 명확히 해로움. 윤리적 의무.
7.2 Stopping for Futility
처치 효과 입증 가능성 없음. 자원 절약.
7.3 비대칭 stopping boundaries
| 목적 | 적용 |
|---|---|
| Stopping for benefit | O’Brien-Fleming (엄격) |
| Stopping for harm | Pocock (덜 엄격, 빠른 보호) |
| Stopping for futility | Conditional power, 신뢰구간 |
반사실: Stopping for harm 은 덜 엄격 해도 정당. 환자 보호 우선. 그러나 for benefit 은 엄격 해야 false-positive 방지.
8 챕터의 줄기 — 후속 글 안내
8.1 후속 글 1 — Subgroup 분석 (32-32)
- 별자리 사례 깊이
- Test of Interaction 사용법
- Subgroup 4 가지 정당 사용 조건
- 50 RCT 메타분석 (Pocock 외 2002)
8.2 후속 글 2 — Interim 분석과 Group Sequential (32-33)
- α inflation 의 수학
- O’Brien-Fleming, Peto, Pocock 비교
- DMC (Data Monitoring Committee) 의 역할
8.3 후속 글 3 — Stopping for Harm/Futility + 기타 방법 (32-34)
- Random high 의 메커니즘
- Conditional power, stochastic curtailment
- Lan-DeMets alpha spending function
- Bayesian monitoring (Schulz 의 신중)
9 IT / 디지털 실험 매핑
| 역학 (RCT) | IT (A/B Test) |
|---|---|
| Subgroup analysis | Segment-level analysis |
| 별자리 사례 | “Random user attribute 별 효과” 함정 |
| Test of interaction | Interaction effect test |
| Interim analysis | Sequential testing |
| Group sequential | Always-Valid p-value (Robbins) |
| O’Brien-Fleming | mSPRT |
| Random high | Early stopping bias in A/B tests |
IT 의 동형 함정: A/B test 의 segment 분석에서 우연한 segment 효과 발견 → 잘못된 personalization 결정. RCT 의 subgroup 함정과 동일.
10 결론 — Ch.20 개관의 한 줄 요약
Subgroup 과 Interim 분석은 통계적 효율의 매력 + 다중성의 함정 의 양면. 의식적 통계 보정 필수.
핵심 메시지:
- Subgroup: 가능하면 회피. 필요하면 interaction test
- 별자리 사례: 우연한 subgroup 의 misleading
- Interim α inflation: 10 회면 19%
- O’Brien-Fleming 권장: 초기 엄격, 후기 완화
- Random high: 조기 중단 시험의 효과 과대
후속 글에서 깊이 분석.
11 관련 주제
- Surrogate · Composite 시리즈
- (Phase A.3 multiple comparison — 선행 권장)
Phase C 후속 글
- Subgroup Analysis 함정 (placeholder)
- Interim Analysis · Group Sequential (placeholder)
- Stopping for Harm/Futility · 기타 방법 (placeholder)
12 참고문헌
- Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.20. Elsevier.
- ISIS-2 Collaborative Group. (1988). Randomised trial of intravenous streptokinase, oral aspirin… ISIS-2. Lancet 2, 349-360.
- Pocock, S. J., Assmann, S. E., Enos, L. E., Kasten, L. E. (2002). Subgroup analysis, covariate adjustment and baseline comparisons. Stat. Med. 21, 2917-2930.
- Yusuf, S., Wittes, J., Probstfield, J., Tyroler, H. A. (1991). Analysis and interpretation of treatment effects in subgroups. JAMA 266, 93-98.
- O’Brien, P. C. & Fleming, T. R. (1979). A multiple testing procedure for clinical trials. Biometrics 35, 549-556.
- Bassler, D., Briel, M., Montori, V. M., et al. (2010). Stopping randomized trials early for benefit. JAMA 303, 1180-1187.
- Lan, K. K. G. & DeMets, D. L. (1983). Discrete sequential boundaries for clinical trials. Biometrika 70, 659-663.