Kwangmin Kim - Multiplicity II — Ch.20 개관 (Subgroup

이 글은 Schulz Ch.20 Multiplicity II 시리즈 (4 편) 의 첫 글이다. Ch.19 가 결과 변수·치료군의 다중성 을 다뤘다면, Ch.20 은 subgroup 과 interim 분석 의 다중성을 다룬다 (Schulz full md L:9559~10464).

1 진입 직관 — 두 종류의 추가 다중성

Ch.19 에서 본 다중성 (여러 결과 변수 · 여러 치료군) 외에도, RCT 에는 두 추가 다중성 이 있다.

Ch.19 다중성:
  Multiple endpoints (여러 결과 변수)
  Multiple treatments (여러 치료군)

Ch.20 다중성:
  Subgroup analyses (여러 sub-population 분석)
  Interim analyses (여러 시점 분석)

두 추가 다중성 모두 false-positive 위험 폭증. 그러나 해결책은 다름.

Schulz 의 핵심 메시지:

“Subgroup analysis 는 가능하면 피하라. 필요하면 interaction test 만. Interim analysis 는 피할 수 없으면 group sequential stopping 사용.”

2 Subgroup Analysis — 충격적 사례

2.1 ISIS-2 (1988) — Gemini·Libra 별자리

17,187 명의 급성 심근경색 환자에 아스피린 vs placebo. 아스피린 군의 사망률 p < 0.00001 — 매우 강한 효과.

Lancet 편집자 요청: 약 40 개 subgroup 분석 제공. 저자들이 그 비신뢰성을 보여주기 위해 별자리 별 분석 제공.

2.1.1 결과

별자리	아스피린 효과
Gemini · Libra (생)	9% 사망 증가 (SD 13, 비유의)
그 외 별자리	28% 사망 감소 (SD 5, p < 0.00001)

저자의 결론 (인용): “All these subgroup analyses should, perhaps, be taken less as evidence about who benefits than as evidence that such analyses are potentially misleading.”

함의: 강력한 전체 효과 의 시험에서도 임의 subgroup 으로 반대 결론 가능. 별자리는 우연한 차이지만, 임상 변수 (연령·성별·중증도) 의 우연한 subgroup 차이도 같은 방식으로 misleading.

반사실: 만약 ISIS-2 가 별자리 subgroup 만 발표했다면? Gemini·Libra 환자에게 아스피린 처방 안 함 결정 가능. 임상적 해.

3 Subgroup 다중성의 통계적 분석

3.1 4 stratum age 분석 사례 (Panel 20.1)

가상 시험: 새 vs 표준 항생제, 4 연령 stratum 별 fever 비교.

Stratum	RR (95% CI)	유의 여부
20-24	1.4 (0.6-3.2)	비유의
25-29	1.2 (0.4-3.1)	비유의
30-34	0.3 (0.1-0.9)	유의 (방향 반대)
35-39	1.1 (0.5-2.5)	비유의
Total	0.9 (0.6-1.4)	비유의

3.2 Test of Interaction

Breslow-Day 검정: \(p = 0.103\) — 비유의. 즉 4 stratum 의 차이 가 우연으로 설명 가능.

함의: 30-34 의 0.3 RR 는 cherry-picking 의 함정. Interaction test 가 전체 결과 (0.9 RR, 비유의) 가 더 신뢰할 수 있음을 보여줌.

Schulz 의 권고: “전체 효과가 neutral 인 시험에서 유의 subgroup 발견 = cherry-picking 의심. ‘Subgroup salvage’ 의 함정.”

4 Interim Analysis — α Inflation

4.1 문제

RCT 에 5 년간 진행. 매 6 개월 interim 분석. 매 분석 시 \(\alpha = 0.05\) 검정.

4.2 누적 α

분석 횟수	누적 α (false-positive 확률)
1	0.05
2	0.08
3	0.11
5	0.14
10	0.19

수식 직관: 독립 검정 \(k\) 회 시 누적 \(\alpha = 1 - (1-0.05)^k\). 10 회면 19% — 거의 1/5.

반사실 (Fig. 20.1): 한 시험이 18 개월에 우연히 \(p < 0.05\) 도달. 그 후로는 다시 비유의. 만약 18 개월에 시험을 중단한다면 false-positive 결론.

5 Group Sequential Stopping — 세 옵션

5.1 Pocock (1977)

모든 interim 분석에서 동일한 작은 p-value.

계획 분석 횟수	Pocock p-value
2	0.029
3	0.022
5	0.016

5.2 Peto (Haybittle-Peto)

Interim 분석은 매우 엄격 (예: 0.001), 마지막은 거의 0.05.

분석	Peto p-value
Interim	0.001
Final	0.05

5.3 O’Brien-Fleming (1979)

Interim 분석에서 극도로 엄격 시작, 시간이 지나며 완화.

5 회 분석 시	O’Brien-Fleming p-value
1	0.00001
2	0.0013
3	0.008
4	0.023
5 (final)	0.041

5.4 Schulz 의 권고

“Peto 와 O’Brien-Fleming 권장. Pocock 은 final test 가 너무 작은 p 라 disadvantage.”

함의 — O’Brien-Fleming 의 매력: 초기 데이터는 불안정 → 엄격. 후기 데이터는 안정 → 완화. 직관적 일치.

6 Random High — Stopping Bias

현상: Interim 분석으로 일찍 중단된 시험은 처치 효과를 과대 추정 (random high).

6.1 메커니즘

같은 시험을 여러 번 한다고 가정. 우연으로 효과가 큰 쪽 으로 흔들리면 조기 중단 충족 가능성. 우연으로 효과가 작은 쪽 으로 흔들리면 전체 시험 진행.

결과: 조기 중단 시험은 낙관적 편향 (random high).

6.2 Bassler 외 (2010, JAMA)

91 개 truncated RCT vs 424 비truncated RCT 메타분석.

“Truncated RCTs provide biased estimates of effects.”

Schulz 의 권고: “Unbiased estimate 가 우선이라면 fixed-sample design 사용. Stopping 은 절대 필요할 때만.”

7 Stopping for Harm vs Futility

7.1 Stopping for Harm

처치가 명확히 해로움. 윤리적 의무.

7.2 Stopping for Futility

처치 효과 입증 가능성 없음. 자원 절약.

7.3 비대칭 stopping boundaries

목적	적용
Stopping for benefit	O’Brien-Fleming (엄격)
Stopping for harm	Pocock (덜 엄격, 빠른 보호)
Stopping for futility	Conditional power, 신뢰구간

반사실: Stopping for harm 은 덜 엄격 해도 정당. 환자 보호 우선. 그러나 for benefit 은 엄격 해야 false-positive 방지.

8 챕터의 줄기 — 후속 글 안내

8.1 후속 글 1 — Subgroup 분석 (32-32)

별자리 사례 깊이
Test of Interaction 사용법
Subgroup 4 가지 정당 사용 조건
50 RCT 메타분석 (Pocock 외 2002)

8.2 후속 글 2 — Interim 분석과 Group Sequential (32-33)

α inflation 의 수학
O’Brien-Fleming, Peto, Pocock 비교
DMC (Data Monitoring Committee) 의 역할

8.3 후속 글 3 — Stopping for Harm/Futility + 기타 방법 (32-34)

Random high 의 메커니즘
Conditional power, stochastic curtailment
Lan-DeMets alpha spending function
Bayesian monitoring (Schulz 의 신중)

9 IT / 디지털 실험 매핑

역학 (RCT)	IT (A/B Test)
Subgroup analysis	Segment-level analysis
별자리 사례	“Random user attribute 별 효과” 함정
Test of interaction	Interaction effect test
Interim analysis	Sequential testing
Group sequential	Always-Valid p-value (Robbins)
O’Brien-Fleming	mSPRT
Random high	Early stopping bias in A/B tests

IT 의 동형 함정: A/B test 의 segment 분석에서 우연한 segment 효과 발견 → 잘못된 personalization 결정. RCT 의 subgroup 함정과 동일.

10 결론 — Ch.20 개관의 한 줄 요약

Subgroup 과 Interim 분석은 통계적 효율의 매력 + 다중성의 함정 의 양면. 의식적 통계 보정 필수.

핵심 메시지:

Subgroup: 가능하면 회피. 필요하면 interaction test
별자리 사례: 우연한 subgroup 의 misleading
Interim α inflation: 10 회면 19%
O’Brien-Fleming 권장: 초기 엄격, 후기 완화
Random high: 조기 중단 시험의 효과 과대

후속 글에서 깊이 분석.

11 관련 주제

Surrogate · Composite 시리즈
(Phase A.3 multiple comparison — 선행 권장)

Phase C 후속 글

Subgroup Analysis 함정 (placeholder)
Interim Analysis · Group Sequential (placeholder)
Stopping for Harm/Futility · 기타 방법 (placeholder)

12 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.20. Elsevier.
ISIS-2 Collaborative Group. (1988). Randomised trial of intravenous streptokinase, oral aspirin… ISIS-2. Lancet 2, 349-360.
Pocock, S. J., Assmann, S. E., Enos, L. E., Kasten, L. E. (2002). Subgroup analysis, covariate adjustment and baseline comparisons. Stat. Med. 21, 2917-2930.
Yusuf, S., Wittes, J., Probstfield, J., Tyroler, H. A. (1991). Analysis and interpretation of treatment effects in subgroups. JAMA 266, 93-98.
O’Brien, P. C. & Fleming, T. R. (1979). A multiple testing procedure for clinical trials. Biometrics 35, 549-556.
Bassler, D., Briel, M., Montori, V. M., et al. (2010). Stopping randomized trials early for benefit. JAMA 303, 1180-1187.
Lan, K. K. G. & DeMets, D. L. (1983). Discrete sequential boundaries for clinical trials. Biometrika 70, 659-663.