이 글은 Schulz Ch.20 시리즈의 두 번째 글이다. Subgroup analysis 의 함정 을 깊이 다룬다.
1 진입 직관 — Subgroup 의 매력과 함정
Subgroup analysis 는 직관적이고 fun. “이 약이 고령자에게도 효과 있나?”, “당뇨 환자 에서는?” 등.
Schulz 의 경고: “Indiscriminate subgroup analyses 는 심각한 multiplicity 문제. 충분한 subgroup 검정 시 false positive 가 우연으로 발생.”
Yusuf 외 (1991, JAMA) 의 명언:
“The answer to a randomized controlled trial that does not confirm one’s beliefs is not the conduct of several subanalyses until one can see what one believes. Rather, the answer is to re-examine one’s beliefs carefully.”
번역: 자신의 신념을 확인 못 한 RCT 의 답은 subgroup 을 여러 번 시도해서 자기 신념을 보는 것 이 아니라, 신념을 신중히 재검토 하는 것.
2 ISIS-2 별자리 사례 — 깊이
2.1 시험 배경
ISIS-2 (Second International Study of Infarct Survival, 1988). 17,187 명의 급성 심근경색 환자에 streptokinase, aspirin, 또는 둘 다 무작위 배정.
2.2 전체 결과
아스피린 group 의 사망률 23% 감소 (vs placebo). \(p < 0.00001\). 신뢰구간 매우 좁음.
임상의 강력 권장 의 정당 근거.
2.3 편집자의 요청
Lancet 편집자가 약 40 개 subgroup 분석 요청. ISIS-2 저자들이 마지못해 동의 — 그 비신뢰성을 보여주기 위해 별자리 분석 추가.
2.4 별자리 분석 결과
| 별자리 | 아스피린 효과 (사망 감소) | 유의 여부 |
|---|---|---|
| Gemini · Libra | -9% (사망 9% 증가) | 비유의 (SD 13) |
| 그 외 10 별자리 | +28% (사망 감소) | \(p < 0.00001\) |
2.5 메커니즘
단순 우연. 13 개 별자리 × 효과 측정 → 일부에서 우연한 차이. 별자리는 진짜 인과 변수 가 아님.
함의: 임상 변수 (연령·성별·중증도) 도 같은 메커니즘. Subgroup 만 보면 misleading.
2.6 저자의 결론
“All these subgroup analyses should, perhaps, be taken less as evidence about who benefits than as evidence that such analyses are potentially misleading.”
3 Test of Interaction — 적절한 분석
3.1 잘못된 접근
각 subgroup 에 별도 검정 수행. 4 stratum × 1 outcome = 4 검정 → multiplicity.
3.2 적절한 접근
Interaction test. “처치 효과가 subgroup 별로 다른가?” 의 단일 검정.
3.3 Breslow-Day 검정
4 stratum × 2 처치 의 통합 분석. Stratum 간 효과 차이 = 우연인가 의 단일 p-value.
수식 직관: 4 stratum 의 RR 이 모두 동일하면 stratum 간 interaction 없음 — Breslow-Day p-value 큼. RR 이 stratum 별로 다르면 interaction 있음 — p-value 작음.
3.4 Panel 20.1 사례
| Stratum | 새 vs 표준 항생제 RR (95% CI) |
|---|---|
| 20-24 | 1.4 (0.6-3.2) |
| 25-29 | 1.2 (0.4-3.1) |
| 30-34 | 0.3 (0.1-0.9) |
| 35-39 | 1.1 (0.5-2.5) |
| Total | 0.9 (0.6-1.4) |
Breslow-Day: \(p = 0.103\) — 비유의. 즉 4 stratum 의 차이는 우연.
함의: 30-34 의 RR 0.3 (유의) 는 cherry-picking 의 함정. Interaction test 가 전체 결과 (0.9 RR, 비유의) 가 더 신뢰 가능함을 보여줌.
4 50 RCT 메타분석 — Pocock 외 (2002)
4 개 일반 의학 학술지 (NEJM, Lancet, JAMA, BMJ) 의 50 RCT 분석.
4.1 발견
| 항목 | 비율 |
|---|---|
| Subgroup analyses 보고 | 70% |
| 6+ subgroup 분석 | 약 40% |
| Interaction test 사용 | < 50% |
| 사전 정의 vs 사후 명시 | 대부분 명시 안 함 |
| Subgroup 차이를 결론에 highlight | 다수 |
저자의 의심: “일부 연구자가 흥미로운 유의 subgroup 만 선택 보고 — 덜 흥미로운 분석은 보고 안 함. 독자가 얼마나 많은 subgroup 분석이 있었는지 모름.”
Schulz 의 비판: “Methodologists have been too restrained. Stronger denunciation needed.”
5 Subgroup Analysis 의 4 가지 정당 조건
Sun 외 (2012, BMJ) 의 4 가지 indication:
| 조건 | 설명 |
|---|---|
| 1. Group 간 큰 harm 차이 | 일부 group 에서 처치가 해로움 |
| 2. Pathophysiology 이유 | 생물학적 메커니즘이 group 간 다름 |
| 3. 임상적 practical application 질문 | 처치 적용의 실무 결정 |
| 4. Underuse 우려 | 특정 group (고령자) 에서 처치 underuse 가능성 |
5.1 권고
- Primary outcome 만
- 소수 subgroup
- 사전 명시 (protocol)
- 모든 분석 보고 (significant 만 X)
- Interaction test 사용
Schulz 의 결론: “Rarely should subgroup analyses affect the trial’s conclusions.”
6 CHARISMA Trial 의 함정
Schulz 가 인용하는 misleading 사례.
6.1 시험 배경
15,603 명의 atherothrombotic 위험 환자에 clopidogrel + aspirin vs aspirin alone. 28 개월 추적.
6.2 결과
| 분석 | Treatment | Placebo | p-value |
|---|---|---|---|
| 전체 | 6.8% | 7.3% | 0.22 (비유의) |
| Symptomatic (78%) | 6.9% | 7.9% | 0.046 (유의) |
| Asymptomatic | 6.6% | 5.5% | 0.02 ( 반대 방향) |
| Interaction test | - | - | 0.045 |
6.3 저자의 결론 (잘못)
“Symptomatic 환자에서 clopidogrel benefit 주장.”
6.4 Schulz 의 비판
“Qualitative interaction (효과 방향이 subgroup 간 반대) 는 생물학적으로 implausible. Charisma of extracting favourable subgroups 가 함정.”
편집자 응답: NEJM 이 이후 subgroup 보고 정책 강화.
7 What to Look for — Reader 체크리스트
독자가 subgroup 분석을 평가할 때:
7.1 Step 1: 분석 수 확인
너무 많은 subgroup (10+) → 의심. 너무 적은 subgroup (1~2) + significant 만 보고 → 더 의심 (cherry-picking).
7.2 Step 2: 사전 정의 vs 사후
[O] “Pre-specified in protocol” [X] Pre-specification 명시 부재
7.3 Step 3: Interaction test
[O] Test of interaction 결과 [X] 각 subgroup 별 individual test 만
7.4 Step 4: 임상적 사실성
[O] 생물학적 plausibility [X] Qualitative interaction (반대 방향) 또는 biological 무의미
7.5 Step 5: 결론에서의 사용
[O] Hypothesis-generating 명시 [X] Confirmatory 처럼 결론에 highlight
8 코드 예시 — Subgroup Multiplicity 시뮬레이션
import numpy as np
from scipy import stats
np.random.seed(42)
n_per_arm = 1000
true_effect = 0.0 # 효과 없음
# 시뮬레이션 1000 회 — 매 시뮬레이션 10 개 subgroup
n_sim = 1000
n_subgroups = 10
false_positives = []
for _ in range(n_sim):
# 무작위 배정 시험
T = np.random.choice([0, 1], n_per_arm * 2)
Y = np.random.binomial(1, 0.20, n_per_arm * 2) # 효과 없음
# 무작위 subgroup (유의미한 의미 없음)
subgroups = np.random.randint(0, n_subgroups, n_per_arm * 2)
# 각 subgroup 검정
n_sig = 0
for sg in range(n_subgroups):
sg_mask = subgroups == sg
if sum(sg_mask) > 50:
T_sg = T[sg_mask]
Y_sg = Y[sg_mask]
if len(set(T_sg)) > 1:
_, p = stats.ttest_ind(Y_sg[T_sg == 0], Y_sg[T_sg == 1])
if p < 0.05:
n_sig += 1
false_positives.append(n_sig)
print("[Subgroup 다중성 시뮬레이션 — 효과 없음]")
print(f"평균 false-positive subgroup 수: {np.mean(false_positives):.2f}")
print(f"적어도 1 개 false positive 비율: {np.mean(np.array(false_positives) >= 1):.3f}")
print("→ 효과 없음에도 평균 0.5+ subgroup 이 우연히 'significant'")
print("→ 충분한 subgroup 검정 시 false positive 거의 보장")9 결론 — Ch.20.1 의 한 줄 요약
Subgroup 분석은 별자리만큼 우연한 차이 도 발견. Interaction test 만이 정당.
핵심 메시지:
- ISIS-2 별자리 — 임의 subgroup 의 misleading
- Test of Interaction — multiplicity 문제 완화
- 4 가지 정당 조건 — Subgroup 사용 시
- Cherry-picking 위험 — 50 RCT 의 다수 위반
- CHARISMA 사례 — qualitative interaction 의 implausibility
다음 글: Interim analysis 와 group sequential.
10 관련 주제
11 참고문헌
- Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.20. Elsevier.
- ISIS-2 Collaborative Group. (1988). Randomised trial of intravenous streptokinase, oral aspirin… ISIS-2. Lancet 2, 349-360.
- Yusuf, S., Wittes, J., Probstfield, J., Tyroler, H. A. (1991). Analysis and interpretation of treatment effects in subgroups. JAMA 266, 93-98.
- Pocock, S. J., Assmann, S. E., Enos, L. E., Kasten, L. E. (2002). Subgroup analysis, covariate adjustment and baseline comparisons. Stat. Med. 21, 2917-2930.
- Sun, X., Briel, M., Busse, J. W., et al. (2012). Credibility of claims of subgroup effects. BMJ 344, e1553.
- Pfeffer, M. A. & Jarcho, J. A. (2006). The charisma of subgroups and the subgroups of CHARISMA. N. Engl. J. Med. 354, 1744-1746.
- Wang, R., Lagakos, S. W., Ware, J. H., Hunter, D. J., Drazen, J. M. (2007). Statistics in medicine — reporting of subgroup analyses. N. Engl. J. Med. 357, 2189-2194.