Kwangmin Kim - Subgroup 분석과 별자리 사례

이 글은 Schulz Ch.20 시리즈의 두 번째 글이다. Subgroup analysis 의 함정 을 깊이 다룬다.

1 진입 직관 — Subgroup 의 매력과 함정

Subgroup analysis 는 직관적이고 fun. “이 약이 고령자에게도 효과 있나?”, “당뇨 환자 에서는?” 등.

Schulz 의 경고: “Indiscriminate subgroup analyses 는 심각한 multiplicity 문제. 충분한 subgroup 검정 시 false positive 가 우연으로 발생.”

Yusuf 외 (1991, JAMA) 의 명언:

“The answer to a randomized controlled trial that does not confirm one’s beliefs is not the conduct of several subanalyses until one can see what one believes. Rather, the answer is to re-examine one’s beliefs carefully.”

번역: 자신의 신념을 확인 못 한 RCT 의 답은 subgroup 을 여러 번 시도해서 자기 신념을 보는 것 이 아니라, 신념을 신중히 재검토 하는 것.

2 ISIS-2 별자리 사례 — 깊이

2.1 시험 배경

ISIS-2 (Second International Study of Infarct Survival, 1988). 17,187 명의 급성 심근경색 환자에 streptokinase, aspirin, 또는 둘 다 무작위 배정.

2.2 전체 결과

아스피린 group 의 사망률 23% 감소 (vs placebo). \(p < 0.00001\). 신뢰구간 매우 좁음.

임상의 강력 권장 의 정당 근거.

2.3 편집자의 요청

Lancet 편집자가 약 40 개 subgroup 분석 요청. ISIS-2 저자들이 마지못해 동의 — 그 비신뢰성을 보여주기 위해 별자리 분석 추가.

2.4 별자리 분석 결과

별자리	아스피린 효과 (사망 감소)	유의 여부
Gemini · Libra	-9% (사망 9% 증가)	비유의 (SD 13)
그 외 10 별자리	+28% (사망 감소)	\(p < 0.00001\)

2.5 메커니즘

단순 우연. 13 개 별자리 × 효과 측정 → 일부에서 우연한 차이. 별자리는 진짜 인과 변수 가 아님.

함의: 임상 변수 (연령·성별·중증도) 도 같은 메커니즘. Subgroup 만 보면 misleading.

2.6 저자의 결론

“All these subgroup analyses should, perhaps, be taken less as evidence about who benefits than as evidence that such analyses are potentially misleading.”

3 Test of Interaction — 적절한 분석

3.1 잘못된 접근

각 subgroup 에 별도 검정 수행. 4 stratum × 1 outcome = 4 검정 → multiplicity.

3.2 적절한 접근

Interaction test. “처치 효과가 subgroup 별로 다른가?” 의 단일 검정.

3.3 Breslow-Day 검정

4 stratum × 2 처치 의 통합 분석. Stratum 간 효과 차이 = 우연인가 의 단일 p-value.

수식 직관: 4 stratum 의 RR 이 모두 동일하면 stratum 간 interaction 없음 — Breslow-Day p-value 큼. RR 이 stratum 별로 다르면 interaction 있음 — p-value 작음.

3.4 Panel 20.1 사례

Stratum	새 vs 표준 항생제 RR (95% CI)
20-24	1.4 (0.6-3.2)
25-29	1.2 (0.4-3.1)
30-34	0.3 (0.1-0.9)
35-39	1.1 (0.5-2.5)
Total	0.9 (0.6-1.4)

Breslow-Day: \(p = 0.103\) — 비유의. 즉 4 stratum 의 차이는 우연.

함의: 30-34 의 RR 0.3 (유의) 는 cherry-picking 의 함정. Interaction test 가 전체 결과 (0.9 RR, 비유의) 가 더 신뢰 가능함을 보여줌.

4 50 RCT 메타분석 — Pocock 외 (2002)

4 개 일반 의학 학술지 (NEJM, Lancet, JAMA, BMJ) 의 50 RCT 분석.

4.1 발견

항목	비율
Subgroup analyses 보고	70%
6+ subgroup 분석	약 40%
Interaction test 사용	< 50%
사전 정의 vs 사후 명시	대부분 명시 안 함
Subgroup 차이를 결론에 highlight	다수

저자의 의심: “일부 연구자가 흥미로운 유의 subgroup 만 선택 보고 — 덜 흥미로운 분석은 보고 안 함. 독자가 얼마나 많은 subgroup 분석이 있었는지 모름.”

Schulz 의 비판: “Methodologists have been too restrained. Stronger denunciation needed.”

5 Subgroup Analysis 의 4 가지 정당 조건

Sun 외 (2012, BMJ) 의 4 가지 indication:

조건	설명
1. Group 간 큰 harm 차이	일부 group 에서 처치가 해로움
2. Pathophysiology 이유	생물학적 메커니즘이 group 간 다름
3. 임상적 practical application 질문	처치 적용의 실무 결정
4. Underuse 우려	특정 group (고령자) 에서 처치 underuse 가능성

5.1 권고

Primary outcome 만
소수 subgroup
사전 명시 (protocol)
모든 분석 보고 (significant 만 X)
Interaction test 사용

Schulz 의 결론: “Rarely should subgroup analyses affect the trial’s conclusions.”

6 CHARISMA Trial 의 함정

Schulz 가 인용하는 misleading 사례.

6.1 시험 배경

15,603 명의 atherothrombotic 위험 환자에 clopidogrel + aspirin vs aspirin alone. 28 개월 추적.

6.2 결과

분석	Treatment	Placebo	p-value
전체	6.8%	7.3%	0.22 (비유의)
Symptomatic (78%)	6.9%	7.9%	0.046 (유의)
Asymptomatic	6.6%	5.5%	0.02 ( 반대 방향)
Interaction test	-	-	0.045

6.3 저자의 결론 (잘못)

“Symptomatic 환자에서 clopidogrel benefit 주장.”

6.4 Schulz 의 비판

“Qualitative interaction (효과 방향이 subgroup 간 반대) 는 생물학적으로 implausible. Charisma of extracting favourable subgroups 가 함정.”

편집자 응답: NEJM 이 이후 subgroup 보고 정책 강화.

7 What to Look for — Reader 체크리스트

독자가 subgroup 분석을 평가할 때:

7.1 Step 1: 분석 수 확인

너무 많은 subgroup (10+) → 의심. 너무 적은 subgroup (1~2) + significant 만 보고 → 더 의심 (cherry-picking).

7.2 Step 2: 사전 정의 vs 사후

[O] “Pre-specified in protocol” [X] Pre-specification 명시 부재

7.3 Step 3: Interaction test

[O] Test of interaction 결과 [X] 각 subgroup 별 individual test 만

7.4 Step 4: 임상적 사실성

[O] 생물학적 plausibility [X] Qualitative interaction (반대 방향) 또는 biological 무의미

7.5 Step 5: 결론에서의 사용

[O] Hypothesis-generating 명시 [X] Confirmatory 처럼 결론에 highlight

8 코드 예시 — Subgroup Multiplicity 시뮬레이션

import numpy as np
from scipy import stats

np.random.seed(42)
n_per_arm = 1000
true_effect = 0.0   # 효과 없음

# 시뮬레이션 1000 회 — 매 시뮬레이션 10 개 subgroup
n_sim = 1000
n_subgroups = 10
false_positives = []

for _ in range(n_sim):
    # 무작위 배정 시험
    T = np.random.choice([0, 1], n_per_arm * 2)
    Y = np.random.binomial(1, 0.20, n_per_arm * 2)   # 효과 없음

    # 무작위 subgroup (유의미한 의미 없음)
    subgroups = np.random.randint(0, n_subgroups, n_per_arm * 2)

    # 각 subgroup 검정
    n_sig = 0
    for sg in range(n_subgroups):
        sg_mask = subgroups == sg
        if sum(sg_mask) > 50:
            T_sg = T[sg_mask]
            Y_sg = Y[sg_mask]
            if len(set(T_sg)) > 1:
                _, p = stats.ttest_ind(Y_sg[T_sg == 0], Y_sg[T_sg == 1])
                if p < 0.05:
                    n_sig += 1
    false_positives.append(n_sig)

print("[Subgroup 다중성 시뮬레이션 — 효과 없음]")
print(f"평균 false-positive subgroup 수: {np.mean(false_positives):.2f}")
print(f"적어도 1 개 false positive 비율: {np.mean(np.array(false_positives) >= 1):.3f}")
print("→ 효과 없음에도 평균 0.5+ subgroup 이 우연히 'significant'")
print("→ 충분한 subgroup 검정 시 false positive 거의 보장")

9 결론 — Ch.20.1 의 한 줄 요약

Subgroup 분석은 별자리만큼 우연한 차이 도 발견. Interaction test 만이 정당.

핵심 메시지:

ISIS-2 별자리 — 임의 subgroup 의 misleading
Test of Interaction — multiplicity 문제 완화
4 가지 정당 조건 — Subgroup 사용 시
Cherry-picking 위험 — 50 RCT 의 다수 위반
CHARISMA 사례 — qualitative interaction 의 implausibility

다음 글: Interim analysis 와 group sequential.

10 관련 주제

Multiplicity II 개관

11 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.20. Elsevier.
ISIS-2 Collaborative Group. (1988). Randomised trial of intravenous streptokinase, oral aspirin… ISIS-2. Lancet 2, 349-360.
Yusuf, S., Wittes, J., Probstfield, J., Tyroler, H. A. (1991). Analysis and interpretation of treatment effects in subgroups. JAMA 266, 93-98.
Pocock, S. J., Assmann, S. E., Enos, L. E., Kasten, L. E. (2002). Subgroup analysis, covariate adjustment and baseline comparisons. Stat. Med. 21, 2917-2930.
Sun, X., Briel, M., Busse, J. W., et al. (2012). Credibility of claims of subgroup effects. BMJ 344, e1553.
Pfeffer, M. A. & Jarcho, J. A. (2006). The charisma of subgroups and the subgroups of CHARISMA. N. Engl. J. Med. 354, 1744-1746.
Wang, R., Lagakos, S. W., Ware, J. H., Hunter, D. J., Drazen, J. M. (2007). Statistics in medicine — reporting of subgroup analyses. N. Engl. J. Med. 357, 2189-2194.