1 도입 — Mandatory and Mystical
Schulz Ch.11 의 첫 문장은 인상적이다. “Mandatory and Mystical.” 무작위 임상시험에서 표본 크기 산정은 의무 (mandatory) 이지만 동시에 신비 (mystical) 한 절차이다.
- Mandatory: 모든 임상시험 프로토콜과 윤리 위원회가 사전 표본 크기 산정을 요구. CONSORT 도 보고 의무화.
- Mystical: 산정의 입력값 (특히 effect size) 이 주관적 임상 판단 에 의존하므로, 산출된 \(n\) 도 부정확.
이 글은 (a) 4 요소의 정의, (b) 관습의 영향, (c) Sample Size Samba 의 함정을 정리한다.
2 4 요소 — 표본 크기 산정의 입력
이진 결과 (사망/생존, 회복/지속) 의 표본 크기 산정에 필요한 4 가지 입력:
- \(\alpha\) error (Type I) — 거짓 양성 확률 (관습: 0.05)
- Power (\(1 - \beta\)) — 진짜 효과 검출 확률 (관습: 0.80 또는 0.90)
- Event rate (대조군) — 자연 발생률 (\(p_C\))
- Treatment effect — 절대 또는 상대 효과 (\(p_T - p_C\) 또는 \(p_T / p_C\))
2.1 Type I Error (\(\alpha\))
거짓 양성: 두 처치가 실제로 같은데 다르다고 잘못 결론.
관습: \(\alpha = 0.05\) (양측). 그러나 맥락에 따라 조정.
| 시나리오 | 권장 \(\alpha\) |
|---|---|
| 표준 임상시험 | 0.05 |
| 안전성 최우선 (효과 약함을 과대평가 위험) | 0.01 |
| 안전 + 저렴한 처치의 효과 (놓치면 큰 손실) | 0.10 |
2.2 Type II Error (\(\beta\)) 와 검정력
거짓 음성: 두 처치가 실제로 다른데 같다고 잘못 결론.
검정력 = \(1 - \beta\). 관습: 0.80 (즉 \(\beta = 0.20\)).
\(\alpha\) 와 \(\beta\) 는 역의 관계. 한쪽을 줄이면 다른 쪽이 커진다 (표본 크기 고정 시).
| 시나리오 | \(\alpha\) | \(\beta\) | 비고 |
|---|---|---|---|
| 표준 | 0.05 | 0.20 | 4:1 비대칭 (false positive 더 보수적) |
| 매우 보수적 | 0.01 | 0.30 | 신약 안전성 |
| 발견 우선 | 0.10 | 0.10 | 탐색적 연구 |
A/B 테스트의 관습은 α = 0.05, power = 0.80. 왜 4:1 비대칭인가? 학술 관습에서 false positive (거짓 발견) 가 false negative 보다 더 큰 비용으로 간주되어 왔다.
그러나 비즈니스 영역 에서는 비대칭이 다를 수 있다. 빠른 의사결정이 필요하면 \(\alpha = 0.10\), 신중한 결정이 필요하면 \(\alpha = 0.01\) 등.
2.3 Event Rate (\(p_C\))
대조군의 자연 발생률. 기존 자료 (이전 연구, 의료 기록) 에서 추정.
문제: \(p_C\) 추정이 부정확하면 \(n\) 산정 부정확. Sensitivity analysis (다양한 \(p_C\) 값에 대해 \(n\) 계산) 권장.
2.4 Treatment Effect
검출하고 싶은 최소 효과 크기 (Minimum Detectable Effect, MDE). 두 가지 표현:
- 절대: \(\Delta = p_T - p_C\)
- 상대: \(R = p_T / p_C\) (RR) 또는 \(\text{lift}\) (= R - 1)
이 입력이 가장 주관적. 임상적·비즈니스적 의미와 연결되어야 한다.
3 표본 크기 공식 — 이진 결과 (Schulz Panel 11.2)
\[ n = \frac{10.51 [(R + 1) - p_C (R^2 + 1)]}{p_C (1 - R)^2} \]
여기서:
- \(n\): 그룹당 표본 크기
- \(p_C\): 대조군 사건율
- \(R = p_T / p_C\): 상대 위험
3.1 사례 — Schulz 의 예
\(p_C = 0.10\), \(R = 0.60\) (40 % 감소), \(\alpha = 0.05\), power = 0.90.
\[ n = \frac{10.51 [(0.60 + 1) - 0.10 (0.60^2 + 1)]}{0.10 (1 - 0.60)^2} = \frac{10.51 [1.60 - 0.136]}{0.016} \approx 962 \]
각 그룹 약 962 명, 총 약 1924 명 필요.
4 일반 공식 — 두 비율 비교
좀 더 일반적인 공식:
\[ n = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 [p_T (1 - p_T) + p_C (1 - p_C)]}{(p_T - p_C)^2} \]
여기서 \(z_{1-\alpha/2}\), \(z_{1-\beta}\) 는 정규 분위수.
4.1 사례 계산
\(\alpha = 0.05\) (양측), power = 0.80, \(p_C = 0.10\), \(p_T = 0.06\).
- \(z_{0.975} = 1.96\), \(z_{0.80} = 0.84\)
- 분자: \((1.96 + 0.84)^2 \cdot [0.06 \cdot 0.94 + 0.10 \cdot 0.90] = 7.84 \cdot 0.1464 \approx 1.148\)
- 분모: \((0.10 - 0.06)^2 = 0.0016\)
- \(n \approx 718\) (각 그룹)
이 공식이 근사 형태이며, 정확한 표본 크기는 반복 알고리즘 (PASS, G*Power, R pwr 패키지) 으로 계산.
5 \(\alpha\) 와 power 의 영향
같은 효과 크기에 대해 \(\alpha\) 와 power 가 변할 때 \(n\) 의 변화:
| \(\alpha\) | power | 상대 \(n\) |
|---|---|---|
| 0.05 | 0.50 | 1.0 (기준) |
| 0.05 | 0.80 | 약 2.0 |
| 0.05 | 0.99 | 약 4.5 |
| 0.01 | 0.50 | 약 1.7 |
| 0.01 | 0.80 | 약 3.0 |
| 0.01 | 0.99 | 약 6.5 |
검정력을 50 % → 80 % 로 올리면 표본이 2 배 필요. \(\alpha\) 를 0.05 → 0.01 로 낮추면 70 % 더 필요.
6 Sample Size Samba — 협상의 함정
6.1 Schulz 의 비판
“임상시험 자금이 1000 명에 한정된다고 하자. 산정 결과 1500 명이 필요하다고 나오면, 어떻게 하는가? 입력값을 조정 한다 — power 를 0.90 에서 0.80 으로, 효과 크기를 약간 더 크게 가정. 마지막에 1000 명에 맞아 떨어지는 입력값을 사용해 형식적으로 산정 결과를 1000 명으로 만든다.” (Schulz & Grimes 2019, Ch.11)
이 역방향 산정 이 Sample Size Samba 다. 표면적으로는 산정을 했지만 실제로는 예산이 결정 한 표본 크기다.
6.2 함정의 구조
실제 절차:
자금 확정 → n 결정 → 입력값 역산 → 형식적 산정
이상적 절차:
연구 질문 → 입력값 결정 → n 산정 → 자금 요청
이 차이가 수많은 임상시험의 검정력 부족 의 원인이라고 Schulz 는 비판한다.
A/B 테스트에도 같은 함정이 있다.
이상적 절차: “이 변형의 효과를 0.5 % lift 까지 검출하고 싶다 → power = 0.80, \(\alpha = 0.05\) → \(n\) 약 100 만 명 필요 → 트래픽 충분한가? 충분 → 진행”
현실: “트래픽이 1 주일에 10 만 명. 일정 압박으로 1 주일 내 결과 필요. → power 어쨌든 0.80, \(\alpha = 0.05\) 형식적. 효과가 2 % 라고 가정 하면 10 만 명으로 충분. 진행.”
후자의 접근은 작은 효과 (0.5 % lift) 를 잡지 못한다. 비즈니스 의사결정이 부족 검정력 으로 이뤄진다.
해법: 진정한 표본 크기 산정 + 검정력 부족 인정 + 결과 해석 보수적. 또는 실험 기간 확대, segment 좁히기 등 표본 확보 노력.
7 사후 검정력 분석 — 무용성
연구 종료 후 관측된 효과 크기 로 검정력을 다시 계산하는 사후 검정력 분석 의 무용성:
“사후 검정력은 p 값과 직접 연결된다. p 가 작으면 사후 검정력이 크고, p 가 크면 사후 검정력이 작다. 이는 새 정보를 주지 않는다.” (Hoenig & Heisey 2001)
7.1 무용한 이유
사후 검정력은 관측 효과 에 기반. 관측 효과가 작으면 (p 큼) 사후 검정력도 자동으로 작음. 새로운 통찰 없음.
7.2 대안
- 효과 크기 + CI 보고로 결과의 정밀도 직접 표현
- 사전 등록된 검정력 분석 의 가정과 비교 (예: 사전 가정 0.5 % lift 였는데 관측 1.5 % lift → 효과가 더 컸음)
8 한 측 vs 양측 검정 — Schulz 의 권고
Schulz: “같은 증거 강도 가 정상적이다. 한 측 검정으로 표본을 줄이려는 시도는 evidence 의 표준을 낮추는 것.”
| 검정 | \(\alpha\) | 임계값 (양측 0.05 와 동등) |
|---|---|---|
| 양측 0.05 | 양측 0.05 | \(z = 1.96\) |
| 한 측 0.025 | 한 측 0.025 | \(z = 1.96\) |
| 한 측 0.05 | 한 측 0.05 | \(z = 1.65\) (낮은 표준) |
권장: 양측 \(\alpha = 0.05\) 를 표준으로. 한 측을 사용하더라도 0.025 로 (양측의 절반).
9 검정력 부족 시험 (Underpowered Trials)
9.1 Chalmers 1978 의 발견
Tom Chalmers et al. (1978) 가 발견: 의료 저널의 negative (효과 미발견) 임상시험 다수가 검정력 부족. 즉 효과가 있어도 잡지 못함.
9.2 영향
- 검정력 부족 시험이 부정 결과 로 출판되어, 효과적 처치가 기각
- 메타 분석 에서 통합하면 효과가 드러날 수도 있음
- “효과 미발견” ≠ “효과 없음”
9.3 Schulz 의 권고
검정력 부족 시험도 완전히 무용은 아님 — 방법론적 엄격함 + 결과 보고 + 출판 편향 회피 가 더 중요.
10 보고 형식 — CONSORT
CONSORT 2010 의 sample size 보고 요구:
- 사전 계산된 표본 크기
- 4 요소 (\(\alpha\), power, \(p_C\) 또는 \(\sigma\), treatment effect)
- 가정의 출처 (이전 연구, pilot study)
- 무작위 배정 비율 (1:1 또는 다른 ratio)
- 검정 형태 (양측/한 측)
- 수정 시점과 사유 (interim adjustment)
A/B 테스트 보고도 비슷한 형식 권장.
11 사례 — 임상시험 표본 크기
11.1 HIP 시험 (Health Insurance Plan, 1963)
세계 최초의 대규모 RCT 중 하나. 유방조영술의 사망률 감소 효과 검정.
설계: - 62000 명 여성 모집 (40~64 세) - 무작위 배정 (검진 받기 vs 받지 않기) - Primary outcome: 유방암 사망률 (추적 10 년)
표본 산정: - 연 유방암 사망률 약 0.5 / 1000 - 검출하고 싶은 효과: 30 % 감소 - α = 0.05, power = 0.80 - 추적 기간 10 년 (관측 사건 수 충분 위해) - → 약 30000 명 / 그룹 필요
결과: 검진군 사망률 30 % 감소 (NS, 통계적 유의 임계값 근처).
함의: 희귀 outcome 의 시험은 대규모 표본 + 긴 추적 필요. 표본 크기 결정의 근본적 제약.
11.2 MRFIT 시험 (Multiple Risk Factor Intervention, 1973-1982)
심혈관 위험 인자 (콜레스테롤, 흡연, 혈압) 의 통합 개입 효과 시험.
설계: - 12866 명 남성 (35~57 세, 위험 인자 보유) - 무작위 배정 (special intervention vs usual care) - Primary outcome: 심혈관 사망률
표본 산정: - 가정 사망률 감소: 25 % - 그러나 실제 사망률이 예상보다 낮음 → 검출력 부족 - 결과: 사망률 차이 미유의 (RR 0.93, 95 % CI 0.79~1.10)
비판: - 효과 크기 가정 이 너무 큼 - 대조군의 자연적 행동 변화 (시대 효과) - 검정력 부족으로 진정한 효과 놓쳤을 가능성
이 사례가 Sample Size Samba 의 위험 정량화. 효과 가정이 부정확하면 거대 시험도 무용.
11.3 A/B 테스트의 거대 표본
대형 IT 회사의 A/B 테스트:
- Google 검색 ranking: 1 % 효과 검출에 수억 명 표본
- Meta News Feed: 0.1 % 효과 검출에 10 억 명
- 작은 회사: 5 % 효과 이상만 검출 가능
베이스라인 비율 + 효과 크기 + 트래픽이 상호 결정. 트래픽 한정이면 효과 크기 임계값 상향.
표본 크기가 효과 크기 제곱의 역수 에 비례 (\(n \propto 1/\delta^2\)). 따라서:
- 효과를 반으로 줄이려면 표본 4 배
- 효과를 1/4 로 줄이려면 표본 16 배
A/B 테스트에서 0.5 % lift 검출은 0.1 % lift 검출보다 25 배 적은 표본 충분. 따라서 비즈니스가 최소 의미 있는 효과 (MCID) 를 명확히 정의하는 것이 표본 효율성의 출발.
12 Outcome 유형별 표본 크기
12.1 연속 outcome (평균 차이)
가장 효율적. 같은 자료가 더 많은 정보 제공.
| 효과 (Cohen’s d) | n / 그룹 (α=0.05, power=0.80) |
|---|---|
| 0.2 (small) | 199 |
| 0.5 (medium) | 32 |
| 0.8 (large) | 13 |
12.2 이진 outcome (비율 차이)
베이스라인 의존. 작은 베이스라인은 더 큰 표본 필요.
| Baseline | Effect (절대) | n / 그룹 |
|---|---|---|
| 0.50 | -0.10 (RR=0.80) | 388 |
| 0.10 | -0.04 (RR=0.60) | 962 |
| 0.05 | -0.02 (RR=0.60) | 2070 |
| 0.01 | -0.004 (RR=0.60) | 10800 |
12.3 시간-사건 outcome (생존)
Hazard Ratio 와 추적 기간 두 차원. Schoenfeld 공식.
| HR | 사건 수 (총) |
|---|---|
| 0.60 | 86 |
| 0.70 | 153 |
| 0.80 | 379 |
| 0.90 | 1500 |
사건 수 가 표본 크기를 결정. 추적 기간 + 베이스라인 사건율로 전체 모집 환산.
12.4 순서형 outcome
비례 odds 모형의 표본 크기 — Whitehead 공식. 일반적으로 이진 outcome 과 비슷.
13 Bayesian Sample Size Determination
빈도주의의 power 대신 사후 확률 기준 으로 표본 크기 결정.
기준 예시: - Posterior probability of effect > 0 ≥ 0.95 - Average length of credible interval ≤ MCID - Highest posterior density (HPD) 너비 기준
13.1 빈도주의 vs 베이즈 비교
| 측면 | 빈도주의 | 베이즈 |
|---|---|---|
| 입력 | α, power, 효과 | 사전 분포, 정확도 기준 |
| 출력 | 최소 n | 최소 n |
| 유연성 | 적응 어려움 | Adaptive 자연스러움 |
| 사전 분포 | 없음 | 명시 필요 |
베이즈 도구: PyMC, Stan, brms 패키지가 표본 크기 시뮬레이션 지원.
13.2 사례 — 베이즈 A/B 테스트
# Beta-binomial 베이즈 모형의 표본 크기
import numpy as np
def bayesian_sample_size(p_c, p_t, threshold=0.95, max_n=20000):
"""P(B > A) >= threshold 를 위한 표본 크기"""
for n in range(1000, max_n, 1000):
# Monte Carlo 시뮬레이션
prob_better = []
for _ in range(100):
a_post = np.random.beta(1 + n*p_c, 1 + n*(1-p_c), 10000)
b_post = np.random.beta(1 + n*p_t, 1 + n*(1-p_t), 10000)
prob_better.append(np.mean(b_post > a_post))
if np.mean(prob_better) >= threshold:
return n
return max_n
n_bayes = bayesian_sample_size(0.05, 0.06)
print(f"Bayesian n: {n_bayes}")베이즈 절차의 장점: 결과가 자연어 해석 가능 — “B 가 A 보다 좋을 확률 95 % 이상”.
14 Adaptive Sample Size
A-SCH11-2 에서 자세히 다룬다. 핵심: interim 단계에서 모수 재추정 + 표본 재산정.
15 표본 크기 산정의 흔한 실수
15.1 실수 1 — Pilot study 효과를 main 효과로
Pilot study (n=20) 의 효과 추정값을 main study 의 가정 으로 사용. 그러나 pilot 의 추정은 극단적 변동성 을 가짐.
해법: - Pilot 효과의 50 % 또는 95 % CI 하한 으로 보수적 산정 - 별도 literature review 의 효과 사용
15.2 실수 2 — Drop-out 무시
100 명 모집했는데 80 명만 완료 → 실제 검정력 부족.
해법: 모집 표본 = 분석 표본 / (1 - 예상 drop-out). 예: 분석 800 필요, drop-out 20 % → 모집 1000.
15.3 실수 3 — 다중성 무시
5 개 메트릭 검정 시 단일 검정 표본만 산정 → 보정 후 검정력 부족.
해법: 다중성 보정 후 효과적 α 사용.
15.4 실수 4 — Cluster 무시
학교 단위 시험에서 학생 수만 산정. ICC 무시.
해법: DEFF 곱셈 (A-WOO8-5).
□ Primary outcome 1 개 명확히
□ MCID (임상 의미 차이) 결정
□ α, power 결정 (관습 + 분야)
□ 분산 또는 비율 추정 (출처 명시)
□ Drop-out 추정 → 모집 표본 = 분석 / (1 - drop_out)
□ 다중성 보정 (필요 시)
□ Cluster 보정 (필요 시)
□ Sensitivity analysis 수행
□ 결과를 사전 등록
이 9 가지가 정직한 표본 크기 산정의 표준.
16 후속 — Sample Size Samba 와 Power 부족
다음 글들:
- A-SCH11-1 — 4 요소 자세히 + 0.05/0.80 관습 비판
- A-SCH11-2 — Sample Size Samba + 한 측 비판 + Chalmers 논쟁
17 관련 주제
선행 지식
후속 주제 (Phase A)
- A-SCH11-1, 2 (자세히)
- A-WOO8-* (역학 표본 크기)
다른 카테고리 연결