1 도입 — 표본 크기 산정의 정직성
표본 크기 산정은 형식적으로 의무이지만, 실제로는 부정직한 관행 이 흔하다. 이 글은 (a) Sample Size Samba 의 함정, (b) 일측 검정 비판, (c) Chalmers 논쟁의 유산을 정리한다.
2 Sample Size Samba — 역방향 산정
2.1 정의
이상적 절차 (4 요소 → \(n\)) 가 아니라 역방향 으로:
- 자금·트래픽·기간 으로 \(n\) 결정
- 입력값을 조정 해서 산정 결과를 그 \(n\) 으로 만듦
- 형식적으로 “사전 산정 완료” 보고
2.2 실제 시나리오
현실:
연구비 = $500,000 → n = 200 명 가능
Power 0.80 + α 0.05 + p_C = 0.10 가정 → n 산정 = 600 명
부정직한 조정:
Power 를 0.50 으로 낮춤 → n = 300 명
Effect size 를 더 큰 값 (예: 50 % 감소) 으로 가정 → n = 200 명 가능
보고: "사전 산정 완료, n = 200 명"
이 절차의 본질은 결정된 \(n\) 을 정당화하는 입력값 역산. 통계적 정직성 위반.
2.3 영향
- 검정력 부족 시험이 다수 발표됨
- 효과 미발견 결과의 의미가 모호 (실제로 효과 없음 vs 검정력 부족)
- 연구의 사회적 비용 낭비
A/B 테스트에서도 같은 함정이 흔하다.
이상적: “0.5 % lift 를 검출하고 싶다 → power 0.80, α 0.05 → n = 100 만 → 트래픽 충분?”
Samba 시나리오: “트래픽 10 만 / 주 → 1 주일 결과 필요 → power 0.50 + 효과 1.5 % 가정 → n = 10 만 충분 → 진행”
후자는 0.5 % lift 를 잡지 못한다. 그러나 1.5 % lift 가정의 근거가 없다. 결과가 유의하지 않으면 “효과 없음” 으로 잘못 결론하기 쉬움.
해법: 진정한 검정력 분석 + 부족 인정 + 결과 해석 보수적. 또는 기간 확대, 변형 줄이기, 2 차 실험 계획.
3 일측 검정 비판
3.1 Schulz 의 입장
“일측 검정으로 표본을 줄이는 것은 evidence 의 standard 를 낮추는 것이다. 같은 강도의 증거를 위해 한 측 \(\alpha = 0.025\) 와 양측 \(\alpha = 0.05\) 가 필요하다.”
3.2 일측 vs 양측의 의미
| 검정 | \(H_1\) | 임계값 (z) |
|---|---|---|
| 양측 0.05 | \(\theta \neq \theta_0\) | \(\pm 1.96\) |
| 일측 0.05 | \(\theta > \theta_0\) (또는 <) | \(1.65\) |
| 일측 0.025 | \(\theta > \theta_0\) (또는 <) | \(1.96\) (양측과 동등) |
일측 0.05 는 양측 0.10 과 evidence 강도가 같다. 표본을 줄이는 것은 낮은 standard 의 결과.
3.3 정당한 일측 검정
생물학적 또는 비즈니스적 이유로 한쪽 방향만 의미가 있는 경우. 그러나:
- 반대 방향이 의사결정에 영향 이 있다면 양측이 적절
- 일측을 사용하더라도 \(\alpha = 0.025\) 로 (양측 0.05 와 등가)
3.4 A/B 테스트의 사례
A/B 테스트에서 “신규 변형이 떨어질 수도 있다” 는 결과는 롤백 결정 에 영향. 따라서 양측 검정 이 정직.
일측을 사용하려면: 사전 등록된 명확한 이유 + 일측 \(\alpha = 0.025\).
4 Chalmers 1978 — 검정력 부족 시험
4.1 발견
Chalmers, Smith, Blackburn et al. (1978) 이 negative randomized trials (효과 미발견 시험) 71 개를 분석. 발견:
- 70 % 가 50 % 검출에 부족 검정력
- 80 % 가 25 % 검출에 부족 검정력
- 효과 없음 결론이 검정력 부족 결과일 수 있음
이 발견이 의학계에 큰 영향을 줘서 사전 표본 크기 산정 이 표준이 됨.
4.2 Chalmers 의 후회
흥미롭게도 Chalmers 본인이 후에 이 논문을 가장 해로운 논문 중 하나 라고 평가했다 (Schulz 인용).
이유: 이 논문이 형식적 표본 크기 산정 에 비합리적 강조 를 만들어, 작은 시험의 발표 자체를 위축시킴. 그 결과 publication bias 가 더 심해짐.
4.3 Schulz 의 대안 견해
“방법론적 엄격함을 우선하라. 부정확한 산정에 기반한 시험을 비윤리적이라 낙인찍는 것은 부당. 작은 시험도 결과를 출판하면 메타 분석 에 기여 가능.”
이 견해는 완벽한 단일 시험 보다 여러 시험의 누적 증거 를 강조한다.
5 사후 검정력 분석 — 무용성
5.1 정의
연구 종료 후, 관측된 효과 크기 로 검정력을 계산.
5.2 무용한 이유
사후 검정력은 p 값과 직접 함수 관계. 같은 자료에서:
- p 값 작음 → 효과 크기 큼 → 사후 검정력 큼
- p 값 큼 → 효과 크기 작음 → 사후 검정력 작음
따라서 사후 검정력은 새 정보를 주지 않는다. 단지 p 값을 다른 형태로 표현한 것.
대안: 효과 크기의 신뢰 구간. CI 가 좁으면 정밀한 추정, 넓으면 부정확한 추정. 이 정보가 사후 검정력보다 직접적이다.
5.3 적절한 보고
잘못된 보고:
결과 미유의 (p = 0.21). 사후 검정력 = 0.45. → 검정력 부족이라 효과 못 잡음.
적절한 보고:
결과 미유의 (p = 0.21).
Effect size 점추정: RD = -2 %, 95 % CI [-5 %, +1 %].
CI 의 폭이 임상 의미 차이 (3 %) 보다 큼 → 결과 미확정. 추가 연구 필요.
6 A/B 테스트의 표본 크기 정직성
6.1 권장 절차
- MCID 정의 — 비즈니스가 의미 있는 최소 효과 결정 (예: 1 % lift)
- 검정력 분석 — α 0.05, power 0.80, MCID → \(n\) 계산
- 실현 가능성 평가 — 현재 트래픽으로 \(n\) 확보 가능?
- Yes → 진행
- No → 옵션 평가
- 옵션 (No 인 경우):
- 기간 확대
- 트래픽 비율 증가
- MCID 완화 (단, 비즈니스 의미 유지)
- 2 차 실험 계획 (점진적 증거 누적)
- 사전 등록 — 절차와 가정 모두 문서화
6.2 Sample Size Samba 회피
정직한 보고:
"MCID 1 % lift 검출에 n = 100만 필요.
현재 트래픽으로 4 주 필요.
타임라인 압박으로 2 주 진행 결정.
실효 검정력 약 0.55. 작은 효과 못 잡을 수 있음.
결과 해석은 보수적으로."
부정직한 보고:
"α = 0.05, power = 0.80 기준 n = 50만 충분 (효과 1.5 % 가정).
2 주 진행. 결과: 미유의 → 효과 없음 결론."
7 보고 형식 — 모범 사례
CONSORT 권고:
표본 크기 산정 (사전 등록):
목적: 신약 vs 위약의 사망률 차이 검출
대조군 사망률 (가정): 10 %
최소 검출 효과: 절대 4 % 감소 (RR = 0.6)
α = 0.05 (양측)
Power = 0.90
배정 비율: 1:1
계산된 표본 크기: 그룹당 962 명, 총 1924 명
Drop-out 가정 (10 %): 실제 모집 약 2138 명
가정 출처:
대조군 사망률: Smith et al. 2018 메타 분석
Effect size: 임상 의미 차이 (전문가 합의)
Sensitivity analysis:
대조군 사망률 8 % 가정: n = 1200/group
대조군 사망률 12 % 가정: n = 800/group
검정력 분석 도구: PASS 14
이 형식이 정직한 표본 크기 보고의 모범. 가정·출처·민감도 모두 투명.
8 한 측 검정의 정당한 사용
드물지만 정당한 사용 시점:
| 시나리오 | 정당성 |
|---|---|
| 이전 연구가 강한 일측 효과 입증 | OK (단, 일측 0.025 사용) |
| 비대칭 비용 (한쪽 결과만 의미) | OK (의사결정 함의 명시) |
| 사전 등록 + 명확한 이유 | OK (투명성 확보) |
| 표본 절감 목적 | NO (Schulz 비판) |
9 Adaptive Sample Size — 현대적 대안
Sample Size Samba 의 근본 문제는 고정된 표본 크기 결정 의 경직성에 있다. 현대 임상시험은 적응적 (adaptive) 설계로 이 문제를 해결한다.
Interim analysis 단계에서 blinded 또는 unblinded 방식으로 모수 추정값을 갱신하고, 그에 따라 표본 크기를 재산정.
- Blinded SSR: 처치 그룹 라벨 없이 전체 분산만 재추정 → 사전 가정한 분산 vs 관측 분산 차이만큼 보정
- Unblinded SSR: 그룹별 효과 추정 후 표본 재산정 → α 보정 필요 (Cui-Hung-Wang 등)
9.1 사례 — 항우울제 시험
사전 산정:
σ = 8 가정, MCID = 3, α = 0.05, power = 0.80
→ n = 224 / 그룹
Interim (n = 100 / 그룹):
관측 σ = 11 (가정보다 큼)
Blinded SSR → n 재산정 = 423 / 그룹
→ 추가 199 명 / 그룹 모집
이 절차가 Sample Size Samba 의 정직한 대체. 사전 가정의 부정확성을 프로토콜 안에서 인정.
9.2 적응적 설계의 종류
| 유형 | 적응 대상 | 사용 시점 |
|---|---|---|
| Blinded SSR | 분산 추정 | 가장 단순 |
| Unblinded SSR | 효과 추정 | α 보정 필요 |
| Group Sequential | 조기 중단 | 무용성 또는 효능 |
| Adaptive Enrichment | 환자 모집단 | Subgroup 효과 발견 |
| Response-Adaptive Randomization | 배정 비율 | 효과 우수 그룹에 더 배정 |
각 설계가 특정 불확실성 에 대응. CONSORT-Adaptive 또는 ICH E9(R1) 가이드라인 따름.
전통 시험: “처음에 정한 \(n = 200\) 으로 끝까지 진행. 결과가 어떻든.”
Adaptive: “처음 \(n = 100\) 까지 본 후, 분산이 가정보다 크면 \(n\) 을 늘린다. 효과가 매우 작으면 시험 중단.”
후자가 자원 효율 + 의사결정 적시성 양쪽 우월. 단점은 통계 절차 복잡 과 프로토콜 사전 명시 의무.
A/B 테스트의 sequential testing + alpha spending 이 같은 사고. 매일 결과 보면서 적응적으로 멈출지 결정. 단 사전에 멈춤 규칙 명시.
10 Conditional Power — Interim 분석의 도구
10.1 정의
현재까지 관측된 자료가 주어졌을 때, 시험이 유의한 결과로 끝날 확률.
\[ \text{CP}(\text{interim}) = \Pr(\text{최종 유의} \mid \text{interim 자료, 가정 효과 크기}) \]
10.2 사용 시점
Interim 에서 CP 가:
- \(\geq 0.80\) → 진행 (효능 likely)
- \(0.20 \sim 0.80\) → “promising zone” — 표본 추가 또는 진행 결정
- \(\leq 0.20\) → 중단 (무용성)
10.3 Mehta-Pocock Promising Zone
Mehta & Pocock (2011) 의 절차: Promising zone 에서 표본을 늘려 검정력 회복. 동시에 α 보존.
이 절차가 Sample Size Samba 의 통계적 정당화 형태. 단 사전 등록 필수.
11 비용 효율적 표본 크기 — Group Sequential
11.1 O’Brien-Fleming 경계
가장 보수적 sequential 절차. 초기 interim 에서 매우 엄격한 임계값 → 후반 임계값이 거의 통상값.
# 4 인터림 (k=1,2,3,4) 의 OBF 임계값 (양측 α = 0.05)
import numpy as np
from scipy.stats import norm
K = 4
alpha = 0.05
# OBF: c_k = c * sqrt(K/k)
# c 는 누적 α = 0.05 를 만족하도록 수치 해법
# 대략값:
obf_critical = [4.05, 2.86, 2.34, 2.02] # 대략값
for k, c in enumerate(obf_critical, 1):
print(f"Interim {k}: 임계값 = {c:.2f}, p < {2*(1-norm.cdf(c)):.4f}")11.2 Pocock 경계
모든 interim 에 동일 임계값. 초기 검출력 높음, 후반 약함.
| 절차 | 초기 검출 | 후반 검출 | 평균 표본 |
|---|---|---|---|
| Pocock | 강함 | 약함 | 작음 |
| O’Brien-Fleming | 약함 | 강함 | 큼 |
| Lan-DeMets alpha spending | 유연 | 유연 | 중간 |
OBF 가 임상시험의 표준. 검정력 절감 vs 평균 표본 효율의 균형.
12 Chalmers 의 후회와 현대 의미
Chalmers 1978 의 negative trial 분석 이 검정력 부족 문제를 부각시켰다. 그러나 30 년 후 그가 후회한 이유:
- 출판 편향 가속 — 작은 시험의 발표가 형식적 무효 로 취급되어 위축
- Frequentist 도그마 강화 — 검정력 ≥ 0.80 절대주의로 흐름
- 대안 기각 — 메타 분석, 베이즈 분석, 효과 크기 추정 의 가치 평가절하
작은 시험 하나가 결정적 일 필요는 없다. 같은 가설의 5 개 시험이 각각 검정력 0.50 이라면, 메타 분석에서는 결합 검정력 0.97 가능 (\(1 - (1 - 0.50)^5\) 근사).
따라서 Chalmers 의 후회는 시험의 가치 평가 단위 에 대한 통찰. 단일 시험 vs 누적 증거.
A/B 테스트도 같다. 한 번의 결정적 실험 보다 여러 작은 실험의 누적 이 더 robust. Sequential 또는 multi-stage 설계.
13 보고 형식 — Adaptive 추가
프로토콜 (사전 등록):
Primary endpoint: 사망률
사전 표본 크기: n = 962 / 그룹 (총 1924)
가정: p_C = 0.10, RR = 0.6, α = 0.05, power = 0.90
Interim Analysis (n = 500 / 그룹):
Conditional Power: 0.62 (promising zone)
관측 효과: RR = 0.65 (가정보다 약함)
결정: 표본 확대 → 최종 1300 / 그룹 (Cui-Hung-Wang 보정)
최종 분석 (n = 1300 / 그룹):
RR = 0.68, 95 % CI [0.55, 0.84], p = 0.0008
결론: 효과 입증
Adaptive 절차의 사전 등록: ClinicalTrials.gov NCT12345678
이 형식이 Adaptive 시험의 정직한 보고. 사전 등록 + interim 결정 규칙 + 보정 절차 모두 투명.
14 A/B 테스트의 Sample Size 정직성 추가
A/B 테스트의 bayesian 접근 이 또 다른 대안:
import numpy as np
# Beta-binomial 베이즈 모형
# Prior: Beta(1, 1) (uniform)
n_a, conv_a = 5000, 250 # 5 % 전환
n_b, conv_b = 5000, 275 # 5.5 % 전환
# 사후 분포에서 sampling
samples = 100000
post_a = np.random.beta(1 + conv_a, 1 + n_a - conv_a, samples)
post_b = np.random.beta(1 + conv_b, 1 + n_b - conv_b, samples)
# B 가 A 보다 큰 확률
prob_b_better = np.mean(post_b > post_a)
print(f"P(B > A) = {prob_b_better:.4f}")
# 효과 크기의 사후 분포
effect = post_b - post_a
ci = np.percentile(effect, [2.5, 97.5])
print(f"효과 95 % credible interval: ({ci[0]*100:.2f} %, {ci[1]*100:.2f} %)")베이즈 분석은 사전 표본 산정 의 부담이 적다 (사전 분포 + 자료 → 사후 분포). 그러나 사전 분포 선택의 주관성 이 새 도전.
15 후속 — 역학 표본 크기 (WOO Ch.8)
Schulz Ch.11 은 임상 RCT 의 표본 크기. 다음 시리즈 (A-WOO8-) 는 역학 연구* (cohort, case-control 등) 의 표본 크기를 다룬다. 일반화된 공식과 자료 구조별 변형.
16 관련 주제
선행 지식
후속 주제 (Phase A)
- A-WOO8-* (역학 표본 크기)
다른 카테고리 연결