Sample Size Samba 와 일측 검정 비판

Schulz 의 표본 크기 협상 함정 + Chalmers 1978 논쟁의 유산

Schulz Ch.11 의 Sample Size Samba (역방향 산정 함정), 일측 검정의 evidence 기준 완화 비판, Chalmers 1978 의 underpowered trial 논쟁과 그 유산을 정리한다. 사후 검정력 분석의 무용성과 표본 크기 산정의 정직한 관행을 다룬다.

Experimentation
Fundamentals
저자

Kwangmin Kim

공개

2026년 05월 08일

1 도입 — 표본 크기 산정의 정직성

표본 크기 산정은 형식적으로 의무이지만, 실제로는 부정직한 관행 이 흔하다. 이 글은 (a) Sample Size Samba 의 함정, (b) 일측 검정 비판, (c) Chalmers 논쟁의 유산을 정리한다.

2 Sample Size Samba — 역방향 산정

2.1 정의

정의: Sample Size Samba (Schulz)

이상적 절차 (4 요소 → \(n\)) 가 아니라 역방향 으로:

  1. 자금·트래픽·기간 으로 \(n\) 결정
  2. 입력값을 조정 해서 산정 결과를 그 \(n\) 으로 만듦
  3. 형식적으로 “사전 산정 완료” 보고

2.2 실제 시나리오

현실:
  연구비 = $500,000 → n = 200 명 가능
  Power 0.80 + α 0.05 + p_C = 0.10 가정 → n 산정 = 600 명

부정직한 조정:
  Power 를 0.50 으로 낮춤 → n = 300 명
  Effect size 를 더 큰 값 (예: 50 % 감소) 으로 가정 → n = 200 명 가능
  보고: "사전 산정 완료, n = 200 명"

이 절차의 본질은 결정된 \(n\) 을 정당화하는 입력값 역산. 통계적 정직성 위반.

2.3 영향

  • 검정력 부족 시험이 다수 발표됨
  • 효과 미발견 결과의 의미가 모호 (실제로 효과 없음 vs 검정력 부족)
  • 연구의 사회적 비용 낭비
직관 — A/B 테스트의 Samba

A/B 테스트에서도 같은 함정이 흔하다.

이상적: “0.5 % lift 를 검출하고 싶다 → power 0.80, α 0.05 → n = 100 만 → 트래픽 충분?”

Samba 시나리오: “트래픽 10 만 / 주 → 1 주일 결과 필요 → power 0.50 + 효과 1.5 % 가정 → n = 10 만 충분 → 진행”

후자는 0.5 % lift 를 잡지 못한다. 그러나 1.5 % lift 가정의 근거가 없다. 결과가 유의하지 않으면 “효과 없음” 으로 잘못 결론하기 쉬움.

해법: 진정한 검정력 분석 + 부족 인정 + 결과 해석 보수적. 또는 기간 확대, 변형 줄이기, 2 차 실험 계획.

3 일측 검정 비판

3.1 Schulz 의 입장

“일측 검정으로 표본을 줄이는 것은 evidence 의 standard 를 낮추는 것이다. 같은 강도의 증거를 위해 한 측 \(\alpha = 0.025\) 와 양측 \(\alpha = 0.05\) 가 필요하다.”

3.2 일측 vs 양측의 의미

검정 \(H_1\) 임계값 (z)
양측 0.05 \(\theta \neq \theta_0\) \(\pm 1.96\)
일측 0.05 \(\theta > \theta_0\) (또는 <) \(1.65\)
일측 0.025 \(\theta > \theta_0\) (또는 <) \(1.96\) (양측과 동등)

일측 0.05 는 양측 0.10 과 evidence 강도가 같다. 표본을 줄이는 것은 낮은 standard 의 결과.

3.3 정당한 일측 검정

생물학적 또는 비즈니스적 이유로 한쪽 방향만 의미가 있는 경우. 그러나:

  • 반대 방향이 의사결정에 영향 이 있다면 양측이 적절
  • 일측을 사용하더라도 \(\alpha = 0.025\) 로 (양측 0.05 와 등가)

3.4 A/B 테스트의 사례

A/B 테스트에서 “신규 변형이 떨어질 수도 있다” 는 결과는 롤백 결정 에 영향. 따라서 양측 검정 이 정직.

일측을 사용하려면: 사전 등록된 명확한 이유 + 일측 \(\alpha = 0.025\).

4 Chalmers 1978 — 검정력 부족 시험

4.1 발견

Chalmers, Smith, Blackburn et al. (1978) 이 negative randomized trials (효과 미발견 시험) 71 개를 분석. 발견:

  • 70 % 가 50 % 검출에 부족 검정력
  • 80 % 가 25 % 검출에 부족 검정력
  • 효과 없음 결론이 검정력 부족 결과일 수 있음

이 발견이 의학계에 큰 영향을 줘서 사전 표본 크기 산정 이 표준이 됨.

4.2 Chalmers 의 후회

흥미롭게도 Chalmers 본인이 후에 이 논문을 가장 해로운 논문 중 하나 라고 평가했다 (Schulz 인용).

이유: 이 논문이 형식적 표본 크기 산정비합리적 강조 를 만들어, 작은 시험의 발표 자체를 위축시킴. 그 결과 publication bias 가 더 심해짐.

4.3 Schulz 의 대안 견해

“방법론적 엄격함을 우선하라. 부정확한 산정에 기반한 시험을 비윤리적이라 낙인찍는 것은 부당. 작은 시험도 결과를 출판하면 메타 분석 에 기여 가능.”

이 견해는 완벽한 단일 시험 보다 여러 시험의 누적 증거 를 강조한다.

5 사후 검정력 분석 — 무용성

5.1 정의

연구 종료 후, 관측된 효과 크기 로 검정력을 계산.

5.2 무용한 이유

직관 — 사후 검정력의 본질적 무용

사후 검정력은 p 값과 직접 함수 관계. 같은 자료에서:

  • p 값 작음 → 효과 크기 큼 → 사후 검정력 큼
  • p 값 큼 → 효과 크기 작음 → 사후 검정력 작음

따라서 사후 검정력은 새 정보를 주지 않는다. 단지 p 값을 다른 형태로 표현한 것.

대안: 효과 크기의 신뢰 구간. CI 가 좁으면 정밀한 추정, 넓으면 부정확한 추정. 이 정보가 사후 검정력보다 직접적이다.

5.3 적절한 보고

잘못된 보고:
  결과 미유의 (p = 0.21). 사후 검정력 = 0.45. → 검정력 부족이라 효과 못 잡음.

적절한 보고:
  결과 미유의 (p = 0.21).
  Effect size 점추정: RD = -2 %, 95 % CI [-5 %, +1 %].
  CI 의 폭이 임상 의미 차이 (3 %) 보다 큼 → 결과 미확정. 추가 연구 필요.

6 A/B 테스트의 표본 크기 정직성

6.1 권장 절차

  1. MCID 정의 — 비즈니스가 의미 있는 최소 효과 결정 (예: 1 % lift)
  2. 검정력 분석 — α 0.05, power 0.80, MCID → \(n\) 계산
  3. 실현 가능성 평가 — 현재 트래픽으로 \(n\) 확보 가능?
    • Yes → 진행
    • No → 옵션 평가
  4. 옵션 (No 인 경우):
    • 기간 확대
    • 트래픽 비율 증가
    • MCID 완화 (단, 비즈니스 의미 유지)
    • 2 차 실험 계획 (점진적 증거 누적)
  5. 사전 등록 — 절차와 가정 모두 문서화

6.2 Sample Size Samba 회피

정직한 보고:
  "MCID 1 % lift 검출에 n = 100만 필요.
   현재 트래픽으로 4 주 필요.
   타임라인 압박으로 2 주 진행 결정.
   실효 검정력 약 0.55. 작은 효과 못 잡을 수 있음.
   결과 해석은 보수적으로."

부정직한 보고:
  "α = 0.05, power = 0.80 기준 n = 50만 충분 (효과 1.5 % 가정).
   2 주 진행. 결과: 미유의 → 효과 없음 결론."

7 보고 형식 — 모범 사례

CONSORT 권고:

표본 크기 산정 (사전 등록):
  목적: 신약 vs 위약의 사망률 차이 검출
  대조군 사망률 (가정): 10 %
  최소 검출 효과: 절대 4 % 감소 (RR = 0.6)
  α = 0.05 (양측)
  Power = 0.90
  배정 비율: 1:1
  계산된 표본 크기: 그룹당 962 명, 총 1924 명
  Drop-out 가정 (10 %): 실제 모집 약 2138 명

가정 출처:
  대조군 사망률: Smith et al. 2018 메타 분석
  Effect size: 임상 의미 차이 (전문가 합의)

Sensitivity analysis:
  대조군 사망률 8 % 가정: n = 1200/group
  대조군 사망률 12 % 가정: n = 800/group

검정력 분석 도구: PASS 14

이 형식이 정직한 표본 크기 보고의 모범. 가정·출처·민감도 모두 투명.

8 한 측 검정의 정당한 사용

드물지만 정당한 사용 시점:

시나리오 정당성
이전 연구가 강한 일측 효과 입증 OK (단, 일측 0.025 사용)
비대칭 비용 (한쪽 결과만 의미) OK (의사결정 함의 명시)
사전 등록 + 명확한 이유 OK (투명성 확보)
표본 절감 목적 NO (Schulz 비판)

9 Adaptive Sample Size — 현대적 대안

Sample Size Samba 의 근본 문제는 고정된 표본 크기 결정 의 경직성에 있다. 현대 임상시험은 적응적 (adaptive) 설계로 이 문제를 해결한다.

정의: Adaptive Sample Size Re-estimation

Interim analysis 단계에서 blinded 또는 unblinded 방식으로 모수 추정값을 갱신하고, 그에 따라 표본 크기를 재산정.

  • Blinded SSR: 처치 그룹 라벨 없이 전체 분산만 재추정 → 사전 가정한 분산 vs 관측 분산 차이만큼 보정
  • Unblinded SSR: 그룹별 효과 추정 후 표본 재산정 → α 보정 필요 (Cui-Hung-Wang 등)

9.1 사례 — 항우울제 시험

사전 산정:
  σ = 8 가정, MCID = 3, α = 0.05, power = 0.80
  → n = 224 / 그룹

Interim (n = 100 / 그룹):
  관측 σ = 11 (가정보다 큼)
  Blinded SSR → n 재산정 = 423 / 그룹
  → 추가 199 명 / 그룹 모집

이 절차가 Sample Size Samba 의 정직한 대체. 사전 가정의 부정확성을 프로토콜 안에서 인정.

9.2 적응적 설계의 종류

유형 적응 대상 사용 시점
Blinded SSR 분산 추정 가장 단순
Unblinded SSR 효과 추정 α 보정 필요
Group Sequential 조기 중단 무용성 또는 효능
Adaptive Enrichment 환자 모집단 Subgroup 효과 발견
Response-Adaptive Randomization 배정 비율 효과 우수 그룹에 더 배정

각 설계가 특정 불확실성 에 대응. CONSORT-Adaptive 또는 ICH E9(R1) 가이드라인 따름.

직관 — Adaptive 설계의 의미

전통 시험: “처음에 정한 \(n = 200\) 으로 끝까지 진행. 결과가 어떻든.”

Adaptive: “처음 \(n = 100\) 까지 본 후, 분산이 가정보다 크면 \(n\) 을 늘린다. 효과가 매우 작으면 시험 중단.”

후자가 자원 효율 + 의사결정 적시성 양쪽 우월. 단점은 통계 절차 복잡프로토콜 사전 명시 의무.

A/B 테스트의 sequential testing + alpha spending 이 같은 사고. 매일 결과 보면서 적응적으로 멈출지 결정. 단 사전에 멈춤 규칙 명시.

10 Conditional Power — Interim 분석의 도구

10.1 정의

Conditional Power

현재까지 관측된 자료가 주어졌을 때, 시험이 유의한 결과로 끝날 확률.

\[ \text{CP}(\text{interim}) = \Pr(\text{최종 유의} \mid \text{interim 자료, 가정 효과 크기}) \]

10.2 사용 시점

Interim 에서 CP 가:

  • \(\geq 0.80\) → 진행 (효능 likely)
  • \(0.20 \sim 0.80\) → “promising zone” — 표본 추가 또는 진행 결정
  • \(\leq 0.20\) → 중단 (무용성)

10.3 Mehta-Pocock Promising Zone

Mehta & Pocock (2011) 의 절차: Promising zone 에서 표본을 늘려 검정력 회복. 동시에 α 보존.

이 절차가 Sample Size Samba 의 통계적 정당화 형태. 단 사전 등록 필수.

11 비용 효율적 표본 크기 — Group Sequential

11.1 O’Brien-Fleming 경계

가장 보수적 sequential 절차. 초기 interim 에서 매우 엄격한 임계값 → 후반 임계값이 거의 통상값.

# 4 인터림 (k=1,2,3,4) 의 OBF 임계값 (양측 α = 0.05)
import numpy as np
from scipy.stats import norm

K = 4
alpha = 0.05
# OBF: c_k = c * sqrt(K/k)
# c 는 누적 α = 0.05 를 만족하도록 수치 해법
# 대략값:
obf_critical = [4.05, 2.86, 2.34, 2.02]  # 대략값
for k, c in enumerate(obf_critical, 1):
    print(f"Interim {k}: 임계값 = {c:.2f}, p < {2*(1-norm.cdf(c)):.4f}")

11.2 Pocock 경계

모든 interim 에 동일 임계값. 초기 검출력 높음, 후반 약함.

절차 초기 검출 후반 검출 평균 표본
Pocock 강함 약함 작음
O’Brien-Fleming 약함 강함
Lan-DeMets alpha spending 유연 유연 중간

OBF 가 임상시험의 표준. 검정력 절감 vs 평균 표본 효율의 균형.

12 Chalmers 의 후회와 현대 의미

Chalmers 1978 의 negative trial 분석 이 검정력 부족 문제를 부각시켰다. 그러나 30 년 후 그가 후회한 이유:

  1. 출판 편향 가속 — 작은 시험의 발표가 형식적 무효 로 취급되어 위축
  2. Frequentist 도그마 강화 — 검정력 ≥ 0.80 절대주의로 흐름
  3. 대안 기각 — 메타 분석, 베이즈 분석, 효과 크기 추정 의 가치 평가절하
직관 — 한 시험의 단점은 메타로 보완

작은 시험 하나가 결정적 일 필요는 없다. 같은 가설의 5 개 시험이 각각 검정력 0.50 이라면, 메타 분석에서는 결합 검정력 0.97 가능 (\(1 - (1 - 0.50)^5\) 근사).

따라서 Chalmers 의 후회는 시험의 가치 평가 단위 에 대한 통찰. 단일 시험 vs 누적 증거.

A/B 테스트도 같다. 한 번의 결정적 실험 보다 여러 작은 실험의 누적 이 더 robust. Sequential 또는 multi-stage 설계.

13 보고 형식 — Adaptive 추가

프로토콜 (사전 등록):
  Primary endpoint: 사망률
  사전 표본 크기: n = 962 / 그룹 (총 1924)
    가정: p_C = 0.10, RR = 0.6, α = 0.05, power = 0.90

Interim Analysis (n = 500 / 그룹):
  Conditional Power: 0.62 (promising zone)
  관측 효과: RR = 0.65 (가정보다 약함)
  결정: 표본 확대 → 최종 1300 / 그룹 (Cui-Hung-Wang 보정)

최종 분석 (n = 1300 / 그룹):
  RR = 0.68, 95 % CI [0.55, 0.84], p = 0.0008
  결론: 효과 입증

Adaptive 절차의 사전 등록: ClinicalTrials.gov NCT12345678

이 형식이 Adaptive 시험의 정직한 보고. 사전 등록 + interim 결정 규칙 + 보정 절차 모두 투명.

14 A/B 테스트의 Sample Size 정직성 추가

A/B 테스트의 bayesian 접근 이 또 다른 대안:

import numpy as np

# Beta-binomial 베이즈 모형
# Prior: Beta(1, 1) (uniform)
n_a, conv_a = 5000, 250  # 5 % 전환
n_b, conv_b = 5000, 275  # 5.5 % 전환

# 사후 분포에서 sampling
samples = 100000
post_a = np.random.beta(1 + conv_a, 1 + n_a - conv_a, samples)
post_b = np.random.beta(1 + conv_b, 1 + n_b - conv_b, samples)

# B 가 A 보다 큰 확률
prob_b_better = np.mean(post_b > post_a)
print(f"P(B > A) = {prob_b_better:.4f}")

# 효과 크기의 사후 분포
effect = post_b - post_a
ci = np.percentile(effect, [2.5, 97.5])
print(f"효과 95 % credible interval: ({ci[0]*100:.2f} %, {ci[1]*100:.2f} %)")

베이즈 분석은 사전 표본 산정 의 부담이 적다 (사전 분포 + 자료 → 사후 분포). 그러나 사전 분포 선택의 주관성 이 새 도전.

15 후속 — 역학 표본 크기 (WOO Ch.8)

Schulz Ch.11 은 임상 RCT 의 표본 크기. 다음 시리즈 (A-WOO8-) 는 역학 연구* (cohort, case-control 등) 의 표본 크기를 다룬다. 일반화된 공식과 자료 구조별 변형.

16 관련 주제

선행 지식

후속 주제 (Phase A)

  • A-WOO8-* (역학 표본 크기)

다른 카테고리 연결

Subscribe

Enjoy this blog? Get notified of new posts by email: