Kwangmin Kim - 표본 크기 계산 — Schulz Ch.11 overview

1 도입 — Mandatory and Mystical

Schulz Ch.11 의 첫 문장은 인상적이다. “Mandatory and Mystical.” 무작위 임상시험에서 표본 크기 산정은 의무 (mandatory) 이지만 동시에 신비 (mystical) 한 절차이다.

Mandatory: 모든 임상시험 프로토콜과 윤리 위원회가 사전 표본 크기 산정을 요구. CONSORT 도 보고 의무화.
Mystical: 산정의 입력값 (특히 effect size) 이 주관적 임상 판단 에 의존하므로, 산출된 \(n\) 도 부정확.

이 글은 (a) 4 요소의 정의, (b) 관습의 영향, (c) Sample Size Samba 의 함정을 정리한다.

2 4 요소 — 표본 크기 산정의 입력

정의: 4 요소 (이진 결과)

이진 결과 (사망/생존, 회복/지속) 의 표본 크기 산정에 필요한 4 가지 입력:

\(\alpha\) error (Type I) — 거짓 양성 확률 (관습: 0.05)
Power (\(1 - \beta\)) — 진짜 효과 검출 확률 (관습: 0.80 또는 0.90)
Event rate (대조군) — 자연 발생률 (\(p_C\))
Treatment effect — 절대 또는 상대 효과 (\(p_T - p_C\) 또는 \(p_T / p_C\))

2.1 Type I Error (\(\alpha\))

거짓 양성: 두 처치가 실제로 같은데 다르다고 잘못 결론.

관습: \(\alpha = 0.05\) (양측). 그러나 맥락에 따라 조정.

시나리오	권장 \(\alpha\)
표준 임상시험	0.05
안전성 최우선 (효과 약함을 과대평가 위험)	0.01
안전 + 저렴한 처치의 효과 (놓치면 큰 손실)	0.10

2.2 Type II Error (\(\beta\)) 와 검정력

거짓 음성: 두 처치가 실제로 다른데 같다고 잘못 결론.

검정력 = \(1 - \beta\). 관습: 0.80 (즉 \(\beta = 0.20\)).

직관 — α 와 β 의 균형

\(\alpha\) 와 \(\beta\) 는 역의 관계. 한쪽을 줄이면 다른 쪽이 커진다 (표본 크기 고정 시).

시나리오	\(\alpha\)	\(\beta\)	비고
표준	0.05	0.20	4:1 비대칭 (false positive 더 보수적)
매우 보수적	0.01	0.30	신약 안전성
발견 우선	0.10	0.10	탐색적 연구

A/B 테스트의 관습은 α = 0.05, power = 0.80. 왜 4:1 비대칭인가? 학술 관습에서 false positive (거짓 발견) 가 false negative 보다 더 큰 비용으로 간주되어 왔다.

그러나 비즈니스 영역 에서는 비대칭이 다를 수 있다. 빠른 의사결정이 필요하면 \(\alpha = 0.10\), 신중한 결정이 필요하면 \(\alpha = 0.01\) 등.

2.3 Event Rate (\(p_C\))

대조군의 자연 발생률. 기존 자료 (이전 연구, 의료 기록) 에서 추정.

문제: \(p_C\) 추정이 부정확하면 \(n\) 산정 부정확. Sensitivity analysis (다양한 \(p_C\) 값에 대해 \(n\) 계산) 권장.

2.4 Treatment Effect

검출하고 싶은 최소 효과 크기 (Minimum Detectable Effect, MDE). 두 가지 표현:

절대: \(\Delta = p_T - p_C\)
상대: \(R = p_T / p_C\) (RR) 또는 \(\text{lift}\) (= R - 1)

이 입력이 가장 주관적. 임상적·비즈니스적 의미와 연결되어야 한다.

3 표본 크기 공식 — 이진 결과 (Schulz Panel 11.2)

정리: 단순 공식 (이진, 균형 설계, \(\alpha = 0.05\), power = 0.90)

\[ n = \frac{10.51 [(R + 1) - p_C (R^2 + 1)]}{p_C (1 - R)^2} \]

여기서:

\(n\): 그룹당 표본 크기
\(p_C\): 대조군 사건율
\(R = p_T / p_C\): 상대 위험

3.1 사례 — Schulz 의 예

\(p_C = 0.10\), \(R = 0.60\) (40 % 감소), \(\alpha = 0.05\), power = 0.90.

\[ n = \frac{10.51 [(0.60 + 1) - 0.10 (0.60^2 + 1)]}{0.10 (1 - 0.60)^2} = \frac{10.51 [1.60 - 0.136]}{0.016} \approx 962 \]

각 그룹 약 962 명, 총 약 1924 명 필요.

4 일반 공식 — 두 비율 비교

좀 더 일반적인 공식:

\[ n = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 [p_T (1 - p_T) + p_C (1 - p_C)]}{(p_T - p_C)^2} \]

여기서 \(z_{1-\alpha/2}\), \(z_{1-\beta}\) 는 정규 분위수.

4.1 사례 계산

\(\alpha = 0.05\) (양측), power = 0.80, \(p_C = 0.10\), \(p_T = 0.06\).

\(z_{0.975} = 1.96\), \(z_{0.80} = 0.84\)
분자: \((1.96 + 0.84)^2 \cdot [0.06 \cdot 0.94 + 0.10 \cdot 0.90] = 7.84 \cdot 0.1464 \approx 1.148\)
분모: \((0.10 - 0.06)^2 = 0.0016\)
\(n \approx 718\) (각 그룹)

이 공식이 근사 형태이며, 정확한 표본 크기는 반복 알고리즘 (PASS, G*Power, R pwr 패키지) 으로 계산.

5 \(\alpha\) 와 power 의 영향

같은 효과 크기에 대해 \(\alpha\) 와 power 가 변할 때 \(n\) 의 변화:

\(\alpha\)	power	상대 \(n\)
0.05	0.50	1.0 (기준)
0.05	0.80	약 2.0
0.05	0.99	약 4.5
0.01	0.50	약 1.7
0.01	0.80	약 3.0
0.01	0.99	약 6.5

검정력을 50 % → 80 % 로 올리면 표본이 2 배 필요. \(\alpha\) 를 0.05 → 0.01 로 낮추면 70 % 더 필요.

6 Sample Size Samba — 협상의 함정

6.1 Schulz 의 비판

“임상시험 자금이 1000 명에 한정된다고 하자. 산정 결과 1500 명이 필요하다고 나오면, 어떻게 하는가? 입력값을 조정 한다 — power 를 0.90 에서 0.80 으로, 효과 크기를 약간 더 크게 가정. 마지막에 1000 명에 맞아 떨어지는 입력값을 사용해 형식적으로 산정 결과를 1000 명으로 만든다.” (Schulz & Grimes 2019, Ch.11)

이 역방향 산정 이 Sample Size Samba 다. 표면적으로는 산정을 했지만 실제로는 예산이 결정 한 표본 크기다.

6.2 함정의 구조

실제 절차:
  자금 확정 → n 결정 → 입력값 역산 → 형식적 산정

이상적 절차:
  연구 질문 → 입력값 결정 → n 산정 → 자금 요청

이 차이가 수많은 임상시험의 검정력 부족 의 원인이라고 Schulz 는 비판한다.

직관 — Sample Size Samba 의 영향

A/B 테스트에도 같은 함정이 있다.

이상적 절차: “이 변형의 효과를 0.5 % lift 까지 검출하고 싶다 → power = 0.80, \(\alpha = 0.05\) → \(n\) 약 100 만 명 필요 → 트래픽 충분한가? 충분 → 진행”

현실: “트래픽이 1 주일에 10 만 명. 일정 압박으로 1 주일 내 결과 필요. → power 어쨌든 0.80, \(\alpha = 0.05\) 형식적. 효과가 2 % 라고 가정 하면 10 만 명으로 충분. 진행.”

후자의 접근은 작은 효과 (0.5 % lift) 를 잡지 못한다. 비즈니스 의사결정이 부족 검정력 으로 이뤄진다.

해법: 진정한 표본 크기 산정 + 검정력 부족 인정 + 결과 해석 보수적. 또는 실험 기간 확대, segment 좁히기 등 표본 확보 노력.

7 사후 검정력 분석 — 무용성

연구 종료 후 관측된 효과 크기 로 검정력을 다시 계산하는 사후 검정력 분석 의 무용성:

“사후 검정력은 p 값과 직접 연결된다. p 가 작으면 사후 검정력이 크고, p 가 크면 사후 검정력이 작다. 이는 새 정보를 주지 않는다.” (Hoenig & Heisey 2001)

7.1 무용한 이유

사후 검정력은 관측 효과 에 기반. 관측 효과가 작으면 (p 큼) 사후 검정력도 자동으로 작음. 새로운 통찰 없음.

7.2 대안

효과 크기 + CI 보고로 결과의 정밀도 직접 표현
사전 등록된 검정력 분석 의 가정과 비교 (예: 사전 가정 0.5 % lift 였는데 관측 1.5 % lift → 효과가 더 컸음)

8 한 측 vs 양측 검정 — Schulz 의 권고

Schulz: “같은 증거 강도 가 정상적이다. 한 측 검정으로 표본을 줄이려는 시도는 evidence 의 표준을 낮추는 것.”

검정	\(\alpha\)	임계값 (양측 0.05 와 동등)
양측 0.05	양측 0.05	\(z = 1.96\)
한 측 0.025	한 측 0.025	\(z = 1.96\)
한 측 0.05	한 측 0.05	\(z = 1.65\) (낮은 표준)

권장: 양측 \(\alpha = 0.05\) 를 표준으로. 한 측을 사용하더라도 0.025 로 (양측의 절반).

9 검정력 부족 시험 (Underpowered Trials)

9.1 Chalmers 1978 의 발견

Tom Chalmers et al. (1978) 가 발견: 의료 저널의 negative (효과 미발견) 임상시험 다수가 검정력 부족. 즉 효과가 있어도 잡지 못함.

9.2 영향

검정력 부족 시험이 부정 결과 로 출판되어, 효과적 처치가 기각
메타 분석 에서 통합하면 효과가 드러날 수도 있음
“효과 미발견” ≠ “효과 없음”

9.3 Schulz 의 권고

검정력 부족 시험도 완전히 무용은 아님 — 방법론적 엄격함 + 결과 보고 + 출판 편향 회피 가 더 중요.

10 보고 형식 — CONSORT

CONSORT 2010 의 sample size 보고 요구:

사전 계산된 표본 크기
4 요소 (\(\alpha\), power, \(p_C\) 또는 \(\sigma\), treatment effect)
가정의 출처 (이전 연구, pilot study)
무작위 배정 비율 (1:1 또는 다른 ratio)
검정 형태 (양측/한 측)
수정 시점과 사유 (interim adjustment)

A/B 테스트 보고도 비슷한 형식 권장.

11 사례 — 임상시험 표본 크기

11.1 HIP 시험 (Health Insurance Plan, 1963)

HIP 유방조영술 시험

세계 최초의 대규모 RCT 중 하나. 유방조영술의 사망률 감소 효과 검정.

설계: - 62000 명 여성 모집 (40~64 세) - 무작위 배정 (검진 받기 vs 받지 않기) - Primary outcome: 유방암 사망률 (추적 10 년)

표본 산정: - 연 유방암 사망률 약 0.5 / 1000 - 검출하고 싶은 효과: 30 % 감소 - α = 0.05, power = 0.80 - 추적 기간 10 년 (관측 사건 수 충분 위해) - → 약 30000 명 / 그룹 필요

결과: 검진군 사망률 30 % 감소 (NS, 통계적 유의 임계값 근처).

함의: 희귀 outcome 의 시험은 대규모 표본 + 긴 추적 필요. 표본 크기 결정의 근본적 제약.

11.2 MRFIT 시험 (Multiple Risk Factor Intervention, 1973-1982)

MRFIT — 거대 시험의 표본 부족

심혈관 위험 인자 (콜레스테롤, 흡연, 혈압) 의 통합 개입 효과 시험.

설계: - 12866 명 남성 (35~57 세, 위험 인자 보유) - 무작위 배정 (special intervention vs usual care) - Primary outcome: 심혈관 사망률

표본 산정: - 가정 사망률 감소: 25 % - 그러나 실제 사망률이 예상보다 낮음 → 검출력 부족 - 결과: 사망률 차이 미유의 (RR 0.93, 95 % CI 0.79~1.10)

비판: - 효과 크기 가정 이 너무 큼 - 대조군의 자연적 행동 변화 (시대 효과) - 검정력 부족으로 진정한 효과 놓쳤을 가능성

이 사례가 Sample Size Samba 의 위험 정량화. 효과 가정이 부정확하면 거대 시험도 무용.

11.3 A/B 테스트의 거대 표본

대형 IT 회사의 A/B 테스트:

Google 검색 ranking: 1 % 효과 검출에 수억 명 표본
Meta News Feed: 0.1 % 효과 검출에 10 억 명
작은 회사: 5 % 효과 이상만 검출 가능

베이스라인 비율 + 효과 크기 + 트래픽이 상호 결정. 트래픽 한정이면 효과 크기 임계값 상향.

직관 — 표본 크기의 비대칭성

표본 크기가 효과 크기 제곱의 역수 에 비례 (\(n \propto 1/\delta^2\)). 따라서:

효과를 반으로 줄이려면 표본 4 배
효과를 1/4 로 줄이려면 표본 16 배

A/B 테스트에서 0.5 % lift 검출은 0.1 % lift 검출보다 25 배 적은 표본 충분. 따라서 비즈니스가 최소 의미 있는 효과 (MCID) 를 명확히 정의하는 것이 표본 효율성의 출발.

12 Outcome 유형별 표본 크기

12.1 연속 outcome (평균 차이)

가장 효율적. 같은 자료가 더 많은 정보 제공.

효과 (Cohen’s d)	n / 그룹 (α=0.05, power=0.80)
0.2 (small)	199
0.5 (medium)	32
0.8 (large)	13

12.2 이진 outcome (비율 차이)

베이스라인 의존. 작은 베이스라인은 더 큰 표본 필요.

Baseline	Effect (절대)	n / 그룹
0.50	-0.10 (RR=0.80)	388
0.10	-0.04 (RR=0.60)	962
0.05	-0.02 (RR=0.60)	2070
0.01	-0.004 (RR=0.60)	10800

12.3 시간-사건 outcome (생존)

Hazard Ratio 와 추적 기간 두 차원. Schoenfeld 공식.

HR	사건 수 (총)
0.60	86
0.70	153
0.80	379
0.90	1500

사건 수 가 표본 크기를 결정. 추적 기간 + 베이스라인 사건율로 전체 모집 환산.

12.4 순서형 outcome

비례 odds 모형의 표본 크기 — Whitehead 공식. 일반적으로 이진 outcome 과 비슷.

13 Bayesian Sample Size Determination

정의: Bayesian Sample Size (Adcock 1997)

빈도주의의 power 대신 사후 확률 기준 으로 표본 크기 결정.

기준 예시: - Posterior probability of effect > 0 ≥ 0.95 - Average length of credible interval ≤ MCID - Highest posterior density (HPD) 너비 기준

13.1 빈도주의 vs 베이즈 비교

측면	빈도주의	베이즈
입력	α, power, 효과	사전 분포, 정확도 기준
출력	최소 n	최소 n
유연성	적응 어려움	Adaptive 자연스러움
사전 분포	없음	명시 필요

베이즈 도구: PyMC, Stan, brms 패키지가 표본 크기 시뮬레이션 지원.

13.2 사례 — 베이즈 A/B 테스트

# Beta-binomial 베이즈 모형의 표본 크기
import numpy as np

def bayesian_sample_size(p_c, p_t, threshold=0.95, max_n=20000):
    """P(B > A) >= threshold 를 위한 표본 크기"""
    for n in range(1000, max_n, 1000):
        # Monte Carlo 시뮬레이션
        prob_better = []
        for _ in range(100):
            a_post = np.random.beta(1 + n*p_c, 1 + n*(1-p_c), 10000)
            b_post = np.random.beta(1 + n*p_t, 1 + n*(1-p_t), 10000)
            prob_better.append(np.mean(b_post > a_post))
        if np.mean(prob_better) >= threshold:
            return n
    return max_n

n_bayes = bayesian_sample_size(0.05, 0.06)
print(f"Bayesian n: {n_bayes}")

베이즈 절차의 장점: 결과가 자연어 해석 가능 — “B 가 A 보다 좋을 확률 95 % 이상”.

14 Adaptive Sample Size

A-SCH11-2 에서 자세히 다룬다. 핵심: interim 단계에서 모수 재추정 + 표본 재산정.

15 표본 크기 산정의 흔한 실수

15.1 실수 1 — Pilot study 효과를 main 효과로

Pilot study (n=20) 의 효과 추정값을 main study 의 가정 으로 사용. 그러나 pilot 의 추정은 극단적 변동성 을 가짐.

해법: - Pilot 효과의 50 % 또는 95 % CI 하한 으로 보수적 산정 - 별도 literature review 의 효과 사용

15.2 실수 2 — Drop-out 무시

100 명 모집했는데 80 명만 완료 → 실제 검정력 부족.

해법: 모집 표본 = 분석 표본 / (1 - 예상 drop-out). 예: 분석 800 필요, drop-out 20 % → 모집 1000.

15.3 실수 3 — 다중성 무시

5 개 메트릭 검정 시 단일 검정 표본만 산정 → 보정 후 검정력 부족.

해법: 다중성 보정 후 효과적 α 사용.

15.4 실수 4 — Cluster 무시

학교 단위 시험에서 학생 수만 산정. ICC 무시.

해법: DEFF 곱셈 (A-WOO8-5).

직관 — 표본 크기 산정 체크리스트

□ Primary outcome 1 개 명확히
□ MCID (임상 의미 차이) 결정
□ α, power 결정 (관습 + 분야)
□ 분산 또는 비율 추정 (출처 명시)
□ Drop-out 추정 → 모집 표본 = 분석 / (1 - drop_out)
□ 다중성 보정 (필요 시)
□ Cluster 보정 (필요 시)
□ Sensitivity analysis 수행
□ 결과를 사전 등록

이 9 가지가 정직한 표본 크기 산정의 표준.

16 후속 — Sample Size Samba 와 Power 부족

다음 글들:

A-SCH11-1 — 4 요소 자세히 + 0.05/0.80 관습 비판
A-SCH11-2 — Sample Size Samba + 한 측 비판 + Chalmers 논쟁

17 관련 주제

선행 지식

후속 주제 (Phase A)

A-SCH11-1, 2 (자세히)
A-WOO8-* (역학 표본 크기)

다른 카테고리 연결