Kwangmin Kim - 역학 표본 크기 결정

1 도입 — 역학과 임상 표본 크기의 차이

Schulz Ch.11 (A-SCH11-* 시리즈) 가 임상 RCT 의 표본 크기를 다뤘다면, Woodward Ch.8 은 역학 연구 의 표본 크기를 일반화한다. 자료 구조 (cohort, case-control, cross-sectional) 와 측정 유형 (평균, 비율, 위험비) 별로 다른 공식이 필요하다.

이 글은 Ch.8 의 9 sub-section 흐름을 6 편으로 분할한 overview 이다.

2 Power Calculation 의 핵심 원리

정의: Power Calculation

가설검정의 표본 크기를 결정하는 방법. 4 요소 입력:

\(\alpha\) (Type I error)
Power (\(1 - \beta\))
Effect size (검출하고 싶은 차이)
분산 또는 비율 (자료의 변동성)

이 입력으로 최소 필요 표본 \(n\) 계산.

2.1 일반 공식 — 정규 근사

대부분의 역학 표본 크기 공식의 공통 골격:

\[ n = \frac{(z_{1 - \alpha/2} + z_{1 - \beta})^2 \cdot \text{Var}}{\text{Effect}^2} \]

여기서:

\(z_{1 - \alpha/2}\), \(z_{1 - \beta}\): 정규 분위수
Var: 통계량의 분산 추정
Effect: 효과 크기 (절대 차이)

이 식이 모든 4 표준 사례 의 변형으로 일반화.

3 Ch.8 의 9 sub-section 흐름

8.1  Introduction (표본 크기의 중요성)
       ↓
8.2  Power (검정력의 정의와 계산)
       ↓
8.3  Testing a mean (단일 평균)
8.4  Difference between means (평균 차이)
       ↓
8.5  Proportion (단일 비율)
8.6  Relative risk (비율 차이, RR)
       ↓
8.7  Case-control studies (matched 포함)
       ↓
8.8  Complex sampling (cluster, stratified)
8.9  Concluding (실무 권장)

4 6 편 분할

편	주제	sub-sections
A-WOO8-0 (이 글)	overview	전체
A-WOO8-1	Intro + Power	8.1, 8.2
A-WOO8-2	평균·평균 차이	8.3, 8.4
A-WOO8-3	비율·상대위험	8.5, 8.6
A-WOO8-4	Case-control	8.7
A-WOO8-5	복잡 표집 + 결론	8.8, 8.9

5 핵심 개념 — Power

정의: Power

귀무가설이 거짓일 때 기각할 확률.

\[ \text{Power} = \Pr(\text{기각} \mid H_1 \text{ 참}) \]

또는 동등하게:

\[ \text{Power} = 1 - \beta \]

여기서 \(\beta\) 는 Type II error (거짓 음성).

5.1 Woodward Ex 8.1 — 콜레스테롤 사례

Woodward 의 첫 사례:

“한 발전도상국 남성의 평균 혈청 총 콜레스테롤이 10 년 전 5.5 mmol/L. 최근 서구 식품 수입 증가로 상승했을 가능성. 50 명 표본 조사 계획. 의학적으로 의미 있는 상승은 6.0 mmol/L (즉 0.5 증가). 표준편차 1.4 가정. 6.0 으로 상승 시 검출 확률 은?”

5.2 계산

\(\mu_0 = 5.5\), \(\mu_1 = 6.0\), \(\sigma = 1.4\), \(n = 50\), \(\alpha = 0.05\) (한 측).

Power 식:

\[ \text{Power} = \Pr\left(Z < \frac{\mu_1 - \mu_0}{\sigma / \sqrt{n}} - z_{1 - \alpha}\right) \]

대입:

\[ = \Pr\left(Z < \frac{0.5}{1.4 / \sqrt{50}} - 1.6449\right) = \Pr(Z < 0.8805) \approx 0.81 \]

따라서 약 81 % 검정력.

직관 — Power 의 시각적 의미

\(H_0\) 분포와 \(H_1\) 분포가 정규 곡선이라고 하자.

\(H_0\) 분포: 평균 0, 표준 편차 1 (검정 통계량 \(T\) 의 분포)
\(H_1\) 분포: 평균 \((\mu_1 - \mu_0) / (\sigma / \sqrt{n})\), 표준 편차 1
임계값: \(z_{1 - \alpha} = 1.6449\) (한 측 5 %)

Power = \(H_1\) 분포에서 임계값 이상의 면적.

\(n\) 클수록 → \(H_1\) 평균 멀어짐 → power 큼
\(\sigma\) 클수록 → \(H_1\) 평균 가까움 → power 작음
\(\mu_1 - \mu_0\) 클수록 → power 큼 (자명)
\(\alpha\) 작을수록 → 임계값 멀어짐 → power 작음

이 4 가지 관계가 power calculation 의 직관적 토대.

6 표본 크기 산정 — 일반 절차

1. 연구 설계 결정 (cohort, case-control 등)
2. Outcome 결정 (평균, 비율, RR 등)
3. 4 요소 가정:
   - α (관습 0.05)
   - Power (관습 0.80 또는 0.90)
   - Effect size (임상 의미)
   - 분산 또는 비율 (이전 자료에서)
4. 적절한 공식 적용
5. n 계산
6. Sensitivity analysis (가정 변화에 따른 n)
7. 최종 n 결정 (실현 가능성 확인)

7 4 가지 표준 사례

7.1 사례 1 — 단일 평균

\(H_0: \mu = \mu_0\) vs \(H_1: \mu = \mu_1\)

\[ n = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 \sigma^2}{(\mu_1 - \mu_0)^2} \]

(A-WOO8-2 에서 자세히)

7.2 사례 2 — 평균 차이

\(H_0: \mu_1 - \mu_2 = 0\) vs \(H_1: \mu_1 - \mu_2 = \delta\)

\[ n_{\text{per group}} = \frac{2 (z_{1-\alpha/2} + z_{1-\beta})^2 \sigma^2}{\delta^2} \]

(A-WOO8-2)

7.3 사례 3 — 단일 비율

\(H_0: p = p_0\) vs \(H_1: p = p_1\)

\[ n = \frac{(z_{1-\alpha/2} \sqrt{p_0 (1-p_0)} + z_{1-\beta} \sqrt{p_1 (1-p_1)})^2}{(p_1 - p_0)^2} \]

(A-WOO8-3)

7.4 사례 4 — 비율 차이 / 상대 위험

\(H_0: p_1 = p_2\) vs \(H_1: p_1 \neq p_2\)

\[ n_{\text{per group}} = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2} \]

(A-WOO8-3)

8 사례 추가 — Case-control

Case-control 의 표본 크기

Cohort 와 다른 점: 결과 (case 또는 control) 가 사전에 정해지고, exposure 가 측정됨.

\[ n_{\text{per group}} = \frac{(z_{1-\alpha/2} \sqrt{2 \bar{p}(1-\bar{p})} + z_{1-\beta} \sqrt{p_0(1-p_0) + p_1(1-p_1)})^2}{(p_1 - p_0)^2} \]

여기서 \(p_0, p_1\) 은 control/case 그룹의 exposure 비율.

(A-WOO8-4 에서 자세히)

9 복잡 표집 — Cluster, Stratified

9.1 Cluster Randomization

개인 단위가 아닌 그룹 단위 (학교, 병원) 로 처치 배정. 표본 크기 보정 필요:

\[ n_{\text{cluster}} = n_{\text{individual}} \cdot \text{DEFF} \]

여기서 DEFF (Design Effect) = \(1 + (m - 1) \cdot \text{ICC}\), \(m\) 은 클러스터 평균 크기, ICC 는 클러스터 내 상관.

9.2 Stratified

층화 표집은 층 내 분산 사용. 일반적으로 층화하지 않은 자료보다 검정력 높음.

(A-WOO8-5 에서 자세히)

10 사후 검정력 분석 — 무용성

A-SCH11-2 에서 다뤘듯이, Woodward 도 사전 검정력 분석을 강조하고 사후 사용을 비판한다. 사후 분석은 p 값과 직접 함수 관계라 새 정보 없음.

대안: 효과 크기 + CI 보고 + 다른 표본 크기 가정에 대한 sensitivity.

11 A/B 테스트의 매핑

역학 시나리오	A/B 테스트 매핑
단일 평균 검정	A/A 테스트 (한 그룹의 평균 측정)
평균 차이	A/B 테스트 (연속 메트릭)
단일 비율	A/A 테스트 (한 그룹의 비율)
비율 차이	A/B 테스트 (이진 메트릭, 클릭률)
Case-control	보존 사용자 vs 이탈 사용자 retrospective
Cluster	학교/지역/지점 단위 실험

A/B 테스트의 표본 크기 계산기 대부분이 비율 차이 공식 (사례 4) 을 사용. 매출 같은 연속 메트릭은 평균 차이 (사례 2).

12 코드 예시 — 4 사례 비교

import numpy as np
from scipy.stats import norm

def n_single_mean(mu0, mu1, sigma, alpha=0.05, power=0.80):
    z_a = norm.ppf(1 - alpha/2)
    z_b = norm.ppf(power)
    return ((z_a + z_b) * sigma / abs(mu1 - mu0))**2

def n_two_means(delta, sigma, alpha=0.05, power=0.80):
    z_a = norm.ppf(1 - alpha/2)
    z_b = norm.ppf(power)
    return 2 * ((z_a + z_b) * sigma / abs(delta))**2

def n_single_proportion(p0, p1, alpha=0.05, power=0.80):
    z_a = norm.ppf(1 - alpha/2)
    z_b = norm.ppf(power)
    num = (z_a * np.sqrt(p0*(1-p0)) + z_b * np.sqrt(p1*(1-p1)))**2
    return num / (p1 - p0)**2

def n_two_proportions(p1, p2, alpha=0.05, power=0.80):
    z_a = norm.ppf(1 - alpha/2)
    z_b = norm.ppf(power)
    num = (z_a + z_b)**2 * (p1*(1-p1) + p2*(1-p2))
    return num / (p1 - p2)**2

# 사례
print("4 사례별 표본 크기 (α = 0.05, power = 0.80):\n")
print(f"단일 평균 (μ0=5.5, μ1=6.0, σ=1.4): n = {n_single_mean(5.5, 6.0, 1.4):.0f}")
print(f"평균 차이 (δ=0.5, σ=1.4): n_per = {n_two_means(0.5, 1.4):.0f}")
print(f"단일 비율 (p0=0.10, p1=0.15): n = {n_single_proportion(0.10, 0.15):.0f}")
print(f"비율 차이 (p1=0.10, p2=0.15): n_per = {n_two_proportions(0.10, 0.15):.0f}")

13 표본 크기 - 분야 간 차이

13.1 임상 RCT vs 역학 cohort

측면	임상 RCT	역학 cohort
무작위 배정	OK	X (관찰적)
표본 크기 산정	사전 명확	사전 추정 어려움
Outcome 발생률	일반적으로 알려진 (이전 시험)	추적 자료 의존
Drop-out	일반적으로 적음 (10~20 %)	큼 (긴 추적)
표본 규모	100 ~ 10000	1000 ~ 100000

13.2 Case-control 의 효율성

희귀 outcome 의 case-control 이 cohort 보다 훨씬 효율적.

A-WOO8-4 사례:

Cohort (흡연-폐암): n = 800/그룹 (긴 추적 필요)
Case-control (흡연-폐암): n = 39/그룹

Case-control 이 20 배 효율. 단점은 인과 추론의 한계.

13.3 A/B 테스트 vs 임상시험

측면	A/B 테스트	임상시험
무작위 배정	자동 (해시)	수동 (등록)
표본 크기	10^4 ~ 10^9	10^2 ~ 10^4
기간	일~주	월~년
비용	낮음	매우 높음
다양한 메트릭	자유	제한적
무작위 단위	사용자 ID	환자

A/B 테스트의 큰 표본 + 짧은 기간 이 작은 효과 검출 가능.

14 Power Curve 와 Sensitivity

직관 — Power Curve 의 시각적 의미

Power 가 효과 크기의 함수. 그림으로 그리면:

Power
1.0 ┤            __________________
    │         /
    │       /
0.8 ┤- - - / - - - - - - - - - - -
    │    /
    │   /
0.5 ┤  /
    │ /
0.0 ┤_/
    └─────────────────────────────→
       0    δ_min    δ

곡선이 S 형. 효과 크기 작으면 power 작음, 크면 1 에 수렴.

이 곡선이 MCID 와 결정 의 도구. 그래프에서 power = 0.80 라인이 δ 임계값 결정.

A/B 테스트에서 trafic 한정 시: “이 표본으로 검출 가능한 최소 효과” 답을 곡선이 시각화.

15 비용 효율 분석

정의: Cost-Efficiency Analysis

표본 크기 결정의 비용 측면:

\[ \text{Total Cost} = c_{\text{recruit}} \cdot n + c_{\text{measurement}} \cdot n + c_{\text{follow-up}} \cdot n \cdot t \]

여기서: - \(c_{\text{recruit}}\): 환자 모집 단가 - \(c_{\text{measurement}}\): 측정 단가 - \(c_{\text{follow-up}}\): 추적 단가 (시간당) - \(t\): 추적 기간

15.1 최적화

같은 power 를 최소 비용 으로 달성:

작은 효과 검출: 큰 표본 + 짧은 추적 vs 작은 표본 + 긴 추적
A/B 테스트: 큰 트래픽 + 짧은 기간 vs 작은 트래픽 + 긴 기간

이 trade-off 분석이 실무 결정 도구.

15.2 A/B 테스트 비용 사례

시나리오: 매출 lift 1 % 검출

옵션 A: 1 일 동안 100 % 트래픽 노출
  - 표본: 100,000 / 그룹
  - Power: 0.80
  - 비용: 잠재 매출 손실 1 일

옵션 B: 4 일 동안 25 % 트래픽 노출
  - 표본: 100,000 / 그룹 (동등)
  - Power: 0.80 (동등)
  - 비용: 잠재 매출 손실 4 일 × 25 % = 1 일 (동등)

옵션 C: 7 일 동안 14 % 트래픽 + 다른 실험과 동시
  - 비용 효율 최고 (병렬 실험)

이 비용 분석이 실험 플랫폼 설계 의 핵심.

16 후속 — Sub-sections 자세히

다음 5 글이 각 sub-section 을 자세히 다룬다.

A-WOO8-1 — Intro + Power 정의 + Woodward Ex 8.1
A-WOO8-2 — 평균과 평균 차이의 표본 크기
A-WOO8-3 — 비율과 상대위험의 표본 크기
A-WOO8-4 — Case-control 시험의 표본 크기
A-WOO8-5 — 복잡 표집 설계와 결론

17 관련 주제

선행 지식

후속 주제 (Phase A)

A-WOO8-1, 2, 3, 4, 5 (자세히)
A-BUI7-* (부트스트랩)

다른 카테고리 연결