1 도입 — 역학과 임상 표본 크기의 차이
Schulz Ch.11 (A-SCH11-* 시리즈) 가 임상 RCT 의 표본 크기를 다뤘다면, Woodward Ch.8 은 역학 연구 의 표본 크기를 일반화한다. 자료 구조 (cohort, case-control, cross-sectional) 와 측정 유형 (평균, 비율, 위험비) 별로 다른 공식이 필요하다.
이 글은 Ch.8 의 9 sub-section 흐름을 6 편으로 분할한 overview 이다.
2 Power Calculation 의 핵심 원리
가설검정의 표본 크기를 결정하는 방법. 4 요소 입력:
- \(\alpha\) (Type I error)
- Power (\(1 - \beta\))
- Effect size (검출하고 싶은 차이)
- 분산 또는 비율 (자료의 변동성)
이 입력으로 최소 필요 표본 \(n\) 계산.
2.1 일반 공식 — 정규 근사
대부분의 역학 표본 크기 공식의 공통 골격:
\[ n = \frac{(z_{1 - \alpha/2} + z_{1 - \beta})^2 \cdot \text{Var}}{\text{Effect}^2} \]
여기서:
- \(z_{1 - \alpha/2}\), \(z_{1 - \beta}\): 정규 분위수
- Var: 통계량의 분산 추정
- Effect: 효과 크기 (절대 차이)
이 식이 모든 4 표준 사례 의 변형으로 일반화.
3 Ch.8 의 9 sub-section 흐름
8.1 Introduction (표본 크기의 중요성)
↓
8.2 Power (검정력의 정의와 계산)
↓
8.3 Testing a mean (단일 평균)
8.4 Difference between means (평균 차이)
↓
8.5 Proportion (단일 비율)
8.6 Relative risk (비율 차이, RR)
↓
8.7 Case-control studies (matched 포함)
↓
8.8 Complex sampling (cluster, stratified)
8.9 Concluding (실무 권장)
4 6 편 분할
| 편 | 주제 | sub-sections |
|---|---|---|
| A-WOO8-0 (이 글) | overview | 전체 |
| A-WOO8-1 | Intro + Power | 8.1, 8.2 |
| A-WOO8-2 | 평균·평균 차이 | 8.3, 8.4 |
| A-WOO8-3 | 비율·상대위험 | 8.5, 8.6 |
| A-WOO8-4 | Case-control | 8.7 |
| A-WOO8-5 | 복잡 표집 + 결론 | 8.8, 8.9 |
5 핵심 개념 — Power
귀무가설이 거짓일 때 기각할 확률.
\[ \text{Power} = \Pr(\text{기각} \mid H_1 \text{ 참}) \]
또는 동등하게:
\[ \text{Power} = 1 - \beta \]
여기서 \(\beta\) 는 Type II error (거짓 음성).
5.1 Woodward Ex 8.1 — 콜레스테롤 사례
Woodward 의 첫 사례:
“한 발전도상국 남성의 평균 혈청 총 콜레스테롤이 10 년 전 5.5 mmol/L. 최근 서구 식품 수입 증가로 상승했을 가능성. 50 명 표본 조사 계획. 의학적으로 의미 있는 상승은 6.0 mmol/L (즉 0.5 증가). 표준편차 1.4 가정. 6.0 으로 상승 시 검출 확률 은?”
5.2 계산
\(\mu_0 = 5.5\), \(\mu_1 = 6.0\), \(\sigma = 1.4\), \(n = 50\), \(\alpha = 0.05\) (한 측).
Power 식:
\[ \text{Power} = \Pr\left(Z < \frac{\mu_1 - \mu_0}{\sigma / \sqrt{n}} - z_{1 - \alpha}\right) \]
대입:
\[ = \Pr\left(Z < \frac{0.5}{1.4 / \sqrt{50}} - 1.6449\right) = \Pr(Z < 0.8805) \approx 0.81 \]
따라서 약 81 % 검정력.
\(H_0\) 분포와 \(H_1\) 분포가 정규 곡선이라고 하자.
- \(H_0\) 분포: 평균 0, 표준 편차 1 (검정 통계량 \(T\) 의 분포)
- \(H_1\) 분포: 평균 \((\mu_1 - \mu_0) / (\sigma / \sqrt{n})\), 표준 편차 1
- 임계값: \(z_{1 - \alpha} = 1.6449\) (한 측 5 %)
Power = \(H_1\) 분포에서 임계값 이상의 면적.
- \(n\) 클수록 → \(H_1\) 평균 멀어짐 → power 큼
- \(\sigma\) 클수록 → \(H_1\) 평균 가까움 → power 작음
- \(\mu_1 - \mu_0\) 클수록 → power 큼 (자명)
- \(\alpha\) 작을수록 → 임계값 멀어짐 → power 작음
이 4 가지 관계가 power calculation 의 직관적 토대.
6 표본 크기 산정 — 일반 절차
1. 연구 설계 결정 (cohort, case-control 등)
2. Outcome 결정 (평균, 비율, RR 등)
3. 4 요소 가정:
- α (관습 0.05)
- Power (관습 0.80 또는 0.90)
- Effect size (임상 의미)
- 분산 또는 비율 (이전 자료에서)
4. 적절한 공식 적용
5. n 계산
6. Sensitivity analysis (가정 변화에 따른 n)
7. 최종 n 결정 (실현 가능성 확인)
7 4 가지 표준 사례
7.1 사례 1 — 단일 평균
\(H_0: \mu = \mu_0\) vs \(H_1: \mu = \mu_1\)
\[ n = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 \sigma^2}{(\mu_1 - \mu_0)^2} \]
(A-WOO8-2 에서 자세히)
7.2 사례 2 — 평균 차이
\(H_0: \mu_1 - \mu_2 = 0\) vs \(H_1: \mu_1 - \mu_2 = \delta\)
\[ n_{\text{per group}} = \frac{2 (z_{1-\alpha/2} + z_{1-\beta})^2 \sigma^2}{\delta^2} \]
(A-WOO8-2)
7.3 사례 3 — 단일 비율
\(H_0: p = p_0\) vs \(H_1: p = p_1\)
\[ n = \frac{(z_{1-\alpha/2} \sqrt{p_0 (1-p_0)} + z_{1-\beta} \sqrt{p_1 (1-p_1)})^2}{(p_1 - p_0)^2} \]
(A-WOO8-3)
7.4 사례 4 — 비율 차이 / 상대 위험
\(H_0: p_1 = p_2\) vs \(H_1: p_1 \neq p_2\)
\[ n_{\text{per group}} = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2} \]
(A-WOO8-3)
8 사례 추가 — Case-control
Cohort 와 다른 점: 결과 (case 또는 control) 가 사전에 정해지고, exposure 가 측정됨.
\[ n_{\text{per group}} = \frac{(z_{1-\alpha/2} \sqrt{2 \bar{p}(1-\bar{p})} + z_{1-\beta} \sqrt{p_0(1-p_0) + p_1(1-p_1)})^2}{(p_1 - p_0)^2} \]
여기서 \(p_0, p_1\) 은 control/case 그룹의 exposure 비율.
(A-WOO8-4 에서 자세히)
9 복잡 표집 — Cluster, Stratified
9.1 Cluster Randomization
개인 단위가 아닌 그룹 단위 (학교, 병원) 로 처치 배정. 표본 크기 보정 필요:
\[ n_{\text{cluster}} = n_{\text{individual}} \cdot \text{DEFF} \]
여기서 DEFF (Design Effect) = \(1 + (m - 1) \cdot \text{ICC}\), \(m\) 은 클러스터 평균 크기, ICC 는 클러스터 내 상관.
9.2 Stratified
층화 표집은 층 내 분산 사용. 일반적으로 층화하지 않은 자료보다 검정력 높음.
(A-WOO8-5 에서 자세히)
10 사후 검정력 분석 — 무용성
A-SCH11-2 에서 다뤘듯이, Woodward 도 사전 검정력 분석을 강조하고 사후 사용을 비판한다. 사후 분석은 p 값과 직접 함수 관계라 새 정보 없음.
대안: 효과 크기 + CI 보고 + 다른 표본 크기 가정에 대한 sensitivity.
11 A/B 테스트의 매핑
| 역학 시나리오 | A/B 테스트 매핑 |
|---|---|
| 단일 평균 검정 | A/A 테스트 (한 그룹의 평균 측정) |
| 평균 차이 | A/B 테스트 (연속 메트릭) |
| 단일 비율 | A/A 테스트 (한 그룹의 비율) |
| 비율 차이 | A/B 테스트 (이진 메트릭, 클릭률) |
| Case-control | 보존 사용자 vs 이탈 사용자 retrospective |
| Cluster | 학교/지역/지점 단위 실험 |
A/B 테스트의 표본 크기 계산기 대부분이 비율 차이 공식 (사례 4) 을 사용. 매출 같은 연속 메트릭은 평균 차이 (사례 2).
12 코드 예시 — 4 사례 비교
import numpy as np
from scipy.stats import norm
def n_single_mean(mu0, mu1, sigma, alpha=0.05, power=0.80):
z_a = norm.ppf(1 - alpha/2)
z_b = norm.ppf(power)
return ((z_a + z_b) * sigma / abs(mu1 - mu0))**2
def n_two_means(delta, sigma, alpha=0.05, power=0.80):
z_a = norm.ppf(1 - alpha/2)
z_b = norm.ppf(power)
return 2 * ((z_a + z_b) * sigma / abs(delta))**2
def n_single_proportion(p0, p1, alpha=0.05, power=0.80):
z_a = norm.ppf(1 - alpha/2)
z_b = norm.ppf(power)
num = (z_a * np.sqrt(p0*(1-p0)) + z_b * np.sqrt(p1*(1-p1)))**2
return num / (p1 - p0)**2
def n_two_proportions(p1, p2, alpha=0.05, power=0.80):
z_a = norm.ppf(1 - alpha/2)
z_b = norm.ppf(power)
num = (z_a + z_b)**2 * (p1*(1-p1) + p2*(1-p2))
return num / (p1 - p2)**2
# 사례
print("4 사례별 표본 크기 (α = 0.05, power = 0.80):\n")
print(f"단일 평균 (μ0=5.5, μ1=6.0, σ=1.4): n = {n_single_mean(5.5, 6.0, 1.4):.0f}")
print(f"평균 차이 (δ=0.5, σ=1.4): n_per = {n_two_means(0.5, 1.4):.0f}")
print(f"단일 비율 (p0=0.10, p1=0.15): n = {n_single_proportion(0.10, 0.15):.0f}")
print(f"비율 차이 (p1=0.10, p2=0.15): n_per = {n_two_proportions(0.10, 0.15):.0f}")13 표본 크기 - 분야 간 차이
13.1 임상 RCT vs 역학 cohort
| 측면 | 임상 RCT | 역학 cohort |
|---|---|---|
| 무작위 배정 | OK | X (관찰적) |
| 표본 크기 산정 | 사전 명확 | 사전 추정 어려움 |
| Outcome 발생률 | 일반적으로 알려진 (이전 시험) | 추적 자료 의존 |
| Drop-out | 일반적으로 적음 (10~20 %) | 큼 (긴 추적) |
| 표본 규모 | 100 ~ 10000 | 1000 ~ 100000 |
13.2 Case-control 의 효율성
희귀 outcome 의 case-control 이 cohort 보다 훨씬 효율적.
A-WOO8-4 사례:
- Cohort (흡연-폐암): n = 800/그룹 (긴 추적 필요)
- Case-control (흡연-폐암): n = 39/그룹
Case-control 이 20 배 효율. 단점은 인과 추론의 한계.
13.3 A/B 테스트 vs 임상시험
| 측면 | A/B 테스트 | 임상시험 |
|---|---|---|
| 무작위 배정 | 자동 (해시) | 수동 (등록) |
| 표본 크기 | 10^4 ~ 10^9 | 10^2 ~ 10^4 |
| 기간 | 일~주 | 월~년 |
| 비용 | 낮음 | 매우 높음 |
| 다양한 메트릭 | 자유 | 제한적 |
| 무작위 단위 | 사용자 ID | 환자 |
A/B 테스트의 큰 표본 + 짧은 기간 이 작은 효과 검출 가능.
14 Power Curve 와 Sensitivity
Power 가 효과 크기의 함수. 그림으로 그리면:
Power
1.0 ┤ __________________
│ /
│ /
0.8 ┤- - - / - - - - - - - - - - -
│ /
│ /
0.5 ┤ /
│ /
0.0 ┤_/
└─────────────────────────────→
0 δ_min δ
곡선이 S 형. 효과 크기 작으면 power 작음, 크면 1 에 수렴.
이 곡선이 MCID 와 결정 의 도구. 그래프에서 power = 0.80 라인이 δ 임계값 결정.
A/B 테스트에서 trafic 한정 시: “이 표본으로 검출 가능한 최소 효과” 답을 곡선이 시각화.
15 비용 효율 분석
표본 크기 결정의 비용 측면:
\[ \text{Total Cost} = c_{\text{recruit}} \cdot n + c_{\text{measurement}} \cdot n + c_{\text{follow-up}} \cdot n \cdot t \]
여기서: - \(c_{\text{recruit}}\): 환자 모집 단가 - \(c_{\text{measurement}}\): 측정 단가 - \(c_{\text{follow-up}}\): 추적 단가 (시간당) - \(t\): 추적 기간
15.1 최적화
같은 power 를 최소 비용 으로 달성:
- 작은 효과 검출: 큰 표본 + 짧은 추적 vs 작은 표본 + 긴 추적
- A/B 테스트: 큰 트래픽 + 짧은 기간 vs 작은 트래픽 + 긴 기간
이 trade-off 분석이 실무 결정 도구.
15.2 A/B 테스트 비용 사례
시나리오: 매출 lift 1 % 검출
옵션 A: 1 일 동안 100 % 트래픽 노출
- 표본: 100,000 / 그룹
- Power: 0.80
- 비용: 잠재 매출 손실 1 일
옵션 B: 4 일 동안 25 % 트래픽 노출
- 표본: 100,000 / 그룹 (동등)
- Power: 0.80 (동등)
- 비용: 잠재 매출 손실 4 일 × 25 % = 1 일 (동등)
옵션 C: 7 일 동안 14 % 트래픽 + 다른 실험과 동시
- 비용 효율 최고 (병렬 실험)
이 비용 분석이 실험 플랫폼 설계 의 핵심.
16 후속 — Sub-sections 자세히
다음 5 글이 각 sub-section 을 자세히 다룬다.
- A-WOO8-1 — Intro + Power 정의 + Woodward Ex 8.1
- A-WOO8-2 — 평균과 평균 차이의 표본 크기
- A-WOO8-3 — 비율과 상대위험의 표본 크기
- A-WOO8-4 — Case-control 시험의 표본 크기
- A-WOO8-5 — 복잡 표집 설계와 결론
17 관련 주제
선행 지식
후속 주제 (Phase A)
- A-WOO8-1, 2, 3, 4, 5 (자세히)
- A-BUI7-* (부트스트랩)
다른 카테고리 연결