1 도입 — 왜 같은 실험에 두 가지 해석이 가능한가
A/B 테스트 결과 보고서에 다음 두 표현이 모두 자주 등장한다.
- “\(p = 0.018\) 이므로 5 % 유의 수준에서 처치 효과가 있다.”
- “사전에 정한 \(\alpha = 0.05\) 와 검정력 \(1 - \beta = 0.80\) 기준으로 표본 크기를 산정했다.”
전자는 Fisher 의 표현, 후자는 Neyman-Pearson 의 표현이다. 두 표현이 한 보고서에 자연스레 섞이지만, 사실 이 둘은 철학적으로 서로 다른 추론 체계 이다 (Maxwell & Delaney, 2004, Ch.2). 1940 년대 이후 통계 교재는 두 전통을 흐릿하게 섞어 왔고 (Gigerenzer, 1993), 그 결과가 흔한 오해 — “\(p = 0.05\) 면 95 % 재현된다” 같은 — 이다. 이 글은 두 전통의 정확한 위치를 정리한다.
2 Fisher 의 유의성 검정
귀무가설 \(H_0\) 만 명시하고, 관측된 자료가 \(H_0\) 하에서 얼마나 극단적인지 를 p 값으로 보고하여 자료의 증거력을 요약하는 절차이다 (Fisher, 1925; 1935/1971).
- 단일 가설 (\(H_0\) 만)
- 의사결정이 아니라 증거 보고
- 정확한 p 값을 그대로 보고하라는 권고
- 사전 \(\alpha\) 고정은 “관습” 일 뿐, 본질이 아님
Fisher 가 본 통계는 의사결정이 아니라 과학적 논증의 보조 도구 였다. 그가 본 p 값은 “관측된 자료가 \(H_0\) 하에서 얼마나 어울리지 않는가” 를 수량화한 것뿐이다. Fisher 는 정확한 p 값 보고를 강조했다.
“정확한 p 값을 보고하는 것은, 다른 자유로운 정신들이 그 값을 자기 결정에 활용할 권리를 인정하는 것이다” (Fisher, 1955, p. 77).
따라서 Fisher 입장에서 \(p = 0.049\) 와 \(p = 0.003\) 은 둘 다 “유의하다” 가 아니라 다른 강도의 증거 이다. “0.05 미만이면 모두 동일하게 유의하다” 라는 이분법은 Fisher 의 의도가 아니다.
\(p = 0.001\) 의 의미는 “\(H_0\) 가 참이라면 이렇게 극단적인 자료가 1000 번 중 1 번 나온다” 이다. 즉 자료가 매우 이상하다 — \(H_0\) 와 잘 어울리지 않는다. \(p = 0.049\) 의 의미는 “이런 자료가 20 번 중 1 번 나온다” 이다. 자료가 어느 정도 이상하다.
두 결과 모두 “\(\alpha = 0.05\) 기준 유의” 라는 이분법으로 압축하면, 이상함의 정도 정보가 사라진다. 실무에서는 후속 의사결정 (재실험 비용, 효과 크기 평가) 이 이 정보에 의존하므로 정확한 p 값을 보고하는 것이 더 풍부하다.
그러나 정확한 p 값에도 한계가 있다. p 값은 이상함 만 알려 주지 방향 이나 크기 를 직접 알려 주지 않는다. 따라서 효과 크기 (Cohen’s d, 신뢰 구간) 와 함께 보고해야 한다. 이는 Fisher 의 1955 년 권고와 현대 APA Task Force (1999) 의 권고가 일치하는 지점이다.
3 Neyman-Pearson 의 가설 검정
귀무가설 \(H_0\) 와 대립가설 \(H_1\) 을 모두 명시하고, 사전에 정한 \(\alpha\) 수준에서 두 가설 중 하나를 선택 하는 의사결정 절차이다 (Neyman & Pearson, 1933).
- 두 가설 (\(H_0\) 와 \(H_1\)) 동시 명시
- 두 종류의 오류 정의: 제1종 오류 (\(\alpha\)), 제2종 오류 (\(\beta\))
- 검정력 \(1 - \beta\) 를 사전에 설계 가능
- 결론은 “기각 / 기각하지 못함” 의 이분법
Neyman 과 Pearson 은 통계 추론을 반복적 의사결정 으로 보았다. 신약 승인 결정, 품질 관리에서 lot 의 합격·불합격 결정, A/B 테스트의 변형 채택 결정 — 이런 상황에서는 두 종류의 오류 비용이 다르다. 따라서 사전에 다음 4 요소를 명시해야 한다.
| 요소 | 정의 | A/B 테스트 의미 |
|---|---|---|
| \(\alpha\) | \(H_0\) 가 참일 때 기각할 확률 | 처치 효과 없는데 있다고 잘못 판단 |
| \(\beta\) | \(H_1\) 이 참일 때 기각하지 못할 확률 | 처치 효과 있는데 없다고 잘못 판단 |
| \(1 - \beta\) | 검정력 (power) | 진짜 효과를 잡아낼 확률 |
| 효과 크기 | 검출하고 싶은 최소 차이 (MDE) | 의사결정 단위 |
이 4 요소가 정해지면 표본 크기 \(n\) 이 자동으로 결정된다. 신약 임상시험에서 시험 진입 전 에 표본 크기를 산정하는 것이 필수인 이유가 여기에 있다 (Schulz & Grimes, 2019, Ch.11; 후속 글 A-SCH11-* 에서 다룬다).
화재 경보기를 떠올려 본다. 두 종류의 오류가 가능하다.
- 제1종 오류 (\(\alpha\)) — 화재가 없는데 경보가 울린다 (\(H_0\): 화재 없음, 잘못 기각). 비용: 짜증, 출동 비용.
- 제2종 오류 (\(\beta\)) — 화재가 있는데 경보가 안 울린다 (\(H_0\) 가 거짓인데 기각하지 못함). 비용: 인명·재산 피해.
화재 경보기의 경우 \(\beta\) 비용이 \(\alpha\) 비용보다 압도적으로 크다. 따라서 경보기는 과민하게 설계되어 \(\beta\) 를 낮추는 대신 \(\alpha\) 를 높게 둔다. 반대로 사형 판결 시스템에서는 \(\alpha\) (무죄인 사람을 사형) 비용이 압도적이라, 시스템은 보수적으로 설계되어 \(\alpha\) 를 매우 낮춘다.
신약 임상시험에서도 마찬가지다. 효과 없는 약을 승인 (\(\alpha\)) 하면 환자가 부작용을 감수하며 무용지물을 사용한다. 효과 있는 약을 기각 (\(\beta\)) 하면 환자가 도움을 못 받는다. 두 비용의 균형으로 \(\alpha = 0.05\), \(\beta = 0.20\) (검정력 0.80) 같은 값이 관습이 됐다. Fisher 의 단일 가설 시각으로는 이 균형을 정량적으로 다룰 수 없다 — NP 가 이 빈자리를 메운 셈이다.
4 두 전통의 비교 — 한 표로
| 차원 | Fisher | Neyman-Pearson |
|---|---|---|
| 목적 | 자료의 증거력 요약 | 두 가설 사이 의사결정 |
| 가설 명시 | \(H_0\) 만 | \(H_0\) 와 \(H_1\) |
| 핵심 통계량 | p 값 (정확한 값) | \(\alpha\) 와 검정력 |
| 오류 개념 | 명시적이지 않음 | 제1종·제2종 오류 |
| 결론 형식 | “정확한 p 를 보고” | “기각 / 기각하지 못함” |
| 표본 크기 | 사후 해석 강조 | 사전 산출 강조 |
| \(\alpha = 0.05\) | “관습일 뿐” | “사전에 고정해야 함” |
| 인식론 | 귀납적 추론 보조 | 반복적 의사결정 |
| 적용 영역 | 과학 논문·자료 보고 | 품질 관리·신약 승인 |
이 표가 보여 주는 점은, 두 전통이 서로 다른 질문에 답하기 위한 도구 라는 사실이다. 한 논문에서 두 표현을 섞어 쓰면 일관성이 깨진다. 그런데 1940 년대 이후 심리학·의학 교재는 둘을 융합해 가르쳤고, 그 결과가 다음에 다룰 “혼합” 이다.
5 현재 관행 — 두 전통의 혼합 (Amalgam)
Gigerenzer (1993) 의 분석에 따르면, 오늘날 표준 통계 절차는 다음과 같다.
- 사전에 \(\alpha = 0.05\) 와 표본 크기 \(n\) 을 정한다 (NP).
- 자료를 수집한다.
- 검정 통계량을 계산하고 정확한 p 값을 보고한다 (Fisher).
- p \(<\) 0.05 면 “유의하다 (significant)” 라 결론한다 (NP 의 이분법).
- 검정력 사후 분석은 대개 생략 한다 (NP 가 강조하는 핵심을 빠뜨림).
이 절차의 4 와 5 가 두 전통을 불일치하게 섞는다.
- Fisher 입장에서 4 의 이분법은 정보 손실이다. \(p = 0.049\) 와 \(p = 0.003\) 의 증거 강도 차이가 사라진다.
- Neyman-Pearson 입장에서 5 의 검정력 무시는 의사결정 체계의 핵심을 비운다. 검정력 없이 “기각하지 못함” 이라 결론하는 것은 무의미하다 (효과가 작아서인지, 표본이 작아서인지 구별 불가).
따라서 현대 권고는 다음과 같다 (Wilkinson & APA Task Force, 1999, p. 599).
- 정확한 p 값을 보고한다 (Fisher).
- 효과 크기와 신뢰 구간을 동반한다 (Fisher 정신 + 보완).
- 표본 크기는 사전 검정력 분석으로 산출한다 (NP).
상사가 묻는다. “이 A/B 테스트, 유의했나?” - 답 1: “\(p < 0.05\) 입니다.” → \(0.049\) 인지 \(0.001\) 인지 알 수 없다. 의사결정에 정보가 부족하다. - 답 2: “\(p = 0.001\), 신뢰 구간 [+1.2 %, +3.8 %], 효과 크기 Cohen’s \(d = 0.35\) 입니다.” → 의사결정에 필요한 정보가 모두 있다.
정확한 p 값을 보고하는 것은 다음 결정을 내릴 사람의 권리 를 존중하는 것이다. 그 사람이 자기 맥락에서 임계값을 다르게 정할 수 있고, 효과 크기로 비즈니스 임팩트를 평가할 수 있다. Fisher 의 1955 년 권고는 60 년 뒤 데이터 사이언스 보고서 작성에도 그대로 적용된다.
6 p 값에 대한 두 가지 흔한 오해
p 값은 통계학에서 가장 자주 보고되지만 가장 자주 잘못 해석되는 지표이다. Maxwell Ch.2 가 강조하는 두 오류를 정리한다.
6.1 Replication Fallacy — 재현 오류
오해: “\(p = 0.05\) 이면 동일 실험을 반복했을 때 95 % 재현된다.”
진실: 재현 확률은 검정력 (power) 이지 \(1 - p\) 가 아니다. 검정력은 대립가설이 참이고 효과 크기가 정해진 경우 의 검출 확률이다. 자료가 알려 주는 것은 \(H_0\) 하의 극단성 (\(p\)) 일 뿐, \(H_1\) 가정에 의존하는 검정력은 따로 계산해야 한다.
Greenwald, Gonzalez, Harris, & Guthrie (1996) 의 표는 이 오해의 크기를 보여 준다.
| 관측된 \(p\) | 사후 재현 검정력 (대략) |
|---|---|
| 0.05 | 0.50 |
| 0.01 | 0.75 |
| 0.005 | 0.80 |
| 0.001 | \(> 0.90\) |
즉 \(p = 0.05\) 결과는 동일 조건에서 다시 실험해도 절반만 유의 하다. 이 사실은 “한 번의 유의한 결과” 에 의존한 의사결정이 얼마나 위험한지 시사한다.
이 표의 직관은 다음과 같다. 한 번의 실험에서 \(p = 0.05\) 를 얻었다는 것은 아슬아슬하게 임계값을 넘었다는 뜻이다. 동전을 뒤집어 그어 본 줄을 그대로 다시 그으려 하면 절반은 약간 빗나간다. 동일한 자료 생성 과정에서 표본을 새로 모아 검정하면, 추정량이 \(p = 0.05\) 보다 약간 더 극단적일 수도, 약간 덜 극단적일 수도 있다. 덜 극단적인 경우가 절반이라면 재현 검정력은 0.50 이 된다. 따라서 한 번의 “겨우 유의한” 결과는 의사결정 근거로 약한 편이다. 이것이 재현 연구 가 과학에서 본질적인 이유 중 하나다.
6.2 Inverse Probability Fallacy — 역확률 오류
오해: “\(p = 0.01\) 은 귀무가설이 참일 확률이 1 % 라는 뜻이다.”
진실: p 값은 \(\Pr(D | H_0)\) 이지 \(\Pr(H_0 | D)\) 가 아니다. 두 확률은 베이즈 정리로 연결되지만 일반적으로 다르다.
\[ \Pr(H_0 | D) = \frac{\Pr(D | H_0) \cdot \Pr(H_0)}{\Pr(D)} \]
\(\Pr(H_0)\) (사전 확률) 와 \(\Pr(D)\) 가 명시되지 않으면 \(\Pr(H_0 | D)\) 는 계산되지 않는다. 그러나 Oakes (1986) 의 조사에서, 학술 심리학자 96 % 가 이 오류를 범했다. p 값이 사전·사후 확률을 헷갈리게 만드는 표기 (\(\Pr\) 만 보면 같아 보임) 가 원인 중 하나이다.
희귀병 검사를 생각하자. 모집단 유병률이 1 % 인 병에 대해, 검사가 다음 특성을 가진다.
- 병이 있을 때 양성: 99 % (\(\Pr(\text{양성} \mid \text{병}) = 0.99\), 민감도)
- 병이 없을 때 음성: 95 % (\(\Pr(\text{음성} \mid \text{병 없음}) = 0.95\), 특이도)
어떤 사람이 양성 결과를 받았다. 이 사람이 실제로 병에 걸렸을 확률은? 베이즈 정리로 계산하면,
\[ \Pr(\text{병} \mid \text{양성}) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} \approx 0.167 \]
즉 약 16.7 % 다. “검사 정확도 99 %” 라는 직관과 크게 다르다. 이 차이는 유병률 (사전 확률) 이 낮기 때문에 발생한다.
p 값에도 같은 구조가 있다. \(p = 0.01\) (\(\Pr(D \mid H_0)\)) 이라도, 애초에 \(H_0\) 가 참일 사전 확률이 높다면 사후 확률 \(\Pr(H_0 \mid D)\) 은 1 % 가 아니라 훨씬 클 수 있다. 두 확률을 동일시하는 것은 “검사가 양성이면 99 % 확률로 병에 걸렸다” 라고 말하는 의사와 같은 오류다.
이 사실이 베이즈 분석이 부각되는 이유 중 하나다 — 베이즈 분석은 사전 확률을 명시적으로 다뤄 사후 확률을 직접 계산한다.
6.3 비교 표
| 오해 | 잘못된 해석 | 정확한 의미 |
|---|---|---|
| Replication | “\(1 - p\) 가 재현 확률” | 재현 확률은 검정력이며 \(H_1\) 가정 필요 |
| Inverse | “p 가 \(H_0\) 가 참일 확률” | p 는 \(\Pr(D \mid H_0)\), \(\Pr(H_0 \mid D)\) 가 아님 |
7 가정 — 두 전통은 어떤 가정에 의존하는가
두 전통 모두 다음 가정 위에서 작동한다.
| 가정 | Fisher | Neyman-Pearson | 위반 시 영향 |
|---|---|---|---|
| 무작위 배정 | 핵심 (검정 분포 정당화) | 핵심 | 인과 해석 불가 |
| 표본 독립성 | 필수 | 필수 | 분산 추정이 편향 |
| \(H_1\) 명시 | 불필요 | 필수 | 검정력 계산 불가 |
| 사전 \(\alpha\) | 권장 | 필수 | 다중 비교 문제 증폭 |
| 사전 \(n\) | 권장 | 필수 | 검정력 부족 또는 자원 낭비 |
A/B 테스트 실무에서 가장 자주 깨지는 가정은 사전 \(n\) 산정 과 사전 \(\alpha\) 고정 이다. 흔한 위반 사례:
- 데이터 들여다보며 멈추기 (peeking) — 매일 결과를 확인하다가 “유의해진 시점에 멈춘다.” 이는 다중 비교 문제를 만들어 실제 \(\alpha\) 를 0.05 보다 훨씬 키운다 (Sequential testing 으로 보정해야 한다).
- 유의하지 않으면 표본 늘리기 — “\(n\) 을 더 모아서 유의해질 때까지 본다.” 이는 사실상 \(\alpha\) 를 인플레이션시킨다.
이 두 위반은 Fisher 와 NP 모두에 위배된다. NP 입장에서는 사전 설계의 핵심이 깨지고, Fisher 입장에서는 정확한 p 값의 의미가 사라진다.
A/B 테스트를 30 일간 실행하기로 정했다고 하자. 매일 결과를 확인하면, 30 번의 독립적 검정이 누적된다 (실제로는 시점 간 상관이 있어 정확히 독립은 아니지만 직관용으로). 각 검정의 \(\alpha = 0.05\) 라면 30 일 동안 적어도 한 번 유의할 확률은
\[ 1 - (1 - 0.05)^{30} \approx 1 - 0.214 = 0.786 \]
즉 약 78 % 다. 효과가 전혀 없는데도 30 일 중 어느 하루에 유의한 결과를 볼 확률이 거의 80 % 라는 뜻이다. “유의해진 시점에 멈춤” 은 이 78 % 를 적극적으로 활용해 거짓 양성을 잡아내는 절차가 된다.
이 문제의 해법이 sequential testing (Pocock, O’Brien-Fleming, alpha spending 등) 이다. 사전에 몇 번 들여다볼지 와 각 시점의 임계값 을 정해 누적 \(\alpha\) 를 0.05 로 묶는다. 자세한 내용은 후속 시리즈에서 다룬다.
A/B 테스트의 또 다른 흔한 함정은 결과를 확인한 뒤 표본을 늘리기 다. 이는 형식적으로 한 번의 검정 같지만, 실제로는 “들여다본 후 멈출지 계속할지 결정” 이라는 적응적 절차이므로 동일한 인플레이션을 일으킨다.
8 ASA 2016 6 원칙 — 미국통계학회의 공식 입장
2016 년 미국통계학회 (American Statistical Association) 는 p 값에 대한 공식 성명을 발표했다 (Wasserstein & Lazar, 2016). 6 가지 원칙은 다음과 같다.
- p 값은 자료가 특정 통계 모형 (귀무가설 포함) 과 얼마나 양립 불가능한지를 나타낸다. 즉 “모형이 자료에 얼마나 어울리지 않는가” 의 측도이다.
- p 값은 “연구 가설이 참일 확률” 또는 “관측이 단순 우연일 확률” 을 측정하지 않는다. Inverse probability fallacy 의 명시적 거부.
- 과학적 결론과 비즈니스·정책 결정은 p 값의 임계값 (예: 0.05) 에만 기반해서는 안 된다. \(p < 0.05\) 의 이분법적 사용을 비판한다.
- 적절한 추론은 완전한 보고와 투명성을 요구한다. “p-hacking”, “selective reporting” 의 방지.
- p 값 또는 통계적 유의성은 효과 크기나 결과의 중요성을 측정하지 않는다. 효과 크기 보고의 필수성.
- p 값은 그 자체로 모형이나 가설에 대한 증거의 좋은 측도가 아니다. 신뢰 구간, 베이즈 인자, 사전 확률 등 보완적 도구의 필요성.
이 6 원칙은 Fisher 와 NP 양쪽 전통의 오용 을 함께 비판한다. Fisher 의 “정확한 p 값 보고” 는 4·5 원칙으로, NP 의 “사전 \(\alpha\) 고정” 은 3 원칙으로 이어진다. 동시에 양쪽 모두에서 부족한 효과 크기 와 불확실성 정량화 의 중요성을 강조한다.
9 Cohen 1994 — “The Earth is round (p < .05)”
Jacob Cohen 의 1994 년 논문 The Earth is round (p < .05) 는 NHST (Null Hypothesis Significance Testing) 에 대한 가장 영향력 있는 비판 중 하나다. 핵심 주장:
- null nil hypothesis 의 무의미성 — “효과가 정확히 0 이다” 라는 귀무가설은 거의 항상 거짓이다 (어떤 처치든 조금이라도 효과가 있다). 따라서 표본을 충분히 키우면 어떤 효과든 유의해진다.
- 재현 위기의 예고 — Cohen 은 1994 년에 이미 “한 번의 유의한 결과는 의사결정에 불충분” 이라 경고했다. 2010 년대 심리학·의학 재현 위기는 이 경고의 사후 검증이었다.
- 효과 크기와 신뢰 구간으로의 전환 — Cohen 은 어떻게 가 아니라 얼마나 의 답을 강조했다. “유의한가?” 가 아니라 “얼마나 큰가?” 를 묻는 것.
이 비판들은 ASA 2016 성명과 APA Task Force (1999) 의 권고로 이어졌다. 현대 통계 보고의 효과 크기 + CI 우선 관행은 Cohen 의 평생 주장의 결과다.
10 Bayesian 시각의 등장
Fisher 와 NP 의 분기 외에 제3 의 길 이 있다 — 베이즈 통계학.
베이즈 정리를 사용하여 사후 확률 \(\Pr(H_i | D)\) 를 직접 계산하고, 두 가설 사이의 베이즈 인자 (Bayes Factor) 로 증거 강도를 평가하는 절차이다.
\[ \text{BF}_{10} = \frac{\Pr(D | H_1)}{\Pr(D | H_0)} \]
- BF\(_{10} = 10\): \(H_1\) 이 \(H_0\) 의 10 배 잘 설명
- BF\(_{10} = 0.1\): \(H_0\) 이 \(H_1\) 의 10 배 잘 설명
- BF\(_{10} = 1\): 두 가설 동등
베이즈 시각의 장점은 다음과 같다.
| 측면 | 빈도주의 (Fisher / NP) | 베이즈 |
|---|---|---|
| 사후 확률 | 직접 계산 불가 | 직접 계산 |
| 사전 정보 통합 | 어려움 | 사전 분포로 자연스럽게 통합 |
| 의사결정 단위 | p 값 + 효과 크기 | 사후 확률 + 효과 분포 |
| Peeking 문제 | 다중 비교 보정 필요 | 사후 확률은 들여다봐도 변하지 않음 |
단점도 있다. 사전 분포 (prior) 의 선택이 주관적이라는 비판이 오랫동안 있었다. 그러나 2010 년대 들어 Stan, PyMC, brms 같은 도구가 베이즈 분석을 실용화했고, A/B 테스트 실무에서도 베이즈 절차의 채택이 늘고 있다 (예: Optimizely, VWO 의 일부 기능).
빈도주의와 베이즈는 대체재 가 아니라 보완재 다. 동일 자료에 대해 빈도주의 분석과 베이즈 분석이 비슷한 결론을 주면 결과의 robustness 가 확인되고, 다르면 사전 분포의 영향을 들여다볼 단서가 된다.
11 응용 — 산업 영역별 가중치
두 전통의 상대적 비중은 분야마다 다르다.
| 분야 | 우세 전통 | 이유 |
|---|---|---|
| 학술 논문 (심리·교육) | Fisher | 단발성 발견 보고가 목적 |
| 신약 임상시험 (Phase III) | NP | 승인·기각 의사결정 |
| 품질 관리 (제조) | NP | 반복적 합격·불합격 |
| IT A/B 테스트 | NP + Fisher 혼합 | 사전 설계 + 사후 효과 보고 |
| 베이즈 분석 | 둘 다 아님 | 사후 확률 직접 계산 |
A/B 테스트 실무에서는 NP 의 사전 검정력 분석으로 표본 크기를 정하되 (예: Kohavi, Tang, & Xu, 2020, Ch.17), 결과 보고는 정확한 p 값 + 효과 크기 + 신뢰 구간 (Fisher 정신) 을 채택한다. 두 전통의 건설적 혼합 이다.
12 코드 예시 — 사전 검정력 분석과 사후 p 값
from statsmodels.stats.power import NormalIndPower
from statsmodels.stats.proportion import proportions_ztest
# Neyman-Pearson — 사전 표본 크기 산출
# 효과 크기 (Cohen's h) 0.05 검출, alpha=0.05, power=0.80
power_analysis = NormalIndPower()
n = power_analysis.solve_power(
effect_size=0.05,
alpha=0.05,
power=0.80,
alternative='two-sided'
)
print(f"NP 기준 그룹당 표본 크기: {int(n) + 1}") # 약 3140
# Fisher — 사후 정확한 p 값 보고
# A 그룹: 5300 명 중 350 명 전환 (6.60 %)
# B 그룹: 5400 명 중 420 명 전환 (7.78 %)
counts = [350, 420]
nobs = [5300, 5400]
z, p = proportions_ztest(counts, nobs, alternative='two-sided')
print(f"검정 통계량 z = {z:.3f}")
print(f"정확한 p 값 = {p:.5f}") # 예: 0.01234
# 효과 크기 (Cohen's h) 와 신뢰 구간 동반 보고
import numpy as np
p1, p2 = counts[0]/nobs[0], counts[1]/nobs[1]
h = 2 * (np.arcsin(np.sqrt(p2)) - np.arcsin(np.sqrt(p1)))
diff = p2 - p1
se = np.sqrt(p1*(1-p1)/nobs[0] + p2*(1-p2)/nobs[1])
ci = (diff - 1.96*se, diff + 1.96*se)
print(f"효과 크기 Cohen's h = {h:.3f}")
print(f"전환율 차이 신뢰 구간 = ({ci[0]*100:+.2f}%, {ci[1]*100:+.2f}%)")이 코드는 두 전통을 어떻게 결합하는지를 보여 준다. NP 로 실험을 설계 하고, Fisher 로 결과를 보고 한다.
13 Sequential Testing — peeking 문제의 정식 해법
Peeking 의 위험을 인정한다면 언제 자료를 들여다봐도 좋은가 의 문제가 남는다. 답은 sequential testing 이다.
13.1 Group Sequential Test (Pocock, O’Brien-Fleming)
전체 자료를 \(K\) 회 나눠 보되, 각 시점에서 조정된 임계값 으로 검정한다. 누적 \(\alpha\) 가 0.05 를 넘지 않도록 임계값을 설계한다.
| 절차 | 시점별 \(\alpha\) 분배 | 특징 |
|---|---|---|
| Pocock (1977) | 균등 | 모든 시점에서 동일 임계값 — 초기 검정력 높음 |
| O’Brien-Fleming (1979) | 후반부에 집중 | 초기 임계값 매우 보수적, 후반부 일반 검정 |
| Lan-DeMets alpha spending | 사용 시점에 비례 | 유연 — 시점을 미리 정할 필요 없음 |
13.2 Always-Valid Inference (Optimizely, Microsoft)
Johari et al. (2017) 의 “Always Valid Inference” 는 연속적인 들여다보기 를 허용하는 절차다. 핵심 도구는 mixture sequential probability ratio test (mSPRT) 이며, 언제든 멈출 수 있어 (anytime-valid) 도 \(\alpha\) 가 보장된다.
이 접근은 IT A/B 테스트의 실무 요구 (실시간 결과 모니터링, 조기 중단) 에 부합한다. Optimizely 의 stats engine 과 Microsoft 의 ExP 플랫폼이 이 방식을 채택했다.
13.3 실무 권장
| 상황 | 권장 절차 |
|---|---|
| 임상 RCT (Phase III) | Group sequential (O’Brien-Fleming) |
| IT A/B 테스트 (소규모, 단일 분석) | 사전 \(n\) 산정 후 단일 검정 |
| IT A/B 테스트 (실시간 모니터링) | Always-valid inference |
| Multi-armed bandit | Bayesian Thompson sampling |
이 4 가지가 peeking 문제 해결의 현대적 토대 다. 자세한 내용은 후속 시리즈 (Phase F-* 의 Sequential Testing, Phase I-* 의 MAB) 에서 다룬다.
14 표본 크기 산정 — NP 의 핵심 작동
NP 전통이 가장 빛나는 영역은 사전 표본 크기 산정 이다. 4 요소 (\(\alpha\), \(\beta\), 효과 크기, 자료 분산) 가 정해지면 \(n\) 이 자동으로 결정된다.
14.1 두 평균 비교의 표본 크기 공식 (대칭, 등분산)
\[ n_{\text{per group}} = \frac{2 \sigma^2 (z_{1-\alpha/2} + z_{1-\beta})^2}{\delta^2} \]
여기서 \(\delta\) 는 검출하고 싶은 평균 차, \(\sigma\) 는 그룹 내 표준편차, \(z\) 는 정규 분위수다.
14.2 구체적 예시
A/B 테스트로 클릭률 (baseline 5 %) 의 상대 1 % 향상 (즉 5.05 %) 을 검출하고 싶다. \(\alpha = 0.05\), 검정력 \(0.80\), two-tailed 기준.
\[ n \approx \frac{2 \cdot 0.05 \cdot 0.95 \cdot (1.96 + 0.84)^2}{(0.0005)^2} \approx 2.98 \times 10^6 \]
즉 그룹당 약 300 만 명이 필요하다. 따라서 작은 효과는 큰 표본을 요구 한다는 사실이 정량화된다. 이 사실이 매우 큰 IT 회사 (Google, Meta) 만 0.1 % 미만 효과를 신뢰성 있게 측정할 수 있는 이유다.
자세한 표본 크기 산정 수식은 후속 글 A-WOO8-* 에서 다룬다.
15 한계와 다음 글
이 글은 Fisher 와 NP 의 분기를 다뤘으나, 왜 z·t·F 분포 기반 검정이 표준이 되었는가는 다루지 않았다. Randomization 검정으로 충분하다면 분포 가정이 왜 필요한가? 답은 (a) 계산 비용과 (b) 모수 추론으로의 확장에 있다. 다음 글 A-MAX2-3 에서 분포 가정과 중심극한정리의 역할을 다룬다.
16 관련 주제
선행 지식
- Fisher 전통 개관
- 차 맛보기 실험과 무작위 배정 검정
- 가설검정 개요 — Casella 수리통계 lens
- p 값의 이론과 실무 — ASA 6 원칙
- 최강력 검정과 NP 보조정리
후속 주제 (Phase A)
- 분포 가정과 z·t·F 검정의 등장
- 검정력 함수와 표본 크기 (A-SCH11-, A-WOO8- 시리즈에서 다룸)
- 다중 비교 문제 (A-MAX5-, A-SCH19- 시리즈에서 다룸)
다른 카테고리 연결
- 표본 크기 계산 — 검정력 계산의 수식 토대
- A/B 테스트 메커니즘 — 두 전통의 혼합이 IT 에서 작동하는 양식