Kwangmin Kim - p 값의 두 전통 — Fisher vs Neyman-Pearson

1 도입 — 왜 같은 실험에 두 가지 해석이 가능한가

A/B 테스트 결과 보고서에 다음 두 표현이 모두 자주 등장한다.

“\(p = 0.018\) 이므로 5 % 유의 수준에서 처치 효과가 있다.”
“사전에 정한 \(\alpha = 0.05\) 와 검정력 \(1 - \beta = 0.80\) 기준으로 표본 크기를 산정했다.”

전자는 Fisher 의 표현, 후자는 Neyman-Pearson 의 표현이다. 두 표현이 한 보고서에 자연스레 섞이지만, 사실 이 둘은 철학적으로 서로 다른 추론 체계 이다 (Maxwell & Delaney, 2004, Ch.2). 1940 년대 이후 통계 교재는 두 전통을 흐릿하게 섞어 왔고 (Gigerenzer, 1993), 그 결과가 흔한 오해 — “\(p = 0.05\) 면 95 % 재현된다” 같은 — 이다. 이 글은 두 전통의 정확한 위치를 정리한다.

2 Fisher 의 유의성 검정

정의: Fisher 의 유의성 검정 (Significance Test)

귀무가설 \(H_0\) 만 명시하고, 관측된 자료가 \(H_0\) 하에서 얼마나 극단적인지 를 p 값으로 보고하여 자료의 증거력을 요약하는 절차이다 (Fisher, 1925; 1935/1971).

단일 가설 (\(H_0\) 만)
의사결정이 아니라 증거 보고
정확한 p 값을 그대로 보고하라는 권고
사전 \(\alpha\) 고정은 “관습” 일 뿐, 본질이 아님

Fisher 가 본 통계는 의사결정이 아니라 과학적 논증의 보조 도구 였다. 그가 본 p 값은 “관측된 자료가 \(H_0\) 하에서 얼마나 어울리지 않는가” 를 수량화한 것뿐이다. Fisher 는 정확한 p 값 보고를 강조했다.

“정확한 p 값을 보고하는 것은, 다른 자유로운 정신들이 그 값을 자기 결정에 활용할 권리를 인정하는 것이다” (Fisher, 1955, p. 77).

따라서 Fisher 입장에서 \(p = 0.049\) 와 \(p = 0.003\) 은 둘 다 “유의하다” 가 아니라 다른 강도의 증거 이다. “0.05 미만이면 모두 동일하게 유의하다” 라는 이분법은 Fisher 의 의도가 아니다.

직관 — p 값을 “이상함의 정도” 로 읽기

\(p = 0.001\) 의 의미는 “\(H_0\) 가 참이라면 이렇게 극단적인 자료가 1000 번 중 1 번 나온다” 이다. 즉 자료가 매우 이상하다 — \(H_0\) 와 잘 어울리지 않는다. \(p = 0.049\) 의 의미는 “이런 자료가 20 번 중 1 번 나온다” 이다. 자료가 어느 정도 이상하다.

두 결과 모두 “\(\alpha = 0.05\) 기준 유의” 라는 이분법으로 압축하면, 이상함의 정도 정보가 사라진다. 실무에서는 후속 의사결정 (재실험 비용, 효과 크기 평가) 이 이 정보에 의존하므로 정확한 p 값을 보고하는 것이 더 풍부하다.

그러나 정확한 p 값에도 한계가 있다. p 값은 이상함 만 알려 주지 방향 이나 크기 를 직접 알려 주지 않는다. 따라서 효과 크기 (Cohen’s d, 신뢰 구간) 와 함께 보고해야 한다. 이는 Fisher 의 1955 년 권고와 현대 APA Task Force (1999) 의 권고가 일치하는 지점이다.

3 Neyman-Pearson 의 가설 검정

정의: Neyman-Pearson 의 가설 검정 (Hypothesis Test)

귀무가설 \(H_0\) 와 대립가설 \(H_1\) 을 모두 명시하고, 사전에 정한 \(\alpha\) 수준에서 두 가설 중 하나를 선택 하는 의사결정 절차이다 (Neyman & Pearson, 1933).

두 가설 (\(H_0\) 와 \(H_1\)) 동시 명시
두 종류의 오류 정의: 제1종 오류 (\(\alpha\)), 제2종 오류 (\(\beta\))
검정력 \(1 - \beta\) 를 사전에 설계 가능
결론은 “기각 / 기각하지 못함” 의 이분법

Neyman 과 Pearson 은 통계 추론을 반복적 의사결정 으로 보았다. 신약 승인 결정, 품질 관리에서 lot 의 합격·불합격 결정, A/B 테스트의 변형 채택 결정 — 이런 상황에서는 두 종류의 오류 비용이 다르다. 따라서 사전에 다음 4 요소를 명시해야 한다.

요소	정의	A/B 테스트 의미
\(\alpha\)	\(H_0\) 가 참일 때 기각할 확률	처치 효과 없는데 있다고 잘못 판단
\(\beta\)	\(H_1\) 이 참일 때 기각하지 못할 확률	처치 효과 있는데 없다고 잘못 판단
\(1 - \beta\)	검정력 (power)	진짜 효과를 잡아낼 확률
효과 크기	검출하고 싶은 최소 차이 (MDE)	의사결정 단위

이 4 요소가 정해지면 표본 크기 \(n\) 이 자동으로 결정된다. 신약 임상시험에서 시험 진입 전 에 표본 크기를 산정하는 것이 필수인 이유가 여기에 있다 (Schulz & Grimes, 2019, Ch.11; 후속 글 A-SCH11-* 에서 다룬다).

직관 — 두 종류의 오류 비용이 다르다

화재 경보기를 떠올려 본다. 두 종류의 오류가 가능하다.

제1종 오류 (\(\alpha\)) — 화재가 없는데 경보가 울린다 (\(H_0\): 화재 없음, 잘못 기각). 비용: 짜증, 출동 비용.
제2종 오류 (\(\beta\)) — 화재가 있는데 경보가 안 울린다 (\(H_0\) 가 거짓인데 기각하지 못함). 비용: 인명·재산 피해.

화재 경보기의 경우 \(\beta\) 비용이 \(\alpha\) 비용보다 압도적으로 크다. 따라서 경보기는 과민하게 설계되어 \(\beta\) 를 낮추는 대신 \(\alpha\) 를 높게 둔다. 반대로 사형 판결 시스템에서는 \(\alpha\) (무죄인 사람을 사형) 비용이 압도적이라, 시스템은 보수적으로 설계되어 \(\alpha\) 를 매우 낮춘다.

신약 임상시험에서도 마찬가지다. 효과 없는 약을 승인 (\(\alpha\)) 하면 환자가 부작용을 감수하며 무용지물을 사용한다. 효과 있는 약을 기각 (\(\beta\)) 하면 환자가 도움을 못 받는다. 두 비용의 균형으로 \(\alpha = 0.05\), \(\beta = 0.20\) (검정력 0.80) 같은 값이 관습이 됐다. Fisher 의 단일 가설 시각으로는 이 균형을 정량적으로 다룰 수 없다 — NP 가 이 빈자리를 메운 셈이다.

4 두 전통의 비교 — 한 표로

차원	Fisher	Neyman-Pearson
목적	자료의 증거력 요약	두 가설 사이 의사결정
가설 명시	\(H_0\) 만	\(H_0\) 와 \(H_1\)
핵심 통계량	p 값 (정확한 값)	\(\alpha\) 와 검정력
오류 개념	명시적이지 않음	제1종·제2종 오류
결론 형식	“정확한 p 를 보고”	“기각 / 기각하지 못함”
표본 크기	사후 해석 강조	사전 산출 강조
\(\alpha = 0.05\)	“관습일 뿐”	“사전에 고정해야 함”
인식론	귀납적 추론 보조	반복적 의사결정
적용 영역	과학 논문·자료 보고	품질 관리·신약 승인

이 표가 보여 주는 점은, 두 전통이 서로 다른 질문에 답하기 위한 도구 라는 사실이다. 한 논문에서 두 표현을 섞어 쓰면 일관성이 깨진다. 그런데 1940 년대 이후 심리학·의학 교재는 둘을 융합해 가르쳤고, 그 결과가 다음에 다룰 “혼합” 이다.

5 현재 관행 — 두 전통의 혼합 (Amalgam)

Gigerenzer (1993) 의 분석에 따르면, 오늘날 표준 통계 절차는 다음과 같다.

사전에 \(\alpha = 0.05\) 와 표본 크기 \(n\) 을 정한다 (NP).
자료를 수집한다.
검정 통계량을 계산하고 정확한 p 값을 보고한다 (Fisher).
p \(<\) 0.05 면 “유의하다 (significant)” 라 결론한다 (NP 의 이분법).
검정력 사후 분석은 대개 생략 한다 (NP 가 강조하는 핵심을 빠뜨림).

이 절차의 4 와 5 가 두 전통을 불일치하게 섞는다.

Fisher 입장에서 4 의 이분법은 정보 손실이다. \(p = 0.049\) 와 \(p = 0.003\) 의 증거 강도 차이가 사라진다.
Neyman-Pearson 입장에서 5 의 검정력 무시는 의사결정 체계의 핵심을 비운다. 검정력 없이 “기각하지 못함” 이라 결론하는 것은 무의미하다 (효과가 작아서인지, 표본이 작아서인지 구별 불가).

따라서 현대 권고는 다음과 같다 (Wilkinson & APA Task Force, 1999, p. 599).

정확한 p 값을 보고한다 (Fisher).
효과 크기와 신뢰 구간을 동반한다 (Fisher 정신 + 보완).
표본 크기는 사전 검정력 분석으로 산출한다 (NP).

직관 — 왜 정확한 p 값을 보고해야 하는가

상사가 묻는다. “이 A/B 테스트, 유의했나?” - 답 1: “\(p < 0.05\) 입니다.” → \(0.049\) 인지 \(0.001\) 인지 알 수 없다. 의사결정에 정보가 부족하다. - 답 2: “\(p = 0.001\), 신뢰 구간 [+1.2 %, +3.8 %], 효과 크기 Cohen’s \(d = 0.35\) 입니다.” → 의사결정에 필요한 정보가 모두 있다.

정확한 p 값을 보고하는 것은 다음 결정을 내릴 사람의 권리 를 존중하는 것이다. 그 사람이 자기 맥락에서 임계값을 다르게 정할 수 있고, 효과 크기로 비즈니스 임팩트를 평가할 수 있다. Fisher 의 1955 년 권고는 60 년 뒤 데이터 사이언스 보고서 작성에도 그대로 적용된다.

6 p 값에 대한 두 가지 흔한 오해

p 값은 통계학에서 가장 자주 보고되지만 가장 자주 잘못 해석되는 지표이다. Maxwell Ch.2 가 강조하는 두 오류를 정리한다.

6.1 Replication Fallacy — 재현 오류

오해: “\(p = 0.05\) 이면 동일 실험을 반복했을 때 95 % 재현된다.”

진실: 재현 확률은 검정력 (power) 이지 \(1 - p\) 가 아니다. 검정력은 대립가설이 참이고 효과 크기가 정해진 경우 의 검출 확률이다. 자료가 알려 주는 것은 \(H_0\) 하의 극단성 (\(p\)) 일 뿐, \(H_1\) 가정에 의존하는 검정력은 따로 계산해야 한다.

Greenwald, Gonzalez, Harris, & Guthrie (1996) 의 표는 이 오해의 크기를 보여 준다.

관측된 \(p\)	사후 재현 검정력 (대략)
0.05	0.50
0.01	0.75
0.005	0.80
0.001	\(> 0.90\)

즉 \(p = 0.05\) 결과는 동일 조건에서 다시 실험해도 절반만 유의 하다. 이 사실은 “한 번의 유의한 결과” 에 의존한 의사결정이 얼마나 위험한지 시사한다.

이 표의 직관은 다음과 같다. 한 번의 실험에서 \(p = 0.05\) 를 얻었다는 것은 아슬아슬하게 임계값을 넘었다는 뜻이다. 동전을 뒤집어 그어 본 줄을 그대로 다시 그으려 하면 절반은 약간 빗나간다. 동일한 자료 생성 과정에서 표본을 새로 모아 검정하면, 추정량이 \(p = 0.05\) 보다 약간 더 극단적일 수도, 약간 덜 극단적일 수도 있다. 덜 극단적인 경우가 절반이라면 재현 검정력은 0.50 이 된다. 따라서 한 번의 “겨우 유의한” 결과는 의사결정 근거로 약한 편이다. 이것이 재현 연구 가 과학에서 본질적인 이유 중 하나다.

6.2 Inverse Probability Fallacy — 역확률 오류

오해: “\(p = 0.01\) 은 귀무가설이 참일 확률이 1 % 라는 뜻이다.”

진실: p 값은 \(\Pr(D | H_0)\) 이지 \(\Pr(H_0 | D)\) 가 아니다. 두 확률은 베이즈 정리로 연결되지만 일반적으로 다르다.

\[ \Pr(H_0 | D) = \frac{\Pr(D | H_0) \cdot \Pr(H_0)}{\Pr(D)} \]

\(\Pr(H_0)\) (사전 확률) 와 \(\Pr(D)\) 가 명시되지 않으면 \(\Pr(H_0 | D)\) 는 계산되지 않는다. 그러나 Oakes (1986) 의 조사에서, 학술 심리학자 96 % 가 이 오류를 범했다. p 값이 사전·사후 확률을 헷갈리게 만드는 표기 (\(\Pr\) 만 보면 같아 보임) 가 원인 중 하나이다.

직관 — 의료 진단 비유

희귀병 검사를 생각하자. 모집단 유병률이 1 % 인 병에 대해, 검사가 다음 특성을 가진다.

병이 있을 때 양성: 99 % (\(\Pr(\text{양성} \mid \text{병}) = 0.99\), 민감도)
병이 없을 때 음성: 95 % (\(\Pr(\text{음성} \mid \text{병 없음}) = 0.95\), 특이도)

어떤 사람이 양성 결과를 받았다. 이 사람이 실제로 병에 걸렸을 확률은? 베이즈 정리로 계산하면,

\[ \Pr(\text{병} \mid \text{양성}) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.05 \times 0.99} \approx 0.167 \]

즉 약 16.7 % 다. “검사 정확도 99 %” 라는 직관과 크게 다르다. 이 차이는 유병률 (사전 확률) 이 낮기 때문에 발생한다.

p 값에도 같은 구조가 있다. \(p = 0.01\) (\(\Pr(D \mid H_0)\)) 이라도, 애초에 \(H_0\) 가 참일 사전 확률이 높다면 사후 확률 \(\Pr(H_0 \mid D)\) 은 1 % 가 아니라 훨씬 클 수 있다. 두 확률을 동일시하는 것은 “검사가 양성이면 99 % 확률로 병에 걸렸다” 라고 말하는 의사와 같은 오류다.

이 사실이 베이즈 분석이 부각되는 이유 중 하나다 — 베이즈 분석은 사전 확률을 명시적으로 다뤄 사후 확률을 직접 계산한다.

6.3 비교 표

오해	잘못된 해석	정확한 의미
Replication	“\(1 - p\) 가 재현 확률”	재현 확률은 검정력이며 \(H_1\) 가정 필요
Inverse	“p 가 \(H_0\) 가 참일 확률”	p 는 \(\Pr(D \mid H_0)\), \(\Pr(H_0 \mid D)\) 가 아님

7 가정 — 두 전통은 어떤 가정에 의존하는가

두 전통 모두 다음 가정 위에서 작동한다.

가정	Fisher	Neyman-Pearson	위반 시 영향
무작위 배정	핵심 (검정 분포 정당화)	핵심	인과 해석 불가
표본 독립성	필수	필수	분산 추정이 편향
\(H_1\) 명시	불필요	필수	검정력 계산 불가
사전 \(\alpha\)	권장	필수	다중 비교 문제 증폭
사전 \(n\)	권장	필수	검정력 부족 또는 자원 낭비

A/B 테스트 실무에서 가장 자주 깨지는 가정은 사전 \(n\) 산정 과 사전 \(\alpha\) 고정 이다. 흔한 위반 사례:

데이터 들여다보며 멈추기 (peeking) — 매일 결과를 확인하다가 “유의해진 시점에 멈춘다.” 이는 다중 비교 문제를 만들어 실제 \(\alpha\) 를 0.05 보다 훨씬 키운다 (Sequential testing 으로 보정해야 한다).
유의하지 않으면 표본 늘리기 — “\(n\) 을 더 모아서 유의해질 때까지 본다.” 이는 사실상 \(\alpha\) 를 인플레이션시킨다.

이 두 위반은 Fisher 와 NP 모두에 위배된다. NP 입장에서는 사전 설계의 핵심이 깨지고, Fisher 입장에서는 정확한 p 값의 의미가 사라진다.

직관 — Peeking 이 왜 위험한가

A/B 테스트를 30 일간 실행하기로 정했다고 하자. 매일 결과를 확인하면, 30 번의 독립적 검정이 누적된다 (실제로는 시점 간 상관이 있어 정확히 독립은 아니지만 직관용으로). 각 검정의 \(\alpha = 0.05\) 라면 30 일 동안 적어도 한 번 유의할 확률은

\[ 1 - (1 - 0.05)^{30} \approx 1 - 0.214 = 0.786 \]

즉 약 78 % 다. 효과가 전혀 없는데도 30 일 중 어느 하루에 유의한 결과를 볼 확률이 거의 80 % 라는 뜻이다. “유의해진 시점에 멈춤” 은 이 78 % 를 적극적으로 활용해 거짓 양성을 잡아내는 절차가 된다.

이 문제의 해법이 sequential testing (Pocock, O’Brien-Fleming, alpha spending 등) 이다. 사전에 몇 번 들여다볼지 와 각 시점의 임계값 을 정해 누적 \(\alpha\) 를 0.05 로 묶는다. 자세한 내용은 후속 시리즈에서 다룬다.

A/B 테스트의 또 다른 흔한 함정은 결과를 확인한 뒤 표본을 늘리기 다. 이는 형식적으로 한 번의 검정 같지만, 실제로는 “들여다본 후 멈출지 계속할지 결정” 이라는 적응적 절차이므로 동일한 인플레이션을 일으킨다.

8 ASA 2016 6 원칙 — 미국통계학회의 공식 입장

2016 년 미국통계학회 (American Statistical Association) 는 p 값에 대한 공식 성명을 발표했다 (Wasserstein & Lazar, 2016). 6 가지 원칙은 다음과 같다.

p 값은 자료가 특정 통계 모형 (귀무가설 포함) 과 얼마나 양립 불가능한지를 나타낸다. 즉 “모형이 자료에 얼마나 어울리지 않는가” 의 측도이다.
p 값은 “연구 가설이 참일 확률” 또는 “관측이 단순 우연일 확률” 을 측정하지 않는다. Inverse probability fallacy 의 명시적 거부.
과학적 결론과 비즈니스·정책 결정은 p 값의 임계값 (예: 0.05) 에만 기반해서는 안 된다. \(p < 0.05\) 의 이분법적 사용을 비판한다.
적절한 추론은 완전한 보고와 투명성을 요구한다. “p-hacking”, “selective reporting” 의 방지.
p 값 또는 통계적 유의성은 효과 크기나 결과의 중요성을 측정하지 않는다. 효과 크기 보고의 필수성.
p 값은 그 자체로 모형이나 가설에 대한 증거의 좋은 측도가 아니다. 신뢰 구간, 베이즈 인자, 사전 확률 등 보완적 도구의 필요성.

이 6 원칙은 Fisher 와 NP 양쪽 전통의 오용 을 함께 비판한다. Fisher 의 “정확한 p 값 보고” 는 4·5 원칙으로, NP 의 “사전 \(\alpha\) 고정” 은 3 원칙으로 이어진다. 동시에 양쪽 모두에서 부족한 효과 크기 와 불확실성 정량화 의 중요성을 강조한다.

9 Cohen 1994 — “The Earth is round (p < .05)”

Jacob Cohen 의 1994 년 논문 The Earth is round (p < .05) 는 NHST (Null Hypothesis Significance Testing) 에 대한 가장 영향력 있는 비판 중 하나다. 핵심 주장:

null nil hypothesis 의 무의미성 — “효과가 정확히 0 이다” 라는 귀무가설은 거의 항상 거짓이다 (어떤 처치든 조금이라도 효과가 있다). 따라서 표본을 충분히 키우면 어떤 효과든 유의해진다.
재현 위기의 예고 — Cohen 은 1994 년에 이미 “한 번의 유의한 결과는 의사결정에 불충분” 이라 경고했다. 2010 년대 심리학·의학 재현 위기는 이 경고의 사후 검증이었다.
효과 크기와 신뢰 구간으로의 전환 — Cohen 은 어떻게 가 아니라 얼마나 의 답을 강조했다. “유의한가?” 가 아니라 “얼마나 큰가?” 를 묻는 것.

이 비판들은 ASA 2016 성명과 APA Task Force (1999) 의 권고로 이어졌다. 현대 통계 보고의 효과 크기 + CI 우선 관행은 Cohen 의 평생 주장의 결과다.

10 Bayesian 시각의 등장

Fisher 와 NP 의 분기 외에 제3 의 길 이 있다 — 베이즈 통계학.

정의: 베이즈 검정 (Bayesian Hypothesis Testing)

베이즈 정리를 사용하여 사후 확률 \(\Pr(H_i | D)\) 를 직접 계산하고, 두 가설 사이의 베이즈 인자 (Bayes Factor) 로 증거 강도를 평가하는 절차이다.

\[ \text{BF}_{10} = \frac{\Pr(D | H_1)}{\Pr(D | H_0)} \]

BF\(_{10} = 10\): \(H_1\) 이 \(H_0\) 의 10 배 잘 설명
BF\(_{10} = 0.1\): \(H_0\) 이 \(H_1\) 의 10 배 잘 설명
BF\(_{10} = 1\): 두 가설 동등

베이즈 시각의 장점은 다음과 같다.

측면	빈도주의 (Fisher / NP)	베이즈
사후 확률	직접 계산 불가	직접 계산
사전 정보 통합	어려움	사전 분포로 자연스럽게 통합
의사결정 단위	p 값 + 효과 크기	사후 확률 + 효과 분포
Peeking 문제	다중 비교 보정 필요	사후 확률은 들여다봐도 변하지 않음

단점도 있다. 사전 분포 (prior) 의 선택이 주관적이라는 비판이 오랫동안 있었다. 그러나 2010 년대 들어 Stan, PyMC, brms 같은 도구가 베이즈 분석을 실용화했고, A/B 테스트 실무에서도 베이즈 절차의 채택이 늘고 있다 (예: Optimizely, VWO 의 일부 기능).

빈도주의와 베이즈는 대체재 가 아니라 보완재 다. 동일 자료에 대해 빈도주의 분석과 베이즈 분석이 비슷한 결론을 주면 결과의 robustness 가 확인되고, 다르면 사전 분포의 영향을 들여다볼 단서가 된다.

11 응용 — 산업 영역별 가중치

두 전통의 상대적 비중은 분야마다 다르다.

분야	우세 전통	이유
학술 논문 (심리·교육)	Fisher	단발성 발견 보고가 목적
신약 임상시험 (Phase III)	NP	승인·기각 의사결정
품질 관리 (제조)	NP	반복적 합격·불합격
IT A/B 테스트	NP + Fisher 혼합	사전 설계 + 사후 효과 보고
베이즈 분석	둘 다 아님	사후 확률 직접 계산

A/B 테스트 실무에서는 NP 의 사전 검정력 분석으로 표본 크기를 정하되 (예: Kohavi, Tang, & Xu, 2020, Ch.17), 결과 보고는 정확한 p 값 + 효과 크기 + 신뢰 구간 (Fisher 정신) 을 채택한다. 두 전통의 건설적 혼합 이다.

12 코드 예시 — 사전 검정력 분석과 사후 p 값

from statsmodels.stats.power import NormalIndPower
from statsmodels.stats.proportion import proportions_ztest

# Neyman-Pearson — 사전 표본 크기 산출
# 효과 크기 (Cohen's h) 0.05 검출, alpha=0.05, power=0.80
power_analysis = NormalIndPower()
n = power_analysis.solve_power(
    effect_size=0.05,
    alpha=0.05,
    power=0.80,
    alternative='two-sided'
)
print(f"NP 기준 그룹당 표본 크기: {int(n) + 1}")  # 약 3140

# Fisher — 사후 정확한 p 값 보고
# A 그룹: 5300 명 중 350 명 전환 (6.60 %)
# B 그룹: 5400 명 중 420 명 전환 (7.78 %)
counts = [350, 420]
nobs = [5300, 5400]
z, p = proportions_ztest(counts, nobs, alternative='two-sided')
print(f"검정 통계량 z = {z:.3f}")
print(f"정확한 p 값  = {p:.5f}")  # 예: 0.01234

# 효과 크기 (Cohen's h) 와 신뢰 구간 동반 보고
import numpy as np
p1, p2 = counts[0]/nobs[0], counts[1]/nobs[1]
h = 2 * (np.arcsin(np.sqrt(p2)) - np.arcsin(np.sqrt(p1)))
diff = p2 - p1
se = np.sqrt(p1*(1-p1)/nobs[0] + p2*(1-p2)/nobs[1])
ci = (diff - 1.96*se, diff + 1.96*se)
print(f"효과 크기 Cohen's h = {h:.3f}")
print(f"전환율 차이 신뢰 구간 = ({ci[0]*100:+.2f}%, {ci[1]*100:+.2f}%)")

이 코드는 두 전통을 어떻게 결합하는지를 보여 준다. NP 로 실험을 설계 하고, Fisher 로 결과를 보고 한다.

13 Sequential Testing — peeking 문제의 정식 해법

Peeking 의 위험을 인정한다면 언제 자료를 들여다봐도 좋은가 의 문제가 남는다. 답은 sequential testing 이다.

13.1 Group Sequential Test (Pocock, O’Brien-Fleming)

전체 자료를 \(K\) 회 나눠 보되, 각 시점에서 조정된 임계값 으로 검정한다. 누적 \(\alpha\) 가 0.05 를 넘지 않도록 임계값을 설계한다.

절차	시점별 \(\alpha\) 분배	특징
Pocock (1977)	균등	모든 시점에서 동일 임계값 — 초기 검정력 높음
O’Brien-Fleming (1979)	후반부에 집중	초기 임계값 매우 보수적, 후반부 일반 검정
Lan-DeMets alpha spending	사용 시점에 비례	유연 — 시점을 미리 정할 필요 없음

13.2 Always-Valid Inference (Optimizely, Microsoft)

Johari et al. (2017) 의 “Always Valid Inference” 는 연속적인 들여다보기 를 허용하는 절차다. 핵심 도구는 mixture sequential probability ratio test (mSPRT) 이며, 언제든 멈출 수 있어 (anytime-valid) 도 \(\alpha\) 가 보장된다.

이 접근은 IT A/B 테스트의 실무 요구 (실시간 결과 모니터링, 조기 중단) 에 부합한다. Optimizely 의 stats engine 과 Microsoft 의 ExP 플랫폼이 이 방식을 채택했다.

13.3 실무 권장

상황	권장 절차
임상 RCT (Phase III)	Group sequential (O’Brien-Fleming)
IT A/B 테스트 (소규모, 단일 분석)	사전 \(n\) 산정 후 단일 검정
IT A/B 테스트 (실시간 모니터링)	Always-valid inference
Multi-armed bandit	Bayesian Thompson sampling

이 4 가지가 peeking 문제 해결의 현대적 토대 다. 자세한 내용은 후속 시리즈 (Phase F-* 의 Sequential Testing, Phase I-* 의 MAB) 에서 다룬다.

14 표본 크기 산정 — NP 의 핵심 작동

NP 전통이 가장 빛나는 영역은 사전 표본 크기 산정 이다. 4 요소 (\(\alpha\), \(\beta\), 효과 크기, 자료 분산) 가 정해지면 \(n\) 이 자동으로 결정된다.

14.1 두 평균 비교의 표본 크기 공식 (대칭, 등분산)

\[ n_{\text{per group}} = \frac{2 \sigma^2 (z_{1-\alpha/2} + z_{1-\beta})^2}{\delta^2} \]

여기서 \(\delta\) 는 검출하고 싶은 평균 차, \(\sigma\) 는 그룹 내 표준편차, \(z\) 는 정규 분위수다.

14.2 구체적 예시

A/B 테스트로 클릭률 (baseline 5 %) 의 상대 1 % 향상 (즉 5.05 %) 을 검출하고 싶다. \(\alpha = 0.05\), 검정력 \(0.80\), two-tailed 기준.

\[ n \approx \frac{2 \cdot 0.05 \cdot 0.95 \cdot (1.96 + 0.84)^2}{(0.0005)^2} \approx 2.98 \times 10^6 \]

즉 그룹당 약 300 만 명이 필요하다. 따라서 작은 효과는 큰 표본을 요구 한다는 사실이 정량화된다. 이 사실이 매우 큰 IT 회사 (Google, Meta) 만 0.1 % 미만 효과를 신뢰성 있게 측정할 수 있는 이유다.

자세한 표본 크기 산정 수식은 후속 글 A-WOO8-* 에서 다룬다.

15 한계와 다음 글

이 글은 Fisher 와 NP 의 분기를 다뤘으나, 왜 z·t·F 분포 기반 검정이 표준이 되었는가는 다루지 않았다. Randomization 검정으로 충분하다면 분포 가정이 왜 필요한가? 답은 (a) 계산 비용과 (b) 모수 추론으로의 확장에 있다. 다음 글 A-MAX2-3 에서 분포 가정과 중심극한정리의 역할을 다룬다.

16 관련 주제

선행 지식

후속 주제 (Phase A)

분포 가정과 z·t·F 검정의 등장
검정력 함수와 표본 크기 (A-SCH11-, A-WOO8- 시리즈에서 다룸)
다중 비교 문제 (A-MAX5-, A-SCH19- 시리즈에서 다룸)

다른 카테고리 연결

표본 크기 계산 — 검정력 계산의 수식 토대
A/B 테스트 메커니즘 — 두 전통의 혼합이 IT 에서 작동하는 양식