1 도입 — 왜 Fisher 부터 시작하는가
A/B 테스트 결과를 해석할 때 흔히 마주치는 질문이 있다. “p 값이 0.04 인데, 이 결과는 우연인가?” “표본이 정규 분포가 아닌데 t 검정을 써도 되는가?” “다음에 다시 실험하면 같은 결과가 나오겠는가?” 이 질문들의 뿌리는 1920년대 영국 농업 시험장에 있다. Ronald A. Fisher (1890-1962) 가 Rothamsted 에서 비료 실험을 설계하며 만든 추론 체계가, 오늘날 IT 산업의 온라인 통제 실험까지 그대로 흘러왔기 때문이다.
이 포스트는 Maxwell & Delaney (2004, Ch.2) 의 흐름을 따라 Fisher 전통의 4 단계를 정리한다. 후속 3 편에서 각 단계를 자세히 다룬다.
Fisher 전통은 무작위 배정 을 추론의 기반으로 삼아, 관찰된 자료가 우연만으로 설명될 수 있는지를 확률로 평가하는 통계적 추론 체계이다 (Maxwell & Delaney, 2004, Ch.2).
- 핵심 도구: 무작위 배정 (randomization), 유의 수준 (significance level), p 값 (p-value)
- 핵심 원리: 무작위 배정이 통제 불가능한 요인을 균형 잡으므로 검정 분포가 정당화된다
- 역사적 분기: Fisher 의 유의성 검정 vs Neyman-Pearson 의 의사결정 검정
2 Fisher 의 역사적 배경 — Rothamsted 농업 시험장
Fisher 의 통계적 사고가 형성된 환경을 짚으면 그가 왜 무작위 배정을 강조했는지 더 잘 보인다.
영국 Rothamsted 농업 시험장은 1843 년 설립된 세계 최초의 농업 연구 기관이다. 비료·작물 품종·재배법의 효과를 측정하는 것이 핵심 과제였다. 1919 년 Fisher 가 chief statistician 으로 부임할 때, 시험장은 70 년 이상의 자료를 보유하고 있었으나 분석 체계는 거의 없었다. 같은 토지가 매년 다른 처치를 받아 와서 어느 효과가 어디서 왔는지 분리하기 어려웠다.
Fisher 가 직면한 문제는 다음과 같다.
| 도전 | 영향 | Fisher 의 해법 |
|---|---|---|
| 토지의 비옥도 차이 | 처치 효과와 교란 | 무작위 배정으로 평균화 |
| 측정 오차 | 분산 추정 어려움 | 분산분석 (ANOVA) 으로 분해 |
| 환경 변동 (날씨 등) | 연도 간 비교 불가 | 동일 시점 비교 (block design) |
| 적은 시험 토지 | 검정력 부족 | 요인 설계 (factorial design) 로 효율 증대 |
이 4 가지 도전이 Fisher 의 1925 년 Statistical Methods for Research Workers 와 1935 년 The Design of Experiments 의 골격이 됐다. 흥미롭게도 이 4 가지 도전은 100 년 뒤 IT A/B 테스트에도 그대로 등장한다.
| Rothamsted | IT A/B 테스트 |
|---|---|
| 토지 비옥도 차이 | 사용자 세그먼트 차이 |
| 측정 오차 | 메트릭 노이즈 |
| 환경 변동 (날씨) | 시간대·요일·계절성 |
| 적은 시험 토지 | 트래픽 제약 |
이런 동형성은 우연이 아니다. Fisher 가 만든 추론 체계는 통제 불가능한 변동을 가진 시스템에서 인과 효과를 추출 하는 일반론이기 때문에, 농지에서든 웹 서비스에서든 동일하게 작동한다.
3 통계를 보는 두 시각 — 계산 vs 논증
Fisher 자신이 만년에 한탄한 일이 있다. “통계가 본질적으로 수학으로 가르쳐지면서, 어렵게 보이도록 설계된 과도한 표기에 묻혀 버렸다 (Cochran, 1967, p. 1461).” Fisher 가 본 통계는 그렇지 않았다. 통계는 조직화된 논증 (organized argument) 이며, 실험 결과로부터 결론에 이르는 과정을 정당화하는 도구였다.
이 시각의 차이는 실무에서 중요하다. 계산 중심 시각은 “어떤 함수를 호출하는가” 만 묻는다. 논증 중심 시각은 “왜 이 함수가 이 데이터에 적절한가, 그 결과를 어떤 가정 위에서 해석할 수 있는가” 를 묻는다. A/B 테스트 결과를 뜯어볼 때 후자의 관점이 빠지면, p 값은 의식 절차로 전락한다.
법정에서 검사가 “피고가 범인이다” 라고 주장한다고 하자. 단순히 “DNA 가 일치합니다” 라고 말하면 충분한가? 그렇지 않다. 검사는 (1) DNA 채취 절차가 오염되지 않았음, (2) 일치 확률이 우연만으로 설명되기 어려움, (3) 다른 가능한 용의자들이 배제됨을 논증 해야 한다. 단일 숫자 (“일치율 99 %”) 는 결론이 아니라 논증의 한 단계 이다.
통계 검정도 마찬가지다. p 값 하나는 “DNA 일치율” 같은 한 단계의 증거일 뿐이다. 그 증거가 의사결정으로 가려면 (a) 자료 수집 절차의 무작위 배정이 깨끗했는지, (b) 가정이 깨졌는지, (c) 다중 비교로 인한 인플레이션이 없는지를 논증 해야 한다. Fisher 가 통계를 “조직화된 논증” 이라 부른 이유가 여기에 있다.
“실험은 사전에 신중히 계획된 경험일 뿐이며, 새로운 지식을 위한 안전한 기반을 형성하도록 설계된다” (Fisher, 1935/1971, p. 8).
이 한 문장이 Maxwell Ch.2 의 출발점이다. 실험과 통계는 분리될 수 없으며, 분석 절차는 실험 설계로부터 흘러나와야 한다.
4 Ch.2 의 4 단계 — 후속 글 안내
Maxwell Ch.2 는 Fisher 전통을 4 단계로 풀어낸다. 이 4 단계가 후속 3 편 (A-MAX2-1, A-MAX2-2, A-MAX2-3) 으로 이어진다.
Ch.2.1 이산 확률 예제: Lady Tasting Tea (Fisher's exact test)
↓
Ch.2.2 연속 자료로의 확장: Randomization Test (Bayley twin 데이터)
↓
Ch.2.3 가설과 p 값: Fisher vs Neyman-Pearson 분기
↓
Ch.2.4 분포 기반 검정으로 전환: z, t, F + 정규성과 중심극한정리
각 단계가 다음 단계를 왜 도입했는지가 중요하다. 이산 확률은 검정 논리의 원형을 보여 주지만 자료 형태가 한정된다. Randomization 검정은 임의의 수치 자료에 일반화하지만 계산이 비싸다. 분포 기반 검정 (z, t, F) 은 randomization 의 근사로 정당화되며 계산이 가볍다. 즉 z·t·F 검정은 정규성 때문에 정당화된다기보다, randomization 분포에 근사하기 때문에 정당화되는 측면이 크다 (Kempthorne, 1955, p. 947; Scheffé, 1959, p. 313).
이 흐름은 마치 “도구의 진화” 와 같다. 처음에는 손으로 직접 깎는 정확한 도구 (이산 확률) 를 만들었고, 다음에는 더 일반적인 자료에 쓸 수 있는 도구 (randomization) 를 만들었다. 그러나 둘 다 노동 집약적이라, 1930 년대의 기술 환경에서는 근사 도구 (z·t·F) 가 표준이 될 수밖에 없었다. 컴퓨팅이 폭발적으로 발전한 21 세기에 randomization 과 부트스트랩이 부활한 것은 우연이 아니다 (이 부활을 다루는 글이 후속 A-BUI7-* 와 A-WOO14-* 시리즈이다).
5 무작위 배정의 역할 — 통계 검정의 발판
Fisher 의 핵심 통찰은 단순했다. 실험에서 처치를 무작위로 배정하면, 통제 불가능한 요인의 영향이 장기적으로 평형을 이룬다. 따라서 귀무가설 (처치 효과 없음) 이 참이라면, 실험 결과는 우연 (chance) 만으로 결정된다.
이 통찰의 함의는 두 가지이다.
| 측면 | 무작위 배정 없음 | 무작위 배정 있음 |
|---|---|---|
| 검정 분포의 출처 | 가정 (population 정규성 등) | 실제 배정 메커니즘 |
| 인과 해석 가능성 | 어렵다 (교란 가능) | 가능하다 |
| 외적 타당성 | 표본이 모집단을 대표할 때만 | 표본 자체에 한정, 일반화는 비통계적 근거 |
전통적 관점은 검정의 타당성을 모집단으로부터의 무작위 표집 (sampling) 에 의존한다. Fisher 는 이 의존을 무작위 배정 (assignment) 으로 옮겼다. IT A/B 테스트가 사용자 트래픽을 실험에 무작위 배정하면서도 그 사용자가 전체 모집단의 표본이 아니라는 사실을 정당화할 수 있는 이유가 여기에 있다.
두 학교에서 학생들의 수학 점수를 비교한다고 하자.
- 표집 시나리오: 전국 학생 중 무작위로 1000 명을 뽑아 두 학교 각각으로 보낸다. 이때 검정의 타당성은 전국 학생이 동질적 모집단을 이룬다 는 가정에 의존한다.
- 배정 시나리오: 두 학교에 이미 다니는 학생들에게 서로 다른 교습법을 무작위로 배정 한다. 이때 검정의 타당성은 교습법 배정 자체가 무작위였다 는 사실에서 나온다. 학생이 “전국 대표 표본” 일 필요가 없다.
A/B 테스트는 후자에 가깝다. 트래픽이 들어오는 사용자가 전국·전세계 사용자의 무작위 표본이 아닐 수 있다 (예: 한국 사용자만, 또는 활성 사용자만). 그러나 그 트래픽 내에서 variant A 와 B 를 무작위 배정한다면, 두 그룹 간 차이는 처치 효과에 귀속된다. 검정 분포는 모집단이 아니라 배정 메커니즘 에서 나오기 때문이다. 다만 결과의 일반화 (전체 사용자에게도 같은 효과인가) 는 통계가 아닌 도메인 지식의 영역이 된다.
왜 필요한가: 무작위 배정이 없으면 검정 통계량의 표집 분포는 모집단 정규성 같은 강한 가정에 의존한다. 무작위 배정이 있으면 분포가 배정 메커니즘 자체에서 도출된다. 이 차이가 RCT (randomized controlled trial) 가 인과 추론의 표준이 되고, 관찰 연구에서는 추가 가정 (no unmeasured confounding 등) 이 필요해지는 이유이다.
5.1 무작위 배정의 4 가지 변형
실무에서 무작위 배정은 단일 형태가 아니다. 자료 구조와 통제하고 싶은 변동에 따라 4 가지 변형이 사용된다.
| 변형 | 설명 | 사용 시점 |
|---|---|---|
| 단순 무작위 배정 (Simple) | 동전 던지기처럼 각 단위를 독립적으로 배정 | 단위가 동질적이고 표본이 충분히 큼 |
| 층화 (Stratified) | 사전에 정의된 stratum 내에서 무작위 배정 | 연령·성별 등 강한 교란 변수 통제 |
| 블록 (Block) | 시간·공간 블록 단위로 동일 처치 비율 보장 | 시간 변동·환경 변동이 큰 경우 |
| 클러스터 (Cluster) | 그룹 단위로 처치 배정 (개인 단위 X) | 개인 단위 배정이 어려운 경우 (예: 학교, 병원) |
A/B 테스트 실무 사례:
- 단순: 사용자 ID 의 hash 값으로 50:50 배정
- 층화: 신규 사용자와 기존 사용자를 각각 50:50 으로 배정해 유저 mix 보장
- 블록: 시간대별 (오전/오후/야간) 동일 비율 보장
- 클러스터: 학교 단위 교육 프로그램 평가 (학생 단위 배정 시 spillover 발생)
각 변형은 검정 통계량과 표본 크기 산정에 영향을 준다. 단순 t 검정은 단순 무작위 배정에 적합하고, 클러스터 배정에는 클러스터 robust 표준 오차 또는 혼합 모형이 필요하다.
5.2 IT 산업의 무작위 배정 구현
IT A/B 테스트의 무작위 배정은 결정론적이지만 통계적으로 무작위 인 구조를 갖는다.
사용자 ID → 해시 함수 (예: SHA-256) → 0~99 의 정수 → variant 배정
이 절차는 같은 사용자가 항상 같은 variant 를 받도록 보장 (sticky bucketing) 하면서도, 사용자 ID 와 variant 사이에 통계적 독립을 만든다. 핵심은 해시 함수의 균일성 이다. 좋은 해시 함수는 비슷한 ID 라도 전혀 다른 해시 값을 만들어, variant 배정이 사용자 속성과 상관되지 않게 한다.
다중 실험 환경에서는 layer-based 또는 namespace-based 배정 (Tang et al., 2010, “Overlapping Experiment Infrastructure”) 으로 여러 실험이 충돌 없이 공존할 수 있게 한다. 이는 후속 시리즈에서 다룬다.
6 Fisher vs Neyman-Pearson — 한 표로 비교
Ch.2 의 절반은 Fisher 와 Neyman-Pearson (NP) 의 분기를 다룬다. 후속 글 A-MAX2-2 에서 자세히 다루지만, 압축 비교는 다음과 같다.
| 항목 | Fisher | Neyman-Pearson |
|---|---|---|
| 검정의 목적 | 자료 요약·논증 보조 | 두 대안 사이 의사결정 |
| 가설 | \(H_0\) 만 명시 | \(H_0\) 와 \(H_1\) 모두 명시 |
| 오류 개념 | \(p\) 값 (자료의 극단성) | \(\alpha\) (제1종), \(\beta\) (제2종) |
| 검정력 | 명시적이지 않음 | 핵심 개념 (\(1 - \beta\)) |
| 결론 형식 | “정확한 \(p\) 값을 보고하라” | “기각 / 기각하지 못함” 이분법 |
| 표본 크기 | 실험 후 해석 강조 | 실험 전 사전 산출 강조 |
현재 관행은 두 전통의 혼합 (amalgam) 이다 (Gigerenzer, 1993). 사전에 \(\alpha\) 와 표본 크기를 정하지만 (NP), 실제로는 정확한 \(p\) 값을 보고한다 (Fisher). 이 혼합이 흔한 오해를 만든다. 예를 들어 “\(p = 0.05\) 면 95 % 재현된다” 는 진술은 Fisher 의 \(p\) 값을 NP 의 검정력으로 잘못 해석한 결과이다 (실제 재현 검정력은 약 0.50 에 불과하다, Greenwald et al., 1996).
이 오해가 왜 발생하는지 직관으로 풀어 본다. \(p = 0.05\) 는 “\(H_0\) 가 참일 때 관측만큼 극단적인 결과가 우연히 나올 확률” 이다. 그런데 사람들은 이를 “\(H_0\) 가 거짓일 확률” 또는 “다음 실험도 유의할 확률” 로 무의식 중에 뒤집어 읽는다. 두 확률은 조건이 정반대 라 일반적으로 같지 않다. 예를 들어 의사가 “이 검사는 환자가 병이 있을 때 95 % 양성이 나옵니다” 라고 말한 것을, 환자가 “내 양성 결과는 95 % 확률로 병이 있다는 뜻이다” 로 듣는 오류와 같은 구조이다 (베이즈 정리상 두 값은 사전 확률에 따라 크게 다를 수 있다). 자세한 구분은 후속 글 A-MAX2-2 에서 다룬다.
7 분포 기반 검정으로의 전환 — Randomization 의 근사로서
Randomization 검정은 모든 가능한 재배정 (Bayley twin 자료의 경우 \(2^{10} = 1024\) 가지) 의 합 분포를 계산해야 한다. 자료가 커지면 계산이 폭증한다. Fisher 는 이 한계를 정규성 가정 + 중심극한정리 (CLT) 로 우회했다.
중심극한정리 (CLT): 독립인 확률변수의 합은 분포 형태에 거의 무관하게 정규에 근사한다. 이 정리가 z, t, F 검정의 분포를 정당화한다.
이때 핵심 통찰은 다음이다. z, t, F 검정의 정당성은 모집단 자체가 정규라는 사실에 있지 않다. 표본이 정규에 가까운 합 형태 통계량 (표본 평균, F 비) 을 사용하기 때문에 CLT 로 검정 분포가 근사적으로 정규가 된다. 그리고 이 정규 근사가 randomization 분포와도 매우 가깝다는 것이 이론적으로 (Wald & Wolfowitz, 1944) 와 시뮬레이션으로 (Boik, 1987) 입증되었다.
직관적으로, 원자료 와 통계량 을 구분해야 한다. A/B 테스트에서 한 사용자의 매출 (원자료) 은 0 원 (구매 안 함) 이거나 큰 금액 (구매함) 이라 매우 비대칭이다. 그러나 수만 명 평균 매출 (통계량) 은 사용자별 매출들의 합을 사용자 수로 나눈 값이고, CLT 에 의해 정규에 근사한다. 검정은 원자료가 아니라 통계량의 분포에서 일어나므로, 모집단의 비정규성은 통계량 단위에서 거의 자동으로 완화된다. 이 사실이 A/B 테스트가 매출 같은 lognormal-스러운 지표에도 t 검정으로 안전하게 운용되는 이유이다 (단, 표본이 충분할 때).
만약 자료의 분포가 매우 비대칭이고 표본이 작다면 (\(n < 20\)), CLT 근사가 약해진다. 이때 두 가지 우회 경로가 있다.
- Randomization 으로 회귀: 분포 가정을 포기하고 직접 재배정 분포를 계산한다 (현대 컴퓨팅 환경에서는 1024 회는 무시할 비용이다).
- Robust 방법: Welch 의 F, Brown-Forsythe, Kruskal-Wallis 등 가정 위반에 강건한 절차를 쓴다 (Maxwell Ch.3 후반에서 다룬다).
A/B 테스트에서 클릭률이나 매출액의 분포가 극단적으로 한쪽으로 치우친다면, 부트스트랩 (bootstrap) 이나 permutation 검정이 t 검정보다 더 안전한 선택이다. 부트스트랩은 별도 글 A-BUI7-* 에서 다룬다.
8 왜 Fisher 전통을 이해해야 하는가 — 5 가지 이유
이 글의 4 단계가 단순한 통계 역사 학습이 아닌 이유는 다음과 같다.
- 검정의 정당성 출처 이해 — 정규성 가정은 충분 조건 이지 필요 조건 이 아니다. 이 사실을 모르면 비정규 자료에 t 검정을 쓰는 것이 부정직처럼 느껴지지만, 사실은 CLT + randomization 으로 정당화된다.
- 검정과 추정의 구분 — Fisher 의 유의성 검정은 극단성 측정 이고, NP 의 검정력은 대안 가설 하의 검출 능력 이다. 효과 크기와 신뢰 구간은 효과 크기 추정 이다. 세 차원이 다르므로 보고에 모두 포함해야 한다.
- 사전 vs 사후 결정의 구분 — \(\alpha\), \(n\), 검정 방향성은 사전에 정해야 한다. 사후에 정하면 다중 비교 문제로 \(\alpha\) 가 인플레이션된다. 이 원칙이 sequential testing, alpha spending 같은 절차의 동기다.
- 모집단 vs 표본 추론의 구분 — 무작위 배정은 표본 내 인과 추론을 정당화하고, 모집단 일반화는 비통계적 근거 가 필요하다. A/B 테스트가 한 시점의 사용자에서 효과를 측정한 것을 미래 모든 사용자로 일반화하려면 도메인 지식이 추가된다.
- 비모수 vs 모수 검정의 트레이드오프 이해 — Randomization 검정은 가정이 약하지만 모수 추론을 직접 주지 못한다. t 검정은 가정이 강하지만 신뢰 구간을 직접 계산한다. 둘은 보완재이지 대체재가 아니다.
이 5 가지 이해가 자리잡으면, 후속 챕터의 수식 (F 검정, ANOVA, 다중 비교) 이 단순한 절차가 아니라 왜 이 절차가 필요한가 의 답으로 읽힌다.
9 실험 설계 lens — RCT 와 A/B 테스트로의 연결
Fisher 의 Ch.2 결론은 두 분야에서 그대로 작동한다.
임상 RCT: Fisher 의 비료 실험 → Bradford Hill 의 1948 streptomycin 결핵 시험 → 현대 의약품 승인의 Phase III RCT. 무작위 배정이 인과 추론의 토대를 만든다는 원리는 변하지 않았다.
IT A/B 테스트: 사용자 ID 기반 hash 배정으로 변형 (variant) 을 무작위 할당하면, 동일한 추론 논리가 적용된다. 차이점은 (a) 표본 크기가 수백만 단위로 크고, (b) 실시간 적응적 분석 (sequential testing) 이 가능하며, (c) 다중 비교 문제가 메트릭 수만큼 증폭된다는 점이다. 그러나 검정 분포의 정당성이 무작위 배정에서 온다는 사실은 동일하다.
| 분야 | 무작위 단위 | 처치 | 결과 변수 |
|---|---|---|---|
| 농업 (Fisher 1925) | 토지 plot | 비료 종류 | 작물 수확량 |
| 임상 RCT | 환자 | 신약 vs 위약 | 사망률, 생존률 |
| IT A/B 테스트 | 사용자 ID | UI 변형 | 클릭률, 전환율 |
| 정책 평가 | 학교/지역 | 교육 프로그램 | 학업 성취도 |
| 마케팅 캠페인 | 잠재 고객 ID | 이메일 제목 / 광고 | 클릭률, 구매율 |
| 추천 시스템 | 세션 ID | 추천 알고리즘 변형 | 체류 시간, 재방문율 |
| 자율주행 시뮬레이션 | 시나리오 | 알고리즘 버전 | 사고율, 효율 |
이 응용 분야의 공통 구조는 다음과 같다.
무작위 배정 → 처치 적용 → 결과 측정 → 통계 검정 → 의사결정
각 단계는 Fisher 전통의 4 단계와 1:1 로 대응한다. 무작위 배정은 검정 분포를 만들고, 통계 검정은 randomization 또는 정규 이론 근사로 p 값을 계산하며, 의사결정은 Fisher 보고 + NP 결정 규칙의 혼합이다. 따라서 한 분야에서 다른 분야로 이동할 때 통계 절차의 골격은 거의 동일 하다. 다만 (a) 무작위 단위, (b) 효과 크기의 의미, (c) 다중 비교 구조가 분야마다 다를 뿐이다.
10 정규성과 중심극한정리 — 역사적 사례
CLT 가 경험적으로 작동한다는 사실은 19 세기에 발견됐다. Maxwell Ch.2 가 인용하는 두 사례를 짧게 정리한다.
10.1 Bessel 1818 — 별 위치 측정 오차
천문학자 Friedrich Bessel 은 영국 천문대장 Bradley 의 60000 회 별 위치 관측 자료에서 300 개를 추출하여 오차 분포 를 조사했다. 결과는 다음과 같다.
| 오차 범위 (초) | 관측 빈도 | 정규 분포 예측 |
|---|---|---|
| 0.0 ~ 0.1 | 114 | 107 |
| 0.1 ~ 0.2 | 84 | 87 |
| 0.2 ~ 0.3 | 53 | 57 |
| 0.3 ~ 0.4 | 24 | 30 |
| 0.4 ~ 0.5 | 14 | 13 |
| 0.5+ | 11 | 6 |
대부분의 구간에서 정규 분포 예측이 관측을 잘 설명한다. 이 발견이 오차 분포는 정규에 가깝다 는 일반화의 발판이 되었다 (Stigler, 1999, p. 190ff).
10.2 Galton 의 인체 측정과 인지 측정
Francis Galton 은 1880 년대 런던 인체측정소에서 키·체중·시력·기억력 등을 수만 명에서 측정하여 모두 정규 분포에 가깝게 분포함을 보였다. Galton 의 유명한 표현:
“그리스인들이 이 분포를 알았다면 신격화했을 것이다 — 우주적 질서를 표현하는 빈도 법칙이라고” (Galton, 1889).
20 세기 들어 MMPI (Minnesota Multiphasic Personality Inventory) 의 hypochondriasis 척도 점수도 종 모양을 보였다 (McKinley & Hathaway, 1956). 다만 모든 행동 자료가 정규는 아니다 — Micceri (1989) 는 440 개 대표본 척도 모두에서 통계적으로 유의한 비정규성을 보였다고 보고했다.
10.3 결론 — 정규성은 근사 의 문제
따라서 정규성 가정은 모든 자료가 정확히 정규 라는 주장이 아니라, t·F 검정의 작동 조건이 충분히 충족되는 정도의 근사 라는 의미이다. CLT 가 표본 평균 수준에서 이 근사를 강력하게 뒷받침하므로, 모집단의 약간의 비정규성은 대부분 흡수된다.
11 검정 방향성 — 사전 결정의 중요성
Fisher 와 NP 모두에서, 검정의 방향성 (one-tailed vs two-tailed) 은 자료를 보기 전에 정해야 한다. 이 원칙은 단순해 보이지만 자주 위반된다.
11.1 One-tailed vs Two-tailed
| 유형 | 가설 형태 | 예시 |
|---|---|---|
| Two-tailed | \(H_1: \theta \neq \theta_0\) | “신약과 위약의 효과가 다른가?” |
| One-tailed (right) | \(H_1: \theta > \theta_0\) | “신약이 위약보다 효과가 큰가?” |
| One-tailed (left) | \(H_1: \theta < \theta_0\) | “처치 후 측정값이 감소했는가?” |
같은 자료에 대해 one-tailed p 값은 two-tailed p 값의 절반이다 (대칭 분포 기준). 따라서 자료를 보고 나서 방향을 정하면, 사실상 양쪽을 검정한 후 한쪽만 보고하는 셈이라 \(\alpha\) 가 두 배로 인플레이션된다.
A/B 테스트에서 흔한 실수: “어쨌든 새 variant 가 나아질 것이라 기대했으니 one-tailed 로 분석한다.” 이 논리는 사전 등록되지 않은 한 약한 변명이다. 두 방향 모두 결과를 보고할 의사결정 함의가 있는지 (예: 효과가 음수면 롤백할 것인지) 가 진짜 기준이다. 음수 효과도 의사결정에 영향이 있다면 two-tailed 가 정직하다.
11.2 Bayley twin 사례의 방향성 결정
Maxwell Ch.2 의 Bayley 데이터에서 randomization p 값이 one-tailed 0.039, two-tailed 0.078 이었음을 떠올린다. \(\alpha = 0.05\) 기준에서 one-tailed 면 기각, two-tailed 면 기각하지 못한다. 같은 자료, 다른 결론.
이것이 사전에 방향을 정해야 하는 이유다. 결과를 본 뒤 “유의하게 보이도록” 방향을 고르는 것은 데이터 스누핑 (data snooping) 이고, 본질적으로 다중 비교 문제다.
12 코드 예시 — Fisher’s exact test 한 줄
Lady Tasting Tea 의 핵심 계산 (\(\binom{8}{4} = 70\), \(p = 1/70 \approx 0.014\)) 을 Python 으로 검증한다. 자세한 유도는 후속 글 A-MAX2-1 에서 다룬다.
from math import comb
from scipy.stats import fisher_exact
# 8잔 중 4잔이 MF, 4잔이 TF; lady 가 모두 정확히 분류
# 가능한 경우의 수: 8C4 = 70
print(comb(8, 4)) # 70
# 정확히 맞춘 경우 1 / 70 = 0.0143
table = [[4, 0], # 정답 MF | 정답 TF (lady 가 MF 라 분류한 것)
[0, 4]] # 정답 MF | 정답 TF (lady 가 TF 라 분류한 것)
odds, p = fisher_exact(table, alternative='greater')
print(f"p-value (one-sided) = {p:.4f}") # 0.0143
# 한 잔만 틀린 경우 (3 정답)
table_3 = [[3, 1],
[1, 3]]
odds_3, p_3 = fisher_exact(table_3, alternative='greater')
print(f"3 정답 p-value = {p_3:.4f}") # 0.2429
# 한 잔 틀려도 우연 가설로 충분히 설명됨
# CLT 시뮬레이션 — 비정규 분포의 표본 평균은 정규에 근사
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(42)
sample_means = [np.random.exponential(1, 30).mean() for _ in range(5000)]
print(f"표본 평균의 평균: {np.mean(sample_means):.3f}") # 1.0 근사
print(f"표본 평균의 표준편차: {np.std(sample_means):.3f}") # 1/sqrt(30) ≈ 0.183
# 표본 평균 분포가 종 모양인지 정규성 검정
from scipy.stats import shapiro
_, p_norm = shapiro(sample_means[:500])
print(f"표본 평균 분포 정규성 p = {p_norm:.4f}") # 일반적으로 0.05 이상이 코드의 마지막 블록이 보여 주는 것은 다음과 같다. 원 분포는 지수 분포 (강한 우편향) 이지만 30 개 표본의 평균을 5000 번 반복하면 그 분포는 거의 정규에 수렴한다. CLT 의 시각적 실증이며, 이 사실이 t·F 검정이 비정규 자료에도 작동하는 이유다.
13 Fisher 의 핵심 기여 5 가지
Maxwell Ch.2 가 다루지 않는 부분까지 포함해 Fisher 의 통계학 기여를 5 가지로 정리하면 다음과 같다.
| 기여 | 도입 시기 | 핵심 의미 |
|---|---|---|
| 무작위 배정 | 1925~1935 | 검정의 정당성을 표집이 아닌 배정에서 도출 |
| 분산분석 (ANOVA) | 1925 | 변동을 출처별로 분해하는 모형 비교 |
| F 분포 / F 검정 | 1924 | 두 분산비의 분포 (Fisher’s name) |
| 최대 가능도 (MLE) | 1922 | 모수 추정의 일관성·효율성 정당화 |
| 실험 설계 원리 | 1935 | replication, randomization, blocking 의 3 원리 |
이 5 가지가 Maxwell 책 16 장의 골격이다. 후속 글들은 이 골격의 각 부분을 현대 의 시각 — 비모수 대안, 부트스트랩, 혼합 모형, 시퀀셜 검정 — 으로 보강한다. Fisher 의 1920~30 년대 성과가 100 년 동안 지속되면서도 끊임없이 새 기술과 결합한다는 사실은, 그가 만든 골격이 이론적으로 견고하다는 증거다.
14 Maxwell Ch.2 가 전체 책의 어디에 위치하는가
Maxwell & Delaney 의 16 장 구조에서 Ch.2 는 역사·철학적 도입 으로 자리한다. 이후 챕터들이 이 도입을 모형 비교 (model comparison) 관점으로 일반화한다.
| Part | 챕터 | 주제 | Ch.2 와의 관계 |
|---|---|---|---|
| I | Ch.1, 2 | 실험 설계 논리 + Fisher 전통 | 도입 |
| II | Ch.3~10 | 피험자 간 설계 (between-subjects) | F 검정의 일반화 |
| III | Ch.11~14 | 피험자 내 설계 (within-subjects) | 반복측정으로 확장 |
| IV | Ch.15, 16 | 다층 모형 | 무작위 효과 일반화 |
Ch.2 의 randomization 검정 논리는 Ch.3 의 F 검정에서 모형 비교 로 재포장된다. 즉 “전체 모형 (full model) 이 제한 모형 (restricted model) 보다 데이터를 얼마나 더 잘 설명하는가” 를 묻는 형태로 일반화된다. 이 일반화가 Ch.4 (대비), Ch.5 (다중 비교), Ch.7~8 (요인 설계), Ch.9 (ANCOVA) 까지 일관된 골격으로 이어진다.
따라서 Ch.2 를 건너뛰어도 Ch.3 이후의 수식을 따라갈 수는 있다. 그러나 왜 F 통계량의 분포가 정당화되는지, 왜 무작위 배정이 인과 추론의 발판인지를 이해하려면 Ch.2 의 4 단계가 필수다. 이 글이 Ch.2 의 핵심을 압축한 이유가 여기에 있다.
15 가설 검정과 신뢰 구간 — 같은 자료의 두 시각
마지막으로 가설 검정과 신뢰 구간 (CI) 의 관계를 짧게 짚는다. 둘은 같은 자료의 다른 표현이다.
수준 \(\alpha\) 의 양측 검정에서 \(H_0: \theta = \theta_0\) 을 기각하지 못하는 모든 \(\theta_0\) 의 집합은, 수준 \(1 - \alpha\) 의 신뢰 구간과 일치한다.
즉 95 % CI 가 \([L, U]\) 라면, \(\theta_0 \in [L, U]\) 인 모든 귀무가설은 5 % 수준에서 기각되지 않는다.
이 쌍대성의 함의는 다음과 같다.
- 신뢰 구간을 보고하면 모든 가능한 \(H_0\) 에 대한 검정 결과를 한꺼번에 표현한 셈이다.
- \(p > 0.05\) 라는 보고는 “\(H_0\) 가 95 % CI 안에 있다” 와 동치다.
- 효과 크기 + CI 보고는 점추정 + 검정의 정보를 모두 포함한다.
따라서 현대 통계 보고는 p 값보다 CI 우선 을 권장한다 (Cumming, 2014). p 값은 한 점에서의 양립 가능성을, CI 는 양립 가능한 점들의 범위를 보여 주기 때문이다. 그러나 의사결정 단위에서 0 과의 차이 가 핵심이라면 (예: A/B 테스트의 효과 부호), p 값과 CI 둘 다 보고하는 것이 표준이다.
16 정리 — Fisher 전통의 4 단계 한 줄 요약
| 단계 | 핵심 통찰 | 후속 글 |
|---|---|---|
| 이산 확률 | 자료 자체가 검정 분포를 만든다 | A-MAX2-1 |
| Randomization | 부호 섞기로 임의의 수치 자료에 일반화 | A-MAX2-1 |
| Fisher vs NP | 두 전통의 분기와 현재의 혼합 | A-MAX2-2 |
| 분포 가정 | randomization 의 근사로 정당화 | A-MAX2-3 |
이 4 단계를 한 문장으로 압축하면 다음과 같다. 무작위 배정이 검정 분포를 만들고, 정규 이론은 그 분포에 대한 효율적 근사이다. 이 한 문장이 Maxwell Ch.2 의 본질이며, 후속 모든 챕터의 출발점이다.
17 후속 글로의 안내
이 overview 는 Ch.2 의 4 단계를 한눈에 본 것에 그친다. 각 단계의 수식·자료·논쟁은 후속 글에서 다룬다.
- A-MAX2-1 — Lady Tasting Tea + Randomization Test. \(\binom{8}{4}\) 의 도출, Bayley twin 자료의 \(2^{10}\) 재배정 분포 구성.
- A-MAX2-2 — Fisher vs Neyman-Pearson. p 값의 두 해석, replication fallacy, inverse probability fallacy, 현재 관행이 두 전통의 혼합인 이유.
- A-MAX2-3 — z·t·F 와 정규성 가정. CLT 의 역할, randomization 과 t 검정의 근사 관계, robust 대안의 동기.
18 관련 주제
선행 지식
- 가설 검정 개요 — 귀무가설, 기각역, 검정력 — Casella & Berger 수리통계 lens
- p 값의 이론과 실무 — 유효 p 값의 정의와 ASA 6원칙
후속 주제 (Phase A)
다른 카테고리 연결
- A/B 테스트 메커니즘 — Fisher 무작위 배정의 IT 버전
- 연구 설계 개관 — RCT 가 인과 추론의 표준이 되는 이유
- Experimentation 학습 로드맵 — 카테고리 진입점