Kwangmin Kim - 분포 가정과 z·t·F 검정의 등장

1 도입 — 왜 분포 가정이 필요했는가

Randomization 검정은 분포 가정 없이 정확한 p 값을 준다. 그렇다면 왜 z·t·F 검정이 표준이 되었는가? Maxwell Ch.2 의 답은 두 가지다.

계산 비용 — \(n = 30\) 만 되어도 \(2^{30} \approx 10^9\) 개의 부호 배열을 다뤄야 한다. 1930 년대에는 손계산으로 불가능했고, 지금도 모든 분석에 적용하기는 비싸다.
모수 추론으로의 확장 — Randomization 검정은 “두 그룹이 같은 분포에서 추출되었는가” 를 묻지, 모집단 평균의 신뢰 구간 같은 모수적 추론을 직접 주지 않는다.

이 두 한계가 정규 이론 기반 검정 (z, t, F) 으로의 전환을 정당화한다. 그런데 핵심 통찰은 다음이다. z·t·F 검정의 정당성은 모집단이 정규라는 사실에 있지 않다. 검정 통계량의 분포가 randomization 분포에 근사하기 때문에 정당화된다 (Maxwell & Delaney, 2004, Ch.2; Kempthorne, 1955).

정의: 분포 기반 검정 (Distributional Test)

검정 통계량의 표집 분포를 이론적 확률 분포 (z, t, F 등) 로 가정하여 p 값을 표나 함수에서 조회하는 검정이다.

z 검정: 표본 평균의 분포가 알려진 분산을 가진 정규
t 검정: 분산이 미지일 때, \(t = (\bar{X} - \mu_0)/(s/\sqrt{n}) \sim t_{n-1}\)
F 검정: 두 분산 비, 또는 분산분석에서 모형 비교 통계량

2 정규성 가정 — 어디에 들어가는가

t 검정과 F 검정은 다음 가정 하에 정확히 작동한다.

모집단의 종속 변수가 정규 분포를 따른다.
표본 관측치가 독립이다.
(등분산 검정의 경우) 두 그룹의 분산이 동일하다.

가정 1 이 언제 그리고 왜 필요한지를 정확히 짚는 것이 중요하다. 다음 두 진술은 다르다.

진술	정확한가
(A) “모집단이 정규여야 t 검정이 정당하다”	부정확
(B) “검정 통계량의 표집 분포가 t 분포에 근사해야 정당하다”	정확

는 강한 조건이고, (B) 는 약한 조건이다. 후자가 만족되는 길은 두 가지다.

모집단이 실제로 정규다 (\(\Rightarrow\) 표본 평균도 정규).
모집단이 정규가 아니어도 표본 크기가 충분히 크다 (\(\Rightarrow\) 중심극한정리에 의해 표본 평균이 정규에 근사).

따라서 t·F 검정은 “모집단 정규” 보다 훨씬 약한 조건에서도 작동한다. 이 사실의 핵심에 중심극한정리가 있다.

3 중심극한정리 — 정규 이론의 발판

정리: 중심극한정리 (Central Limit Theorem, CLT)

\(X_1, X_2, \ldots, X_n\) 이 독립이고 동일한 분포 (i.i.d.) 를 따르며 \(E(X_i) = \mu\), \(\operatorname{Var}(X_i) = \sigma^2 < \infty\) 라 하자. 그러면 표본 평균 \(\bar{X}_n\) 은 \(n \to \infty\) 일 때

\[ \sqrt{n} \cdot \frac{\bar{X}_n - \mu}{\sigma} \xrightarrow{d} N(0, 1) \]

으로 분포 수렴한다.

CLT 가 놀라운 이유는 원 분포 \(X_i\) 의 형태에 거의 제약이 없기 때문이다. \(X_i\) 는 이산일 수 있고, 비대칭일 수 있고, 분산이 클 수도 작을 수도 있다. 그래도 합 형태 통계량 은 정규에 근사한다 (Stigler, 1986, Ch.7).

이 정리가 정규 이론을 두 가지로 정당화한다.

합 자체가 자료 — 행동 과학에서 우울증 척도 (40 문항 합) 같은 합산 점수는 CLT 에 의해 자연스럽게 정규에 근사한다.
표본 평균이 통계량 — 자료 자체가 정규가 아니어도 표본 평균은 정규에 근사하므로, 표본 평균을 사용하는 z·t·F 검정은 견고하다.

직관 — CLT 를 시뮬레이션으로 시각화

가상의 시뮬레이션을 떠올려 본다. 다음 세 분포에서 표본을 추출한다고 하자.

분포 A: 동전 던지기 (0 또는 1)
분포 B: 균등 [0, 1] (사각형)
분포 C: 지수 분포 (강한 우편향)

각 분포에서 1 개를 뽑아 1000 번 반복하면 히스토그램이 원 분포 모양 그대로 나온다 (A: 두 막대, B: 사각형, C: 우편향 곡선).

이제 각 분포에서 30 개를 뽑아 평균 을 내고, 그 평균을 1000 번 반복한 히스토그램을 그린다. 어떤 모양이 나오는가?

세 경우 모두 종 모양 (정규에 가까움) 이다. 원 분포가 무엇이었든, 평균 의 분포는 종 모양으로 수렴한다. 이것이 CLT 의 시각적 본질이다.

A/B 테스트에 적용하면, 사용자별 매출 (원자료) 이 강한 우편향이라도 수만 명 평균 매출 (통계량) 은 종 모양에 가깝다. 검정은 통계량 단위에서 일어나므로, 매출이 정규가 아니어도 표본이 충분히 크면 t 검정이 안전하다.

이 직관이 깨지는 경우는 다음 두 가지뿐이다. (a) 표본이 너무 작아 (\(n < 20\)) CLT 가 약하게 작동, (b) 분산이 무한하거나 매우 두꺼운 꼬리가 있어 CLT 의 유한 분산 가정이 깨짐 (Cauchy 분포 등).

직관 — CLT 가 “마법” 인 이유

극단적 사례를 생각하자. 주사위 한 번 굴리는 분포 (\(X_i \in \{1, 2, 3, 4, 5, 6\}\)) 는 균등 이산 분포이다. 정규와 거리가 멀다. 그런데 주사위를 30 번 굴린 합 의 분포는 어떻게 보이는가? 종 모양 (정규) 에 가깝게 나온다. 이 사실은 시뮬레이션으로 쉽게 확인된다.

A/B 테스트의 매출 지표가 강한 우편향이라 해도, 표본이 충분히 크면 표본 평균 은 정규에 가까워진다. 이것이 대규모 A/B 테스트에서 t 검정이 안전한 이유이다. 그러나 자료가 매우 비대칭이고 표본이 작으면 (\(n < 20\)), 근사가 약해지므로 robust 대안 또는 randomization 으로 회귀해야 한다.

4 Randomization 과 t 검정의 근사 관계

Pitman (1937), Wald & Wolfowitz (1944) 는 다음을 증명했다. 무작위 배정 분포의 분포 수렴 극한이 t 분포이다. 즉 \(n \to \infty\) 일 때 두 검정의 p 값이 일치한다.

이 사실의 함의는 결정적이다.

“유의성 검정은 정규 이론을 통해 자주 제시되어 왔으나, 그 타당성은 무작위 배정 이론에서 나온다” (Kempthorne, 1955, p. 947).

따라서 t·F 검정을 사용할 때 암묵적으로 randomization 검정을 근사하고 있는 셈이다. Bayley twin 사례 (\(n = 10\)) 에서도 두 p 값의 차이는 0.008 에 불과했다. 일반 실험 규모 (\(n > 30\)) 에서는 차이가 거의 무시할 수준이 된다.

직관 — 이산 막대 그래프와 연속 곡선의 매칭

Bayley twin 사례를 다시 떠올린다. Randomization 분포는 1024 개 이산 점 으로 이루어진 막대 그래프다. t 분포는 연속 곡선 이다. 두 그래프를 겹쳐 그리면, 막대 그래프의 윤곽이 t 곡선과 거의 정확히 일치한다.

표본이 커질수록 막대 그래프의 점들이 촘촘해지고 (\(n = 30\) 이면 \(2^{30} \approx 10^9\) 점), 윤곽이 더 매끈해져 t 곡선과 구분이 어려워진다. Pitman 정리는 극한에서 두 곡선이 같다 는 사실을 정밀하게 증명한 것이다.

이 직관이 시사하는 바는 두 가지다. (a) 우리가 t 검정을 사용할 때, 사실은 컴퓨터로 직접 계산하기 어려운 randomization 검정을 t 표를 이용해 근사하는 것이다. (b) 따라서 t 검정의 수학적 정당성 은 모집단 정규성이 아니라 randomization 의 분포 수렴 성질에서 나온다. 모집단이 정규가 아니어도 무작위 배정만 있으면 t 검정이 작동하는 이유가 여기에 있다.

랜덤화가 깨진 관찰 자료 (예: 자기 선택된 코호트) 에서는 이 정당성이 사라진다. 이때는 모집단 정규성·이지향성·동질성 등 추가 가정 위에서만 t 검정이 의미를 갖는다.

표본 크기	Randomization vs t 차이 (대략)
\(n = 10\)	\(\sim 0.01\)
\(n = 30\)	\(\sim 0.001\)
\(n = 100\)	\(\sim 0.0001\)
\(n > 1000\)	거의 동일

이 사실은 A/B 테스트에서 왜 t 검정이 표준이 되는가 를 설명한다. 사용자 ID 무작위 배정으로 통제 실험을 만들고, 표본은 보통 \(10^5\) 이상이므로 t 검정은 사실상 randomization 검정의 효율적 대용품이다.

5 편의 표본 (Convenience Sample) — 외적 타당성의 위치

전통적 통계 이론은 모집단으로부터 무작위 표집 을 가정한다. 그러나 행동 과학과 IT 실무 모두 그렇지 않다.

영역	표집 vs 배정	통계 추론의 토대
농업 (Fisher)	무작위 배정 (plot 단위)	무작위 배정
임상 RCT	자원자 모집 (편의), 환자 내 무작위 배정	무작위 배정
심리학 실험	학부생 자원자 (편의), 처치 무작위 배정	무작위 배정
IT A/B 테스트	사용자 트래픽 (편의), variant 무작위 배정	무작위 배정
정부 인구 조사	모집단 무작위 표집	무작위 표집

대부분 실험은 편의 표본 + 처치 무작위 배정 의 조합이다. 이 조합에서 통계 검정은 현재 표본 내에서 의 인과 효과를 추론하는 것이지, 모집단 평균 을 추론하는 것이 아니다.

“표본 내 추론이 모집단으로의 일반화로 이어지려면 비통계적 근거 (도메인 지식·재현 연구) 가 필요하다” (Maxwell & Delaney, 2004, Ch.2).

A/B 테스트의 결과를 “이 사용자군에서는 효과가 있었다” 와 “모든 사용자에게 일반화된다” 로 구분하는 신중함이 여기서 나온다. 후자는 통계 분석이 아니라 재현·세그먼트 분석 의 영역이다.

6 정규 분포의 역사 — De Moivre 에서 Laplace 까지

Maxwell Ch.2 가 다루지 않는 정규 분포의 수학적 기원 을 짧게 정리하면 CLT 의 의미가 더 분명해진다.

6.1 1733 De Moivre — 이항 분포의 극한

Abraham De Moivre (1667-1754) 는 이항 분포 \(B(n, 0.5)\) 의 극한을 연구하며, \(n\) 이 클 때 다음 근사를 발견했다.

\[ \Pr(X = k) \approx \frac{1}{\sqrt{2\pi n / 4}} \exp\left(-\frac{(k - n/2)^2}{n/2}\right) \]

오른쪽이 정규 분포의 PDF 형태다. De Moivre 는 정규 분포라는 이름 을 쓰지 않았고, 단지 이항 계산의 단순화 도구로 봤다.

6.2 1810 Laplace — 일반 CLT

Pierre-Simon Laplace 는 1810 년 Théorie analytique des probabilités 에서 De Moivre 의 결과를 일반화했다. 임의의 (특정 조건을 만족하는) 분포에서 추출한 독립 표본의 합이 정규 분포에 수렴한다는 최초의 일반 CLT 였다.

6.3 1809 Gauss — 오차 분포

Gauss 는 천체 관측 오차를 분석하며 오차의 분포 가 정규임을 가정하고 최소제곱법의 정당성을 증명했다. 이 작업이 정규 분포에 “Gaussian” 이라는 이름을 붙이는 계기가 됐다.

이 세 발견이 모여 19 세기에 정규 분포가 통계학의 중심에 자리잡았다. 흥미롭게도 세 사람 모두 다른 동기로 정규 분포에 도달했다 — De Moivre 는 도박, Laplace 는 천문학, Gauss 는 측지학. 이 보편성이 CLT 의 깊이를 시사한다.

7 Welch’s t 검정 — 등분산 가정 완화

t 검정의 가정 중 하나는 두 그룹의 분산이 같다는 등분산성 이다. 이 가정이 깨질 때 표준 t 검정의 분포가 흐트러진다. Welch (1947) 는 이 한계를 보완한 변형을 제안했다.

7.1 표준 t 통계량 (등분산 가정)

\[ t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{1/n_1 + 1/n_2}}, \quad s_p^2 = \frac{(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2} \]

자유도 \(df = n_1 + n_2 - 2\).

7.2 Welch 의 t 통계량 (등분산 완화)

\[ t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \]

자유도는 Welch-Satterthwaite 공식으로 근사:

\[ df \approx \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)} \]

차이는 분산 추정에서 풀링 (pooling) 하지 않는다는 점이다. 분산이 다르면 풀링이 부정확해지므로 그룹별 분산을 사용한다.

7.3 실무 권장

R 의 t.test() 와 Python 의 scipy.stats.ttest_ind(equal_var=False) 는 기본값으로 Welch 를 사용한다. 이는 “등분산성을 검정한 후 t 검정 선택” 같은 다단계 절차보다, 처음부터 Welch 를 쓰는 것이 안전하다는 합의 (Ruxton, 2006) 를 반영한다. Welch 는 분산이 같을 때도 거의 같은 결과를 주므로 잃을 게 없다.

8 Mann-Whitney U — 비모수 대안

정규성 가정을 완전히 포기한 비모수 검정의 대표 격이 Mann-Whitney U (Wilcoxon rank-sum) 이다.

8.1 절차

두 그룹의 자료를 합쳐 순위 를 매긴다.
그룹 1 의 순위 합 \(R_1\) 을 계산한다.
\(U_1 = R_1 - n_1(n_1+1)/2\) 를 통계량으로 사용한다.

8.2 가설

\[ H_0: \Pr(X_1 > X_2) = 0.5 \quad \text{vs} \quad H_1: \Pr(X_1 > X_2) \neq 0.5 \]

이 가설은 분포 동일성 보다 약한 우열성 (stochastic dominance) 가설이다. 따라서 t 검정과 가설이 약간 다르다.

8.3 직관

Mann-Whitney U 의 직관은 다음과 같다. 두 그룹에서 무작위로 한 명씩 뽑아 비교하면, \(H_0\) 하에서 어느 쪽이 클 확률이 50 % 다. 자료에서 그 비율을 추정한 것이 \(U / (n_1 n_2)\) 이고, 이를 검정한다.

8.4 t 검정과의 비교

측면	t 검정	Mann-Whitney U
가정	정규성 (또는 CLT)	분포 형태 무관
가설	평균 차이	우열성
검정력	정규일 때 최강	정규일 때 약 95.5 %
자료 변환	영향 받음	단조 변환에 불변
이상치	영향 큼	순위 사용으로 영향 작음

자료가 정규에 가깝거나 표본이 큰 경우 t 검정이 검정력이 높지만, 강한 비대칭이나 이상치가 있으면 Mann-Whitney U 가 안전하다.

9 가정 위반의 영향 — 정규성·등분산·독립성

가정	위반 시	영향	대안
정규성	자료가 강한 비대칭 / 두꺼운 꼬리	작은 \(n\) 에서 검정 크기 (\(\alpha\)) 가 흐트러짐	Welch t (등분산 완화), Mann-Whitney U, randomization
등분산	두 그룹 분산이 다름	검정 크기 흐트러짐 (특히 \(n_1 \neq n_2\))	Welch’s t, Brown-Forsythe
독립성	클러스터 구조 (학교 내 학생 등)	분산 과소 추정 → \(\alpha\) 인플레이션	혼합 모형, 클러스터 robust SE

가장 위험한 위반은 독립성 이다. 정규성 위반은 CLT 로 완화되지만, 독립성 위반은 분산 추정을 직접 망가뜨린다 (Snijders & Bosker, 2012). A/B 테스트 실무에서 사용자 단위가 아닌 세션·클릭 단위로 분석하면 같은 사용자의 반복이 독립으로 잘못 처리되어 검정의 false positive 율이 폭증한다.

직관 — Robust 검정은 언제 쓰는가

기본 결정 트리:

표본이 크다 (\(n > 100\) 그룹당) → t·F 검정. CLT 가 강하게 작동한다.
표본이 중간 (\(30 \leq n \leq 100\)) → t·F 검정 + 분포 진단 (히스토그램, Q-Q plot). 큰 비대칭이 보이면 robust 또는 변환 (예: log).
표본이 작다 (\(n < 30\)) → 분포 진단 필수. 비대칭이면 randomization 또는 비모수 검정.
분산이 그룹 간 매우 다르다 → Welch t 또는 Brown-Forsythe.
클러스터 구조가 있다 → 혼합 모형 또는 cluster-robust SE.

이 트리의 핵심은 “맹목적으로 t 검정만 쓰지 않는다” 이다. 자료의 진단을 거치지 않은 검정은 의식 절차와 다를 바 없다.

10 효과 크기 (Effect Size) — p 값을 보완하는 정보

p 값은 “효과의 통계적 유의성” 을 알려 주지만 “효과의 실제 크기” 를 알려 주지 않는다. Lady Tasting Tea 사례에서 부인이 모두 맞춘 결과 (\(p = 1/70 \approx 0.014\)) 와, 8 잔이 아닌 80 잔 중 모두 맞춘 결과 (\(p = 1/\binom{80}{40}\), 천문학적으로 작음) 는 p 값으로는 후자가 훨씬 강한 증거지만, 효과 크기 로는 둘 다 “100 % 변별” 이다.

직관 — “유의성” 과 “실용성” 은 다른 차원이다

A/B 테스트 결과가 다음과 같다고 하자.

결과 A: 처치 효과 \(+0.1 \%\), \(n = 10^7\), \(p < 0.0001\)
결과 B: 처치 효과 \(+5.0 \%\), \(n = 10^3\), \(p = 0.08\)

A 는 통계적으로 매우 유의하다. 그러나 효과가 0.1 % 라 비즈니스적으로 의미 없을 수 있다 (개발 비용을 회수 못한다). B 는 통계적으로 유의하지 않다. 그러나 효과 5 % 는 실제로 크고, 단지 표본이 작아서 검정이 못 잡았을 뿐이다.

p 값만 보고 “A 채택, B 기각” 으로 결정하면 그릇된 의사결정 이다. 효과 크기와 신뢰 구간이 함께 보고되어야 한다. A 의 95 % CI 가 [+0.05 %, +0.15 %] 라면 효과는 확실히 작다는 것이고, B 의 CI 가 [−0.5 %, +10.5 %] 라면 효과 크기 추정에 불확실성이 크다는 것이다 (즉 B 는 표본을 늘려야 한다).

이 사실은 Cohen (1990, 1994) 이 평생 강조했고 ASA (2016) 의 6 원칙에 명시되었다 — “통계적 유의성과 실질적 중요성은 다른 차원이다.” 효과 크기는 후속 글 A-MAX3-3 (η², ω², Cohen’s d) 에서 자세히 다룬다.

Maxwell Ch.2 가 도입하는 효과 크기는 두 가지이다.

10.1 Phi 계수 (이산 자료)

\(2 \times 2\) 분할표에서, 두 변수의 Pearson 상관 계수와 같다. 한 잔씩 틀린 Lady Tasting Tea 사례 (3 잔 정답) 에서 phi \(= 0.50\) 이다.

Phi	효과 크기 해석
0.10	작음
0.30	중간
0.50	큼

10.2 오즈비 (Odds Ratio, OR)

\(2 \times 2\) 분할표에서, 성공 확률의 비율을 비교한다.

\[ \text{OR} = \frac{p_1 / (1 - p_1)}{p_2 / (1 - p_2)} \]

오즈비의 장점은 두 그룹의 베이스라인 확률이 달라도 효과 크기를 일관되게 비교할 수 있다는 점이다. 위험 차이 (RD = \(p_1 - p_2\)) 와 위험 비 (RR = \(p_1 / p_2\)) 도 효과 크기 후보지만, 베이스라인에 따라 해석이 달라진다.

효과 크기	정의	베이스라인 의존성
Risk Difference (RD)	\(p_1 - p_2\)	의존 (작은 \(p\) 에서 작은 RD)
Relative Risk (RR)	\(p_1 / p_2\)	의존 (변환 비대칭)
Odds Ratio (OR)	\(\frac{p_1/(1-p_1)}{p_2/(1-p_2)}\)	비교적 불변

A/B 테스트에서 전환율의 상대 변화 (Lift) 는 RR 에 해당한다. 매출 지표의 절대 변화는 RD 에 해당한다. 둘 중 무엇을 보고할지는 의사결정 단위에 따라 달라진다.

11 코드 예시 — 분포 진단과 검정 선택

import numpy as np
import scipy.stats as stats
from statsmodels.stats.weightstats import ttest_ind

np.random.seed(42)

# 시뮬레이션: 두 그룹 (큰 표본)
n_each = 200
control = np.random.exponential(scale=10, size=n_each)  # 우편향
treatment = np.random.exponential(scale=11, size=n_each)

# 정규성 진단
_, p_norm = stats.shapiro(control)
print(f"Shapiro-Wilk p (control 정규성) = {p_norm:.4f}")
# 매우 작음 — 모집단은 정규 아님

# 그러나 표본 평균은 CLT 에 의해 정규에 근사
sample_means = [
    np.random.exponential(scale=10, size=n_each).mean()
    for _ in range(2000)
]
_, p_means = stats.shapiro(sample_means)
print(f"Shapiro-Wilk p (표본 평균 정규성) = {p_means:.4f}")
# 0.05 이상 — 표본 평균은 정규 근사 OK

# t 검정 (CLT 정당화)
t_stat, p_t, _ = ttest_ind(treatment, control, usevar='unequal')  # Welch
print(f"Welch t = {t_stat:.3f}, p = {p_t:.4f}")

# 비모수 검정 (가정 약화)
u_stat, p_u = stats.mannwhitneyu(treatment, control, alternative='two-sided')
print(f"Mann-Whitney U p = {p_u:.4f}")

# Permutation 검정 (가장 약한 가정)
def perm_test(a, b, n_perm=10000):
    obs = a.mean() - b.mean()
    pooled = np.concatenate([a, b])
    n_a = len(a)
    cnt = 0
    for _ in range(n_perm):
        np.random.shuffle(pooled)
        diff = pooled[:n_a].mean() - pooled[n_a:].mean()
        if abs(diff) >= abs(obs):
            cnt += 1
    return cnt / n_perm

p_perm = perm_test(treatment, control)
print(f"Permutation p = {p_perm:.4f}")

# 효과 크기 (Cohen's d)
pooled_sd = np.sqrt((treatment.var(ddof=1) + control.var(ddof=1)) / 2)
d = (treatment.mean() - control.mean()) / pooled_sd
print(f"Cohen's d = {d:.3f}")

세 검정의 p 값이 큰 차이 없이 비슷한 결론을 주면 t 검정의 정당성이 확인된 것이다. 만약 t 검정만 유의하고 permutation 은 유의하지 않다면, t 검정의 가정 위반이 의심된다.

12 가정이 깨지면 — Robust Methods 의 역할

Maxwell Ch.3 후반에서 자세히 다루지만, 가정 위반에 대한 대안의 골격은 다음과 같다.

위반	강건 대안	원리
등분산 위반	Welch’s t / Welch F	분산 추정을 그룹별로 분리
정규성 위반 + 작은 \(n\)	Brown-Forsythe	평균 대신 중앙값 사용
정규성 위반 + 순위 데이터	Mann-Whitney U / Kruskal-Wallis	순위 변환
모든 가정 약화	Randomization / Bootstrap	분포 가정 없음

이 대안들의 트레이드오프는 검정력 이다. 가정이 실제로 충족되면 t 검정이 가장 강력하다. 가정 위반 시 robust 대안이 잘못된 신뢰 구간을 피하지만 검정력이 약간 떨어진다.

13 후속 — Phase A 의 다음 단계

Maxwell Ch.2 가 다룬 분포 가정의 도입은 후속 챕터에서 모형 비교 관점으로 일반화된다.

Ch.3 (One-Way ANOVA) — data = fit + residual 분해, 전체·제한 모형 비교, F 검정의 도출 (A-MAX3-* 시리즈).
Ch.4 (Individual Comparisons) — 평균 대비 (contrast) 와 t·F 의 관계 (\(F = t^2\)) (A-MAX4-* 시리즈).
Ch.5 (Multiple Comparison) — 여러 검정을 함께 할 때 \(\alpha\) 가 어떻게 인플레이션되는지 (A-MAX5-* 시리즈).

또한 A-WOO8-* 시리즈는 이 글의 정규 이론을 역학 표본 크기 결정 에 적용한다. A-BUI7-* 와 A-WOO14-* 시리즈는 분포 가정을 약화시킨 부트스트랩과 permutation 의 현대적 운용을 다룬다.

14 관련 주제

선행 지식

후속 주제 (Phase A)

ANOVA 를 모형 비교로 (A-MAX3-0)
일반선형모형 + One/Two-Group 확장 (A-MAX3-1)
부트스트랩 도입 (A-BUI7-0)

다른 카테고리 연결

표본 크기 계산 — 정규 이론 기반 검정력 산출
부트스트랩 표준 오차 — 분포 가정 약화 경로
순열 p 값 — randomization 검정의 모수 추론 확장