Kwangmin Kim - Appendix C — Likelihood-Ratio Statistics · Bartlett 조정의 증명 (McCullagh & Nelder)

1 서론 — 가장 이론적인 부록

McCullagh-Nelder (1989) 의 Appendix C 는 책 전체에서 가장 이론적으로 밀도가 높은 부분. 본문 §15.3 에서 “Bartlett 조정 인수가 \(b_p\) 이다” 라고 선언 했지만, \(b_p\) 가 왜 그런 값인지 는 유도하지 않았다.

Appendix C 가 그 빈자리를 채운다 — 스칼라 지수족의 단순 경우에서 Bartlett 인수

\[ b/n = \frac{5\rho_3^2 - 3\rho_4}{12} \]

가 어떻게 유도 되는지 완전 증명.

증명의 논리 흐름:

우도비 \(W^2\) 의 서명된 버전 \(W = \pm\sqrt{W^2}\).
표준화 \(X = (T-\mu_0)/\sqrt{\kappa_2}\) 와 \(W\) 의 관계식 전개.
\(W\) 의 모멘트 계산 (평균, 분산, 고차).
재표준화 \(W'\) 로 정규 분포에 근사.
\(W^2\) 의 분포 = 표준화 조정 \(W'\) 의 제곱 → \((1+b)\chi_1^2\).

이것이 Bartlett 의 수학적 심장. 본문에서 건너뛴 “왜?” 에 대한 답.

이 포스트는 Appendix C 의 단계별 유도를 직관적 해석과 함께 풀어낸다. McCullagh-Nelder (1989) 블로그 시리즈의 마지막 기술 포스트 — 책의 마지막 수학적 결론.

2 설정 — 스칼라 지수족

2.1 로그 우도 형식

McCullagh-Nelder 는 스칼라 모수 지수족 으로 설정:

\[ l(\theta; y) = n\{t\theta - K(\theta)\}, \tag{C.0} \]

\(t = t(y)\): 충분 통계량 (canonical).
\(\theta\): 정준 모수 (canonical parameter).
\(K(\theta)\): cumulant-generating 함수 (for \(T\)).

예시: - 이항: \(K(\theta) = \log(1 + e^\theta)\), \(t = \bar y\). - 포아송: \(K(\theta) = e^\theta\), \(t = \bar y\). - 정규 (분산 알려짐): \(K(\theta) = \theta^2/2\), \(t = \bar y\).

2.2 충분통계량의 Cumulants

\[ \kappa_r(T) = \frac{K^{(r)}(\theta)}{n^{r-1}}. \]

\(\kappa_1(T) = K'(\theta) = \mu\) (평균).
\(\kappa_2(T) = K''(\theta)/n\) (분산).
\(\kappa_3(T) = K'''(\theta)/n^2\), \(\kappa_4(T) = K''''(\theta)/n^3\).

표준화된 cumulants:

\[ \rho_3 = \frac{\kappa_3}{\kappa_2^{3/2}} = O(n^{-1/2}), \qquad \rho_4 = \frac{\kappa_4}{\kappa_2^2} = O(n^{-1}). \]

차수 순서: \(\rho_3 \gg \rho_4\). \(\rho_3\) 는 \(O(n^{-1/2})\), \(\rho_4\) 는 \(O(n^{-1})\).

2.3 MLE

점수 방정식 \(\partial l/\partial\theta = n(t - K'(\theta)) = 0\) → \(K'(\widehat\theta) = t\). 역함수:

\[\widehat\theta = g(t), \quad g = (K')^{-1}.\]

3 우도비 통계량 \(W^2\) (C.1)

3.1 유도

\[W^2 = 2l(\widehat\theta) - 2l(\theta_0).\]

(C.0) 대입:

\[ W^2 = 2n\{t\widehat\theta - K(\widehat\theta) - t\theta_0 + K(\theta_0)\}. \]

\(\widehat\theta = g(t)\), \(\theta_0\) 는 \(H_0\) 하 모수값. 표기 단순화를 위해 \(h(t) = K(g(t))\) 정의:

\[ W^2 = 2n\{tg(t) - tg(\mu_0) + h(t) - h(\mu_0) - t\theta_0 + K(\theta_0) + tg(\mu_0) - K(\theta_0)\}. \]

\(\mu_0 = K'(\theta_0)\) 이므로 \(\theta_0 = g(\mu_0)\). \(tg(\mu_0) = t\theta_0\).

재정리:

\[ \boxed{\; W^2 = 2n\{tg(t) - tg(\mu_0) + h(t) - h(\mu_0)\}. \;} \tag{C.1} \]

3.2 서명된 \(W\)

\[ W = \text{sgn}(t - \mu_0) \sqrt{W^2}. \]

\(W\) 의 부호: \(t > \mu_0\) 이면 \(W > 0\), 반대면 \(W < 0\).

\(W\) 가 \(t - \mu_0\) 의 단조 증가 함수 — \(t\) 가 커질수록 \(W\) 도 커진다. 이 monotone 성질이 \(W\) 를 표준화된 통계량처럼 다룰 수 있게 해 준다.

3.3 \(W\) vs \(W^2\)

\(W^2 \sim \chi_1^2\) (점근).
\(W \sim N(0, 1)\) (점근, 서명된 정규).

\(\chi_1^2\) = 표준 정규의 제곱. 따라서 \(W\) 가 더 기본적 인 양. McCullagh-Nelder 의 전략: \(W\) 를 먼저 분석한 뒤 \(W^2\) 결과 도출.

4 \(W\) 의 멱급수 전개 (C.2)

4.1 표준화된 \(X\)

\[X = \frac{T - \mu_0}{\sqrt{\kappa_2}}.\]

\(X \sim N(0, 1)\) (CLT). \(W\) 도 같은 점근 분포이므로, “첫 근사” 로는 \(W \approx X\).

4.2 Taylor 전개

\(W\) 를 \(X\) 에 대해 전개:

\[ W = X + c_2 X^2 + c_3 X^3 + \cdots. \]

계수 \(c_2, c_3\) 는 \(K(\theta)\) 의 미분들로부터 계산. McCullagh-Nelder 의 결과 (C.2):

\[ \boxed{\; W = X - \frac{1}{6}\rho_3 X^2 + \frac{1}{72}(8\rho_3^2 - 3\rho_4)X^3 + O_p(n^{-3/2}). \;} \tag{C.2} \]

4.3 유도 아이디어

(C.1) 을 \(X\) 의 멱급수로 쓰려면:

\(t - \mu_0 = X\sqrt{\kappa_2}\) 이므로 \(t, t-\mu_0\) 를 \(X\) 로.
\(g(t)\) 를 \(\mu_0\) 주변 Taylor 전개: \(g(t) = g(\mu_0) + g'(\mu_0)(t-\mu_0) + \cdots\).
\(h(t)\) 도 같은 방식.
\(W^2 = 2n \cdot (X \text{ 의 멱급수})\) 로 전개.
\(W = \pm\sqrt{W^2}\) 를 \(X\) 로 표현.

중간 대수가 복잡하지만 결과가 (C.2).

4.4 각 항의 의미

\(W \approx X\) (1차 근사): 단순 표준화.

\(-\rho_3 X^2 /6\) (2차 보정): 왜도 보정. \(\rho_3 \neq 0\) 이면 \(W\) 가 \(X\) 에서 체계적으로 이탈.

\((8\rho_3^2 - 3\rho_4)X^3/72\) (3차 보정): 왜도 제곱 + 첨도 혼합 효과.

직관: \(W\) 는 \(X\) 의 “비선형 변환”

\(X\) 는 표준 정규이지만 \(W\) 는 \(X\) 의 비선형 함수. 따라서 \(W\) 는 \(N(0, 1)\) 을 완벽히 따르지 않는다.

\(W\) 의 비정규성 정도 = 비선형 변환 \(X \to W\) 의 곡률 과 관련. (C.2) 가 이 곡률을 cumulant 로 정량화.

\(\rho_3 = \rho_4 = 0\) (예: 정규 분포): \(W = X\) — 완벽한 정규. \(\rho_3, \rho_4 \neq 0\): \(W\) 가 \(X\) 에서 비선형으로 이탈.

5 \(W\) 의 모멘트 (C.3)

5.1 평균

\(E(X) = 0\), \(E(X^2) = 1\), \(E(X^3) = \rho_3\) (근사).

(C.2) 에 대입:

\[E(W) = 0 - \frac{1}{6}\rho_3 \cdot 1 + \frac{1}{72}(8\rho_3^2 - 3\rho_4) \cdot \rho_3 + O(n^{-3/2}).\]

지배 항: \(-\rho_3/6\). 나머지는 \(O(n^{-3/2})\).

\[ \boxed{\; E(W) = -\frac{\rho_3}{6} + O(n^{-3/2}). \;} \]

McCullagh-Nelder 가 \(+\rho_3/6\) 으로 쓴 것은 부호 관례 차이 (그 측도 정의).

5.2 분산

\(\text{Var}(W) = E(W^2) - E(W)^2\).

\(E(W^2)\) 를 (C.2) 에서 전개:

\[ E(W^2) = E(X^2) - \frac{\rho_3}{3} E(X^3) + \cdots = 1 - \frac{\rho_3^2}{3} + \cdots. \]

\(E(W)^2 = \rho_3^2/36\).

최종:

\[ \boxed{\; \text{Var}(W) = 1 + \frac{14\rho_3^2 - 9\rho_4}{36} + O(n^{-2}). \;} \]

5.3 해석

평균: \(W\) 가 0 에서 약간 이동 — 왜도에 비례. 분산: 1 에서 약간 이동 — 첨도 (\(\rho_4\)) 와 왜도 제곱 (\(\rho_3^2\)) 의 조합.

이 두 편차가 Bartlett 조정의 원료.

6 재표준화 \(W'\) — Cornish-Fisher 역전개

6.1 재표준화 공식

평균 편차 제거 + 분산 정규화:

\[ W' = \left(W + \frac{\rho_3}{6}\right)\left(1 + \frac{9\rho_4 - 14\rho_3^2}{72}\right). \]

유도: - \(W + \rho_3/6\) 로 평균 → 0. - \((1 + ...)\) 배로 분산 → 1.

6.2 대수 정리

\(W\) 를 (C.2) 로 바꾸고 \(X\) 로 정리하면 (복잡한 대수):

\[ W' = X - \frac{\rho_3}{6}(X^2 - 1) - \frac{\rho_4}{24}(X^3 - 3X) + \frac{\rho_3^2}{36}(4X^3 - 7X) + O(n^{-3/2}). \]

6.3 Cornish-Fisher 인식

놀라운 관찰: 이 식의 구조가 Cornish-Fisher 전개. 정확히 Edgeworth series 의 역함수 (inverse expansion).

6.3.1 Edgeworth 재방문 (Appendix B 의 B.1)

\[ F_n(x) = \Phi(x) - \phi(x)\{\rho_3(x^2-1)/(6\sqrt n) + \rho_4(x^3-3x)/(24n) + \cdots\}. \]

6.3.2 Cornish-Fisher (역)

표준 정규 quantile 을 원 분포 quantile 로 변환:

\[ F^{-1}(\Phi(x)) = x + \rho_3(x^2 - 1)/6 + \cdots. \]

반대 방향: 원 분포 quantile 을 정규 quantile 로:

\[ \Phi^{-1}(F(x)) = x - \rho_3(x^2 - 1)/6 - \rho_4(x^3 - 3x)/24 + \cdots. \]

\(W'\) 이 Cornish-Fisher 변환 형태. 즉 \(W\) 의 quantile 을 정규 quantile 로 매핑 하는 다항식 근사.

직관: \(W' = \Phi^{-1}(F_W(W))\) 의 근사

Probability Integral Transform (PIT): \(U = F_W(W) \sim U(0, 1)\). \(\Phi^{-1}(U) \sim N(0, 1)\).

\(W' = \Phi^{-1}(F_W(W))\) 가 \(W\) 를 완벽 정규로 변환. 그러나 \(F_W\) 를 모르므로 Edgeworth 근사 사용.

Cornish-Fisher 가 Edgeworth 의 역 — \(F_W\) 를 cumulant 로 근사한 \(\hat F_W\) 의 역함수로 \(\Phi^{-1}(F_W(\cdot))\) 를 다항식으로 표현.

결과: \(W'\) 이 “\(W\) 를 정규로 변환하는 다항식 전개” — 따라서 \(W' \sim N(0, 1) + O(n^{-3/2})\).

6.4 \(W'\) 의 점근 정규성

Cornish-Fisher 이론에서 바로:

\[ W' \sim N(0, 1) + O(n^{-3/2}). \]

오차 차수 \(O(n^{-3/2})\). 원래 \(W \sim N(0,1) + O(n^{-1/2})\) 이었으므로 한 차수 향상.

7 \(W^2\) 와 Bartlett 인수 \(b\)

7.1 원래 \(W^2\) 의 분포

\(W' \sim N(0, 1)\) 을 제곱하면 \((W')^2 \sim \chi_1^2\).

그러나 우리가 원하는 건 \(W^2\) 의 분포, 아니라 \((W')^2\) 의 분포.

7.2 관계식 유도

\(W = (W'/\{1 + (9\rho_4 - 14\rho_3^2)/72\}) - \rho_3/6\).

제곱:

\[ W^2 = \frac{(W')^2}{\{1 + (9\rho_4 - 14\rho_3^2)/72\}^2} - 2\frac{\rho_3 W'}{6\{1 + \cdots\}} + \frac{\rho_3^2}{36}. \]

\((W')^2 \sim \chi_1^2\), \(W' \sim N(0,1)\) 이므로 \(E[(W')^2] = 1\), \(E(W') = 0\).

\(W^2\) 의 평균:

\[ E(W^2) = \frac{1}{\{1 + (9\rho_4 - 14\rho_3^2)/72\}^2} + \frac{\rho_3^2}{36}. \]

Taylor 전개 \(1/(1+x)^2 \approx 1 - 2x\):

\[ E(W^2) \approx 1 - \frac{9\rho_4 - 14\rho_3^2}{36} + \frac{\rho_3^2}{36} = 1 + \frac{-9\rho_4 + 14\rho_3^2 + \rho_3^2}{36} = 1 + \frac{15\rho_3^2 - 9\rho_4}{36}. \]

단순화:

\[E(W^2) \simeq 1 + \frac{5\rho_3^2 - 3\rho_4}{12}.\]

7.3 Bartlett 인수 (C.4)

정의: \(E(W^2) = 1 + b/n\), 여기서

\[ \boxed{\; b/n = \frac{5\rho_3^2 - 3\rho_4}{12}. \;} \tag{C.4} \]

\(\rho_3 = O(n^{-1/2})\), \(\rho_4 = O(n^{-1})\) 이므로 \(b/n = O(n^{-1})\).

7.4 \(W^2 / (1+b)\) 의 분포

\(W^2 \sim (1+b) \chi_1^2 + O(n^{-3/2})\) 이므로

\[ \frac{W^2}{1 + b} \sim \chi_1^2 + O(n^{-3/2}). \]

이것이 Bartlett 조정. 단일 스칼라 \(b\) 로 \(W^2\) 을 \(\chi_1^2\) 에 근사시킨다.

7.5 모든 cumulant 동시 보정 (§15.3 재확인)

본문 §15.3 에서 주장한 “모든 cumulant 동시 보정”:

\[ \kappa_r(W^2/(1+b)) = \kappa_r(\chi_1^2) + O(n^{-2}). \]

이것이 Appendix C 의 유도 결과. \(W^2\) 의 cumulant 가 모두 \((1 + b)^r \cdot\) (\(\chi_1^2\) cumulant\()\) 형태로 쓸 수 있어서 스케일 \(1/(1+b)\) 로 정확히 상쇄.

구체적으로: - \(E(W^2) = (1+b) E(\chi_1^2) = 1 + b\) ✓ - \(\text{Var}(W^2) = (1+b)^2 \cdot 2 = 2(1+b)^2\) - \(\kappa_3(W^2) = (1+b)^3 \cdot 8\) - …

모든 cumulant 가 \((1+b)^r\) 배.

8 Bartlett 인수의 해석

8.1 공식 해석

\[b/n = \frac{5\rho_3^2 - 3\rho_4}{12}.\]

두 성분:

\(5\rho_3^2/12\): 왜도 제곱. 항상 양수. \(\rho_3\) 가 크면 \(b\) 크다.
\(-3\rho_4/12 = -\rho_4/4\): 음의 첨도 기여. \(\rho_4 > 0\) (leptokurtic) 이면 \(b\) 감소.

8.2 왜 이 조합?

\(W\) 의 평균 편차 \(\rho_3/6\) 과 분산 편차 \((14\rho_3^2 - 9\rho_4)/36\) 이 \(W^2\) 에서 결합.

\(E(W^2) = E(W)^2 + \text{Var}(W) = \frac{\rho_3^2}{36} + 1 + \frac{14\rho_3^2 - 9\rho_4}{36} = 1 + \frac{15\rho_3^2 - 9\rho_4}{36} = 1 + \frac{5\rho_3^2 - 3\rho_4}{12}\).

결론: \(b\) 는 “평균 편차 제곱 + 분산 편차” 의 자연스러운 합.

8.3 극단 사례

정규 분포: \(\rho_3 = \rho_4 = 0\) → \(b = 0\). Bartlett 조정 불필요.

Poisson: \(\rho_3 = 1/\sqrt{n\lambda}\), \(\rho_4 = 1/(n\lambda)\). \(b/n = (5/(n\lambda) - 3/(n\lambda))/12 = 2/(12n\lambda) = 1/(6n\lambda)\). 작은 \(n\lambda\) 에서 조정 필요.

이항 \(\pi = 0.5\): \(\rho_3 = 0\). \(b/n = -3\rho_4/12 = -\rho_4/4\). \(\rho_4\) 가 양수면 \(b\) 음수 → \(W^2\) 조금 축소.

9 이산 분포에서의 한계

McCullagh-Nelder 경고: 이산 \(T\) (Poisson, 이항 등) 에서는:

\(T\) 의 support 가 이산 → Edgeworth 가 Sheppard 보정 필요 (Appendix B).
\(W\) 의 support 는 근사적으로 equally spaced — 연속적 변환의 부산물.
Sheppard 보정이 \(O(n^{-1})\) 오차를 완전 제거 하지 못함.

결과: 이산 분포에서 Bartlett 조정이 \(W^2\) 의 \(\chi_1^2\) 근사를 개선하지만, 연속 경우만큼 극적이지 않음.

§15.3 에서 지적한 “lattice case 의 한계” 의 Appendix C 에서의 재확인.

10 다모수 · 방해 모수로의 확장

10.1 일반 스칼라에서 벡터로

McCullagh-Nelder Appendix C 는 스칼라 경우만 유도. 다모수 일반화는 훨씬 복잡 하지만 구조는 비슷.

주요 변화: 1. \(X\) 가 벡터 → \(X^TX\) 가 \(\chi^2_p\). 2. \(\rho_3, \rho_4\) 가 다차 cumulant 텐서. 3. Bartlett 인수가 여러 불변 스칼라의 합 (§15.3 의 6 스칼라).

10.2 방해 모수 확장

\(\theta = (\psi, \lambda)\) 분할. 방해 모수 \(\lambda\) 의 추정이 Bartlett 인수에 추가 기여.

결과 (본문 15.8):

\[b_{pq} = \frac{p b_p - q b_q}{p - q}.\]

각 모델 크기의 \(b_p, b_q\) 를 별도 계산한 뒤 조합.

10.3 지수족 외

Appendix C 는 지수족 구조에 의존. 비-지수족에서는:

Barndorff-Nielsen-Cox (1984): 일반 점근 확장.
McCullagh (1987, Chapter 7): 텐서 미적분으로 다모수 · 비-지수족 통합.
Lawley (1956): 다변량 분석의 역사적 Bartlett 결과.

11 Python 검증 — Bartlett 인수 시뮬레이션

11.1 설정 — 지수 분포

\(Y_i \sim \text{Exp}(\mu)\) 독립, \(\theta = \log\mu\), \(T = \bar Y\). \(H_0: \theta = \theta_0\).

이 경우: - \(K(\theta) = -\log(-\theta)\) (주의: 기호 관례에 따라 다름) - 또는 더 간단히 \(Y_i \sim \text{Exp}(\lambda)\), \(t = \sum y_i/n\), \(\theta = -\lambda\)

실무 구현은 Gamma(1, 1) 을 사용.

import numpy as np
from scipy import stats

def simulate_lrt_exponential(n, mu_true, mu_null, n_sim=10000):
    """지수 분포에서 H_0: μ = μ_0 검정의 LRT 통계량 시뮬레이션."""
    LRT_values = []
    for _ in range(n_sim):
        y = np.random.exponential(scale=mu_true, size=n)
        mu_hat = y.mean()
        # Exp 로그 가능도: l = -n log μ - Σy/μ
        l_hat = -n*np.log(mu_hat) - y.sum()/mu_hat
        l_null = -n*np.log(mu_null) - y.sum()/mu_null
        LRT_values.append(2*(l_hat - l_null))
    return np.array(LRT_values)

# 작은 표본에서 LRT 분포 검증
n = 20
mu_true = 1.0  # Exp(1), standard
mu_null = 1.0  # 귀무 참 — LRT 가 χ^2_1 을 따라야 함

LRT_samples = simulate_lrt_exponential(n, mu_true, mu_null)

# 1. 원 LRT 의 평균
print(f"n={n}, LRT 평균 (이론 = 1): {LRT_samples.mean():.4f}")

# 2. Bartlett 인수 계산 (Exp 에서 ρ_3 = 2, ρ_4 = 6 표준화 후 scale)
# 더 정확한 계산은 지수 분포의 표준화 cumulant 로
# Exp 에서 Y 의 κ_2=μ^2, κ_3=2μ^3, κ_4=6μ^4
# ρ_3 = 2, ρ_4 = 6 (개별 관측치 기준)
# 표본 평균 T = Ȳ 의 κ_r = κ_r(Y) / n^{r-1}
# 표준화: ρ_3(T) = 2/√n, ρ_4(T) = 6/n
rho3 = 2 / np.sqrt(n)
rho4 = 6 / n
b_over_n = (5 * rho3**2 - 3 * rho4) / 12

print(f"Bartlett 인수 b/n = {b_over_n:.5f}")
print(f"이론 평균 LRT = 1 + b/n = {1 + b_over_n:.4f}")
print(f"시뮬 평균 LRT = {LRT_samples.mean():.4f}")

# 조정 LRT
LRT_adj = LRT_samples / (1 + b_over_n)
print(f"\n조정 LRT 평균 (이론 = 1): {LRT_adj.mean():.4f}")
print(f"조정 LRT 분산 (이론 χ^2_1 = 2): {LRT_adj.var():.4f}")
print(f"원 LRT 분산: {LRT_samples.var():.4f}")

# KS 검정 — χ^2_1 과의 일치
ks_orig = stats.kstest(LRT_samples, lambda x: stats.chi2.cdf(x, 1))
ks_adj = stats.kstest(LRT_adj, lambda x: stats.chi2.cdf(x, 1))
print(f"\nKS 검정:")
print(f"  원 LRT vs χ^2_1:  stat={ks_orig.statistic:.4f}, p={ks_orig.pvalue:.3f}")
print(f"  조정 LRT vs χ^2_1: stat={ks_adj.statistic:.4f}, p={ks_adj.pvalue:.3f}")

기대: 조정 LRT 가 원 LRT 보다 KS 통계량이 작음 → \(\chi^2_1\) 에 더 가까움.

11.2 다양한 \(n\) 에서 평균 검증

print(f"\n{'n':>5} {'orig mean':>10} {'adj mean':>10} {'theory 1+b/n':>14} {'KS orig':>10} {'KS adj':>8}")
for n in [10, 20, 50, 100, 500]:
    LRT = simulate_lrt_exponential(n, 1.0, 1.0, n_sim=5000)
    rho3 = 2/np.sqrt(n); rho4 = 6/n
    b_over_n = (5*rho3**2 - 3*rho4)/12
    LRT_adj = LRT / (1 + b_over_n)
    ks_o = stats.kstest(LRT, lambda x: stats.chi2.cdf(x, 1)).statistic
    ks_a = stats.kstest(LRT_adj, lambda x: stats.chi2.cdf(x, 1)).statistic
    print(f"{n:5d} {LRT.mean():10.4f} {LRT_adj.mean():10.4f} "
          f"{1+b_over_n:14.4f} {ks_o:10.4f} {ks_a:8.4f}")

기대: \(n\) 이 증가할수록 KS 가 작아지고 (점근 개선), 조정 LRT 의 KS 가 원 LRT 보다 항상 작음 (Bartlett 효과).

12 Appendix 전체의 종합

Appendix A, B, C 의 관계:

부록	내용	역할
A	Likelihood theory 기본	모든 점근 결과의 토대
B	Edgeworth series	점근 근사의 고차 보정
C	LRT 의 점근	Bartlett 조정의 증명

논리 흐름: A 의 Bartlett 항등식 → B 의 Edgeworth → C 의 Cornish-Fisher → Bartlett 인수.

세 부록이 단단히 연결 된다. McCullagh-Nelder 가 본문에서 선언적으로 사용한 결과들이 여기서 유도됨.

13 McCullagh-Nelder 시리즈 최종 완료

이 포스트가 McCullagh-Nelder (1989) 블로그 시리즈의 마지막. 본문 15 개 장 + 3 개 부록 전체 커버 완료.

13.1 최종 포스트 지도

범위	포스트
Ch.1-2 이론 기초	00, 01-1~01-8 (9)
Ch.3 정규	02-1~02-10 (10)
Ch.4 이항	03-1~03-6 (6)
Ch.5 다범주	04-1~04-7 (7)
Ch.6 로그선형	05-1~05-7 (7)
Ch.7 조건부	06-1~06-5 (5)
Ch.8 Gamma	07-1~07-5 (5)
Ch.9 준-우도	08-1~08-7 (7)
Ch.10 공동 평균-분산	09-1~09-9 (8)
Ch.11 비선형 모수	10-1~10-6 (6)
Ch.12 Model Checking	11-1~11-10 (10)
Ch.13 생존	12-1~12-6 (6)
Ch.14 GLMM	13-1~13-6 (6)
Ch.15 Further Topics	14-1~14-5 (5)
Appendices	15-1~15-3 (3)
합계	~100 포스트

13.2 출간 후 30 년

McCullagh-Nelder (1989) 가 현재까지 살아있는 이유:

통일성: 단일 언어 (지수족 GLM) 가 수천 개 특수 사례를 통합.
알고리즘: IRLS 가 여전히 표준 엔진.
진단: Deviance, 잔차, 레버리지, Cook 거리 — 모두 McCullagh-Nelder 에서 체계화.
철학: “최소 가정으로 시작 → 필요 시 확장” 원칙.
수학적 엄밀성: 여기 Appendix C 같은 고급 결과를 응용 분석가에게 접근 가능하게 제시.

13.3 2020 년대 확장

이 시리즈가 다루지 못한 (책 이후의) 발전:

Bayesian GLM: brms, Stan 기반.
Lasso / Ridge GLM: 고차원 정규화.
Neural networks with GLM readout: Deep Learning 과의 결합.
Causal GLM: Propensity, IPW, doubly robust.
Robust GLM: M-estimators, MM.

각각 별도 블로그 시리즈로 가능. McCullagh-Nelder 의 기초 위에 쌓아 올린 30 년 간의 진화.

13.4 마지막 인사

McCullagh & Nelder, Generalized Linear Models (1989) 는 완결된 건축물. 처음 12 장이 벽과 기둥, 마지막 3 장 + 3 부록이 지붕과 마감. 이 블로그 시리즈가 한국어 독자에게 그 건축을 거니는 경로가 되었기를.

“모든 모델은 틀리다. 일부는 유용하다.” — Box (1980). McCullagh-Nelder 의 틀은 그 “유용한” 모델들의 집합을 만드는 공통 설계도 였다.

14 관련 주제

Appendix 시리즈

직접 연결

Bartlett Adjustment — §15.3 — 이 Appendix C 의 응용
Further Topics — Ch.15 개관
Model Checking — Score Tests (§12.3) — LRT 대안
GLM Theory Foundation (§2) — 지수족

참고 문헌

Bartlett, M. S. (1937). “Properties of sufficiency and statistical tests.” Proc. R. Soc. Lond. A 160: 268-282.
Lawley, D. N. (1956). “A general method for approximating to the distribution of likelihood ratio criteria.” Biometrika 43: 295-303. Bartlett 일반화 정리.
Barndorff-Nielsen, O. E. & Cox, D. R. (1984). “Bartlett adjustments to the likelihood ratio statistic…” JRSS B 46: 483-495.
McCullagh, P. (1984a). “Local sufficiency.” Biometrika 71: 233-244.
McCullagh, P. & Cox, D. R. (1986). “Invariants and likelihood ratio statistics.” Ann. Statist. 14: 1419-1430. 6 불변 스칼라 출처.
Kendall, M. G. & Stuart, A. (1977). The Advanced Theory of Statistics, Vol. 1 (4th ed.). — Cornish-Fisher 전개.
McCullagh, P. (1987). Tensor Methods in Statistics. Chapman & Hall. — 벡터·다모수 확장.

Cornish-Fisher 전개 심화

Cornish, E. A. & Fisher, R. A. (1937). “Moments and cumulants in the specification of distributions.” Rev. Int. Statist. Inst. 5: 307-322.
Hall, P. (1992). The Bootstrap and Edgeworth Expansion. Springer.

마무리

이것으로 McCullagh & Nelder (1989) 의 블로그 시리즈가 완결됩니다. 15 장 + 3 부록 = 약 100 포스트. 각 포스트가 원서의 압축을 풀어내고 Python 구현과 현대적 맥락을 덧붙였습니다.

다음 시리즈로 이어갈 수 있는 주제들: Nelder-Lee Hierarchical GLM (HGLM), Wood Generalized Additive Models, Gelman Bayesian Data Analysis, Hastie-Tibshirani-Friedman ESL. 각각이 McCullagh-Nelder 의 후속·확장을 다루는 또 다른 블로그 시리즈의 재료가 됩니다.