1 서론 — 가장 이론적인 부록
McCullagh-Nelder (1989) 의 Appendix C 는 책 전체에서 가장 이론적으로 밀도가 높은 부분. 본문 §15.3 에서 “Bartlett 조정 인수가 \(b_p\) 이다” 라고 선언 했지만, \(b_p\) 가 왜 그런 값인지 는 유도하지 않았다.
Appendix C 가 그 빈자리를 채운다 — 스칼라 지수족의 단순 경우에서 Bartlett 인수
\[ b/n = \frac{5\rho_3^2 - 3\rho_4}{12} \]
가 어떻게 유도 되는지 완전 증명.
증명의 논리 흐름:
- 우도비 \(W^2\) 의 서명된 버전 \(W = \pm\sqrt{W^2}\).
- 표준화 \(X = (T-\mu_0)/\sqrt{\kappa_2}\) 와 \(W\) 의 관계식 전개.
- \(W\) 의 모멘트 계산 (평균, 분산, 고차).
- 재표준화 \(W'\) 로 정규 분포에 근사.
- \(W^2\) 의 분포 = 표준화 조정 \(W'\) 의 제곱 → \((1+b)\chi_1^2\).
이것이 Bartlett 의 수학적 심장. 본문에서 건너뛴 “왜?” 에 대한 답.
이 포스트는 Appendix C 의 단계별 유도를 직관적 해석과 함께 풀어낸다. McCullagh-Nelder (1989) 블로그 시리즈의 마지막 기술 포스트 — 책의 마지막 수학적 결론.
2 설정 — 스칼라 지수족
2.1 로그 우도 형식
McCullagh-Nelder 는 스칼라 모수 지수족 으로 설정:
\[ l(\theta; y) = n\{t\theta - K(\theta)\}, \tag{C.0} \]
- \(t = t(y)\): 충분 통계량 (canonical).
- \(\theta\): 정준 모수 (canonical parameter).
- \(K(\theta)\): cumulant-generating 함수 (for \(T\)).
예시: - 이항: \(K(\theta) = \log(1 + e^\theta)\), \(t = \bar y\). - 포아송: \(K(\theta) = e^\theta\), \(t = \bar y\). - 정규 (분산 알려짐): \(K(\theta) = \theta^2/2\), \(t = \bar y\).
2.2 충분통계량의 Cumulants
\[ \kappa_r(T) = \frac{K^{(r)}(\theta)}{n^{r-1}}. \]
- \(\kappa_1(T) = K'(\theta) = \mu\) (평균).
- \(\kappa_2(T) = K''(\theta)/n\) (분산).
- \(\kappa_3(T) = K'''(\theta)/n^2\), \(\kappa_4(T) = K''''(\theta)/n^3\).
표준화된 cumulants:
\[ \rho_3 = \frac{\kappa_3}{\kappa_2^{3/2}} = O(n^{-1/2}), \qquad \rho_4 = \frac{\kappa_4}{\kappa_2^2} = O(n^{-1}). \]
차수 순서: \(\rho_3 \gg \rho_4\). \(\rho_3\) 는 \(O(n^{-1/2})\), \(\rho_4\) 는 \(O(n^{-1})\).
2.3 MLE
점수 방정식 \(\partial l/\partial\theta = n(t - K'(\theta)) = 0\) → \(K'(\widehat\theta) = t\). 역함수:
\[\widehat\theta = g(t), \quad g = (K')^{-1}.\]
3 우도비 통계량 \(W^2\) (C.1)
3.1 유도
\[W^2 = 2l(\widehat\theta) - 2l(\theta_0).\]
(C.0) 대입:
\[ W^2 = 2n\{t\widehat\theta - K(\widehat\theta) - t\theta_0 + K(\theta_0)\}. \]
\(\widehat\theta = g(t)\), \(\theta_0\) 는 \(H_0\) 하 모수값. 표기 단순화를 위해 \(h(t) = K(g(t))\) 정의:
\[ W^2 = 2n\{tg(t) - tg(\mu_0) + h(t) - h(\mu_0) - t\theta_0 + K(\theta_0) + tg(\mu_0) - K(\theta_0)\}. \]
\(\mu_0 = K'(\theta_0)\) 이므로 \(\theta_0 = g(\mu_0)\). \(tg(\mu_0) = t\theta_0\).
재정리:
\[ \boxed{\; W^2 = 2n\{tg(t) - tg(\mu_0) + h(t) - h(\mu_0)\}. \;} \tag{C.1} \]
3.2 서명된 \(W\)
\[ W = \text{sgn}(t - \mu_0) \sqrt{W^2}. \]
\(W\) 의 부호: \(t > \mu_0\) 이면 \(W > 0\), 반대면 \(W < 0\).
\(W\) 가 \(t - \mu_0\) 의 단조 증가 함수 — \(t\) 가 커질수록 \(W\) 도 커진다. 이 monotone 성질이 \(W\) 를 표준화된 통계량처럼 다룰 수 있게 해 준다.
3.3 \(W\) vs \(W^2\)
- \(W^2 \sim \chi_1^2\) (점근).
- \(W \sim N(0, 1)\) (점근, 서명된 정규).
\(\chi_1^2\) = 표준 정규의 제곱. 따라서 \(W\) 가 더 기본적 인 양. McCullagh-Nelder 의 전략: \(W\) 를 먼저 분석한 뒤 \(W^2\) 결과 도출.
4 \(W\) 의 멱급수 전개 (C.2)
4.1 표준화된 \(X\)
\[X = \frac{T - \mu_0}{\sqrt{\kappa_2}}.\]
\(X \sim N(0, 1)\) (CLT). \(W\) 도 같은 점근 분포이므로, “첫 근사” 로는 \(W \approx X\).
4.2 Taylor 전개
\(W\) 를 \(X\) 에 대해 전개:
\[ W = X + c_2 X^2 + c_3 X^3 + \cdots. \]
계수 \(c_2, c_3\) 는 \(K(\theta)\) 의 미분들로부터 계산. McCullagh-Nelder 의 결과 (C.2):
\[ \boxed{\; W = X - \frac{1}{6}\rho_3 X^2 + \frac{1}{72}(8\rho_3^2 - 3\rho_4)X^3 + O_p(n^{-3/2}). \;} \tag{C.2} \]
4.3 유도 아이디어
(C.1) 을 \(X\) 의 멱급수로 쓰려면:
- \(t - \mu_0 = X\sqrt{\kappa_2}\) 이므로 \(t, t-\mu_0\) 를 \(X\) 로.
- \(g(t)\) 를 \(\mu_0\) 주변 Taylor 전개: \(g(t) = g(\mu_0) + g'(\mu_0)(t-\mu_0) + \cdots\).
- \(h(t)\) 도 같은 방식.
- \(W^2 = 2n \cdot (X \text{ 의 멱급수})\) 로 전개.
- \(W = \pm\sqrt{W^2}\) 를 \(X\) 로 표현.
중간 대수가 복잡하지만 결과가 (C.2).
4.4 각 항의 의미
\(W \approx X\) (1차 근사): 단순 표준화.
\(-\rho_3 X^2 /6\) (2차 보정): 왜도 보정. \(\rho_3 \neq 0\) 이면 \(W\) 가 \(X\) 에서 체계적으로 이탈.
\((8\rho_3^2 - 3\rho_4)X^3/72\) (3차 보정): 왜도 제곱 + 첨도 혼합 효과.
\(X\) 는 표준 정규이지만 \(W\) 는 \(X\) 의 비선형 함수. 따라서 \(W\) 는 \(N(0, 1)\) 을 완벽히 따르지 않는다.
\(W\) 의 비정규성 정도 = 비선형 변환 \(X \to W\) 의 곡률 과 관련. (C.2) 가 이 곡률을 cumulant 로 정량화.
\(\rho_3 = \rho_4 = 0\) (예: 정규 분포): \(W = X\) — 완벽한 정규. \(\rho_3, \rho_4 \neq 0\): \(W\) 가 \(X\) 에서 비선형으로 이탈.
5 \(W\) 의 모멘트 (C.3)
5.1 평균
\(E(X) = 0\), \(E(X^2) = 1\), \(E(X^3) = \rho_3\) (근사).
(C.2) 에 대입:
\[E(W) = 0 - \frac{1}{6}\rho_3 \cdot 1 + \frac{1}{72}(8\rho_3^2 - 3\rho_4) \cdot \rho_3 + O(n^{-3/2}).\]
지배 항: \(-\rho_3/6\). 나머지는 \(O(n^{-3/2})\).
\[ \boxed{\; E(W) = -\frac{\rho_3}{6} + O(n^{-3/2}). \;} \]
McCullagh-Nelder 가 \(+\rho_3/6\) 으로 쓴 것은 부호 관례 차이 (그 측도 정의).
5.2 분산
\(\text{Var}(W) = E(W^2) - E(W)^2\).
\(E(W^2)\) 를 (C.2) 에서 전개:
\[ E(W^2) = E(X^2) - \frac{\rho_3}{3} E(X^3) + \cdots = 1 - \frac{\rho_3^2}{3} + \cdots. \]
\(E(W)^2 = \rho_3^2/36\).
최종:
\[ \boxed{\; \text{Var}(W) = 1 + \frac{14\rho_3^2 - 9\rho_4}{36} + O(n^{-2}). \;} \]
5.3 해석
평균: \(W\) 가 0 에서 약간 이동 — 왜도에 비례. 분산: 1 에서 약간 이동 — 첨도 (\(\rho_4\)) 와 왜도 제곱 (\(\rho_3^2\)) 의 조합.
이 두 편차가 Bartlett 조정의 원료.
6 재표준화 \(W'\) — Cornish-Fisher 역전개
6.1 재표준화 공식
평균 편차 제거 + 분산 정규화:
\[ W' = \left(W + \frac{\rho_3}{6}\right)\left(1 + \frac{9\rho_4 - 14\rho_3^2}{72}\right). \]
유도: - \(W + \rho_3/6\) 로 평균 → 0. - \((1 + ...)\) 배로 분산 → 1.
6.2 대수 정리
\(W\) 를 (C.2) 로 바꾸고 \(X\) 로 정리하면 (복잡한 대수):
\[ W' = X - \frac{\rho_3}{6}(X^2 - 1) - \frac{\rho_4}{24}(X^3 - 3X) + \frac{\rho_3^2}{36}(4X^3 - 7X) + O(n^{-3/2}). \]
6.3 Cornish-Fisher 인식
놀라운 관찰: 이 식의 구조가 Cornish-Fisher 전개. 정확히 Edgeworth series 의 역함수 (inverse expansion).
6.3.1 Edgeworth 재방문 (Appendix B 의 B.1)
\[ F_n(x) = \Phi(x) - \phi(x)\{\rho_3(x^2-1)/(6\sqrt n) + \rho_4(x^3-3x)/(24n) + \cdots\}. \]
6.3.2 Cornish-Fisher (역)
표준 정규 quantile 을 원 분포 quantile 로 변환:
\[ F^{-1}(\Phi(x)) = x + \rho_3(x^2 - 1)/6 + \cdots. \]
반대 방향: 원 분포 quantile 을 정규 quantile 로:
\[ \Phi^{-1}(F(x)) = x - \rho_3(x^2 - 1)/6 - \rho_4(x^3 - 3x)/24 + \cdots. \]
\(W'\) 이 Cornish-Fisher 변환 형태. 즉 \(W\) 의 quantile 을 정규 quantile 로 매핑 하는 다항식 근사.
Probability Integral Transform (PIT): \(U = F_W(W) \sim U(0, 1)\). \(\Phi^{-1}(U) \sim N(0, 1)\).
\(W' = \Phi^{-1}(F_W(W))\) 가 \(W\) 를 완벽 정규로 변환. 그러나 \(F_W\) 를 모르므로 Edgeworth 근사 사용.
Cornish-Fisher 가 Edgeworth 의 역 — \(F_W\) 를 cumulant 로 근사한 \(\hat F_W\) 의 역함수로 \(\Phi^{-1}(F_W(\cdot))\) 를 다항식으로 표현.
결과: \(W'\) 이 “\(W\) 를 정규로 변환하는 다항식 전개” — 따라서 \(W' \sim N(0, 1) + O(n^{-3/2})\).
6.4 \(W'\) 의 점근 정규성
Cornish-Fisher 이론에서 바로:
\[ W' \sim N(0, 1) + O(n^{-3/2}). \]
오차 차수 \(O(n^{-3/2})\). 원래 \(W \sim N(0,1) + O(n^{-1/2})\) 이었으므로 한 차수 향상.
7 \(W^2\) 와 Bartlett 인수 \(b\)
7.1 원래 \(W^2\) 의 분포
\(W' \sim N(0, 1)\) 을 제곱하면 \((W')^2 \sim \chi_1^2\).
그러나 우리가 원하는 건 \(W^2\) 의 분포, 아니라 \((W')^2\) 의 분포.
7.2 관계식 유도
\(W = (W'/\{1 + (9\rho_4 - 14\rho_3^2)/72\}) - \rho_3/6\).
제곱:
\[ W^2 = \frac{(W')^2}{\{1 + (9\rho_4 - 14\rho_3^2)/72\}^2} - 2\frac{\rho_3 W'}{6\{1 + \cdots\}} + \frac{\rho_3^2}{36}. \]
\((W')^2 \sim \chi_1^2\), \(W' \sim N(0,1)\) 이므로 \(E[(W')^2] = 1\), \(E(W') = 0\).
\(W^2\) 의 평균:
\[ E(W^2) = \frac{1}{\{1 + (9\rho_4 - 14\rho_3^2)/72\}^2} + \frac{\rho_3^2}{36}. \]
Taylor 전개 \(1/(1+x)^2 \approx 1 - 2x\):
\[ E(W^2) \approx 1 - \frac{9\rho_4 - 14\rho_3^2}{36} + \frac{\rho_3^2}{36} = 1 + \frac{-9\rho_4 + 14\rho_3^2 + \rho_3^2}{36} = 1 + \frac{15\rho_3^2 - 9\rho_4}{36}. \]
단순화:
\[E(W^2) \simeq 1 + \frac{5\rho_3^2 - 3\rho_4}{12}.\]
7.3 Bartlett 인수 (C.4)
정의: \(E(W^2) = 1 + b/n\), 여기서
\[ \boxed{\; b/n = \frac{5\rho_3^2 - 3\rho_4}{12}. \;} \tag{C.4} \]
\(\rho_3 = O(n^{-1/2})\), \(\rho_4 = O(n^{-1})\) 이므로 \(b/n = O(n^{-1})\).
7.4 \(W^2 / (1+b)\) 의 분포
\(W^2 \sim (1+b) \chi_1^2 + O(n^{-3/2})\) 이므로
\[ \frac{W^2}{1 + b} \sim \chi_1^2 + O(n^{-3/2}). \]
이것이 Bartlett 조정. 단일 스칼라 \(b\) 로 \(W^2\) 을 \(\chi_1^2\) 에 근사시킨다.
7.5 모든 cumulant 동시 보정 (§15.3 재확인)
본문 §15.3 에서 주장한 “모든 cumulant 동시 보정”:
\[ \kappa_r(W^2/(1+b)) = \kappa_r(\chi_1^2) + O(n^{-2}). \]
이것이 Appendix C 의 유도 결과. \(W^2\) 의 cumulant 가 모두 \((1 + b)^r \cdot\) (\(\chi_1^2\) cumulant\()\) 형태로 쓸 수 있어서 스케일 \(1/(1+b)\) 로 정확히 상쇄.
구체적으로: - \(E(W^2) = (1+b) E(\chi_1^2) = 1 + b\) ✓ - \(\text{Var}(W^2) = (1+b)^2 \cdot 2 = 2(1+b)^2\) - \(\kappa_3(W^2) = (1+b)^3 \cdot 8\) - …
모든 cumulant 가 \((1+b)^r\) 배.
8 Bartlett 인수의 해석
8.1 공식 해석
\[b/n = \frac{5\rho_3^2 - 3\rho_4}{12}.\]
두 성분:
- \(5\rho_3^2/12\): 왜도 제곱. 항상 양수. \(\rho_3\) 가 크면 \(b\) 크다.
- \(-3\rho_4/12 = -\rho_4/4\): 음의 첨도 기여. \(\rho_4 > 0\) (leptokurtic) 이면 \(b\) 감소.
8.2 왜 이 조합?
\(W\) 의 평균 편차 \(\rho_3/6\) 과 분산 편차 \((14\rho_3^2 - 9\rho_4)/36\) 이 \(W^2\) 에서 결합.
\(E(W^2) = E(W)^2 + \text{Var}(W) = \frac{\rho_3^2}{36} + 1 + \frac{14\rho_3^2 - 9\rho_4}{36} = 1 + \frac{15\rho_3^2 - 9\rho_4}{36} = 1 + \frac{5\rho_3^2 - 3\rho_4}{12}\).
결론: \(b\) 는 “평균 편차 제곱 + 분산 편차” 의 자연스러운 합.
8.3 극단 사례
정규 분포: \(\rho_3 = \rho_4 = 0\) → \(b = 0\). Bartlett 조정 불필요.
Poisson: \(\rho_3 = 1/\sqrt{n\lambda}\), \(\rho_4 = 1/(n\lambda)\). \(b/n = (5/(n\lambda) - 3/(n\lambda))/12 = 2/(12n\lambda) = 1/(6n\lambda)\). 작은 \(n\lambda\) 에서 조정 필요.
이항 \(\pi = 0.5\): \(\rho_3 = 0\). \(b/n = -3\rho_4/12 = -\rho_4/4\). \(\rho_4\) 가 양수면 \(b\) 음수 → \(W^2\) 조금 축소.
9 이산 분포에서의 한계
McCullagh-Nelder 경고: 이산 \(T\) (Poisson, 이항 등) 에서는:
- \(T\) 의 support 가 이산 → Edgeworth 가 Sheppard 보정 필요 (Appendix B).
- \(W\) 의 support 는 근사적으로 equally spaced — 연속적 변환의 부산물.
- Sheppard 보정이 \(O(n^{-1})\) 오차를 완전 제거 하지 못함.
결과: 이산 분포에서 Bartlett 조정이 \(W^2\) 의 \(\chi_1^2\) 근사를 개선하지만, 연속 경우만큼 극적이지 않음.
§15.3 에서 지적한 “lattice case 의 한계” 의 Appendix C 에서의 재확인.
10 다모수 · 방해 모수로의 확장
10.1 일반 스칼라에서 벡터로
McCullagh-Nelder Appendix C 는 스칼라 경우만 유도. 다모수 일반화는 훨씬 복잡 하지만 구조는 비슷.
주요 변화: 1. \(X\) 가 벡터 → \(X^TX\) 가 \(\chi^2_p\). 2. \(\rho_3, \rho_4\) 가 다차 cumulant 텐서. 3. Bartlett 인수가 여러 불변 스칼라의 합 (§15.3 의 6 스칼라).
10.2 방해 모수 확장
\(\theta = (\psi, \lambda)\) 분할. 방해 모수 \(\lambda\) 의 추정이 Bartlett 인수에 추가 기여.
결과 (본문 15.8):
\[b_{pq} = \frac{p b_p - q b_q}{p - q}.\]
각 모델 크기의 \(b_p, b_q\) 를 별도 계산한 뒤 조합.
10.3 지수족 외
Appendix C 는 지수족 구조에 의존. 비-지수족에서는:
- Barndorff-Nielsen-Cox (1984): 일반 점근 확장.
- McCullagh (1987, Chapter 7): 텐서 미적분으로 다모수 · 비-지수족 통합.
- Lawley (1956): 다변량 분석의 역사적 Bartlett 결과.
11 Python 검증 — Bartlett 인수 시뮬레이션
11.1 설정 — 지수 분포
\(Y_i \sim \text{Exp}(\mu)\) 독립, \(\theta = \log\mu\), \(T = \bar Y\). \(H_0: \theta = \theta_0\).
이 경우: - \(K(\theta) = -\log(-\theta)\) (주의: 기호 관례에 따라 다름) - 또는 더 간단히 \(Y_i \sim \text{Exp}(\lambda)\), \(t = \sum y_i/n\), \(\theta = -\lambda\)
실무 구현은 Gamma(1, 1) 을 사용.
import numpy as np
from scipy import stats
def simulate_lrt_exponential(n, mu_true, mu_null, n_sim=10000):
"""지수 분포에서 H_0: μ = μ_0 검정의 LRT 통계량 시뮬레이션."""
LRT_values = []
for _ in range(n_sim):
y = np.random.exponential(scale=mu_true, size=n)
mu_hat = y.mean()
# Exp 로그 가능도: l = -n log μ - Σy/μ
l_hat = -n*np.log(mu_hat) - y.sum()/mu_hat
l_null = -n*np.log(mu_null) - y.sum()/mu_null
LRT_values.append(2*(l_hat - l_null))
return np.array(LRT_values)
# 작은 표본에서 LRT 분포 검증
n = 20
mu_true = 1.0 # Exp(1), standard
mu_null = 1.0 # 귀무 참 — LRT 가 χ^2_1 을 따라야 함
LRT_samples = simulate_lrt_exponential(n, mu_true, mu_null)
# 1. 원 LRT 의 평균
print(f"n={n}, LRT 평균 (이론 = 1): {LRT_samples.mean():.4f}")
# 2. Bartlett 인수 계산 (Exp 에서 ρ_3 = 2, ρ_4 = 6 표준화 후 scale)
# 더 정확한 계산은 지수 분포의 표준화 cumulant 로
# Exp 에서 Y 의 κ_2=μ^2, κ_3=2μ^3, κ_4=6μ^4
# ρ_3 = 2, ρ_4 = 6 (개별 관측치 기준)
# 표본 평균 T = Ȳ 의 κ_r = κ_r(Y) / n^{r-1}
# 표준화: ρ_3(T) = 2/√n, ρ_4(T) = 6/n
rho3 = 2 / np.sqrt(n)
rho4 = 6 / n
b_over_n = (5 * rho3**2 - 3 * rho4) / 12
print(f"Bartlett 인수 b/n = {b_over_n:.5f}")
print(f"이론 평균 LRT = 1 + b/n = {1 + b_over_n:.4f}")
print(f"시뮬 평균 LRT = {LRT_samples.mean():.4f}")
# 조정 LRT
LRT_adj = LRT_samples / (1 + b_over_n)
print(f"\n조정 LRT 평균 (이론 = 1): {LRT_adj.mean():.4f}")
print(f"조정 LRT 분산 (이론 χ^2_1 = 2): {LRT_adj.var():.4f}")
print(f"원 LRT 분산: {LRT_samples.var():.4f}")
# KS 검정 — χ^2_1 과의 일치
ks_orig = stats.kstest(LRT_samples, lambda x: stats.chi2.cdf(x, 1))
ks_adj = stats.kstest(LRT_adj, lambda x: stats.chi2.cdf(x, 1))
print(f"\nKS 검정:")
print(f" 원 LRT vs χ^2_1: stat={ks_orig.statistic:.4f}, p={ks_orig.pvalue:.3f}")
print(f" 조정 LRT vs χ^2_1: stat={ks_adj.statistic:.4f}, p={ks_adj.pvalue:.3f}")기대: 조정 LRT 가 원 LRT 보다 KS 통계량이 작음 → \(\chi^2_1\) 에 더 가까움.
11.2 다양한 \(n\) 에서 평균 검증
print(f"\n{'n':>5} {'orig mean':>10} {'adj mean':>10} {'theory 1+b/n':>14} {'KS orig':>10} {'KS adj':>8}")
for n in [10, 20, 50, 100, 500]:
LRT = simulate_lrt_exponential(n, 1.0, 1.0, n_sim=5000)
rho3 = 2/np.sqrt(n); rho4 = 6/n
b_over_n = (5*rho3**2 - 3*rho4)/12
LRT_adj = LRT / (1 + b_over_n)
ks_o = stats.kstest(LRT, lambda x: stats.chi2.cdf(x, 1)).statistic
ks_a = stats.kstest(LRT_adj, lambda x: stats.chi2.cdf(x, 1)).statistic
print(f"{n:5d} {LRT.mean():10.4f} {LRT_adj.mean():10.4f} "
f"{1+b_over_n:14.4f} {ks_o:10.4f} {ks_a:8.4f}")기대: \(n\) 이 증가할수록 KS 가 작아지고 (점근 개선), 조정 LRT 의 KS 가 원 LRT 보다 항상 작음 (Bartlett 효과).
12 Appendix 전체의 종합
Appendix A, B, C 의 관계:
| 부록 | 내용 | 역할 |
|---|---|---|
| A | Likelihood theory 기본 | 모든 점근 결과의 토대 |
| B | Edgeworth series | 점근 근사의 고차 보정 |
| C | LRT 의 점근 | Bartlett 조정의 증명 |
논리 흐름: A 의 Bartlett 항등식 → B 의 Edgeworth → C 의 Cornish-Fisher → Bartlett 인수.
세 부록이 단단히 연결 된다. McCullagh-Nelder 가 본문에서 선언적으로 사용한 결과들이 여기서 유도됨.
13 McCullagh-Nelder 시리즈 최종 완료
이 포스트가 McCullagh-Nelder (1989) 블로그 시리즈의 마지막. 본문 15 개 장 + 3 개 부록 전체 커버 완료.
13.1 최종 포스트 지도
| 범위 | 포스트 |
|---|---|
| Ch.1-2 이론 기초 | 00, 01-1~01-8 (9) |
| Ch.3 정규 | 02-1~02-10 (10) |
| Ch.4 이항 | 03-1~03-6 (6) |
| Ch.5 다범주 | 04-1~04-7 (7) |
| Ch.6 로그선형 | 05-1~05-7 (7) |
| Ch.7 조건부 | 06-1~06-5 (5) |
| Ch.8 Gamma | 07-1~07-5 (5) |
| Ch.9 준-우도 | 08-1~08-7 (7) |
| Ch.10 공동 평균-분산 | 09-1~09-9 (8) |
| Ch.11 비선형 모수 | 10-1~10-6 (6) |
| Ch.12 Model Checking | 11-1~11-10 (10) |
| Ch.13 생존 | 12-1~12-6 (6) |
| Ch.14 GLMM | 13-1~13-6 (6) |
| Ch.15 Further Topics | 14-1~14-5 (5) |
| Appendices | 15-1~15-3 (3) |
| 합계 | ~100 포스트 |
13.2 출간 후 30 년
McCullagh-Nelder (1989) 가 현재까지 살아있는 이유:
- 통일성: 단일 언어 (지수족 GLM) 가 수천 개 특수 사례를 통합.
- 알고리즘: IRLS 가 여전히 표준 엔진.
- 진단: Deviance, 잔차, 레버리지, Cook 거리 — 모두 McCullagh-Nelder 에서 체계화.
- 철학: “최소 가정으로 시작 → 필요 시 확장” 원칙.
- 수학적 엄밀성: 여기 Appendix C 같은 고급 결과를 응용 분석가에게 접근 가능하게 제시.
13.3 2020 년대 확장
이 시리즈가 다루지 못한 (책 이후의) 발전:
- Bayesian GLM:
brms,Stan기반. - Lasso / Ridge GLM: 고차원 정규화.
- Neural networks with GLM readout: Deep Learning 과의 결합.
- Causal GLM: Propensity, IPW, doubly robust.
- Robust GLM: M-estimators, MM.
각각 별도 블로그 시리즈로 가능. McCullagh-Nelder 의 기초 위에 쌓아 올린 30 년 간의 진화.
13.4 마지막 인사
McCullagh & Nelder, Generalized Linear Models (1989) 는 완결된 건축물. 처음 12 장이 벽과 기둥, 마지막 3 장 + 3 부록이 지붕과 마감. 이 블로그 시리즈가 한국어 독자에게 그 건축을 거니는 경로가 되었기를.
“모든 모델은 틀리다. 일부는 유용하다.” — Box (1980). McCullagh-Nelder 의 틀은 그 “유용한” 모델들의 집합을 만드는 공통 설계도 였다.
14 관련 주제
Appendix 시리즈
직접 연결
- Bartlett Adjustment — §15.3 — 이 Appendix C 의 응용
- Further Topics — Ch.15 개관
- Model Checking — Score Tests (§12.3) — LRT 대안
- GLM Theory Foundation (§2) — 지수족
참고 문헌
- Bartlett, M. S. (1937). “Properties of sufficiency and statistical tests.” Proc. R. Soc. Lond. A 160: 268-282.
- Lawley, D. N. (1956). “A general method for approximating to the distribution of likelihood ratio criteria.” Biometrika 43: 295-303. Bartlett 일반화 정리.
- Barndorff-Nielsen, O. E. & Cox, D. R. (1984). “Bartlett adjustments to the likelihood ratio statistic…” JRSS B 46: 483-495.
- McCullagh, P. (1984a). “Local sufficiency.” Biometrika 71: 233-244.
- McCullagh, P. & Cox, D. R. (1986). “Invariants and likelihood ratio statistics.” Ann. Statist. 14: 1419-1430. 6 불변 스칼라 출처.
- Kendall, M. G. & Stuart, A. (1977). The Advanced Theory of Statistics, Vol. 1 (4th ed.). — Cornish-Fisher 전개.
- McCullagh, P. (1987). Tensor Methods in Statistics. Chapman & Hall. — 벡터·다모수 확장.
Cornish-Fisher 전개 심화
- Cornish, E. A. & Fisher, R. A. (1937). “Moments and cumulants in the specification of distributions.” Rev. Int. Statist. Inst. 5: 307-322.
- Hall, P. (1992). The Bootstrap and Edgeworth Expansion. Springer.
마무리
이것으로 McCullagh & Nelder (1989) 의 블로그 시리즈가 완결됩니다. 15 장 + 3 부록 = 약 100 포스트. 각 포스트가 원서의 압축을 풀어내고 Python 구현과 현대적 맥락을 덧붙였습니다.
다음 시리즈로 이어갈 수 있는 주제들: Nelder-Lee Hierarchical GLM (HGLM), Wood Generalized Additive Models, Gelman Bayesian Data Analysis, Hastie-Tibshirani-Friedman ESL. 각각이 McCullagh-Nelder 의 후속·확장을 다루는 또 다른 블로그 시리즈의 재료가 됩니다.