1 서론 — 왜 Appendix 가 중요한가
McCullagh & Nelder (1989) 의 본문 15 개 장 은 가능도 이론을 “증명 없이 사용” 한다.
- Ch.2: “Fisher 정보 \(-E(\partial^2 l/\partial\theta^2)\) 의 역수가 \(\widehat\theta\) 의 점근 분산.”
- Ch.12: “우도비 통계량이 \(\chi^2\) 분포.”
- Ch.15: “Bartlett 항등식으로 고차 cumulant 유도.”
Appendix A 가 이 주장들의 출처를 압축 정리 한다. 증명을 모두 생략하지만, 각 결과의 의미와 사용 맥락 을 명확히 한다.
이 포스트는 Appendix A 의 11 개 주장을 직관적 유도 + 현대적 맥락 + 수치 검증 으로 심화한다. 본문 장들을 읽으며 쉽게 넘겼던 점근 주장들의 구체적 근거 를 제공한다.
1.1 다루는 범위
| 구분 | 주제 |
|---|---|
| 스칼라 모수 | A.1 Bartlett · A.2 3차 항등식 · A.3-A.5 점근 |
| 벡터 모수 | Fisher 행렬 · rank 조건 |
| 방해 모수 | A.6 Schur 보수 · A.7-A.8 profile LRT |
2 로그 가능도의 기본 정의
2.1 정의
로그 가능도 (log-likelihood):
\[ l(\theta; y) = \log f_Y(y; \theta). \]
독립 관측 일 때:
\[ l(\theta; y) = \sum_{i=1}^n \log f_{Y_i}(y_i; \theta). \]
\(n\) 개 독립 기여의 합 — 점근 이론의 핵심 구조.
2.2 왜 로그인가
세 가지 이유:
- 합으로 변환: 독립 가능도의 곱 → 로그의 합. 미분·적분이 쉬움.
- Numeric 안정성: \(n\) 개 확률의 곱은 매우 작은 수. 로그로 scale 안정.
- 점근 이론 호환: 중심극한정리 등 합 에 대한 결과를 직접 적용.
3 Bartlett Identities (A.1)
3.1 두 항등식
\[ E_\theta\left(\frac{\partial l}{\partial \theta}\right) = 0. \tag{A.1.1} \]
\[ E_\theta\left(\frac{\partial^2 l}{\partial \theta^2}\right) + \text{Var}_\theta\left(\frac{\partial l}{\partial \theta}\right) = 0. \tag{A.1.2} \]
3.2 유도 — 밀도 적분의 미분
기본 식:
\[ \int f_Y(y; \theta) dy = 1 \quad \text{모든 } \theta. \]
(정규화 조건 — 밀도는 항상 1 로 적분.)
\(\theta\) 에 대해 미분:
\[ 0 = \frac{\partial}{\partial\theta} \int f(y;\theta) dy = \int \frac{\partial f}{\partial\theta} dy = \int \frac{\partial l}{\partial\theta} f dy = E_\theta\left(\frac{\partial l}{\partial\theta}\right). \]
(이때 \(\partial f/\partial\theta = f \cdot \partial\log f/\partial\theta = f \cdot \partial l/\partial\theta\) 사용.)
결과: (A.1.1) — 스코어 통계량 \(U = \partial l/\partial\theta\) 의 기대값이 0.
3.3 두 번째 항등식
한 번 더 미분:
\[ 0 = \frac{\partial}{\partial\theta} \int \frac{\partial l}{\partial\theta} f dy = \int \left\{\frac{\partial^2 l}{\partial\theta^2} f + \frac{\partial l}{\partial\theta} \cdot \frac{\partial l}{\partial\theta} f \right\} dy. \]
(둘째 항은 \(\partial f/\partial\theta = f \cdot \partial l/\partial\theta\) 재사용.)
\[ = E\left(\frac{\partial^2 l}{\partial\theta^2}\right) + E\left[\left(\frac{\partial l}{\partial\theta}\right)^2\right]. \]
\(E[(\partial l/\partial\theta)^2] = \text{Var}(\partial l/\partial\theta) + (E(\partial l/\partial\theta))^2 = \text{Var}(U) + 0 = \text{Var}(U)\).
결과: (A.1.2).
3.4 해석 — Fisher 정보의 두 표현
\[ \boxed{\; i(\theta) = \text{Var}_\theta(U) = -E_\theta\left(\frac{\partial^2 l}{\partial\theta^2}\right). \;} \]
Fisher 정보는 두 가지 동등한 표현: - 스코어의 분산 (Bartlett 1st form). - 음 Hessian 의 기대값 (Bartlett 2nd form).
두 표현이 같음은 (A.1.2) 의 직접 결과.
“스코어 분산” 관점: \(U\) 가 \(\theta\) 근방에서 얼마나 민감하게 반응 하는가. \(U\) 분산이 크면 → 작은 \(\theta\) 변화가 큰 \(U\) 변화 → 정보 많음.
“곡률” 관점: 로그 가능도가 \(\widehat\theta\) 에서 얼마나 뾰족한가. \(\partial^2 l/\partial\theta^2\) 가 크게 음수 (곡률 큼) → 최대점이 날카로움 → 정보 많음.
두 관점이 동등함을 Bartlett 항등식이 보장. 실무적으로는 계산 편한 것 을 사용: - Numerical: 두 번째 도함수 계산. - Analytical: 첫 번째 도함수 분산 (더 간결한 경우 많음).
4 3차 Bartlett Identity (A.2)
4.1 결과
\[ E_\theta\left(\frac{\partial^3 l}{\partial\theta^3}\right) + 3\text{Cov}_\theta\left(\frac{\partial^2 l}{\partial\theta^2}, \frac{\partial l}{\partial\theta}\right) + E_\theta\left[\left(\frac{\partial l}{\partial\theta}\right)^3\right] = 0. \tag{A.2} \]
4.2 유도 아이디어
(A.1.2) 을 한 번 더 \(\theta\) 로 미분. 같은 절차 — \(\partial f/\partial\theta = f \cdot \partial l/\partial\theta\) 를 반복 적용.
결과는 3차 적률 3 개의 합 = 0 이라는 형태.
4.3 사용 — Bartlett 조정 (§15.3)
이 항등식이 Bartlett 조정 (Ch.15.3) 의 핵심 재료.
구체적으로 (A.2) 의 각 항이 6 개 불변 스칼라 (15.9) 중 일부를 구성. (A.2) 없으면 Bartlett 인수 유도 불가능.
4.4 일반화
McCullagh (1987) 의 \(k\)-차 Bartlett identity 로 일반화. \(k\) 차 cumulant 의 합 = 0 형태. 실무에서는 4차까지 사용.
5 Terminology — 스코어와 Fisher 정보
5.1 스코어 통계량
\[ U(\theta; y) = \frac{\partial l}{\partial\theta}. \]
평균 0, 분산 \(i(\theta)\). MLE 방정식의 근:
\[\widehat\theta: U(\widehat\theta; y) = 0.\]
5.2 Fisher 정보
\[ i(\theta) = \text{Var}_\theta(U). \]
독립 관측의 경우:
\[ U = \sum_i U_i, \quad U_i = \frac{\partial \log f_{Y_i}}{\partial\theta}. \]
독립성 덕분에
\[ i(\theta) = \sum_i i_i(\theta). \]
정보의 가산성 — \(n\) 개 관측치가 \(n\) 배 정보. 이것이 \(i(\theta) \sim n\) 스케일링의 근거.
6 점근 정규성 (A.3-A.4)
6.1 스코어의 점근 정규성 (A.3)
\[ i(\theta)^{-1/2} U \sim N(0, 1) + O_p(n^{-1/2}). \]
유도 아이디어: \(U = \sum U_i\) 이고 \(U_i\) 가 i.i.d. (또는 약한 의미에서 교환 가능) → 중심극한정리.
\(E(U_i) = 0\) (A.1 로부터), \(\text{Var}(U_i) = i_i\). 합의 평균 0, 분산 \(i = \sum i_i\). 중심극한정리에 의해 \(U/\sqrt{i}\) 가 표준 정규로 수렴.
6.2 MLE 의 점근 정규성 (A.4)
\[ \widehat\theta - \theta \sim N(0, i(\theta)^{-1}). \]
유도 — Taylor 전개:
\[ 0 = U(\widehat\theta) \simeq U(\theta) + (\widehat\theta - \theta) \cdot U'(\theta). \]
재배열:
\[ \widehat\theta - \theta \simeq -\frac{U(\theta)}{U'(\theta)}. \]
점근적으로 \(U'(\theta) \simeq E(U') = -i(\theta)\) (Bartlett 2nd). 따라서
\[ \widehat\theta - \theta \simeq \frac{U}{i(\theta)}. \]
\(U \sim N(0, i)\) 이므로 \(\widehat\theta - \theta \sim N(0, i/i^2) = N(0, i^{-1})\).
6.3 정보 부등식 해석
Cramer-Rao: 모든 비편향 추정량의 분산 하한이 \(i^{-1}\). MLE 가 점근적으로 이 하한 달성 — 점근 효율 100%.
위 결과들에 필요한 정규성 조건:
- 표본 공간 모수 무관: \(\theta\) 가 바뀌어도 가능한 \(y\) 값 변하지 않음. 예외: 균등 분포 \(U(0, \theta)\).
- 미분과 적분 교환 가능: 밀도가 \(\theta\) 에 대해 충분히 매끄러움.
- 정보 유한: \(i(\theta) < \infty\).
- \(n \to \infty\) 에서 \(i(\theta) \to \infty\).
이 조건들이 실패하면 점근 결과 적용 불가. 실제 예: 균등 분포에서 MLE 의 수렴 속도가 \(n\) 이지 \(\sqrt n\) 이 아니다.
7 우도비 통계량 (A.5)
7.1 결과
\[ 2l(\widehat\theta; Y) - 2l(\theta; Y) \sim \chi_1^2 + O(n^{-1}). \]
7.2 유도
\(\widehat\theta\) 주변 Taylor 전개 (스칼라, 2차):
\[ l(\theta) \simeq l(\widehat\theta) + (\theta - \widehat\theta) U(\widehat\theta) + \frac{1}{2}(\theta - \widehat\theta)^2 U'(\widehat\theta). \]
\(U(\widehat\theta) = 0\) (MLE 정의). \(U'(\widehat\theta) \simeq -i(\theta)\) (관측 정보).
\[ l(\theta) - l(\widehat\theta) \simeq -\frac{1}{2}(\theta - \widehat\theta)^2 i(\theta). \]
2 배 음수:
\[ 2l(\widehat\theta) - 2l(\theta) \simeq (\theta - \widehat\theta)^2 i(\theta) = \{i^{1/2}(\widehat\theta - \theta)\}^2. \]
\(i^{1/2}(\widehat\theta - \theta) \sim N(0, 1)\) 이므로 제곱은 \(\chi^2_1\).
7.3 왜 LRT 가 Wald 보다 선호되는가
Wald: \((\widehat\theta - \theta)^2 i(\theta)\). 같은 점근 결과.
차이: - LRT: 재모수화 불변. \(\psi = h(\theta)\) 변환해도 같은 값. - Wald: 재모수화에 의존. 음의 신뢰구간 등 불합리 가능.
실무: LRT 가 유한 표본에서 더 정확한 근사 제공. 추천.
8 벡터 모수 (A.6-A.8)
8.1 Fisher 정보 행렬
\(\theta \in \mathbb R^p\) 벡터 모수. 스코어는 벡터:
\[U_r = \partial l / \partial \theta_r.\]
Fisher 정보는 행렬:
\[i_{rs}(\theta) = -E\left(\frac{\partial^2 l}{\partial\theta_r \partial\theta_s}\right) = \text{Cov}(U_r, U_s).\]
8.2 점근 결과의 벡터화
\[ \widehat\theta - \theta \sim N_p(0, i^{-1}). \]
공분산 행렬 = \(i^{-1}\) (행렬 역).
8.3 \(i(\theta) \to \infty\) 의 의미
스칼라에서는 자명. 벡터에서는 eigenvalue 해석:
\(i(\theta)\) 의 최소 eigenvalue 가 \(n\) 에 비례해 증가 해야 한다.
Rank 조건: \(i(\theta)\) 가 모든 \(\theta\) 에서 rank \(p\) 유지. 공선성 문제 — 일부 모수가 식별 불가하면 rank 감소.
8.4 LRT 벡터화 (A.7)
\[ 2l(\widehat\theta; Y) - 2l(\theta; Y) \sim \chi_p^2 + O(n^{-1}). \]
자유도 = 모수 차원 \(p\).
유도: 2차 Taylor 벡터화 → quadratic form \((\widehat\theta - \theta)^T i (\widehat\theta - \theta)\). \(i^{1/2}(\widehat\theta - \theta) \sim N_p(0, I)\) 의 제곱 노름 = \(\chi^2_p\).
9 방해 모수와 Schur 보수 (A.6)
9.1 문제 설정
\(\theta = (\psi, \lambda)\) 분할: - \(\psi\) = 관심 모수 (primary interest). - \(\lambda\) = 방해 모수 (nuisance, 추정하지만 직접 관심 아님).
9.2 Fisher 정보 행렬 분할
\[ i(\theta) = \begin{pmatrix} i_{\psi\psi} & i_{\psi\lambda} \\ i_{\lambda\psi} & i_{\lambda\lambda} \end{pmatrix}. \]
\(i^{-1}(\theta) = \begin{pmatrix} i^{\psi\psi} & i^{\psi\lambda} \\ i^{\lambda\psi} & i^{\lambda\lambda} \end{pmatrix}\) — 블록 역행렬.
9.3 \(\widehat\psi\) 의 Fisher 정보 — Schur 보수 (A.6)
공식:
\[ \boxed{\; \{i^{\psi\psi}\}^{-1} = i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}. \;} \tag{A.6} \]
이것이 \(\widehat\psi\) 의 (역) 공분산 — \(\lambda\) 가 미지일 때.
9.4 왜 단순히 \(i_{\psi\psi}\) 가 아닌가
\(\lambda\) 가 알려진 경우 (\(\lambda\) 고정): \(\widehat\psi\) 의 정보 = \(i_{\psi\psi}\).
\(\lambda\) 가 미지인 경우: \(\lambda\) 추정에 정보의 일부가 소모됨. 남은 정보 = \(i_{\psi\psi}\) 에서 \(\lambda\) 와의 상호 정보를 빼야 함.
Schur 보수 \(i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\) 가 “\(\psi\) 의 순수 정보” — \(\lambda\) 추정의 소모분 제외 을 정량화.
\(\psi\) 에 \(i_{\psi\psi}\) 만큼의 “총 정보” 가 있다. 하지만 \(\lambda\) 도 추정해야 하므로 정보의 일부가 \(\lambda\) 로 샌다.
샘 의 크기: \(i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\). - \(i_{\psi\lambda}\): \(\psi\) 와 \(\lambda\) 의 정보 공유 크기. - \(i_{\lambda\lambda}^{-1}\): \(\lambda\) 의 불확실성. - 함께 = “\(\lambda\) 추정으로 \(\psi\) 가 잃는 정보”.
\(\psi \perp \lambda\) (정보 직교) 이면 \(i_{\psi\lambda} = 0\), 손실 없음. Schur 보수 = \(i_{\psi\psi}\).
\(\psi\) 와 \(\lambda\) 가 강하게 얽힘 이면 \(i_{\psi\lambda}\) 큼, 손실 큼. Schur 보수가 작아져 \(\widehat\psi\) SE 증가.
설계 원칙: 실험 설계 시 직교성 을 추구 — 관심 모수와 방해 모수를 분리. 이것이 Latin square 같은 직교 설계의 가치.
9.5 프로파일 우도와의 관계
Profile likelihood: \(\psi\) 고정, \(\lambda\) 를 \(\widehat\lambda_\psi\) 로 최대화:
\[ l_P(\psi) = l(\psi, \widehat\lambda_\psi). \]
\(l_P\) 의 2차 도함수: Schur 보수와 정확히 같음.
\[-l_P''(\psi) = \{i^{\psi\psi}\}^{-1}.\]
따라서 profile likelihood 기반 추론 이 자동으로 Schur 보수를 사용. 실무 표준.
9.6 LRT 와 방해 모수 (A.7-A.8)
\[ 2l(\widehat\psi, \widehat\lambda) - 2l(\psi, \widehat\lambda_\psi) \sim \chi^2_{p-q} + O(n^{-1}). \tag{A.8} \]
- \(p\) = 전체 모수 수.
- \(q\) = 방해 모수 수.
- 자유도 = \(p - q\) = 관심 모수 수.
해석: \(\widehat\lambda_\psi\) 가 \(\lambda\) 를 모수당 1 자유도 소비. \(\widehat\lambda\) 도 \(\lambda\) 를 추정. 두 값의 차이가 \(\psi\) 만의 기여. 따라서 자유도 \(p - q\).
9.7 신뢰 집합
\[ \{\psi : 2l(\widehat\psi, \widehat\lambda) - 2l(\psi, \widehat\lambda_\psi) \leq \chi^2_{p-q, \alpha}\} \]
이 근사 \(100(1-\alpha)\%\) 신뢰 집합. Wald 구간보다 일반적으로 커버리지 정확.
10 방해 모수 처리의 세 전략
10.1 1. Profile Likelihood
\(\widehat\lambda_\psi\) 로 \(\lambda\) 를 대체.
장점: 단순, 일반적 적용. 단점: 방해 모수가 많으면 편향. Neyman-Scott 문제.
10.2 2. Conditional Likelihood
충분 통계량에 조건부 분포로 \(\lambda\) 제거 (Ch.7 참고).
장점: \(\lambda\) 완전 제거, 편향 없음. 단점: 적용 가능한 상황 제한적. 지수족 필요.
10.3 3. Marginal Likelihood
\(\lambda\) 를 prior 로 적분해 제거.
장점: Bayesian 틀과 호환. 단점: Prior 선택 민감.
10.4 언제 어느 것을 쓰나
| 상황 | 전략 |
|---|---|
| 방해 모수 수 \(\ll n\) | Profile 충분 |
| 방해 모수 수 \(\sim n\) | Conditional 또는 Marginal |
| Bayesian 분석 | Marginal (posterior) |
| 지수족 | Conditional 선호 |
11 Python 시뮬레이션 — 점근 결과 검증
11.1 설정 — 이항 로지스틱
간단 사례: \(Y_i \sim \text{Bernoulli}(\pi(\theta))\), \(\text{logit}(\pi) = \theta\).
이론값: - \(i(\theta) = n \cdot \pi(\theta)(1 - \pi(\theta))\). - \(\widehat\theta \sim N(\theta, i^{-1})\). - \(2l(\widehat\theta) - 2l(\theta) \sim \chi^2_1\).
11.2 Python 검증
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
np.random.seed(42)
def simulate_logistic(n, theta_true, n_sim=5000):
pi_true = 1 / (1 + np.exp(-theta_true))
results = {
'theta_hat': [],
'LRT': []
}
for _ in range(n_sim):
y = np.random.binomial(1, pi_true, n)
n_success = y.sum()
if n_success == 0 or n_success == n:
continue # perfect separation
pi_hat = n_success / n
theta_hat = np.log(pi_hat / (1 - pi_hat))
results['theta_hat'].append(theta_hat)
# LRT
l_hat = n_success * np.log(pi_hat) + (n - n_success) * np.log(1 - pi_hat)
l_true = n_success * np.log(pi_true) + (n - n_success) * np.log(1 - pi_true)
results['LRT'].append(2 * (l_hat - l_true))
return results
theta_true = 0.5
n_small = 30 # 작은 표본
n_large = 300 # 큰 표본
r_small = simulate_logistic(n_small, theta_true)
r_large = simulate_logistic(n_large, theta_true)
# 1. MLE 의 점근 정규성 (A.4)
for n, r in [(n_small, r_small), (n_large, r_large)]:
pi_true = 1 / (1 + np.exp(-theta_true))
i_theta = n * pi_true * (1 - pi_true)
theta_hats = np.array(r['theta_hat'])
# 표준화
z = (theta_hats - theta_true) * np.sqrt(i_theta)
# 정규성 검정
ks_stat, ks_pval = stats.kstest(z, 'norm')
print(f"n={n}: KS test z vs N(0,1): stat={ks_stat:.4f}, p={ks_pval:.3f}")
# 2. LRT 의 점근 χ²_1 (A.5)
for n, r in [(n_small, r_small), (n_large, r_large)]:
LRT = np.array(r['LRT'])
ks_stat, ks_pval = stats.kstest(LRT, lambda x: stats.chi2.cdf(x, 1))
print(f"n={n}: KS test LRT vs χ²_1: stat={ks_stat:.4f}, p={ks_pval:.3f}")기대: - 큰 \(n\) 에서 \(z \sim N(0,1)\), LRT \(\sim \chi^2_1\) 잘 근사. - 작은 \(n\) 에서 KS 통계량 더 큼 — 점근 근사의 한계.
11.3 시각화 — 히스토그램 비교
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
# MLE 분포
for i, (n, r) in enumerate([(n_small, r_small), (n_large, r_large)]):
pi_true = 1 / (1 + np.exp(-theta_true))
i_theta = n * pi_true * (1 - pi_true)
theta_hats = np.array(r['theta_hat'])
z = (theta_hats - theta_true) * np.sqrt(i_theta)
axes[0, i].hist(z, bins=40, density=True, alpha=0.7)
grid = np.linspace(-4, 4, 100)
axes[0, i].plot(grid, stats.norm.pdf(grid), 'r-', lw=2, label='N(0,1)')
axes[0, i].set_title(f'n={n}: $\sqrt{{i}}(\hat\\theta - \\theta)$')
axes[0, i].legend()
# LRT 분포
for i, (n, r) in enumerate([(n_small, r_small), (n_large, r_large)]):
LRT = np.array(r['LRT'])
axes[1, i].hist(LRT, bins=40, density=True, alpha=0.7)
grid = np.linspace(0, 10, 200)
axes[1, i].plot(grid, stats.chi2.pdf(grid, 1), 'r-', lw=2, label='χ²_1')
axes[1, i].set_title(f'n={n}: LRT')
axes[1, i].legend()
plt.tight_layout()
plt.show()11.4 Bartlett 항등식 검증
# A.1.2: Var(U) = -E(U')
# Bernoulli: l = Σ y log π + (n-Σy) log(1-π)
# U = Σy/π - (n-Σy)/(1-π) (with chain rule for θ->π)
# Actually θ = logit(π), π = expit(θ)
# l(θ) = Σy θ - n log(1 + e^θ)
# U = Σy - n * π
# U' = -n * π * (1-π)
# Var(U) = n * π * (1-π)
# → Var(U) = -E(U') ✓
n = 100
theta = 0.5
pi_val = 1/(1+np.exp(-theta))
i_theta_theoretical = n * pi_val * (1 - pi_val)
print(f"\nFisher 정보 (이론): {i_theta_theoretical:.2f}")
# 시뮬레이션 확인
n_sim = 10000
U_samples = []
for _ in range(n_sim):
y = np.random.binomial(1, pi_val, n)
U = y.sum() - n * pi_val
U_samples.append(U)
print(f"Var(U) 시뮬: {np.var(U_samples):.2f}")
print(f"이론과 차이: {abs(np.var(U_samples) - i_theta_theoretical):.2f}")기대: 시뮬 Var(U) ≈ 이론 정보.
12 요약 — Appendix A 의 네 가지 핵심
12.1 1. Bartlett 항등식: 밀도 적분 = 1 의 미분
모든 가능도 결과의 출발점. \(E(U) = 0\), \(\text{Var}(U) = -E(U')\). 3차 항등식 (A.2) 가 Bartlett 조정 (§15.3) 의 기초.
12.2 2. MLE 의 점근 정규성: Taylor 2차
\(\widehat\theta - \theta \simeq U/i\). \(U \sim N(0, i)\) (CLT) → \(\widehat\theta \sim N(\theta, i^{-1})\). Cramer-Rao 하한 달성.
12.3 3. LRT 의 \(\chi^2_p\): Taylor 2차 제곱
\(2l(\widehat\theta) - 2l(\theta) \simeq i(\widehat\theta - \theta)^2 = (i^{1/2}(\widehat\theta - \theta))^2 \sim \chi^2\). 자유도 = 모수 차원.
12.4 4. Schur 보수: 방해 모수의 정보 손실
\(\widehat\psi\) 의 정보 = \(i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\). 방해 모수 추정으로 인한 손실 정량화. 실험 설계의 직교성이 이 손실 최소화.
12.5 한 줄 정리
Appendix A 는 책 전체가 의존하는 가능도 이론의 압축 정리. 밀도 적분의 미분 = 1 이라는 단순한 사실에서 Bartlett 항등식, Fisher 정보, 점근 정규성, \(\chi^2\) LRT, Schur 보수가 순차적으로 유도된다. 이 체계가 McCullagh-Nelder (1989) 책 전체의 수학적 토대.
13 관련 주제
선행 지식
- GLM 이론 기초 (McCullagh Ch.2) — Fisher 정보의 직접 사용
- GLM 적합 알고리즘 — IRLS (McCullagh §2.5) — 스코어 방정식
- Score Tests for Extra Parameters (McCullagh §12.3) — 스코어 검정
- Bias Adjustment (McCullagh §15.2) — 3차 Bartlett 활용
- Bartlett Adjustment (McCullagh §15.3) — Bartlett 항등식의 직접 응용
관련 개념
- Conditional Likelihoods (McCullagh Ch.7) — 조건부 우도
- MLE · 일치성 · 효율 (Casella-Berger Ch.10)
- 점근 이론 (Casella-Berger Ch.10)
참고 문헌
- McCullagh, P. (1987). Tensor Methods in Statistics. Chapman & Hall. — Appendix A 의 상세 증명 출처.
- Cox, D. R. & Hinkley, D. V. (1974). Theoretical Statistics. Chapman & Hall. — 가능도 이론 고전.
- Barndorff-Nielsen, O. E. & Cox, D. R. (1994). Inference and Asymptotics. Chapman & Hall. — 고차 점근.
- Lehmann, E. L. & Romano, J. P. (2005). Testing Statistical Hypotheses (3rd ed.). — 검정 이론.
후속 주제
- Appendix B — Edgeworth Series — 점근 확장의 고차 보정
- Appendix C — Likelihood-Ratio Statistics — Bartlett 조정의 상세 증명