Appendix A — Elementary Likelihood Theory (McCullagh & Nelder)

Bartlett identities · Fisher information · LRT 점근 \(\chi^2\) · 벡터 모수 · Schur 보수 (A.6) · 방해 모수

McCullagh & Nelder (1989) Appendix A 를 심화한다. 책 전반에서 “증명 없이 사용되는” 가능도 이론의 기초를 정리한 부록. 로그 가능도의 미분 항등식 (A.1) \(E(U) = 0\), \(\text{Var}(U) = -E(U')\) 을 밀도 적분 = 1 의 미분으로 유도. 3차 Bartlett 항등식 (A.2) 이 Bartlett 조정 (§15.3) 의 기초임을 설명. 스코어 통계량 · Fisher 정보 · MLE 의 점근 정규성 (A.4) \(\widehat\theta \sim N(\theta, i^{-1})\) 과 LRT 의 점근 \(\chi^2_p\) (A.5) 를 Taylor 전개로 유도. 벡터 모수 확장에서 Fisher 정보 행렬의 eigenvalue 해석과 rank 조건. 방해 모수 \(\theta = (\psi, \lambda)\) 분할에서 \(\widehat\psi\) 의 정보는 Schur 보수 \(\{i^{\psi\psi}\}^{-1} = i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\) (A.6) — “방해 모수 추정으로 인한 정보 손실” 의 정량화. 프로파일 우도 · 조건부 우도 · 주변 우도 세 전략의 차이. (A.7-A.8) 의 방해 모수 하 LRT. Python 시뮬레이션으로 점근 결과들을 소표본에서 수치 검증한다.

Statistics
GLM
저자

Kwangmin Kim

공개

2026년 04월 21일

1 서론 — 왜 Appendix 가 중요한가

McCullagh & Nelder (1989) 의 본문 15 개 장 은 가능도 이론을 “증명 없이 사용” 한다.

  • Ch.2: “Fisher 정보 \(-E(\partial^2 l/\partial\theta^2)\) 의 역수가 \(\widehat\theta\) 의 점근 분산.”
  • Ch.12: “우도비 통계량이 \(\chi^2\) 분포.”
  • Ch.15: “Bartlett 항등식으로 고차 cumulant 유도.”

Appendix A 가 이 주장들의 출처를 압축 정리 한다. 증명을 모두 생략하지만, 각 결과의 의미와 사용 맥락 을 명확히 한다.

이 포스트는 Appendix A 의 11 개 주장을 직관적 유도 + 현대적 맥락 + 수치 검증 으로 심화한다. 본문 장들을 읽으며 쉽게 넘겼던 점근 주장들의 구체적 근거 를 제공한다.

1.1 다루는 범위

구분 주제
스칼라 모수 A.1 Bartlett · A.2 3차 항등식 · A.3-A.5 점근
벡터 모수 Fisher 행렬 · rank 조건
방해 모수 A.6 Schur 보수 · A.7-A.8 profile LRT

2 로그 가능도의 기본 정의

2.1 정의

로그 가능도 (log-likelihood):

\[ l(\theta; y) = \log f_Y(y; \theta). \]

독립 관측 일 때:

\[ l(\theta; y) = \sum_{i=1}^n \log f_{Y_i}(y_i; \theta). \]

\(n\) 개 독립 기여의 합 — 점근 이론의 핵심 구조.

2.2 왜 로그인가

세 가지 이유:

  1. 합으로 변환: 독립 가능도의 곱 → 로그의 합. 미분·적분이 쉬움.
  2. Numeric 안정성: \(n\) 개 확률의 곱은 매우 작은 수. 로그로 scale 안정.
  3. 점근 이론 호환: 중심극한정리 등 에 대한 결과를 직접 적용.

3 Bartlett Identities (A.1)

3.1 두 항등식

\[ E_\theta\left(\frac{\partial l}{\partial \theta}\right) = 0. \tag{A.1.1} \]

\[ E_\theta\left(\frac{\partial^2 l}{\partial \theta^2}\right) + \text{Var}_\theta\left(\frac{\partial l}{\partial \theta}\right) = 0. \tag{A.1.2} \]

3.2 유도 — 밀도 적분의 미분

기본 식:

\[ \int f_Y(y; \theta) dy = 1 \quad \text{모든 } \theta. \]

(정규화 조건 — 밀도는 항상 1 로 적분.)

\(\theta\) 에 대해 미분:

\[ 0 = \frac{\partial}{\partial\theta} \int f(y;\theta) dy = \int \frac{\partial f}{\partial\theta} dy = \int \frac{\partial l}{\partial\theta} f dy = E_\theta\left(\frac{\partial l}{\partial\theta}\right). \]

(이때 \(\partial f/\partial\theta = f \cdot \partial\log f/\partial\theta = f \cdot \partial l/\partial\theta\) 사용.)

결과: (A.1.1) — 스코어 통계량 \(U = \partial l/\partial\theta\) 의 기대값이 0.

3.3 두 번째 항등식

한 번 더 미분:

\[ 0 = \frac{\partial}{\partial\theta} \int \frac{\partial l}{\partial\theta} f dy = \int \left\{\frac{\partial^2 l}{\partial\theta^2} f + \frac{\partial l}{\partial\theta} \cdot \frac{\partial l}{\partial\theta} f \right\} dy. \]

(둘째 항은 \(\partial f/\partial\theta = f \cdot \partial l/\partial\theta\) 재사용.)

\[ = E\left(\frac{\partial^2 l}{\partial\theta^2}\right) + E\left[\left(\frac{\partial l}{\partial\theta}\right)^2\right]. \]

\(E[(\partial l/\partial\theta)^2] = \text{Var}(\partial l/\partial\theta) + (E(\partial l/\partial\theta))^2 = \text{Var}(U) + 0 = \text{Var}(U)\).

결과: (A.1.2).

3.4 해석 — Fisher 정보의 두 표현

\[ \boxed{\; i(\theta) = \text{Var}_\theta(U) = -E_\theta\left(\frac{\partial^2 l}{\partial\theta^2}\right). \;} \]

Fisher 정보는 두 가지 동등한 표현: - 스코어의 분산 (Bartlett 1st form). - 음 Hessian 의 기대값 (Bartlett 2nd form).

두 표현이 같음은 (A.1.2) 의 직접 결과.

직관: Fisher 정보의 두 얼굴

“스코어 분산” 관점: \(U\)\(\theta\) 근방에서 얼마나 민감하게 반응 하는가. \(U\) 분산이 크면 → 작은 \(\theta\) 변화가 큰 \(U\) 변화 → 정보 많음.

“곡률” 관점: 로그 가능도가 \(\widehat\theta\) 에서 얼마나 뾰족한가. \(\partial^2 l/\partial\theta^2\) 가 크게 음수 (곡률 큼) → 최대점이 날카로움 → 정보 많음.

두 관점이 동등함을 Bartlett 항등식이 보장. 실무적으로는 계산 편한 것 을 사용: - Numerical: 두 번째 도함수 계산. - Analytical: 첫 번째 도함수 분산 (더 간결한 경우 많음).

4 3차 Bartlett Identity (A.2)

4.1 결과

\[ E_\theta\left(\frac{\partial^3 l}{\partial\theta^3}\right) + 3\text{Cov}_\theta\left(\frac{\partial^2 l}{\partial\theta^2}, \frac{\partial l}{\partial\theta}\right) + E_\theta\left[\left(\frac{\partial l}{\partial\theta}\right)^3\right] = 0. \tag{A.2} \]

4.2 유도 아이디어

(A.1.2) 을 한 번 더 \(\theta\) 로 미분. 같은 절차 — \(\partial f/\partial\theta = f \cdot \partial l/\partial\theta\) 를 반복 적용.

결과는 3차 적률 3 개의 합 = 0 이라는 형태.

4.3 사용 — Bartlett 조정 (§15.3)

이 항등식이 Bartlett 조정 (Ch.15.3) 의 핵심 재료.

구체적으로 (A.2) 의 각 항이 6 개 불변 스칼라 (15.9) 중 일부를 구성. (A.2) 없으면 Bartlett 인수 유도 불가능.

4.4 일반화

McCullagh (1987) 의 \(k\)-차 Bartlett identity 로 일반화. \(k\) 차 cumulant 의 합 = 0 형태. 실무에서는 4차까지 사용.

5 Terminology — 스코어와 Fisher 정보

5.1 스코어 통계량

\[ U(\theta; y) = \frac{\partial l}{\partial\theta}. \]

평균 0, 분산 \(i(\theta)\). MLE 방정식의 근:

\[\widehat\theta: U(\widehat\theta; y) = 0.\]

5.2 Fisher 정보

\[ i(\theta) = \text{Var}_\theta(U). \]

독립 관측의 경우:

\[ U = \sum_i U_i, \quad U_i = \frac{\partial \log f_{Y_i}}{\partial\theta}. \]

독립성 덕분에

\[ i(\theta) = \sum_i i_i(\theta). \]

정보의 가산성\(n\) 개 관측치가 \(n\) 배 정보. 이것이 \(i(\theta) \sim n\) 스케일링의 근거.

6 점근 정규성 (A.3-A.4)

6.1 스코어의 점근 정규성 (A.3)

\[ i(\theta)^{-1/2} U \sim N(0, 1) + O_p(n^{-1/2}). \]

유도 아이디어: \(U = \sum U_i\) 이고 \(U_i\) 가 i.i.d. (또는 약한 의미에서 교환 가능) → 중심극한정리.

\(E(U_i) = 0\) (A.1 로부터), \(\text{Var}(U_i) = i_i\). 합의 평균 0, 분산 \(i = \sum i_i\). 중심극한정리에 의해 \(U/\sqrt{i}\) 가 표준 정규로 수렴.

6.2 MLE 의 점근 정규성 (A.4)

\[ \widehat\theta - \theta \sim N(0, i(\theta)^{-1}). \]

유도 — Taylor 전개:

\[ 0 = U(\widehat\theta) \simeq U(\theta) + (\widehat\theta - \theta) \cdot U'(\theta). \]

재배열:

\[ \widehat\theta - \theta \simeq -\frac{U(\theta)}{U'(\theta)}. \]

점근적으로 \(U'(\theta) \simeq E(U') = -i(\theta)\) (Bartlett 2nd). 따라서

\[ \widehat\theta - \theta \simeq \frac{U}{i(\theta)}. \]

\(U \sim N(0, i)\) 이므로 \(\widehat\theta - \theta \sim N(0, i/i^2) = N(0, i^{-1})\).

6.3 정보 부등식 해석

Cramer-Rao: 모든 비편향 추정량의 분산 하한이 \(i^{-1}\). MLE 가 점근적으로 이 하한 달성 — 점근 효율 100%.

점근 결과의 조건

위 결과들에 필요한 정규성 조건:

  1. 표본 공간 모수 무관: \(\theta\) 가 바뀌어도 가능한 \(y\) 값 변하지 않음. 예외: 균등 분포 \(U(0, \theta)\).
  2. 미분과 적분 교환 가능: 밀도가 \(\theta\) 에 대해 충분히 매끄러움.
  3. 정보 유한: \(i(\theta) < \infty\).
  4. \(n \to \infty\) 에서 \(i(\theta) \to \infty\).

이 조건들이 실패하면 점근 결과 적용 불가. 실제 예: 균등 분포에서 MLE 의 수렴 속도가 \(n\) 이지 \(\sqrt n\) 이 아니다.

7 우도비 통계량 (A.5)

7.1 결과

\[ 2l(\widehat\theta; Y) - 2l(\theta; Y) \sim \chi_1^2 + O(n^{-1}). \]

7.2 유도

\(\widehat\theta\) 주변 Taylor 전개 (스칼라, 2차):

\[ l(\theta) \simeq l(\widehat\theta) + (\theta - \widehat\theta) U(\widehat\theta) + \frac{1}{2}(\theta - \widehat\theta)^2 U'(\widehat\theta). \]

\(U(\widehat\theta) = 0\) (MLE 정의). \(U'(\widehat\theta) \simeq -i(\theta)\) (관측 정보).

\[ l(\theta) - l(\widehat\theta) \simeq -\frac{1}{2}(\theta - \widehat\theta)^2 i(\theta). \]

2 배 음수:

\[ 2l(\widehat\theta) - 2l(\theta) \simeq (\theta - \widehat\theta)^2 i(\theta) = \{i^{1/2}(\widehat\theta - \theta)\}^2. \]

\(i^{1/2}(\widehat\theta - \theta) \sim N(0, 1)\) 이므로 제곱은 \(\chi^2_1\).

7.3 왜 LRT 가 Wald 보다 선호되는가

Wald: \((\widehat\theta - \theta)^2 i(\theta)\). 같은 점근 결과.

차이: - LRT: 재모수화 불변. \(\psi = h(\theta)\) 변환해도 같은 값. - Wald: 재모수화에 의존. 음의 신뢰구간 등 불합리 가능.

실무: LRT 가 유한 표본에서 더 정확한 근사 제공. 추천.

8 벡터 모수 (A.6-A.8)

8.1 Fisher 정보 행렬

\(\theta \in \mathbb R^p\) 벡터 모수. 스코어는 벡터:

\[U_r = \partial l / \partial \theta_r.\]

Fisher 정보는 행렬:

\[i_{rs}(\theta) = -E\left(\frac{\partial^2 l}{\partial\theta_r \partial\theta_s}\right) = \text{Cov}(U_r, U_s).\]

8.2 점근 결과의 벡터화

\[ \widehat\theta - \theta \sim N_p(0, i^{-1}). \]

공분산 행렬 = \(i^{-1}\) (행렬 역).

8.3 \(i(\theta) \to \infty\) 의 의미

스칼라에서는 자명. 벡터에서는 eigenvalue 해석:

\(i(\theta)\)최소 eigenvalue 가 \(n\) 에 비례해 증가 해야 한다.

Rank 조건: \(i(\theta)\) 가 모든 \(\theta\) 에서 rank \(p\) 유지. 공선성 문제 — 일부 모수가 식별 불가하면 rank 감소.

8.4 LRT 벡터화 (A.7)

\[ 2l(\widehat\theta; Y) - 2l(\theta; Y) \sim \chi_p^2 + O(n^{-1}). \]

자유도 = 모수 차원 \(p\).

유도: 2차 Taylor 벡터화 → quadratic form \((\widehat\theta - \theta)^T i (\widehat\theta - \theta)\). \(i^{1/2}(\widehat\theta - \theta) \sim N_p(0, I)\) 의 제곱 노름 = \(\chi^2_p\).

9 방해 모수와 Schur 보수 (A.6)

9.1 문제 설정

\(\theta = (\psi, \lambda)\) 분할: - \(\psi\) = 관심 모수 (primary interest). - \(\lambda\) = 방해 모수 (nuisance, 추정하지만 직접 관심 아님).

9.2 Fisher 정보 행렬 분할

\[ i(\theta) = \begin{pmatrix} i_{\psi\psi} & i_{\psi\lambda} \\ i_{\lambda\psi} & i_{\lambda\lambda} \end{pmatrix}. \]

\(i^{-1}(\theta) = \begin{pmatrix} i^{\psi\psi} & i^{\psi\lambda} \\ i^{\lambda\psi} & i^{\lambda\lambda} \end{pmatrix}\) — 블록 역행렬.

9.3 \(\widehat\psi\) 의 Fisher 정보 — Schur 보수 (A.6)

공식:

\[ \boxed{\; \{i^{\psi\psi}\}^{-1} = i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}. \;} \tag{A.6} \]

이것이 \(\widehat\psi\) 의 (역) 공분산\(\lambda\) 가 미지일 때.

9.4 왜 단순히 \(i_{\psi\psi}\) 가 아닌가

\(\lambda\) 가 알려진 경우 (\(\lambda\) 고정): \(\widehat\psi\) 의 정보 = \(i_{\psi\psi}\).

\(\lambda\) 가 미지인 경우: \(\lambda\) 추정에 정보의 일부가 소모됨. 남은 정보 = \(i_{\psi\psi}\) 에서 \(\lambda\) 와의 상호 정보를 빼야 함.

Schur 보수 \(i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\)\(\psi\) 의 순수 정보” — \(\lambda\) 추정의 소모분 제외 을 정량화.

직관: Schur 보수 = “정보의 회계”

\(\psi\)\(i_{\psi\psi}\) 만큼의 “총 정보” 가 있다. 하지만 \(\lambda\) 도 추정해야 하므로 정보의 일부가 \(\lambda\) 로 샌다.

의 크기: \(i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\). - \(i_{\psi\lambda}\): \(\psi\)\(\lambda\)정보 공유 크기. - \(i_{\lambda\lambda}^{-1}\): \(\lambda\) 의 불확실성. - 함께 = “\(\lambda\) 추정으로 \(\psi\) 가 잃는 정보”.

\(\psi \perp \lambda\) (정보 직교) 이면 \(i_{\psi\lambda} = 0\), 손실 없음. Schur 보수 = \(i_{\psi\psi}\).

\(\psi\)\(\lambda\) 가 강하게 얽힘 이면 \(i_{\psi\lambda}\) 큼, 손실 큼. Schur 보수가 작아져 \(\widehat\psi\) SE 증가.

설계 원칙: 실험 설계 시 직교성 을 추구 — 관심 모수와 방해 모수를 분리. 이것이 Latin square 같은 직교 설계의 가치.

9.5 프로파일 우도와의 관계

Profile likelihood: \(\psi\) 고정, \(\lambda\)\(\widehat\lambda_\psi\) 로 최대화:

\[ l_P(\psi) = l(\psi, \widehat\lambda_\psi). \]

\(l_P\) 의 2차 도함수: Schur 보수와 정확히 같음.

\[-l_P''(\psi) = \{i^{\psi\psi}\}^{-1}.\]

따라서 profile likelihood 기반 추론 이 자동으로 Schur 보수를 사용. 실무 표준.

9.6 LRT 와 방해 모수 (A.7-A.8)

\[ 2l(\widehat\psi, \widehat\lambda) - 2l(\psi, \widehat\lambda_\psi) \sim \chi^2_{p-q} + O(n^{-1}). \tag{A.8} \]

  • \(p\) = 전체 모수 수.
  • \(q\) = 방해 모수 수.
  • 자유도 = \(p - q\) = 관심 모수 수.

해석: \(\widehat\lambda_\psi\)\(\lambda\) 를 모수당 1 자유도 소비. \(\widehat\lambda\)\(\lambda\) 를 추정. 두 값의 차이가 \(\psi\) 만의 기여. 따라서 자유도 \(p - q\).

9.7 신뢰 집합

\[ \{\psi : 2l(\widehat\psi, \widehat\lambda) - 2l(\psi, \widehat\lambda_\psi) \leq \chi^2_{p-q, \alpha}\} \]

근사 \(100(1-\alpha)\%\) 신뢰 집합. Wald 구간보다 일반적으로 커버리지 정확.

10 방해 모수 처리의 세 전략

10.1 1. Profile Likelihood

\(\widehat\lambda_\psi\)\(\lambda\) 를 대체.

장점: 단순, 일반적 적용. 단점: 방해 모수가 많으면 편향. Neyman-Scott 문제.

10.2 2. Conditional Likelihood

충분 통계량에 조건부 분포로 \(\lambda\) 제거 (Ch.7 참고).

장점: \(\lambda\) 완전 제거, 편향 없음. 단점: 적용 가능한 상황 제한적. 지수족 필요.

10.3 3. Marginal Likelihood

\(\lambda\) 를 prior 로 적분해 제거.

장점: Bayesian 틀과 호환. 단점: Prior 선택 민감.

10.4 언제 어느 것을 쓰나

상황 전략
방해 모수 수 \(\ll n\) Profile 충분
방해 모수 수 \(\sim n\) Conditional 또는 Marginal
Bayesian 분석 Marginal (posterior)
지수족 Conditional 선호

11 Python 시뮬레이션 — 점근 결과 검증

11.1 설정 — 이항 로지스틱

간단 사례: \(Y_i \sim \text{Bernoulli}(\pi(\theta))\), \(\text{logit}(\pi) = \theta\).

이론값: - \(i(\theta) = n \cdot \pi(\theta)(1 - \pi(\theta))\). - \(\widehat\theta \sim N(\theta, i^{-1})\). - \(2l(\widehat\theta) - 2l(\theta) \sim \chi^2_1\).

11.2 Python 검증

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

np.random.seed(42)

def simulate_logistic(n, theta_true, n_sim=5000):
    pi_true = 1 / (1 + np.exp(-theta_true))
    results = {
        'theta_hat': [],
        'LRT': []
    }
    for _ in range(n_sim):
        y = np.random.binomial(1, pi_true, n)
        n_success = y.sum()
        if n_success == 0 or n_success == n:
            continue  # perfect separation
        pi_hat = n_success / n
        theta_hat = np.log(pi_hat / (1 - pi_hat))
        results['theta_hat'].append(theta_hat)
        # LRT
        l_hat = n_success * np.log(pi_hat) + (n - n_success) * np.log(1 - pi_hat)
        l_true = n_success * np.log(pi_true) + (n - n_success) * np.log(1 - pi_true)
        results['LRT'].append(2 * (l_hat - l_true))
    return results

theta_true = 0.5
n_small = 30  # 작은 표본
n_large = 300 # 큰 표본

r_small = simulate_logistic(n_small, theta_true)
r_large = simulate_logistic(n_large, theta_true)

# 1. MLE 의 점근 정규성 (A.4)
for n, r in [(n_small, r_small), (n_large, r_large)]:
    pi_true = 1 / (1 + np.exp(-theta_true))
    i_theta = n * pi_true * (1 - pi_true)
    theta_hats = np.array(r['theta_hat'])
    # 표준화
    z = (theta_hats - theta_true) * np.sqrt(i_theta)
    # 정규성 검정
    ks_stat, ks_pval = stats.kstest(z, 'norm')
    print(f"n={n}: KS test z vs N(0,1): stat={ks_stat:.4f}, p={ks_pval:.3f}")

# 2. LRT 의 점근 χ²_1 (A.5)
for n, r in [(n_small, r_small), (n_large, r_large)]:
    LRT = np.array(r['LRT'])
    ks_stat, ks_pval = stats.kstest(LRT, lambda x: stats.chi2.cdf(x, 1))
    print(f"n={n}: KS test LRT vs χ²_1: stat={ks_stat:.4f}, p={ks_pval:.3f}")

기대: - 큰 \(n\) 에서 \(z \sim N(0,1)\), LRT \(\sim \chi^2_1\) 잘 근사. - 작은 \(n\) 에서 KS 통계량 더 큼 — 점근 근사의 한계.

11.3 시각화 — 히스토그램 비교

fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# MLE 분포
for i, (n, r) in enumerate([(n_small, r_small), (n_large, r_large)]):
    pi_true = 1 / (1 + np.exp(-theta_true))
    i_theta = n * pi_true * (1 - pi_true)
    theta_hats = np.array(r['theta_hat'])
    z = (theta_hats - theta_true) * np.sqrt(i_theta)
    axes[0, i].hist(z, bins=40, density=True, alpha=0.7)
    grid = np.linspace(-4, 4, 100)
    axes[0, i].plot(grid, stats.norm.pdf(grid), 'r-', lw=2, label='N(0,1)')
    axes[0, i].set_title(f'n={n}: $\sqrt{{i}}(\hat\\theta - \\theta)$')
    axes[0, i].legend()

# LRT 분포
for i, (n, r) in enumerate([(n_small, r_small), (n_large, r_large)]):
    LRT = np.array(r['LRT'])
    axes[1, i].hist(LRT, bins=40, density=True, alpha=0.7)
    grid = np.linspace(0, 10, 200)
    axes[1, i].plot(grid, stats.chi2.pdf(grid, 1), 'r-', lw=2, label='χ²_1')
    axes[1, i].set_title(f'n={n}: LRT')
    axes[1, i].legend()

plt.tight_layout()
plt.show()

11.4 Bartlett 항등식 검증

# A.1.2: Var(U) = -E(U')
# Bernoulli: l = Σ y log π + (n-Σy) log(1-π)
# U = Σy/π - (n-Σy)/(1-π)  (with chain rule for θ->π)
# Actually θ = logit(π), π = expit(θ)
# l(θ) = Σy θ - n log(1 + e^θ)
# U = Σy - n * π
# U' = -n * π * (1-π)
# Var(U) = n * π * (1-π)
# → Var(U) = -E(U')  ✓

n = 100
theta = 0.5
pi_val = 1/(1+np.exp(-theta))
i_theta_theoretical = n * pi_val * (1 - pi_val)
print(f"\nFisher 정보 (이론): {i_theta_theoretical:.2f}")

# 시뮬레이션 확인
n_sim = 10000
U_samples = []
for _ in range(n_sim):
    y = np.random.binomial(1, pi_val, n)
    U = y.sum() - n * pi_val
    U_samples.append(U)
print(f"Var(U) 시뮬: {np.var(U_samples):.2f}")
print(f"이론과 차이: {abs(np.var(U_samples) - i_theta_theoretical):.2f}")

기대: 시뮬 Var(U) ≈ 이론 정보.

12 요약 — Appendix A 의 네 가지 핵심

12.1 1. Bartlett 항등식: 밀도 적분 = 1 의 미분

모든 가능도 결과의 출발점. \(E(U) = 0\), \(\text{Var}(U) = -E(U')\). 3차 항등식 (A.2) 가 Bartlett 조정 (§15.3) 의 기초.

12.2 2. MLE 의 점근 정규성: Taylor 2차

\(\widehat\theta - \theta \simeq U/i\). \(U \sim N(0, i)\) (CLT) → \(\widehat\theta \sim N(\theta, i^{-1})\). Cramer-Rao 하한 달성.

12.3 3. LRT 의 \(\chi^2_p\): Taylor 2차 제곱

\(2l(\widehat\theta) - 2l(\theta) \simeq i(\widehat\theta - \theta)^2 = (i^{1/2}(\widehat\theta - \theta))^2 \sim \chi^2\). 자유도 = 모수 차원.

12.4 4. Schur 보수: 방해 모수의 정보 손실

\(\widehat\psi\) 의 정보 = \(i_{\psi\psi} - i_{\psi\lambda} i_{\lambda\lambda}^{-1} i_{\lambda\psi}\). 방해 모수 추정으로 인한 손실 정량화. 실험 설계의 직교성이 이 손실 최소화.

12.5 한 줄 정리

Appendix A 는 책 전체가 의존하는 가능도 이론의 압축 정리. 밀도 적분의 미분 = 1 이라는 단순한 사실에서 Bartlett 항등식, Fisher 정보, 점근 정규성, \(\chi^2\) LRT, Schur 보수가 순차적으로 유도된다. 이 체계가 McCullagh-Nelder (1989) 책 전체의 수학적 토대.

13 관련 주제

선행 지식

관련 개념

참고 문헌

  • McCullagh, P. (1987). Tensor Methods in Statistics. Chapman & Hall. — Appendix A 의 상세 증명 출처.
  • Cox, D. R. & Hinkley, D. V. (1974). Theoretical Statistics. Chapman & Hall. — 가능도 이론 고전.
  • Barndorff-Nielsen, O. E. & Cox, D. R. (1994). Inference and Asymptotics. Chapman & Hall. — 고차 점근.
  • Lehmann, E. L. & Romano, J. P. (2005). Testing Statistical Hypotheses (3rd ed.). — 검정 이론.

후속 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: