점근적 계산과 비교 (Asymptotic Calculations and Comparisons)

Casella & Berger §10.1.3 — 분산 추정 공식 유도·예제·ARE 비교

점근 효율성 이론을 실전에 적용하는 방법. 분산 근사 공식 (10.1.7)의 유도, 관측 정보 vs 기대 정보, 비단조 함수의 함정, Poisson ARE, 그리고 Gamma 평균 추정에서 계산 편의성 vs 효율성의 trade-off를 상세히 다룬다.

Statistics
저자

Kwangmin Kim

공개

2026년 04월 04일

1 이 절의 목표

§10.1.2에서 MLE가 점근 효율적임을 증명했다:

\[ \sqrt{n}\,[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \qquad v(\theta) = \frac{[\tau'(\theta)]^2}{I(\theta)}. \]

§10.1.3은 이 이론을 실전에서 어떻게 계산하고 활용하는가를 다룬다. 두 가지 목표가 있다:

  1. 계산: MLE의 점근 분산을 실제로 어떻게 추정하는가?
  2. 비교: 계산이 복잡한 MLE 대신 단순한 대안을 쓸 때 얼마를 포기하는가?

2 지지 독립성: 핵심 조건

공식이 성립하기 위해 한 가지 조건이 반드시 필요하다.

핵심 조건: 지지(support)가 모수에 독립

분포의 지지(support, \(f(x|\theta) > 0\)인 집합)가 \(\theta\)에 의존하면 안 된다.

분포 지지 조건
\(N(\theta, 1)\) \(\mathbb{R}\)\(\theta\) 무관 만족
\(\text{Bernoulli}(p)\) \(\{0,1\}\)\(p\) 무관 만족
\(U(0, \theta)\) \((0, \theta)\)\(\theta\) 의존 위반
\(\text{Exp}(\theta)\), \(x \geq 0\) \([0, \infty)\)\(\theta\) 무관 만족

지지가 모수에 의존하면 로그 우도의 Taylor 전개에서 경계 효과가 발생하고, MLE가 경계에서 결정되므로 일반 점근 이론이 적용되지 않는다 (예: \(U(0,\theta)\)에서 MLE = \(X_{(n)}\)).


3 분산 근사 공식 (10.1.7)

3.1 유도 과정

MLE \(\hat{\theta}\)가 점근 효율적이면, 델타 메서드와 Fisher 정보를 결합하여 \(h(\hat{\theta})\)의 분산을 근사한다.

Step 1: 점근 효율성 (Thm 10.1.12)으로부터

\[ \text{AsyVar}(\hat{\theta}) = \frac{1}{I(\theta)}, \]

\(\sqrt{n}(\hat{\theta} - \theta) \to N(0, 1/I(\theta))\)이다.

Step 2: 델타 메서드 (Thm 5.5.24)를 적용하면 \(h(\hat{\theta})\)에 대해

\[ \text{AsyVar}(h(\hat{\theta})) = [h'(\theta)]^2 \cdot \frac{1}{I(\theta)}. \]

Step 3: 표본 기반 Fisher 정보 \(I_n(\theta) = E_\theta\!\left(\frac{\partial}{\partial\theta}\log L(\theta|X)\right)^2\)로 표현:

\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{I_n(\theta)}. \]

Step 4: Lemma 7.3.11의 항등식 \(E[-l''(\theta|X)] = I_n(\theta)\)를 이용하면

공식 (10.1.7): MLE 기반 분산 근사

\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{I_n(\theta)} = \frac{[h'(\theta)]^2}{E_\theta\!\left(-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|X)\right)} \approx \underbrace{\frac{[h'(\hat{\theta})]^2}{-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}}}_{\text{관측 정보 } \hat{I}_n(\hat{\theta}) \text{ 사용}}. \tag{10.1.7} \]

3.2 2단계 추정 절차

식 (10.1.7)에는 두 가지 근사가 숨어 있다.

2단계 추정 절차

단계 1 — 근사(Approximate): 유한 표본 분산 \(\text{Var}_\theta h(\hat{\theta})\)를 점근 공식으로 근사.

\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{E_\theta[-l''(\theta|X)]}. \]

단계 2 — 추정(Estimate): 미지 \(\theta\)\(\hat{\theta}\)로 대입하여 추정량을 만든다.

\[ \widehat{\text{Var}}(h(\hat{\theta})) = \frac{[h'(\hat{\theta})]^2}{\hat{I}_n(\hat{\theta})}. \]

표기: \(\widehat{\text{Var}}_\theta h(\hat{\theta})\) 또는 \(\widetilde{\text{Var}}_\theta h(\hat{\theta})\).

Thm 10.1.6에 의해 \(-\frac{1}{n} l''(\hat{\theta}|X)\)\(I(\theta)\)의 일관 추정량이므로, \(\widehat{\text{Var}}(h(\hat{\theta}))\)\(\text{Var}_\theta(h(\hat{\theta}))\)의 일관 추정량이다.

3.3 관측 정보 vs 기대 정보

분모에 두 가지 선택이 있다.

기대 정보 (Expected Information) 관측 정보 (Observed Information)
정의 \(I_n(\theta) = E_\theta[-l''(\theta|X)]\) \(\hat{I}_n(\hat{\theta}) = -l''(\hat{\theta}|x)\)
의미 이론적 평균 정보량 현재 데이터에서 관측된 정보량
계산 적분 필요, \(\theta\)에 의존 관측된 \(x\)에서만 평가
권고 이론 분석 시 실무: Efron & Hinkley 1978
왜 관측 정보가 더 좋은가?

기대 정보는 모든 가능한 데이터셋에 대한 평균이다. 관측 정보는 실제 관측된 데이터셋에서의 정보이다.

예: 데이터에 이상치가 많아 분산이 크면, 관측 정보는 이를 반영하여 분산 추정치를 크게 만든다. 기대 정보는 평균적 상황을 가정하므로 분산을 과소추정할 수 있다.


4 계산 예제

4.1 예제 10.1.14: 이항 비율과 오즈

배경: \(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), MLE \(\hat{p} = \bar{X}\).

로그 우도 계산:

\[ \log L(p|x) = n\hat{p}\log p + n(1-\hat{p})\log(1-p). \]

2차 도함수:

\[ l''(p|x) = -\frac{n\hat{p}}{p^2} - \frac{n(1-\hat{p})}{(1-p)^2}. \]

\(p = \hat{p}\)에서 관측 정보:

\[ \hat{I}_n(\hat{p}) = -l''(\hat{p}|x) = \frac{n\hat{p}}{\hat{p}^2} + \frac{n(1-\hat{p})}{(1-\hat{p})^2} = \frac{n}{\hat{p}(1-\hat{p})}. \]

\(h(p) = p\)의 분산:

\[ \widehat{\text{Var}}(\hat{p}) = \frac{[h'(\hat{p})]^2}{\hat{I}_n(\hat{p})} = \frac{1}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})}{n}. \]

이는 직접 계산한 \(\text{Var}(\hat{p}) = p(1-p)/n\)의 플러그인 추정과 일치한다.

점근 정규성:

\[ \sqrt{n}\,(\hat{p} - p) \to N[0,\; p(1-p)], \qquad \sqrt{n}\,\frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})}} \to N(0,1). \]

확장 — 오즈 \(h(p) = p/(1-p)\):

\[ h'(p) = \frac{1}{(1-p)^2}, \quad h'(\hat{p}) = \frac{1}{(1-\hat{p})^2}. \]

\[ \widehat{\text{Var}}\!\left(\frac{\hat{p}}{1-\hat{p}}\right) = \frac{[1/(1-\hat{p})^2]^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})}{n(1-\hat{p})^4} = \frac{\hat{p}}{n(1-\hat{p})^3}. \]

MLE의 불변성에 의해 오즈 MLE = \(\hat{p}/(1-\hat{p})\)이며, 이 추정량도 점근 효율적이다.


4.2 예제 10.1.15: 비단조 함수 \(h(p) = p(1-p)\)

베르누이 분포의 분산을 추정한다. MLE: \(\hat{p}(1-\hat{p})\).

공식 (10.1.7) 적용 (\(h'(p) = 1-2p\)):

\[ \widehat{\text{Var}}(\hat{p}(1-\hat{p})) = \frac{(1-2\hat{p})^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})(1-2\hat{p})^2}{n}. \]

함정: \(\hat{p} = 1/2\)이면 \((1-2\hat{p})^2 = 0\)이 되어 분산 추정값 = 0.

이것은 명백히 틀렸다. \(\hat{p}(1-\hat{p})\)의 분산이 0일 수 없기 때문이다.

원인: 1차 델타 메서드의 한계

\(h(p) = p(1-p)\)\(p = 1/2\)에서 극대를 가지며, \(h'(1/2) = 1 - 2(1/2) = 0\).

1차 델타 메서드는 Taylor 전개의 1차 항 \(h'(\theta)(W - \theta)\)에 기반한다. 1차 항이 0이 되면 더 높은 차수 항이 지배적이 되는데, 1차 메서드는 이를 무시하므로 분산을 심하게 과소추정한다.

더 나쁜 점: 공식이 이미 CRLB(하한)에 기반하는데, 비단조성이 이를 더욱 악화시킨다.

해결책 1: 2차 델타 메서드 (Thm 5.5.26):

\[ \text{Var}(h(W)) \approx [h'(\theta)]^2 \text{Var}(W) + \frac{1}{2}[h''(\theta)]^2[\text{Var}(W)]^2. \]

\(p = 1/2\)에서 \(h'(1/2) = 0\), \(h''(p) = -2\)이므로:

\[ \text{Var}(\hat{p}(1-\hat{p}))\big|_{p=1/2} \approx \frac{1}{2}(-2)^2\left(\frac{1}{4n}\right)^2 = \frac{1}{8n^2}. \]

해결책 2: 부트스트랩 (다음 포스트에서 상세 설명).


5 점근 상대 효율 (Asymptotic Relative Efficiency)

정의 10.1.16: 점근 상대 효율 (ARE)

\(W_n\), \(V_n\)

\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N(0, \sigma_W^2), \qquad \sqrt{n}\,[V_n - \tau(\theta)] \to N(0, \sigma_V^2) \]

이면, \(V_n\)\(W_n\)에 대한 ARE는

\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]

\(\text{ARE}(V_n, W_n) = r > 1\)이면 \(V_n\)\(W_n\)보다 \(r\)배 효율적 — 같은 정확도를 위해 \(W_n\)\(r\)배 더 많은 표본이 필요하다.

5.1 예제 10.1.17: Poisson 모형 ARE

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\), 추정 대상: \(\tau(\lambda) = P(X=0) = e^{-\lambda}\).

추정량 1 — 지시함수 평균: \(\hat{\tau} = \frac{1}{n}\sum I(X_i = 0)\).

\(I(X_i = 0) \sim \text{Bernoulli}(e^{-\lambda})\)이므로

\[ \sqrt{n}\,(\hat{\tau} - e^{-\lambda}) \to N\!\left[0,\; e^{-\lambda}(1 - e^{-\lambda})\right]. \]

추정량 2 — MLE: \(e^{-\hat{\lambda}}\), \(\hat{\lambda} = \bar{X}\). 델타 메서드 (\(h(\lambda) = e^{-\lambda}\), \(h'(\lambda) = -e^{-\lambda}\)):

\[ \text{AsyVar}(e^{-\hat{\lambda}}) = [h'(\lambda)]^2 \cdot \text{AsyVar}(\bar{X}) = e^{-2\lambda} \cdot \lambda. \]

(Poisson: \(\text{Var}(X) = \lambda\), \(\text{AsyVar}(\bar{X}) = \lambda\))

\[ \sqrt{n}\,(e^{-\hat{\lambda}} - e^{-\lambda}) \to N\!\left[0,\; \lambda e^{-2\lambda}\right]. \]

ARE 계산:

\[ \text{ARE}(\hat{\tau},\; e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda} - 1}. \tag{10.1.17} \]

수치 분석:

\(\lambda\) \(e^{-\lambda}\) ARE
0.1 0.905 0.952
0.5 0.607 0.820
1.0 0.368 0.582
2.0 0.135 0.313
4.0 0.018 0.073
  • \(\lambda \to 0\): ARE \(\to 1\) (최대 — 두 추정량이 거의 같아진다)
  • \(\lambda\) 증가: ARE가 급격히 감소 → 지시함수 추정량이 MLE에 훨씬 뒤처짐
왜 ARE가 \(\lambda\)가 커질수록 감소하는가?

지시함수 추정량 \(\hat{\tau}\)는 데이터를 \(I(X_i = 0)\)으로 이진화(binarize)한다. \(\lambda\)가 크면 대부분의 관측값이 0이 아니므로, 이 정보를 전혀 활용하지 못한다.

반면 MLE \(e^{-\hat{\lambda}}\)는 모든 관측값의 실제 크기를 활용한다. 데이터 정보를 더 많이 쓰므로 효율이 높다.


6 핵심 예제: Gamma 평균 추정 (예제 10.1.18)

이 예제는 §10.1.3의 마지막이자 가장 중요한 예로, 계산 편의성과 효율성의 trade-off를 보여준다.

6.1 문제 설정

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Gamma}(\alpha, \beta)\). 관심 모수: 평균 \(\mu = \alpha\beta\).

평균이 명시적으로 보이도록 \(\mu = \alpha\beta\)로 재매개변수화:

\[ f(x|\mu, \beta) = \frac{1}{\Gamma(\mu/\beta)\,\beta^{\mu/\beta}}\,x^{\mu/\beta - 1}\,e^{-x/\beta}, \quad x > 0. \]

\(\text{Var}(X) = \alpha\beta^2 = (\mu/\beta)\cdot\beta^2 = \mu\beta\).

6.2 추정량 1: 방법 of moments (MoM)

표본 평균을 직접 사용: \(\hat{\mu}_{\text{MoM}} = \bar{X}\).

\[ E[\bar{X}] = \mu, \qquad \text{Var}(\bar{X}) = \frac{\mu\beta}{n}. \]

장점: 공식이 단순, 해석적 표현 존재. 단점: 분포 구조의 정보를 최대한 활용하지 못함.

6.3 추정량 2: MLE

\(\beta\)가 알려진 경우, 로그 우도의 미분:

\[ l(\mu|\beta, x) = \sum_{i=1}^n \left[-\log\Gamma(\mu/\beta) - \frac{\mu}{\beta}\log\beta + \left(\frac{\mu}{\beta}-1\right)\log x_i - \frac{x_i}{\beta}\right]. \]

MLE 방정식 (\(dl/d\mu = 0\)):

\[ -\frac{n}{\beta}\psi(\mu/\beta) - \frac{n}{\beta}\log\beta + \frac{1}{\beta}\sum_{i=1}^n \log x_i = 0, \]

여기서 \(\psi(x) = \Gamma'(x)/\Gamma(x)\)digamma 함수이다.

이 방정식은 \(\hat{\mu}_{\text{MLE}}\)에 대해 해석적으로 풀 수 없으므로 수치 해법이 필요하다.

6.4 점근 분산 계산

MoM 추정량 \(\bar{X}\)의 점근 분산 (\(\times n\)):

\[ \sigma_{\text{MoM}}^2 = \mu\beta. \]

MLE \(\hat{\mu}_{\text{MLE}}\)의 점근 분산: Fisher 정보를 계산한다. Lemma 7.3.11으로부터

\[ I_n(\mu) = E\!\left[-\frac{d^2}{d\mu^2}l(\mu|\beta, X)\right] = \frac{n}{\beta^2}\psi_1(\mu/\beta), \]

여기서 \(\psi_1(x) = \psi'(x) = \sum_{k=0}^\infty \frac{1}{(x+k)^2}\)trigamma 함수이다.

MLE 점근 분산 (\(\times n\)):

\[ \sigma_{\text{MLE}}^2 = \frac{1}{I_n(\mu)/n} = \frac{\beta^2}{\psi_1(\mu/\beta)}. \]

6.5 ARE: MoM vs MLE

\[ \text{ARE}(\hat{\mu}_{\text{MLE}},\, \bar{X}) = \frac{\sigma_{\text{MoM}}^2}{\sigma_{\text{MLE}}^2} = \frac{\mu\beta}{\beta^2/\psi_1(\mu/\beta)} = \frac{\mu\psi_1(\mu/\beta)}{\beta}. \tag{10.1.18} \]

이 값은 항상 \(\geq 1\)이다 (MLE가 최소 분산을 가짐).

Appendix A.0.7 수치 결과 (\(\beta = 5\))

Mathematica 계산 결과:

\(\mu\) \(\alpha = \mu/\beta\) ARE
1 0.2 5.25
2 0.4 2.91
3 0.6 2.18
4 0.8 1.84
6 1.2 1.52
8 1.6 1.37
10 2.0 1.29

해석:

  • \(\mu = 1\), \(\beta = 5\) (즉 \(\alpha = 0.2\), shape가 작음): MLE가 5.25배 효율적. MoM으로 같은 정확도를 얻으려면 표본이 5.25배 필요.
  • \(\mu\) 증가(\(\alpha\) 증가): ARE가 1에 가까워짐 → MoM과 MLE의 차이가 줄어든다.

직관: Shape \(\alpha\)가 작으면(분포가 오른쪽으로 극단적으로 치우침) 분포의 형태 정보가 평균 이외에도 풍부하다. MLE는 이 정보를 모두 활용한다. \(\alpha\)가 커지면(분포가 정규에 가까워짐) MoM이 MLE에 근접한다.

\(\beta\)의 영향: 교재 Figure 10.1.1에서 \(\beta = 1, 3, 5, 10\)에 대한 ARE를 그리면, \(\beta\)가 클수록 ARE가 더 높다. 즉 scale이 클수록 MLE 사용이 더 가치 있다.


7 Python 구현

import numpy as np
from scipy.special import digamma, polygamma, gamma as sp_gamma
from scipy.optimize import brentq
import matplotlib.pyplot as plt

np.random.seed(42)

# ─────────────────────────────────────────
# 1. Bernoulli 예제: 분산 근사 전체 계산
# ─────────────────────────────────────────
n = 100
p_true = 0.3
x = np.random.binomial(1, p_true, n)
phat = x.mean()

# 관측 정보
obs_info = n / (phat * (1 - phat))

# p̂의 분산 및 SE
var_phat = 1 / obs_info
print(f"p̂ = {phat:.4f}")
print(f"  Var(p̂) ≈ {var_phat:.6f},  이론값 p(1-p)/n = {p_true*(1-p_true)/n:.6f}")
print(f"  SE = {np.sqrt(var_phat):.4f}")
print(f"  95% CI: ({phat - 1.96*np.sqrt(var_phat):.4f}, {phat + 1.96*np.sqrt(var_phat):.4f})")

# 오즈 추정
odds_hat = phat / (1 - phat)
h_prime = 1 / (1 - phat)**2
var_odds = h_prime**2 / obs_info
print(f"\n오즈 ô = {odds_hat:.4f},  SE = {np.sqrt(var_odds):.4f}")

# 비단조 함수 h(p) = p(1-p)
hp_hat = phat * (1 - phat)
h_prime_2 = 1 - 2 * phat
var_hp_1st = h_prime_2**2 / obs_info   # 1차 델타
h_double_prime = -2
var_hp_2nd = h_prime_2**2 / obs_info + 0.5 * h_double_prime**2 * (1/obs_info)**2  # 2차 포함
print(f"\nh(p̂) = p̂(1-p̂) = {hp_hat:.4f}")
print(f"  1차 델타 분산 = {var_hp_1st:.6f}")
print(f"  2차 포함 분산 = {var_hp_2nd:.6f}")
print(f"  (p̂=0.5 경우 1차=0 이 되어 붕괴)")

# ─────────────────────────────────────────
# 2. Poisson ARE: 지시함수 vs MLE
# ─────────────────────────────────────────
def poisson_are(lam):
    """ARE(ŷ, e^{-λ̂}) = λ / (e^λ - 1)"""
    return lam / (np.exp(lam) - 1)

lam_vals = np.linspace(0.01, 5, 200)
are_vals = poisson_are(lam_vals)

plt.figure(figsize=(8, 4))
plt.plot(lam_vals, are_vals, linewidth=2)
plt.axhline(1, color='red', linestyle='--', label='ARE = 1 (동등)')
plt.xlabel(r'$\lambda$')
plt.ylabel(r'ARE($\hat{\tau}$, $e^{-\hat{\lambda}}$)')
plt.title('Poisson: 지시함수 추정량 vs MLE의 ARE')
plt.legend()
plt.grid(True, alpha=0.3)
plt.ylim(0, 1.1)
plt.show()

# 수치 테이블
print("\nPoisson ARE 수치표:")
print(f"{'λ':>6}  {'e^{-λ}':>8}  {'ARE':>8}")
for lam in [0.1, 0.5, 1.0, 2.0, 4.0]:
    print(f"{lam:>6.1f}  {np.exp(-lam):>8.4f}  {poisson_are(lam):>8.4f}")

# ─────────────────────────────────────────
# 3. Gamma 평균 추정: MoM vs MLE ARE
# ─────────────────────────────────────────
def trigamma(x):
    """polygamma(1, x) = ψ₁(x) = trigamma 함수"""
    return polygamma(1, x)

def gamma_are(mu, beta):
    """ARE(MLE, MoM) = μ·ψ₁(μ/β) / β"""
    alpha = mu / beta
    return mu * trigamma(alpha) / beta

# beta=5에서 교재 수치 재현
beta = 5
mu_vals = [1, 2, 3, 4, 6, 8, 10]

print(f"\nGamma ARE (β={beta}):")
print(f"{'μ':>6}  {'α=μ/β':>8}  {'ARE':>8}")
for mu in mu_vals:
    are = gamma_are(mu, beta)
    print(f"{mu:>6}  {mu/beta:>8.2f}  {are:>8.4f}")

# 여러 beta에 대한 ARE 곡선 재현 (교재 Fig 10.1.1)
mu_range = np.linspace(0.2, 10, 200)
fig, ax = plt.subplots(figsize=(9, 5))

for beta in [1, 3, 5, 10]:
    are_curve = [gamma_are(mu, beta) for mu in mu_range]
    ax.plot(mu_range, are_curve, label=f'β={beta}')

ax.axhline(1, color='black', linestyle=':', linewidth=0.8)
ax.set_xlabel('Gamma 평균 μ')
ax.set_ylabel('ARE(MLE, MoM)')
ax.set_title('Gamma 평균 추정: MoM 대비 MLE의 ARE\n(교재 Figure 10.1.1 재현)')
ax.legend()
ax.set_ylim(0, 8)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# ─────────────────────────────────────────
# 4. 시뮬레이션으로 분산 확인
# ─────────────────────────────────────────
def gamma_mle(data, beta):
    """β 고정 시 μ의 MLE (수치 해법)"""
    def score(mu):
        alpha = mu / beta
        return -digamma(alpha) / beta - np.log(beta) / beta + np.log(data).mean() / beta
    try:
        return brentq(score, 1e-6, 100)
    except ValueError:
        return np.nan

B = 2000
mu_true = 3.0
beta = 5.0
alpha_true = mu_true / beta
n = 200

mom_ests = []
mle_ests = []

for _ in range(B):
    data = np.random.gamma(alpha_true, beta, n)
    mom_ests.append(data.mean())
    mle_ests.append(gamma_mle(data, beta))

mom_var = np.var(mom_ests) * n
mle_var = np.var([m for m in mle_ests if not np.isnan(m)]) * n

print(f"\n시뮬레이션 (μ={mu_true}, β={beta}, n={n}, B={B}회):")
print(f"  MoM 점근 분산×n = {mom_var:.4f}  (이론: {mu_true*beta:.4f})")
print(f"  MLE 점근 분산×n = {mle_var:.4f}  (이론: {beta**2/trigamma(alpha_true):.4f})")
print(f"  ARE 시뮬 = {mom_var/mle_var:.4f}  (이론: {gamma_are(mu_true, beta):.4f})")

8 핵심 요약

주제 결론
지지 독립성 \(f(x|\theta)\)의 지지가 \(\theta\)에 무관해야 (10.1.7) 성립
공식 (10.1.7) Thm 10.1.12 + 델타 메서드 + 관측 정보 = 실용 분산 공식
2단계 절차 근사(이론값) → 추정(\(\hat{\theta}\) 대입) — 두 단계 모두 근사 포함
관측 정보 기대 정보보다 실무 우수 (Efron & Hinkley 1978)
비단조 함수 \(h'(\theta)=0\)인 점에서 1차 델타 붕괴 → 2차 또는 부트스트랩
Poisson ARE \(\lambda/(e^\lambda - 1)\): \(\lambda\) 증가 → 단순 추정량의 효율 급격히 저하
Gamma 예제 Shape \(\alpha\) 작을수록 MLE 우위 커짐; \(\beta\) 클수록 MLE 사용 가치 증가
면접 방어 포인트
  • “(10.1.7)의 유도는?” — Thm 10.1.12(MLE 점근 효율성) → 델타 메서드 → Lemma 7.3.11(\(E[-l''] = I\)) → 관측 정보 대입.
  • “2단계 추정이란?” — 1단계: 이론적 분산을 점근 공식으로 근사. 2단계: 미지 \(\theta\)\(\hat{\theta}\)로 추정. 두 단계 모두 근사임을 인식해야 한다.
  • \(h(p)=p(1-p)\)에서 왜 분산이 0이 되는가?”\(h'(1/2)=0\)이라 1차 델타 메서드가 붕괴. 비단조 함수에서 1차 근사는 신뢰할 수 없다.
  • “Gamma 예제의 핵심 교훈?” — MLE가 항상 우수하지만 shape \(\alpha\)가 클수록(분포가 대칭에 가까울수록) MoM과 차이가 줄어든다. 계산 비용 대비 효율 이득을 ARE로 정량화할 수 있다.

9 다음 포스트

10 참고 문헌

  • Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.3, pp. 473–478; Appendix A.0.7.
  • Efron, B. & Hinkley, D.V. (1978). Assessing the accuracy of the maximum likelihood estimator: Observed versus expected Fisher information. Biometrika, 65(3), 457–483.

Subscribe

Enjoy this blog? Get notified of new posts by email: