1 이 절의 목표
§10.1.2에서 MLE가 점근 효율적임을 증명했다:
\[ \sqrt{n}\,[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \qquad v(\theta) = \frac{[\tau'(\theta)]^2}{I(\theta)}. \]
§10.1.3은 이 이론을 실전에서 어떻게 계산하고 활용하는가를 다룬다. 두 가지 목표가 있다:
- 계산: MLE의 점근 분산을 실제로 어떻게 추정하는가?
- 비교: 계산이 복잡한 MLE 대신 단순한 대안을 쓸 때 얼마를 포기하는가?
2 지지 독립성: 핵심 조건
공식이 성립하기 위해 한 가지 조건이 반드시 필요하다.
분포의 지지(support, \(f(x|\theta) > 0\)인 집합)가 \(\theta\)에 의존하면 안 된다.
| 분포 | 지지 | 조건 |
|---|---|---|
| \(N(\theta, 1)\) | \(\mathbb{R}\) — \(\theta\) 무관 | 만족 |
| \(\text{Bernoulli}(p)\) | \(\{0,1\}\) — \(p\) 무관 | 만족 |
| \(U(0, \theta)\) | \((0, \theta)\) — \(\theta\) 의존 | 위반 |
| \(\text{Exp}(\theta)\), \(x \geq 0\) | \([0, \infty)\) — \(\theta\) 무관 | 만족 |
지지가 모수에 의존하면 로그 우도의 Taylor 전개에서 경계 효과가 발생하고, MLE가 경계에서 결정되므로 일반 점근 이론이 적용되지 않는다 (예: \(U(0,\theta)\)에서 MLE = \(X_{(n)}\)).
3 분산 근사 공식 (10.1.7)
3.1 유도 과정
MLE \(\hat{\theta}\)가 점근 효율적이면, 델타 메서드와 Fisher 정보를 결합하여 \(h(\hat{\theta})\)의 분산을 근사한다.
Step 1: 점근 효율성 (Thm 10.1.12)으로부터
\[ \text{AsyVar}(\hat{\theta}) = \frac{1}{I(\theta)}, \]
즉 \(\sqrt{n}(\hat{\theta} - \theta) \to N(0, 1/I(\theta))\)이다.
Step 2: 델타 메서드 (Thm 5.5.24)를 적용하면 \(h(\hat{\theta})\)에 대해
\[ \text{AsyVar}(h(\hat{\theta})) = [h'(\theta)]^2 \cdot \frac{1}{I(\theta)}. \]
Step 3: 표본 기반 Fisher 정보 \(I_n(\theta) = E_\theta\!\left(\frac{\partial}{\partial\theta}\log L(\theta|X)\right)^2\)로 표현:
\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{I_n(\theta)}. \]
Step 4: Lemma 7.3.11의 항등식 \(E[-l''(\theta|X)] = I_n(\theta)\)를 이용하면
\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{I_n(\theta)} = \frac{[h'(\theta)]^2}{E_\theta\!\left(-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|X)\right)} \approx \underbrace{\frac{[h'(\hat{\theta})]^2}{-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}}}_{\text{관측 정보 } \hat{I}_n(\hat{\theta}) \text{ 사용}}. \tag{10.1.7} \]
3.2 2단계 추정 절차
식 (10.1.7)에는 두 가지 근사가 숨어 있다.
단계 1 — 근사(Approximate): 유한 표본 분산 \(\text{Var}_\theta h(\hat{\theta})\)를 점근 공식으로 근사.
\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{E_\theta[-l''(\theta|X)]}. \]
단계 2 — 추정(Estimate): 미지 \(\theta\)를 \(\hat{\theta}\)로 대입하여 추정량을 만든다.
\[ \widehat{\text{Var}}(h(\hat{\theta})) = \frac{[h'(\hat{\theta})]^2}{\hat{I}_n(\hat{\theta})}. \]
표기: \(\widehat{\text{Var}}_\theta h(\hat{\theta})\) 또는 \(\widetilde{\text{Var}}_\theta h(\hat{\theta})\).
Thm 10.1.6에 의해 \(-\frac{1}{n} l''(\hat{\theta}|X)\)는 \(I(\theta)\)의 일관 추정량이므로, \(\widehat{\text{Var}}(h(\hat{\theta}))\)는 \(\text{Var}_\theta(h(\hat{\theta}))\)의 일관 추정량이다.
3.3 관측 정보 vs 기대 정보
분모에 두 가지 선택이 있다.
| 기대 정보 (Expected Information) | 관측 정보 (Observed Information) | |
|---|---|---|
| 정의 | \(I_n(\theta) = E_\theta[-l''(\theta|X)]\) | \(\hat{I}_n(\hat{\theta}) = -l''(\hat{\theta}|x)\) |
| 의미 | 이론적 평균 정보량 | 현재 데이터에서 관측된 정보량 |
| 계산 | 적분 필요, \(\theta\)에 의존 | 관측된 \(x\)에서만 평가 |
| 권고 | 이론 분석 시 | 실무: Efron & Hinkley 1978 |
기대 정보는 모든 가능한 데이터셋에 대한 평균이다. 관측 정보는 실제 관측된 데이터셋에서의 정보이다.
예: 데이터에 이상치가 많아 분산이 크면, 관측 정보는 이를 반영하여 분산 추정치를 크게 만든다. 기대 정보는 평균적 상황을 가정하므로 분산을 과소추정할 수 있다.
4 계산 예제
4.1 예제 10.1.14: 이항 비율과 오즈
배경: \(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), MLE \(\hat{p} = \bar{X}\).
로그 우도 계산:
\[ \log L(p|x) = n\hat{p}\log p + n(1-\hat{p})\log(1-p). \]
2차 도함수:
\[ l''(p|x) = -\frac{n\hat{p}}{p^2} - \frac{n(1-\hat{p})}{(1-p)^2}. \]
\(p = \hat{p}\)에서 관측 정보:
\[ \hat{I}_n(\hat{p}) = -l''(\hat{p}|x) = \frac{n\hat{p}}{\hat{p}^2} + \frac{n(1-\hat{p})}{(1-\hat{p})^2} = \frac{n}{\hat{p}(1-\hat{p})}. \]
\(h(p) = p\)의 분산:
\[ \widehat{\text{Var}}(\hat{p}) = \frac{[h'(\hat{p})]^2}{\hat{I}_n(\hat{p})} = \frac{1}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})}{n}. \]
이는 직접 계산한 \(\text{Var}(\hat{p}) = p(1-p)/n\)의 플러그인 추정과 일치한다.
점근 정규성:
\[ \sqrt{n}\,(\hat{p} - p) \to N[0,\; p(1-p)], \qquad \sqrt{n}\,\frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})}} \to N(0,1). \]
확장 — 오즈 \(h(p) = p/(1-p)\):
\[ h'(p) = \frac{1}{(1-p)^2}, \quad h'(\hat{p}) = \frac{1}{(1-\hat{p})^2}. \]
\[ \widehat{\text{Var}}\!\left(\frac{\hat{p}}{1-\hat{p}}\right) = \frac{[1/(1-\hat{p})^2]^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})}{n(1-\hat{p})^4} = \frac{\hat{p}}{n(1-\hat{p})^3}. \]
MLE의 불변성에 의해 오즈 MLE = \(\hat{p}/(1-\hat{p})\)이며, 이 추정량도 점근 효율적이다.
4.2 예제 10.1.15: 비단조 함수 \(h(p) = p(1-p)\)
베르누이 분포의 분산을 추정한다. MLE: \(\hat{p}(1-\hat{p})\).
공식 (10.1.7) 적용 (\(h'(p) = 1-2p\)):
\[ \widehat{\text{Var}}(\hat{p}(1-\hat{p})) = \frac{(1-2\hat{p})^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})(1-2\hat{p})^2}{n}. \]
함정: \(\hat{p} = 1/2\)이면 \((1-2\hat{p})^2 = 0\)이 되어 분산 추정값 = 0.
이것은 명백히 틀렸다. \(\hat{p}(1-\hat{p})\)의 분산이 0일 수 없기 때문이다.
\(h(p) = p(1-p)\)는 \(p = 1/2\)에서 극대를 가지며, \(h'(1/2) = 1 - 2(1/2) = 0\).
1차 델타 메서드는 Taylor 전개의 1차 항 \(h'(\theta)(W - \theta)\)에 기반한다. 1차 항이 0이 되면 더 높은 차수 항이 지배적이 되는데, 1차 메서드는 이를 무시하므로 분산을 심하게 과소추정한다.
더 나쁜 점: 공식이 이미 CRLB(하한)에 기반하는데, 비단조성이 이를 더욱 악화시킨다.
해결책 1: 2차 델타 메서드 (Thm 5.5.26):
\[ \text{Var}(h(W)) \approx [h'(\theta)]^2 \text{Var}(W) + \frac{1}{2}[h''(\theta)]^2[\text{Var}(W)]^2. \]
\(p = 1/2\)에서 \(h'(1/2) = 0\), \(h''(p) = -2\)이므로:
\[ \text{Var}(\hat{p}(1-\hat{p}))\big|_{p=1/2} \approx \frac{1}{2}(-2)^2\left(\frac{1}{4n}\right)^2 = \frac{1}{8n^2}. \]
해결책 2: 부트스트랩 (다음 포스트에서 상세 설명).
5 점근 상대 효율 (Asymptotic Relative Efficiency)
\(W_n\), \(V_n\)이
\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N(0, \sigma_W^2), \qquad \sqrt{n}\,[V_n - \tau(\theta)] \to N(0, \sigma_V^2) \]
이면, \(V_n\)의 \(W_n\)에 대한 ARE는
\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]
\(\text{ARE}(V_n, W_n) = r > 1\)이면 \(V_n\)이 \(W_n\)보다 \(r\)배 효율적 — 같은 정확도를 위해 \(W_n\)은 \(r\)배 더 많은 표본이 필요하다.
5.1 예제 10.1.17: Poisson 모형 ARE
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\), 추정 대상: \(\tau(\lambda) = P(X=0) = e^{-\lambda}\).
추정량 1 — 지시함수 평균: \(\hat{\tau} = \frac{1}{n}\sum I(X_i = 0)\).
\(I(X_i = 0) \sim \text{Bernoulli}(e^{-\lambda})\)이므로
\[ \sqrt{n}\,(\hat{\tau} - e^{-\lambda}) \to N\!\left[0,\; e^{-\lambda}(1 - e^{-\lambda})\right]. \]
추정량 2 — MLE: \(e^{-\hat{\lambda}}\), \(\hat{\lambda} = \bar{X}\). 델타 메서드 (\(h(\lambda) = e^{-\lambda}\), \(h'(\lambda) = -e^{-\lambda}\)):
\[ \text{AsyVar}(e^{-\hat{\lambda}}) = [h'(\lambda)]^2 \cdot \text{AsyVar}(\bar{X}) = e^{-2\lambda} \cdot \lambda. \]
(Poisson: \(\text{Var}(X) = \lambda\), \(\text{AsyVar}(\bar{X}) = \lambda\))
\[ \sqrt{n}\,(e^{-\hat{\lambda}} - e^{-\lambda}) \to N\!\left[0,\; \lambda e^{-2\lambda}\right]. \]
ARE 계산:
\[ \text{ARE}(\hat{\tau},\; e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda} - 1}. \tag{10.1.17} \]
수치 분석:
| \(\lambda\) | \(e^{-\lambda}\) | ARE |
|---|---|---|
| 0.1 | 0.905 | 0.952 |
| 0.5 | 0.607 | 0.820 |
| 1.0 | 0.368 | 0.582 |
| 2.0 | 0.135 | 0.313 |
| 4.0 | 0.018 | 0.073 |
- \(\lambda \to 0\): ARE \(\to 1\) (최대 — 두 추정량이 거의 같아진다)
- \(\lambda\) 증가: ARE가 급격히 감소 → 지시함수 추정량이 MLE에 훨씬 뒤처짐
지시함수 추정량 \(\hat{\tau}\)는 데이터를 \(I(X_i = 0)\)으로 이진화(binarize)한다. \(\lambda\)가 크면 대부분의 관측값이 0이 아니므로, 이 정보를 전혀 활용하지 못한다.
반면 MLE \(e^{-\hat{\lambda}}\)는 모든 관측값의 실제 크기를 활용한다. 데이터 정보를 더 많이 쓰므로 효율이 높다.
6 핵심 예제: Gamma 평균 추정 (예제 10.1.18)
이 예제는 §10.1.3의 마지막이자 가장 중요한 예로, 계산 편의성과 효율성의 trade-off를 보여준다.
6.1 문제 설정
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Gamma}(\alpha, \beta)\). 관심 모수: 평균 \(\mu = \alpha\beta\).
평균이 명시적으로 보이도록 \(\mu = \alpha\beta\)로 재매개변수화:
\[ f(x|\mu, \beta) = \frac{1}{\Gamma(\mu/\beta)\,\beta^{\mu/\beta}}\,x^{\mu/\beta - 1}\,e^{-x/\beta}, \quad x > 0. \]
\(\text{Var}(X) = \alpha\beta^2 = (\mu/\beta)\cdot\beta^2 = \mu\beta\).
6.2 추정량 1: 방법 of moments (MoM)
표본 평균을 직접 사용: \(\hat{\mu}_{\text{MoM}} = \bar{X}\).
\[ E[\bar{X}] = \mu, \qquad \text{Var}(\bar{X}) = \frac{\mu\beta}{n}. \]
장점: 공식이 단순, 해석적 표현 존재. 단점: 분포 구조의 정보를 최대한 활용하지 못함.
6.3 추정량 2: MLE
\(\beta\)가 알려진 경우, 로그 우도의 미분:
\[ l(\mu|\beta, x) = \sum_{i=1}^n \left[-\log\Gamma(\mu/\beta) - \frac{\mu}{\beta}\log\beta + \left(\frac{\mu}{\beta}-1\right)\log x_i - \frac{x_i}{\beta}\right]. \]
MLE 방정식 (\(dl/d\mu = 0\)):
\[ -\frac{n}{\beta}\psi(\mu/\beta) - \frac{n}{\beta}\log\beta + \frac{1}{\beta}\sum_{i=1}^n \log x_i = 0, \]
여기서 \(\psi(x) = \Gamma'(x)/\Gamma(x)\)는 digamma 함수이다.
이 방정식은 \(\hat{\mu}_{\text{MLE}}\)에 대해 해석적으로 풀 수 없으므로 수치 해법이 필요하다.
6.4 점근 분산 계산
MoM 추정량 \(\bar{X}\)의 점근 분산 (\(\times n\)):
\[ \sigma_{\text{MoM}}^2 = \mu\beta. \]
MLE \(\hat{\mu}_{\text{MLE}}\)의 점근 분산: Fisher 정보를 계산한다. Lemma 7.3.11으로부터
\[ I_n(\mu) = E\!\left[-\frac{d^2}{d\mu^2}l(\mu|\beta, X)\right] = \frac{n}{\beta^2}\psi_1(\mu/\beta), \]
여기서 \(\psi_1(x) = \psi'(x) = \sum_{k=0}^\infty \frac{1}{(x+k)^2}\)는 trigamma 함수이다.
MLE 점근 분산 (\(\times n\)):
\[ \sigma_{\text{MLE}}^2 = \frac{1}{I_n(\mu)/n} = \frac{\beta^2}{\psi_1(\mu/\beta)}. \]
6.5 ARE: MoM vs MLE
\[ \text{ARE}(\hat{\mu}_{\text{MLE}},\, \bar{X}) = \frac{\sigma_{\text{MoM}}^2}{\sigma_{\text{MLE}}^2} = \frac{\mu\beta}{\beta^2/\psi_1(\mu/\beta)} = \frac{\mu\psi_1(\mu/\beta)}{\beta}. \tag{10.1.18} \]
이 값은 항상 \(\geq 1\)이다 (MLE가 최소 분산을 가짐).
Mathematica 계산 결과:
| \(\mu\) | \(\alpha = \mu/\beta\) | ARE |
|---|---|---|
| 1 | 0.2 | 5.25 |
| 2 | 0.4 | 2.91 |
| 3 | 0.6 | 2.18 |
| 4 | 0.8 | 1.84 |
| 6 | 1.2 | 1.52 |
| 8 | 1.6 | 1.37 |
| 10 | 2.0 | 1.29 |
해석:
- \(\mu = 1\), \(\beta = 5\) (즉 \(\alpha = 0.2\), shape가 작음): MLE가 5.25배 효율적. MoM으로 같은 정확도를 얻으려면 표본이 5.25배 필요.
- \(\mu\) 증가(\(\alpha\) 증가): ARE가 1에 가까워짐 → MoM과 MLE의 차이가 줄어든다.
직관: Shape \(\alpha\)가 작으면(분포가 오른쪽으로 극단적으로 치우침) 분포의 형태 정보가 평균 이외에도 풍부하다. MLE는 이 정보를 모두 활용한다. \(\alpha\)가 커지면(분포가 정규에 가까워짐) MoM이 MLE에 근접한다.
\(\beta\)의 영향: 교재 Figure 10.1.1에서 \(\beta = 1, 3, 5, 10\)에 대한 ARE를 그리면, \(\beta\)가 클수록 ARE가 더 높다. 즉 scale이 클수록 MLE 사용이 더 가치 있다.
7 Python 구현
import numpy as np
from scipy.special import digamma, polygamma, gamma as sp_gamma
from scipy.optimize import brentq
import matplotlib.pyplot as plt
np.random.seed(42)
# ─────────────────────────────────────────
# 1. Bernoulli 예제: 분산 근사 전체 계산
# ─────────────────────────────────────────
n = 100
p_true = 0.3
x = np.random.binomial(1, p_true, n)
phat = x.mean()
# 관측 정보
obs_info = n / (phat * (1 - phat))
# p̂의 분산 및 SE
var_phat = 1 / obs_info
print(f"p̂ = {phat:.4f}")
print(f" Var(p̂) ≈ {var_phat:.6f}, 이론값 p(1-p)/n = {p_true*(1-p_true)/n:.6f}")
print(f" SE = {np.sqrt(var_phat):.4f}")
print(f" 95% CI: ({phat - 1.96*np.sqrt(var_phat):.4f}, {phat + 1.96*np.sqrt(var_phat):.4f})")
# 오즈 추정
odds_hat = phat / (1 - phat)
h_prime = 1 / (1 - phat)**2
var_odds = h_prime**2 / obs_info
print(f"\n오즈 ô = {odds_hat:.4f}, SE = {np.sqrt(var_odds):.4f}")
# 비단조 함수 h(p) = p(1-p)
hp_hat = phat * (1 - phat)
h_prime_2 = 1 - 2 * phat
var_hp_1st = h_prime_2**2 / obs_info # 1차 델타
h_double_prime = -2
var_hp_2nd = h_prime_2**2 / obs_info + 0.5 * h_double_prime**2 * (1/obs_info)**2 # 2차 포함
print(f"\nh(p̂) = p̂(1-p̂) = {hp_hat:.4f}")
print(f" 1차 델타 분산 = {var_hp_1st:.6f}")
print(f" 2차 포함 분산 = {var_hp_2nd:.6f}")
print(f" (p̂=0.5 경우 1차=0 이 되어 붕괴)")
# ─────────────────────────────────────────
# 2. Poisson ARE: 지시함수 vs MLE
# ─────────────────────────────────────────
def poisson_are(lam):
"""ARE(ŷ, e^{-λ̂}) = λ / (e^λ - 1)"""
return lam / (np.exp(lam) - 1)
lam_vals = np.linspace(0.01, 5, 200)
are_vals = poisson_are(lam_vals)
plt.figure(figsize=(8, 4))
plt.plot(lam_vals, are_vals, linewidth=2)
plt.axhline(1, color='red', linestyle='--', label='ARE = 1 (동등)')
plt.xlabel(r'$\lambda$')
plt.ylabel(r'ARE($\hat{\tau}$, $e^{-\hat{\lambda}}$)')
plt.title('Poisson: 지시함수 추정량 vs MLE의 ARE')
plt.legend()
plt.grid(True, alpha=0.3)
plt.ylim(0, 1.1)
plt.show()
# 수치 테이블
print("\nPoisson ARE 수치표:")
print(f"{'λ':>6} {'e^{-λ}':>8} {'ARE':>8}")
for lam in [0.1, 0.5, 1.0, 2.0, 4.0]:
print(f"{lam:>6.1f} {np.exp(-lam):>8.4f} {poisson_are(lam):>8.4f}")
# ─────────────────────────────────────────
# 3. Gamma 평균 추정: MoM vs MLE ARE
# ─────────────────────────────────────────
def trigamma(x):
"""polygamma(1, x) = ψ₁(x) = trigamma 함수"""
return polygamma(1, x)
def gamma_are(mu, beta):
"""ARE(MLE, MoM) = μ·ψ₁(μ/β) / β"""
alpha = mu / beta
return mu * trigamma(alpha) / beta
# beta=5에서 교재 수치 재현
beta = 5
mu_vals = [1, 2, 3, 4, 6, 8, 10]
print(f"\nGamma ARE (β={beta}):")
print(f"{'μ':>6} {'α=μ/β':>8} {'ARE':>8}")
for mu in mu_vals:
are = gamma_are(mu, beta)
print(f"{mu:>6} {mu/beta:>8.2f} {are:>8.4f}")
# 여러 beta에 대한 ARE 곡선 재현 (교재 Fig 10.1.1)
mu_range = np.linspace(0.2, 10, 200)
fig, ax = plt.subplots(figsize=(9, 5))
for beta in [1, 3, 5, 10]:
are_curve = [gamma_are(mu, beta) for mu in mu_range]
ax.plot(mu_range, are_curve, label=f'β={beta}')
ax.axhline(1, color='black', linestyle=':', linewidth=0.8)
ax.set_xlabel('Gamma 평균 μ')
ax.set_ylabel('ARE(MLE, MoM)')
ax.set_title('Gamma 평균 추정: MoM 대비 MLE의 ARE\n(교재 Figure 10.1.1 재현)')
ax.legend()
ax.set_ylim(0, 8)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
# ─────────────────────────────────────────
# 4. 시뮬레이션으로 분산 확인
# ─────────────────────────────────────────
def gamma_mle(data, beta):
"""β 고정 시 μ의 MLE (수치 해법)"""
def score(mu):
alpha = mu / beta
return -digamma(alpha) / beta - np.log(beta) / beta + np.log(data).mean() / beta
try:
return brentq(score, 1e-6, 100)
except ValueError:
return np.nan
B = 2000
mu_true = 3.0
beta = 5.0
alpha_true = mu_true / beta
n = 200
mom_ests = []
mle_ests = []
for _ in range(B):
data = np.random.gamma(alpha_true, beta, n)
mom_ests.append(data.mean())
mle_ests.append(gamma_mle(data, beta))
mom_var = np.var(mom_ests) * n
mle_var = np.var([m for m in mle_ests if not np.isnan(m)]) * n
print(f"\n시뮬레이션 (μ={mu_true}, β={beta}, n={n}, B={B}회):")
print(f" MoM 점근 분산×n = {mom_var:.4f} (이론: {mu_true*beta:.4f})")
print(f" MLE 점근 분산×n = {mle_var:.4f} (이론: {beta**2/trigamma(alpha_true):.4f})")
print(f" ARE 시뮬 = {mom_var/mle_var:.4f} (이론: {gamma_are(mu_true, beta):.4f})")8 핵심 요약
| 주제 | 결론 |
|---|---|
| 지지 독립성 | \(f(x|\theta)\)의 지지가 \(\theta\)에 무관해야 (10.1.7) 성립 |
| 공식 (10.1.7) | Thm 10.1.12 + 델타 메서드 + 관측 정보 = 실용 분산 공식 |
| 2단계 절차 | 근사(이론값) → 추정(\(\hat{\theta}\) 대입) — 두 단계 모두 근사 포함 |
| 관측 정보 | 기대 정보보다 실무 우수 (Efron & Hinkley 1978) |
| 비단조 함수 | \(h'(\theta)=0\)인 점에서 1차 델타 붕괴 → 2차 또는 부트스트랩 |
| Poisson ARE | \(\lambda/(e^\lambda - 1)\): \(\lambda\) 증가 → 단순 추정량의 효율 급격히 저하 |
| Gamma 예제 | Shape \(\alpha\) 작을수록 MLE 우위 커짐; \(\beta\) 클수록 MLE 사용 가치 증가 |
- “(10.1.7)의 유도는?” — Thm 10.1.12(MLE 점근 효율성) → 델타 메서드 → Lemma 7.3.11(\(E[-l''] = I\)) → 관측 정보 대입.
- “2단계 추정이란?” — 1단계: 이론적 분산을 점근 공식으로 근사. 2단계: 미지 \(\theta\)를 \(\hat{\theta}\)로 추정. 두 단계 모두 근사임을 인식해야 한다.
- “\(h(p)=p(1-p)\)에서 왜 분산이 0이 되는가?” — \(h'(1/2)=0\)이라 1차 델타 메서드가 붕괴. 비단조 함수에서 1차 근사는 신뢰할 수 없다.
- “Gamma 예제의 핵심 교훈?” — MLE가 항상 우수하지만 shape \(\alpha\)가 클수록(분포가 대칭에 가까울수록) MoM과 차이가 줄어든다. 계산 비용 대비 효율 이득을 ARE로 정량화할 수 있다.
9 다음 포스트
- 부트스트랩 표준오차 (Bootstrap Standard Errors) — 분포 무관 분산 추정, 비단조 함수 문제 자동 해결
10 참고 문헌
- Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.3, pp. 473–478; Appendix A.0.7.
- Efron, B. & Hinkley, D.V. (1978). Assessing the accuracy of the maximum likelihood estimator: Observed versus expected Fisher information. Biometrika, 65(3), 457–483.