Kwangmin Kim - 점근적 계산과 비교 (Asymptotic Calculations and Comparisons)

1 이 절의 목표

§10.1.2에서 MLE가 점근 효율적임을 증명했다:

\[ \sqrt{n}\,[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \qquad v(\theta) = \frac{[\tau'(\theta)]^2}{I(\theta)}. \]

§10.1.3은 이 이론을 실전에서 어떻게 계산하고 활용하는가를 다룬다. 두 가지 목표가 있다:

계산: MLE의 점근 분산을 실제로 어떻게 추정하는가?
비교: 계산이 복잡한 MLE 대신 단순한 대안을 쓸 때 얼마를 포기하는가?

2 지지 독립성: 핵심 조건

공식이 성립하기 위해 한 가지 조건이 반드시 필요하다.

핵심 조건: 지지(support)가 모수에 독립

분포의 지지(support, \(f(x|\theta) > 0\)인 집합)가 \(\theta\)에 의존하면 안 된다.

분포	지지	조건
\(N(\theta, 1)\)	\(\mathbb{R}\) — \(\theta\) 무관	만족
\(\text{Bernoulli}(p)\)	\(\{0,1\}\) — \(p\) 무관	만족
\(U(0, \theta)\)	\((0, \theta)\) — \(\theta\) 의존	위반
\(\text{Exp}(\theta)\), \(x \geq 0\)	\([0, \infty)\) — \(\theta\) 무관	만족

지지가 모수에 의존하면 로그 우도의 Taylor 전개에서 경계 효과가 발생하고, MLE가 경계에서 결정되므로 일반 점근 이론이 적용되지 않는다 (예: \(U(0,\theta)\)에서 MLE = \(X_{(n)}\)).

3 분산 근사 공식 (10.1.7)

3.1 유도 과정

MLE \(\hat{\theta}\)가 점근 효율적이면, 델타 메서드와 Fisher 정보를 결합하여 \(h(\hat{\theta})\)의 분산을 근사한다.

Step 1: 점근 효율성 (Thm 10.1.12)으로부터

\[ \text{AsyVar}(\hat{\theta}) = \frac{1}{I(\theta)}, \]

즉 \(\sqrt{n}(\hat{\theta} - \theta) \to N(0, 1/I(\theta))\)이다.

Step 2: 델타 메서드 (Thm 5.5.24)를 적용하면 \(h(\hat{\theta})\)에 대해

\[ \text{AsyVar}(h(\hat{\theta})) = [h'(\theta)]^2 \cdot \frac{1}{I(\theta)}. \]

Step 3: 표본 기반 Fisher 정보 \(I_n(\theta) = E_\theta\!\left(\frac{\partial}{\partial\theta}\log L(\theta|X)\right)^2\)로 표현:

\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{I_n(\theta)}. \]

Step 4: Lemma 7.3.11의 항등식 \(E[-l''(\theta|X)] = I_n(\theta)\)를 이용하면

공식 (10.1.7): MLE 기반 분산 근사

\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{I_n(\theta)} = \frac{[h'(\theta)]^2}{E_\theta\!\left(-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|X)\right)} \approx \underbrace{\frac{[h'(\hat{\theta})]^2}{-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}}}_{\text{관측 정보 } \hat{I}_n(\hat{\theta}) \text{ 사용}}. \tag{10.1.7} \]

3.2 2단계 추정 절차

식 (10.1.7)에는 두 가지 근사가 숨어 있다.

2단계 추정 절차

단계 1 — 근사(Approximate): 유한 표본 분산 \(\text{Var}_\theta h(\hat{\theta})\)를 점근 공식으로 근사.

\[ \text{Var}_\theta(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2}{E_\theta[-l''(\theta|X)]}. \]

단계 2 — 추정(Estimate): 미지 \(\theta\)를 \(\hat{\theta}\)로 대입하여 추정량을 만든다.

\[ \widehat{\text{Var}}(h(\hat{\theta})) = \frac{[h'(\hat{\theta})]^2}{\hat{I}_n(\hat{\theta})}. \]

표기: \(\widehat{\text{Var}}_\theta h(\hat{\theta})\) 또는 \(\widetilde{\text{Var}}_\theta h(\hat{\theta})\).

Thm 10.1.6에 의해 \(-\frac{1}{n} l''(\hat{\theta}|X)\)는 \(I(\theta)\)의 일관 추정량이므로, \(\widehat{\text{Var}}(h(\hat{\theta}))\)는 \(\text{Var}_\theta(h(\hat{\theta}))\)의 일관 추정량이다.

3.3 관측 정보 vs 기대 정보

분모에 두 가지 선택이 있다.

	기대 정보 (Expected Information)	관측 정보 (Observed Information)
정의	\(I_n(\theta) = E_\theta[-l''(\theta\|X)]\)	\(\hat{I}_n(\hat{\theta}) = -l''(\hat{\theta}\|x)\)
의미	이론적 평균 정보량	현재 데이터에서 관측된 정보량
계산	적분 필요, \(\theta\)에 의존	관측된 \(x\)에서만 평가
권고	이론 분석 시	실무: Efron & Hinkley 1978

왜 관측 정보가 더 좋은가?

기대 정보는 모든 가능한 데이터셋에 대한 평균이다. 관측 정보는 실제 관측된 데이터셋에서의 정보이다.

예: 데이터에 이상치가 많아 분산이 크면, 관측 정보는 이를 반영하여 분산 추정치를 크게 만든다. 기대 정보는 평균적 상황을 가정하므로 분산을 과소추정할 수 있다.

4 계산 예제

4.1 예제 10.1.14: 이항 비율과 오즈

배경: \(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), MLE \(\hat{p} = \bar{X}\).

로그 우도 계산:

\[ \log L(p|x) = n\hat{p}\log p + n(1-\hat{p})\log(1-p). \]

2차 도함수:

\[ l''(p|x) = -\frac{n\hat{p}}{p^2} - \frac{n(1-\hat{p})}{(1-p)^2}. \]

\(p = \hat{p}\)에서 관측 정보:

\[ \hat{I}_n(\hat{p}) = -l''(\hat{p}|x) = \frac{n\hat{p}}{\hat{p}^2} + \frac{n(1-\hat{p})}{(1-\hat{p})^2} = \frac{n}{\hat{p}(1-\hat{p})}. \]

\(h(p) = p\)의 분산:

\[ \widehat{\text{Var}}(\hat{p}) = \frac{[h'(\hat{p})]^2}{\hat{I}_n(\hat{p})} = \frac{1}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})}{n}. \]

이는 직접 계산한 \(\text{Var}(\hat{p}) = p(1-p)/n\)의 플러그인 추정과 일치한다.

점근 정규성:

\[ \sqrt{n}\,(\hat{p} - p) \to N[0,\; p(1-p)], \qquad \sqrt{n}\,\frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})}} \to N(0,1). \]

확장 — 오즈 \(h(p) = p/(1-p)\):

\[ h'(p) = \frac{1}{(1-p)^2}, \quad h'(\hat{p}) = \frac{1}{(1-\hat{p})^2}. \]

\[ \widehat{\text{Var}}\!\left(\frac{\hat{p}}{1-\hat{p}}\right) = \frac{[1/(1-\hat{p})^2]^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})}{n(1-\hat{p})^4} = \frac{\hat{p}}{n(1-\hat{p})^3}. \]

MLE의 불변성에 의해 오즈 MLE = \(\hat{p}/(1-\hat{p})\)이며, 이 추정량도 점근 효율적이다.

4.2 예제 10.1.15: 비단조 함수 \(h(p) = p(1-p)\)

베르누이 분포의 분산을 추정한다. MLE: \(\hat{p}(1-\hat{p})\).

공식 (10.1.7) 적용 (\(h'(p) = 1-2p\)):

\[ \widehat{\text{Var}}(\hat{p}(1-\hat{p})) = \frac{(1-2\hat{p})^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})(1-2\hat{p})^2}{n}. \]

함정: \(\hat{p} = 1/2\)이면 \((1-2\hat{p})^2 = 0\)이 되어 분산 추정값 = 0.

이것은 명백히 틀렸다. \(\hat{p}(1-\hat{p})\)의 분산이 0일 수 없기 때문이다.

원인: 1차 델타 메서드의 한계

\(h(p) = p(1-p)\)는 \(p = 1/2\)에서 극대를 가지며, \(h'(1/2) = 1 - 2(1/2) = 0\).

1차 델타 메서드는 Taylor 전개의 1차 항 \(h'(\theta)(W - \theta)\)에 기반한다. 1차 항이 0이 되면 더 높은 차수 항이 지배적이 되는데, 1차 메서드는 이를 무시하므로 분산을 심하게 과소추정한다.

더 나쁜 점: 공식이 이미 CRLB(하한)에 기반하는데, 비단조성이 이를 더욱 악화시킨다.

해결책 1: 2차 델타 메서드 (Thm 5.5.26):

\[ \text{Var}(h(W)) \approx [h'(\theta)]^2 \text{Var}(W) + \frac{1}{2}[h''(\theta)]^2[\text{Var}(W)]^2. \]

\(p = 1/2\)에서 \(h'(1/2) = 0\), \(h''(p) = -2\)이므로:

\[ \text{Var}(\hat{p}(1-\hat{p}))\big|_{p=1/2} \approx \frac{1}{2}(-2)^2\left(\frac{1}{4n}\right)^2 = \frac{1}{8n^2}. \]

해결책 2: 부트스트랩 (다음 포스트에서 상세 설명).

5 점근 상대 효율 (Asymptotic Relative Efficiency)

정의 10.1.16: 점근 상대 효율 (ARE)

\(W_n\), \(V_n\)이

\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N(0, \sigma_W^2), \qquad \sqrt{n}\,[V_n - \tau(\theta)] \to N(0, \sigma_V^2) \]

이면, \(V_n\)의 \(W_n\)에 대한 ARE는

\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]

\(\text{ARE}(V_n, W_n) = r > 1\)이면 \(V_n\)이 \(W_n\)보다 \(r\)배 효율적 — 같은 정확도를 위해 \(W_n\)은 \(r\)배 더 많은 표본이 필요하다.

5.1 예제 10.1.17: Poisson 모형 ARE

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\), 추정 대상: \(\tau(\lambda) = P(X=0) = e^{-\lambda}\).

추정량 1 — 지시함수 평균: \(\hat{\tau} = \frac{1}{n}\sum I(X_i = 0)\).

\(I(X_i = 0) \sim \text{Bernoulli}(e^{-\lambda})\)이므로

\[ \sqrt{n}\,(\hat{\tau} - e^{-\lambda}) \to N\!\left[0,\; e^{-\lambda}(1 - e^{-\lambda})\right]. \]

추정량 2 — MLE: \(e^{-\hat{\lambda}}\), \(\hat{\lambda} = \bar{X}\). 델타 메서드 (\(h(\lambda) = e^{-\lambda}\), \(h'(\lambda) = -e^{-\lambda}\)):

\[ \text{AsyVar}(e^{-\hat{\lambda}}) = [h'(\lambda)]^2 \cdot \text{AsyVar}(\bar{X}) = e^{-2\lambda} \cdot \lambda. \]

(Poisson: \(\text{Var}(X) = \lambda\), \(\text{AsyVar}(\bar{X}) = \lambda\))

\[ \sqrt{n}\,(e^{-\hat{\lambda}} - e^{-\lambda}) \to N\!\left[0,\; \lambda e^{-2\lambda}\right]. \]

ARE 계산:

\[ \text{ARE}(\hat{\tau},\; e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda} - 1}. \tag{10.1.17} \]

수치 분석:

\(\lambda\)	\(e^{-\lambda}\)	ARE
0.1	0.905	0.952
0.5	0.607	0.820
1.0	0.368	0.582
2.0	0.135	0.313
4.0	0.018	0.073

\(\lambda \to 0\): ARE \(\to 1\) (최대 — 두 추정량이 거의 같아진다)
\(\lambda\) 증가: ARE가 급격히 감소 → 지시함수 추정량이 MLE에 훨씬 뒤처짐

왜 ARE가 \(\lambda\)가 커질수록 감소하는가?

지시함수 추정량 \(\hat{\tau}\)는 데이터를 \(I(X_i = 0)\)으로 이진화(binarize)한다. \(\lambda\)가 크면 대부분의 관측값이 0이 아니므로, 이 정보를 전혀 활용하지 못한다.

반면 MLE \(e^{-\hat{\lambda}}\)는 모든 관측값의 실제 크기를 활용한다. 데이터 정보를 더 많이 쓰므로 효율이 높다.

6 핵심 예제: Gamma 평균 추정 (예제 10.1.18)

이 예제는 §10.1.3의 마지막이자 가장 중요한 예로, 계산 편의성과 효율성의 trade-off를 보여준다.

6.1 문제 설정

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Gamma}(\alpha, \beta)\). 관심 모수: 평균 \(\mu = \alpha\beta\).

평균이 명시적으로 보이도록 \(\mu = \alpha\beta\)로 재매개변수화:

\[ f(x|\mu, \beta) = \frac{1}{\Gamma(\mu/\beta)\,\beta^{\mu/\beta}}\,x^{\mu/\beta - 1}\,e^{-x/\beta}, \quad x > 0. \]

\(\text{Var}(X) = \alpha\beta^2 = (\mu/\beta)\cdot\beta^2 = \mu\beta\).

6.2 추정량 1: 방법 of moments (MoM)

표본 평균을 직접 사용: \(\hat{\mu}_{\text{MoM}} = \bar{X}\).

\[ E[\bar{X}] = \mu, \qquad \text{Var}(\bar{X}) = \frac{\mu\beta}{n}. \]

장점: 공식이 단순, 해석적 표현 존재. 단점: 분포 구조의 정보를 최대한 활용하지 못함.

6.3 추정량 2: MLE

\(\beta\)가 알려진 경우, 로그 우도의 미분:

\[ l(\mu|\beta, x) = \sum_{i=1}^n \left[-\log\Gamma(\mu/\beta) - \frac{\mu}{\beta}\log\beta + \left(\frac{\mu}{\beta}-1\right)\log x_i - \frac{x_i}{\beta}\right]. \]

MLE 방정식 (\(dl/d\mu = 0\)):

\[ -\frac{n}{\beta}\psi(\mu/\beta) - \frac{n}{\beta}\log\beta + \frac{1}{\beta}\sum_{i=1}^n \log x_i = 0, \]

여기서 \(\psi(x) = \Gamma'(x)/\Gamma(x)\)는 digamma 함수이다.

이 방정식은 \(\hat{\mu}_{\text{MLE}}\)에 대해 해석적으로 풀 수 없으므로 수치 해법이 필요하다.

6.4 점근 분산 계산

MoM 추정량 \(\bar{X}\)의 점근 분산 (\(\times n\)):

\[ \sigma_{\text{MoM}}^2 = \mu\beta. \]

MLE \(\hat{\mu}_{\text{MLE}}\)의 점근 분산: Fisher 정보를 계산한다. Lemma 7.3.11으로부터

\[ I_n(\mu) = E\!\left[-\frac{d^2}{d\mu^2}l(\mu|\beta, X)\right] = \frac{n}{\beta^2}\psi_1(\mu/\beta), \]

여기서 \(\psi_1(x) = \psi'(x) = \sum_{k=0}^\infty \frac{1}{(x+k)^2}\)는 trigamma 함수이다.

MLE 점근 분산 (\(\times n\)):

\[ \sigma_{\text{MLE}}^2 = \frac{1}{I_n(\mu)/n} = \frac{\beta^2}{\psi_1(\mu/\beta)}. \]

6.5 ARE: MoM vs MLE

\[ \text{ARE}(\hat{\mu}_{\text{MLE}},\, \bar{X}) = \frac{\sigma_{\text{MoM}}^2}{\sigma_{\text{MLE}}^2} = \frac{\mu\beta}{\beta^2/\psi_1(\mu/\beta)} = \frac{\mu\psi_1(\mu/\beta)}{\beta}. \tag{10.1.18} \]

이 값은 항상 \(\geq 1\)이다 (MLE가 최소 분산을 가짐).

Appendix A.0.7 수치 결과 (\(\beta = 5\))

Mathematica 계산 결과:

\(\mu\)	\(\alpha = \mu/\beta\)	ARE
1	0.2	5.25
2	0.4	2.91
3	0.6	2.18
4	0.8	1.84
6	1.2	1.52
8	1.6	1.37
10	2.0	1.29

해석:

\(\mu = 1\), \(\beta = 5\) (즉 \(\alpha = 0.2\), shape가 작음): MLE가 5.25배 효율적. MoM으로 같은 정확도를 얻으려면 표본이 5.25배 필요.
\(\mu\) 증가(\(\alpha\) 증가): ARE가 1에 가까워짐 → MoM과 MLE의 차이가 줄어든다.

직관: Shape \(\alpha\)가 작으면(분포가 오른쪽으로 극단적으로 치우침) 분포의 형태 정보가 평균 이외에도 풍부하다. MLE는 이 정보를 모두 활용한다. \(\alpha\)가 커지면(분포가 정규에 가까워짐) MoM이 MLE에 근접한다.

\(\beta\)의 영향: 교재 Figure 10.1.1에서 \(\beta = 1, 3, 5, 10\)에 대한 ARE를 그리면, \(\beta\)가 클수록 ARE가 더 높다. 즉 scale이 클수록 MLE 사용이 더 가치 있다.

7 Python 구현

import numpy as np
from scipy.special import digamma, polygamma, gamma as sp_gamma
from scipy.optimize import brentq
import matplotlib.pyplot as plt

np.random.seed(42)

# ─────────────────────────────────────────
# 1. Bernoulli 예제: 분산 근사 전체 계산
# ─────────────────────────────────────────
n = 100
p_true = 0.3
x = np.random.binomial(1, p_true, n)
phat = x.mean()

# 관측 정보
obs_info = n / (phat * (1 - phat))

# p̂의 분산 및 SE
var_phat = 1 / obs_info
print(f"p̂ = {phat:.4f}")
print(f"  Var(p̂) ≈ {var_phat:.6f},  이론값 p(1-p)/n = {p_true*(1-p_true)/n:.6f}")
print(f"  SE = {np.sqrt(var_phat):.4f}")
print(f"  95% CI: ({phat - 1.96*np.sqrt(var_phat):.4f}, {phat + 1.96*np.sqrt(var_phat):.4f})")

# 오즈 추정
odds_hat = phat / (1 - phat)
h_prime = 1 / (1 - phat)**2
var_odds = h_prime**2 / obs_info
print(f"\n오즈 ô = {odds_hat:.4f},  SE = {np.sqrt(var_odds):.4f}")

# 비단조 함수 h(p) = p(1-p)
hp_hat = phat * (1 - phat)
h_prime_2 = 1 - 2 * phat
var_hp_1st = h_prime_2**2 / obs_info   # 1차 델타
h_double_prime = -2
var_hp_2nd = h_prime_2**2 / obs_info + 0.5 * h_double_prime**2 * (1/obs_info)**2  # 2차 포함
print(f"\nh(p̂) = p̂(1-p̂) = {hp_hat:.4f}")
print(f"  1차 델타 분산 = {var_hp_1st:.6f}")
print(f"  2차 포함 분산 = {var_hp_2nd:.6f}")
print(f"  (p̂=0.5 경우 1차=0 이 되어 붕괴)")

# ─────────────────────────────────────────
# 2. Poisson ARE: 지시함수 vs MLE
# ─────────────────────────────────────────
def poisson_are(lam):
    """ARE(ŷ, e^{-λ̂}) = λ / (e^λ - 1)"""
    return lam / (np.exp(lam) - 1)

lam_vals = np.linspace(0.01, 5, 200)
are_vals = poisson_are(lam_vals)

plt.figure(figsize=(8, 4))
plt.plot(lam_vals, are_vals, linewidth=2)
plt.axhline(1, color='red', linestyle='--', label='ARE = 1 (동등)')
plt.xlabel(r'$\lambda$')
plt.ylabel(r'ARE($\hat{\tau}$, $e^{-\hat{\lambda}}$)')
plt.title('Poisson: 지시함수 추정량 vs MLE의 ARE')
plt.legend()
plt.grid(True, alpha=0.3)
plt.ylim(0, 1.1)
plt.show()

# 수치 테이블
print("\nPoisson ARE 수치표:")
print(f"{'λ':>6}  {'e^{-λ}':>8}  {'ARE':>8}")
for lam in [0.1, 0.5, 1.0, 2.0, 4.0]:
    print(f"{lam:>6.1f}  {np.exp(-lam):>8.4f}  {poisson_are(lam):>8.4f}")

# ─────────────────────────────────────────
# 3. Gamma 평균 추정: MoM vs MLE ARE
# ─────────────────────────────────────────
def trigamma(x):
    """polygamma(1, x) = ψ₁(x) = trigamma 함수"""
    return polygamma(1, x)

def gamma_are(mu, beta):
    """ARE(MLE, MoM) = μ·ψ₁(μ/β) / β"""
    alpha = mu / beta
    return mu * trigamma(alpha) / beta

# beta=5에서 교재 수치 재현
beta = 5
mu_vals = [1, 2, 3, 4, 6, 8, 10]

print(f"\nGamma ARE (β={beta}):")
print(f"{'μ':>6}  {'α=μ/β':>8}  {'ARE':>8}")
for mu in mu_vals:
    are = gamma_are(mu, beta)
    print(f"{mu:>6}  {mu/beta:>8.2f}  {are:>8.4f}")

# 여러 beta에 대한 ARE 곡선 재현 (교재 Fig 10.1.1)
mu_range = np.linspace(0.2, 10, 200)
fig, ax = plt.subplots(figsize=(9, 5))

for beta in [1, 3, 5, 10]:
    are_curve = [gamma_are(mu, beta) for mu in mu_range]
    ax.plot(mu_range, are_curve, label=f'β={beta}')

ax.axhline(1, color='black', linestyle=':', linewidth=0.8)
ax.set_xlabel('Gamma 평균 μ')
ax.set_ylabel('ARE(MLE, MoM)')
ax.set_title('Gamma 평균 추정: MoM 대비 MLE의 ARE\n(교재 Figure 10.1.1 재현)')
ax.legend()
ax.set_ylim(0, 8)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# ─────────────────────────────────────────
# 4. 시뮬레이션으로 분산 확인
# ─────────────────────────────────────────
def gamma_mle(data, beta):
    """β 고정 시 μ의 MLE (수치 해법)"""
    def score(mu):
        alpha = mu / beta
        return -digamma(alpha) / beta - np.log(beta) / beta + np.log(data).mean() / beta
    try:
        return brentq(score, 1e-6, 100)
    except ValueError:
        return np.nan

B = 2000
mu_true = 3.0
beta = 5.0
alpha_true = mu_true / beta
n = 200

mom_ests = []
mle_ests = []

for _ in range(B):
    data = np.random.gamma(alpha_true, beta, n)
    mom_ests.append(data.mean())
    mle_ests.append(gamma_mle(data, beta))

mom_var = np.var(mom_ests) * n
mle_var = np.var([m for m in mle_ests if not np.isnan(m)]) * n

print(f"\n시뮬레이션 (μ={mu_true}, β={beta}, n={n}, B={B}회):")
print(f"  MoM 점근 분산×n = {mom_var:.4f}  (이론: {mu_true*beta:.4f})")
print(f"  MLE 점근 분산×n = {mle_var:.4f}  (이론: {beta**2/trigamma(alpha_true):.4f})")
print(f"  ARE 시뮬 = {mom_var/mle_var:.4f}  (이론: {gamma_are(mu_true, beta):.4f})")

8 핵심 요약

주제	결론
지지 독립성	\(f(x\|\theta)\)의 지지가 \(\theta\)에 무관해야 (10.1.7) 성립
공식 (10.1.7)	Thm 10.1.12 + 델타 메서드 + 관측 정보 = 실용 분산 공식
2단계 절차	근사(이론값) → 추정(\(\hat{\theta}\) 대입) — 두 단계 모두 근사 포함
관측 정보	기대 정보보다 실무 우수 (Efron & Hinkley 1978)
비단조 함수	\(h'(\theta)=0\)인 점에서 1차 델타 붕괴 → 2차 또는 부트스트랩
Poisson ARE	\(\lambda/(e^\lambda - 1)\): \(\lambda\) 증가 → 단순 추정량의 효율 급격히 저하
Gamma 예제	Shape \(\alpha\) 작을수록 MLE 우위 커짐; \(\beta\) 클수록 MLE 사용 가치 증가

면접 방어 포인트

“(10.1.7)의 유도는?” — Thm 10.1.12(MLE 점근 효율성) → 델타 메서드 → Lemma 7.3.11(\(E[-l''] = I\)) → 관측 정보 대입.
“2단계 추정이란?” — 1단계: 이론적 분산을 점근 공식으로 근사. 2단계: 미지 \(\theta\)를 \(\hat{\theta}\)로 추정. 두 단계 모두 근사임을 인식해야 한다.
“\(h(p)=p(1-p)\)에서 왜 분산이 0이 되는가?” — \(h'(1/2)=0\)이라 1차 델타 메서드가 붕괴. 비단조 함수에서 1차 근사는 신뢰할 수 없다.
“Gamma 예제의 핵심 교훈?” — MLE가 항상 우수하지만 shape \(\alpha\)가 클수록(분포가 대칭에 가까울수록) MoM과 차이가 줄어든다. 계산 비용 대비 효율 이득을 ARE로 정량화할 수 있다.

9 다음 포스트

부트스트랩 표준오차 (Bootstrap Standard Errors) — 분포 무관 분산 추정, 비단조 함수 문제 자동 해결

10 참고 문헌

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.3, pp. 473–478; Appendix A.0.7.
Efron, B. & Hinkley, D.V. (1978). Assessing the accuracy of the maximum likelihood estimator: Observed versus expected Fisher information. Biometrika, 65(3), 457–483.