Kwangmin Kim - 점근적 점추정: 효율성 (Asymptotic Point Estimation: Efficiency)

1 동기: 일관성만으로는 부족하다

앞 포스트에서 일관성을 다뤘다. 일관 추정량은 $n \to \infty$일 때 참값에 수렴한다. 그런데 일관 추정량은 너무 많다.

예시: 둘 다 일관 추정량, 어느 것이 더 좋은가?

$X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)$에서 $\mu$를 추정한다.

$W_n = \bar{X}_n$: $\text{Var} = \sigma^2/n$
$V_n = X_1$: 단 하나의 관측값만 사용. Var $= \sigma^2$, 일관 추정량이 아님.
$T_n = \bar{X}_n + 1/n$: 편향이 있지만 $1/n \to 0$. 일관 추정량.

$W_n$과 $T_n$은 둘 다 일관적이다. 그러나 $n = 10$에서 $W_n$의 표준오차는 $\sigma/\sqrt{10}$, $T_n$의 표준오차도 비슷하다. 더 극단적인 예:

\[ \tilde{W}_n = \frac{n}{n+1} \bar{X}_n \]

이것도 일관 추정량이지만 $\bar{X}_n$보다 효율이 낮다.

효율성(efficiency)은 일관 추정량들 중 점근 분산이 가장 작은 — 즉 가장 빨리 수렴하는 — 추정량을 찾는 기준이다.

2 극한 분산 vs 점근 분산

2.1 극한 분산 (Limiting Variance)

직관적으로 점근 분산을 “유한 표본 분산의 극한”으로 정의하고 싶다.

정의 10.1.7: 극한 분산 (Limiting Variance)

$T_n$에 대해 상수 수열 $\{k_n\}$이 존재하여

\[ \lim_{n \to \infty} k_n \, \text{Var}\, T_n = \tau^2 < \infty \]

이면, $\tau^2$을 $T_n$의 극한 분산(limiting variance) 또는 분산들의 극한(limit of the variances)이라 한다.

예시: $\bar{X}_n$의 분산은 $\sigma^2/n$이므로, $k_n = n$으로 놓으면

\[ \lim_{n \to \infty} n \cdot \frac{\sigma^2}{n} = \sigma^2. \]

$\bar{X}_n$의 극한 분산은 $\sigma^2$이다.

2.2 극한 분산의 한계

예제 10.1.8: $1/\bar{X}_n$의 극한 분산 문제

$\bar{X}_n$으로 $1/\mu$를 추정한다. $T_n = 1/\bar{X}_n$이라 하면, $\text{Var}(T_n) = \text{Var}(1/\bar{X}_n) = \infty$ (정규분포에서 역수의 정확 분산은 무한대).

따라서 극한 분산 = $\infty$다.

그런데 델타 메서드(Delta Method)로 근사하면:

\[ \text{Var}\!\left(\frac{1}{\bar{X}_n}\right) \approx \left(\frac{1}{\mu}\right)^4 \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n\mu^4} < \infty. \]

$\mu \neq 0$일 때, $1/\bar{X}$가 매우 커지는 영역의 확률이 0으로 수렴한다. 그래서 근사 분산 $\sigma^2/(n\mu^4)$이 실제로 더 현실적이고 유용하다.

예제 10.1.10: 혼합 분포 — 극한 분산과 점근 분산의 극단적 차이

계층 모형:

\[ Y_n \mid W_n = w_n \sim N(0,\; w_n + (1-w_n)\sigma_n^2), \qquad W_n \sim \text{Bernoulli}(p_n). \]

이는 확률 $p_n$으로 $N(0,1)$, 확률 $1-p_n$으로 $N(0, \sigma_n^2)$를 관측하는 혼합 모형이다.

극한 분산 계산:

\[ \text{Var}(Y_n) = p_n + (1-p_n)\sigma_n^2. \]

$p_n \to 1$, $\sigma_n \to \infty$가 $(1-p_n)\sigma_n^2 \to \infty$가 되도록 진행하면, 극한 분산 = $\infty$.

점근 분포 계산:

\[ P(Y_n < a) = p_n P(Z < a) + (1-p_n) P(Z < a/\sigma_n). \]

$(1-p_n)\sigma_n^2 \to \infty$이더라도 $p_n \to 1$이면 두 번째 항 $\to 0$이므로

\[ P(Y_n < a) \to P(Z < a), \quad Y_n \to N(0,1). \]

따라서 점근 분산 = 1.

	극한 분산	점근 분산
$Y_n$ (위 예)	$\infty$	$1$

결론: 점근 분산은 항상 극한 분산보다 작거나 같다. 극한 분산이 유용하지 않을 때도 점근 분산은 의미있다.

2.3 점근 분산 (Asymptotic Variance)

위 문제를 해결하는 올바른 접근법이 점근 분산이다.

정의 10.1.9: 점근 분산 (Asymptotic Variance)

$T_n$에 대해 $k_n(T_n - \tau(\theta)) \to N(0, \sigma^2)$이 분포 수렴하면, $\sigma^2$을 $T_n$의 점근 분산(asymptotic variance) 또는 극한 분포의 분산이라 한다.

평균이나 단순 합계에서는 극한 분산과 점근 분산이 일치한다. 복잡한 함수($1/\bar{X}_n$, 오즈 등)에서는 점근 분산이 더 현실적이다.

3 점근 효율성 (Asymptotic Efficiency)

점근 분산의 하한은 무엇인가? 유한 표본에서 Cramér-Rao 하한이 분산의 하한이었듯, 점근 세계에서도 같은 하한이 적용된다.

정의 10.1.11: 점근 효율성 (Asymptotic Efficiency)

추정량 수열 $W_n$이 $\tau(\theta)$에 대해 점근 효율적(asymptotically efficient)이려면,

\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N[0, v(\theta)] \quad \text{(분포 수렴)} \]

이고, 점근 분산 $v(\theta)$가 Cramér-Rao 하한을 달성해야 한다:

\[ v(\theta) = \frac{[\tau'(\theta)]^2}{I(\theta)}, \qquad I(\theta) = E_\theta\!\left[\left(\frac{\partial}{\partial \theta}\log f(X|\theta)\right)^2\right]. \]

여기서 $I(\theta)$는 Fisher 정보량(1개 관측값 기준)이다.

유한 표본 CRLB와의 관계

유한 표본: $\text{Var}_\theta(W) \geq \frac{[\tau'(\theta)]^2}{n I(\theta)}$.

점근: $\text{AsyVar}(W_n) \geq \frac{[\tau'(\theta)]^2}{I(\theta)}$.

$n$을 곱하면 동일한 하한이다. 점근 효율적 추정량은 “$n$을 곱한 분산의 하한 = CRLB”를 달성한다.

4 MLE의 점근 효율성

정리 10.1.12: MLE의 점근 효율성 (Asymptotic Efficiency of MLEs)

$X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)$, $\hat{\theta}$이 MLE, $\tau(\theta)$가 연속 함수이면, 정칙 조건 (A1)~(A6) 하에서

\[ \sqrt{n}\,[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \]

여기서 $v(\theta) = [\tau'(\theta)]^2 / I(\theta)$는 Cramér-Rao 하한이다. 즉, $\tau(\hat{\theta})$는 일관되고 점근 효율적인 추정량이다.

4.1 증명 (개요)

로그 우도 $l(\theta|x) = \sum_{i=1}^n \log f(x_i|\theta)$와 그 도함수 $l', l'', \ldots$를 사용한다.

Step 1: 로그 우도 1차 도함수를 참값 $\theta_0$ 주변으로 Taylor 전개:

\[ l'(\theta|x) = l'(\theta_0|x) + (\theta - \theta_0)\,l''(\theta_0|x) + \cdots \tag{10.1.4} \]

Step 2: $\hat{\theta}$(MLE)를 $\theta$에 대입. MLE의 정의에 의해 좌변 $l'(\hat{\theta}|x) = 0$이므로:

\[ 0 = l'(\theta_0|x) + (\hat{\theta} - \theta_0)\,l''(\theta_0|x) + \cdots \]

$\sqrt{n}$을 곱하고 정리하면:

\[ \sqrt{n}\,(\hat{\theta} - \theta_0) = \frac{-\dfrac{1}{\sqrt{n}}\,l'(\theta_0|x)}{\dfrac{1}{n}\,l''(\theta_0|x)}. \tag{10.1.5} \]

Step 3: 분자와 분모의 극한 분포를 각각 구한다.

$l'(\theta_0|x) = \sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(x_i|\theta_0)$는 평균 0, 분산 $I(\theta_0)$인 iid 합이므로, 중심극한정리(CLT)에 의해:

\[ \frac{1}{\sqrt{n}}\,l'(\theta_0|X) \to N[0, I(\theta_0)] \tag{10.1.6a} \]

$l''(\theta_0|x) / n$은 대수의 약법칙(WLLN)에 의해:

\[ \frac{1}{n}\,l''(\theta_0|X) \overset{P}{\to} E_{\theta_0}[l''(\theta_0|X)/n \cdot n/n] = -I(\theta_0). \tag{10.1.6b} \]

(Lemma 7.3.11: $E[l''(\theta|X)] = -I(\theta)$)

Step 4: Slutsky 정리에 의해 비(ratio)의 분포:

\[ \sqrt{n}\,(\hat{\theta} - \theta_0) \to \frac{W}{I(\theta_0)} \sim N\!\left[0, \frac{1}{I(\theta_0)}\right] = N[0, v(\theta_0)]. \]

MLE의 점근 분산 $= 1/I() = $ Cramér-Rao 하한. $\blacksquare$

5 분산 계산 실용 공식 (§10.1.3)

MLE가 점근 효율적이면, 함수 $h(\hat{\theta})$의 분산을 다음 공식으로 근사한다.

공식 (10.1.7): MLE 분산 근사

\[ \widehat{\text{Var}}(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2 \big|_{\theta=\hat{\theta}}}{-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}} = \frac{[h'(\hat{\theta})]^2}{\hat{I}_n(\hat{\theta})}. \]

여기서 $\hat{I}_n(\hat{\theta}) = -\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}$는 관측 정보(observed information)이다.

이 근사는 2단계 절차이다: 1. 이론적 분산을 CRLB/델타 메서드로 근사한다. 2. 모르는 $\theta$를 $\hat{\theta}$로 대입(plug-in) 하여 추정한다.

기대 정보 vs 관측 정보

기대 정보: $I(\theta) = E_\theta\!\left[-\frac{\partial^2}{\partial\theta^2}\log f(X|\theta)\right]$ — 이론적
관측 정보: $\hat{I}_n(\hat{\theta}) = -\frac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}$ — 데이터로 계산

Efron and Hinkley (1978)에 따르면 관측 정보가 기대 정보보다 우수하다. 기대 정보는 $\theta$ 전체에 걸친 평균인 반면, 관측 정보는 현재 데이터에 맞춰진 값이기 때문이다.

5.1 예제 10.1.14: 이항 비율의 분산 근사

$X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)$, MLE $\hat{p} = \sum X_i / n$.

로그 우도: \[ \log L(p|x) = n\hat{p}\log p + n(1-\hat{p})\log(1-p). \]

2차 도함수: \[ \frac{\partial^2}{\partial p^2}\log L(p|x) = -\frac{n\hat{p}}{p^2} - \frac{n(1-\hat{p})}{(1-p)^2}. \]

$p = \hat{p}$에서 평가: \[ \frac{\partial^2}{\partial p^2}\log L(p|x)\big|_{p=\hat{p}} = -\frac{n}{\hat{p}(1-\hat{p})}. \]

공식 (10.1.7)에 $h(p) = p$, $h'(p) = 1$을 대입: \[ \widehat{\text{Var}}(\hat{p}) \approx \frac{1}{n/(\hat{p}(1-\hat{p}))} = \frac{\hat{p}(1-\hat{p})}{n}. \]

이는 직접 계산한 $\text{Var}(\hat{p}) = p(1-p)/n$의 플러그인 추정과 동일하다. 또한

\[ \sqrt{n}\,(\hat{p} - p) \to N[0, p(1-p)], \qquad \sqrt{n}\,\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})}} \to N(0,1). \]

확장 — 오즈(odds) 추정: $h(p) = p/(1-p)$, $h'(p) = 1/(1-p)^2$이면

\[ \widehat{\text{Var}}\!\left(\frac{\hat{p}}{1-\hat{p}}\right) = \frac{[1/(1-\hat{p})^2]^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}}{n(1-\hat{p})^3}. \]

MLE의 불변성에 의해 오즈 MLE는 $\hat{p}/(1-\hat{p})$이며, 이 추정량도 점근 효율적이다.

5.2 예제 10.1.15: 비단조 함수의 함정

$h(p) = p(1-p)$ (베르누이 분산), MLE $\hat{p}(1-\hat{p})$.

공식 (10.1.7) 적용: \[ \widehat{\text{Var}}(\hat{p}(1-\hat{p})) = \frac{(1-2p)^2\big|_{p=\hat{p}}}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})(1-2\hat{p})^2}{n}. \]

문제: $\hat{p} = 1/2$이면 $(1-2\hat{p})^2 = 0$이 되어 분산 추정량 = 0이다. 실제 $\hat{p}(1-\hat{p})$의 분산이 0이 될 리 없으므로 심각한 과소추정이다.

원인: 비단조 함수

$h(p) = p(1-p)$는 $p = 1/2$에서 극대를 가지며 $h'(1/2) = 0$. 1차 델타 메서드는 1차 항을 사용하므로, 1차 항이 0이 되면 분산 추정이 붕괴한다.

해결책: - 2차 델타 메서드 (Thm 5.5.26) 사용 - 부트스트랩: 이 문제를 자동으로 회피 (다음 포스트)

6 점근 상대 효율 (Asymptotic Relative Efficiency, ARE)

MLE가 최선이지만, 때로는 계산 편의나 로버스트성 때문에 다른 추정량을 쓴다. ARE는 “무엇을 포기하는가”를 정량화한다.

정의 10.1.16: 점근 상대 효율 (Asymptotic Relative Efficiency)

두 추정량 $W_n$, $V_n$이

\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N(0, \sigma_W^2), \qquad \sqrt{n}\,[V_n - \tau(\theta)] \to N(0, \sigma_V^2) \]

이면, $V_n$의 $W_n$에 대한 점근 상대 효율(ARE)은

\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]

$\text{ARE}(V_n, W_n) > 1$이면 $V_n$이 $W_n$보다 효율적이다.

해석: $\text{ARE}(V_n, W_n) = r$이면, $V_n$으로 $W_n$과 같은 정확도를 얻으려면 표본이 $1/r$배 필요하다. 예: ARE = 0.64이면 $V_n$은 $W_n$의 64% 효율 — 같은 정확도를 위해 표본이 1/0.64 ≈ 1.56배 필요하다.

6.1 예제 10.1.17: Poisson 모형에서 두 추정량의 ARE

$X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)$, 관심 모수: $\tau = P(X=0) = e^{-\lambda}$.

추정량 1: 지시함수 평균 $\hat{\tau} = \frac{1}{n}\sum I(X_i = 0)$.

$Y_i = I(X_i = 0) \sim \text{Bernoulli}(e^{-\lambda})$이므로,

\[ \sqrt{n}\,(\hat{\tau} - e^{-\lambda}) \to N[0,\; e^{-\lambda}(1-e^{-\lambda})]. \]

추정량 2 (MLE): $e^{-\hat{\lambda}}$, 여기서 $\hat{\lambda} = \bar{X}$는 $\lambda$의 MLE.

델타 메서드 ($h(\lambda) = e^{-\lambda}$, $h'(\lambda) = -e^{-\lambda}$):

\[ \sqrt{n}\,(e^{-\hat{\lambda}} - e^{-\lambda}) \to N[0,\; \lambda e^{-2\lambda}]. \]

(Var($\bar{X}$) = $\lambda/n$, 델타 메서드: $[h'(\lambda)]^2 \cdot \lambda = e^{-2\lambda} \cdot \lambda$)

ARE 계산:

\[ \text{ARE}(\hat{\tau},\; e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda}-1}. \]

$\lambda$	ARE
$\lambda \to 0$	$\to 1$ (최대)
$1$	$\approx 0.582$
$2$	$\approx 0.313$
$4$	$< 0.1$

$\lambda$가 커질수록 단순 지시함수 추정량은 MLE에 비해 급격히 비효율적이다.

7 초효율성 (Superefficiency)

점근 효율성의 하한(CRLB)은 때로 위반될 수 있다.

Hodges 추정량 (§10.6.1)

$X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\theta, 1)$에서 CRLB는 $v(\theta) = 1$이다. 다음 추정량을 정의한다:

\[ d_n = \begin{cases} \bar{X} & \text{if } |\bar{X}| \geq n^{-1/4} \\ a\bar{X} & \text{if } |\bar{X}| < n^{-1/4} \end{cases}, \qquad 0 < a < 1. \]

이 추정량의 점근 분산은:

\[ v(\theta) = \begin{cases} 1 & \theta \neq 0 \\ a^2 & \theta = 0 \end{cases}. \]

$\theta = 0$에서 점근 분산 = $a^2 < 1 = $ CRLB — 하한을 위반한다.

이런 추정량을 초효율 추정량(superefficient estimator)이라 한다.

그러나 초효율 추정량은 실용적 위협이 아니다.

초효율성의 의미

초효율성이 성립하는 $\theta$ 집합은 Lebesgue 측도 0 (위 예에서 $\theta = 0$ 하나).
모든 $\theta$에서 동시에 CRLB를 깰 수 없다 (Le Cam의 정리).
오히려 $\theta = 0$ 근방에서 $d_n$의 분산이 갑자기 불안정해진다.
교훈: 점근 효율성 주장을 볼 때 “어떤 $\theta$ 집합에서?” 를 항상 확인해야 한다.

8 시뮬레이션

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)
B = 10000  # 반복 횟수

# ─────────────────────────────────────────
# 1. 극한 분산 vs 점근 분산: 1/X̄ 예시
# ─────────────────────────────────────────
mu = 2.0
sigma = 1.0
n_values = [10, 50, 200, 1000]

print("1/X̄의 분산 비교")
print(f"이론 점근 분산(×n) = σ²/μ⁴ = {sigma**2 / mu**4:.4f}")
print(f"{'n':>6}  {'Var(1/X̄)×n':>14}  {'|Bias|':>10}")
for n in n_values:
    samples = np.random.normal(mu, sigma, (B, n))
    xbar = samples.mean(axis=1)
    est = 1 / xbar
    # 분산이 큰 이상치 제거 후 추정 (현실적 추정)
    finite_mask = np.isfinite(est)
    var_est = np.var(est[finite_mask]) * n
    bias = np.abs(np.mean(est[finite_mask]) - 1/mu)
    print(f"{n:>6}  {var_est:>14.4f}  {bias:>10.6f}")

# ─────────────────────────────────────────
# 2. MLE 점근 효율성: Bernoulli p̂
# ─────────────────────────────────────────
p_true = 0.3
print("\nBernoulli p̂ 점근 효율성 확인")
print(f"이론 CRLB (점근 분산 ×n) = p(1-p) = {p_true*(1-p_true):.4f}")
print(f"{'n':>6}  {'Var(p̂)×n':>12}")
for n in [20, 100, 500, 2000]:
    samples = np.random.binomial(1, p_true, (B, n))
    phat = samples.mean(axis=1)
    print(f"{n:>6}  {np.var(phat)*n:>12.6f}")

# ─────────────────────────────────────────
# 3. ARE 시뮬레이션: Poisson λ=2에서 두 추정량 비교
# ─────────────────────────────────────────
lam = 2.0
tau_true = np.exp(-lam)       # 참값 e^{-λ}
n = 200

est1_vals = []  # 지시함수 평균
est2_vals = []  # MLE e^{-λ̂}

for _ in range(B):
    x = np.random.poisson(lam, n)
    est1_vals.append(np.mean(x == 0))           # ŷ = #{X=0}/n
    est2_vals.append(np.exp(-x.mean()))          # e^{-λ̂}

est1_vals = np.array(est1_vals)
est2_vals = np.array(est2_vals)

var1 = np.var(est1_vals) * n   # ×n: 점근 분산
var2 = np.var(est2_vals) * n

theo_are = lam / (np.exp(lam) - 1)

print(f"\nPoisson λ={lam}, 추정 대상 e^{{-λ}}={tau_true:.4f}")
print(f"  추정량1 (지시함수): 점근 분산 = {var1:.6f}")
print(f"  추정량2 (MLE e^{{-λ̂}}): 점근 분산 = {var2:.6f}")
print(f"  ARE(추정량1, MLE) 시뮬 = {var2/var1:.4f}")
print(f"  ARE(추정량1, MLE) 이론 = {theo_are:.4f}")

# 두 추정량의 분포 시각화
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
for ax, vals, name in zip(axes, [est1_vals, est2_vals], ["지시함수 평균", "MLE $e^{-\\hat{\\lambda}}$"]):
    ax.hist(vals, bins=60, density=True, alpha=0.7)
    ax.axvline(tau_true, color="red", linewidth=2, label=f"참값 = {tau_true:.4f}")
    ax.set_title(f"{name}\n점근분산×n = {np.var(vals)*n:.5f}")
    ax.legend()
plt.suptitle(f"Poisson λ={lam}: 두 추정량 비교 (n={n})", y=1.02)
plt.tight_layout()
plt.show()

# ─────────────────────────────────────────
# 4. Hodges 초효율 추정량 시각화
# ─────────────────────────────────────────
def hodges(x_bar, n, a=0.5):
    threshold = n ** (-0.25)
    return np.where(np.abs(x_bar) >= threshold, x_bar, a * x_bar)

n = 100
a = 0.5
theta_vals = np.linspace(-1, 1, 200)
asy_var = []

for theta in theta_vals:
    samples = np.random.normal(theta, 1, (B, n))
    xbar = samples.mean(axis=1)
    d = hodges(xbar, n, a)
    asy_var.append(np.var(d) * n)

plt.figure(figsize=(9, 4))
plt.plot(theta_vals, asy_var, label=f"Hodges $d_n$ (a={a})")
plt.axhline(1, color="red", linestyle="--", label="CRLB = 1")
plt.axvline(0, color="gray", linestyle=":")
plt.xlabel("θ")
plt.ylabel("점근 분산 × n (시뮬)")
plt.title(f"Hodges 초효율 추정량: θ=0 근방 불안정 (n={n})")
plt.legend()
plt.ylim(0, 1.5)
plt.grid(True)
plt.show()
# θ=0에서 점근 분산 = a² < 1 이지만,
# θ=0 근방에서 불연속적으로 급변 → 실용성 없음

9 핵심 결과 요약

결과	내용
Def 10.1.7	극한 분산: $\lim k_n \text{Var}\, T_n$ — 비단조/복잡 함수에서 한계
Def 10.1.9	점근 분산: 극한 분포 $N(0,\sigma^2)$의 $\sigma^2$ — 더 적합
Def 10.1.11	점근 효율성: 점근 분산 = CRLB $= [\tau'(\theta)]^2 / I(\theta)$
Thm 10.1.12	MLE는 점근 효율적 (증명: Taylor 전개 + CLT + WLLN)
식 (10.1.7)	$h(\hat{\theta})$의 분산 근사: 관측 정보로 계산
Def 10.1.16	$\text{ARE}(V_n, W_n) = \sigma_W^2 / \sigma_V^2$
§10.6.1	초효율성: 측도 0의 점에서 CRLB 위반 가능, 실용성 없음

면접 방어 포인트

“점근 분산과 극한 분산의 차이?” — 극한 분산은 $\lim k_n \text{Var}$, 점근 분산은 극한 분포의 분산. 복잡한 함수에서 극한 분산이 무한대가 될 때 점근 분산은 유한하다. 항상 점근 분산 ≤ 극한 분산.
“왜 MLE가 점근 효율적인가?” — 로그 우도 1차 도함수 Taylor 전개 → CLT + WLLN → Slutsky. 분자는 정규, 분모는 Fisher 정보로 확률 수렴.
“관측 정보 vs 기대 정보?” — 관측 정보($-l''(\hat{\theta})$)가 실증적으로 우수(Efron-Hinkley 1978). 현재 데이터에 맞춰진 정보이기 때문.
“ARE = 0.64의 의미?” — 같은 정확도를 위해 비교 대상 추정량보다 표본이 1/0.64≈1.56배 필요.
“초효율 추정량이 CRLB를 깨지 않나?” — 측도 0의 점에서만 깨며, 그 근방에서 분산이 불안정. 전체적으로 CRLB 위반이 아님.

10 다음 포스트

점근적 로버스트성 (Asymptotic Robustness) — 분포 가정이 틀렸을 때의 견고성, Huber 추정량, M-추정량

11 참고 문헌

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.2–10.1.3, pp. 471–477.
Efron, B. & Hinkley, D.V. (1978). Assessing the accuracy of the maximum likelihood estimator: Observed versus expected Fisher information. Biometrika, 65, 457–483.

\(\lambda\)	ARE
\(\lambda \to 0\)	\(\to 1\) (최대)
\(1\)	\(\approx 0.582\)
\(2\)	\(\approx 0.313\)
\(4\)	\(< 0.1\)