1 동기: 일관성만으로는 부족하다
앞 포스트에서 일관성을 다뤘다. 일관 추정량은 \(n \to \infty\)일 때 참값에 수렴한다. 그런데 일관 추정량은 너무 많다.
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\)에서 \(\mu\)를 추정한다.
- \(W_n = \bar{X}_n\): \(\text{Var} = \sigma^2/n\)
- \(V_n = X_1\): 단 하나의 관측값만 사용. Var \(= \sigma^2\), 일관 추정량이 아님.
- \(T_n = \bar{X}_n + 1/n\): 편향이 있지만 \(1/n \to 0\). 일관 추정량.
\(W_n\)과 \(T_n\)은 둘 다 일관적이다. 그러나 \(n = 10\)에서 \(W_n\)의 표준오차는 \(\sigma/\sqrt{10}\), \(T_n\)의 표준오차도 비슷하다. 더 극단적인 예:
\[ \tilde{W}_n = \frac{n}{n+1} \bar{X}_n \]
이것도 일관 추정량이지만 \(\bar{X}_n\)보다 효율이 낮다.
효율성(efficiency)은 일관 추정량들 중 점근 분산이 가장 작은 — 즉 가장 빨리 수렴하는 — 추정량을 찾는 기준이다.
2 극한 분산 vs 점근 분산
2.1 극한 분산 (Limiting Variance)
직관적으로 점근 분산을 “유한 표본 분산의 극한”으로 정의하고 싶다.
\(T_n\)에 대해 상수 수열 \(\{k_n\}\)이 존재하여
\[ \lim_{n \to \infty} k_n \, \text{Var}\, T_n = \tau^2 < \infty \]
이면, \(\tau^2\)을 \(T_n\)의 극한 분산(limiting variance) 또는 분산들의 극한(limit of the variances)이라 한다.
예시: \(\bar{X}_n\)의 분산은 \(\sigma^2/n\)이므로, \(k_n = n\)으로 놓으면
\[ \lim_{n \to \infty} n \cdot \frac{\sigma^2}{n} = \sigma^2. \]
\(\bar{X}_n\)의 극한 분산은 \(\sigma^2\)이다.
2.2 극한 분산의 한계
\(\bar{X}_n\)으로 \(1/\mu\)를 추정한다. \(T_n = 1/\bar{X}_n\)이라 하면, \(\text{Var}(T_n) = \text{Var}(1/\bar{X}_n) = \infty\) (정규분포에서 역수의 정확 분산은 무한대).
따라서 극한 분산 = \(\infty\)다.
그런데 델타 메서드(Delta Method)로 근사하면:
\[ \text{Var}\!\left(\frac{1}{\bar{X}_n}\right) \approx \left(\frac{1}{\mu}\right)^4 \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n\mu^4} < \infty. \]
\(\mu \neq 0\)일 때, \(1/\bar{X}\)가 매우 커지는 영역의 확률이 0으로 수렴한다. 그래서 근사 분산 \(\sigma^2/(n\mu^4)\)이 실제로 더 현실적이고 유용하다.
계층 모형:
\[ Y_n \mid W_n = w_n \sim N(0,\; w_n + (1-w_n)\sigma_n^2), \qquad W_n \sim \text{Bernoulli}(p_n). \]
이는 확률 \(p_n\)으로 \(N(0,1)\), 확률 \(1-p_n\)으로 \(N(0, \sigma_n^2)\)를 관측하는 혼합 모형이다.
극한 분산 계산:
\[ \text{Var}(Y_n) = p_n + (1-p_n)\sigma_n^2. \]
\(p_n \to 1\), \(\sigma_n \to \infty\)가 \((1-p_n)\sigma_n^2 \to \infty\)가 되도록 진행하면, 극한 분산 = \(\infty\).
점근 분포 계산:
\[ P(Y_n < a) = p_n P(Z < a) + (1-p_n) P(Z < a/\sigma_n). \]
\((1-p_n)\sigma_n^2 \to \infty\)이더라도 \(p_n \to 1\)이면 두 번째 항 \(\to 0\)이므로
\[ P(Y_n < a) \to P(Z < a), \quad Y_n \to N(0,1). \]
따라서 점근 분산 = 1.
| 극한 분산 | 점근 분산 | |
|---|---|---|
| \(Y_n\) (위 예) | \(\infty\) | \(1\) |
결론: 점근 분산은 항상 극한 분산보다 작거나 같다. 극한 분산이 유용하지 않을 때도 점근 분산은 의미있다.
2.3 점근 분산 (Asymptotic Variance)
위 문제를 해결하는 올바른 접근법이 점근 분산이다.
\(T_n\)에 대해 \(k_n(T_n - \tau(\theta)) \to N(0, \sigma^2)\)이 분포 수렴하면, \(\sigma^2\)을 \(T_n\)의 점근 분산(asymptotic variance) 또는 극한 분포의 분산이라 한다.
평균이나 단순 합계에서는 극한 분산과 점근 분산이 일치한다. 복잡한 함수(\(1/\bar{X}_n\), 오즈 등)에서는 점근 분산이 더 현실적이다.
3 점근 효율성 (Asymptotic Efficiency)
점근 분산의 하한은 무엇인가? 유한 표본에서 Cramér-Rao 하한이 분산의 하한이었듯, 점근 세계에서도 같은 하한이 적용된다.
추정량 수열 \(W_n\)이 \(\tau(\theta)\)에 대해 점근 효율적(asymptotically efficient)이려면,
\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N[0, v(\theta)] \quad \text{(분포 수렴)} \]
이고, 점근 분산 \(v(\theta)\)가 Cramér-Rao 하한을 달성해야 한다:
\[ v(\theta) = \frac{[\tau'(\theta)]^2}{I(\theta)}, \qquad I(\theta) = E_\theta\!\left[\left(\frac{\partial}{\partial \theta}\log f(X|\theta)\right)^2\right]. \]
여기서 \(I(\theta)\)는 Fisher 정보량(1개 관측값 기준)이다.
유한 표본: \(\text{Var}_\theta(W) \geq \frac{[\tau'(\theta)]^2}{n I(\theta)}\).
점근: \(\text{AsyVar}(W_n) \geq \frac{[\tau'(\theta)]^2}{I(\theta)}\).
\(n\)을 곱하면 동일한 하한이다. 점근 효율적 추정량은 “\(n\)을 곱한 분산의 하한 = CRLB”를 달성한다.
4 MLE의 점근 효율성
\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 연속 함수이면, 정칙 조건 (A1)~(A6) 하에서
\[ \sqrt{n}\,[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \]
여기서 \(v(\theta) = [\tau'(\theta)]^2 / I(\theta)\)는 Cramér-Rao 하한이다. 즉, \(\tau(\hat{\theta})\)는 일관되고 점근 효율적인 추정량이다.
4.1 증명 (개요)
로그 우도 \(l(\theta|x) = \sum_{i=1}^n \log f(x_i|\theta)\)와 그 도함수 \(l', l'', \ldots\)를 사용한다.
Step 1: 로그 우도 1차 도함수를 참값 \(\theta_0\) 주변으로 Taylor 전개:
\[ l'(\theta|x) = l'(\theta_0|x) + (\theta - \theta_0)\,l''(\theta_0|x) + \cdots \tag{10.1.4} \]
Step 2: \(\hat{\theta}\)(MLE)를 \(\theta\)에 대입. MLE의 정의에 의해 좌변 \(l'(\hat{\theta}|x) = 0\)이므로:
\[ 0 = l'(\theta_0|x) + (\hat{\theta} - \theta_0)\,l''(\theta_0|x) + \cdots \]
\(\sqrt{n}\)을 곱하고 정리하면:
\[ \sqrt{n}\,(\hat{\theta} - \theta_0) = \frac{-\dfrac{1}{\sqrt{n}}\,l'(\theta_0|x)}{\dfrac{1}{n}\,l''(\theta_0|x)}. \tag{10.1.5} \]
Step 3: 분자와 분모의 극한 분포를 각각 구한다.
\(l'(\theta_0|x) = \sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(x_i|\theta_0)\)는 평균 0, 분산 \(I(\theta_0)\)인 iid 합이므로, 중심극한정리(CLT)에 의해:
\[ \frac{1}{\sqrt{n}}\,l'(\theta_0|X) \to N[0, I(\theta_0)] \tag{10.1.6a} \]
\(l''(\theta_0|x) / n\)은 대수의 약법칙(WLLN)에 의해:
\[ \frac{1}{n}\,l''(\theta_0|X) \overset{P}{\to} E_{\theta_0}[l''(\theta_0|X)/n \cdot n/n] = -I(\theta_0). \tag{10.1.6b} \]
(Lemma 7.3.11: \(E[l''(\theta|X)] = -I(\theta)\))
Step 4: Slutsky 정리에 의해 비(ratio)의 분포:
\[ \sqrt{n}\,(\hat{\theta} - \theta_0) \to \frac{W}{I(\theta_0)} \sim N\!\left[0, \frac{1}{I(\theta_0)}\right] = N[0, v(\theta_0)]. \]
MLE의 점근 분산 $= 1/I() = $ Cramér-Rao 하한. \(\blacksquare\)
5 분산 계산 실용 공식 (§10.1.3)
MLE가 점근 효율적이면, 함수 \(h(\hat{\theta})\)의 분산을 다음 공식으로 근사한다.
\[ \widehat{\text{Var}}(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2 \big|_{\theta=\hat{\theta}}}{-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}} = \frac{[h'(\hat{\theta})]^2}{\hat{I}_n(\hat{\theta})}. \]
여기서 \(\hat{I}_n(\hat{\theta}) = -\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}\)는 관측 정보(observed information)이다.
이 근사는 2단계 절차이다: 1. 이론적 분산을 CRLB/델타 메서드로 근사한다. 2. 모르는 \(\theta\)를 \(\hat{\theta}\)로 대입(plug-in) 하여 추정한다.
- 기대 정보: \(I(\theta) = E_\theta\!\left[-\frac{\partial^2}{\partial\theta^2}\log f(X|\theta)\right]\) — 이론적
- 관측 정보: \(\hat{I}_n(\hat{\theta}) = -\frac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}\) — 데이터로 계산
Efron and Hinkley (1978)에 따르면 관측 정보가 기대 정보보다 우수하다. 기대 정보는 \(\theta\) 전체에 걸친 평균인 반면, 관측 정보는 현재 데이터에 맞춰진 값이기 때문이다.
5.1 예제 10.1.14: 이항 비율의 분산 근사
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), MLE \(\hat{p} = \sum X_i / n\).
로그 우도: \[ \log L(p|x) = n\hat{p}\log p + n(1-\hat{p})\log(1-p). \]
2차 도함수: \[ \frac{\partial^2}{\partial p^2}\log L(p|x) = -\frac{n\hat{p}}{p^2} - \frac{n(1-\hat{p})}{(1-p)^2}. \]
\(p = \hat{p}\)에서 평가: \[ \frac{\partial^2}{\partial p^2}\log L(p|x)\big|_{p=\hat{p}} = -\frac{n}{\hat{p}(1-\hat{p})}. \]
공식 (10.1.7)에 \(h(p) = p\), \(h'(p) = 1\)을 대입: \[ \widehat{\text{Var}}(\hat{p}) \approx \frac{1}{n/(\hat{p}(1-\hat{p}))} = \frac{\hat{p}(1-\hat{p})}{n}. \]
이는 직접 계산한 \(\text{Var}(\hat{p}) = p(1-p)/n\)의 플러그인 추정과 동일하다. 또한
\[ \sqrt{n}\,(\hat{p} - p) \to N[0, p(1-p)], \qquad \sqrt{n}\,\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})}} \to N(0,1). \]
확장 — 오즈(odds) 추정: \(h(p) = p/(1-p)\), \(h'(p) = 1/(1-p)^2\)이면
\[ \widehat{\text{Var}}\!\left(\frac{\hat{p}}{1-\hat{p}}\right) = \frac{[1/(1-\hat{p})^2]^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}}{n(1-\hat{p})^3}. \]
MLE의 불변성에 의해 오즈 MLE는 \(\hat{p}/(1-\hat{p})\)이며, 이 추정량도 점근 효율적이다.
5.2 예제 10.1.15: 비단조 함수의 함정
\(h(p) = p(1-p)\) (베르누이 분산), MLE \(\hat{p}(1-\hat{p})\).
공식 (10.1.7) 적용: \[ \widehat{\text{Var}}(\hat{p}(1-\hat{p})) = \frac{(1-2p)^2\big|_{p=\hat{p}}}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})(1-2\hat{p})^2}{n}. \]
문제: \(\hat{p} = 1/2\)이면 \((1-2\hat{p})^2 = 0\)이 되어 분산 추정량 = 0이다. 실제 \(\hat{p}(1-\hat{p})\)의 분산이 0이 될 리 없으므로 심각한 과소추정이다.
\(h(p) = p(1-p)\)는 \(p = 1/2\)에서 극대를 가지며 \(h'(1/2) = 0\). 1차 델타 메서드는 1차 항을 사용하므로, 1차 항이 0이 되면 분산 추정이 붕괴한다.
해결책: - 2차 델타 메서드 (Thm 5.5.26) 사용 - 부트스트랩: 이 문제를 자동으로 회피 (다음 포스트)
6 점근 상대 효율 (Asymptotic Relative Efficiency, ARE)
MLE가 최선이지만, 때로는 계산 편의나 로버스트성 때문에 다른 추정량을 쓴다. ARE는 “무엇을 포기하는가”를 정량화한다.
두 추정량 \(W_n\), \(V_n\)이
\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N(0, \sigma_W^2), \qquad \sqrt{n}\,[V_n - \tau(\theta)] \to N(0, \sigma_V^2) \]
이면, \(V_n\)의 \(W_n\)에 대한 점근 상대 효율(ARE)은
\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]
\(\text{ARE}(V_n, W_n) > 1\)이면 \(V_n\)이 \(W_n\)보다 효율적이다.
해석: \(\text{ARE}(V_n, W_n) = r\)이면, \(V_n\)으로 \(W_n\)과 같은 정확도를 얻으려면 표본이 \(1/r\)배 필요하다. 예: ARE = 0.64이면 \(V_n\)은 \(W_n\)의 64% 효율 — 같은 정확도를 위해 표본이 1/0.64 ≈ 1.56배 필요하다.
6.1 예제 10.1.17: Poisson 모형에서 두 추정량의 ARE
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\), 관심 모수: \(\tau = P(X=0) = e^{-\lambda}\).
추정량 1: 지시함수 평균 \(\hat{\tau} = \frac{1}{n}\sum I(X_i = 0)\).
\(Y_i = I(X_i = 0) \sim \text{Bernoulli}(e^{-\lambda})\)이므로,
\[ \sqrt{n}\,(\hat{\tau} - e^{-\lambda}) \to N[0,\; e^{-\lambda}(1-e^{-\lambda})]. \]
추정량 2 (MLE): \(e^{-\hat{\lambda}}\), 여기서 \(\hat{\lambda} = \bar{X}\)는 \(\lambda\)의 MLE.
델타 메서드 (\(h(\lambda) = e^{-\lambda}\), \(h'(\lambda) = -e^{-\lambda}\)):
\[ \sqrt{n}\,(e^{-\hat{\lambda}} - e^{-\lambda}) \to N[0,\; \lambda e^{-2\lambda}]. \]
(Var(\(\bar{X}\)) = \(\lambda/n\), 델타 메서드: \([h'(\lambda)]^2 \cdot \lambda = e^{-2\lambda} \cdot \lambda\))
ARE 계산:
\[ \text{ARE}(\hat{\tau},\; e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda}-1}. \]
| \(\lambda\) | ARE |
|---|---|
| \(\lambda \to 0\) | \(\to 1\) (최대) |
| \(1\) | \(\approx 0.582\) |
| \(2\) | \(\approx 0.313\) |
| \(4\) | \(< 0.1\) |
\(\lambda\)가 커질수록 단순 지시함수 추정량은 MLE에 비해 급격히 비효율적이다.
7 초효율성 (Superefficiency)
점근 효율성의 하한(CRLB)은 때로 위반될 수 있다.
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\theta, 1)\)에서 CRLB는 \(v(\theta) = 1\)이다. 다음 추정량을 정의한다:
\[ d_n = \begin{cases} \bar{X} & \text{if } |\bar{X}| \geq n^{-1/4} \\ a\bar{X} & \text{if } |\bar{X}| < n^{-1/4} \end{cases}, \qquad 0 < a < 1. \]
이 추정량의 점근 분산은:
\[ v(\theta) = \begin{cases} 1 & \theta \neq 0 \\ a^2 & \theta = 0 \end{cases}. \]
\(\theta = 0\)에서 점근 분산 = $a^2 < 1 = $ CRLB — 하한을 위반한다.
이런 추정량을 초효율 추정량(superefficient estimator)이라 한다.
그러나 초효율 추정량은 실용적 위협이 아니다.
- 초효율성이 성립하는 \(\theta\) 집합은 Lebesgue 측도 0 (위 예에서 \(\theta = 0\) 하나).
- 모든 \(\theta\)에서 동시에 CRLB를 깰 수 없다 (Le Cam의 정리).
- 오히려 \(\theta = 0\) 근방에서 \(d_n\)의 분산이 갑자기 불안정해진다.
- 교훈: 점근 효율성 주장을 볼 때 “어떤 \(\theta\) 집합에서?” 를 항상 확인해야 한다.
8 시뮬레이션
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
np.random.seed(42)
B = 10000 # 반복 횟수
# ─────────────────────────────────────────
# 1. 극한 분산 vs 점근 분산: 1/X̄ 예시
# ─────────────────────────────────────────
mu = 2.0
sigma = 1.0
n_values = [10, 50, 200, 1000]
print("1/X̄의 분산 비교")
print(f"이론 점근 분산(×n) = σ²/μ⁴ = {sigma**2 / mu**4:.4f}")
print(f"{'n':>6} {'Var(1/X̄)×n':>14} {'|Bias|':>10}")
for n in n_values:
samples = np.random.normal(mu, sigma, (B, n))
xbar = samples.mean(axis=1)
est = 1 / xbar
# 분산이 큰 이상치 제거 후 추정 (현실적 추정)
finite_mask = np.isfinite(est)
var_est = np.var(est[finite_mask]) * n
bias = np.abs(np.mean(est[finite_mask]) - 1/mu)
print(f"{n:>6} {var_est:>14.4f} {bias:>10.6f}")
# ─────────────────────────────────────────
# 2. MLE 점근 효율성: Bernoulli p̂
# ─────────────────────────────────────────
p_true = 0.3
print("\nBernoulli p̂ 점근 효율성 확인")
print(f"이론 CRLB (점근 분산 ×n) = p(1-p) = {p_true*(1-p_true):.4f}")
print(f"{'n':>6} {'Var(p̂)×n':>12}")
for n in [20, 100, 500, 2000]:
samples = np.random.binomial(1, p_true, (B, n))
phat = samples.mean(axis=1)
print(f"{n:>6} {np.var(phat)*n:>12.6f}")# ─────────────────────────────────────────
# 3. ARE 시뮬레이션: Poisson λ=2에서 두 추정량 비교
# ─────────────────────────────────────────
lam = 2.0
tau_true = np.exp(-lam) # 참값 e^{-λ}
n = 200
est1_vals = [] # 지시함수 평균
est2_vals = [] # MLE e^{-λ̂}
for _ in range(B):
x = np.random.poisson(lam, n)
est1_vals.append(np.mean(x == 0)) # ŷ = #{X=0}/n
est2_vals.append(np.exp(-x.mean())) # e^{-λ̂}
est1_vals = np.array(est1_vals)
est2_vals = np.array(est2_vals)
var1 = np.var(est1_vals) * n # ×n: 점근 분산
var2 = np.var(est2_vals) * n
theo_are = lam / (np.exp(lam) - 1)
print(f"\nPoisson λ={lam}, 추정 대상 e^{{-λ}}={tau_true:.4f}")
print(f" 추정량1 (지시함수): 점근 분산 = {var1:.6f}")
print(f" 추정량2 (MLE e^{{-λ̂}}): 점근 분산 = {var2:.6f}")
print(f" ARE(추정량1, MLE) 시뮬 = {var2/var1:.4f}")
print(f" ARE(추정량1, MLE) 이론 = {theo_are:.4f}")
# 두 추정량의 분포 시각화
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
for ax, vals, name in zip(axes, [est1_vals, est2_vals], ["지시함수 평균", "MLE $e^{-\\hat{\\lambda}}$"]):
ax.hist(vals, bins=60, density=True, alpha=0.7)
ax.axvline(tau_true, color="red", linewidth=2, label=f"참값 = {tau_true:.4f}")
ax.set_title(f"{name}\n점근분산×n = {np.var(vals)*n:.5f}")
ax.legend()
plt.suptitle(f"Poisson λ={lam}: 두 추정량 비교 (n={n})", y=1.02)
plt.tight_layout()
plt.show()# ─────────────────────────────────────────
# 4. Hodges 초효율 추정량 시각화
# ─────────────────────────────────────────
def hodges(x_bar, n, a=0.5):
threshold = n ** (-0.25)
return np.where(np.abs(x_bar) >= threshold, x_bar, a * x_bar)
n = 100
a = 0.5
theta_vals = np.linspace(-1, 1, 200)
asy_var = []
for theta in theta_vals:
samples = np.random.normal(theta, 1, (B, n))
xbar = samples.mean(axis=1)
d = hodges(xbar, n, a)
asy_var.append(np.var(d) * n)
plt.figure(figsize=(9, 4))
plt.plot(theta_vals, asy_var, label=f"Hodges $d_n$ (a={a})")
plt.axhline(1, color="red", linestyle="--", label="CRLB = 1")
plt.axvline(0, color="gray", linestyle=":")
plt.xlabel("θ")
plt.ylabel("점근 분산 × n (시뮬)")
plt.title(f"Hodges 초효율 추정량: θ=0 근방 불안정 (n={n})")
plt.legend()
plt.ylim(0, 1.5)
plt.grid(True)
plt.show()
# θ=0에서 점근 분산 = a² < 1 이지만,
# θ=0 근방에서 불연속적으로 급변 → 실용성 없음9 핵심 결과 요약
| 결과 | 내용 |
|---|---|
| Def 10.1.7 | 극한 분산: \(\lim k_n \text{Var}\, T_n\) — 비단조/복잡 함수에서 한계 |
| Def 10.1.9 | 점근 분산: 극한 분포 \(N(0,\sigma^2)\)의 \(\sigma^2\) — 더 적합 |
| Def 10.1.11 | 점근 효율성: 점근 분산 = CRLB \(= [\tau'(\theta)]^2 / I(\theta)\) |
| Thm 10.1.12 | MLE는 점근 효율적 (증명: Taylor 전개 + CLT + WLLN) |
| 식 (10.1.7) | \(h(\hat{\theta})\)의 분산 근사: 관측 정보로 계산 |
| Def 10.1.16 | \(\text{ARE}(V_n, W_n) = \sigma_W^2 / \sigma_V^2\) |
| §10.6.1 | 초효율성: 측도 0의 점에서 CRLB 위반 가능, 실용성 없음 |
- “점근 분산과 극한 분산의 차이?” — 극한 분산은 \(\lim k_n \text{Var}\), 점근 분산은 극한 분포의 분산. 복잡한 함수에서 극한 분산이 무한대가 될 때 점근 분산은 유한하다. 항상 점근 분산 ≤ 극한 분산.
- “왜 MLE가 점근 효율적인가?” — 로그 우도 1차 도함수 Taylor 전개 → CLT + WLLN → Slutsky. 분자는 정규, 분모는 Fisher 정보로 확률 수렴.
- “관측 정보 vs 기대 정보?” — 관측 정보(\(-l''(\hat{\theta})\))가 실증적으로 우수(Efron-Hinkley 1978). 현재 데이터에 맞춰진 정보이기 때문.
- “ARE = 0.64의 의미?” — 같은 정확도를 위해 비교 대상 추정량보다 표본이 1/0.64≈1.56배 필요.
- “초효율 추정량이 CRLB를 깨지 않나?” — 측도 0의 점에서만 깨며, 그 근방에서 분산이 불안정. 전체적으로 CRLB 위반이 아님.
10 다음 포스트
- 점근적 로버스트성 (Asymptotic Robustness) — 분포 가정이 틀렸을 때의 견고성, Huber 추정량, M-추정량
11 참고 문헌
- Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.2–10.1.3, pp. 471–477.
- Efron, B. & Hinkley, D.V. (1978). Assessing the accuracy of the maximum likelihood estimator: Observed versus expected Fisher information. Biometrika, 65, 457–483.