점근적 점추정: 효율성 (Asymptotic Point Estimation: Efficiency)

Casella & Berger §10.1.2–10.1.3 — 수렴 속도의 최적성과 추정량 비교

일관성이 “수렴 여부”를 묻는다면, 효율성은 “수렴 속도”를 묻는다. 극한 분산과 점근 분산의 차이, Cramér-Rao 하한을 달성하는 점근 효율성, MLE의 점근 효율성 증명, 점근 상대 효율(ARE)을 상세히 다룬다.

Statistics
저자

Kwangmin Kim

공개

2026년 04월 04일

1 동기: 일관성만으로는 부족하다

앞 포스트에서 일관성을 다뤘다. 일관 추정량은 \(n \to \infty\)일 때 참값에 수렴한다. 그런데 일관 추정량은 너무 많다.

예시: 둘 다 일관 추정량, 어느 것이 더 좋은가?

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\)에서 \(\mu\)를 추정한다.

  • \(W_n = \bar{X}_n\): \(\text{Var} = \sigma^2/n\)
  • \(V_n = X_1\): 단 하나의 관측값만 사용. Var \(= \sigma^2\), 일관 추정량이 아님.
  • \(T_n = \bar{X}_n + 1/n\): 편향이 있지만 \(1/n \to 0\). 일관 추정량.

\(W_n\)\(T_n\)은 둘 다 일관적이다. 그러나 \(n = 10\)에서 \(W_n\)의 표준오차는 \(\sigma/\sqrt{10}\), \(T_n\)의 표준오차도 비슷하다. 더 극단적인 예:

\[ \tilde{W}_n = \frac{n}{n+1} \bar{X}_n \]

이것도 일관 추정량이지만 \(\bar{X}_n\)보다 효율이 낮다.

효율성(efficiency)은 일관 추정량들 중 점근 분산이 가장 작은 — 즉 가장 빨리 수렴하는 — 추정량을 찾는 기준이다.


2 극한 분산 vs 점근 분산

2.1 극한 분산 (Limiting Variance)

직관적으로 점근 분산을 “유한 표본 분산의 극한”으로 정의하고 싶다.

정의 10.1.7: 극한 분산 (Limiting Variance)

\(T_n\)에 대해 상수 수열 \(\{k_n\}\)이 존재하여

\[ \lim_{n \to \infty} k_n \, \text{Var}\, T_n = \tau^2 < \infty \]

이면, \(\tau^2\)\(T_n\)극한 분산(limiting variance) 또는 분산들의 극한(limit of the variances)이라 한다.

예시: \(\bar{X}_n\)의 분산은 \(\sigma^2/n\)이므로, \(k_n = n\)으로 놓으면

\[ \lim_{n \to \infty} n \cdot \frac{\sigma^2}{n} = \sigma^2. \]

\(\bar{X}_n\)의 극한 분산은 \(\sigma^2\)이다.

2.2 극한 분산의 한계

예제 10.1.8: \(1/\bar{X}_n\)의 극한 분산 문제

\(\bar{X}_n\)으로 \(1/\mu\)를 추정한다. \(T_n = 1/\bar{X}_n\)이라 하면, \(\text{Var}(T_n) = \text{Var}(1/\bar{X}_n) = \infty\) (정규분포에서 역수의 정확 분산은 무한대).

따라서 극한 분산 = \(\infty\)다.

그런데 델타 메서드(Delta Method)로 근사하면:

\[ \text{Var}\!\left(\frac{1}{\bar{X}_n}\right) \approx \left(\frac{1}{\mu}\right)^4 \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n\mu^4} < \infty. \]

\(\mu \neq 0\)일 때, \(1/\bar{X}\)가 매우 커지는 영역의 확률이 0으로 수렴한다. 그래서 근사 분산 \(\sigma^2/(n\mu^4)\)이 실제로 더 현실적이고 유용하다.

예제 10.1.10: 혼합 분포 — 극한 분산과 점근 분산의 극단적 차이

계층 모형:

\[ Y_n \mid W_n = w_n \sim N(0,\; w_n + (1-w_n)\sigma_n^2), \qquad W_n \sim \text{Bernoulli}(p_n). \]

이는 확률 \(p_n\)으로 \(N(0,1)\), 확률 \(1-p_n\)으로 \(N(0, \sigma_n^2)\)를 관측하는 혼합 모형이다.

극한 분산 계산:

\[ \text{Var}(Y_n) = p_n + (1-p_n)\sigma_n^2. \]

\(p_n \to 1\), \(\sigma_n \to \infty\)\((1-p_n)\sigma_n^2 \to \infty\)가 되도록 진행하면, 극한 분산 = \(\infty\).

점근 분포 계산:

\[ P(Y_n < a) = p_n P(Z < a) + (1-p_n) P(Z < a/\sigma_n). \]

\((1-p_n)\sigma_n^2 \to \infty\)이더라도 \(p_n \to 1\)이면 두 번째 항 \(\to 0\)이므로

\[ P(Y_n < a) \to P(Z < a), \quad Y_n \to N(0,1). \]

따라서 점근 분산 = 1.

극한 분산 점근 분산
\(Y_n\) (위 예) \(\infty\) \(1\)

결론: 점근 분산은 항상 극한 분산보다 작거나 같다. 극한 분산이 유용하지 않을 때도 점근 분산은 의미있다.

2.3 점근 분산 (Asymptotic Variance)

위 문제를 해결하는 올바른 접근법이 점근 분산이다.

정의 10.1.9: 점근 분산 (Asymptotic Variance)

\(T_n\)에 대해 \(k_n(T_n - \tau(\theta)) \to N(0, \sigma^2)\)이 분포 수렴하면, \(\sigma^2\)\(T_n\)점근 분산(asymptotic variance) 또는 극한 분포의 분산이라 한다.

평균이나 단순 합계에서는 극한 분산과 점근 분산이 일치한다. 복잡한 함수(\(1/\bar{X}_n\), 오즈 등)에서는 점근 분산이 더 현실적이다.


3 점근 효율성 (Asymptotic Efficiency)

점근 분산의 하한은 무엇인가? 유한 표본에서 Cramér-Rao 하한이 분산의 하한이었듯, 점근 세계에서도 같은 하한이 적용된다.

정의 10.1.11: 점근 효율성 (Asymptotic Efficiency)

추정량 수열 \(W_n\)\(\tau(\theta)\)에 대해 점근 효율적(asymptotically efficient)이려면,

\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N[0, v(\theta)] \quad \text{(분포 수렴)} \]

이고, 점근 분산 \(v(\theta)\)가 Cramér-Rao 하한을 달성해야 한다:

\[ v(\theta) = \frac{[\tau'(\theta)]^2}{I(\theta)}, \qquad I(\theta) = E_\theta\!\left[\left(\frac{\partial}{\partial \theta}\log f(X|\theta)\right)^2\right]. \]

여기서 \(I(\theta)\)는 Fisher 정보량(1개 관측값 기준)이다.

유한 표본 CRLB와의 관계

유한 표본: \(\text{Var}_\theta(W) \geq \frac{[\tau'(\theta)]^2}{n I(\theta)}\).

점근: \(\text{AsyVar}(W_n) \geq \frac{[\tau'(\theta)]^2}{I(\theta)}\).

\(n\)을 곱하면 동일한 하한이다. 점근 효율적 추정량은 “\(n\)을 곱한 분산의 하한 = CRLB”를 달성한다.


4 MLE의 점근 효율성

정리 10.1.12: MLE의 점근 효율성 (Asymptotic Efficiency of MLEs)

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 연속 함수이면, 정칙 조건 (A1)~(A6) 하에서

\[ \sqrt{n}\,[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \]

여기서 \(v(\theta) = [\tau'(\theta)]^2 / I(\theta)\)는 Cramér-Rao 하한이다. 즉, \(\tau(\hat{\theta})\)일관되고 점근 효율적인 추정량이다.

4.1 증명 (개요)

로그 우도 \(l(\theta|x) = \sum_{i=1}^n \log f(x_i|\theta)\)와 그 도함수 \(l', l'', \ldots\)를 사용한다.

Step 1: 로그 우도 1차 도함수를 참값 \(\theta_0\) 주변으로 Taylor 전개:

\[ l'(\theta|x) = l'(\theta_0|x) + (\theta - \theta_0)\,l''(\theta_0|x) + \cdots \tag{10.1.4} \]

Step 2: \(\hat{\theta}\)(MLE)를 \(\theta\)에 대입. MLE의 정의에 의해 좌변 \(l'(\hat{\theta}|x) = 0\)이므로:

\[ 0 = l'(\theta_0|x) + (\hat{\theta} - \theta_0)\,l''(\theta_0|x) + \cdots \]

\(\sqrt{n}\)을 곱하고 정리하면:

\[ \sqrt{n}\,(\hat{\theta} - \theta_0) = \frac{-\dfrac{1}{\sqrt{n}}\,l'(\theta_0|x)}{\dfrac{1}{n}\,l''(\theta_0|x)}. \tag{10.1.5} \]

Step 3: 분자와 분모의 극한 분포를 각각 구한다.

\(l'(\theta_0|x) = \sum_{i=1}^n \frac{\partial}{\partial\theta}\log f(x_i|\theta_0)\)는 평균 0, 분산 \(I(\theta_0)\)인 iid 합이므로, 중심극한정리(CLT)에 의해:

\[ \frac{1}{\sqrt{n}}\,l'(\theta_0|X) \to N[0, I(\theta_0)] \tag{10.1.6a} \]

\(l''(\theta_0|x) / n\)은 대수의 약법칙(WLLN)에 의해:

\[ \frac{1}{n}\,l''(\theta_0|X) \overset{P}{\to} E_{\theta_0}[l''(\theta_0|X)/n \cdot n/n] = -I(\theta_0). \tag{10.1.6b} \]

(Lemma 7.3.11: \(E[l''(\theta|X)] = -I(\theta)\))

Step 4: Slutsky 정리에 의해 비(ratio)의 분포:

\[ \sqrt{n}\,(\hat{\theta} - \theta_0) \to \frac{W}{I(\theta_0)} \sim N\!\left[0, \frac{1}{I(\theta_0)}\right] = N[0, v(\theta_0)]. \]

MLE의 점근 분산 $= 1/I() = $ Cramér-Rao 하한. \(\blacksquare\)


5 분산 계산 실용 공식 (§10.1.3)

MLE가 점근 효율적이면, 함수 \(h(\hat{\theta})\)의 분산을 다음 공식으로 근사한다.

공식 (10.1.7): MLE 분산 근사

\[ \widehat{\text{Var}}(h(\hat{\theta})) \approx \frac{[h'(\theta)]^2 \big|_{\theta=\hat{\theta}}}{-\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}} = \frac{[h'(\hat{\theta})]^2}{\hat{I}_n(\hat{\theta})}. \]

여기서 \(\hat{I}_n(\hat{\theta}) = -\dfrac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}\)관측 정보(observed information)이다.

이 근사는 2단계 절차이다: 1. 이론적 분산을 CRLB/델타 메서드로 근사한다. 2. 모르는 \(\theta\)\(\hat{\theta}\)대입(plug-in) 하여 추정한다.

기대 정보 vs 관측 정보
  • 기대 정보: \(I(\theta) = E_\theta\!\left[-\frac{\partial^2}{\partial\theta^2}\log f(X|\theta)\right]\) — 이론적
  • 관측 정보: \(\hat{I}_n(\hat{\theta}) = -\frac{\partial^2}{\partial\theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}\) — 데이터로 계산

Efron and Hinkley (1978)에 따르면 관측 정보가 기대 정보보다 우수하다. 기대 정보는 \(\theta\) 전체에 걸친 평균인 반면, 관측 정보는 현재 데이터에 맞춰진 값이기 때문이다.

5.1 예제 10.1.14: 이항 비율의 분산 근사

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), MLE \(\hat{p} = \sum X_i / n\).

로그 우도: \[ \log L(p|x) = n\hat{p}\log p + n(1-\hat{p})\log(1-p). \]

2차 도함수: \[ \frac{\partial^2}{\partial p^2}\log L(p|x) = -\frac{n\hat{p}}{p^2} - \frac{n(1-\hat{p})}{(1-p)^2}. \]

\(p = \hat{p}\)에서 평가: \[ \frac{\partial^2}{\partial p^2}\log L(p|x)\big|_{p=\hat{p}} = -\frac{n}{\hat{p}(1-\hat{p})}. \]

공식 (10.1.7)에 \(h(p) = p\), \(h'(p) = 1\)을 대입: \[ \widehat{\text{Var}}(\hat{p}) \approx \frac{1}{n/(\hat{p}(1-\hat{p}))} = \frac{\hat{p}(1-\hat{p})}{n}. \]

이는 직접 계산한 \(\text{Var}(\hat{p}) = p(1-p)/n\)의 플러그인 추정과 동일하다. 또한

\[ \sqrt{n}\,(\hat{p} - p) \to N[0, p(1-p)], \qquad \sqrt{n}\,\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})}} \to N(0,1). \]

확장 — 오즈(odds) 추정: \(h(p) = p/(1-p)\), \(h'(p) = 1/(1-p)^2\)이면

\[ \widehat{\text{Var}}\!\left(\frac{\hat{p}}{1-\hat{p}}\right) = \frac{[1/(1-\hat{p})^2]^2}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}}{n(1-\hat{p})^3}. \]

MLE의 불변성에 의해 오즈 MLE는 \(\hat{p}/(1-\hat{p})\)이며, 이 추정량도 점근 효율적이다.

5.2 예제 10.1.15: 비단조 함수의 함정

\(h(p) = p(1-p)\) (베르누이 분산), MLE \(\hat{p}(1-\hat{p})\).

공식 (10.1.7) 적용: \[ \widehat{\text{Var}}(\hat{p}(1-\hat{p})) = \frac{(1-2p)^2\big|_{p=\hat{p}}}{n/[\hat{p}(1-\hat{p})]} = \frac{\hat{p}(1-\hat{p})(1-2\hat{p})^2}{n}. \]

문제: \(\hat{p} = 1/2\)이면 \((1-2\hat{p})^2 = 0\)이 되어 분산 추정량 = 0이다. 실제 \(\hat{p}(1-\hat{p})\)의 분산이 0이 될 리 없으므로 심각한 과소추정이다.

원인: 비단조 함수

\(h(p) = p(1-p)\)\(p = 1/2\)에서 극대를 가지며 \(h'(1/2) = 0\). 1차 델타 메서드는 1차 항을 사용하므로, 1차 항이 0이 되면 분산 추정이 붕괴한다.

해결책: - 2차 델타 메서드 (Thm 5.5.26) 사용 - 부트스트랩: 이 문제를 자동으로 회피 (다음 포스트)


6 점근 상대 효율 (Asymptotic Relative Efficiency, ARE)

MLE가 최선이지만, 때로는 계산 편의나 로버스트성 때문에 다른 추정량을 쓴다. ARE는 “무엇을 포기하는가”를 정량화한다.

정의 10.1.16: 점근 상대 효율 (Asymptotic Relative Efficiency)

두 추정량 \(W_n\), \(V_n\)

\[ \sqrt{n}\,[W_n - \tau(\theta)] \to N(0, \sigma_W^2), \qquad \sqrt{n}\,[V_n - \tau(\theta)] \to N(0, \sigma_V^2) \]

이면, \(V_n\)\(W_n\)에 대한 점근 상대 효율(ARE)

\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]

\(\text{ARE}(V_n, W_n) > 1\)이면 \(V_n\)\(W_n\)보다 효율적이다.

해석: \(\text{ARE}(V_n, W_n) = r\)이면, \(V_n\)으로 \(W_n\)과 같은 정확도를 얻으려면 표본이 \(1/r\)배 필요하다. 예: ARE = 0.64이면 \(V_n\)\(W_n\)의 64% 효율 — 같은 정확도를 위해 표본이 1/0.64 ≈ 1.56배 필요하다.

6.1 예제 10.1.17: Poisson 모형에서 두 추정량의 ARE

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\), 관심 모수: \(\tau = P(X=0) = e^{-\lambda}\).

추정량 1: 지시함수 평균 \(\hat{\tau} = \frac{1}{n}\sum I(X_i = 0)\).

\(Y_i = I(X_i = 0) \sim \text{Bernoulli}(e^{-\lambda})\)이므로,

\[ \sqrt{n}\,(\hat{\tau} - e^{-\lambda}) \to N[0,\; e^{-\lambda}(1-e^{-\lambda})]. \]

추정량 2 (MLE): \(e^{-\hat{\lambda}}\), 여기서 \(\hat{\lambda} = \bar{X}\)\(\lambda\)의 MLE.

델타 메서드 (\(h(\lambda) = e^{-\lambda}\), \(h'(\lambda) = -e^{-\lambda}\)):

\[ \sqrt{n}\,(e^{-\hat{\lambda}} - e^{-\lambda}) \to N[0,\; \lambda e^{-2\lambda}]. \]

(Var(\(\bar{X}\)) = \(\lambda/n\), 델타 메서드: \([h'(\lambda)]^2 \cdot \lambda = e^{-2\lambda} \cdot \lambda\))

ARE 계산:

\[ \text{ARE}(\hat{\tau},\; e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda}-1}. \]

\(\lambda\) ARE
\(\lambda \to 0\) \(\to 1\) (최대)
\(1\) \(\approx 0.582\)
\(2\) \(\approx 0.313\)
\(4\) \(< 0.1\)

\(\lambda\)가 커질수록 단순 지시함수 추정량은 MLE에 비해 급격히 비효율적이다.


7 초효율성 (Superefficiency)

점근 효율성의 하한(CRLB)은 때로 위반될 수 있다.

Hodges 추정량 (§10.6.1)

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\theta, 1)\)에서 CRLB는 \(v(\theta) = 1\)이다. 다음 추정량을 정의한다:

\[ d_n = \begin{cases} \bar{X} & \text{if } |\bar{X}| \geq n^{-1/4} \\ a\bar{X} & \text{if } |\bar{X}| < n^{-1/4} \end{cases}, \qquad 0 < a < 1. \]

이 추정량의 점근 분산은:

\[ v(\theta) = \begin{cases} 1 & \theta \neq 0 \\ a^2 & \theta = 0 \end{cases}. \]

\(\theta = 0\)에서 점근 분산 = $a^2 < 1 = $ CRLB — 하한을 위반한다.

이런 추정량을 초효율 추정량(superefficient estimator)이라 한다.

그러나 초효율 추정량은 실용적 위협이 아니다.

초효율성의 의미
  • 초효율성이 성립하는 \(\theta\) 집합은 Lebesgue 측도 0 (위 예에서 \(\theta = 0\) 하나).
  • 모든 \(\theta\)에서 동시에 CRLB를 깰 수 없다 (Le Cam의 정리).
  • 오히려 \(\theta = 0\) 근방에서 \(d_n\)의 분산이 갑자기 불안정해진다.
  • 교훈: 점근 효율성 주장을 볼 때 “어떤 \(\theta\) 집합에서?” 를 항상 확인해야 한다.

8 시뮬레이션

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)
B = 10000  # 반복 횟수

# ─────────────────────────────────────────
# 1. 극한 분산 vs 점근 분산: 1/X̄ 예시
# ─────────────────────────────────────────
mu = 2.0
sigma = 1.0
n_values = [10, 50, 200, 1000]

print("1/X̄의 분산 비교")
print(f"이론 점근 분산(×n) = σ²/μ⁴ = {sigma**2 / mu**4:.4f}")
print(f"{'n':>6}  {'Var(1/X̄)×n':>14}  {'|Bias|':>10}")
for n in n_values:
    samples = np.random.normal(mu, sigma, (B, n))
    xbar = samples.mean(axis=1)
    est = 1 / xbar
    # 분산이 큰 이상치 제거 후 추정 (현실적 추정)
    finite_mask = np.isfinite(est)
    var_est = np.var(est[finite_mask]) * n
    bias = np.abs(np.mean(est[finite_mask]) - 1/mu)
    print(f"{n:>6}  {var_est:>14.4f}  {bias:>10.6f}")

# ─────────────────────────────────────────
# 2. MLE 점근 효율성: Bernoulli p̂
# ─────────────────────────────────────────
p_true = 0.3
print("\nBernoulli p̂ 점근 효율성 확인")
print(f"이론 CRLB (점근 분산 ×n) = p(1-p) = {p_true*(1-p_true):.4f}")
print(f"{'n':>6}  {'Var(p̂)×n':>12}")
for n in [20, 100, 500, 2000]:
    samples = np.random.binomial(1, p_true, (B, n))
    phat = samples.mean(axis=1)
    print(f"{n:>6}  {np.var(phat)*n:>12.6f}")
# ─────────────────────────────────────────
# 3. ARE 시뮬레이션: Poisson λ=2에서 두 추정량 비교
# ─────────────────────────────────────────
lam = 2.0
tau_true = np.exp(-lam)       # 참값 e^{-λ}
n = 200

est1_vals = []  # 지시함수 평균
est2_vals = []  # MLE e^{-λ̂}

for _ in range(B):
    x = np.random.poisson(lam, n)
    est1_vals.append(np.mean(x == 0))           # ŷ = #{X=0}/n
    est2_vals.append(np.exp(-x.mean()))          # e^{-λ̂}

est1_vals = np.array(est1_vals)
est2_vals = np.array(est2_vals)

var1 = np.var(est1_vals) * n   # ×n: 점근 분산
var2 = np.var(est2_vals) * n

theo_are = lam / (np.exp(lam) - 1)

print(f"\nPoisson λ={lam}, 추정 대상 e^{{}}={tau_true:.4f}")
print(f"  추정량1 (지시함수): 점근 분산 = {var1:.6f}")
print(f"  추정량2 (MLE e^{{-λ̂}}): 점근 분산 = {var2:.6f}")
print(f"  ARE(추정량1, MLE) 시뮬 = {var2/var1:.4f}")
print(f"  ARE(추정량1, MLE) 이론 = {theo_are:.4f}")

# 두 추정량의 분포 시각화
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
for ax, vals, name in zip(axes, [est1_vals, est2_vals], ["지시함수 평균", "MLE $e^{-\\hat{\\lambda}}$"]):
    ax.hist(vals, bins=60, density=True, alpha=0.7)
    ax.axvline(tau_true, color="red", linewidth=2, label=f"참값 = {tau_true:.4f}")
    ax.set_title(f"{name}\n점근분산×n = {np.var(vals)*n:.5f}")
    ax.legend()
plt.suptitle(f"Poisson λ={lam}: 두 추정량 비교 (n={n})", y=1.02)
plt.tight_layout()
plt.show()
# ─────────────────────────────────────────
# 4. Hodges 초효율 추정량 시각화
# ─────────────────────────────────────────
def hodges(x_bar, n, a=0.5):
    threshold = n ** (-0.25)
    return np.where(np.abs(x_bar) >= threshold, x_bar, a * x_bar)

n = 100
a = 0.5
theta_vals = np.linspace(-1, 1, 200)
asy_var = []

for theta in theta_vals:
    samples = np.random.normal(theta, 1, (B, n))
    xbar = samples.mean(axis=1)
    d = hodges(xbar, n, a)
    asy_var.append(np.var(d) * n)

plt.figure(figsize=(9, 4))
plt.plot(theta_vals, asy_var, label=f"Hodges $d_n$ (a={a})")
plt.axhline(1, color="red", linestyle="--", label="CRLB = 1")
plt.axvline(0, color="gray", linestyle=":")
plt.xlabel("θ")
plt.ylabel("점근 분산 × n (시뮬)")
plt.title(f"Hodges 초효율 추정량: θ=0 근방 불안정 (n={n})")
plt.legend()
plt.ylim(0, 1.5)
plt.grid(True)
plt.show()
# θ=0에서 점근 분산 = a² < 1 이지만,
# θ=0 근방에서 불연속적으로 급변 → 실용성 없음

9 핵심 결과 요약

결과 내용
Def 10.1.7 극한 분산: \(\lim k_n \text{Var}\, T_n\) — 비단조/복잡 함수에서 한계
Def 10.1.9 점근 분산: 극한 분포 \(N(0,\sigma^2)\)\(\sigma^2\) — 더 적합
Def 10.1.11 점근 효율성: 점근 분산 = CRLB \(= [\tau'(\theta)]^2 / I(\theta)\)
Thm 10.1.12 MLE는 점근 효율적 (증명: Taylor 전개 + CLT + WLLN)
식 (10.1.7) \(h(\hat{\theta})\)의 분산 근사: 관측 정보로 계산
Def 10.1.16 \(\text{ARE}(V_n, W_n) = \sigma_W^2 / \sigma_V^2\)
§10.6.1 초효율성: 측도 0의 점에서 CRLB 위반 가능, 실용성 없음
면접 방어 포인트
  • “점근 분산과 극한 분산의 차이?” — 극한 분산은 \(\lim k_n \text{Var}\), 점근 분산은 극한 분포의 분산. 복잡한 함수에서 극한 분산이 무한대가 될 때 점근 분산은 유한하다. 항상 점근 분산 ≤ 극한 분산.
  • “왜 MLE가 점근 효율적인가?” — 로그 우도 1차 도함수 Taylor 전개 → CLT + WLLN → Slutsky. 분자는 정규, 분모는 Fisher 정보로 확률 수렴.
  • “관측 정보 vs 기대 정보?” — 관측 정보(\(-l''(\hat{\theta})\))가 실증적으로 우수(Efron-Hinkley 1978). 현재 데이터에 맞춰진 정보이기 때문.
  • “ARE = 0.64의 의미?” — 같은 정확도를 위해 비교 대상 추정량보다 표본이 1/0.64≈1.56배 필요.
  • “초효율 추정량이 CRLB를 깨지 않나?” — 측도 0의 점에서만 깨며, 그 근방에서 분산이 불안정. 전체적으로 CRLB 위반이 아님.

10 다음 포스트

11 참고 문헌

  • Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.2–10.1.3, pp. 471–477.
  • Efron, B. & Hinkley, D.V. (1978). Assessing the accuracy of the maximum likelihood estimator: Observed versus expected Fisher information. Biometrika, 65, 457–483.

Subscribe

Enjoy this blog? Get notified of new posts by email: