점근적 평가 개요 (Asymptotic Evaluations: Overview)

Casella & Berger §10 — 점근 이론의 전체 지도

유한 표본 기준을 넘어 표본 크기가 무한대로 커질 때의 추정량 성질을 다룬다. 일관성·효율성·로버스트성·점근 가설검정·점근 구간추정의 핵심 개념과 MLE의 점근적 우수성을 개관한다.

Statistics
저자

Kwangmin Kim

공개

2026년 04월 04일

1 개요

지금까지 다룬 기준들(UMVUE, UMP, 최단 구간 등)은 모두 유한 표본(finite-sample) 기준이다. 표본 크기 \(n\)이 고정되었을 때 최적인 추정량을 찾는 것이 목표였다.

점근적 평가(asymptotic evaluations)는 관점을 바꾼다. \(n \to \infty\) 극한에서 추정량이 어떻게 행동하는지를 묻는다.

왜 점근 이론인가?

유한 표본에서 최적 추정량을 찾는 것은 종종 수학적으로 불가능하거나 매우 복잡하다. \(n \to \infty\) 극한에서는 계산이 단순해지고, 분포들이 정규분포로 수렴하며, 이전에는 평가 불가능했던 절차(부트스트랩, M-추정량)까지 분석할 수 있게 된다.

더 중요한 점은, 점근적 성질이 추정 절차의 가장 근본적인 성질을 드러낸다는 것이다. 일관되지 않은 추정량(inconsistent estimator)은 아무리 유한 표본에서 좋아 보여도 신뢰하기 어렵다.

Casella & Berger Ch.10은 네 주제를 순서대로 다룬다.

주제 핵심 질문
10.1 점 추정 (Point Estimation) 추정량이 모수로 수렴하는가? 분산이 최적인가?
10.2 로버스트성 (Robustness) 분포 가정이 틀렸을 때 얼마나 견고한가?
10.3 가설검정 (Hypothesis Testing) 대표본에서 LRT 통계량은 어떤 분포를 갖는가?
10.4 구간추정 (Interval Estimation) 대표본 신뢰구간은 어떻게 구성하는가?

2 §10.1 점 추정 (Point Estimation)

2.1 일관성 (Consistency)

정의 10.1.1: 일관성 (Consistency)

추정량 수열 \(W_n = W_n(X_1, \ldots, X_n)\)\(\theta\)일관 추정량 수열(consistent sequence)이 되려면, 모든 \(\varepsilon > 0\)\(\theta \in \Theta\)에 대해

\[ \lim_{n \to \infty} P_\theta(|W_n - \theta| < \varepsilon) = 1 \]

이어야 한다. 동치 표현으로, \(\lim_{n \to \infty} P_\theta(|W_n - \theta| \geq \varepsilon) = 0\)이다.

직관적으로 일관성은 “표본 정보가 무한히 쌓이면 추정량이 참값에 임의로 가까워진다”는 요구이다. 일관성이 없는 추정량은 그 가치를 근본적으로 의심해야 한다.

일관성을 확인하는 실용적 도구는 체비쇼프 부등식(Chebychev’s inequality)이다.

정리 10.1.3: 분산·편향 조건에 의한 일관성

추정량 수열 \(W_n\)이 모든 \(\theta \in \Theta\)에 대해

  1. \(\lim_{n \to \infty} \text{Var}_\theta\, W_n = 0\),
  2. \(\lim_{n \to \infty} \text{Bias}_\theta\, W_n = 0\)

을 만족하면, \(W_n\)\(\theta\)의 일관 추정량 수열이다.

근거: MSE = Var + Bias² → 0이면 체비쇼프 부등식에 의해 확률 수렴이 성립한다.

예시: \(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\theta, 1)\)일 때 \(\bar{X}_n \sim N(\theta, 1/n)\)이므로, \(\text{Var}_\theta\, \bar{X}_n = 1/n \to 0\), \(\text{Bias}_\theta\, \bar{X}_n = 0\). 따라서 \(\bar{X}_n\)은 일관 추정량이다.

MLE의 일관성은 다음 정리로 보장된다.

정리 10.1.6: MLE의 일관성 (Consistency of MLEs)

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 연속 함수이면, 정칙 조건(regularity conditions) 하에서

\[ \lim_{n \to \infty} P_\theta(|\tau(\hat{\theta}) - \tau(\theta)| \geq \varepsilon) = 0. \]

즉, \(\tau(\hat{\theta})\)\(\tau(\theta)\)의 일관 추정량이다.

2.2 효율성 (Efficiency)

일관성이 “수렴 여부”를 묻는다면, 효율성은 “수렴 속도(분산)”를 묻는다.

점근 분산(asymptotic variance)은 극한 분산(limiting variance)과 다를 수 있다.

정의 10.1.9: 점근 분산 (Asymptotic Variance)

\(T_n\)에 대해 \(k_n(T_n - \tau(\theta)) \to N(0, \sigma^2)\)이 분포 수렴하면, \(\sigma^2\)\(T_n\)점근 분산(asymptotic variance)이라 한다.

극한 분산 vs 점근 분산

극한 분산(limiting variance): \(\lim_{n \to \infty} k_n \text{Var}\, T_n\)

점근 분산: 극한 분포의 분산 — 항상 극한 분산 이하이다.

예: \(1/\bar{X}_n\)의 극한 분산은 \(\infty\)이지만, 점근 분산은 델타 메서드로 \(\sigma^2/(\mu^4)\)이다. 실무에서는 점근 분산이 더 유용하다.

점근 효율성의 최적 기준은 Cramér-Rao 하한이다.

정의 10.1.11: 점근 효율성 (Asymptotic Efficiency)

\(\sqrt{n}[W_n - \tau(\theta)] \to N[0, v(\theta)]\)이 분포 수렴하고

\[ v(\theta) = \frac{[\tau'(\theta)]^2}{E_\theta\!\left[\left(\frac{\partial}{\partial \theta} \log f(X|\theta)\right)^2\right]} \]

즉, 점근 분산이 Cramér-Rao 하한을 달성하면, \(W_n\)\(\tau(\theta)\)에 대해 점근 효율적(asymptotically efficient)이다.

정리 10.1.12: MLE의 점근 효율성

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} f(x|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 연속 함수이면, 정칙 조건 하에서

\[ \sqrt{n}[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \]

여기서 \(v(\theta)\)는 Cramér-Rao 하한이다. 즉, MLE는 일관되고 점근 효율적이다.

증명 아이디어: 로그 우도 \(l'(\theta|x)\)를 참값 \(\theta_0\) 주변으로 Taylor 전개한다.

\[ \sqrt{n}(\hat{\theta} - \theta_0) = \frac{-\frac{1}{\sqrt{n}} l'(\theta_0|x)}{\frac{1}{n} l''(\theta_0|x)} \]

분자는 CLT에 의해 \(N[0, I(\theta_0)]\)로 수렴하고, 분모는 대수(WLLN)에 의해 \(I(\theta_0)\)로 수렴하여, 전체가 \(N[0, 1/I(\theta_0)] = N[0, v(\theta)]\)가 된다.

2.3 점근 상대 효율 (Asymptotic Relative Efficiency, ARE)

정의 10.1.16: 점근 상대 효율 (ARE)

\(\sqrt{n}[W_n - \tau(\theta)] \to N(0, \sigma_W^2)\), \(\sqrt{n}[V_n - \tau(\theta)] \to N(0, \sigma_V^2)\)이면,

\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]

\(\text{ARE} > 1\)이면 \(V_n\)\(W_n\)보다 효율적이다.

예시: Poisson(\(\lambda\))에서 \(e^{-\lambda}\) 추정 시, 단순 비율 추정량 \(\hat{\tau} = \bar{Y}\) (Y = 0여부 지시함수)의 점근 분산은 \(e^{-\lambda}(1-e^{-\lambda})\)이고, MLE \(e^{-\hat{\lambda}}\)의 점근 분산은 \(\lambda e^{-2\lambda}\)이므로,

\[ \text{ARE}(\hat{\tau}, e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda}-1}. \]

이 값은 \(\lambda=0\)에서 최대 1이고 \(\lambda\)가 커질수록 0으로 수렴한다. 단순 추정량은 \(\lambda\)가 클수록 MLE에 크게 뒤처진다.

2.4 부트스트랩 표준오차 (Bootstrap Standard Errors)

부트스트랩은 분포 가정 없이 분산을 추정하는 일반적 방법이다.

비모수 부트스트랩(nonparametric bootstrap): 원본 데이터 \((x_1, \ldots, x_n)\)에서 복원 추출로 \(B\)개의 재표본을 추출하고, 각 재표본에서 추정량 \(\hat{\theta}_i^*\)를 계산한다.

\[ \text{Var}_B^*(\hat{\theta}) = \frac{1}{B-1} \sum_{i=1}^B (\hat{\theta}_i^* - \bar{\hat{\theta}}^*)^2. \]

모수 부트스트랩(parametric bootstrap): \(\hat{\theta}\) (MLE)로 \(f(x|\hat{\theta})\)에서 실제 난수를 발생시킨다.

부트스트랩 vs 델타 메서드

델타 메서드는 1차 Taylor 전개 기반의 분산 근사이므로 비단조 함수(\(h'(\theta)=0\)인 점)에서 분산을 과소추정한다. 부트스트랩은 2차 정확도(second-order accuracy)를 갖는 경우가 많아 이를 자동 보정한다.


3 §10.2 로버스트성 (Robustness)

점근 효율성의 기준인 MLE는 분포 가정이 맞을 때 최적이다. 그러나 실제 데이터에는 이상치나 분포 이탈이 흔하다. 로버스트성(robustness)은 “분포 가정이 틀렸을 때 얼마나 잘 버티는가”를 다룬다.

3.1 평균 vs 중앙값 (Mean vs Median)

정의 10.2.2: 붕괴점 (Breakdown Value)

추정량의 붕괴점(breakdown value)은 추정량을 “망가뜨리기” 위해 오염시켜야 하는 관측값의 비율이다.

  • 표본평균: 붕괴점 = \(0\) (관측값 하나를 \(\infty\)로 바꾸면 무너진다)
  • 표본중앙값: 붕괴점 = \(50\%\) (최대로 로버스트한 위치 추정량)

그러나 중앙값은 정규분포에서 평균에 비해 효율이 떨어진다.

정규분포에서 중앙값의 점근 분산:

\[ \sqrt{n}(M_n - \theta) \to N\!\left(0, \frac{1}{4[f(\theta)]^2}\right) = N\!\left(0, \frac{\pi}{2} \cdot \sigma^2\right) \approx N(0, 1.571\,\sigma^2). \]

\(\text{ARE}(\text{median}, \text{mean}) = \frac{2}{\pi} \approx 0.637\) — 정규분포에서 중앙값은 평균의 약 64% 효율이다. 그러나 꼬리가 두꺼운 분포(t, 이중지수)에서는 중앙값이 평균을 앞설 수 있다.

3.2 M-추정량 (M-Estimators)

평균(MSE 최소화)과 중앙값(LAD 최소화)의 중간 어딘가를 노리는 일반 프레임워크이다.

M-추정량은 다음 목적함수를 최소화하는 \(\theta\)이다:

\[ \hat{\theta} = \arg\min_\theta \sum_{i=1}^n \rho(X_i - \theta), \]

또는 동치로 다음 방정식의 해이다:

\[ \sum_{i=1}^n \psi(X_i - \theta) = 0, \quad \psi = \rho'. \]

Huber 추정량: \(\rho\)를 다음으로 정의한다.

\[ \rho(u) = \begin{cases} \frac{1}{2}u^2 & |u| \leq k \\ k|u| - \frac{1}{2}k^2 & |u| > k \end{cases} \]

\(k \to \infty\)이면 평균, \(k \to 0\)이면 중앙값에 수렴한다. 매개변수 \(k\)로 효율성과 로버스트성을 조절한다.

M-추정량의 점근 분포는 일반적으로 다음과 같다.

\[ \sqrt{n}(\hat{\theta} - \theta) \to N\!\left(0, \frac{\int \psi^2(x-\theta) f(x)\,dx}{\left[\int \psi'(x-\theta) f(x)\,dx\right]^2}\right). \]


4 §10.3 가설검정 (Hypothesis Testing)

4.1 LRT의 점근 분포

유한 표본에서 LRT 통계량 \(\lambda(x) = \sup_{\theta \in \Theta_0} L(\theta|x) / \sup_{\theta \in \Theta} L(\theta|x)\)의 정확 분포는 일반적으로 구하기 어렵다. 점근 이론을 쓰면 분포를 얻을 수 있다.

정리 10.3.1: 단순 귀무가설에 대한 LRT의 점근 분포

\(H_0: \theta = \theta_0\) 검정에서, \(\theta_0\)가 참일 때

\[ -2\log \lambda(X) \to \chi_1^2 \]

이 분포 수렴한다.

복합 가설의 경우 자유도가 달라진다.

정리 10.3.3: 복합 가설에 대한 LRT의 점근 분포

\(\Theta\)\(q\)차원 공간의 부분집합이고, \(\Theta_0\)\(p\)차원 (\(p < q\))이면, 정칙 조건 하에서 귀무가설이 참일 때

\[ -2\log \lambda(X) \to \chi_{q-p}^2. \]

자유도 = 모수 차원의 차이 = \(q - p\).

예시: 5원 다항분포에서 \(H_0: p_1=p_2=p_3\), \(p_4=p_5\)를 검정할 때 전체 자유도 \(q=4\), 귀무 자유도 \(p=1\)이므로 \(\chi_3^2\)에 비교한다.

실무적 의의

복잡한 모수 공간에서도 자유도 = 차원 차이라는 단순 규칙으로 검정할 수 있다. 이것이 로지스틱 회귀, GLM, 혼합 모형에서 LRT를 광범위하게 쓰는 이유이다.

4.2 대표본 검정 (Other Large-Sample Tests)

\(W_n\)이 점근 정규 추정량이면, 다음 통계량으로 가설검정을 수행할 수 있다.

\[ Z_n = \frac{W_n - \theta_0}{S_n} \to N(0,1), \]

여기서 \(S_n\)\(\sigma_n\)의 일관 추정량이다. 이 검정의 Type I 오류는 점근적으로 \(\alpha\)이다.


5 §10.4 구간추정 (Interval Estimation)

5.1 근사 최대우도 구간

MLE의 점근 효율성(정리 10.1.12)으로부터 바로 신뢰구간을 구성할 수 있다. \(\hat{\theta}\)가 MLE이면, 점근적으로

\[ \sqrt{n}\,[\hat{\theta} - \theta] \to N\!\left[0, \frac{1}{I(\theta)}\right]. \]

이를 이용해 근사 \(1-\alpha\) 신뢰구간을 구성한다:

\[ \hat{\theta} \pm z_{\alpha/2} \frac{1}{\sqrt{n\,I(\hat{\theta})}}, \]

여기서 \(I(\hat{\theta})\)는 관측 정보(observed information), 즉 \(-\frac{1}{n}\frac{\partial^2}{\partial \theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}\)이다.

함수 \(h(\hat{\theta})\)에 대한 구간은 델타 메서드를 적용해 점근 분산을 먼저 구한 후 동일 방식으로 구성한다.

스코어 구간 (Score Interval)

\(H_0: \theta = \theta_0\)에 대한 스코어 검정을 역전(invert)하면 스코어 구간을 얻는다.

\[ \left\{\theta : \left|\frac{l'(\theta|x)}{\sqrt{n\,I(\theta)}}\right| \leq z_{\alpha/2}\right\}. \]

스코어 구간은 Wald 구간보다 소표본에서 피복확률이 안정적인 경우가 많다.


6 장(章) 요약 및 시리즈 연결

핵심 결과
10.1.1 일관성: Var + Bias² → 0 이면 충분. MLE는 일관적
10.1.2 점근 효율성: MLE의 점근 분산 = CRLB (정칙 조건 하)
10.1.3 점근 상대 효율(ARE)로 추정량 비교
10.1.4 부트스트랩: 분포 무관 분산 추정, 비단조 함수에서 델타 메서드 보완
10.2 로버스트성: 붕괴점, Huber 추정량 — 효율성과 로버스트성의 균형
10.3 LRT 점근 분포: \(-2\log\lambda(X) \to \chi^2_\nu\), \(\nu\) = 차원 차이
10.4 근사 ML 구간: MLE ± \(z_{\alpha/2} / \sqrt{n\,I(\hat{\theta})}\)

이후 포스트에서는 각 절을 상세히 다룬다.

7 참고 문헌

  • Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). Chapter 10.

Subscribe

Enjoy this blog? Get notified of new posts by email: