Kwangmin Kim - 점근적 평가 개요 (Asymptotic Evaluations: Overview)

1 개요

지금까지 다룬 기준들(UMVUE, UMP, 최단 구간 등)은 모두 유한 표본(finite-sample) 기준이다. 표본 크기 \(n\)이 고정되었을 때 최적인 추정량을 찾는 것이 목표였다.

점근적 평가(asymptotic evaluations)는 관점을 바꾼다. \(n \to \infty\) 극한에서 추정량이 어떻게 행동하는지를 묻는다.

왜 점근 이론인가?

유한 표본에서 최적 추정량을 찾는 것은 종종 수학적으로 불가능하거나 매우 복잡하다. \(n \to \infty\) 극한에서는 계산이 단순해지고, 분포들이 정규분포로 수렴하며, 이전에는 평가 불가능했던 절차(부트스트랩, M-추정량)까지 분석할 수 있게 된다.

더 중요한 점은, 점근적 성질이 추정 절차의 가장 근본적인 성질을 드러낸다는 것이다. 일관되지 않은 추정량(inconsistent estimator)은 아무리 유한 표본에서 좋아 보여도 신뢰하기 어렵다.

Casella & Berger Ch.10은 네 주제를 순서대로 다룬다.

절	주제	핵심 질문
10.1	점 추정 (Point Estimation)	추정량이 모수로 수렴하는가? 분산이 최적인가?
10.2	로버스트성 (Robustness)	분포 가정이 틀렸을 때 얼마나 견고한가?
10.3	가설검정 (Hypothesis Testing)	대표본에서 LRT 통계량은 어떤 분포를 갖는가?
10.4	구간추정 (Interval Estimation)	대표본 신뢰구간은 어떻게 구성하는가?

2 §10.1 점 추정 (Point Estimation)

2.1 일관성 (Consistency)

정의 10.1.1: 일관성 (Consistency)

추정량 수열 \(W_n = W_n(X_1, \ldots, X_n)\)이 \(\theta\)의 일관 추정량 수열(consistent sequence)이 되려면, 모든 \(\varepsilon > 0\)과 \(\theta \in \Theta\)에 대해

\[ \lim_{n \to \infty} P_\theta(|W_n - \theta| < \varepsilon) = 1 \]

이어야 한다. 동치 표현으로, \(\lim_{n \to \infty} P_\theta(|W_n - \theta| \geq \varepsilon) = 0\)이다.

직관적으로 일관성은 “표본 정보가 무한히 쌓이면 추정량이 참값에 임의로 가까워진다”는 요구이다. 일관성이 없는 추정량은 그 가치를 근본적으로 의심해야 한다.

일관성을 확인하는 실용적 도구는 체비쇼프 부등식(Chebychev’s inequality)이다.

정리 10.1.3: 분산·편향 조건에 의한 일관성

추정량 수열 \(W_n\)이 모든 \(\theta \in \Theta\)에 대해

\(\lim_{n \to \infty} \text{Var}_\theta\, W_n = 0\),
\(\lim_{n \to \infty} \text{Bias}_\theta\, W_n = 0\)

을 만족하면, \(W_n\)은 \(\theta\)의 일관 추정량 수열이다.

근거: MSE = Var + Bias² → 0이면 체비쇼프 부등식에 의해 확률 수렴이 성립한다.

예시: \(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\theta, 1)\)일 때 \(\bar{X}_n \sim N(\theta, 1/n)\)이므로, \(\text{Var}_\theta\, \bar{X}_n = 1/n \to 0\), \(\text{Bias}_\theta\, \bar{X}_n = 0\). 따라서 \(\bar{X}_n\)은 일관 추정량이다.

MLE의 일관성은 다음 정리로 보장된다.

정리 10.1.6: MLE의 일관성 (Consistency of MLEs)

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 연속 함수이면, 정칙 조건(regularity conditions) 하에서

\[ \lim_{n \to \infty} P_\theta(|\tau(\hat{\theta}) - \tau(\theta)| \geq \varepsilon) = 0. \]

즉, \(\tau(\hat{\theta})\)는 \(\tau(\theta)\)의 일관 추정량이다.

2.2 효율성 (Efficiency)

일관성이 “수렴 여부”를 묻는다면, 효율성은 “수렴 속도(분산)”를 묻는다.

점근 분산(asymptotic variance)은 극한 분산(limiting variance)과 다를 수 있다.

정의 10.1.9: 점근 분산 (Asymptotic Variance)

\(T_n\)에 대해 \(k_n(T_n - \tau(\theta)) \to N(0, \sigma^2)\)이 분포 수렴하면, \(\sigma^2\)을 \(T_n\)의 점근 분산(asymptotic variance)이라 한다.

극한 분산 vs 점근 분산

극한 분산(limiting variance): \(\lim_{n \to \infty} k_n \text{Var}\, T_n\)

점근 분산: 극한 분포의 분산 — 항상 극한 분산 이하이다.

예: \(1/\bar{X}_n\)의 극한 분산은 \(\infty\)이지만, 점근 분산은 델타 메서드로 \(\sigma^2/(\mu^4)\)이다. 실무에서는 점근 분산이 더 유용하다.

점근 효율성의 최적 기준은 Cramér-Rao 하한이다.

정의 10.1.11: 점근 효율성 (Asymptotic Efficiency)

\(\sqrt{n}[W_n - \tau(\theta)] \to N[0, v(\theta)]\)이 분포 수렴하고

\[ v(\theta) = \frac{[\tau'(\theta)]^2}{E_\theta\!\left[\left(\frac{\partial}{\partial \theta} \log f(X|\theta)\right)^2\right]} \]

즉, 점근 분산이 Cramér-Rao 하한을 달성하면, \(W_n\)은 \(\tau(\theta)\)에 대해 점근 효율적(asymptotically efficient)이다.

정리 10.1.12: MLE의 점근 효율성

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} f(x|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 연속 함수이면, 정칙 조건 하에서

\[ \sqrt{n}[\tau(\hat{\theta}) - \tau(\theta)] \to N[0, v(\theta)], \]

여기서 \(v(\theta)\)는 Cramér-Rao 하한이다. 즉, MLE는 일관되고 점근 효율적이다.

증명 아이디어: 로그 우도 \(l'(\theta|x)\)를 참값 \(\theta_0\) 주변으로 Taylor 전개한다.

\[ \sqrt{n}(\hat{\theta} - \theta_0) = \frac{-\frac{1}{\sqrt{n}} l'(\theta_0|x)}{\frac{1}{n} l''(\theta_0|x)} \]

분자는 CLT에 의해 \(N[0, I(\theta_0)]\)로 수렴하고, 분모는 대수(WLLN)에 의해 \(I(\theta_0)\)로 수렴하여, 전체가 \(N[0, 1/I(\theta_0)] = N[0, v(\theta)]\)가 된다.

2.3 점근 상대 효율 (Asymptotic Relative Efficiency, ARE)

정의 10.1.16: 점근 상대 효율 (ARE)

\(\sqrt{n}[W_n - \tau(\theta)] \to N(0, \sigma_W^2)\), \(\sqrt{n}[V_n - \tau(\theta)] \to N(0, \sigma_V^2)\)이면,

\[ \text{ARE}(V_n, W_n) = \frac{\sigma_W^2}{\sigma_V^2}. \]

\(\text{ARE} > 1\)이면 \(V_n\)이 \(W_n\)보다 효율적이다.

예시: Poisson(\(\lambda\))에서 \(e^{-\lambda}\) 추정 시, 단순 비율 추정량 \(\hat{\tau} = \bar{Y}\) (Y = 0여부 지시함수)의 점근 분산은 \(e^{-\lambda}(1-e^{-\lambda})\)이고, MLE \(e^{-\hat{\lambda}}\)의 점근 분산은 \(\lambda e^{-2\lambda}\)이므로,

\[ \text{ARE}(\hat{\tau}, e^{-\hat{\lambda}}) = \frac{\lambda e^{-2\lambda}}{e^{-\lambda}(1-e^{-\lambda})} = \frac{\lambda}{e^{\lambda}-1}. \]

이 값은 \(\lambda=0\)에서 최대 1이고 \(\lambda\)가 커질수록 0으로 수렴한다. 단순 추정량은 \(\lambda\)가 클수록 MLE에 크게 뒤처진다.

2.4 부트스트랩 표준오차 (Bootstrap Standard Errors)

부트스트랩은 분포 가정 없이 분산을 추정하는 일반적 방법이다.

비모수 부트스트랩(nonparametric bootstrap): 원본 데이터 \((x_1, \ldots, x_n)\)에서 복원 추출로 \(B\)개의 재표본을 추출하고, 각 재표본에서 추정량 \(\hat{\theta}_i^*\)를 계산한다.

\[ \text{Var}_B^*(\hat{\theta}) = \frac{1}{B-1} \sum_{i=1}^B (\hat{\theta}_i^* - \bar{\hat{\theta}}^*)^2. \]

모수 부트스트랩(parametric bootstrap): \(\hat{\theta}\) (MLE)로 \(f(x|\hat{\theta})\)에서 실제 난수를 발생시킨다.

부트스트랩 vs 델타 메서드

델타 메서드는 1차 Taylor 전개 기반의 분산 근사이므로 비단조 함수(\(h'(\theta)=0\)인 점)에서 분산을 과소추정한다. 부트스트랩은 2차 정확도(second-order accuracy)를 갖는 경우가 많아 이를 자동 보정한다.

3 §10.2 로버스트성 (Robustness)

점근 효율성의 기준인 MLE는 분포 가정이 맞을 때 최적이다. 그러나 실제 데이터에는 이상치나 분포 이탈이 흔하다. 로버스트성(robustness)은 “분포 가정이 틀렸을 때 얼마나 잘 버티는가”를 다룬다.

3.1 평균 vs 중앙값 (Mean vs Median)

정의 10.2.2: 붕괴점 (Breakdown Value)

추정량의 붕괴점(breakdown value)은 추정량을 “망가뜨리기” 위해 오염시켜야 하는 관측값의 비율이다.

표본평균: 붕괴점 = \(0\) (관측값 하나를 \(\infty\)로 바꾸면 무너진다)
표본중앙값: 붕괴점 = \(50\%\) (최대로 로버스트한 위치 추정량)

그러나 중앙값은 정규분포에서 평균에 비해 효율이 떨어진다.

정규분포에서 중앙값의 점근 분산:

\[ \sqrt{n}(M_n - \theta) \to N\!\left(0, \frac{1}{4[f(\theta)]^2}\right) = N\!\left(0, \frac{\pi}{2} \cdot \sigma^2\right) \approx N(0, 1.571\,\sigma^2). \]

\(\text{ARE}(\text{median}, \text{mean}) = \frac{2}{\pi} \approx 0.637\) — 정규분포에서 중앙값은 평균의 약 64% 효율이다. 그러나 꼬리가 두꺼운 분포(t, 이중지수)에서는 중앙값이 평균을 앞설 수 있다.

3.2 M-추정량 (M-Estimators)

평균(MSE 최소화)과 중앙값(LAD 최소화)의 중간 어딘가를 노리는 일반 프레임워크이다.

M-추정량은 다음 목적함수를 최소화하는 \(\theta\)이다:

\[ \hat{\theta} = \arg\min_\theta \sum_{i=1}^n \rho(X_i - \theta), \]

또는 동치로 다음 방정식의 해이다:

\[ \sum_{i=1}^n \psi(X_i - \theta) = 0, \quad \psi = \rho'. \]

Huber 추정량: \(\rho\)를 다음으로 정의한다.

\[ \rho(u) = \begin{cases} \frac{1}{2}u^2 & |u| \leq k \\ k|u| - \frac{1}{2}k^2 & |u| > k \end{cases} \]

\(k \to \infty\)이면 평균, \(k \to 0\)이면 중앙값에 수렴한다. 매개변수 \(k\)로 효율성과 로버스트성을 조절한다.

M-추정량의 점근 분포는 일반적으로 다음과 같다.

\[ \sqrt{n}(\hat{\theta} - \theta) \to N\!\left(0, \frac{\int \psi^2(x-\theta) f(x)\,dx}{\left[\int \psi'(x-\theta) f(x)\,dx\right]^2}\right). \]

4 §10.3 가설검정 (Hypothesis Testing)

4.1 LRT의 점근 분포

유한 표본에서 LRT 통계량 \(\lambda(x) = \sup_{\theta \in \Theta_0} L(\theta|x) / \sup_{\theta \in \Theta} L(\theta|x)\)의 정확 분포는 일반적으로 구하기 어렵다. 점근 이론을 쓰면 분포를 얻을 수 있다.

정리 10.3.1: 단순 귀무가설에 대한 LRT의 점근 분포

\(H_0: \theta = \theta_0\) 검정에서, \(\theta_0\)가 참일 때

\[ -2\log \lambda(X) \to \chi_1^2 \]

이 분포 수렴한다.

복합 가설의 경우 자유도가 달라진다.

정리 10.3.3: 복합 가설에 대한 LRT의 점근 분포

\(\Theta\)가 \(q\)차원 공간의 부분집합이고, \(\Theta_0\)가 \(p\)차원 (\(p < q\))이면, 정칙 조건 하에서 귀무가설이 참일 때

\[ -2\log \lambda(X) \to \chi_{q-p}^2. \]

자유도 = 모수 차원의 차이 = \(q - p\).

예시: 5원 다항분포에서 \(H_0: p_1=p_2=p_3\), \(p_4=p_5\)를 검정할 때 전체 자유도 \(q=4\), 귀무 자유도 \(p=1\)이므로 \(\chi_3^2\)에 비교한다.

실무적 의의

복잡한 모수 공간에서도 자유도 = 차원 차이라는 단순 규칙으로 검정할 수 있다. 이것이 로지스틱 회귀, GLM, 혼합 모형에서 LRT를 광범위하게 쓰는 이유이다.

4.2 대표본 검정 (Other Large-Sample Tests)

\(W_n\)이 점근 정규 추정량이면, 다음 통계량으로 가설검정을 수행할 수 있다.

\[ Z_n = \frac{W_n - \theta_0}{S_n} \to N(0,1), \]

여기서 \(S_n\)은 \(\sigma_n\)의 일관 추정량이다. 이 검정의 Type I 오류는 점근적으로 \(\alpha\)이다.

5 §10.4 구간추정 (Interval Estimation)

5.1 근사 최대우도 구간

MLE의 점근 효율성(정리 10.1.12)으로부터 바로 신뢰구간을 구성할 수 있다. \(\hat{\theta}\)가 MLE이면, 점근적으로

\[ \sqrt{n}\,[\hat{\theta} - \theta] \to N\!\left[0, \frac{1}{I(\theta)}\right]. \]

이를 이용해 근사 \(1-\alpha\) 신뢰구간을 구성한다:

\[ \hat{\theta} \pm z_{\alpha/2} \frac{1}{\sqrt{n\,I(\hat{\theta})}}, \]

여기서 \(I(\hat{\theta})\)는 관측 정보(observed information), 즉 \(-\frac{1}{n}\frac{\partial^2}{\partial \theta^2}\log L(\theta|x)\big|_{\theta=\hat{\theta}}\)이다.

함수 \(h(\hat{\theta})\)에 대한 구간은 델타 메서드를 적용해 점근 분산을 먼저 구한 후 동일 방식으로 구성한다.

스코어 구간 (Score Interval)

\(H_0: \theta = \theta_0\)에 대한 스코어 검정을 역전(invert)하면 스코어 구간을 얻는다.

\[ \left\{\theta : \left|\frac{l'(\theta|x)}{\sqrt{n\,I(\theta)}}\right| \leq z_{\alpha/2}\right\}. \]

스코어 구간은 Wald 구간보다 소표본에서 피복확률이 안정적인 경우가 많다.

6 장(章) 요약 및 시리즈 연결

절	핵심 결과
10.1.1	일관성: Var + Bias² → 0 이면 충분. MLE는 일관적
10.1.2	점근 효율성: MLE의 점근 분산 = CRLB (정칙 조건 하)
10.1.3	점근 상대 효율(ARE)로 추정량 비교
10.1.4	부트스트랩: 분포 무관 분산 추정, 비단조 함수에서 델타 메서드 보완
10.2	로버스트성: 붕괴점, Huber 추정량 — 효율성과 로버스트성의 균형
10.3	LRT 점근 분포: \(-2\log\lambda(X) \to \chi^2_\nu\), \(\nu\) = 차원 차이
10.4	근사 ML 구간: MLE ± \(z_{\alpha/2} / \sqrt{n\,I(\hat{\theta})}\)

이후 포스트에서는 각 절을 상세히 다룬다.

7 참고 문헌

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). Chapter 10.