Kwangmin Kim - 점근적 점추정: 일관성 (Asymptotic Point Estimation: Consistency)

1 동기: 왜 일관성인가?

유한 표본에서 UMVUE나 Bayes 추정량 등 다양한 최적성 기준을 공부했다. 그러나 더 근본적인 질문이 있다: “표본이 충분히 많아지면, 추정량은 결국 맞는 값에 가까워지는가?”

이 질문에 “아니오”라고 대답하는 추정량은 표본이 아무리 많아져도 참값을 빗나간다. 그런 추정량을 믿기 어렵다.

일관성의 직관

동전 앞면 확률 \(p\)를 추정한다고 하자. \(n\)번 던졌을 때 앞면 비율 \(\hat{p}_n = \bar{X}_n\)은 \(n\)이 커질수록 \(p\)에 가까워진다. 이것이 일관성(consistency)이다.

반면 항상 \(1/2\)를 반환하는 추정량은 \(p = 1/2\)가 아닌 경우 틀린 값에서 영원히 머문다.

2 정의

일관성은 단일 추정량이 아닌 추정량 수열(sequence of estimators)에 대한 개념이다. \(X_1, X_2, \ldots\)를 관측하면 각 표본 크기 \(n\)마다 추정량 \(W_n = W_n(X_1, \ldots, X_n)\)이 정의된다.

예: \(\bar{X}_1 = X_1\), \(\bar{X}_2 = (X_1+X_2)/2\), \(\bar{X}_3 = (X_1+X_2+X_3)/3\), …

정의 10.1.1: 일관 추정량 수열 (Consistent Sequence of Estimators)

추정량 수열 \(W_n = W_n(X_1, \ldots, X_n)\)이 \(\theta\)의 일관 추정량 수열이 되려면, 모든 \(\varepsilon > 0\)과 모든 \(\theta \in \Theta\)에 대해

\[ \lim_{n \to \infty} P_\theta(|W_n - \theta| < \varepsilon) = 1. \tag{10.1.1} \]

동치 표현:

\[ \lim_{n \to \infty} P_\theta(|W_n - \theta| \geq \varepsilon) = 0. \tag{10.1.2} \]

해석: “\(n\)이 커질수록, \(W_n\)이 \(\theta\)에서 \(\varepsilon\) 이내에 있을 확률이 1에 수렴한다.” 달리 말해, 일관 추정량이 참값을 \(\varepsilon\)보다 더 많이 빗나갈 확률은 결국 0이 된다.

2.1 확률 수렴과의 관계

정의 10.1.1은 수학적으로 Definition 5.5.1의 확률 수렴(convergence in probability)과 동일한 구조를 갖는다. 차이점은 관점의 차이이다.

	확률 수렴 (Def 5.5.1)	일관성 (Def 10.1.1)
확률 구조	하나 고정	\(\theta\)마다 다른 구조
목표	확률변수가 상수에 수렴	통계량이 참 모수에 수렴

일관성은 “\(\theta \in \Theta\) 전체에 대해 각각의 확률 구조에서 수렴이 성립한다”는 더 강한 요구이다.

3 일관성 확인: 직접 계산

예제 10.1.2: \(\bar{X}_n\)의 일관성 (직접 계산)

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\theta, 1)\)이면 \(\bar{X}_n \sim N(\theta, 1/n)\)이다.

\[ P_\theta(|\bar{X}_n - \theta| < \varepsilon) = \int_{\theta-\varepsilon}^{\theta+\varepsilon} \left(\frac{n}{2\pi}\right)^{1/2} e^{-(n/2)(\bar{x}_n - \theta)^2} d\bar{x}_n \]

\(y = \bar{x}_n - \theta\)로 치환하면,

\[ = \int_{-\varepsilon}^{\varepsilon} \left(\frac{n}{2\pi}\right)^{1/2} e^{-(n/2)y^2} dy. \]

\(t = y\sqrt{n}\)으로 치환하면,

\[ = \int_{-\varepsilon\sqrt{n}}^{\varepsilon\sqrt{n}} \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt = P(-\varepsilon\sqrt{n} < Z < \varepsilon\sqrt{n}) \to 1 \quad (n \to \infty). \]

따라서 \(\bar{X}_n\)은 \(\theta\)의 일관 추정량 수열이다.

이 계산은 \(N(\theta,1)\)의 특수 구조를 이용했다. 일반적인 경우 이런 적분 계산은 불가능하거나 매우 복잡하다. 더 실용적인 충분조건이 필요하다.

4 일관성의 충분조건: Var + Bias → 0

체비쇼프 부등식(Chebychev’s inequality)을 이용하면 일관성의 유용한 충분조건을 얻는다.

추정량 \(W_n\)에 대해

\[ P_\theta(|W_n - \theta| \geq \varepsilon) \leq \frac{E_\theta[(W_n - \theta)^2]}{\varepsilon^2} = \frac{\text{MSE}(\theta, W_n)}{\varepsilon^2}. \]

그런데 \(\text{MSE} = \text{Var}_\theta\, W_n + [\text{Bias}_\theta\, W_n]^2\) (분산-편향 분해)이므로, MSE → 0이면 위 부등식의 우변이 0으로 수렴하여 일관성이 성립한다.

정리 10.1.3: 분산-편향 기반 일관성 충분조건

추정량 수열 \(W_n\)이 모든 \(\theta \in \Theta\)에 대해

\[ \text{(i)}\quad \lim_{n \to \infty} \text{Var}_\theta\, W_n = 0, \qquad \text{(ii)}\quad \lim_{n \to \infty} \text{Bias}_\theta\, W_n = 0 \]

를 만족하면, \(W_n\)은 \(\theta\)의 일관 추정량 수열이다.

예제 10.1.4: 정리 10.1.3으로 \(\bar{X}_n\) 일관성 재확인

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\theta, 1)\)에서

\[ E_\theta[\bar{X}_n] = \theta \implies \text{Bias}_\theta\, \bar{X}_n = 0, \qquad \text{Var}_\theta\, \bar{X}_n = \frac{1}{n} \to 0. \]

정리 10.1.3의 두 조건이 모두 만족되므로, \(\bar{X}_n\)은 일관 추정량이다.

더 일반적으로, 유한 분산 \(\sigma^2\)을 갖는 임의 모집단에서 iid 표본을 추출하면 \(\bar{X}_n\)은 \(E[X] = \theta\)의 일관 추정량이다 (대수의 법칙, Thm 5.2.6).

정리 10.1.3 활용법 정리

불편 추정량(\(\text{Bias}=0\))은 분산이 0으로 수렴하기만 하면 일관 추정량이다. 편향이 있어도 분산과 편향이 둘 다 0으로 수렴하면 일관 추정량이다.

이 조건은 충분조건이지, 필요조건은 아니다. 분산이 0으로 수렴하지 않아도 일관 추정량인 경우가 있다.

5 일관성의 안정성: 선형변환

일관 추정량이 얼마나 풍부하게 존재하는지 보여주는 결과이다.

정리 10.1.5: 선형변환 아래 일관성 보존

\(W_n\)이 \(\theta\)의 일관 추정량 수열이고, 상수 수열 \(a_1, a_2, \ldots\) 와 \(b_1, b_2, \ldots\)가

\[ \lim_{n \to \infty} a_n = 1, \qquad \lim_{n \to \infty} b_n = 0 \]

을 만족하면, \(U_n = a_n W_n + b_n\)도 \(\theta\)의 일관 추정량 수열이다.

예시: \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\)은 \(\sigma^2\)의 불편 추정량이다. \(W_n = S^2\), \(a_n = (n-1)/n \to 1\), \(b_n = 0\)으로 놓으면 \(U_n = \frac{1}{n}\sum(X_i - \bar{X})^2\)도 \(\sigma^2\)의 일관 추정량임을 알 수 있다.

6 MLE의 일관성

추정량 중에서 MLE는 “일관성을 보장받는” 특별한 지위를 갖는다. 이것이 MLE의 첫 번째 최적성 보장이다.

정리 10.1.6: MLE의 일관성 (Consistency of MLEs)

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)\), \(L(\theta|x) = \prod_{i=1}^n f(x_i|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 \(\theta\)의 연속 함수이면, 아래의 정칙 조건 (A1)~(A4) 하에서

\[ \lim_{n \to \infty} P_\theta(|\tau(\hat{\theta}) - \tau(\theta)| \geq \varepsilon) = 0. \]

즉, \(\tau(\hat{\theta})\)는 \(\tau(\theta)\)의 일관 추정량이다.

증명 스케치: \(\frac{1}{n}\log L(\hat{\theta}|x)\)가 거의 확실하게(almost surely) \(E_\theta[\log f(X|\theta)]\)로 수렴함을 보인다. 이는 Kullback-Leibler 발산이 참값 \(\theta\)에서 최소화된다는 사실과 결합되어 \(\hat{\theta} \to \theta\) (확률 수렴)를 함의한다.

6.1 정칙 조건 (Regularity Conditions)

정리 10.1.6의 정칙 조건은 다음과 같다 (Miscellanea 10.6.2).

정칙 조건 (A1)~(A4): MLE 일관성의 충분조건

(A1) iid 표본: \(X_1, \ldots, X_n \overset{\text{iid}}{\sim} f(x|\theta)\).

(A2) 식별가능성(Identifiability): \(\theta \neq \theta'\)이면 \(f(x|\theta) \neq f(x|\theta')\).

(A3) 공통 지지와 미분가능성: 분포들의 지지(support)가 공통이고, \(f(x|\theta)\)가 \(\theta\)에 대해 미분가능하다.

(A4) 내점 조건: 모수 공간 \(\Omega\)가 열린 집합 \(\omega\)를 포함하며, 참 모수 \(\theta_0\)가 \(\omega\)의 내점(interior point)이다.

정칙 조건이 위반되는 경우

(A2) 위반: \(U(0, \theta)\) vs \(U(0, 2\theta)\)처럼 두 분포족이 같은 분포를 생성하면 MLE가 \(\theta\)를 식별할 수 없다.
(A3) 위반: \(U(0, \theta)\)처럼 지지가 \(\theta\)에 의존하면 일반 MLE 이론이 적용되지 않는다. 이 경우 MLE는 \(X_{(n)}\)이 되며, 정칙 조건 없이도 일관성을 별도 증명할 수 있다.
(A4) 위반: 참 모수가 경계에 있으면 Taylor 전개 기반 점근 이론이 무너진다.

7 점근 정규성 → 일관성

점근 효율성 증명 후 나오는 보조 결과이지만, 일관성과의 연결로 중요하다.

예제 10.1.13: 점근 정규성 \(\implies\) 일관성

\(W_n\)이 \(\mu\)에 점근 정규하다고 하자. 즉,

\[ \sqrt{n}\,\frac{W_n - \mu}{\sigma} \to Z \sim N(0,1). \]

그러면 Slutsky 정리(Thm 5.5.17)에 의해

\[ W_n - \mu = \underbrace{\left(\frac{\sigma}{\sqrt{n}}\right)}_{\to\, 0} \cdot \underbrace{\left(\sqrt{n}\,\frac{W_n-\mu}{\sigma}\right)}_{\to\, Z} \to 0 \quad \text{(분포 수렴)}. \]

상수로의 분포 수렴은 확률 수렴과 동치(Thm 5.5.13)이므로,

\[ W_n \overset{P}{\to} \mu, \]

즉 \(W_n\)은 일관 추정량이다.

이 결과는 §10.1.2에서 MLE의 점근 효율성을 증명하면, 자동으로 일관성도 따라온다는 뜻이다. 즉, “일관되고 점근 효율적인 MLE”라는 표현은 다소 중복적이다 — 효율성이 일관성을 내포한다.

8 비일관 추정량의 예시

일관성이 “자연스러운” 성질처럼 보이지만, 상식적으로 보이는 추정량도 일관성을 잃을 수 있다.

예시: 불일관 추정량

\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\)에서 \(\sigma^2\)을 추정하고자 한다.

\[ T_n = \frac{1}{n^2}\sum_{i=1}^n (X_i - \bar{X})^2 \]

\(E_\mu[T_n] = \frac{(n-1)\sigma^2}{n^2} \to 0\)으로 수렴한다. \(T_n\)은 항상 0으로 수렴하므로 \(\sigma^2 \neq 0\)이면 일관 추정량이 아니다.

이는 정리 10.1.3에서 편향이 \(\sigma^2\)으로 유지(→ 0 아님)하기 때문이다.

9 시뮬레이션: 일관성 시각화

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)

# 모수 설정
theta = 2.5          # 참 평균
sigma = 1.0          # 분산 = 1
n_values = [5, 20, 100, 500, 2000]
B = 5000             # 반복 횟수

fig, axes = plt.subplots(1, len(n_values), figsize=(15, 4), sharey=True)

for ax, n in zip(axes, n_values):
    # n개 표본의 표본평균 B번 반복
    samples = np.random.normal(theta, sigma, size=(B, n))
    xbars = samples.mean(axis=1)

    ax.hist(xbars, bins=50, density=True, alpha=0.7, color="steelblue")
    ax.axvline(theta, color="red", linewidth=2, label=f"θ={theta}")
    ax.set_title(f"n = {n}\nVar = {xbars.var():.4f}")
    ax.set_xlabel("$\\bar{X}_n$")
    if ax == axes[0]:
        ax.set_ylabel("밀도")

fig.suptitle("$\\bar{X}_n$의 일관성: n이 커질수록 분포가 θ에 집중됨", y=1.02)
plt.tight_layout()
plt.show()
# n이 커질수록 분포가 점점 좁아지며 θ=2.5에 집중 → 일관성 시각화

# 일관성 정량 확인: P(|X̄_n - θ| ≥ ε) 가 n과 함께 감소하는지 확인
epsilon = 0.2
n_range = np.logspace(1, 4, 50, dtype=int)
probs = []

for n in n_range:
    samples = np.random.normal(theta, sigma, size=(B, n))
    xbars = samples.mean(axis=1)
    probs.append(np.mean(np.abs(xbars - theta) >= epsilon))

plt.figure(figsize=(8, 4))
plt.plot(n_range, probs, "o-", color="steelblue")
plt.axhline(0, color="red", linestyle="--")
plt.xscale("log")
plt.xlabel("표본 크기 n (log scale)")
plt.ylabel(f"P(|$\\bar{{X}}_n$ - θ| ≥ {epsilon})")
plt.title("일관성 확인: 이 확률이 0으로 수렴해야 한다")
plt.grid(True)
plt.show()
# 이론값: P = P(|Z| ≥ ε√n) → 0 (Z ~ N(0,1))

# Bernoulli 분포에서 표본비율의 일관성
p_true = 0.3
n_range = [10, 50, 200, 1000]

print(f"참 모수 p = {p_true}")
print(f"{'n':>6}  {'MSE':>10}  {'Var':>10}  {'Bias²':>10}")
for n in n_range:
    samples = np.random.binomial(1, p_true, size=(B, n))
    phat = samples.mean(axis=1)
    mse = np.mean((phat - p_true)**2)
    var = np.var(phat)
    bias2 = (np.mean(phat) - p_true)**2
    print(f"{n:>6}  {mse:>10.6f}  {var:>10.6f}  {bias2:>10.6f}")
# MSE = Var + Bias² → 둘 다 0으로 수렴 → 정리 10.1.3 수치 확인

10 일관성 관련 핵심 정리 요약

결과	내용	조건
Def 10.1.1	\(P_\theta(\\|W_n - \theta\\| < \varepsilon) \to 1\)	정의
Thm 10.1.3	\(\text{Var} \to 0\), \(\text{Bias} \to 0 \implies\) 일관성	충분조건
Thm 10.1.5	\(a_n \to 1\), \(b_n \to 0 \implies a_n W_n + b_n\) 도 일관	선형 안정성
Thm 10.1.6	MLE는 일관적	정칙 조건 (A1)~(A4)
Ex 10.1.13	점근 정규성 \(\implies\) 일관성	Slutsky 정리

면접 방어 포인트

“왜 일관성이 중요한가?” — 표본이 충분하면 맞는 값을 내놓아야 한다는 최소한의 요구. 일관성이 없으면 어떤 이론적 정당화도 흔들린다.
“일관성 = MSE → 0인가?” — 아니다. MSE → 0은 충분조건일 뿐이다. 편향이 있어도 일관 추정량이 될 수 있다 (예: James-Stein 추정량).
“점근 정규성과 일관성의 관계?” — 점근 정규성이 일관성을 함의한다 (Ex 10.1.13). 역은 성립하지 않는다.
“MLE가 항상 일관적인가?” — 정칙 조건 위반 시 그렇지 않을 수 있다. 지지가 모수에 의존하거나(\(U(0,\theta)\)), 참 모수가 경계에 있으면 별도 분석이 필요하다.

11 다음 포스트

점근 효율성 (Asymptotic Efficiency) — 수렴 속도(분산) 최적화, Cramér-Rao 하한, MLE의 점근 효율성

12 참고 문헌

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.1, pp. 468–471.