1 동기: 왜 일관성인가?
유한 표본에서 UMVUE나 Bayes 추정량 등 다양한 최적성 기준을 공부했다. 그러나 더 근본적인 질문이 있다: “표본이 충분히 많아지면, 추정량은 결국 맞는 값에 가까워지는가?”
이 질문에 “아니오”라고 대답하는 추정량은 표본이 아무리 많아져도 참값을 빗나간다. 그런 추정량을 믿기 어렵다.
동전 앞면 확률 \(p\)를 추정한다고 하자. \(n\)번 던졌을 때 앞면 비율 \(\hat{p}_n = \bar{X}_n\)은 \(n\)이 커질수록 \(p\)에 가까워진다. 이것이 일관성(consistency)이다.
반면 항상 \(1/2\)를 반환하는 추정량은 \(p = 1/2\)가 아닌 경우 틀린 값에서 영원히 머문다.
2 정의
일관성은 단일 추정량이 아닌 추정량 수열(sequence of estimators)에 대한 개념이다. \(X_1, X_2, \ldots\)를 관측하면 각 표본 크기 \(n\)마다 추정량 \(W_n = W_n(X_1, \ldots, X_n)\)이 정의된다.
예: \(\bar{X}_1 = X_1\), \(\bar{X}_2 = (X_1+X_2)/2\), \(\bar{X}_3 = (X_1+X_2+X_3)/3\), …
추정량 수열 \(W_n = W_n(X_1, \ldots, X_n)\)이 \(\theta\)의 일관 추정량 수열이 되려면, 모든 \(\varepsilon > 0\)과 모든 \(\theta \in \Theta\)에 대해
\[ \lim_{n \to \infty} P_\theta(|W_n - \theta| < \varepsilon) = 1. \tag{10.1.1} \]
동치 표현:
\[ \lim_{n \to \infty} P_\theta(|W_n - \theta| \geq \varepsilon) = 0. \tag{10.1.2} \]
해석: “\(n\)이 커질수록, \(W_n\)이 \(\theta\)에서 \(\varepsilon\) 이내에 있을 확률이 1에 수렴한다.” 달리 말해, 일관 추정량이 참값을 \(\varepsilon\)보다 더 많이 빗나갈 확률은 결국 0이 된다.
2.1 확률 수렴과의 관계
정의 10.1.1은 수학적으로 Definition 5.5.1의 확률 수렴(convergence in probability)과 동일한 구조를 갖는다. 차이점은 관점의 차이이다.
| 확률 수렴 (Def 5.5.1) | 일관성 (Def 10.1.1) | |
|---|---|---|
| 확률 구조 | 하나 고정 | \(\theta\)마다 다른 구조 |
| 목표 | 확률변수가 상수에 수렴 | 통계량이 참 모수에 수렴 |
일관성은 “\(\theta \in \Theta\) 전체에 대해 각각의 확률 구조에서 수렴이 성립한다”는 더 강한 요구이다.
3 일관성 확인: 직접 계산
\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\theta, 1)\)이면 \(\bar{X}_n \sim N(\theta, 1/n)\)이다.
\[ P_\theta(|\bar{X}_n - \theta| < \varepsilon) = \int_{\theta-\varepsilon}^{\theta+\varepsilon} \left(\frac{n}{2\pi}\right)^{1/2} e^{-(n/2)(\bar{x}_n - \theta)^2} d\bar{x}_n \]
\(y = \bar{x}_n - \theta\)로 치환하면,
\[ = \int_{-\varepsilon}^{\varepsilon} \left(\frac{n}{2\pi}\right)^{1/2} e^{-(n/2)y^2} dy. \]
\(t = y\sqrt{n}\)으로 치환하면,
\[ = \int_{-\varepsilon\sqrt{n}}^{\varepsilon\sqrt{n}} \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt = P(-\varepsilon\sqrt{n} < Z < \varepsilon\sqrt{n}) \to 1 \quad (n \to \infty). \]
따라서 \(\bar{X}_n\)은 \(\theta\)의 일관 추정량 수열이다.
이 계산은 \(N(\theta,1)\)의 특수 구조를 이용했다. 일반적인 경우 이런 적분 계산은 불가능하거나 매우 복잡하다. 더 실용적인 충분조건이 필요하다.
4 일관성의 충분조건: Var + Bias → 0
체비쇼프 부등식(Chebychev’s inequality)을 이용하면 일관성의 유용한 충분조건을 얻는다.
추정량 \(W_n\)에 대해
\[ P_\theta(|W_n - \theta| \geq \varepsilon) \leq \frac{E_\theta[(W_n - \theta)^2]}{\varepsilon^2} = \frac{\text{MSE}(\theta, W_n)}{\varepsilon^2}. \]
그런데 \(\text{MSE} = \text{Var}_\theta\, W_n + [\text{Bias}_\theta\, W_n]^2\) (분산-편향 분해)이므로, MSE → 0이면 위 부등식의 우변이 0으로 수렴하여 일관성이 성립한다.
추정량 수열 \(W_n\)이 모든 \(\theta \in \Theta\)에 대해
\[ \text{(i)}\quad \lim_{n \to \infty} \text{Var}_\theta\, W_n = 0, \qquad \text{(ii)}\quad \lim_{n \to \infty} \text{Bias}_\theta\, W_n = 0 \]
를 만족하면, \(W_n\)은 \(\theta\)의 일관 추정량 수열이다.
\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\theta, 1)\)에서
\[ E_\theta[\bar{X}_n] = \theta \implies \text{Bias}_\theta\, \bar{X}_n = 0, \qquad \text{Var}_\theta\, \bar{X}_n = \frac{1}{n} \to 0. \]
정리 10.1.3의 두 조건이 모두 만족되므로, \(\bar{X}_n\)은 일관 추정량이다.
더 일반적으로, 유한 분산 \(\sigma^2\)을 갖는 임의 모집단에서 iid 표본을 추출하면 \(\bar{X}_n\)은 \(E[X] = \theta\)의 일관 추정량이다 (대수의 법칙, Thm 5.2.6).
불편 추정량(\(\text{Bias}=0\))은 분산이 0으로 수렴하기만 하면 일관 추정량이다. 편향이 있어도 분산과 편향이 둘 다 0으로 수렴하면 일관 추정량이다.
이 조건은 충분조건이지, 필요조건은 아니다. 분산이 0으로 수렴하지 않아도 일관 추정량인 경우가 있다.
5 일관성의 안정성: 선형변환
일관 추정량이 얼마나 풍부하게 존재하는지 보여주는 결과이다.
\(W_n\)이 \(\theta\)의 일관 추정량 수열이고, 상수 수열 \(a_1, a_2, \ldots\) 와 \(b_1, b_2, \ldots\)가
\[ \lim_{n \to \infty} a_n = 1, \qquad \lim_{n \to \infty} b_n = 0 \]
을 만족하면, \(U_n = a_n W_n + b_n\)도 \(\theta\)의 일관 추정량 수열이다.
예시: \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\)은 \(\sigma^2\)의 불편 추정량이다. \(W_n = S^2\), \(a_n = (n-1)/n \to 1\), \(b_n = 0\)으로 놓으면 \(U_n = \frac{1}{n}\sum(X_i - \bar{X})^2\)도 \(\sigma^2\)의 일관 추정량임을 알 수 있다.
6 MLE의 일관성
추정량 중에서 MLE는 “일관성을 보장받는” 특별한 지위를 갖는다. 이것이 MLE의 첫 번째 최적성 보장이다.
\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} f(x|\theta)\), \(L(\theta|x) = \prod_{i=1}^n f(x_i|\theta)\), \(\hat{\theta}\)이 MLE, \(\tau(\theta)\)가 \(\theta\)의 연속 함수이면, 아래의 정칙 조건 (A1)~(A4) 하에서
\[ \lim_{n \to \infty} P_\theta(|\tau(\hat{\theta}) - \tau(\theta)| \geq \varepsilon) = 0. \]
즉, \(\tau(\hat{\theta})\)는 \(\tau(\theta)\)의 일관 추정량이다.
증명 스케치: \(\frac{1}{n}\log L(\hat{\theta}|x)\)가 거의 확실하게(almost surely) \(E_\theta[\log f(X|\theta)]\)로 수렴함을 보인다. 이는 Kullback-Leibler 발산이 참값 \(\theta\)에서 최소화된다는 사실과 결합되어 \(\hat{\theta} \to \theta\) (확률 수렴)를 함의한다.
6.1 정칙 조건 (Regularity Conditions)
정리 10.1.6의 정칙 조건은 다음과 같다 (Miscellanea 10.6.2).
(A1) iid 표본: \(X_1, \ldots, X_n \overset{\text{iid}}{\sim} f(x|\theta)\).
(A2) 식별가능성(Identifiability): \(\theta \neq \theta'\)이면 \(f(x|\theta) \neq f(x|\theta')\).
(A3) 공통 지지와 미분가능성: 분포들의 지지(support)가 공통이고, \(f(x|\theta)\)가 \(\theta\)에 대해 미분가능하다.
(A4) 내점 조건: 모수 공간 \(\Omega\)가 열린 집합 \(\omega\)를 포함하며, 참 모수 \(\theta_0\)가 \(\omega\)의 내점(interior point)이다.
- (A2) 위반: \(U(0, \theta)\) vs \(U(0, 2\theta)\)처럼 두 분포족이 같은 분포를 생성하면 MLE가 \(\theta\)를 식별할 수 없다.
- (A3) 위반: \(U(0, \theta)\)처럼 지지가 \(\theta\)에 의존하면 일반 MLE 이론이 적용되지 않는다. 이 경우 MLE는 \(X_{(n)}\)이 되며, 정칙 조건 없이도 일관성을 별도 증명할 수 있다.
- (A4) 위반: 참 모수가 경계에 있으면 Taylor 전개 기반 점근 이론이 무너진다.
7 점근 정규성 → 일관성
점근 효율성 증명 후 나오는 보조 결과이지만, 일관성과의 연결로 중요하다.
\(W_n\)이 \(\mu\)에 점근 정규하다고 하자. 즉,
\[ \sqrt{n}\,\frac{W_n - \mu}{\sigma} \to Z \sim N(0,1). \]
그러면 Slutsky 정리(Thm 5.5.17)에 의해
\[ W_n - \mu = \underbrace{\left(\frac{\sigma}{\sqrt{n}}\right)}_{\to\, 0} \cdot \underbrace{\left(\sqrt{n}\,\frac{W_n-\mu}{\sigma}\right)}_{\to\, Z} \to 0 \quad \text{(분포 수렴)}. \]
상수로의 분포 수렴은 확률 수렴과 동치(Thm 5.5.13)이므로,
\[ W_n \overset{P}{\to} \mu, \]
즉 \(W_n\)은 일관 추정량이다.
이 결과는 §10.1.2에서 MLE의 점근 효율성을 증명하면, 자동으로 일관성도 따라온다는 뜻이다. 즉, “일관되고 점근 효율적인 MLE”라는 표현은 다소 중복적이다 — 효율성이 일관성을 내포한다.
8 비일관 추정량의 예시
일관성이 “자연스러운” 성질처럼 보이지만, 상식적으로 보이는 추정량도 일관성을 잃을 수 있다.
\(X_1, X_2, \ldots \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\)에서 \(\sigma^2\)을 추정하고자 한다.
\[ T_n = \frac{1}{n^2}\sum_{i=1}^n (X_i - \bar{X})^2 \]
\(E_\mu[T_n] = \frac{(n-1)\sigma^2}{n^2} \to 0\)으로 수렴한다. \(T_n\)은 항상 0으로 수렴하므로 \(\sigma^2 \neq 0\)이면 일관 추정량이 아니다.
이는 정리 10.1.3에서 편향이 \(\sigma^2\)으로 유지(→ 0 아님)하기 때문이다.
9 시뮬레이션: 일관성 시각화
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
np.random.seed(42)
# 모수 설정
theta = 2.5 # 참 평균
sigma = 1.0 # 분산 = 1
n_values = [5, 20, 100, 500, 2000]
B = 5000 # 반복 횟수
fig, axes = plt.subplots(1, len(n_values), figsize=(15, 4), sharey=True)
for ax, n in zip(axes, n_values):
# n개 표본의 표본평균 B번 반복
samples = np.random.normal(theta, sigma, size=(B, n))
xbars = samples.mean(axis=1)
ax.hist(xbars, bins=50, density=True, alpha=0.7, color="steelblue")
ax.axvline(theta, color="red", linewidth=2, label=f"θ={theta}")
ax.set_title(f"n = {n}\nVar = {xbars.var():.4f}")
ax.set_xlabel("$\\bar{X}_n$")
if ax == axes[0]:
ax.set_ylabel("밀도")
fig.suptitle("$\\bar{X}_n$의 일관성: n이 커질수록 분포가 θ에 집중됨", y=1.02)
plt.tight_layout()
plt.show()
# n이 커질수록 분포가 점점 좁아지며 θ=2.5에 집중 → 일관성 시각화# 일관성 정량 확인: P(|X̄_n - θ| ≥ ε) 가 n과 함께 감소하는지 확인
epsilon = 0.2
n_range = np.logspace(1, 4, 50, dtype=int)
probs = []
for n in n_range:
samples = np.random.normal(theta, sigma, size=(B, n))
xbars = samples.mean(axis=1)
probs.append(np.mean(np.abs(xbars - theta) >= epsilon))
plt.figure(figsize=(8, 4))
plt.plot(n_range, probs, "o-", color="steelblue")
plt.axhline(0, color="red", linestyle="--")
plt.xscale("log")
plt.xlabel("표본 크기 n (log scale)")
plt.ylabel(f"P(|$\\bar{{X}}_n$ - θ| ≥ {epsilon})")
plt.title("일관성 확인: 이 확률이 0으로 수렴해야 한다")
plt.grid(True)
plt.show()
# 이론값: P = P(|Z| ≥ ε√n) → 0 (Z ~ N(0,1))# Bernoulli 분포에서 표본비율의 일관성
p_true = 0.3
n_range = [10, 50, 200, 1000]
print(f"참 모수 p = {p_true}")
print(f"{'n':>6} {'MSE':>10} {'Var':>10} {'Bias²':>10}")
for n in n_range:
samples = np.random.binomial(1, p_true, size=(B, n))
phat = samples.mean(axis=1)
mse = np.mean((phat - p_true)**2)
var = np.var(phat)
bias2 = (np.mean(phat) - p_true)**2
print(f"{n:>6} {mse:>10.6f} {var:>10.6f} {bias2:>10.6f}")
# MSE = Var + Bias² → 둘 다 0으로 수렴 → 정리 10.1.3 수치 확인10 일관성 관련 핵심 정리 요약
| 결과 | 내용 | 조건 |
|---|---|---|
| Def 10.1.1 | \(P_\theta(\|W_n - \theta\| < \varepsilon) \to 1\) | 정의 |
| Thm 10.1.3 | \(\text{Var} \to 0\), \(\text{Bias} \to 0 \implies\) 일관성 | 충분조건 |
| Thm 10.1.5 | \(a_n \to 1\), \(b_n \to 0 \implies a_n W_n + b_n\) 도 일관 | 선형 안정성 |
| Thm 10.1.6 | MLE는 일관적 | 정칙 조건 (A1)~(A4) |
| Ex 10.1.13 | 점근 정규성 \(\implies\) 일관성 | Slutsky 정리 |
- “왜 일관성이 중요한가?” — 표본이 충분하면 맞는 값을 내놓아야 한다는 최소한의 요구. 일관성이 없으면 어떤 이론적 정당화도 흔들린다.
- “일관성 = MSE → 0인가?” — 아니다. MSE → 0은 충분조건일 뿐이다. 편향이 있어도 일관 추정량이 될 수 있다 (예: James-Stein 추정량).
- “점근 정규성과 일관성의 관계?” — 점근 정규성이 일관성을 함의한다 (Ex 10.1.13). 역은 성립하지 않는다.
- “MLE가 항상 일관적인가?” — 정칙 조건 위반 시 그렇지 않을 수 있다. 지지가 모수에 의존하거나(\(U(0,\theta)\)), 참 모수가 경계에 있으면 별도 분석이 필요하다.
11 다음 포스트
- 점근 효율성 (Asymptotic Efficiency) — 수렴 속도(분산) 최적화, Cramér-Rao 하한, MLE의 점근 효율성
12 참고 문헌
- Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd ed.). §10.1.1, pp. 468–471.