Kwangmin Kim - 점추정: 일관성 (Point Estimation: Consistency)

점추정량을 평가할 때, 표본의 크기가 작을 때는 비편향성(Unbiasedness) 이나 최소 분산을 중요하게 여긴다. 그러나 데이터가 무한히 많아지는 상황에서 추정량이 과연 참값으로 수렴하는가는 통계적 추론의 근간을 이루는 질문이다. 이를 수학적으로 정의한 개념이 바로 일관성(Consistency) 이다.

1 수학적 정의

일관성은 확률 수렴(Convergence in Probability)을 기반으로 정의한다.

정의: 일관 추정량 (Consistent Estimator)

통계량의 수열 \(W_n = W(X_1, \ldots, X_n)\) 이 모수 \(\theta\) 의 일관 추정량이라 함은, 임의의 \(\epsilon > 0\) 에 대하여 다음이 성립하는 것이다: \[\lim_{n \to \infty} P(|W_n - \theta| < \epsilon) = 1\] 또는 동일한 표현으로, \(W_n \xrightarrow{P} \theta\) (확률 수렴)인 것이다.

이 정의는 표본 크기 \(n\) 이 커짐에 따라 추정량 \(W_n\) 이 참값 \(\theta\) 주위의 아주 작은 구간(\(\pm \epsilon\)) 안에 들어올 확률이 1로 수렴함을 의미한다. 즉, 데이터가 많아질수록 추정의 오류가 사라진다는 보장이다.

2 일관성의 충분조건: MSE 수렴

일관성의 정의를 직접 사용하여 확률 수렴을 증명하는 것은 때로 까다롭다. 이때 유용하게 쓰이는 충분조건이 평균제곱오차(Mean Squared Error, MSE) 의 수렴이다.

평균제곱오차는 다음과 같이 편향(Bias)의 제곱과 분산(Variance)의 합으로 분해된다: \[\text{MSE}(W_n) = E[(W_n - \theta)^2] = \text{Var}(W_n) + [\text{Bias}(W_n)]^2\]

정리: MSE 수렴과 일관성

만약 \(\lim_{n \to \infty} \text{MSE}(W_n) = 0\) 이면, \(W_n\) 은 \(\theta\) 의 일관 추정량이다. 즉, 다음 두 조건이 동시에 만족되면 일관성이 보장된다: 1. \(\lim_{n \to \infty} \text{Var}(W_n) = 0\) 2. \(\lim_{n \to \infty} \text{Bias}(W_n) = 0\)

증명 개요: 체비쇼프 부등식(Chebyshev’s Inequality)에 의해, \[P(|W_n - \theta| \geq \epsilon) \leq \frac{E[(W_n - \theta)^2]}{\epsilon^2} = \frac{\text{MSE}(W_n)}{\epsilon^2}\] 가 성립한다. \(\text{MSE}(W_n) \to 0\) 이면 우변이 0으로 수렴하므로, 확률 수렴의 정의에 따라 일관성이 증명된다.

3 대수의 법칙(WLLN)과의 연결

가장 대표적인 일관 추정량은 표본 평균(\(\bar{X}_n\)) 이다. 모집단의 평균이 \(\mu\) 이고 분산이 \(\sigma^2 < \infty\) 인 독립항등분포(iid) 표본에 대해, 약대수의 법칙(Weak Law of Large Numbers, WLLN) 에 따라 다음이 성립한다: \[\bar{X}_n \xrightarrow{P} \mu\] 따라서 표본 평균은 모평균의 일관 추정량이다. 이는 통계적 추론이 ’데이터가 많으면 정답에 가까워진다’는 직관을 수학적으로 정당화하는 핵심 근거이다.

4 대표적 예시

4.1 1. 표본 분산 vs MLE 분산 추정량

정규분포 \(N(\mu, \sigma^2)\) 에서 표본 분산(\(S^2\))과 최대우도추정량(\(\hat{\sigma}^2\))을 비교해 본다.

표본 분산: \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\) 은 비편향 추정량(\(E[S^2] = \sigma^2\))이며, \(n \to \infty\) 일 때 일관성을 갖는다.
MLE 추정량: \(\hat{\sigma}^2 = \frac{1}{n}\sum(X_i - \bar{X})^2\) 은 편향되어 있다 (\(E[\hat{\sigma}^2] = \frac{n-1}{n}\sigma^2\)).

그러나 \(\hat{\sigma}^2\) 의 편향은 \(\sigma^2/n\) 으로, \(n \to \infty\) 일 때 0으로 수렴한다. 또한 분산 역시 0으로 수렴하므로, MLE 추정량은 비편향은 아니지만 일관 추정량이다.

4.2 2. 균일 분포 \(U(0, \theta)\) 의 최대값 추정

\(X_1, \ldots, X_n \sim U(0, \theta)\) 일 때, 최대값 통계량 \(Y_n = \max(X_1, \ldots, X_n)\) 을 고려한다. \(Y_n\) 의 확률밀도함수를 유도하면 \(f_{Y_n}(y) = \frac{ny^{n-1}}{\theta^n}\) (\(0 < y < \theta\)) 이다.

\(E[Y_n] = \frac{n}{n+1}\theta\) 이므로 편향되어 있으나, \(n \to \infty\) 일 때 \(\theta\) 로 수렴한다.
\(P(|Y_n - \theta| < \epsilon)\) 을 계산해 보면 표본이 커질수록 1로 수렴함을 알 수 있다. 따라서 \(Y_n\) 은 \(\theta\) 에 대한 일관 추정량이다.

5 왜 일관성이 중요한가?

현대 통계학에서 일관성은 추정량이 갖추어야 할 최소한의 자격으로 간주된다. 비편향성은 있으면 좋지만(nice-to-have), 일관성은 없어서는 안 될(must-have) 성질이다.

그 이유는 다음과 같다: 1. 편향은 보정 가능하다: 데이터가 많아질 때 0으로 수렴하는 편향은 실무적으로 큰 문제가 되지 않는 경우가 많다. 2. 복잡한 모형의 최후 보루: 신경망이나 복잡한 비선형 모형에서 비편향 추정량을 찾는 것은 거의 불가능하다. 하지만 최소한 데이터가 무한히 많아질 때 참값으로 수렴한다는 ’일관성’이 보장되어야 해당 알고리즘을 신뢰할 수 있다. 3. 슬러츠키 정리(Slutsky’s Theorem): 일관 추정량은 연속 함수에 대해 보존된다. \(W_n \xrightarrow{P} \theta\) 이면 \(g(W_n) \xrightarrow{P} g(\theta)\) 가 성립한다. 이는 비편향성에서는 성립하지 않는 매우 강력한 성질이다.

6 요약

일관성은 표본이 무한히 커질 때 추정량이 모수에 확률적으로 수렴하는 성질이다.
MSE가 0으로 수렴하면 일관성이 보장된다 (편향과 분산이 모두 사라져야 한다).
MLE는 일반적으로 비편향은 아니더라도 일관성을 만족하며, 이는 대표본 추론의 핵심 근거가 된다.
비편향성보다 일관성이 수학적으로 더 견고하며(함수 불변성 등), 대표본 환경에서 더 필수적인 덕목이다.