1 개요
최선 비편향 추정량에서 UMVUE를 찾는 두 경로(Cramer-Rao vs 충분성)를 비교했다. 이 포스트에서는 충분성 경로의 핵심인 Rao-Blackwell 정리와 Lehmann-Scheffe 정리가 어떻게 작동하는지를 메커니즘 수준에서 해부한다 (Casella & Berger, 2002, Ch.7.3.3).
핵심 질문은 다음이다:
왜 충분통계량에 조건화하면 추정량이 개선되는가?
답은 단순하다: 충분통계량은 \(\theta\) 에 대한 모든 정보를 담고 있고, 조건화는 \(\theta\) 에 무관한 잡음을 제거한다. 잡음이 제거되면 분산이 줄어든다. 이것이 Rao-Blackwell 정리의 본질이다.
그러나 이 메커니즘이 UMVUE를 보장하려면, 충분통계량의 분포 가족이 완비해야 한다. 완비성은 “0의 비편향 추정량이 0뿐”이라는 조건으로, 이것이 왜 UMVUE와 연결되는지를 상세히 다룬다.
2 Rao-Blackwell 정리: 메커니즘 해부
2.1 정리 (복습)
\(W\) 가 \(\tau(\theta)\) 의 비편향 추정량이고, \(T\) 가 \(\theta\) 에 대한 충분통계량이면, \(\phi(T) = E[W|T]\) 는
- 비편향: \(E_\theta[\phi(T)] = \tau(\theta)\)
- 분산 감소: \(\text{Var}_\theta(\phi(T)) \leq \text{Var}_\theta(W)\)
2.2 왜 비편향이 유지되는가
반복기댓값 법칙(law of iterated expectations)에 의해
\[ E_\theta[\phi(T)] = E_\theta[E[W|T]] = E_\theta[W] = \tau(\theta) \]
2.3 왜 분산이 줄어드는가
전분산 공식(law of total variance)에 의해
\[ \text{Var}_\theta(W) = \underbrace{\text{Var}_\theta(E[W|T])}_{\text{Var}(\phi(T))} + \underbrace{E_\theta[\text{Var}(W|T)]}_{\geq 0} \]
\[ \therefore \quad \text{Var}_\theta(\phi(T)) = \text{Var}_\theta(W) - E_\theta[\text{Var}(W|T)] \leq \text{Var}_\theta(W) \]
등호 조건: \(\text{Var}(W|T) = 0\) a.s., 즉 \(W\) 가 이미 \(T\) 의 함수일 때.
2.4 직관적 해석: 잡음 제거
\(W\) 를 두 성분으로 분해할 수 있다:
\[ W = \underbrace{E[W|T]}_{\text{신호 (}\theta\text{에 대한 정보)}} + \underbrace{(W - E[W|T])}_{\text{잡음 (}\theta\text{에 무관한 변동)}} \]
\(T\) 가 충분통계량이므로, \(T\) 를 알면 \(\theta\) 에 대한 정보가 완전하다. \(W - E[W|T]\) 는 \(T\) 가 주어진 후의 잔여 변동으로, \(\theta\) 에 대한 추가 정보를 담고 있지 않다. 이 잡음을 제거하면 추정량의 분산이 줄어든다.
이것은 통계학의 근본 원리와 연결된다: 모수에 대한 정보를 보존하면서 불필요한 변동을 제거하는 것이 데이터 분석의 핵심이다.
2.5 \(\phi(T) = E[W|T]\) 가 추정량인 이유
\(\phi(T)\) 가 진정한 추정량이려면 \(\theta\) 에 무관해야 한다. \(T\) 가 충분통계량이면 \(W|T\) 의 조건부 분포가 \(\theta\) 에 무관하므로 (충분성의 정의), \(E[W|T]\) 도 \(\theta\) 에 무관하다. 따라서 \(\phi(T)\) 는 순수하게 데이터의 함수이다.
3 비충분통계량에 조건화하면 실패하는 이유
3.1 예시: 정규분포에서 \(X_1\) 에 조건화
\(X_1, X_2 \overset{\text{iid}}{\sim} N(\theta, 1)\), \(W = \bar{X} = (X_1 + X_2)/2\)
\(X_1\) 은 충분통계량이 아니다 (\(X_1 + X_2\) 가 충분통계량). \(X_1\) 에 조건화해 보자:
\[ \phi(X_1) = E[\bar{X} | X_1] = \frac{1}{2}X_1 + \frac{1}{2}E[X_2|X_1] \]
\(X_1\) 과 \(X_2\) 는 독립이므로 \(E[X_2|X_1] = E[X_2] = \theta\). 따라서
\[ \phi(X_1) = \frac{1}{2}X_1 + \frac{1}{2}\theta \]
이것은 \(\theta\) 에 의존하므로 추정량이 아니다.
전분산 공식은 여전히 성립하여 \(\text{Var}(\phi(X_1)) \leq \text{Var}(\bar{X})\) 이지만, \(\phi(X_1)\) 을 실제로 계산할 수 없다. 충분성이 보장하는 것은 조건부 기댓값이 \(\theta\) 에 무관하여 추정량으로 사용 가능하다는 것이다.
4 Rao-Blackwell화의 구체적 계산
4.1 일반적 절차
- 간단한 비편향 추정량 \(W\) 를 찾는다
- 충분통계량 \(T\) 를 확인한다
- \(\phi(T) = E[W|T = t]\) 를 \(W|T\) 의 조건부 분포로부터 계산한다
- \(\phi(T)\) 가 개선된 추정량이다
핵심 난이도는 Step 3의 조건부 기댓값 계산에 있다. iid 표본에서 이 계산은 종종 조합론적 논증을 필요로 한다.
4.2 예시 1: 포아송 — \(e^{-\lambda}\) 의 UMVUE
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\)
Step 1: \(W = I(X_1 = 0)\). \(E[W] = P(X_1 = 0) = e^{-\lambda}\) — 비편향.
Step 2: \(T = \sum_{i=1}^n X_i\) — 완비충분통계량 (\(T \sim \text{Poisson}(n\lambda)\)).
Step 3: \(\phi(T) = P(X_1 = 0 | T = t)\) 를 계산한다.
\(X_1 = 0\) 이면 \(\sum_{i=2}^n X_i = T = t\). \(X_1\) 과 \(\sum_{i=2}^n X_i\) 는 독립이므로
\[ P(X_1 = 0 | T = t) = \frac{P(X_1 = 0) \cdot P\!\left(\sum_{i=2}^n X_i = t\right)}{P(T = t)} \]
- \(P(X_1 = 0) = e^{-\lambda}\)
- \(\sum_{i=2}^n X_i \sim \text{Poisson}((n-1)\lambda)\) → \(P(\sum_{i=2}^n X_i = t) = \frac{((n-1)\lambda)^t e^{-(n-1)\lambda}}{t!}\)
- \(T \sim \text{Poisson}(n\lambda)\) → \(P(T = t) = \frac{(n\lambda)^t e^{-n\lambda}}{t!}\)
대입하면
\[ P(X_1 = 0 | T = t) = \frac{e^{-\lambda} \cdot ((n-1)\lambda)^t e^{-(n-1)\lambda} / t!}{(n\lambda)^t e^{-n\lambda} / t!} = \frac{((n-1)\lambda)^t}{(n\lambda)^t} = \left(\frac{n-1}{n}\right)^t \]
\(\lambda\) 가 완전히 소거된다 — 충분성 덕분이다.
\[ \boxed{\phi(T) = \left(1 - \frac{1}{n}\right)^T} \]
Step 4: Lehmann-Scheffe에 의해 이것이 \(e^{-\lambda}\) 의 유일한 UMVUE 이다.
검증: \(E[\phi(T)] = E\!\left[\left(\frac{n-1}{n}\right)^T\right] = \sum_{t=0}^\infty \left(\frac{n-1}{n}\right)^t \frac{(n\lambda)^t e^{-n\lambda}}{t!} = e^{-n\lambda} \cdot e^{(n-1)\lambda} = e^{-\lambda}\) \(\checkmark\)
4.3 예시 2: 베르누이 — \(p^2\) 의 UMVUE
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), \(\tau(p) = p^2\)
Step 1: \(W = X_1 X_2\). \(E[W] = E[X_1]E[X_2] = p \cdot p = p^2\) — 비편향.
Step 2: \(T = \sum_{i=1}^n X_i\) — 완비충분통계량 (\(T \sim \text{Binomial}(n, p)\)).
Step 3: \(\phi(T) = E[X_1 X_2 | T = t]\)
\(X_1 X_2 = 1\) 이려면 \(X_1 = 1\) 이고 \(X_2 = 1\) 이어야 한다. \(T = t\) 가 주어졌을 때, \(n\) 개 중 \(t\) 개가 1인 상황에서 \(X_1 = 1\) 이고 \(X_2 = 1\) 일 확률은
\[ P(X_1 = 1, X_2 = 1 | T = t) = \frac{\binom{n-2}{t-2}}{\binom{n}{t}} = \frac{t(t-1)}{n(n-1)} \]
(분자: \(X_1, X_2\) 를 1로 고정하고 나머지 \(n-2\) 개 중 \(t-2\) 개를 선택하는 경우의 수)
\[ \boxed{\phi(T) = \frac{T(T-1)}{n(n-1)}} \]
\(p\) 에 무관한 \(T\) 의 함수이다. Lehmann-Scheffe에 의해 \(p^2\) 의 UMVUE이다.
검증: \(E[\phi(T)] = \frac{E[T(T-1)]}{n(n-1)} = \frac{E[T^2] - E[T]}{n(n-1)} = \frac{np(1-p) + (np)^2 - np}{n(n-1)} = \frac{n(n-1)p^2}{n(n-1)} = p^2\) \(\checkmark\)
4.4 예시 3: 이항분포 — \(P(X = 1)\) 의 UMVUE
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Binomial}(k, \theta)\), \(\tau(\theta) = k\theta(1-\theta)^{k-1} = P(X_1 = 1)\)
Step 1: \(W = I(X_1 = 1)\). \(E[W] = P(X_1 = 1) = \binom{k}{1}\theta(1-\theta)^{k-1} = k\theta(1-\theta)^{k-1}\) — 비편향.
Step 2: \(T = \sum_{i=1}^n X_i\) — 완비충분통계량 (\(T \sim \text{Binomial}(nk, \theta)\)).
Step 3: \(P(X_1 = 1 | T = t)\) 를 계산한다.
\(X_1 = 1\) 이고 \(\sum_{i=2}^n X_i = t - 1\) 이어야 한다. \(X_1 \sim \text{Binomial}(k, \theta)\), \(\sum_{i=2}^n X_i \sim \text{Binomial}((n-1)k, \theta)\), 독립이므로
\[ P(X_1 = 1 | T = t) = \frac{P(X_1 = 1) \cdot P\!\left(\sum_{i=2}^n X_i = t-1\right)}{P(T = t)} \]
\[ = \frac{\binom{k}{1}\theta(1-\theta)^{k-1} \cdot \binom{(n-1)k}{t-1}\theta^{t-1}(1-\theta)^{(n-1)k-t+1}}{\binom{nk}{t}\theta^t(1-\theta)^{nk-t}} \]
\(\theta\) 가 소거되어
\[ \boxed{\phi(t) = \frac{k\binom{(n-1)k}{t-1}}{\binom{nk}{t}}} \]
4.5 예시 4: 균등분포 — \(\theta\) 의 UMVUE (Cramer-Rao 적용 불가 사례)
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Uniform}(0, \theta)\)
- 완비충분통계량: \(Y = X_{(n)} = \max_i X_i\), pdf: \(f_Y(y|\theta) = ny^{n-1}/\theta^n\) (\(0 < y < \theta\))
- \(E[Y] = \frac{n}{n+1}\theta\) → \(\frac{n+1}{n}Y\) 가 비편향
- Lehmann-Scheffe → \(\frac{n+1}{n}Y\) 는 \(\theta\) 의 UMVUE
\(\text{Var}\!\left(\frac{n+1}{n}Y\right) = \frac{\theta^2}{n(n+2)}\)
Cramer-Rao 하한(\(\theta^2/n\))보다 작다 — 정칙 조건 위반 시의 전형적 현상이다. 충분성 경로는 정칙 조건과 무관하게 UMVUE를 제공한다.
4.6 예시 5: 정규분포 — \(\sigma^2\) 의 UMVUE (\(\mu\) 미지)
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\mu\) 와 \(\sigma^2\) 모두 미지
- 완비충분통계량: \((\bar{X}, S^2)\) (정규족은 지수족)
- \(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\) 는 \((\bar{X}, S^2)\) 의 함수이고 \(E[S^2] = \sigma^2\)
- Lehmann-Scheffe → \(S^2\) 는 \(\sigma^2\) 의 UMVUE
\(\text{Var}(S^2) = 2\sigma^4/(n-1) > 2\sigma^4/n\) (Cramer-Rao 하한). 하한을 달성하지 못하지만, 비편향 추정량 중에서는 유일한 최선이다.
5 완비성의 역할: 왜 필요한가
5.1 0의 비편향 추정량
\(U(\mathbf{X})\) 가 \(E_\theta[U] = 0\) (모든 \(\theta\))이면, \(U\) 를 0의 비편향 추정량이라 한다.
\(W\) 가 \(\tau(\theta)\) 의 비편향 추정량이고 \(\text{Cov}_\theta(W, U) \neq 0\) 인 0의 비편향 추정량 \(U\) 가 존재하면, \(\phi_a = W + aU\) 로 \(\text{Var}(\phi_a) < \text{Var}(W)\) 인 \(a\) 를 찾을 수 있다. 따라서 \(W\) 는 UMVUE가 아니다.
UMVUE의 필요충분조건: \(W\) 가 모든 0의 비편향 추정량과 무상관이어야 한다.
5.2 완비성이 이 조건을 보장하는 이유
충분통계량 \(T\) 의 분포 가족이 완비이면, \(T\) 의 함수인 0의 비편향 추정량은 0 자체뿐이다 (완비성의 정의).
Rao-Blackwell에 의해 UMVUE를 찾을 때 충분통계량의 함수만 고려하면 되고, 완비성에 의해 그 클래스 안의 유일한 0의 비편향 추정량이 0이므로, \(T\) 의 함수인 비편향 추정량은 자동으로 모든 0의 비편향 추정량과 무상관이 된다. 따라서 UMVUE이다.
5.3 완비성이 없으면?
\(\text{Uniform}(\theta, \theta+1)\) 에서 \((X_{(1)}, X_{(n)})\) 은 최소충분통계량이지만 완비가 아니다 — \(R = X_{(n)} - X_{(1)}\) 은 보조통계량이면서 최소충분통계량의 함수이다.
\(h(x) = \sin(2\pi x)\) 는 0의 비편향 추정량이다 (\(\int_\theta^{\theta+1} \sin(2\pi x) dx = 0\)). \(X - 1/2\) (\(\theta\) 의 비편향 추정량)와 \(\sin(2\pi X)\) 의 공분산은
\[ \text{Cov}(X - 1/2, \sin(2\pi X)) = -\frac{\cos(2\pi\theta)}{2\pi} \neq 0 \]
따라서 \(X - 1/2\) 는 UMVUE가 아니다. 이 경우 UMVUE가 존재하지 않을 수 있다.
6 전체 논리 구조 요약
비편향 추정량 W를 아무거나 찾는다
↓
충분통계량 T에 조건화 → φ(T) = E[W|T]
↓
Rao-Blackwell: φ(T)는 비편향 + Var 감소
↓
T가 완비? ─── Yes ──→ Lehmann-Scheffe: φ(T)는 유일한 UMVUE
│
No ──→ φ(T)가 UMVUE인지 보장 불가
(0의 비편향 추정량이 존재할 수 있음)
7 코드 예시
7.1 Step 1: 순수 Python 구현 (Rao-Blackwell화 메커니즘 시연)
베르누이 표본에서 \(p^2\) 의 추정: \(X_1 X_2\) (단순) vs \(T(T-1)/(n(n-1))\) (Rao-Blackwell화)의 분산을 비교한다.
import random
import math
random.seed(42)
p_true = 0.4
n = 15
n_sim = 100000
tau_true = p_true ** 2
# W = X_1 * X_2 (비편향이지만 분산 큼)
# phi(T) = T(T-1)/(n(n-1)) (Rao-Blackwell화)
mse_w = 0
mse_phi = 0
var_w_given_t = {} # Var(W|T=t) 추적
for _ in range(n_sim):
data = [1 if random.random() < p_true else 0 for _ in range(n)]
t = sum(data)
w = data[0] * data[1]
phi = t * (t - 1) / (n * (n - 1)) if n > 1 else 0
mse_w += (w - tau_true) ** 2
mse_phi += (phi - tau_true) ** 2
# 조건부 분산 추적
if t not in var_w_given_t:
var_w_given_t[t] = []
var_w_given_t[t].append(w)
mse_w /= n_sim
mse_phi /= n_sim
print(f"=== p^2 추정: Rao-Blackwell화 시연 ===")
print(f"p = {p_true}, n = {n}, tau(p) = p^2 = {tau_true:.4f}\n")
print(f" W = X_1*X_2: MSE = {mse_w:.6f}")
print(f" phi = T(T-1)/n(n-1): MSE = {mse_phi:.6f}")
print(f" MSE 감소율: {(1 - mse_phi/mse_w)*100:.1f}%")
# 전분산 공식 검증: Var(W) = Var(E[W|T]) + E[Var(W|T)]
var_phi = mse_phi - 0 # phi는 비편향이므로 MSE ≈ Var (편향 ≈ 0)
e_var_w_given_t = 0
total_count = 0
for t, vals in var_w_given_t.items():
if len(vals) > 1:
v = sum((x - sum(vals)/len(vals))**2 for x in vals) / (len(vals) - 1)
e_var_w_given_t += v * len(vals)
total_count += len(vals)
e_var_w_given_t /= total_count
print(f"\n 전분산 공식 검증:")
print(f" Var(W) ≈ {mse_w:.6f}")
print(f" Var(phi) ≈ {mse_phi:.6f}")
print(f" E[Var(W|T)] ≈ {e_var_w_given_t:.6f}")
print(f" Var(phi) + E[Var(W|T)] ≈ {mse_phi + e_var_w_given_t:.6f}")
print(f" (Var(W)와 일치해야 함)")7.2 Step 2: scipy 구현 (포아송 \(e^{-\lambda}\) UMVUE 시뮬레이션)
다양한 \(\lambda\) 값에서 UMVUE \(((n-1)/n)^T\) 와 단순 추정량 \(I(X_1=0)\) 의 MSE를 비교한다.
import numpy as np
from scipy.stats import poisson
np.random.seed(42)
n = 10
n_sim = 50000
lambda_values = np.arange(0.5, 5.1, 0.5)
print(f"=== 포아송 e^(-lambda) 추정: W vs UMVUE ===")
print(f"n = {n}\n")
print(f"{'lambda':>6s} | {'tau':>8s} | {'MSE(W)':>10s} | {'MSE(UMVUE)':>10s} | {'감소율':>8s}")
print("-" * 55)
for lam in lambda_values:
tau = np.exp(-lam)
mse_w_arr = []
mse_phi_arr = []
for _ in range(n_sim):
data = poisson.rvs(lam, size=n)
w = 1.0 if data[0] == 0 else 0.0
t = np.sum(data)
phi = ((n - 1) / n) ** t
mse_w_arr.append((w - tau)**2)
mse_phi_arr.append((phi - tau)**2)
mse_w = np.mean(mse_w_arr)
mse_phi = np.mean(mse_phi_arr)
reduction = (1 - mse_phi / mse_w) * 100
print(f" {lam:4.1f} | {tau:8.5f} | {mse_w:10.6f} | {mse_phi:10.6f} | {reduction:7.1f}%")
print(f"\nRao-Blackwell화에 의해 모든 lambda에서 MSE가 대폭 감소한다")
print(f"lambda가 클수록(tau가 작을수록) 감소율이 커진다")
print(f"→ W=I(X_1=0)은 X_1 하나만 사용하고, UMVUE는 전체 표본을 사용하기 때문이다")
# 비편향성 검증
print(f"\n=== 비편향성 검증 (lambda=2.0) ===")
lam_check = 2.0
tau_check = np.exp(-lam_check)
estimates = []
for _ in range(n_sim):
data = poisson.rvs(lam_check, size=n)
t = np.sum(data)
estimates.append(((n-1)/n) ** t)
print(f" E[phi(T)] = {np.mean(estimates):.6f}")
print(f" tau(lambda) = {tau_check:.6f}")
print(f" 편향: {np.mean(estimates) - tau_check:.6f}")8 응용 분야
| 분야 | 충분성+비편향성 활용 | 구체적 예시 |
|---|---|---|
| 임상시험 | UMVUE 기반 효과 크기 추정 | 정규 모형에서 \(\bar{X}\) 가 처치 효과의 UMVUE |
| 품질관리 | 공정 모수의 최적 추정 | 포아송 불량률의 UMVUE로 관리도 설계 |
| 보험수리 | 클레임 빈도/심도 추정 | 충분통계량 기반 최적 보험료 산정 |
| 신뢰성 공학 | 수명 분포 모수 추정 | 지수분포 UMVUE로 MTBF 추정 |
| 유전체학 | 유전형 빈도 추정 | 다항분포에서의 UMVUE |
| 교육 측정 | 문항 난이도 추정 | 이항 모형에서의 최적 추정 |
9 관련 주제
선행 지식
- 충분성 원리 — 충분통계량의 정의와 인수분해 정리
- 데이터 축소의 원리 — 완비성, 바수 정리
- 최선 비편향 추정량 — UMVUE, Cramer-Rao 등호조건
상위 주제
10 참고 문헌
- Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 7, Section 7.3.3.
- Rao, C. R. (1945). Information and accuracy attainable in the estimation of statistical parameters. Bull. Calcutta Math. Soc., 37, 81-91.
- Blackwell, D. (1947). Conditional expectation and unbiased sequential estimation. Ann. Math. Statist., 18, 105-110.
- Lehmann, E. L. & Scheffe, H. (1950). Completeness, similar regions, and unbiased estimation. Sankhya, 10, 305-340.
- Lehmann, E. L. & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.