Kwangmin Kim - 충분성과 비편향성 (Sufficiency and Unbiasedness)

1 개요

최선 비편향 추정량에서 UMVUE를 찾는 두 경로(Cramer-Rao vs 충분성)를 비교했다. 이 포스트에서는 충분성 경로의 핵심인 Rao-Blackwell 정리와 Lehmann-Scheffe 정리가 어떻게 작동하는지를 메커니즘 수준에서 해부한다 (Casella & Berger, 2002, Ch.7.3.3).

핵심 질문은 다음이다:

왜 충분통계량에 조건화하면 추정량이 개선되는가?

답은 단순하다: 충분통계량은 \(\theta\) 에 대한 모든 정보를 담고 있고, 조건화는 \(\theta\) 에 무관한 잡음을 제거한다. 잡음이 제거되면 분산이 줄어든다. 이것이 Rao-Blackwell 정리의 본질이다.

그러나 이 메커니즘이 UMVUE를 보장하려면, 충분통계량의 분포 가족이 완비해야 한다. 완비성은 “0의 비편향 추정량이 0뿐”이라는 조건으로, 이것이 왜 UMVUE와 연결되는지를 상세히 다룬다.

2 Rao-Blackwell 정리: 메커니즘 해부

2.1 정리 (복습)

정리 7.3.17: Rao-Blackwell

\(W\) 가 \(\tau(\theta)\) 의 비편향 추정량이고, \(T\) 가 \(\theta\) 에 대한 충분통계량이면, \(\phi(T) = E[W|T]\) 는

비편향: \(E_\theta[\phi(T)] = \tau(\theta)\)
분산 감소: \(\text{Var}_\theta(\phi(T)) \leq \text{Var}_\theta(W)\)

2.2 왜 비편향이 유지되는가

반복기댓값 법칙(law of iterated expectations)에 의해

\[ E_\theta[\phi(T)] = E_\theta[E[W|T]] = E_\theta[W] = \tau(\theta) \]

2.3 왜 분산이 줄어드는가

전분산 공식(law of total variance)에 의해

\[ \text{Var}_\theta(W) = \underbrace{\text{Var}_\theta(E[W|T])}_{\text{Var}(\phi(T))} + \underbrace{E_\theta[\text{Var}(W|T)]}_{\geq 0} \]

\[ \therefore \quad \text{Var}_\theta(\phi(T)) = \text{Var}_\theta(W) - E_\theta[\text{Var}(W|T)] \leq \text{Var}_\theta(W) \]

등호 조건: \(\text{Var}(W|T) = 0\) a.s., 즉 \(W\) 가 이미 \(T\) 의 함수일 때.

2.4 직관적 해석: 잡음 제거

\(W\) 를 두 성분으로 분해할 수 있다:

\[ W = \underbrace{E[W|T]}_{\text{신호 (}\theta\text{에 대한 정보)}} + \underbrace{(W - E[W|T])}_{\text{잡음 (}\theta\text{에 무관한 변동)}} \]

\(T\) 가 충분통계량이므로, \(T\) 를 알면 \(\theta\) 에 대한 정보가 완전하다. \(W - E[W|T]\) 는 \(T\) 가 주어진 후의 잔여 변동으로, \(\theta\) 에 대한 추가 정보를 담고 있지 않다. 이 잡음을 제거하면 추정량의 분산이 줄어든다.

이것은 통계학의 근본 원리와 연결된다: 모수에 대한 정보를 보존하면서 불필요한 변동을 제거하는 것이 데이터 분석의 핵심이다.

2.5 \(\phi(T) = E[W|T]\) 가 추정량인 이유

\(\phi(T)\) 가 진정한 추정량이려면 \(\theta\) 에 무관해야 한다. \(T\) 가 충분통계량이면 \(W|T\) 의 조건부 분포가 \(\theta\) 에 무관하므로 (충분성의 정의), \(E[W|T]\) 도 \(\theta\) 에 무관하다. 따라서 \(\phi(T)\) 는 순수하게 데이터의 함수이다.

3 비충분통계량에 조건화하면 실패하는 이유

3.1 예시: 정규분포에서 \(X_1\) 에 조건화

\(X_1, X_2 \overset{\text{iid}}{\sim} N(\theta, 1)\), \(W = \bar{X} = (X_1 + X_2)/2\)

\(X_1\) 은 충분통계량이 아니다 (\(X_1 + X_2\) 가 충분통계량). \(X_1\) 에 조건화해 보자:

\[ \phi(X_1) = E[\bar{X} | X_1] = \frac{1}{2}X_1 + \frac{1}{2}E[X_2|X_1] \]

\(X_1\) 과 \(X_2\) 는 독립이므로 \(E[X_2|X_1] = E[X_2] = \theta\). 따라서

\[ \phi(X_1) = \frac{1}{2}X_1 + \frac{1}{2}\theta \]

이것은 \(\theta\) 에 의존하므로 추정량이 아니다.

전분산 공식은 여전히 성립하여 \(\text{Var}(\phi(X_1)) \leq \text{Var}(\bar{X})\) 이지만, \(\phi(X_1)\) 을 실제로 계산할 수 없다. 충분성이 보장하는 것은 조건부 기댓값이 \(\theta\) 에 무관하여 추정량으로 사용 가능하다는 것이다.

4 Rao-Blackwell화의 구체적 계산

4.1 일반적 절차

간단한 비편향 추정량 \(W\) 를 찾는다
충분통계량 \(T\) 를 확인한다
\(\phi(T) = E[W|T = t]\) 를 \(W|T\) 의 조건부 분포로부터 계산한다
\(\phi(T)\) 가 개선된 추정량이다

핵심 난이도는 Step 3의 조건부 기댓값 계산에 있다. iid 표본에서 이 계산은 종종 조합론적 논증을 필요로 한다.

4.2 예시 1: 포아송 — \(e^{-\lambda}\) 의 UMVUE

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Poisson}(\lambda)\)

Step 1: \(W = I(X_1 = 0)\). \(E[W] = P(X_1 = 0) = e^{-\lambda}\) — 비편향.

Step 2: \(T = \sum_{i=1}^n X_i\) — 완비충분통계량 (\(T \sim \text{Poisson}(n\lambda)\)).

Step 3: \(\phi(T) = P(X_1 = 0 | T = t)\) 를 계산한다.

\(X_1 = 0\) 이면 \(\sum_{i=2}^n X_i = T = t\). \(X_1\) 과 \(\sum_{i=2}^n X_i\) 는 독립이므로

\[ P(X_1 = 0 | T = t) = \frac{P(X_1 = 0) \cdot P\!\left(\sum_{i=2}^n X_i = t\right)}{P(T = t)} \]

\(P(X_1 = 0) = e^{-\lambda}\)
\(\sum_{i=2}^n X_i \sim \text{Poisson}((n-1)\lambda)\) → \(P(\sum_{i=2}^n X_i = t) = \frac{((n-1)\lambda)^t e^{-(n-1)\lambda}}{t!}\)
\(T \sim \text{Poisson}(n\lambda)\) → \(P(T = t) = \frac{(n\lambda)^t e^{-n\lambda}}{t!}\)

대입하면

\[ P(X_1 = 0 | T = t) = \frac{e^{-\lambda} \cdot ((n-1)\lambda)^t e^{-(n-1)\lambda} / t!}{(n\lambda)^t e^{-n\lambda} / t!} = \frac{((n-1)\lambda)^t}{(n\lambda)^t} = \left(\frac{n-1}{n}\right)^t \]

\(\lambda\) 가 완전히 소거된다 — 충분성 덕분이다.

\[ \boxed{\phi(T) = \left(1 - \frac{1}{n}\right)^T} \]

Step 4: Lehmann-Scheffe에 의해 이것이 \(e^{-\lambda}\) 의 유일한 UMVUE 이다.

검증: \(E[\phi(T)] = E\!\left[\left(\frac{n-1}{n}\right)^T\right] = \sum_{t=0}^\infty \left(\frac{n-1}{n}\right)^t \frac{(n\lambda)^t e^{-n\lambda}}{t!} = e^{-n\lambda} \cdot e^{(n-1)\lambda} = e^{-\lambda}\) \(\checkmark\)

4.3 예시 2: 베르누이 — \(p^2\) 의 UMVUE

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(p)\), \(\tau(p) = p^2\)

Step 1: \(W = X_1 X_2\). \(E[W] = E[X_1]E[X_2] = p \cdot p = p^2\) — 비편향.

Step 2: \(T = \sum_{i=1}^n X_i\) — 완비충분통계량 (\(T \sim \text{Binomial}(n, p)\)).

Step 3: \(\phi(T) = E[X_1 X_2 | T = t]\)

\(X_1 X_2 = 1\) 이려면 \(X_1 = 1\) 이고 \(X_2 = 1\) 이어야 한다. \(T = t\) 가 주어졌을 때, \(n\) 개 중 \(t\) 개가 1인 상황에서 \(X_1 = 1\) 이고 \(X_2 = 1\) 일 확률은

\[ P(X_1 = 1, X_2 = 1 | T = t) = \frac{\binom{n-2}{t-2}}{\binom{n}{t}} = \frac{t(t-1)}{n(n-1)} \]

(분자: \(X_1, X_2\) 를 1로 고정하고 나머지 \(n-2\) 개 중 \(t-2\) 개를 선택하는 경우의 수)

\[ \boxed{\phi(T) = \frac{T(T-1)}{n(n-1)}} \]

\(p\) 에 무관한 \(T\) 의 함수이다. Lehmann-Scheffe에 의해 \(p^2\) 의 UMVUE이다.

검증: \(E[\phi(T)] = \frac{E[T(T-1)]}{n(n-1)} = \frac{E[T^2] - E[T]}{n(n-1)} = \frac{np(1-p) + (np)^2 - np}{n(n-1)} = \frac{n(n-1)p^2}{n(n-1)} = p^2\) \(\checkmark\)

4.4 예시 3: 이항분포 — \(P(X = 1)\) 의 UMVUE

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Binomial}(k, \theta)\), \(\tau(\theta) = k\theta(1-\theta)^{k-1} = P(X_1 = 1)\)

Step 1: \(W = I(X_1 = 1)\). \(E[W] = P(X_1 = 1) = \binom{k}{1}\theta(1-\theta)^{k-1} = k\theta(1-\theta)^{k-1}\) — 비편향.

Step 2: \(T = \sum_{i=1}^n X_i\) — 완비충분통계량 (\(T \sim \text{Binomial}(nk, \theta)\)).

Step 3: \(P(X_1 = 1 | T = t)\) 를 계산한다.

\(X_1 = 1\) 이고 \(\sum_{i=2}^n X_i = t - 1\) 이어야 한다. \(X_1 \sim \text{Binomial}(k, \theta)\), \(\sum_{i=2}^n X_i \sim \text{Binomial}((n-1)k, \theta)\), 독립이므로

\[ P(X_1 = 1 | T = t) = \frac{P(X_1 = 1) \cdot P\!\left(\sum_{i=2}^n X_i = t-1\right)}{P(T = t)} \]

\[ = \frac{\binom{k}{1}\theta(1-\theta)^{k-1} \cdot \binom{(n-1)k}{t-1}\theta^{t-1}(1-\theta)^{(n-1)k-t+1}}{\binom{nk}{t}\theta^t(1-\theta)^{nk-t}} \]

\(\theta\) 가 소거되어

\[ \boxed{\phi(t) = \frac{k\binom{(n-1)k}{t-1}}{\binom{nk}{t}}} \]

4.5 예시 4: 균등분포 — \(\theta\) 의 UMVUE (Cramer-Rao 적용 불가 사례)

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Uniform}(0, \theta)\)

완비충분통계량: \(Y = X_{(n)} = \max_i X_i\), pdf: \(f_Y(y|\theta) = ny^{n-1}/\theta^n\) (\(0 < y < \theta\))
\(E[Y] = \frac{n}{n+1}\theta\) → \(\frac{n+1}{n}Y\) 가 비편향
Lehmann-Scheffe → \(\frac{n+1}{n}Y\) 는 \(\theta\) 의 UMVUE

\(\text{Var}\!\left(\frac{n+1}{n}Y\right) = \frac{\theta^2}{n(n+2)}\)

Cramer-Rao 하한(\(\theta^2/n\))보다 작다 — 정칙 조건 위반 시의 전형적 현상이다. 충분성 경로는 정칙 조건과 무관하게 UMVUE를 제공한다.

4.6 예시 5: 정규분포 — \(\sigma^2\) 의 UMVUE (\(\mu\) 미지)

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\mu\) 와 \(\sigma^2\) 모두 미지

완비충분통계량: \((\bar{X}, S^2)\) (정규족은 지수족)
\(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\) 는 \((\bar{X}, S^2)\) 의 함수이고 \(E[S^2] = \sigma^2\)
Lehmann-Scheffe → \(S^2\) 는 \(\sigma^2\) 의 UMVUE

\(\text{Var}(S^2) = 2\sigma^4/(n-1) > 2\sigma^4/n\) (Cramer-Rao 하한). 하한을 달성하지 못하지만, 비편향 추정량 중에서는 유일한 최선이다.

5 완비성의 역할: 왜 필요한가

5.1 0의 비편향 추정량

\(U(\mathbf{X})\) 가 \(E_\theta[U] = 0\) (모든 \(\theta\))이면, \(U\) 를 0의 비편향 추정량이라 한다.

\(W\) 가 \(\tau(\theta)\) 의 비편향 추정량이고 \(\text{Cov}_\theta(W, U) \neq 0\) 인 0의 비편향 추정량 \(U\) 가 존재하면, \(\phi_a = W + aU\) 로 \(\text{Var}(\phi_a) < \text{Var}(W)\) 인 \(a\) 를 찾을 수 있다. 따라서 \(W\) 는 UMVUE가 아니다.

UMVUE의 필요충분조건: \(W\) 가 모든 0의 비편향 추정량과 무상관이어야 한다.

5.2 완비성이 이 조건을 보장하는 이유

충분통계량 \(T\) 의 분포 가족이 완비이면, \(T\) 의 함수인 0의 비편향 추정량은 0 자체뿐이다 (완비성의 정의).

Rao-Blackwell에 의해 UMVUE를 찾을 때 충분통계량의 함수만 고려하면 되고, 완비성에 의해 그 클래스 안의 유일한 0의 비편향 추정량이 0이므로, \(T\) 의 함수인 비편향 추정량은 자동으로 모든 0의 비편향 추정량과 무상관이 된다. 따라서 UMVUE이다.

5.3 완비성이 없으면?

\(\text{Uniform}(\theta, \theta+1)\) 에서 \((X_{(1)}, X_{(n)})\) 은 최소충분통계량이지만 완비가 아니다 — \(R = X_{(n)} - X_{(1)}\) 은 보조통계량이면서 최소충분통계량의 함수이다.

\(h(x) = \sin(2\pi x)\) 는 0의 비편향 추정량이다 (\(\int_\theta^{\theta+1} \sin(2\pi x) dx = 0\)). \(X - 1/2\) (\(\theta\) 의 비편향 추정량)와 \(\sin(2\pi X)\) 의 공분산은

\[ \text{Cov}(X - 1/2, \sin(2\pi X)) = -\frac{\cos(2\pi\theta)}{2\pi} \neq 0 \]

따라서 \(X - 1/2\) 는 UMVUE가 아니다. 이 경우 UMVUE가 존재하지 않을 수 있다.

6 전체 논리 구조 요약

비편향 추정량 W를 아무거나 찾는다
    ↓
충분통계량 T에 조건화 → φ(T) = E[W|T]
    ↓
Rao-Blackwell: φ(T)는 비편향 + Var 감소
    ↓
T가 완비? ─── Yes ──→ Lehmann-Scheffe: φ(T)는 유일한 UMVUE
    │
    No ──→ φ(T)가 UMVUE인지 보장 불가
           (0의 비편향 추정량이 존재할 수 있음)

7 코드 예시

7.1 Step 1: 순수 Python 구현 (Rao-Blackwell화 메커니즘 시연)

베르누이 표본에서 \(p^2\) 의 추정: \(X_1 X_2\) (단순) vs \(T(T-1)/(n(n-1))\) (Rao-Blackwell화)의 분산을 비교한다.

import random
import math

random.seed(42)

p_true = 0.4
n = 15
n_sim = 100000

tau_true = p_true ** 2

# W = X_1 * X_2 (비편향이지만 분산 큼)
# phi(T) = T(T-1)/(n(n-1)) (Rao-Blackwell화)
mse_w = 0
mse_phi = 0
var_w_given_t = {}  # Var(W|T=t) 추적

for _ in range(n_sim):
    data = [1 if random.random() < p_true else 0 for _ in range(n)]
    t = sum(data)
    w = data[0] * data[1]
    phi = t * (t - 1) / (n * (n - 1)) if n > 1 else 0

    mse_w += (w - tau_true) ** 2
    mse_phi += (phi - tau_true) ** 2

    # 조건부 분산 추적
    if t not in var_w_given_t:
        var_w_given_t[t] = []
    var_w_given_t[t].append(w)

mse_w /= n_sim
mse_phi /= n_sim

print(f"=== p^2 추정: Rao-Blackwell화 시연 ===")
print(f"p = {p_true}, n = {n}, tau(p) = p^2 = {tau_true:.4f}\n")
print(f"  W = X_1*X_2:        MSE = {mse_w:.6f}")
print(f"  phi = T(T-1)/n(n-1): MSE = {mse_phi:.6f}")
print(f"  MSE 감소율: {(1 - mse_phi/mse_w)*100:.1f}%")

# 전분산 공식 검증: Var(W) = Var(E[W|T]) + E[Var(W|T)]
var_phi = mse_phi - 0  # phi는 비편향이므로 MSE ≈ Var (편향 ≈ 0)
e_var_w_given_t = 0
total_count = 0
for t, vals in var_w_given_t.items():
    if len(vals) > 1:
        v = sum((x - sum(vals)/len(vals))**2 for x in vals) / (len(vals) - 1)
        e_var_w_given_t += v * len(vals)
        total_count += len(vals)
e_var_w_given_t /= total_count

print(f"\n  전분산 공식 검증:")
print(f"    Var(W) ≈ {mse_w:.6f}")
print(f"    Var(phi) ≈ {mse_phi:.6f}")
print(f"    E[Var(W|T)] ≈ {e_var_w_given_t:.6f}")
print(f"    Var(phi) + E[Var(W|T)] ≈ {mse_phi + e_var_w_given_t:.6f}")
print(f"    (Var(W)와 일치해야 함)")

7.2 Step 2: scipy 구현 (포아송 \(e^{-\lambda}\) UMVUE 시뮬레이션)

다양한 \(\lambda\) 값에서 UMVUE \(((n-1)/n)^T\) 와 단순 추정량 \(I(X_1=0)\) 의 MSE를 비교한다.

import numpy as np
from scipy.stats import poisson

np.random.seed(42)

n = 10
n_sim = 50000

lambda_values = np.arange(0.5, 5.1, 0.5)

print(f"=== 포아송 e^(-lambda) 추정: W vs UMVUE ===")
print(f"n = {n}\n")
print(f"{'lambda':>6s} | {'tau':>8s} | {'MSE(W)':>10s} | {'MSE(UMVUE)':>10s} | {'감소율':>8s}")
print("-" * 55)

for lam in lambda_values:
    tau = np.exp(-lam)
    mse_w_arr = []
    mse_phi_arr = []

    for _ in range(n_sim):
        data = poisson.rvs(lam, size=n)
        w = 1.0 if data[0] == 0 else 0.0
        t = np.sum(data)
        phi = ((n - 1) / n) ** t

        mse_w_arr.append((w - tau)**2)
        mse_phi_arr.append((phi - tau)**2)

    mse_w = np.mean(mse_w_arr)
    mse_phi = np.mean(mse_phi_arr)
    reduction = (1 - mse_phi / mse_w) * 100

    print(f"  {lam:4.1f} | {tau:8.5f} | {mse_w:10.6f} | {mse_phi:10.6f} | {reduction:7.1f}%")

print(f"\nRao-Blackwell화에 의해 모든 lambda에서 MSE가 대폭 감소한다")
print(f"lambda가 클수록(tau가 작을수록) 감소율이 커진다")
print(f"→ W=I(X_1=0)은 X_1 하나만 사용하고, UMVUE는 전체 표본을 사용하기 때문이다")

# 비편향성 검증
print(f"\n=== 비편향성 검증 (lambda=2.0) ===")
lam_check = 2.0
tau_check = np.exp(-lam_check)
estimates = []
for _ in range(n_sim):
    data = poisson.rvs(lam_check, size=n)
    t = np.sum(data)
    estimates.append(((n-1)/n) ** t)

print(f"  E[phi(T)] = {np.mean(estimates):.6f}")
print(f"  tau(lambda) = {tau_check:.6f}")
print(f"  편향: {np.mean(estimates) - tau_check:.6f}")

8 응용 분야

분야	충분성+비편향성 활용	구체적 예시
임상시험	UMVUE 기반 효과 크기 추정	정규 모형에서 \(\bar{X}\) 가 처치 효과의 UMVUE
품질관리	공정 모수의 최적 추정	포아송 불량률의 UMVUE로 관리도 설계
보험수리	클레임 빈도/심도 추정	충분통계량 기반 최적 보험료 산정
신뢰성 공학	수명 분포 모수 추정	지수분포 UMVUE로 MTBF 추정
유전체학	유전형 빈도 추정	다항분포에서의 UMVUE
교육 측정	문항 난이도 추정	이항 모형에서의 최적 추정

9 관련 주제

선행 지식

충분성 원리 — 충분통계량의 정의와 인수분해 정리
데이터 축소의 원리 — 완비성, 바수 정리
최선 비편향 추정량 — UMVUE, Cramer-Rao 등호조건

상위 주제

10 참고 문헌

Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 7, Section 7.3.3.
Rao, C. R. (1945). Information and accuracy attainable in the estimation of statistical parameters. Bull. Calcutta Math. Soc., 37, 81-91.
Blackwell, D. (1947). Conditional expectation and unbiased sequential estimation. Ann. Math. Statist., 18, 105-110.
Lehmann, E. L. & Scheffe, H. (1950). Completeness, similar regions, and unbiased estimation. Sankhya, 10, 305-340.
Lehmann, E. L. & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.