Kwangmin Kim - 수렴 개념 (Convergence Concepts)

1 개요

앞선 포스트들에서 확률 표본의 성질을 유한 표본 크기 \(n\) 에서 다루었다. 이 포스트에서는 \(n \to \infty\) 일 때 통계량이 어떻게 행동하는지를 다룬다. 무한 표본이라는 개념은 이론적 허구이지만, 유한 표본에 대한 유용한 근사를 제공한다. 극한에서 표현이 단순해지기 때문이다.

핵심 질문은 두 가지이다:

표본평균 \(\bar{X}_n\) 은 \(n\) 이 커지면 모평균 \(\mu\) 에 수렴하는가? (대수의 법칙)

\(\bar{X}_n\) 의 분포는 \(n\) 이 커지면 어떤 형태에 접근하는가? (중심극한정리)

이 질문에 답하기 위해 “수렴”의 의미를 엄밀하게 정의해야 한다. 확률변수의 수렴에는 세 가지 유형이 있으며, 각각의 강도가 다르다 (Casella & Berger, 2002, Ch.5).

2 세 가지 수렴 개념

2.1 확률수렴 (Convergence in Probability)

정의: 확률수렴 (Definition 5.5.1)

확률변수의 수열 \(X_1, X_2, \ldots\) 가 확률변수 \(X\) 에 확률수렴(converge in probability)한다 함은, 모든 \(\epsilon > 0\) 에 대해:

\[ \lim_{n \to \infty} P(|X_n - X| \geq \epsilon) = 0 \quad \text{또는 동치로} \quad \lim_{n \to \infty} P(|X_n - X| < \epsilon) = 1 \]

이를 \(X_n \xrightarrow{P} X\) 로 표기한다 (Casella & Berger, 2002, Ch.5).

직관: “\(X_n\) 이 \(X\) 에서 \(\epsilon\) 이상 벗어날 확률이 0으로 간다.” 개별 표본에서 벗어남이 가끔 있을 수 있지만, 그 빈도가 점점 줄어든다.

2.2 거의 확실한 수렴 (Almost Sure Convergence)

정의: 거의 확실한 수렴 (Definition 5.5.6)

확률변수의 수열 \(X_1, X_2, \ldots\) 가 확률변수 \(X\) 에 거의 확실하게 수렴(converge almost surely)한다 함은, 모든 \(\epsilon > 0\) 에 대해:

\[ P\left(\lim_{n \to \infty} |X_n - X| < \epsilon\right) = 1 \]

이를 \(X_n \xrightarrow{a.s.} X\) 로 표기한다 (Casella & Berger, 2002, Ch.5).

2.3 두 정의의 결정적 차이

확률수렴과 거의 확실한 수렴은 유사해 보이지만 근본적으로 다르다:

	확률수렴	거의 확실한 수렴
수식	\(\lim P(\\|X_n - X\\| \geq \epsilon) = 0\)	\(P(\lim \\|X_n - X\\| < \epsilon) = 1\)
\(\lim\) 과 \(P\) 의 순서	\(P\) 먼저, \(\lim\) 나중	\(\lim\) 먼저, \(P\) 나중
직관	“빗나갈 확률이 줄어든다”	“무한히 자주 빗나가지 않는다”
허용하는 것	드물게 큰 편차 가능	큰 편차가 유한 번만 허용

비유: 시험 점수

학생이 매년 시험을 본다.

확률수렴: “해가 갈수록 낙제할 확률이 줄어든다.” 하지만 10년에 한 번씩 낙제할 수 있다 — 그 빈도가 줄어들기만 하면 된다.
거의 확실한 수렴: “어느 시점 이후로는 영원히 낙제하지 않는다.” 유한 번의 낙제 후 영구적으로 합격한다.

확률수렴은 “가끔 빗나가도 됨”, 거의 확실한 수렴은 “결국 빗나감이 멈춤”이다.

2.4 분포수렴 (Convergence in Distribution)

정의: 분포수렴 (Definition 5.5.10)

확률변수의 수열 \(X_1, X_2, \ldots\) 가 확률변수 \(X\) 에 분포수렴(converge in distribution)한다 함은:

\[ \lim_{n \to \infty} F_{X_n}(x) = F_X(x) \]

\(F_X(x)\) 가 연속인 모든 점 \(x\) 에서 성립하는 것을 말한다 (Casella & Berger, 2002, Ch.5).

분포수렴은 다른 두 수렴과 근본적으로 다르다. 수렴하는 것은 확률변수 자체가 아니라 CDF이다. 확률변수들이 같은 확률 공간에 정의될 필요조차 없다.

2.5 수렴 유형 간의 관계

\[ \text{거의 확실한 수렴} \Rightarrow \text{확률수렴} \Rightarrow \text{분포수렴} \]

역방향은 일반적으로 성립하지 않는다. 단, 한 가지 중요한 예외가 있다:

정리: 상수로의 수렴 (Theorem 5.5.13)

\(X_n\) 이 상수 \(\mu\) 에 확률수렴하는 것과 분포수렴하는 것은 동치이다 (Casella & Berger, 2002, Ch.5).

극한이 상수(확률변수가 아닌)인 경우에만 분포수렴이 확률수렴을 역으로 보장한다. 통계학에서 일관성(consistency)을 다룰 때 이 동치가 자주 쓰인다.

3 약한 대수의 법칙 (WLLN)

정리: 약한 대수의 법칙 (Theorem 5.5.2)

\(X_1, X_2, \ldots\) 가 iid이고 \(EX_i = \mu\) , \(\text{Var}(X_i) = \sigma^2 < \infty\) 이면, \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n} X_i\) 에 대해:

\[ \bar{X}_n \xrightarrow{P} \mu \]

즉, 표본평균은 모평균에 확률수렴한다 (Casella & Berger, 2002, Ch.5).

증명: 체비셰프 부등식을 직접 적용한다:

\[ P(|\bar{X}_n - \mu| \geq \epsilon) \leq \frac{\text{Var}(\bar{X}_n)}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} \to 0 \quad \text{as } n \to \infty \]

이 증명의 아름다움은 세 줄에 불과하다는 것이다. \(\text{Var}(\bar{X}_n) = \sigma^2/n\) 이 0으로 가므로 체비셰프 부등식의 상한이 0으로 수렴한다.

WLLN의 의미

“데이터를 충분히 많이 모으면 표본평균은 모평균에 가까워진다.” 이것이 통계학의 가장 기본적인 정당화이다. 표본으로 모집단을 추론할 수 있는 이유가 바로 대수의 법칙에 있다.

3.1 \(S^2\) 의 일관성

표본분산도 비슷한 결과를 가진다. 체비셰프 부등식에 의해:

\[ P(|S_n^2 - \sigma^2| \geq \epsilon) \leq \frac{\text{Var}(S_n^2)}{\epsilon^2} \]

따라서 \(\text{Var}(S_n^2) \to 0\) 이면 \(S_n^2 \xrightarrow{P} \sigma^2\) 이다. 나아가 연속함수 정리(Theorem 5.5.4)에 의해 \(S_n = \sqrt{S_n^2} \xrightarrow{P} \sigma\) 이다. \(S_n\) 은 \(\sigma\) 의 편향 추정량이지만, 편향이 점근적으로 사라진다.

4 강한 대수의 법칙 (SLLN)

정리: 강한 대수의 법칙 (Theorem 5.5.9)

\(X_1, X_2, \ldots\) 가 iid이고 \(EX_i = \mu\) , \(\text{Var}(X_i) = \sigma^2 < \infty\) 이면:

\[ P\left(\lim_{n \to \infty} |\bar{X}_n - \mu| < \epsilon\right) = 1 \]

즉, \(\bar{X}_n \xrightarrow{a.s.} \mu\) (Casella & Berger, 2002, Ch.5).

SLLN은 WLLN보다 강한 결론을 준다: 표본평균이 거의 확실하게 모평균에 수렴한다. 즉, 무한히 표본을 모으면 어느 시점 이후로는 \(\bar{X}_n\) 이 \(\mu\) 에서 벗어나지 않는다. WLLN과 SLLN 모두 유한 분산 가정을 사용하지만, 실제로는 \(E|X_i| < \infty\) 만으로도 충분하다.

5 중심극한정리 (CLT)

대수의 법칙이 “\(\bar{X}_n\) 이 \(\mu\) 에 수렴한다”를 말해주지만, 얼마나 빨리, 어떤 분포로 수렴하는지는 말해주지 않는다. 이 질문에 답하는 것이 중심극한정리이다.

정리: 중심극한정리 (Theorem 5.5.14)

\(X_1, X_2, \ldots\) 가 iid이고 \(EX_i = \mu\) , \(0 < \text{Var}(X_i) = \sigma^2 < \infty\) 이면:

\[ \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1) \]

즉, 표준화된 표본평균은 표준정규분포에 분포수렴한다 (Casella & Berger, 2002, Ch.5).

5.1 CLT의 충격적 의미

모집단 분포와 무관하다: 균일분포든, 지수분포든, 포아송분포든 — 유한 분산만 있으면 표본평균의 표준화된 버전은 정규분포에 접근한다
정규분포의 보편성을 설명한다: 현실의 많은 측정값이 근사적으로 정규분포를 따르는 이유 — 수많은 “작은” 독립적 영향의 합이기 때문이다
코시분포가 반례이다: 유한 분산이 없으면 CLT가 성립하지 않는다

5.2 CLT의 증명 (개요)

mgf를 사용한 증명이다. \(Y_i = (X_i - \mu)/\sigma\) 로 표준화하면 \(EY_i = 0\) , \(\text{Var}(Y_i) = 1\) 이다.

\[ M_{\sqrt{n}(\bar{X}_n - \mu)/\sigma}(t) = \left[M_Y\left(\frac{t}{\sqrt{n}}\right)\right]^n \]

\(M_Y(t/\sqrt{n})\) 를 \(0\) 주위에서 테일러 전개하면:

\[ M_Y\left(\frac{t}{\sqrt{n}}\right) = 1 + \frac{t^2}{2n} + R_Y\left(\frac{t}{\sqrt{n}}\right) \]

여기서 \(M_Y^{(0)}(0) = 1\) , \(M_Y^{(1)}(0) = 0\) (평균 0), \(M_Y^{(2)}(0) = 1\) (분산 1)을 사용했다. 테일러 정리에 의해 나머지 항은 \(nR_Y(t/\sqrt{n}) \to 0\) 이므로:

\[ \left[1 + \frac{1}{n}\left(\frac{t^2}{2} + nR_Y\left(\frac{t}{\sqrt{n}}\right)\right)\right]^n \to e^{t^2/2} \]

이는 \(N(0, 1)\) 의 mgf이다. \(\square\)

5.3 CLT의 실용적 응용: 정규 근사

CLT를 직접 적용하면 복잡한 정확 계산을 간단한 정규 근사로 대체할 수 있다.

예시: \(X_1, \ldots, X_{30} \overset{iid}{\sim} \text{NegBin}(10, 1/2)\) 에서 \(P(\bar{X} \leq 11)\) 을 구하려면:

정확 계산: \(P(\sum X_i \leq 330)\) 으로 거대한 음이항 확률의 합 — 팩토리얼 크기 문제로 컴퓨터도 어려움
CLT 근사: \(EX = 10\) , \(\text{Var}(X) = 20\) 이므로:

\[ P(\bar{X} \leq 11) \approx P\left(Z \leq \frac{\sqrt{30}(11-10)}{\sqrt{20}}\right) = P(Z \leq 1.225) = 0.8888 \]

정확값 0.8916과 비교하면 매우 좋은 근사이다.

6 Slutsky 정리

CLT를 실무에 적용할 때 \(\sigma\) 를 모르는 경우가 대부분이다. Slutsky 정리는 이 문제를 해결한다.

정리: Slutsky 정리 (Theorem 5.5.17)

\(X_n \xrightarrow{d} X\) 이고 \(Y_n \xrightarrow{P} a\) (상수)이면:

(a) \(Y_n X_n \xrightarrow{d} aX\)

(b) \(X_n + Y_n \xrightarrow{d} X + a\)

(Casella & Berger, 2002, Ch.5)

핵심 응용: \(S_n^2 \xrightarrow{P} \sigma^2\) 이므로 \(\sigma/S_n \xrightarrow{P} 1\) 이다. Slutsky 정리에 의해:

\[ \frac{\sqrt{n}(\bar{X}_n - \mu)}{S_n} = \frac{\sigma}{S_n} \cdot \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1) \]

따라서 \(\sigma\) 를 \(S_n\) 으로 대체해도 점근적 정규성이 보존된다. 이것이 “큰 표본에서는 \(t\) -검정과 \(z\) -검정이 동일한 결과를 준다”는 사실의 수학적 근거이다.

7 델타 방법 (Delta Method)

통계량 자체가 아닌 통계량의 함수에 관심이 있는 경우가 많다. 예를 들어 성공 확률 \(p\) 대신 오즈(odds) \(p/(1-p)\) 를 추정하고 싶을 때, \(\hat{p}/(1-\hat{p})\) 의 분포는 무엇인가?

정리: 델타 방법 (Theorem 5.5.24)

\(\sqrt{n}(Y_n - \theta) \xrightarrow{d} N(0, \sigma^2)\) 이고, \(g'(\theta)\) 가 존재하며 0이 아니면:

\[ \sqrt{n}[g(Y_n) - g(\theta)] \xrightarrow{d} N(0, \sigma^2[g'(\theta)]^2) \]

(Casella & Berger, 2002, Ch.5)

증명 (개요): 1차 테일러 전개 \(g(Y_n) \approx g(\theta) + g'(\theta)(Y_n - \theta)\) 를 적용하면:

\[ \sqrt{n}[g(Y_n) - g(\theta)] \approx g'(\theta) \cdot \sqrt{n}(Y_n - \theta) \]

Slutsky 정리에 의해 결과를 얻는다. \(\square\)

7.1 델타 방법의 직관

\(g\) 가 미분 가능하면, \(\theta\) 근처에서 \(g\) 는 거의 선형이다. 선형 변환은 정규분포를 정규분포로 보내고, 분산에 기울기의 제곱 \([g'(\theta)]^2\) 이 곱해진다.

7.2 예시: 오즈의 분산 추정

\(\hat{p} = \sum X_i / n\) 이 \(p\) 를 추정하고, \(g(p) = p/(1-p)\) 이면 \(g'(p) = 1/(1-p)^2\) 이므로:

\[ \text{Var}\left(\frac{\hat{p}}{1-\hat{p}}\right) \approx \frac{[g'(p)]^2 \cdot \text{Var}(\hat{p})}{1} = \frac{1}{(1-p)^4} \cdot \frac{p(1-p)}{n} = \frac{p}{n(1-p)^3} \]

7.3 다변량 델타 방법

\(T = (T_1, \ldots, T_k)\) 가 평균 \(\theta = (\theta_1, \ldots, \theta_k)\) 를 가진 확률 벡터이고 \(g(T)\) 에 관심이 있으면:

\[ \text{Var}(g(T)) \approx \sum_{i=1}^{k} [g_i'(\theta)]^2 \text{Var}(T_i) + 2\sum_{i>j} g_i'(\theta) g_j'(\theta) \text{Cov}(T_i, T_j) \]

이것이 “오차 전파 공식(error propagation formula)”이며, 실험 과학에서 측정 불확실성을 전파할 때 사용되는 공식의 수학적 근거이다.

8 전체 구조 요약

                     강한 대수의 법칙 (SLLN)
                     X_n →(a.s.) μ
                         ↓ (함의)
WLLN 증명 도구:      약한 대수의 법칙 (WLLN)
체비셰프 부등식  →   X_n →(P) μ
                         ↓ (함의)
CLT 증명 도구:       중심극한정리 (CLT)
mgf + 테일러   →   √n(X_n - μ)/σ →(d) N(0,1)
                         ↓ (확장)
Slutsky 정리   →   σ를 S로 대체해도 성립
                         ↓ (확장)
델타 방법      →   g(X_n)의 점근 분포

9 코드 예시

9.1 Step 1: 순수 Python 구현 (WLLN과 CLT 시각화)

import math
import random

random.seed(42)

# 지수분포(lambda=2)에서 WLLN 확인
# 모평균 = 0.5, 모분산 = 0.25
lam = 2.0
mu_true = 1.0 / lam

print("=== WLLN: 표본평균의 모평균 수렴 ===")
for n in [10, 100, 1000, 10000]:
    x_bar = sum(-math.log(1 - random.random()) / lam for _ in range(n)) / n
    print(f"  n={n:>5}: X_bar = {x_bar:.6f} (mu = {mu_true})")

# CLT 확인: 표준화된 표본평균의 분포
print(f"\n=== CLT: 표준화된 표본평균 분위수 (지수분포, n=50) ===")
n = 50
sigma = 1.0 / lam
n_sim = 50000

z_values = []
for _ in range(n_sim):
    sample = [-math.log(1 - random.random()) / lam for _ in range(n)]
    x_bar = sum(sample) / n
    z = math.sqrt(n) * (x_bar - mu_true) / sigma
    z_values.append(z)

z_values.sort()
for q, label in [(0.025, "2.5%"), (0.25, "25%"), (0.5, "50%"), (0.75, "75%"), (0.975, "97.5%")]:
    idx = int(q * len(z_values))
    # 표준정규 분위수 (근사)
    z_theory = {0.025: -1.96, 0.25: -0.674, 0.5: 0.0, 0.75: 0.674, 0.975: 1.96}
    print(f"  {label:>5}: 시뮬레이션={z_values[idx]:.3f}, 이론(N(0,1))={z_theory[q]:.3f}")

이 코드는 비정규(지수) 모집단에서도 WLLN과 CLT가 작동함을 보여준다. 표본평균이 모평균에 수렴하고 (WLLN), 표준화된 표본평균의 분위수가 표준정규 분위수에 가까워짐 (CLT)을 확인한다.

9.2 Step 2: scipy 구현 (CLT, 델타 방법, 수렴 비교)

import numpy as np
from scipy import stats

np.random.seed(42)

n_sim = 100000

# --- 1. CLT: 다양한 모집단에서의 표준화 표본평균 ---
print("=== CLT: 다양한 모집단, n=30, KS test for N(0,1) ===")
distributions = {
    "지수(1)": lambda n: np.random.exponential(1, n),
    "균일(0,1)": lambda n: np.random.uniform(0, 1, n),
    "베르누이(0.3)": lambda n: np.random.binomial(1, 0.3, n).astype(float),
    "포아송(5)": lambda n: np.random.poisson(5, n).astype(float),
}

n = 30
for name, gen in distributions.items():
    # 모평균과 모분산을 시뮬레이션으로 추정
    big_sample = gen(1000000)
    mu, sigma = big_sample.mean(), big_sample.std()

    z_stats = np.array([
        np.sqrt(n) * (gen(n).mean() - mu) / sigma
        for _ in range(n_sim)
    ])
    ks_stat, p_val = stats.kstest(z_stats, 'norm')
    print(f"  {name:>15}: KS={ks_stat:.4f}, p={p_val:.4f}")

# --- 2. 수렴 속도 비교: n에 따른 KS 통계량 ---
print(f"\n=== 수렴 속도: 지수분포, n별 KS 통계량 ===")
for n in [5, 10, 30, 100, 500]:
    z_stats = np.array([
        np.sqrt(n) * (np.random.exponential(1, n).mean() - 1) / 1
        for _ in range(n_sim)
    ])
    ks_stat, _ = stats.kstest(z_stats, 'norm')
    print(f"  n={n:>3}: KS={ks_stat:.4f}")

# --- 3. 델타 방법: 오즈 추정량의 분산 ---
print(f"\n=== 델타 방법: 오즈 p/(1-p) 의 분산, p=0.3, n=100 ===")
p_true = 0.3
n = 100
odds_true = p_true / (1 - p_true)

odds_estimates = np.array([
    (s := np.random.binomial(1, p_true, n).mean()) / (1 - s) if s < 1 else np.nan
    for _ in range(n_sim)
])
odds_estimates = odds_estimates[~np.isnan(odds_estimates)]

var_obs = odds_estimates.var()
var_delta = p_true / (n * (1 - p_true)**3)

print(f"  Var(odds) 시뮬레이션 = {var_obs:.6f}")
print(f"  Var(odds) 델타 방법  = {var_delta:.6f}")
print(f"  E[odds] 시뮬레이션   = {odds_estimates.mean():.4f} (이론: {odds_true:.4f})")

# --- 4. Slutsky: sigma를 S로 대체 ---
print(f"\n=== Slutsky: sigma vs S 대체, 정규(5,4) n=30 ===")
mu, sigma = 5.0, 2.0
n = 30

z_sigma = np.array([
    np.sqrt(n) * (np.random.normal(mu, sigma, n).mean() - mu) / sigma
    for _ in range(n_sim)
])
z_s = np.array([
    np.sqrt(n) * ((s := np.random.normal(mu, sigma, n)).mean() - mu) / s.std(ddof=1)
    for _ in range(n_sim)
])

ks_sigma, _ = stats.kstest(z_sigma, 'norm')
ks_s, _ = stats.kstest(z_s, 'norm')
print(f"  sigma 사용: KS={ks_sigma:.4f}")
print(f"  S 사용:     KS={ks_s:.4f}  (Slutsky에 의해 점근적으로 동일)")

이 코드는 네 가지를 검증한다: (1) 다양한 비정규 모집단에서 CLT의 성립 (KS 검정), (2) 표본 크기에 따른 정규 근사의 수렴 속도, (3) 델타 방법에 의한 오즈 추정량 분산의 이론값과 시뮬레이션 비교, (4) Slutsky 정리에 의해 \(\sigma\) 를 \(S\) 로 대체해도 점근 분포가 보존됨을 확인.

10 응용 분야

분야	수렴 개념의 역할	구체적 예시
표본 크기 결정	CLT → 표본평균의 분산 \(\sigma^2/n\) → 필요한 \(n\) 계산	임상시험 검정력 분석
가설 검정	CLT → 대표본에서 \(z\) -검정 사용 가능	비율 차이 검정
신뢰구간	CLT + Slutsky → \(\bar{X} \pm z_{\alpha/2} S/\sqrt{n}\)	설문조사 오차 한계
비선형 추정량	델타 방법 → \(g(\hat{\theta})\) 의 분산 근사	오즈비, 상대위험도의 신뢰구간
부트스트랩	WLLN → 경험적 분포 → 모집단 분포 근사	복잡한 통계량의 표준오차
베이지안 추론	CLT → 사후분포의 정규 근사 (Bernstein-von Mises)	대표본에서 사전분포의 영향 소멸
기계학습	일관성 → SGD가 최적해에 수렴	확률적 경사하강법의 수렴 보장

11 관련 주제

선행 지식

후속 주제

데이터 축소의 원리 (Sufficiency, Likelihood, Equivariance)
점추정 (Point Estimation) — 일관성, 점근 효율성
구간추정 (Interval Estimation) — CLT 기반 신뢰구간

관련 개념

정규 모집단에서의 표본분포 (Sampling from the Normal Distribution)
Monte Carlo Simulation — 수렴의 시뮬레이션 확인