1 왜 이 장이 중요한가
확률론(Ch.1-4)은 “모집단의 분포를 안다”는 전제 아래 확률변수의 성질을 다룬다. 그러나 현실에서는 모집단 분포를 모른다. 우리가 가진 것은 표본(sample) 뿐이다. Ch.5는 이 간극을 메우는 장으로, 핵심 질문은 다음과 같다:
표본으로부터 계산한 양(통계량)은 어떤 분포를 따르며, 모집단에 대해 무엇을 말해주는가?
이 질문에 답하지 못하면 추정(Ch.7), 검정(Ch.8), 구간추정(Ch.9)으로 넘어갈 수 없다. 즉, Ch.5는 확률론의 도구를 통계적 추론에 연결하는 다리이다.
모집단은 공장의 전체 생산 라인이다. 확률론은 “이 라인이 정규분포로 제품을 만든다”고 가정하고 제품 하나하나의 확률을 계산한다. 그러나 실제 검사관은 전수 조사를 할 수 없다. 표본 10개를 뽑아 평균과 분산을 구하고, 그것으로 전체 라인의 품질을 판단해야 한다. Ch.5는 “표본 10개의 평균이 어떤 분포를 따르는가?”를 알려주는 장이다.
2 Ch.5의 전체 구조
Ch.5는 6개의 절로 구성되며, 아래에서 위로 쌓이는 논리적 계층 구조를 가진다.
| 절 | 주제 | 핵심 질문 | 역할 |
|---|---|---|---|
| 5.1 | 확률 표본의 기본 개념 | iid란 무엇인가? | 전체의 토대 |
| 5.2 | 확률변수 합의 성질 | \(\bar{X}\) 와 \(S^2\) 의 기댓값과 분산은? | 통계량의 기본 성질 |
| 5.3 | 정규 모집단에서의 표본분포 | \(\chi^2\) , \(t\) , \(F\) 분포는 어디서 나오는가? | 추론의 핵심 분포 |
| 5.4 | 순서통계량 | 표본의 최솟값, 최댓값, 중앙값의 분포는? | 비모수 추론의 기반 |
| 5.5 | 수렴 개념 | 표본이 커지면 통계량이 모수에 수렴하는가? | 점근 이론의 기초 |
| 5.6 | 확률 표본의 생성 | 컴퓨터로 난수를 어떻게 만드는가? | 시뮬레이션의 토대 |
각 절은 독립적이지 않다. 5.1의 iid 정의가 5.2의 표본평균 성질을 가능하게 하고, 5.2의 결과가 5.3의 정규 표본분포로 이어지며, 5.5의 수렴 개념은 이 모든 것이 “큰 표본에서도 작동하는가?”를 보장한다.
3 확률 표본의 기본 개념 (5.1)
3.1 정의
확률변수 \(X_1, \ldots, X_n\) 이 모집단 \(f(x)\) 로부터의 크기 \(n\) 인 확률 표본이라 함은, \(X_1, \ldots, X_n\) 이 상호 독립(mutually independent)이고 각 \(X_i\) 의 주변 pdf 또는 pmf가 동일한 함수 \(f(x)\) 인 것을 말한다. 이를 독립 동일 분포(independent and identically distributed, iid) 확률변수라 한다 (Casella & Berger, 2002, Ch.5).
이 정의의 핵심은 두 가지 조건이다:
- 독립(independence): 한 관측값이 다른 관측값에 영향을 주지 않는다
- 동일 분포(identical distribution): 모든 관측값이 같은 모집단에서 나온다
iid 가정 아래 결합 pdf/pmf는 극도로 단순해진다:
\[ f(x_1, \ldots, x_n | \theta) = \prod_{i=1}^{n} f(x_i | \theta) \]
이 곱셈 구조가 이후 모든 전개의 출발점이다. 결합분포가 주변분포의 곱으로 분해되므로, 복잡한 다변량 문제가 단변량 문제들의 조합으로 환원된다.
3.2 유한 모집단과 무한 모집단
| 표본 추출 방법 | 독립성 | 동일 분포 | iid 여부 |
|---|---|---|---|
| 복원 추출(with replacement) | 충족 | 충족 | iid |
| 비복원 추출(without replacement) | 불충족 | 충족 | iid 아님 |
비복원 추출에서 독립성이 깨지는 이유는 직관적이다. 첫 번째로 \(y\) 를 뽑으면 두 번째에서 \(y\) 를 뽑을 확률은 0이 된다. 그러나 모집단 크기 \(N\) 이 표본 크기 \(n\) 에 비해 충분히 크면, 비복원 추출도 iid로 근사할 수 있다. 조건부 확률 \(1/(N-i+1)\) 이 \(1/N\) 에 가까워지기 때문이다.
4 확률변수 합의 성질 (5.2)
4.1 통계량의 정의
표본 \(X_1, \ldots, X_n\) 의 함수 \(Y = T(X_1, \ldots, X_n)\) 을 통계량이라 한다. 단, \(T\) 는 미지의 모수에 의존하지 않아야 한다. 통계량의 확률분포를 표본분포(sampling distribution)라 한다 (Casella & Berger, 2002, Ch.5).
통계량의 정의에서 “모수에 의존하지 않는다”는 조건이 핵심이다. 표본평균 \(\bar{X}\) 는 통계량이지만, \(\bar{X} - \mu\) 는 미지의 \(\mu\) 를 포함하므로 통계량이 아니다. 관측 데이터만으로 계산할 수 있어야 한다.
4.2 표본평균과 표본분산
가장 기본적인 두 통계량은 다음과 같다:
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
이 두 통계량의 기본 성질은 모집단 분포에 무관하게 성립한다 (유한 분산만 가정):
| 성질 | 결과 | 의미 |
|---|---|---|
| \(E[\bar{X}] = \mu\) | 표본평균은 모평균의 비편향 추정량 | “평균적으로 맞는다” |
| \(\text{Var}(\bar{X}) = \sigma^2 / n\) | 표본평균의 분산은 \(n\) 에 반비례 | “표본이 클수록 정밀하다” |
| \(E[S^2] = \sigma^2\) | 표본분산은 모분산의 비편향 추정량 | ” \(n-1\) 로 나누는 이유” |
\(\text{Var}(\bar{X}) = \sigma^2 / n\) 은 통계학에서 가장 중요한 결과 중 하나이다. 표본 크기를 4배로 늘리면 표본평균의 표준편차가 절반으로 줄어든다. 이것이 “더 많은 데이터를 모으면 더 정확한 추정을 할 수 있다”는 직관의 수학적 근거이다.
\(S^2\) 의 분모가 \(n\) 이 아닌 \(n-1\) 인 이유도 여기서 명확해진다. \(n\) 으로 나누면 \(E[S^2] = \frac{n-1}{n}\sigma^2\) 가 되어 모분산을 체계적으로 과소추정한다. \(n-1\) 로 나누는 것은 비편향성(unbiasedness)을 확보하기 위한 보정이다.
4.3 표본평균의 표본분포
표본평균의 분포를 도출하는 핵심 도구는 적률생성함수(mgf)이다:
\[ M_{\bar{X}}(t) = [M_X(t/n)]^n \]
이 공식을 적용하면 많은 분포에서 \(\bar{X}\) 의 분포를 즉시 구할 수 있다:
| 모집단 | \(\bar{X}\) 의 분포 | 핵심 관찰 |
|---|---|---|
| \(N(\mu, \sigma^2)\) | \(N(\mu, \sigma^2/n)\) | 정규성 보존, 분산 축소 |
| \(\text{Gamma}(\alpha, \beta)\) | \(\text{Gamma}(n\alpha, \beta/n)\) | 감마 구조 보존 |
| \(\text{Cauchy}(0, 1)\) | \(\text{Cauchy}(0, 1)\) | 분산 축소 없음! |
코시 분포의 경우가 특히 흥미롭다. 표본평균의 분포가 개별 관측값의 분포와 동일하다. 표본 크기를 아무리 키워도 정밀도가 향상되지 않는다. 이는 코시 분포의 분산이 존재하지 않기 때문이며, \(\text{Var}(\bar{X}) = \sigma^2/n\) 이 유한 분산 가정에 의존한다는 사실을 극적으로 보여준다.
4.4 컨볼루션 공식
mgf가 존재하지 않거나 인식 불가능한 경우, 독립 확률변수 합의 분포를 구하는 대안적 방법이 컨볼루션 공식이다:
\[ f_Z(z) = \int_{-\infty}^{\infty} f_X(w) f_Y(z - w) \, dw \]
여기서 \(Z = X + Y\) 이다. 이 공식은 적분 계산이 필요하지만, mgf 방법이 작동하지 않는 상황에서 유용하다.
5 정규 모집단에서의 표본분포 (5.3)
정규분포는 통계학에서 특별한 위치를 차지한다. 정규 모집단에서 추출한 표본은 놀라운 성질들을 가지며, 이로부터 \(\chi^2\) , \(t\) , \(F\) 분포가 자연스럽게 도출된다.
5.1 핵심 정리: \(\bar{X}\) 와 \(S^2\) 의 독립성
\(X_1, \ldots, X_n \overset{iid}{\sim} N(\mu, \sigma^2)\) 이면:
- \(\bar{X}\) 와 \(S^2\) 는 독립이다
- \(\bar{X} \sim N(\mu, \sigma^2/n)\)
- \((n-1)S^2/\sigma^2 \sim \chi^2_{n-1}\)
(Casella & Berger, 2002, Ch.5)
\(\bar{X}\) 와 \(S^2\) 의 독립성은 정규분포 고유의 성질이다. 직관적으로 보면 놀라운 결과인데, 표본평균(위치)과 표본분산(산포)이 서로 다른 정보를 담고 있어 하나를 알아도 다른 하나에 대해 아무것도 말해주지 않는다는 뜻이다. 이 독립성이 없다면 \(t\) -검정과 \(F\) -검정의 이론적 기반이 무너진다.
5.2 파생 분포
\(\bar{X}\) 와 \(S^2\) 의 독립성으로부터 핵심적인 검정 분포가 도출된다:
| 통계량 | 분포 | 용도 |
|---|---|---|
| \(\frac{(n-1)S^2}{\sigma^2}\) | \(\chi^2_{n-1}\) | 분산 검정 |
| \(\frac{\bar{X} - \mu}{S/\sqrt{n}}\) | \(t_{n-1}\) | 평균 검정 (표본) |
| \(\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2}\) | \(F_{n_1-1, n_2-1}\) | 두 분산 비교 |
이 분포들은 “모수를 모르는 상태에서 추론한다”는 현실적 문제를 해결한다. 예를 들어 모분산 \(\sigma^2\) 를 모를 때, \(Z = (\bar{X} - \mu)/(\sigma/\sqrt{n})\) 은 계산할 수 없지만 \(T = (\bar{X} - \mu)/(S/\sqrt{n})\) 은 계산할 수 있다. \(T\) 가 \(t\) -분포를 따른다는 사실이 알려져 있으므로 이를 이용해 \(\mu\) 에 대한 추론이 가능하다.
6 순서통계량 (5.4)
6.1 정의
표본 \(X_1, \ldots, X_n\) 을 크기순으로 재배열한 것이 순서통계량이다:
\[ X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)} \]
- \(X_{(1)}\) : 최솟값(minimum)
- \(X_{(n)}\) : 최댓값(maximum)
- \(X_{(\lceil n/2 \rceil)}\) : 표본 중앙값(sample median)
순서통계량은 원래 표본과 달리 독립이 아니다. \(X_{(1)}\) 이 크면 \(X_{(2)}\) 도 클 수밖에 없기 때문이다. 그러나 순서통계량의 결합분포와 주변분포를 도출하는 체계적인 방법이 존재한다.
6.2 왜 중요한가
| 응용 | 순서통계량의 역할 |
|---|---|
| 비모수 검정 | 순위 기반 검정 (Wilcoxon, Mann-Whitney) |
| 로버스트 추정 | 절사평균(trimmed mean), 중앙값 |
| 신뢰구간 | 분포 무관(distribution-free) 구간 |
| 극값 이론 | 최댓값/최솟값의 분포 → 보험, 금융 |
| 품질관리 | 범위(range) \(R = X_{(n)} - X_{(1)}\) |
순서통계량은 모집단 분포에 대한 가정이 약해도 사용할 수 있다는 점에서 비모수 통계의 기반이 된다.
7 수렴 개념 (5.5)
표본 크기 \(n\) 이 커질 때 통계량이 어떻게 행동하는지를 다루는 것이 수렴 이론이다. 세 가지 수렴 개념이 정의된다:
| 수렴 유형 | 정의 (직관) | 강도 |
|---|---|---|
| 확률수렴 (convergence in probability) | “빗나갈 확률이 0으로 간다” | 중간 |
| 거의 확실한 수렴 (almost sure convergence) | “무한히 자주 빗나가지 않는다” | 강함 |
| 분포수렴 (convergence in distribution) | “CDF가 수렴한다” | 약함 |
이들의 관계는 다음과 같다:
\[ \text{거의 확실한 수렴} \Rightarrow \text{확률수렴} \Rightarrow \text{분포수렴} \]
역방향은 일반적으로 성립하지 않는다.
7.1 핵심 정리
| 정리 | 내용 | 의미 |
|---|---|---|
| 약한 대수의 법칙 (WLLN) | \(\bar{X}_n \xrightarrow{P} \mu\) | 표본평균은 모평균에 확률수렴한다 |
| 중심극한정리 (CLT) | \(\sqrt{n}(\bar{X}_n - \mu)/\sigma \xrightarrow{d} N(0,1)\) | 모집단 분포와 무관하게 표본평균은 근사적으로 정규분포를 따른다 |
| 델타 방법 (Delta Method) | \(\sqrt{n}[g(\bar{X}_n) - g(\mu)] \xrightarrow{d} N(0, \sigma^2 [g'(\mu)]^2)\) | 통계량의 함수도 점근적으로 정규분포를 따른다 |
CLT는 통계학에서 가장 심오한 결과 중 하나이다. 모집단이 어떤 분포를 따르든 (유한 분산만 있으면), 표본평균의 표준화된 버전은 표본이 커질수록 정규분포에 가까워진다. 이것이 정규분포가 통계적 추론에서 지배적인 이유이다.
8 확률 표본의 생성 (5.6)
이론적 결과를 실무에 적용하려면 컴퓨터로 특정 분포에서 표본을 생성할 수 있어야 한다. 두 가지 핵심 방법이 있다:
| 방법 | 원리 | 장단점 |
|---|---|---|
| 역변환법 (Inverse Transform) | \(F^{-1}(U)\) , \(U \sim \text{Uniform}(0,1)\) | CDF 역함수가 존재하면 정확, 없으면 불가 |
| 수락-기각법 (Accept-Reject) | 봉투 분포에서 뽑고 조건부로 수락 | 범용적이지만 비효율적일 수 있음 |
역변환법의 직관은 간단하다. 균일분포 난수 \(U\) 를 CDF의 역함수에 통과시키면 원하는 분포를 따르는 확률변수가 된다. 이는 확률적분변환(probability integral transformation)의 역이다.
9 코드 예시
9.1 Step 1: 순수 Python 구현 (표본평균의 성질 확인)
import math
import random
random.seed(42)
# 모집단: 지수분포 (lambda=2, 즉 평균=0.5)
lam = 2.0
mu_true = 1.0 / lam # 모평균 = 0.5
var_true = 1.0 / lam**2 # 모분산 = 0.25
# 다양한 표본 크기에 대해 표본평균의 분산 확인
for n in [10, 100, 1000, 10000]:
sample_means = []
for _ in range(5000):
sample = [-math.log(1 - random.random()) / lam for _ in range(n)]
x_bar = sum(sample) / n
sample_means.append(x_bar)
mean_of_means = sum(sample_means) / len(sample_means)
var_of_means = sum((m - mean_of_means)**2 for m in sample_means) / (len(sample_means) - 1)
print(f"n={n:>5}: E[X_bar]={mean_of_means:.4f} (이론: {mu_true:.4f}), "
f"Var(X_bar)={var_of_means:.6f} (이론: {var_true/n:.6f})")위 코드는 역변환법으로 지수분포 표본을 직접 생성하고, Theorem 5.2.6의 \(E[\bar{X}] = \mu\) 와 \(\text{Var}(\bar{X}) = \sigma^2/n\) 을 시뮬레이션으로 확인한다. \(n\) 이 커질수록 표본평균의 분산이 이론값 \(\sigma^2/n\) 에 가까워지는 것을 관찰할 수 있다.
9.2 Step 2: scipy/numpy 구현
import numpy as np
from scipy import stats
np.random.seed(42)
# 정규 모집단에서 X_bar와 S^2의 독립성 시뮬레이션 확인
n = 30
mu, sigma = 5.0, 2.0
n_sim = 10000
x_bars = np.zeros(n_sim)
s_squareds = np.zeros(n_sim)
for i in range(n_sim):
sample = np.random.normal(mu, sigma, n)
x_bars[i] = sample.mean()
s_squareds[i] = sample.var(ddof=1)
# 상관계수로 독립성 확인 (정규 표본에서 X_bar와 S^2는 독립)
corr = np.corrcoef(x_bars, s_squareds)[0, 1]
print(f"Corr(X_bar, S^2) = {corr:.4f} (이론: 0, 정규분포의 독립성)")
# (n-1)S^2/sigma^2의 분포 확인 (카이제곱)
chi2_stats = (n - 1) * s_squareds / sigma**2
ks_stat, p_value = stats.kstest(chi2_stats, 'chi2', args=(n - 1,))
print(f"KS test for chi-squared({n-1}): statistic={ks_stat:.4f}, p-value={p_value:.4f}")
# X_bar의 분포 확인 (정규분포)
z_stats = (x_bars - mu) / (sigma / np.sqrt(n))
ks_stat, p_value = stats.kstest(z_stats, 'norm')
print(f"KS test for N(0,1): statistic={ks_stat:.4f}, p-value={p_value:.4f}")이 코드는 Theorem 5.3.1의 세 가지 결과를 시뮬레이션으로 검증한다: (1) \(\bar{X}\) 와 \(S^2\) 의 상관계수가 0에 가까운지 (독립성), (2) \((n-1)S^2/\sigma^2\) 이 \(\chi^2_{n-1}\) 분포를 따르는지, (3) 표준화된 \(\bar{X}\) 가 표준정규분포를 따르는지 확인한다.
10 응용 분야
| 분야 | Ch.5 개념의 활용 | 구체적 예시 |
|---|---|---|
| 임상시험 | 표본평균의 분포, \(t\) -검정 | 신약 투여군과 대조군의 평균 혈압 비교 |
| 제조 품질관리 | \(\chi^2\) 검정, 관리도 | 공정 분산이 규격 이내인지 검정 |
| 금융 | 순서통계량, 극값 이론 | VaR(Value at Risk) 계산 |
| 생태학 | 표본분포, CLT | 개체군 크기의 신뢰구간 추정 |
| A/B 테스트 | CLT, 델타 방법 | 전환율 차이의 표본분포와 유의성 판정 |
| 시뮬레이션 | 역변환법, 수락-기각법 | MCMC, 부트스트랩 표본 생성 |
11 후속 포스트 안내
이 개요에서 다룬 각 절의 상세한 내용은 아래 개별 포스트에서 다룬다:
12 관련 주제
선행 지식
- 다변량 확률변수 개요 (Multiple Random Variables Overview)
- 결합분포와 주변분포 (Joint and Marginal Distributions)
- 공분산과 상관계수 (Covariance and Correlation)
- 확률 부등식과 항등식 (Inequalities and Identities)
후속 주제