Kwangmin Kim - 확률 표본의 성질 개요 (Properties of a Random Sample: Overview)

1 왜 이 장이 중요한가

확률론(Ch.1-4)은 “모집단의 분포를 안다”는 전제 아래 확률변수의 성질을 다룬다. 그러나 현실에서는 모집단 분포를 모른다. 우리가 가진 것은 표본(sample) 뿐이다. Ch.5는 이 간극을 메우는 장으로, 핵심 질문은 다음과 같다:

표본으로부터 계산한 양(통계량)은 어떤 분포를 따르며, 모집단에 대해 무엇을 말해주는가?

이 질문에 답하지 못하면 추정(Ch.7), 검정(Ch.8), 구간추정(Ch.9)으로 넘어갈 수 없다. 즉, Ch.5는 확률론의 도구를 통계적 추론에 연결하는 다리이다.

비유: 공장과 검사관

모집단은 공장의 전체 생산 라인이다. 확률론은 “이 라인이 정규분포로 제품을 만든다”고 가정하고 제품 하나하나의 확률을 계산한다. 그러나 실제 검사관은 전수 조사를 할 수 없다. 표본 10개를 뽑아 평균과 분산을 구하고, 그것으로 전체 라인의 품질을 판단해야 한다. Ch.5는 “표본 10개의 평균이 어떤 분포를 따르는가?”를 알려주는 장이다.

2 Ch.5의 전체 구조

Ch.5는 6개의 절로 구성되며, 아래에서 위로 쌓이는 논리적 계층 구조를 가진다.

절	주제	핵심 질문	역할
5.1	확률 표본의 기본 개념	iid란 무엇인가?	전체의 토대
5.2	확률변수 합의 성질	\(\bar{X}\) 와 \(S^2\) 의 기댓값과 분산은?	통계량의 기본 성질
5.3	정규 모집단에서의 표본분포	\(\chi^2\) , \(t\) , \(F\) 분포는 어디서 나오는가?	추론의 핵심 분포
5.4	순서통계량	표본의 최솟값, 최댓값, 중앙값의 분포는?	비모수 추론의 기반
5.5	수렴 개념	표본이 커지면 통계량이 모수에 수렴하는가?	점근 이론의 기초
5.6	확률 표본의 생성	컴퓨터로 난수를 어떻게 만드는가?	시뮬레이션의 토대

각 절은 독립적이지 않다. 5.1의 iid 정의가 5.2의 표본평균 성질을 가능하게 하고, 5.2의 결과가 5.3의 정규 표본분포로 이어지며, 5.5의 수렴 개념은 이 모든 것이 “큰 표본에서도 작동하는가?”를 보장한다.

3 확률 표본의 기본 개념 (5.1)

3.1 정의

정의: 확률 표본 (Random Sample)

확률변수 \(X_1, \ldots, X_n\) 이 모집단 \(f(x)\) 로부터의 크기 \(n\) 인 확률 표본이라 함은, \(X_1, \ldots, X_n\) 이 상호 독립(mutually independent)이고 각 \(X_i\) 의 주변 pdf 또는 pmf가 동일한 함수 \(f(x)\) 인 것을 말한다. 이를 독립 동일 분포(independent and identically distributed, iid) 확률변수라 한다 (Casella & Berger, 2002, Ch.5).

이 정의의 핵심은 두 가지 조건이다:

독립(independence): 한 관측값이 다른 관측값에 영향을 주지 않는다
동일 분포(identical distribution): 모든 관측값이 같은 모집단에서 나온다

iid 가정 아래 결합 pdf/pmf는 극도로 단순해진다:

\[ f(x_1, \ldots, x_n | \theta) = \prod_{i=1}^{n} f(x_i | \theta) \]

이 곱셈 구조가 이후 모든 전개의 출발점이다. 결합분포가 주변분포의 곱으로 분해되므로, 복잡한 다변량 문제가 단변량 문제들의 조합으로 환원된다.

3.2 유한 모집단과 무한 모집단

표본 추출 방법	독립성	동일 분포	iid 여부
복원 추출(with replacement)	충족	충족	iid
비복원 추출(without replacement)	불충족	충족	iid 아님

비복원 추출에서 독립성이 깨지는 이유는 직관적이다. 첫 번째로 \(y\) 를 뽑으면 두 번째에서 \(y\) 를 뽑을 확률은 0이 된다. 그러나 모집단 크기 \(N\) 이 표본 크기 \(n\) 에 비해 충분히 크면, 비복원 추출도 iid로 근사할 수 있다. 조건부 확률 \(1/(N-i+1)\) 이 \(1/N\) 에 가까워지기 때문이다.

4 확률변수 합의 성질 (5.2)

4.1 통계량의 정의

정의: 통계량 (Statistic)

표본 \(X_1, \ldots, X_n\) 의 함수 \(Y = T(X_1, \ldots, X_n)\) 을 통계량이라 한다. 단, \(T\) 는 미지의 모수에 의존하지 않아야 한다. 통계량의 확률분포를 표본분포(sampling distribution)라 한다 (Casella & Berger, 2002, Ch.5).

통계량의 정의에서 “모수에 의존하지 않는다”는 조건이 핵심이다. 표본평균 \(\bar{X}\) 는 통계량이지만, \(\bar{X} - \mu\) 는 미지의 \(\mu\) 를 포함하므로 통계량이 아니다. 관측 데이터만으로 계산할 수 있어야 한다.

4.2 표본평균과 표본분산

가장 기본적인 두 통계량은 다음과 같다:

\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]

이 두 통계량의 기본 성질은 모집단 분포에 무관하게 성립한다 (유한 분산만 가정):

성질	결과	의미
\(E[\bar{X}] = \mu\)	표본평균은 모평균의 비편향 추정량	“평균적으로 맞는다”
\(\text{Var}(\bar{X}) = \sigma^2 / n\)	표본평균의 분산은 \(n\) 에 반비례	“표본이 클수록 정밀하다”
\(E[S^2] = \sigma^2\)	표본분산은 모분산의 비편향 추정량	” \(n-1\) 로 나누는 이유”

\(\text{Var}(\bar{X}) = \sigma^2 / n\) 은 통계학에서 가장 중요한 결과 중 하나이다. 표본 크기를 4배로 늘리면 표본평균의 표준편차가 절반으로 줄어든다. 이것이 “더 많은 데이터를 모으면 더 정확한 추정을 할 수 있다”는 직관의 수학적 근거이다.

\(S^2\) 의 분모가 \(n\) 이 아닌 \(n-1\) 인 이유도 여기서 명확해진다. \(n\) 으로 나누면 \(E[S^2] = \frac{n-1}{n}\sigma^2\) 가 되어 모분산을 체계적으로 과소추정한다. \(n-1\) 로 나누는 것은 비편향성(unbiasedness)을 확보하기 위한 보정이다.

4.3 표본평균의 표본분포

표본평균의 분포를 도출하는 핵심 도구는 적률생성함수(mgf)이다:

\[ M_{\bar{X}}(t) = [M_X(t/n)]^n \]

이 공식을 적용하면 많은 분포에서 \(\bar{X}\) 의 분포를 즉시 구할 수 있다:

모집단	\(\bar{X}\) 의 분포	핵심 관찰
\(N(\mu, \sigma^2)\)	\(N(\mu, \sigma^2/n)\)	정규성 보존, 분산 축소
\(\text{Gamma}(\alpha, \beta)\)	\(\text{Gamma}(n\alpha, \beta/n)\)	감마 구조 보존
\(\text{Cauchy}(0, 1)\)	\(\text{Cauchy}(0, 1)\)	분산 축소 없음!

코시 분포의 경우가 특히 흥미롭다. 표본평균의 분포가 개별 관측값의 분포와 동일하다. 표본 크기를 아무리 키워도 정밀도가 향상되지 않는다. 이는 코시 분포의 분산이 존재하지 않기 때문이며, \(\text{Var}(\bar{X}) = \sigma^2/n\) 이 유한 분산 가정에 의존한다는 사실을 극적으로 보여준다.

4.4 컨볼루션 공식

mgf가 존재하지 않거나 인식 불가능한 경우, 독립 확률변수 합의 분포를 구하는 대안적 방법이 컨볼루션 공식이다:

\[ f_Z(z) = \int_{-\infty}^{\infty} f_X(w) f_Y(z - w) \, dw \]

여기서 \(Z = X + Y\) 이다. 이 공식은 적분 계산이 필요하지만, mgf 방법이 작동하지 않는 상황에서 유용하다.

5 정규 모집단에서의 표본분포 (5.3)

정규분포는 통계학에서 특별한 위치를 차지한다. 정규 모집단에서 추출한 표본은 놀라운 성질들을 가지며, 이로부터 \(\chi^2\) , \(t\) , \(F\) 분포가 자연스럽게 도출된다.

5.1 핵심 정리: \(\bar{X}\) 와 \(S^2\) 의 독립성

정리: 정규 표본에서의 \(\bar{X}\) 와 \(S^2\) (Theorem 5.3.1)

\(X_1, \ldots, X_n \overset{iid}{\sim} N(\mu, \sigma^2)\) 이면:

\(\bar{X}\) 와 \(S^2\) 는 독립이다
\(\bar{X} \sim N(\mu, \sigma^2/n)\)
\((n-1)S^2/\sigma^2 \sim \chi^2_{n-1}\)

(Casella & Berger, 2002, Ch.5)

\(\bar{X}\) 와 \(S^2\) 의 독립성은 정규분포 고유의 성질이다. 직관적으로 보면 놀라운 결과인데, 표본평균(위치)과 표본분산(산포)이 서로 다른 정보를 담고 있어 하나를 알아도 다른 하나에 대해 아무것도 말해주지 않는다는 뜻이다. 이 독립성이 없다면 \(t\) -검정과 \(F\) -검정의 이론적 기반이 무너진다.

5.2 파생 분포

\(\bar{X}\) 와 \(S^2\) 의 독립성으로부터 핵심적인 검정 분포가 도출된다:

통계량	분포	용도
\(\frac{(n-1)S^2}{\sigma^2}\)	\(\chi^2_{n-1}\)	분산 검정
\(\frac{\bar{X} - \mu}{S/\sqrt{n}}\)	\(t_{n-1}\)	평균 검정 (표본)
\(\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2}\)	\(F_{n_1-1, n_2-1}\)	두 분산 비교

이 분포들은 “모수를 모르는 상태에서 추론한다”는 현실적 문제를 해결한다. 예를 들어 모분산 \(\sigma^2\) 를 모를 때, \(Z = (\bar{X} - \mu)/(\sigma/\sqrt{n})\) 은 계산할 수 없지만 \(T = (\bar{X} - \mu)/(S/\sqrt{n})\) 은 계산할 수 있다. \(T\) 가 \(t\) -분포를 따른다는 사실이 알려져 있으므로 이를 이용해 \(\mu\) 에 대한 추론이 가능하다.

6 순서통계량 (5.4)

6.1 정의

표본 \(X_1, \ldots, X_n\) 을 크기순으로 재배열한 것이 순서통계량이다:

\[ X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)} \]

\(X_{(1)}\) : 최솟값(minimum)
\(X_{(n)}\) : 최댓값(maximum)
\(X_{(\lceil n/2 \rceil)}\) : 표본 중앙값(sample median)

순서통계량은 원래 표본과 달리 독립이 아니다. \(X_{(1)}\) 이 크면 \(X_{(2)}\) 도 클 수밖에 없기 때문이다. 그러나 순서통계량의 결합분포와 주변분포를 도출하는 체계적인 방법이 존재한다.

6.2 왜 중요한가

응용	순서통계량의 역할
비모수 검정	순위 기반 검정 (Wilcoxon, Mann-Whitney)
로버스트 추정	절사평균(trimmed mean), 중앙값
신뢰구간	분포 무관(distribution-free) 구간
극값 이론	최댓값/최솟값의 분포 → 보험, 금융
품질관리	범위(range) \(R = X_{(n)} - X_{(1)}\)

순서통계량은 모집단 분포에 대한 가정이 약해도 사용할 수 있다는 점에서 비모수 통계의 기반이 된다.

7 수렴 개념 (5.5)

표본 크기 \(n\) 이 커질 때 통계량이 어떻게 행동하는지를 다루는 것이 수렴 이론이다. 세 가지 수렴 개념이 정의된다:

수렴 유형	정의 (직관)	강도
확률수렴 (convergence in probability)	“빗나갈 확률이 0으로 간다”	중간
거의 확실한 수렴 (almost sure convergence)	“무한히 자주 빗나가지 않는다”	강함
분포수렴 (convergence in distribution)	“CDF가 수렴한다”	약함

이들의 관계는 다음과 같다:

\[ \text{거의 확실한 수렴} \Rightarrow \text{확률수렴} \Rightarrow \text{분포수렴} \]

역방향은 일반적으로 성립하지 않는다.

7.1 핵심 정리

정리	내용	의미
약한 대수의 법칙 (WLLN)	\(\bar{X}_n \xrightarrow{P} \mu\)	표본평균은 모평균에 확률수렴한다
중심극한정리 (CLT)	\(\sqrt{n}(\bar{X}_n - \mu)/\sigma \xrightarrow{d} N(0,1)\)	모집단 분포와 무관하게 표본평균은 근사적으로 정규분포를 따른다
델타 방법 (Delta Method)	\(\sqrt{n}[g(\bar{X}_n) - g(\mu)] \xrightarrow{d} N(0, \sigma^2 [g'(\mu)]^2)\)	통계량의 함수도 점근적으로 정규분포를 따른다

CLT는 통계학에서 가장 심오한 결과 중 하나이다. 모집단이 어떤 분포를 따르든 (유한 분산만 있으면), 표본평균의 표준화된 버전은 표본이 커질수록 정규분포에 가까워진다. 이것이 정규분포가 통계적 추론에서 지배적인 이유이다.

8 확률 표본의 생성 (5.6)

이론적 결과를 실무에 적용하려면 컴퓨터로 특정 분포에서 표본을 생성할 수 있어야 한다. 두 가지 핵심 방법이 있다:

방법	원리	장단점
역변환법 (Inverse Transform)	\(F^{-1}(U)\) , \(U \sim \text{Uniform}(0,1)\)	CDF 역함수가 존재하면 정확, 없으면 불가
수락-기각법 (Accept-Reject)	봉투 분포에서 뽑고 조건부로 수락	범용적이지만 비효율적일 수 있음

역변환법의 직관은 간단하다. 균일분포 난수 \(U\) 를 CDF의 역함수에 통과시키면 원하는 분포를 따르는 확률변수가 된다. 이는 확률적분변환(probability integral transformation)의 역이다.

9 코드 예시

9.1 Step 1: 순수 Python 구현 (표본평균의 성질 확인)

import math
import random

random.seed(42)

# 모집단: 지수분포 (lambda=2, 즉 평균=0.5)
lam = 2.0
mu_true = 1.0 / lam       # 모평균 = 0.5
var_true = 1.0 / lam**2   # 모분산 = 0.25

# 다양한 표본 크기에 대해 표본평균의 분산 확인
for n in [10, 100, 1000, 10000]:
    sample_means = []
    for _ in range(5000):
        sample = [-math.log(1 - random.random()) / lam for _ in range(n)]
        x_bar = sum(sample) / n
        sample_means.append(x_bar)

    mean_of_means = sum(sample_means) / len(sample_means)
    var_of_means = sum((m - mean_of_means)**2 for m in sample_means) / (len(sample_means) - 1)

    print(f"n={n:>5}: E[X_bar]={mean_of_means:.4f} (이론: {mu_true:.4f}), "
          f"Var(X_bar)={var_of_means:.6f} (이론: {var_true/n:.6f})")

위 코드는 역변환법으로 지수분포 표본을 직접 생성하고, Theorem 5.2.6의 \(E[\bar{X}] = \mu\) 와 \(\text{Var}(\bar{X}) = \sigma^2/n\) 을 시뮬레이션으로 확인한다. \(n\) 이 커질수록 표본평균의 분산이 이론값 \(\sigma^2/n\) 에 가까워지는 것을 관찰할 수 있다.

9.2 Step 2: scipy/numpy 구현

import numpy as np
from scipy import stats

np.random.seed(42)

# 정규 모집단에서 X_bar와 S^2의 독립성 시뮬레이션 확인
n = 30
mu, sigma = 5.0, 2.0
n_sim = 10000

x_bars = np.zeros(n_sim)
s_squareds = np.zeros(n_sim)

for i in range(n_sim):
    sample = np.random.normal(mu, sigma, n)
    x_bars[i] = sample.mean()
    s_squareds[i] = sample.var(ddof=1)

# 상관계수로 독립성 확인 (정규 표본에서 X_bar와 S^2는 독립)
corr = np.corrcoef(x_bars, s_squareds)[0, 1]
print(f"Corr(X_bar, S^2) = {corr:.4f}  (이론: 0, 정규분포의 독립성)")

# (n-1)S^2/sigma^2의 분포 확인 (카이제곱)
chi2_stats = (n - 1) * s_squareds / sigma**2
ks_stat, p_value = stats.kstest(chi2_stats, 'chi2', args=(n - 1,))
print(f"KS test for chi-squared({n-1}): statistic={ks_stat:.4f}, p-value={p_value:.4f}")

# X_bar의 분포 확인 (정규분포)
z_stats = (x_bars - mu) / (sigma / np.sqrt(n))
ks_stat, p_value = stats.kstest(z_stats, 'norm')
print(f"KS test for N(0,1): statistic={ks_stat:.4f}, p-value={p_value:.4f}")

이 코드는 Theorem 5.3.1의 세 가지 결과를 시뮬레이션으로 검증한다: (1) \(\bar{X}\) 와 \(S^2\) 의 상관계수가 0에 가까운지 (독립성), (2) \((n-1)S^2/\sigma^2\) 이 \(\chi^2_{n-1}\) 분포를 따르는지, (3) 표준화된 \(\bar{X}\) 가 표준정규분포를 따르는지 확인한다.

10 응용 분야

분야	Ch.5 개념의 활용	구체적 예시
임상시험	표본평균의 분포, \(t\) -검정	신약 투여군과 대조군의 평균 혈압 비교
제조 품질관리	\(\chi^2\) 검정, 관리도	공정 분산이 규격 이내인지 검정
금융	순서통계량, 극값 이론	VaR(Value at Risk) 계산
생태학	표본분포, CLT	개체군 크기의 신뢰구간 추정
A/B 테스트	CLT, 델타 방법	전환율 차이의 표본분포와 유의성 판정
시뮬레이션	역변환법, 수락-기각법	MCMC, 부트스트랩 표본 생성

11 후속 포스트 안내

이 개요에서 다룬 각 절의 상세한 내용은 아래 개별 포스트에서 다룬다:

12 관련 주제

선행 지식

후속 주제