Kwangmin Kim - 확률변수 합의 표본분포 (Sums of Random Variables from a Random Sample)

1 개요

확률 표본의 기본 개념에서 확률 표본의 정의(iid)와 결합분포의 곱셈 구조를 다루었다. 이 포스트에서는 한 걸음 더 나아가, 확률 표본으로부터 계산되는 통계량(statistic)의 확률분포를 다룬다.

핵심 질문은 다음과 같다:

표본에서 계산한 요약값(평균, 분산 등)은 어떤 분포를 따르며, 모집단 모수와 어떤 관계를 갖는가?

이 질문에 답하는 것이 표본분포(sampling distribution) 이론이며, 통계적 추론(추정, 검정, 구간추정)의 수학적 기반이 된다 (Casella & Berger, 2002, Ch.5).

2 통계량과 표본분포

2.1 통계량의 정의

정의: 통계량 (Statistic, Definition 5.2.1)

\(X_1, \ldots, X_n\) 을 모집단에서의 확률 표본이라 하고, \(T(x_1, \ldots, x_n)\) 을 정의역이 \((X_1, \ldots, X_n)\) 의 표본공간을 포함하는 실수값(또는 벡터값) 함수라 하자. 확률변수 \(Y = T(X_1, \ldots, X_n)\) 을 통계량(statistic)이라 한다. 통계량 \(Y\) 의 확률분포를 \(Y\) 의 표본분포(sampling distribution)라 한다 (Casella & Berger, 2002, Ch.5).

통계량의 정의는 매우 넓다. 유일한 제약은 통계량이 모수의 함수가 아니어야 한다는 것이다. 관측된 데이터만으로 계산 가능해야 한다.

통계량인 것	통계량이 아닌 것
\(\bar{X} = \frac{1}{n}\sum X_i\)	\(\bar{X} - \mu\) (미지의 \(\mu\) 포함)
\(S^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2\)	\(\frac{(X_i - \mu)}{\sigma}\) (미지의 \(\mu, \sigma\) 포함)
\(X_{(1)} = \min(X_1, \ldots, X_n)\)	\(\sum \log f(X_i \mid \theta)\) (미지의 \(\theta\) 포함)

비유: 통계량은 “현장에서 계산 가능한 양”

임상시험에서 환자 10명의 혈압 데이터를 모았다고 하자. 표본평균, 표본분산, 최솟값, 최댓값 — 이 모든 것은 데이터만으로 즉시 계산할 수 있으므로 통계량이다. 반면 “이 약의 진짜 효과 크기 \(\mu\)” 는 우리가 알고 싶은 것이지, 데이터에서 직접 계산할 수 있는 것이 아니다.

2.2 왜 표본분포가 중요한가

통계량은 확률변수이므로 확률분포를 가진다. 이 분포를 표본분포라 한다. 표본분포를 아는 것은 다음을 가능하게 한다:

추정의 정확도 평가: \(\bar{X}\) 의 분포를 알면 추정의 오차 범위를 계산할 수 있다
검정 통계량의 구성: “\(H_0\) 하에서 이 통계량이 이 값 이상일 확률은?”이라는 질문에 답할 수 있다
신뢰구간의 구축: 통계량의 분포를 뒤집어서 모수에 대한 구간을 구성할 수 있다

3 표본평균과 표본분산의 정의

가장 기본적이고 중요한 두 통계량을 형식적으로 정의한다.

정의: 표본평균 (Sample Mean, Definition 5.2.2)

\[ \bar{X} = \frac{X_1 + \cdots + X_n}{n} = \frac{1}{n} \sum_{i=1}^{n} X_i \]

정의: 표본분산 (Sample Variance, Definition 5.2.3)

\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]

표본표준편차는 \(S = \sqrt{S^2}\) 로 정의된다.

관측값에 대해서는 소문자를 사용한다: \(\bar{x}\) , \(s^2\) , \(s\) 는 각각 \(\bar{X}\) , \(S^2\) , \(S\) 의 관측값이다.

3.1 표본분산의 계산 공식

표본분산에 대한 다음 항등식은 계산과 이론 양쪽에서 유용하다.

정리: 표본분산의 분해 (Theorem 5.2.4)

임의의 수 \(x_1, \ldots, x_n\) 과 \(\bar{x} = (x_1 + \cdots + x_n)/n\) 에 대해:

(a) \(\displaystyle \min_{a} \sum_{i=1}^{n} (x_i - a)^2 = \sum_{i=1}^{n} (x_i - \bar{x})^2\)

(b) \(\displaystyle (n-1)s^2 = \sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} x_i^2 - n\bar{x}^2\)

(Casella & Berger, 2002, Ch.5)

(a)의 증명: \(\bar{x}\) 를 더하고 빼면:

\[ \begin{aligned} \sum_{i=1}^{n} (x_i - a)^2 &= \sum_{i=1}^{n} (x_i - \bar{x} + \bar{x} - a)^2 \\ &= \sum_{i=1}^{n} (x_i - \bar{x})^2 + 2(\bar{x} - a)\underbrace{\sum_{i=1}^{n}(x_i - \bar{x})}_{= 0} + n(\bar{x} - a)^2 \\ &= \sum_{i=1}^{n} (x_i - \bar{x})^2 + n(\bar{x} - a)^2 \end{aligned} \]

교차항이 0인 이유는 \(\sum(x_i - \bar{x}) = n\bar{x} - n\bar{x} = 0\) 이기 때문이다. 우변의 두 번째 항 \(n(\bar{x} - a)^2 \geq 0\) 이므로, 전체가 \(a = \bar{x}\) 에서 최소가 된다.

이 결과의 직관적 의미는 명확하다: 표본평균은 “데이터 점들까지의 제곱 거리 합을 최소화하는 점”이다. 이는 최소제곱법(least squares)의 가장 기본적인 형태이며, 회귀분석의 출발점이기도 하다.

(b)의 증명: (a)에서 \(a = 0\) 으로 놓으면 즉시 얻어진다.

(b)의 두 번째 등호 \(\sum(x_i - \bar{x})^2 = \sum x_i^2 - n\bar{x}^2\) 는 계산에 편리하다. 편차 \((x_i - \bar{x})\) 를 일일이 구하지 않고, \(\sum x_i^2\) 와 \(\bar{x}\) 만으로 표본분산을 계산할 수 있다.

4 합의 기댓값과 분산

4.1 iid 합에 대한 보조정리

iid 확률변수 합의 기댓값과 분산에 대한 기본 결과이다.

보조정리 (Lemma 5.2.5)

\(X_1, \ldots, X_n\) 이 모집단에서의 확률 표본이고 \(g(x)\) 가 \(Eg(X_1)\) 과 \(\text{Var}\,g(X_1)\) 이 존재하는 함수이면:

\[ E\left(\sum_{i=1}^{n} g(X_i)\right) = n \cdot Eg(X_1) \]

\[ \text{Var}\left(\sum_{i=1}^{n} g(X_i)\right) = n \cdot \text{Var}\,g(X_1) \]

(Casella & Berger, 2002, Ch.5)

기댓값 증명: 기댓값의 선형성과 동일 분포 조건에 의해:

\[ E\left(\sum_{i=1}^{n} g(X_i)\right) = \sum_{i=1}^{n} Eg(X_i) = n \cdot Eg(X_1) \]

두 번째 등호는 모든 \(X_i\) 가 동일 분포이므로 \(Eg(X_i)\) 가 \(i\) 에 무관하게 같기 때문이다. 중요한 점은 이 결과에 독립성이 필요하지 않다는 것이다. 동일 분포만으로 충분하다.

분산 증명: 분산의 정의를 전개하면 \(n^2\) 개의 항이 나온다:

\(n\) 개의 대각항: \(E(g(X_i) - Eg(X_i))^2 = \text{Var}\,g(X_i) = \text{Var}\,g(X_1)\) (동일 분포)
\(n(n-1)\) 개의 교차항: \(E[(g(X_i) - Eg(X_i))(g(X_j) - Eg(X_j))] = \text{Cov}(g(X_i), g(X_j)) = 0\) (독립성)

따라서 분산은 \(n \cdot \text{Var}\,g(X_1)\) 이다. 여기서는 독립성이 핵심이다. 만약 \(X_i\) 들이 양의 상관을 가지면 교차항이 0이 아니게 되어 분산이 더 커진다.

4.2 표본평균과 표본분산의 기본 성질

위 보조정리를 적용하면 가장 중요한 결과를 얻는다.

정리: \(\bar{X}\) 와 \(S^2\) 의 기본 성질 (Theorem 5.2.6)

\(X_1, \ldots, X_n\) 이 평균 \(\mu\) , 분산 \(\sigma^2 < \infty\) 인 모집단에서의 확률 표본이면:

(a) \(E[\bar{X}] = \mu\)

(b) \(\text{Var}(\bar{X}) = \dfrac{\sigma^2}{n}\)

(c) \(E[S^2] = \sigma^2\)

(Casella & Berger, 2002, Ch.5)

이 정리의 놀라운 점: 세 결과 모두 모집단 분포의 구체적인 형태에 무관하게 성립한다. 정규분포든, 지수분포든, 포아송분포든 — 유한 분산만 있으면 이 관계가 성립한다.

4.3 각 성질의 증명과 해석

(a) \(E[\bar{X}] = \mu\) 의 증명:

\[ E[\bar{X}] = E\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] = \frac{1}{n} \sum_{i=1}^{n} EX_i = \frac{1}{n} \cdot n\mu = \mu \]

해석: 표본평균은 평균적으로 모평균과 일치한다. 개별 표본에서의 \(\bar{x}\) 는 \(\mu\) 와 다를 수 있지만, 반복 실험의 평균은 \(\mu\) 에 수렴한다. 이것이 비편향성(unbiasedness)의 정의이다.

(b) \(\text{Var}(\bar{X}) = \sigma^2/n\) 의 증명:

\[ \text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n}\sum_{i=1}^{n} X_i\right) = \frac{1}{n^2} \text{Var}\left(\sum_{i=1}^{n} X_i\right) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n} \]

해석: 표본 크기가 커질수록 표본평균의 변동이 줄어든다. 구체적으로:

\(n\)	\(\text{Var}(\bar{X})\)	\(\text{SD}(\bar{X})\)	정밀도 향상
1	\(\sigma^2\)	\(\sigma\)	기준
4	\(\sigma^2/4\)	\(\sigma/2\)	2배
100	\(\sigma^2/100\)	\(\sigma/10\)	10배
10000	\(\sigma^2/10000\)	\(\sigma/100\)	100배

표준편차가 \(1/\sqrt{n}\) 의 속도로 줄어들므로, 정밀도를 2배로 높이려면 표본 크기를 4배로 늘려야 한다. 이것이 임상시험이나 설문조사에서 표본 크기를 결정하는 기본 원리이다.

(c) \(E[S^2] = \sigma^2\) 의 증명:

Theorem 5.2.4(b)를 사용하면:

\[ \begin{aligned} E[S^2] &= E\left[\frac{1}{n-1}\left(\sum_{i=1}^{n} X_i^2 - n\bar{X}^2\right)\right] \\ &= \frac{1}{n-1}\left(nEX_1^2 - nE\bar{X}^2\right) \\ &= \frac{1}{n-1}\left(n(\sigma^2 + \mu^2) - n\left(\frac{\sigma^2}{n} + \mu^2\right)\right) \\ &= \frac{1}{n-1} \cdot (n-1)\sigma^2 = \sigma^2 \end{aligned} \]

세 번째 등호에서 \(EX_1^2 = \text{Var}(X_1) + (EX_1)^2 = \sigma^2 + \mu^2\) 과 \(E\bar{X}^2 = \text{Var}(\bar{X}) + (E\bar{X})^2 = \sigma^2/n + \mu^2\) 를 사용했다.

해석: 분모가 \(n\) 이 아닌 \(n-1\) 인 이유가 여기서 명확해진다. 만약 \(S^2\) 를 \(\frac{1}{n}\sum(X_i - \bar{X})^2\) 로 정의했다면 \(E[S^2] = \frac{n-1}{n}\sigma^2\) 가 되어 모분산을 체계적으로 과소추정한다. \(n-1\) 로 나누는 것은 이 편향을 정확히 보정한다.

직관: 왜 \(n-1\) 인가?

\(n\) 개의 편차 \(X_1 - \bar{X}, \ldots, X_n - \bar{X}\) 는 \(\sum(X_i - \bar{X}) = 0\) 이라는 제약을 만족한다. 따라서 \(n\) 개의 편차 중 자유로운 것은 \(n-1\) 개뿐이다. \(\bar{X}\) 를 추정하는 데 자유도 1을 “소비”했기 때문에, 남은 자유도 \(n-1\) 로 나누는 것이 올바른 보정이다. 이것이 자유도(degrees of freedom)의 직관적 의미이다.

5 표본평균의 표본분포 도출

5.1 적률생성함수(mgf) 기법

표본평균의 정확한 분포를 도출하는 가장 강력한 도구는 적률생성함수이다.

정리: 표본평균의 mgf (Theorem 5.2.7)

\(X_1, \ldots, X_n\) 이 mgf \(M_X(t)\) 를 가진 모집단에서의 확률 표본이면, 표본평균의 mgf는:

\[ M_{\bar{X}}(t) = [M_X(t/n)]^n \]

(Casella & Berger, 2002, Ch.5)

증명:

\[ M_{\bar{X}}(t) = Ee^{t\bar{X}} = Ee^{t(X_1 + \cdots + X_n)/n} = Ee^{(t/n)X_1} \cdots Ee^{(t/n)X_n} = [M_X(t/n)]^n \]

세 번째 등호는 독립성에 의해 결합 기댓값이 개별 기댓값의 곱으로 분해되기 때문이고, 네 번째 등호는 동일 분포에 의해 각 \(M_{X_i}(t/n)\) 이 같은 함수이기 때문이다.

5.2 예시: 주요 분포에서의 표본평균 분포

mgf 기법을 적용하면 많은 분포에서 \(\bar{X}\) 의 분포를 즉시 도출할 수 있다.

5.2.1 정규분포

\(X_1, \ldots, X_n \overset{iid}{\sim} N(\mu, \sigma^2)\) 이면, \(M_X(t) = \exp(\mu t + \sigma^2 t^2/2)\) 이므로:

\[ \begin{aligned} M_{\bar{X}}(t) &= \left[\exp\left(\mu \frac{t}{n} + \frac{\sigma^2(t/n)^2}{2}\right)\right]^n \\ &= \exp\left(\mu t + \frac{(\sigma^2/n)t^2}{2}\right) \end{aligned} \]

이는 \(N(\mu, \sigma^2/n)\) 의 mgf이다. 따라서 \(\bar{X} \sim N(\mu, \sigma^2/n)\) 이다.

정규분포의 표본평균이 다시 정규분포를 따른다는 것은 정규분포의 재생성(reproductive property)의 한 표현이다. 분산이 \(\sigma^2\) 에서 \(\sigma^2/n\) 으로 줄어드는 것은 Theorem 5.2.6(b)와 일치한다.

5.2.2 감마분포

\(X_1, \ldots, X_n \overset{iid}{\sim} \text{Gamma}(\alpha, \beta)\) 이면:

\[ M_{\bar{X}}(t) = \left[\left(\frac{1}{1 - \beta(t/n)}\right)^{\alpha}\right]^n = \left(\frac{1}{1 - (\beta/n)t}\right)^{n\alpha} \]

이는 \(\text{Gamma}(n\alpha, \beta/n)\) 의 mgf이다. 따라서 \(\bar{X} \sim \text{Gamma}(n\alpha, \beta/n)\) 이다.

5.2.3 코시분포 — 반례

\(Z_1, \ldots, Z_n \overset{iid}{\sim} \text{Cauchy}(0, 1)\) 이면, 놀랍게도 \(\bar{Z} \sim \text{Cauchy}(0, 1)\) 이다. 표본평균의 분포가 개별 관측값의 분포와 동일하다.

이 결과가 충격적인 이유는 다음과 같다:

표본 크기를 아무리 키워도 정밀도가 전혀 향상되지 않는다
\(\text{Var}(\bar{X}) = \sigma^2/n\) 이라는 Theorem 5.2.6(b)의 결과가 적용되지 않는다
근본 원인: 코시분포는 분산이 존재하지 않는다 (기댓값조차 존재하지 않는다)

이 반례는 “더 많은 데이터 = 더 나은 추정”이라는 직관이 유한 분산 가정에 의존한다는 사실을 극적으로 보여준다.

코시분포의 교훈

코시분포에서 표본평균은 쓸모없는 통계량이다. 100만 개의 관측값을 모아도 표본평균의 불확실성이 관측값 하나와 동일하다. 금융 데이터처럼 꼬리가 두꺼운 분포에서는 표본평균 대신 중앙값(median)이나 절사평균(trimmed mean) 같은 로버스트 통계량이 필요한 이유이다.

5.3 코시분포 합의 분포 도출 (컨볼루션)

코시분포는 mgf가 존재하지 않으므로 다른 방법이 필요하다. 컨볼루션 공식을 사용한다.

정리: 컨볼루션 공식 (Theorem 5.2.9)

\(X\) 와 \(Y\) 가 pdf \(f_X(x)\) , \(f_Y(y)\) 를 가진 독립 연속 확률변수이면, \(Z = X + Y\) 의 pdf는:

\[ f_Z(z) = \int_{-\infty}^{\infty} f_X(w) f_Y(z - w) \, dw \]

(Casella & Berger, 2002, Ch.5)

증명: \(W = X\) 로 놓으면 \((X, Y) \to (Z, W)\) 변환의 야코비안은 1이다. 결합 pdf \(f_{Z,W}(z, w) = f_X(w) f_Y(z-w)\) 에서 \(w\) 를 적분하면 \(Z\) 의 주변 pdf를 얻는다.

컨볼루션 공식을 \(U \sim \text{Cauchy}(0, \sigma)\) 와 \(V \sim \text{Cauchy}(0, \tau)\) 에 적용하면:

\[ f_Z(z) = \int_{-\infty}^{\infty} \frac{1}{\pi\sigma} \frac{1}{1 + (w/\sigma)^2} \cdot \frac{1}{\pi\tau} \frac{1}{1 + ((z-w)/\tau)^2} \, dw \]

부분분수 분해와 정밀한 적분을 거치면:

\[ f_Z(z) = \frac{1}{\pi(\sigma + \tau)} \frac{1}{1 + (z/(\sigma + \tau))^2} \]

따라서 \(Z \sim \text{Cauchy}(0, \sigma + \tau)\) 이다. 두 독립 코시 확률변수의 합은 다시 코시이며, 척도 모수가 더해진다. 이를 반복 적용하면 \(\sum Z_i \sim \text{Cauchy}(0, n)\) 이고, \(\bar{Z} = \sum Z_i / n \sim \text{Cauchy}(0, 1)\) 이 된다.

6 위치-척도 모임에서의 표본평균

위치-척도 모임에서 표본을 추출하면, 표본평균의 분포가 표준 pdf의 표본평균과 간단한 관계를 가진다.

\(X_1, \ldots, X_n\) 이 위치-척도 모임 \(\frac{1}{\sigma}f\left(\frac{x - \mu}{\sigma}\right)\) 에서의 확률 표본이면, \(X_i = \sigma Z_i + \mu\) 로 쓸 수 있다 (여기서 \(Z_i \overset{iid}{\sim} f(z)\) ). 표본평균은:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n}(\sigma Z_i + \mu) = \sigma\bar{Z} + \mu \]

따라서 \(\bar{Z}\) 의 pdf가 \(g(z)\) 이면, \(\bar{X}\) 의 pdf는 \(\frac{1}{\sigma}g\left(\frac{x - \mu}{\sigma}\right)\) 이다.

이 결과의 실용적 가치는 표준 pdf \(f(z)\) 에서의 표본평균 분포만 구하면 위치-척도 모임 전체에 대한 결과를 즉시 얻을 수 있다는 것이다. 모수 \(\mu\) 와 \(\sigma\) 를 다룰 필요 없이 계산이 단순해진다.

코시분포에 적용하면: \(\bar{Z} \sim \text{Cauchy}(0, 1)\) 이므로 \(\bar{X} \sim \text{Cauchy}(\mu, \sigma)\) 이다. \(\bar{X}\) 의 분산은 \(\sigma\) 에 의해 결정되며 표본 크기 \(n\) 과 무관하다. 이는 유한 분산을 가진 분포(예: 정규분포)에서 \(\text{Var}(\bar{X}) = \sigma^2/n\) 이 \(n\) 과 함께 감소하는 것과 극명한 대비를 이룬다.

7 지수족에서의 합의 분포

모집단이 지수족(exponential family)에 속하면, 표본에서의 자연 충분통계량(natural sufficient statistics)의 분포가 간단한 형태를 가진다.

정리: 지수족에서의 합 (Theorem 5.2.11)

\(X_1, \ldots, X_n\) 이 지수족 \(f(x|\theta) = h(x)c(\theta)\exp\left(\sum_{i=1}^{k} w_i(\theta) t_i(x)\right)\) 에서의 확률 표본이고, \(T_i = \sum_{j=1}^{n} t_i(X_j)\) 로 정의하면, \((T_1, \ldots, T_k)\) 의 분포도 지수족이다:

\[ f_T(u_1, \ldots, u_k | \theta) = H(u_1, \ldots, u_k) [c(\theta)]^n \exp\left(\sum_{i=1}^{k} w_i(\theta) u_i\right) \]

(Casella & Berger, 2002, Ch.5)

핵심 관찰: 원래 분포의 \(c(\theta)\) 와 \(w_i(\theta)\) 가 합의 분포에서도 그대로 보존된다. 달라지는 것은 \(h(x)\) 가 \(H(u_1, \ldots, u_k)\) 로 바뀌는 것뿐이다.

지수족 표기법 한눈에 읽기

지수족 \(f(x|\theta) = h(x)c(\theta)\exp\left(\sum_{i} w_i(\theta) t_i(x)\right)\) 는 네 부분으로 분해된다:

기호	역할	예시 (베르누이)
\(h(x)\)	\(\theta\) 와 무관한 \(x\) 만의 인수	\(h(x) = 1\)
\(c(\theta)\)	\(x\) 와 무관한 \(\theta\) 만의 인수	\(c(p) = 1-p\)
\(w_i(\theta)\)	자연 모수 — \(\theta\) 의 함수	\(w_1(p) = \log\frac{p}{1-p}\) (로그오즈)
\(t_i(x)\)	충분통계량 후보 — \(x\) 의 함수	\(t_1(x) = x\)

Theorem 5.2.11의 의미는 간결하다: \(n\) 개의 iid 표본에서 \(T_i = \sum t_i(X_j)\) 를 계산하면, 이 합의 분포에서 \(w_i(\theta)\) 와 \(c(\theta)^n\) 의 구조가 그대로 유지된다. \(\theta\) 에 대한 “정보의 모양”이 개별 관측에서 합으로 가도 변하지 않는다는 것이다. 이것이 지수족에서 \(T_i\) 가 충분통계량인 수학적 이유이다.

7.1 예시: 베르누이 합

\(X_1, \ldots, X_n \overset{iid}{\sim} \text{Bernoulli}(p)\) 이면, 베르누이 분포는 \(k = 1\) 인 지수족으로 \(t_1(x) = x\) , \(w_1(p) = \log\frac{p}{1-p}\) , \(c(p) = 1-p\) 이다.

\[ T_1 = \sum_{j=1}^{n} X_j \sim \text{Binomial}(n, p) \]

이항분포도 같은 \(w_1(p)\) 를 가진 지수족이며 \(c(p)\) 가 \((1-p)^n\) 으로 바뀔 뿐이다. Theorem 5.2.11이 정확히 확인된다.

이 결과는 데이터 축소의 원리에서 충분통계량의 존재와 직결된다. 지수족에서 \(T_1, \ldots, T_k\) 가 충분통계량이 되는 이유는, 표본 전체의 정보가 이 합들에 집약되기 때문이다.

8 코드 예시

8.1 Step 1: 순수 Python 구현 (Theorem 5.2.6 검증)

import math
import random

random.seed(42)

# 모집단: 균일분포 U(0, 10)
# mu = 5, sigma^2 = 100/12 = 8.333...
a, b = 0, 10
mu_true = (a + b) / 2
var_true = (b - a)**2 / 12

n_sim = 10000

for n in [5, 20, 100, 500]:
    x_bars = []
    s_squareds = []

    for _ in range(n_sim):
        sample = [random.uniform(a, b) for _ in range(n)]
        x_bar = sum(sample) / n
        s2 = sum((x - x_bar)**2 for x in sample) / (n - 1)
        x_bars.append(x_bar)
        s_squareds.append(s2)

    # E[X_bar] ≈ mu
    mean_xbar = sum(x_bars) / len(x_bars)
    # Var(X_bar) ≈ sigma^2 / n
    var_xbar = sum((m - mean_xbar)**2 for m in x_bars) / (len(x_bars) - 1)
    # E[S^2] ≈ sigma^2
    mean_s2 = sum(s_squareds) / len(s_squareds)

    print(f"n={n:>3}: E[X_bar]={mean_xbar:.4f} (이론: {mu_true:.4f}), "
          f"Var(X_bar)={var_xbar:.4f} (이론: {var_true/n:.4f}), "
          f"E[S^2]={mean_s2:.4f} (이론: {var_true:.4f})")

이 코드는 Theorem 5.2.6의 세 가지 결과를 균일분포 (비정규) 모집단에서 시뮬레이션으로 확인한다. 정규분포가 아니어도 세 성질이 모두 성립함을 관찰할 수 있다.

8.2 Step 2: numpy/scipy 구현 (표본평균 분포와 코시 반례)

import numpy as np
from scipy import stats

np.random.seed(42)

n = 50
n_sim = 50000

# --- 정규분포: X_bar의 분산이 n에 반비례 ---
mu, sigma = 10.0, 3.0
x_bars_normal = np.array([
    np.random.normal(mu, sigma, n).mean() for _ in range(n_sim)
])

print("=== 정규분포 N(10, 9) 표본평균 ===")
print(f"E[X_bar] = {x_bars_normal.mean():.4f} (이론: {mu})")
print(f"Var(X_bar) = {x_bars_normal.var(ddof=1):.4f} (이론: {sigma**2/n:.4f})")

# mgf로 도출한 분포 확인: X_bar ~ N(mu, sigma^2/n)
ks_stat, p_val = stats.kstest(
    (x_bars_normal - mu) / (sigma / np.sqrt(n)), 'norm'
)
print(f"KS test (표준정규): stat={ks_stat:.4f}, p={p_val:.4f}")

# --- 코시분포: X_bar의 분산이 줄어들지 않음 ---
x_bars_cauchy = np.array([
    np.median(np.random.standard_cauchy(n))  # 비교용 중앙값
    for _ in range(n_sim)
])
x_bars_cauchy_mean = np.array([
    np.mean(np.random.standard_cauchy(n))
    for _ in range(n_sim)
])

# IQR로 산포 비교 (코시는 분산이 무한이므로 IQR 사용)
iqr_single = stats.iqr(np.random.standard_cauchy(n_sim))
iqr_mean = stats.iqr(x_bars_cauchy_mean)
iqr_median = stats.iqr(x_bars_cauchy)

print(f"\n=== 코시분포 Cauchy(0,1), n={n} ===")
print(f"IQR(단일 관측): {iqr_single:.4f}")
print(f"IQR(표본평균):  {iqr_mean:.4f}  ← 줄어들지 않음!")
print(f"IQR(표본중앙값): {iqr_median:.4f}  ← 줄어듦 (로버스트)")

# --- n-1 vs n 분모 비편향성 비교 ---
print(f"\n=== 분모 n-1 vs n 비교 (정규분포) ===")
s2_n_minus_1 = []
s2_n = []
for _ in range(n_sim):
    sample = np.random.normal(mu, sigma, n)
    s2_n_minus_1.append(sample.var(ddof=1))
    s2_n.append(sample.var(ddof=0))

print(f"E[S^2] (n-1 분모) = {np.mean(s2_n_minus_1):.4f} (이론: {sigma**2:.4f})")
print(f"E[S^2] (n 분모)   = {np.mean(s2_n):.4f} (이론: {sigma**2*(n-1)/n:.4f}) ← 과소추정")

이 코드는 세 가지를 보여준다: (1) 정규분포 표본평균이 \(N(\mu, \sigma^2/n)\) 을 따르는지 KS 검정으로 확인, (2) 코시분포에서 표본평균의 IQR이 줄어들지 않지만 표본중앙값의 IQR은 줄어드는 것을 확인 (로버스트 통계량의 우월성), (3) 분모 \(n-1\) 과 \(n\) 의 비편향성 차이를 수치적으로 확인.

9 응용 분야

분야	이 절의 개념 활용	구체적 예시
임상시험	\(\text{Var}(\bar{X}) = \sigma^2/n\) → 표본 크기 결정	“효과 크기 0.5를 검출하려면 \(n\) 이 얼마 필요한가?”
품질관리	\(E[S^2] = \sigma^2\) → 공정 분산 추정	제조 공정의 분산이 규격 이내인지 모니터링
금융	코시 반례 → 로버스트 추정	수익률 꼬리 위험 측정 시 평균 대신 중앙값 사용
메타분석	mgf 기법 → 통합 효과 크기 분포	여러 연구 결과의 가중 평균 분포 도출
보험수리	지수족 합의 분포 → 총 보험금 분포	\(n\) 건의 보험금 합이 감마분포를 따르는지 확인

10 관련 주제

선행 지식

후속 주제

정규 모집단에서의 표본분포 (Sampling from the Normal Distribution)
순서통계량 (Order Statistics)
Convergence in Probability — 수렴 개념과 대수의 법칙

관련 개념

데이터 축소의 원리 (Sufficiency, Likelihood, Equivariance) — 지수족 합과 충분통계량의 연결
Monte Carlo Simulation — 표본분포의 시뮬레이션 확인