1 개요
데이터 축소의 원리 overview에서 충분통계량, 최소충분통계량, 보조통계량, 완비통계량, 우도원리, 등변원리를 전체적으로 조망했다. 이 포스트에서는 그 중 충분성 원리(The Sufficiency Principle) 를 세분화하여, 정의의 수학적 의미, 인수분해 정리의 증명, 다양한 예시, 지수족에서의 체계적 도출, 그리고 충분성의 실무적 함의까지 깊이 있게 다룬다.
충분성 원리의 핵심 주장은 다음과 같다:
\(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량이면, \(\theta\) 에 대한 모든 추론은 표본 \(\mathbf{X}\) 를 \(T(\mathbf{X})\) 의 값을 통해서만 사용해야 한다.
즉, \(T(\mathbf{x}) = T(\mathbf{y})\) 인 두 표본 \(\mathbf{x}\) 와 \(\mathbf{y}\) 에 대해, \(\theta\) 에 대한 추론은 동일해야 한다 (Casella & Berger, 2002, Ch.6).
2 충분통계량의 정의
2.1 형식적 정의
통계량 \(T(\mathbf{X})\) 가 모수 \(\theta\) 에 대한 충분통계량(sufficient statistic) 이란, \(T(\mathbf{X})\) 의 값이 주어졌을 때 표본 \(\mathbf{X}\) 의 조건부 분포가 \(\theta\) 에 의존하지 않는 것이다.
\[ P_\theta(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t) \text{ 가 } \theta \text{ 에 무관} \]
이 정의는 직관적으로 다음을 의미한다: \(T(\mathbf{X})\) 의 값을 알면, 나머지 표본 정보는 \(\theta\) 에 대해 아무런 추가 정보를 제공하지 않는다. “나머지”란 \(T(\mathbf{X}) = t\) 라는 조건 하에서 \(\mathbf{X}\) 가 어떤 구체적 값을 가지느냐인데, 이 조건부 분포가 \(\theta\) 와 무관하므로 \(\theta\) 를 더 알려주지 못한다.
2.2 연속 분포에서의 주의점
\(T(\mathbf{X})\) 가 연속 분포를 따르면 \(P_\theta(T(\mathbf{X}) = t) = 0\) 이므로, 1장에서 도입한 조건부 확률의 정의를 직접 적용할 수 없다. 이 경우 측도론적 조건부 기댓값을 사용해야 하지만, 실용적으로는 아래에서 다루는 인수분해 정리가 연속/이산 모두에서 충분통계량을 찾는 표준 도구가 된다.
3 “두 실험자” 직관 (Two Experimenters)
충분성의 의미를 가장 명확하게 전달하는 것이 “두 실험자” 사고실험이다.
- 실험자 1: 전체 표본 \(\mathbf{X} = \mathbf{x}\) 를 관측하고, \(T(\mathbf{X}) = T(\mathbf{x})\) 도 계산할 수 있다
- 실험자 2: \(T(\mathbf{X}) = T(\mathbf{x})\) 만 전달받고, 조건부 분포 \(P(\mathbf{X} = \mathbf{y} \mid T(\mathbf{X}) = T(\mathbf{x}))\) 와 난수 생성기를 이용해 가상 표본 \(\mathbf{Y}\) 를 생성한다
\(T(\mathbf{X})\) 가 충분통계량이면, 이 조건부 분포는 \(\theta\) 에 무관하므로 실험자 2는 \(\theta\) 에 대한 지식 없이도 가상 표본을 생성할 수 있다.
3.1 핵심 논증: \(\mathbf{X}\) 와 \(\mathbf{Y}\) 의 비조건부 분포가 동일하다
모든 \(\theta\) 에 대해
\[ \begin{aligned} P_\theta(\mathbf{X} = \mathbf{x}) &= P_\theta(\mathbf{X} = \mathbf{x} \text{ and } T(\mathbf{X}) = T(\mathbf{x})) \\ &= P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) \cdot P_\theta(T(\mathbf{X}) = T(\mathbf{x})) \\ &= P(\mathbf{Y} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) \cdot P_\theta(T(\mathbf{X}) = T(\mathbf{x})) \\ &= P_\theta(\mathbf{Y} = \mathbf{x}) \end{aligned} \]
두 번째 등호에서 조건부 확률의 정의를 사용했고, 세 번째 등호에서 \(\mathbf{Y}\) 의 조건부 분포가 \(\mathbf{X}\) 의 조건부 분포와 동일하다는 사실을 사용했다.
따라서 실험자 1(전체 표본을 아는 사람)과 실험자 2(\(T(\mathbf{X})\) 만 아는 사람)는 \(\theta\) 에 대해 동등한 정보를 가진다. 난수 생성기가 \(\theta\) 에 대한 지식을 추가하지 않으므로, 실험자 2의 모든 정보는 \(T(\mathbf{X})\) 의 값에서 온 것이다.
4 판별 기준: pmf/pdf 비 (Theorem 6.2.2)
정의를 직접 적용하여 충분통계량인지 확인하는 방법은 다음과 같다.
\(p(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X}\) 의 결합 pdf 또는 pmf, \(q(t|\theta)\) 를 \(T(\mathbf{X})\) 의 pdf 또는 pmf라 하자. \(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량일 필요충분조건은, 모든 \(\mathbf{x}\) 에 대해
\[ \frac{p(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} \]
가 \(\theta\) 의 함수로서 상수인 것이다.
유도 과정: \(\{\mathbf{X} = \mathbf{x}\}\) 는 \(\{T(\mathbf{X}) = T(\mathbf{x})\}\) 의 부분사건이므로
\[ P_\theta(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) = \frac{P_\theta(\mathbf{X} = \mathbf{x})}{P_\theta(T(\mathbf{X}) = T(\mathbf{x}))} = \frac{p(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} \]
이 비가 \(\theta\) 에 무관하면 조건부 분포가 \(\theta\) 에 의존하지 않으므로, 정의에 의해 \(T(\mathbf{X})\) 는 충분통계량이다.
이 방법의 단점은 \(T(\mathbf{X})\) 를 먼저 추측한 뒤, \(T(\mathbf{X})\) 의 분포 \(q(t|\theta)\) 를 유도해야 한다는 것이다. 아래의 인수분해 정리가 이 과정을 크게 단순화한다.
5 인수분해 정리 (Factorization Theorem)
5.1 정리와 증명
\(f(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X}\) 의 결합 pdf 또는 pmf라 하자. 통계량 \(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량이 되기 위한 필요충분조건은, 함수 \(g(t|\theta)\) 와 \(h(\mathbf{x})\) 가 존재하여 모든 \(\mathbf{x}\) 와 모든 \(\theta\) 에 대해
\[ f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) \]
로 분해되는 것이다.
인수분해 정리는 \(T(\mathbf{X})\) 의 분포를 구하지 않고도, 결합 pdf/pmf의 구조만 검사하여 충분통계량을 찾을 수 있게 해준다.
5.2 증명 (이산 분포)
(\(\Rightarrow\)) 충분통계량이면 인수분해가 존재한다
\(T(\mathbf{X})\) 가 충분통계량이라 가정한다. 다음과 같이 정의한다:
- \(g(t|\theta) = P_\theta(T(\mathbf{X}) = t)\): \(T(\mathbf{X})\) 의 pmf
- \(h(\mathbf{x}) = P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x}))\): \(\theta\) 에 무관 (충분성에 의해)
그러면
\[ \begin{aligned} f(\mathbf{x}|\theta) &= P_\theta(\mathbf{X} = \mathbf{x}) \\ &= P_\theta(\mathbf{X} = \mathbf{x} \text{ and } T(\mathbf{X}) = T(\mathbf{x})) \\ &= P_\theta(T(\mathbf{X}) = T(\mathbf{x})) \cdot P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) \\ &= g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) \end{aligned} \]
(\(\Leftarrow\)) 인수분해가 존재하면 충분통계량이다
\(f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x})\) 를 가정한다. \(A_{T(\mathbf{x})} = \{\mathbf{y} : T(\mathbf{y}) = T(\mathbf{x})\}\) 로 정의하면, \(T(\mathbf{X})\) 의 pmf는
\[ q(T(\mathbf{x})|\theta) = \sum_{\mathbf{y} \in A_{T(\mathbf{x})}} g(T(\mathbf{y})|\theta) \, h(\mathbf{y}) = g(T(\mathbf{x})|\theta) \sum_{\mathbf{y} \in A_{T(\mathbf{x})}} h(\mathbf{y}) \]
마지막 등호는 \(A_{T(\mathbf{x})}\) 위에서 \(T(\mathbf{y}) = T(\mathbf{x})\) 이므로 \(g\) 가 상수로 나오기 때문이다. 따라서
\[ \frac{f(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} = \frac{g(T(\mathbf{x})|\theta) \, h(\mathbf{x})}{g(T(\mathbf{x})|\theta) \sum_{\mathbf{y} \in A_{T(\mathbf{x})}} h(\mathbf{y})} = \frac{h(\mathbf{x})}{\sum_{\mathbf{y} \in A_{T(\mathbf{x})}} h(\mathbf{y})} \]
이 비가 \(\theta\) 에 무관하므로, Theorem 6.2.2에 의해 \(T(\mathbf{X})\) 는 충분통계량이다. \(\square\)
5.3 사용법
인수분해 정리를 적용하려면 결합 pdf/pmf를 다음 두 부분으로 분리한다:
| 부분 | 의존 관계 | 역할 |
|---|---|---|
| \(h(\mathbf{x})\) | \(\theta\) 에 무관, \(\mathbf{x}\) 에만 의존 | \(\theta\) 와 관련 없는 표본의 특성 |
| \(g(T(\mathbf{x})|\theta)\) | \(\theta\) 에 의존하되, \(\mathbf{x}\) 는 \(T(\mathbf{x})\) 를 통해서만 | \(\theta\) 에 대한 모든 정보를 담은 부분 |
\(g\) 함수에서 \(\mathbf{x}\) 가 \(T(\mathbf{x})\) 를 통해서만 나타나야 한다는 점이 핵심이다.
6 예시
6.1 예시 1: 베르누이 표본
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(\theta)\), \(0 < \theta < 1\) 에서 \(T(\mathbf{X}) = \sum_{i=1}^n X_i\) 가 충분통계량임을 보인다.
풀이: 결합 pmf는
\[ p(\mathbf{x}|\theta) = \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} = \theta^{\sum x_i}(1-\theta)^{n - \sum x_i} \]
\(t = \sum x_i\) 로 놓으면
\[ p(\mathbf{x}|\theta) = \underbrace{\theta^t(1-\theta)^{n-t}}_{g(t|\theta)} \cdot \underbrace{1}_{h(\mathbf{x})} \]
인수분해 정리에 의해 \(T(\mathbf{X}) = \sum X_i\) 는 \(\theta\) 에 대한 충분통계량이다.
해석: 1의 총 개수(성공 횟수)가 \(\theta\) 에 대한 모든 정보를 담고 있다. 예를 들어, \(n = 10\) 번 시행에서 \(X_3 = 1\) 인지 \(X_7 = 1\) 인지의 구체적 배치는 \(\theta\) 추론에 무관하다. “10번 중 7번 성공”이라는 요약이면 충분하다.
pmf 비로도 확인: \(T(\mathbf{X}) \sim \text{Binomial}(n, \theta)\) 이므로
\[ \frac{p(\mathbf{x}|\theta)}{q(t|\theta)} = \frac{\theta^t(1-\theta)^{n-t}}{\binom{n}{t}\theta^t(1-\theta)^{n-t}} = \frac{1}{\binom{n}{t}} \]
이 비가 \(\theta\) 에 무관하므로, Theorem 6.2.2에 의해서도 충분통계량이 확인된다.
6.2 예시 2: 정규 표본 ( \(\sigma^2\) 기지)
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\sigma^2\) 기지(known)일 때, \(T(\mathbf{X}) = \bar{X}\) 가 \(\mu\) 에 대한 충분통계량이다.
풀이: 결합 pdf를 전개하면
\[ \begin{aligned} f(\mathbf{x}|\mu) &= (2\pi\sigma^2)^{-n/2} \exp\!\left(-\frac{\sum_{i=1}^n (x_i - \mu)^2}{2\sigma^2}\right) \\ &= (2\pi\sigma^2)^{-n/2} \exp\!\left(-\frac{\sum_{i=1}^n (x_i - \bar{x})^2 + n(\bar{x}-\mu)^2}{2\sigma^2}\right) \end{aligned} \]
두 번째 등호는 \(\sum(x_i - \mu)^2 = \sum(x_i - \bar{x})^2 + n(\bar{x} - \mu)^2\) 라는 항등식에서 온다. 교차항 \(\sum(x_i - \bar{x})(\bar{x} - \mu) = (\bar{x} - \mu)\sum(x_i - \bar{x}) = 0\) 이므로 교차항이 소거된다.
따라서
\[ f(\mathbf{x}|\mu) = \underbrace{\exp\!\left(-\frac{n(\bar{x}-\mu)^2}{2\sigma^2}\right)}_{g(\bar{x}|\mu)} \cdot \underbrace{(2\pi\sigma^2)^{-n/2}\exp\!\left(-\frac{\sum(x_i - \bar{x})^2}{2\sigma^2}\right)}_{h(\mathbf{x})} \]
\(h(\mathbf{x})\) 는 \(\mu\) 에 무관하고, \(g\) 는 \(\mathbf{x}\) 를 \(\bar{x}\) 를 통해서만 포함한다. 인수분해 정리에 의해 \(\bar{X}\) 는 \(\mu\) 에 대한 충분통계량이다.
해석: \(\sigma^2\) 를 알고 있을 때, 표본평균 하나가 \(\mu\) 에 대한 모든 정보를 담는다. 개별 관측값의 편차 패턴(\(\sum(x_i - \bar{x})^2\))은 \(\mu\) 추론에 무관하다.
6.3 예시 3: 정규 표본 ( \(\mu, \sigma^2\) 모두 미지)
\(\mu\) 와 \(\sigma^2\) 가 모두 미지이면, \(\mu\) 또는 \(\sigma^2\) 에 의존하는 모든 부분이 \(g\) 함수에 포함되어야 한다.
\[ f(\mathbf{x}|\mu,\sigma^2) = \underbrace{(2\pi\sigma^2)^{-n/2}\exp\!\left(-\frac{n(\bar{x}-\mu)^2 + (n-1)s^2}{2\sigma^2}\right)}_{g(\bar{x}, s^2 | \mu, \sigma^2)} \cdot \underbrace{1}_{h(\mathbf{x})} \]
따라서 \(T(\mathbf{X}) = (\bar{X}, S^2)\) 이 \((\mu, \sigma^2)\) 에 대한 충분통계량이다.
실무적 함의: 정규 모형에서 “표본평균과 표본분산만 보고하면 된다”는 관행은 충분성에 의해 수학적으로 정당화된다. 그러나 이것은 모형에 의존적(model-dependent) 이다. 데이터가 실제로 정규분포를 따르지 않으면, \((\bar{X}, S^2)\) 가 충분통계량이 아닐 수 있다. \(\bar{X}\) 와 \(S^2\) 만 보고 나머지 데이터를 버리는 것은 정규 모형에 대한 강한 신뢰를 전제한다.
6.4 예시 4: 이산 균등분포
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Uniform}\{1, 2, \ldots, \theta\}\) 에서 \(\theta\) 는 미지의 양의 정수이다.
결합 pmf는
\[ f(\mathbf{x}|\theta) = \prod_{i=1}^n \theta^{-1} I_{\{1,\ldots,\theta\}}(x_i) = \theta^{-n} \prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i) \]
여기서 \(I_A(x)\) 는 \(x \in A\) 이면 1, 아니면 0인 지시함수이다. 핵심은 \(\prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i)\) 를 분리하는 것이다:
\[ \prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i) = \left(\prod_{i=1}^n I_{\{1,2,\ldots\}}(x_i)\right) \cdot I_{\{1,\ldots,\theta\}}(\max_i x_i) \]
모든 \(x_i\) 가 \(\{1, \ldots, \theta\}\) 에 속하는 것은, 모든 \(x_i\) 가 양의 정수이고 동시에 최댓값이 \(\theta\) 이하인 것과 동치이기 때문이다. 따라서
\[ f(\mathbf{x}|\theta) = \underbrace{\theta^{-n} I_{\{1,\ldots,\theta\}}(\max_i x_i)}_{g(T(\mathbf{x})|\theta)} \cdot \underbrace{\prod_{i=1}^n I_{\{1,2,\ldots\}}(x_i)}_{h(\mathbf{x})} \]
인수분해 정리에 의해 \(T(\mathbf{X}) = \max_i X_i\) (최대 순서통계량)가 \(\theta\) 에 대한 충분통계량이다.
해석: 이산 균등분포에서 모수 \(\theta\) (범위의 상한)를 추론할 때, 표본의 최댓값이 모든 정보를 담는다. 직관적으로도 자연스럽다 — \(\theta\) 가 “가능한 값의 범위”를 결정하므로, 관측된 최댓값이 \(\theta\) 에 대한 가장 직접적인 단서이다.
6.5 예시 5: 순서통계량이 최선인 경우
\(X_1, \ldots, X_n\) 이 pdf \(f\) 에서 iid로 추출되었으나, \(f\) 에 대해 모수적 가정이 없는 경우 (비모수 설정)
\[ f(\mathbf{x}) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n f(x_{(i)}) \]
여기서 \(x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}\) 은 순서통계량이다. 순서통계량 전체 \(T(\mathbf{X}) = (X_{(1)}, \ldots, X_{(n)})\) 가 충분통계량이 되지만, 이것은 사실상 표본 전체와 동등한 수준이므로 실질적인 축소가 아니다.
모수적 모형을 가정하더라도 지수족에 속하지 않는 분포에서는 비슷한 상황이 발생한다. 예를 들어:
| 분포 | 충분통계량 | 축소 정도 |
|---|---|---|
| 코시(Cauchy) \(f(x|\theta) = \frac{1}{\pi(1+(x-\theta)^2)}\) | 순서통계량 전체 | 실질적 축소 없음 |
| 로지스틱(Logistic) \(f(x|\theta) = \frac{e^{-(x-\theta)}}{(1+e^{-(x-\theta)})^2}\) | 순서통계량 전체 | 실질적 축소 없음 |
지수족 밖에서는 표본 크기보다 작은 차원의 충분통계량이 존재하는 것이 드물다 (Casella & Berger, 2002, Ch.6). 이것이 지수족이 통계학에서 핵심적인 위치를 차지하는 이유 중 하나이다.
7 지수족과 충분통계량
지수족(exponential family)에 속하는 분포에서는 충분통계량을 체계적으로 찾을 수 있다.
\(X_1, \ldots, X_n\) 이 다음 형태의 지수족에서 iid로 추출되었다고 하자.
\[ f(x|\boldsymbol{\theta}) = h(x)\,c(\boldsymbol{\theta})\exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta})\,t_i(x)\right) \]
그러면
\[ T(\mathbf{X}) = \left(\sum_{j=1}^n t_1(X_j),\; \ldots,\; \sum_{j=1}^n t_k(X_j)\right) \]
는 \(\boldsymbol{\theta}\) 에 대한 충분통계량이다.
증명 스케치: iid 표본의 결합 pdf/pmf는
\[ \begin{aligned} f(\mathbf{x}|\boldsymbol{\theta}) &= \prod_{j=1}^n h(x_j)\,c(\boldsymbol{\theta})\exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta})\,t_i(x_j)\right) \\ &= \left[\prod_{j=1}^n h(x_j)\right] \cdot [c(\boldsymbol{\theta})]^n \cdot \exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta}) \sum_{j=1}^n t_i(x_j)\right) \end{aligned} \]
여기서
- \(h(\mathbf{x}) = \prod_{j=1}^n h(x_j)\): \(\boldsymbol{\theta}\) 에 무관
- \(g(T(\mathbf{x})|\boldsymbol{\theta}) = [c(\boldsymbol{\theta})]^n \exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta}) \sum_{j=1}^n t_i(x_j)\right)\): \(\mathbf{x}\) 를 \(T(\mathbf{x})\) 를 통해서만 포함
인수분해 정리에 의해 \(T(\mathbf{X})\) 가 충분통계량이다.
7.1 지수족 충분통계량의 특성
| 특성 | 설명 |
|---|---|
| 차원 = \(k\) | 충분통계량의 차원이 자연 모수(natural parameter)의 개수 \(k\) 와 같다 |
| 표본 크기에 무관 | \(n\) 이 아무리 커도 \(k\) 개의 숫자로 요약 가능 |
| 자연 충분통계량 | \(\sum t_i(X_j)\) 를 자연 충분통계량(natural sufficient statistic)이라 한다 |
7.2 주요 분포의 충분통계량 정리
| 분포 | 모수 | 충분통계량 | 차원 |
|---|---|---|---|
| \(\text{Bernoulli}(\theta)\) | \(\theta\) | \(\sum X_i\) | 1 |
| \(N(\mu, \sigma^2_0)\) (\(\sigma^2\) 기지) | \(\mu\) | \(\sum X_i\) (또는 \(\bar{X}\)) | 1 |
| \(N(\mu, \sigma^2)\) (둘 다 미지) | \((\mu, \sigma^2)\) | \((\sum X_i, \sum X_i^2)\) (또는 \((\bar{X}, S^2)\)) | 2 |
| \(\text{Poisson}(\lambda)\) | \(\lambda\) | \(\sum X_i\) | 1 |
| \(\text{Exp}(\theta)\) | \(\theta\) | \(\sum X_i\) | 1 |
| \(\text{Gamma}(\alpha, \beta)\) (둘 다 미지) | \((\alpha, \beta)\) | \((\sum \log X_i, \sum X_i)\) | 2 |
| \(\text{Beta}(\alpha, \beta)\) | \((\alpha, \beta)\) | \((\sum \log X_i, \sum \log(1-X_i))\) | 2 |
| \(\text{Uniform}\{1,\ldots,\theta\}\) | \(\theta\) | \(\max_i X_i\) | 1 (비지수족) |
마지막 행의 이산 균등분포는 지수족이 아니므로, Theorem 6.2.10이 아닌 인수분해 정리의 직접 적용으로 충분통계량을 찾았다.
8 벡터 충분통계량
모수가 벡터 \(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_s)\) 이면, 충분통계량도 벡터 \(T(\mathbf{X}) = (T_1(\mathbf{X}), \ldots, T_r(\mathbf{X}))\) 가 되는 것이 일반적이다. 대부분의 경우 \(r = s\) 이지만, 반드시 그런 것은 아니다.
예를 들어 \(\text{Uniform}(\theta, \theta+1)\) 모형에서는 \(\theta\) 가 1차원인데, 최소충분통계량은 \((X_{(1)}, X_{(n)})\) 으로 2차원이다. 이는 비지수족 분포에서 나타나는 현상이다.
인수분해 정리의 적용은 동일하다: \(f(\mathbf{x}|\boldsymbol{\theta})\) 에서 \(\boldsymbol{\theta}\) 에 의존하는 부분이 \(\mathbf{x}\) 를 \((T_1(\mathbf{x}), \ldots, T_r(\mathbf{x}))\) 를 통해서만 포함하면, 이 벡터가 충분통계량이다.
9 충분통계량의 비유일성
어떤 문제에서든 충분통계량은 여러 개 존재한다:
- 전체 표본: \(T(\mathbf{X}) = \mathbf{X}\) 는 항상 충분통계량이다 (\(g(T(\mathbf{x})|\theta) = f(\mathbf{x}|\theta)\), \(h(\mathbf{x}) = 1\))
- 일대일 변환: 충분통계량의 일대일 함수도 충분통계량이다
두 번째 성질은 인수분해 정리로 쉽게 증명된다. \(T(\mathbf{X})\) 가 충분통계량이고 \(T^*(\mathbf{x}) = r(T(\mathbf{x}))\) (\(r\) 은 일대일 함수, 역함수 \(r^{-1}\) 존재)이면
\[ f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) = g(r^{-1}(T^*(\mathbf{x}))|\theta) \, h(\mathbf{x}) \]
\(g^*(t|\theta) = g(r^{-1}(t)|\theta)\) 로 정의하면 \(f(\mathbf{x}|\theta) = g^*(T^*(\mathbf{x})|\theta) \, h(\mathbf{x})\) 이므로 \(T^*(\mathbf{X})\) 도 충분통계량이다.
이러한 비유일성 때문에 “가장 많이 축소하는” 충분통계량, 즉 최소충분통계량(minimal sufficient statistic) 의 개념이 필요하다. 이것은 데이터 축소의 원리 overview에서 다루고 있으며, 별도의 세분화 포스트에서 더 깊이 다룰 예정이다.
10 왜 충분성이 필요한가
10.1 데이터 축소의 수학적 정당화
통계학의 근본 문제는 “방대한 데이터를 어떻게 요약할 것인가”이다. 표본 \(\mathbf{x} = (x_1, \ldots, x_n)\) 이 \(n = 10{,}000\) 이라면, 이 만 개의 숫자를 모두 보고하는 것은 비실용적이다. 충분통계량은 정보 손실 없이 이 데이터를 소수의 숫자로 축소할 수 있다는 보장을 제공한다.
10.2 추정량 개선의 기초
충분통계량은 단순한 요약 도구를 넘어, 최적 추정량 구성의 기초가 된다:
- 라오-블랙웰 정리(Rao-Blackwell Theorem): 임의의 비편향 추정량 \(\delta(\mathbf{X})\) 를 충분통계량 \(T(\mathbf{X})\) 에 조건화하면, \(E[\delta(\mathbf{X}) \mid T(\mathbf{X})]\) 는 원래 추정량보다 MSE가 같거나 작다 (Casella & Berger, 2002, Ch.7)
- 레만-쉐페 정리(Lehmann-Scheffe Theorem): 완비충분통계량의 함수인 비편향 추정량은 UMVUE(균일 최소분산 비편향 추정량)이다
이처럼 충분성은 Ch.7 이후의 추론 이론 전체의 토대가 된다.
10.3 모형 의존성에 대한 경고
충분통계량은 가정한 모형에 의존한다. 정규 모형에서 \((\bar{X}, S^2)\) 가 충분통계량이라는 결론은, 데이터가 실제로 정규분포를 따른다는 가정 위에 성립한다. 이 가정이 틀리면:
- \((\bar{X}, S^2)\) 만으로는 모수에 대한 정보가 불완전할 수 있다
- 순서통계량이나 더 많은 요약량이 필요할 수 있다
- 로버스트 통계학(robust statistics)에서는 모형 오지정(model misspecification)에 덜 민감한 요약량을 추구한다
11 코드 예시
11.1 Step 1: 순수 Python 구현 (충분성 시뮬레이션)
충분통계량의 의미를 시뮬레이션으로 확인한다. 베르누이 표본에서 \(T = \sum X_i\) 가 주어졌을 때, 조건부 분포가 \(\theta\) 에 무관한지 실험적으로 검증한다.
import random
import math
def simulate_conditional_distribution(theta, n, t_value, n_samples=100000):
"""
Bernoulli(theta) 표본 중 sum = t_value 인 것만 수집하여
조건부 분포를 추정한다.
"""
counts = {} # 각 표본 패턴의 빈도
collected = 0
while collected < n_samples:
# 베르누이 표본 생성
sample = tuple(1 if random.random() < theta else 0 for _ in range(n))
if sum(sample) == t_value:
counts[sample] = counts.get(sample, 0) + 1
collected += 1
# 조건부 확률 추정
total = sum(counts.values())
probs = {k: v / total for k, v in sorted(counts.items())}
return probs
# n=4, t=2 에 대해 theta=0.3 과 theta=0.7 에서 조건부 분포 비교
n, t_value = 4, 2
probs_03 = simulate_conditional_distribution(0.3, n, t_value, 50000)
probs_07 = simulate_conditional_distribution(0.7, n, t_value, 50000)
# 이론값: T=2일 때 C(4,2) = 6가지 패턴, 각 확률 = 1/6
print(f"theta=0.3 일 때 조건부 분포 (상위 6개):")
for pattern, prob in list(probs_03.items())[:6]:
print(f" {pattern}: {prob:.4f}")
print(f"\ntheta=0.7 일 때 조건부 분포 (상위 6개):")
for pattern, prob in list(probs_07.items())[:6]:
print(f" {pattern}: {prob:.4f}")
print(f"\n이론값: 각 패턴 확률 = 1/C(4,2) = {1/math.comb(4,2):.4f}")
print("두 분포가 동일 → T = sum(X_i) 가 충분통계량임을 확인")11.2 Step 2: scipy/numpy 구현 (인수분해 정리 검증)
정규분포에서 인수분해 정리가 성립하는지를 수치적으로 확인한다.
import numpy as np
from scipy.stats import norm
np.random.seed(42)
# 정규 모형: sigma^2 = 4 (기지), mu 미지
sigma2 = 4.0
n = 20
# 두 개의 서로 다른 표본 생성 (같은 표본평균을 갖도록 조정)
x = np.random.normal(loc=3.0, scale=np.sqrt(sigma2), size=n)
y = x.copy()
# y를 섞어서 다른 표본을 만들되, 평균은 동일하게 유지
np.random.shuffle(y)
print(f"x_bar = {np.mean(x):.6f}")
print(f"y_bar = {np.mean(y):.6f}")
print(f"T(x) = T(y): {np.isclose(np.mean(x), np.mean(y))}")
# 인수분해 정리 검증: f(x|mu) = g(x_bar|mu) * h(x)
def log_joint_pdf(data, mu, sigma2):
"""결합 로그 pdf"""
return np.sum(norm.logpdf(data, loc=mu, scale=np.sqrt(sigma2)))
def log_g(x_bar, mu, sigma2, n):
"""g(t|mu) = exp(-n*(t-mu)^2 / (2*sigma^2)) 의 로그"""
return -n * (x_bar - mu) ** 2 / (2 * sigma2)
def log_h(data, sigma2):
"""h(x): mu에 무관한 부분의 로그"""
x_bar = np.mean(data)
n = len(data)
return (-n / 2) * np.log(2 * np.pi * sigma2) \
- np.sum((data - x_bar) ** 2) / (2 * sigma2)
# 여러 mu 값에서 인수분해 확인
mu_values = [1.0, 2.0, 3.0, 4.0, 5.0]
print("\n인수분해 정리 검증: log f(x|mu) = log g(x_bar|mu) + log h(x)")
print(f"{'mu':>6} | {'log f(x|mu)':>14} | {'log g + log h':>14} | {'차이':>12}")
print("-" * 55)
for mu in mu_values:
log_f = log_joint_pdf(x, mu, sigma2)
log_gh = log_g(np.mean(x), mu, sigma2, n) + log_h(x, sigma2)
print(f"{mu:6.1f} | {log_f:14.6f} | {log_gh:14.6f} | {abs(log_f - log_gh):12.2e}")
print("\n차이가 0에 가까우면 인수분해가 정확히 성립함을 확인")12 응용 분야
| 분야 | 충분통계량 활용 | 구체적 예시 |
|---|---|---|
| 임상시험 | 처치 효과 요약 | 정규 모형에서 \((\bar{X}, S^2)\) 로 두 군의 효과 비교 |
| 품질관리 | 공정 파라미터 모니터링 | 포아송 모형에서 \(\sum X_i\) 로 불량 총수 추적 |
| 베이지안 추론 | 사후분포 계산의 단순화 | 사전분포와 충분통계량만으로 사후분포 결정 |
| 추정량 설계 | 최적 추정량 구성 | 라오-블랙웰 정리를 통한 UMVUE 도출 |
| 머신러닝 | 피처 엔지니어링 | 지수족에서 자연 충분통계량이 최적 요약 피처 |
| 정보 이론 | 데이터 압축 한계 | 충분통계량은 무손실 압축의 통계적 대응물 |
13 관련 주제
선행 지식
상위 주제
후속 주제
- 최소충분통계량과 보조통계량 — 현재 overview에 포함, 세분화 예정
- 완비통계량과 바수 정리
- 우도원리
- 점추정: 라오-블랙웰 정리 — 충분통계량을 활용한 추정량 개선
14 참고 문헌
- Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 6, Section 6.2.1.
- Halmos, P. R. & Savage, L. J. (1949). Application of the Radon-Nikodym theorem to the theory of sufficient statistics. Annals of Mathematical Statistics, 20, 225-241.
- Fisher, R. A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A, 222, 309-368.