Kwangmin Kim - 충분성 원리 (The Sufficiency Principle)

1 개요

데이터 축소의 원리 overview에서 충분통계량, 최소충분통계량, 보조통계량, 완비통계량, 우도원리, 등변원리를 전체적으로 조망했다. 이 포스트에서는 그 중 충분성 원리(The Sufficiency Principle) 를 세분화하여, 정의의 수학적 의미, 인수분해 정리의 증명, 다양한 예시, 지수족에서의 체계적 도출, 그리고 충분성의 실무적 함의까지 깊이 있게 다룬다.

충분성 원리의 핵심 주장은 다음과 같다:

\(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량이면, \(\theta\) 에 대한 모든 추론은 표본 \(\mathbf{X}\) 를 \(T(\mathbf{X})\) 의 값을 통해서만 사용해야 한다.

즉, \(T(\mathbf{x}) = T(\mathbf{y})\) 인 두 표본 \(\mathbf{x}\) 와 \(\mathbf{y}\) 에 대해, \(\theta\) 에 대한 추론은 동일해야 한다 (Casella & Berger, 2002, Ch.6).

2 충분통계량의 정의

2.1 형식적 정의

정의 6.2.1: 충분통계량 (Sufficient Statistic)

통계량 \(T(\mathbf{X})\) 가 모수 \(\theta\) 에 대한 충분통계량(sufficient statistic) 이란, \(T(\mathbf{X})\) 의 값이 주어졌을 때 표본 \(\mathbf{X}\) 의 조건부 분포가 \(\theta\) 에 의존하지 않는 것이다.

\[ P_\theta(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t) \text{ 가 } \theta \text{ 에 무관} \]

이 정의는 직관적으로 다음을 의미한다: \(T(\mathbf{X})\) 의 값을 알면, 나머지 표본 정보는 \(\theta\) 에 대해 아무런 추가 정보를 제공하지 않는다. “나머지”란 \(T(\mathbf{X}) = t\) 라는 조건 하에서 \(\mathbf{X}\) 가 어떤 구체적 값을 가지느냐인데, 이 조건부 분포가 \(\theta\) 와 무관하므로 \(\theta\) 를 더 알려주지 못한다.

2.2 연속 분포에서의 주의점

\(T(\mathbf{X})\) 가 연속 분포를 따르면 \(P_\theta(T(\mathbf{X}) = t) = 0\) 이므로, 1장에서 도입한 조건부 확률의 정의를 직접 적용할 수 없다. 이 경우 측도론적 조건부 기댓값을 사용해야 하지만, 실용적으로는 아래에서 다루는 인수분해 정리가 연속/이산 모두에서 충분통계량을 찾는 표준 도구가 된다.

3 “두 실험자” 직관 (Two Experimenters)

충분성의 의미를 가장 명확하게 전달하는 것이 “두 실험자” 사고실험이다.

실험자 1: 전체 표본 \(\mathbf{X} = \mathbf{x}\) 를 관측하고, \(T(\mathbf{X}) = T(\mathbf{x})\) 도 계산할 수 있다
실험자 2: \(T(\mathbf{X}) = T(\mathbf{x})\) 만 전달받고, 조건부 분포 \(P(\mathbf{X} = \mathbf{y} \mid T(\mathbf{X}) = T(\mathbf{x}))\) 와 난수 생성기를 이용해 가상 표본 \(\mathbf{Y}\) 를 생성한다

\(T(\mathbf{X})\) 가 충분통계량이면, 이 조건부 분포는 \(\theta\) 에 무관하므로 실험자 2는 \(\theta\) 에 대한 지식 없이도 가상 표본을 생성할 수 있다.

3.1 핵심 논증: \(\mathbf{X}\) 와 \(\mathbf{Y}\) 의 비조건부 분포가 동일하다

모든 \(\theta\) 에 대해

\[ \begin{aligned} P_\theta(\mathbf{X} = \mathbf{x}) &= P_\theta(\mathbf{X} = \mathbf{x} \text{ and } T(\mathbf{X}) = T(\mathbf{x})) \\ &= P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) \cdot P_\theta(T(\mathbf{X}) = T(\mathbf{x})) \\ &= P(\mathbf{Y} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) \cdot P_\theta(T(\mathbf{X}) = T(\mathbf{x})) \\ &= P_\theta(\mathbf{Y} = \mathbf{x}) \end{aligned} \]

두 번째 등호에서 조건부 확률의 정의를 사용했고, 세 번째 등호에서 \(\mathbf{Y}\) 의 조건부 분포가 \(\mathbf{X}\) 의 조건부 분포와 동일하다는 사실을 사용했다.

따라서 실험자 1(전체 표본을 아는 사람)과 실험자 2(\(T(\mathbf{X})\) 만 아는 사람)는 \(\theta\) 에 대해 동등한 정보를 가진다. 난수 생성기가 \(\theta\) 에 대한 지식을 추가하지 않으므로, 실험자 2의 모든 정보는 \(T(\mathbf{X})\) 의 값에서 온 것이다.

4 판별 기준: pmf/pdf 비 (Theorem 6.2.2)

정의를 직접 적용하여 충분통계량인지 확인하는 방법은 다음과 같다.

정리 6.2.2: pmf/pdf 비 판별법

\(p(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X}\) 의 결합 pdf 또는 pmf, \(q(t|\theta)\) 를 \(T(\mathbf{X})\) 의 pdf 또는 pmf라 하자. \(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량일 필요충분조건은, 모든 \(\mathbf{x}\) 에 대해

\[ \frac{p(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} \]

가 \(\theta\) 의 함수로서 상수인 것이다.

유도 과정: \(\{\mathbf{X} = \mathbf{x}\}\) 는 \(\{T(\mathbf{X}) = T(\mathbf{x})\}\) 의 부분사건이므로

\[ P_\theta(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) = \frac{P_\theta(\mathbf{X} = \mathbf{x})}{P_\theta(T(\mathbf{X}) = T(\mathbf{x}))} = \frac{p(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} \]

이 비가 \(\theta\) 에 무관하면 조건부 분포가 \(\theta\) 에 의존하지 않으므로, 정의에 의해 \(T(\mathbf{X})\) 는 충분통계량이다.

이 방법의 단점은 \(T(\mathbf{X})\) 를 먼저 추측한 뒤, \(T(\mathbf{X})\) 의 분포 \(q(t|\theta)\) 를 유도해야 한다는 것이다. 아래의 인수분해 정리가 이 과정을 크게 단순화한다.

5 인수분해 정리 (Factorization Theorem)

5.1 정리와 증명

정리 6.2.6: 인수분해 정리 (Halmos & Savage, 1949)

\(f(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X}\) 의 결합 pdf 또는 pmf라 하자. 통계량 \(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량이 되기 위한 필요충분조건은, 함수 \(g(t|\theta)\) 와 \(h(\mathbf{x})\) 가 존재하여 모든 \(\mathbf{x}\) 와 모든 \(\theta\) 에 대해

\[ f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) \]

로 분해되는 것이다.

인수분해 정리는 \(T(\mathbf{X})\) 의 분포를 구하지 않고도, 결합 pdf/pmf의 구조만 검사하여 충분통계량을 찾을 수 있게 해준다.

5.2 증명 (이산 분포)

(\(\Rightarrow\)) 충분통계량이면 인수분해가 존재한다

\(T(\mathbf{X})\) 가 충분통계량이라 가정한다. 다음과 같이 정의한다:

\(g(t|\theta) = P_\theta(T(\mathbf{X}) = t)\): \(T(\mathbf{X})\) 의 pmf
\(h(\mathbf{x}) = P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x}))\): \(\theta\) 에 무관 (충분성에 의해)

그러면

\[ \begin{aligned} f(\mathbf{x}|\theta) &= P_\theta(\mathbf{X} = \mathbf{x}) \\ &= P_\theta(\mathbf{X} = \mathbf{x} \text{ and } T(\mathbf{X}) = T(\mathbf{x})) \\ &= P_\theta(T(\mathbf{X}) = T(\mathbf{x})) \cdot P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = T(\mathbf{x})) \\ &= g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) \end{aligned} \]

(\(\Leftarrow\)) 인수분해가 존재하면 충분통계량이다

\(f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x})\) 를 가정한다. \(A_{T(\mathbf{x})} = \{\mathbf{y} : T(\mathbf{y}) = T(\mathbf{x})\}\) 로 정의하면, \(T(\mathbf{X})\) 의 pmf는

\[ q(T(\mathbf{x})|\theta) = \sum_{\mathbf{y} \in A_{T(\mathbf{x})}} g(T(\mathbf{y})|\theta) \, h(\mathbf{y}) = g(T(\mathbf{x})|\theta) \sum_{\mathbf{y} \in A_{T(\mathbf{x})}} h(\mathbf{y}) \]

마지막 등호는 \(A_{T(\mathbf{x})}\) 위에서 \(T(\mathbf{y}) = T(\mathbf{x})\) 이므로 \(g\) 가 상수로 나오기 때문이다. 따라서

\[ \frac{f(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} = \frac{g(T(\mathbf{x})|\theta) \, h(\mathbf{x})}{g(T(\mathbf{x})|\theta) \sum_{\mathbf{y} \in A_{T(\mathbf{x})}} h(\mathbf{y})} = \frac{h(\mathbf{x})}{\sum_{\mathbf{y} \in A_{T(\mathbf{x})}} h(\mathbf{y})} \]

이 비가 \(\theta\) 에 무관하므로, Theorem 6.2.2에 의해 \(T(\mathbf{X})\) 는 충분통계량이다. \(\square\)

5.3 사용법

인수분해 정리를 적용하려면 결합 pdf/pmf를 다음 두 부분으로 분리한다:

부분	의존 관계	역할
\(h(\mathbf{x})\)	\(\theta\) 에 무관, \(\mathbf{x}\) 에만 의존	\(\theta\) 와 관련 없는 표본의 특성
\(g(T(\mathbf{x})\|\theta)\)	\(\theta\) 에 의존하되, \(\mathbf{x}\) 는 \(T(\mathbf{x})\) 를 통해서만	\(\theta\) 에 대한 모든 정보를 담은 부분

\(g\) 함수에서 \(\mathbf{x}\) 가 \(T(\mathbf{x})\) 를 통해서만 나타나야 한다는 점이 핵심이다.

6 예시

6.1 예시 1: 베르누이 표본

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(\theta)\), \(0 < \theta < 1\) 에서 \(T(\mathbf{X}) = \sum_{i=1}^n X_i\) 가 충분통계량임을 보인다.

풀이: 결합 pmf는

\[ p(\mathbf{x}|\theta) = \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} = \theta^{\sum x_i}(1-\theta)^{n - \sum x_i} \]

\(t = \sum x_i\) 로 놓으면

\[ p(\mathbf{x}|\theta) = \underbrace{\theta^t(1-\theta)^{n-t}}_{g(t|\theta)} \cdot \underbrace{1}_{h(\mathbf{x})} \]

인수분해 정리에 의해 \(T(\mathbf{X}) = \sum X_i\) 는 \(\theta\) 에 대한 충분통계량이다.

해석: 1의 총 개수(성공 횟수)가 \(\theta\) 에 대한 모든 정보를 담고 있다. 예를 들어, \(n = 10\) 번 시행에서 \(X_3 = 1\) 인지 \(X_7 = 1\) 인지의 구체적 배치는 \(\theta\) 추론에 무관하다. “10번 중 7번 성공”이라는 요약이면 충분하다.

pmf 비로도 확인: \(T(\mathbf{X}) \sim \text{Binomial}(n, \theta)\) 이므로

\[ \frac{p(\mathbf{x}|\theta)}{q(t|\theta)} = \frac{\theta^t(1-\theta)^{n-t}}{\binom{n}{t}\theta^t(1-\theta)^{n-t}} = \frac{1}{\binom{n}{t}} \]

이 비가 \(\theta\) 에 무관하므로, Theorem 6.2.2에 의해서도 충분통계량이 확인된다.

6.2 예시 2: 정규 표본 ( \(\sigma^2\) 기지)

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\sigma^2\) 기지(known)일 때, \(T(\mathbf{X}) = \bar{X}\) 가 \(\mu\) 에 대한 충분통계량이다.

풀이: 결합 pdf를 전개하면

\[ \begin{aligned} f(\mathbf{x}|\mu) &= (2\pi\sigma^2)^{-n/2} \exp\!\left(-\frac{\sum_{i=1}^n (x_i - \mu)^2}{2\sigma^2}\right) \\ &= (2\pi\sigma^2)^{-n/2} \exp\!\left(-\frac{\sum_{i=1}^n (x_i - \bar{x})^2 + n(\bar{x}-\mu)^2}{2\sigma^2}\right) \end{aligned} \]

두 번째 등호는 \(\sum(x_i - \mu)^2 = \sum(x_i - \bar{x})^2 + n(\bar{x} - \mu)^2\) 라는 항등식에서 온다. 교차항 \(\sum(x_i - \bar{x})(\bar{x} - \mu) = (\bar{x} - \mu)\sum(x_i - \bar{x}) = 0\) 이므로 교차항이 소거된다.

따라서

\[ f(\mathbf{x}|\mu) = \underbrace{\exp\!\left(-\frac{n(\bar{x}-\mu)^2}{2\sigma^2}\right)}_{g(\bar{x}|\mu)} \cdot \underbrace{(2\pi\sigma^2)^{-n/2}\exp\!\left(-\frac{\sum(x_i - \bar{x})^2}{2\sigma^2}\right)}_{h(\mathbf{x})} \]

\(h(\mathbf{x})\) 는 \(\mu\) 에 무관하고, \(g\) 는 \(\mathbf{x}\) 를 \(\bar{x}\) 를 통해서만 포함한다. 인수분해 정리에 의해 \(\bar{X}\) 는 \(\mu\) 에 대한 충분통계량이다.

해석: \(\sigma^2\) 를 알고 있을 때, 표본평균 하나가 \(\mu\) 에 대한 모든 정보를 담는다. 개별 관측값의 편차 패턴(\(\sum(x_i - \bar{x})^2\))은 \(\mu\) 추론에 무관하다.

6.3 예시 3: 정규 표본 ( \(\mu, \sigma^2\) 모두 미지)

\(\mu\) 와 \(\sigma^2\) 가 모두 미지이면, \(\mu\) 또는 \(\sigma^2\) 에 의존하는 모든 부분이 \(g\) 함수에 포함되어야 한다.

\[ f(\mathbf{x}|\mu,\sigma^2) = \underbrace{(2\pi\sigma^2)^{-n/2}\exp\!\left(-\frac{n(\bar{x}-\mu)^2 + (n-1)s^2}{2\sigma^2}\right)}_{g(\bar{x}, s^2 | \mu, \sigma^2)} \cdot \underbrace{1}_{h(\mathbf{x})} \]

따라서 \(T(\mathbf{X}) = (\bar{X}, S^2)\) 이 \((\mu, \sigma^2)\) 에 대한 충분통계량이다.

실무적 함의: 정규 모형에서 “표본평균과 표본분산만 보고하면 된다”는 관행은 충분성에 의해 수학적으로 정당화된다. 그러나 이것은 모형에 의존적(model-dependent) 이다. 데이터가 실제로 정규분포를 따르지 않으면, \((\bar{X}, S^2)\) 가 충분통계량이 아닐 수 있다. \(\bar{X}\) 와 \(S^2\) 만 보고 나머지 데이터를 버리는 것은 정규 모형에 대한 강한 신뢰를 전제한다.

6.4 예시 4: 이산 균등분포

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Uniform}\{1, 2, \ldots, \theta\}\) 에서 \(\theta\) 는 미지의 양의 정수이다.

결합 pmf는

\[ f(\mathbf{x}|\theta) = \prod_{i=1}^n \theta^{-1} I_{\{1,\ldots,\theta\}}(x_i) = \theta^{-n} \prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i) \]

여기서 \(I_A(x)\) 는 \(x \in A\) 이면 1, 아니면 0인 지시함수이다. 핵심은 \(\prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i)\) 를 분리하는 것이다:

\[ \prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i) = \left(\prod_{i=1}^n I_{\{1,2,\ldots\}}(x_i)\right) \cdot I_{\{1,\ldots,\theta\}}(\max_i x_i) \]

모든 \(x_i\) 가 \(\{1, \ldots, \theta\}\) 에 속하는 것은, 모든 \(x_i\) 가 양의 정수이고 동시에 최댓값이 \(\theta\) 이하인 것과 동치이기 때문이다. 따라서

\[ f(\mathbf{x}|\theta) = \underbrace{\theta^{-n} I_{\{1,\ldots,\theta\}}(\max_i x_i)}_{g(T(\mathbf{x})|\theta)} \cdot \underbrace{\prod_{i=1}^n I_{\{1,2,\ldots\}}(x_i)}_{h(\mathbf{x})} \]

인수분해 정리에 의해 \(T(\mathbf{X}) = \max_i X_i\) (최대 순서통계량)가 \(\theta\) 에 대한 충분통계량이다.

해석: 이산 균등분포에서 모수 \(\theta\) (범위의 상한)를 추론할 때, 표본의 최댓값이 모든 정보를 담는다. 직관적으로도 자연스럽다 — \(\theta\) 가 “가능한 값의 범위”를 결정하므로, 관측된 최댓값이 \(\theta\) 에 대한 가장 직접적인 단서이다.

6.5 예시 5: 순서통계량이 최선인 경우

\(X_1, \ldots, X_n\) 이 pdf \(f\) 에서 iid로 추출되었으나, \(f\) 에 대해 모수적 가정이 없는 경우 (비모수 설정)

\[ f(\mathbf{x}) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n f(x_{(i)}) \]

여기서 \(x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}\) 은 순서통계량이다. 순서통계량 전체 \(T(\mathbf{X}) = (X_{(1)}, \ldots, X_{(n)})\) 가 충분통계량이 되지만, 이것은 사실상 표본 전체와 동등한 수준이므로 실질적인 축소가 아니다.

모수적 모형을 가정하더라도 지수족에 속하지 않는 분포에서는 비슷한 상황이 발생한다. 예를 들어:

분포	충분통계량	축소 정도
코시(Cauchy) \(f(x\|\theta) = \frac{1}{\pi(1+(x-\theta)^2)}\)	순서통계량 전체	실질적 축소 없음
로지스틱(Logistic) \(f(x\|\theta) = \frac{e^{-(x-\theta)}}{(1+e^{-(x-\theta)})^2}\)	순서통계량 전체	실질적 축소 없음

지수족 밖에서는 표본 크기보다 작은 차원의 충분통계량이 존재하는 것이 드물다 (Casella & Berger, 2002, Ch.6). 이것이 지수족이 통계학에서 핵심적인 위치를 차지하는 이유 중 하나이다.

7 지수족과 충분통계량

지수족(exponential family)에 속하는 분포에서는 충분통계량을 체계적으로 찾을 수 있다.

정리 6.2.10: 지수족의 충분통계량

\(X_1, \ldots, X_n\) 이 다음 형태의 지수족에서 iid로 추출되었다고 하자.

\[ f(x|\boldsymbol{\theta}) = h(x)\,c(\boldsymbol{\theta})\exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta})\,t_i(x)\right) \]

그러면

\[ T(\mathbf{X}) = \left(\sum_{j=1}^n t_1(X_j),\; \ldots,\; \sum_{j=1}^n t_k(X_j)\right) \]

는 \(\boldsymbol{\theta}\) 에 대한 충분통계량이다.

증명 스케치: iid 표본의 결합 pdf/pmf는

\[ \begin{aligned} f(\mathbf{x}|\boldsymbol{\theta}) &= \prod_{j=1}^n h(x_j)\,c(\boldsymbol{\theta})\exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta})\,t_i(x_j)\right) \\ &= \left[\prod_{j=1}^n h(x_j)\right] \cdot [c(\boldsymbol{\theta})]^n \cdot \exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta}) \sum_{j=1}^n t_i(x_j)\right) \end{aligned} \]

여기서

\(h(\mathbf{x}) = \prod_{j=1}^n h(x_j)\): \(\boldsymbol{\theta}\) 에 무관
\(g(T(\mathbf{x})|\boldsymbol{\theta}) = [c(\boldsymbol{\theta})]^n \exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta}) \sum_{j=1}^n t_i(x_j)\right)\): \(\mathbf{x}\) 를 \(T(\mathbf{x})\) 를 통해서만 포함

인수분해 정리에 의해 \(T(\mathbf{X})\) 가 충분통계량이다.

7.1 지수족 충분통계량의 특성

특성	설명
차원 = \(k\)	충분통계량의 차원이 자연 모수(natural parameter)의 개수 \(k\) 와 같다
표본 크기에 무관	\(n\) 이 아무리 커도 \(k\) 개의 숫자로 요약 가능
자연 충분통계량	\(\sum t_i(X_j)\) 를 자연 충분통계량(natural sufficient statistic)이라 한다

7.2 주요 분포의 충분통계량 정리

분포	모수	충분통계량	차원
\(\text{Bernoulli}(\theta)\)	\(\theta\)	\(\sum X_i\)	1
\(N(\mu, \sigma^2_0)\) (\(\sigma^2\) 기지)	\(\mu\)	\(\sum X_i\) (또는 \(\bar{X}\))	1
\(N(\mu, \sigma^2)\) (둘 다 미지)	\((\mu, \sigma^2)\)	\((\sum X_i, \sum X_i^2)\) (또는 \((\bar{X}, S^2)\))	2
\(\text{Poisson}(\lambda)\)	\(\lambda\)	\(\sum X_i\)	1
\(\text{Exp}(\theta)\)	\(\theta\)	\(\sum X_i\)	1
\(\text{Gamma}(\alpha, \beta)\) (둘 다 미지)	\((\alpha, \beta)\)	\((\sum \log X_i, \sum X_i)\)	2
\(\text{Beta}(\alpha, \beta)\)	\((\alpha, \beta)\)	\((\sum \log X_i, \sum \log(1-X_i))\)	2
\(\text{Uniform}\{1,\ldots,\theta\}\)	\(\theta\)	\(\max_i X_i\)	1 (비지수족)

마지막 행의 이산 균등분포는 지수족이 아니므로, Theorem 6.2.10이 아닌 인수분해 정리의 직접 적용으로 충분통계량을 찾았다.

8 벡터 충분통계량

모수가 벡터 \(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_s)\) 이면, 충분통계량도 벡터 \(T(\mathbf{X}) = (T_1(\mathbf{X}), \ldots, T_r(\mathbf{X}))\) 가 되는 것이 일반적이다. 대부분의 경우 \(r = s\) 이지만, 반드시 그런 것은 아니다.

예를 들어 \(\text{Uniform}(\theta, \theta+1)\) 모형에서는 \(\theta\) 가 1차원인데, 최소충분통계량은 \((X_{(1)}, X_{(n)})\) 으로 2차원이다. 이는 비지수족 분포에서 나타나는 현상이다.

인수분해 정리의 적용은 동일하다: \(f(\mathbf{x}|\boldsymbol{\theta})\) 에서 \(\boldsymbol{\theta}\) 에 의존하는 부분이 \(\mathbf{x}\) 를 \((T_1(\mathbf{x}), \ldots, T_r(\mathbf{x}))\) 를 통해서만 포함하면, 이 벡터가 충분통계량이다.

9 충분통계량의 비유일성

어떤 문제에서든 충분통계량은 여러 개 존재한다:

전체 표본: \(T(\mathbf{X}) = \mathbf{X}\) 는 항상 충분통계량이다 (\(g(T(\mathbf{x})|\theta) = f(\mathbf{x}|\theta)\), \(h(\mathbf{x}) = 1\))
일대일 변환: 충분통계량의 일대일 함수도 충분통계량이다

두 번째 성질은 인수분해 정리로 쉽게 증명된다. \(T(\mathbf{X})\) 가 충분통계량이고 \(T^*(\mathbf{x}) = r(T(\mathbf{x}))\) (\(r\) 은 일대일 함수, 역함수 \(r^{-1}\) 존재)이면

\[ f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) = g(r^{-1}(T^*(\mathbf{x}))|\theta) \, h(\mathbf{x}) \]

\(g^*(t|\theta) = g(r^{-1}(t)|\theta)\) 로 정의하면 \(f(\mathbf{x}|\theta) = g^*(T^*(\mathbf{x})|\theta) \, h(\mathbf{x})\) 이므로 \(T^*(\mathbf{X})\) 도 충분통계량이다.

이러한 비유일성 때문에 “가장 많이 축소하는” 충분통계량, 즉 최소충분통계량(minimal sufficient statistic) 의 개념이 필요하다. 이것은 데이터 축소의 원리 overview에서 다루고 있으며, 별도의 세분화 포스트에서 더 깊이 다룰 예정이다.

10 왜 충분성이 필요한가

10.1 데이터 축소의 수학적 정당화

통계학의 근본 문제는 “방대한 데이터를 어떻게 요약할 것인가”이다. 표본 \(\mathbf{x} = (x_1, \ldots, x_n)\) 이 \(n = 10{,}000\) 이라면, 이 만 개의 숫자를 모두 보고하는 것은 비실용적이다. 충분통계량은 정보 손실 없이 이 데이터를 소수의 숫자로 축소할 수 있다는 보장을 제공한다.

10.2 추정량 개선의 기초

충분통계량은 단순한 요약 도구를 넘어, 최적 추정량 구성의 기초가 된다:

라오-블랙웰 정리(Rao-Blackwell Theorem): 임의의 비편향 추정량 \(\delta(\mathbf{X})\) 를 충분통계량 \(T(\mathbf{X})\) 에 조건화하면, \(E[\delta(\mathbf{X}) \mid T(\mathbf{X})]\) 는 원래 추정량보다 MSE가 같거나 작다 (Casella & Berger, 2002, Ch.7)
레만-쉐페 정리(Lehmann-Scheffe Theorem): 완비충분통계량의 함수인 비편향 추정량은 UMVUE(균일 최소분산 비편향 추정량)이다

이처럼 충분성은 Ch.7 이후의 추론 이론 전체의 토대가 된다.

10.3 모형 의존성에 대한 경고

충분통계량은 가정한 모형에 의존한다. 정규 모형에서 \((\bar{X}, S^2)\) 가 충분통계량이라는 결론은, 데이터가 실제로 정규분포를 따른다는 가정 위에 성립한다. 이 가정이 틀리면:

\((\bar{X}, S^2)\) 만으로는 모수에 대한 정보가 불완전할 수 있다
순서통계량이나 더 많은 요약량이 필요할 수 있다
로버스트 통계학(robust statistics)에서는 모형 오지정(model misspecification)에 덜 민감한 요약량을 추구한다

11 코드 예시

11.1 Step 1: 순수 Python 구현 (충분성 시뮬레이션)

충분통계량의 의미를 시뮬레이션으로 확인한다. 베르누이 표본에서 \(T = \sum X_i\) 가 주어졌을 때, 조건부 분포가 \(\theta\) 에 무관한지 실험적으로 검증한다.

import random
import math

def simulate_conditional_distribution(theta, n, t_value, n_samples=100000):
    """
    Bernoulli(theta) 표본 중 sum = t_value 인 것만 수집하여
    조건부 분포를 추정한다.
    """
    counts = {}  # 각 표본 패턴의 빈도
    collected = 0

    while collected < n_samples:
        # 베르누이 표본 생성
        sample = tuple(1 if random.random() < theta else 0 for _ in range(n))
        if sum(sample) == t_value:
            counts[sample] = counts.get(sample, 0) + 1
            collected += 1

    # 조건부 확률 추정
    total = sum(counts.values())
    probs = {k: v / total for k, v in sorted(counts.items())}
    return probs


# n=4, t=2 에 대해 theta=0.3 과 theta=0.7 에서 조건부 분포 비교
n, t_value = 4, 2
probs_03 = simulate_conditional_distribution(0.3, n, t_value, 50000)
probs_07 = simulate_conditional_distribution(0.7, n, t_value, 50000)

# 이론값: T=2일 때 C(4,2) = 6가지 패턴, 각 확률 = 1/6
print(f"theta=0.3 일 때 조건부 분포 (상위 6개):")
for pattern, prob in list(probs_03.items())[:6]:
    print(f"  {pattern}: {prob:.4f}")

print(f"\ntheta=0.7 일 때 조건부 분포 (상위 6개):")
for pattern, prob in list(probs_07.items())[:6]:
    print(f"  {pattern}: {prob:.4f}")

print(f"\n이론값: 각 패턴 확률 = 1/C(4,2) = {1/math.comb(4,2):.4f}")
print("두 분포가 동일 → T = sum(X_i) 가 충분통계량임을 확인")

11.2 Step 2: scipy/numpy 구현 (인수분해 정리 검증)

정규분포에서 인수분해 정리가 성립하는지를 수치적으로 확인한다.

import numpy as np
from scipy.stats import norm

np.random.seed(42)

# 정규 모형: sigma^2 = 4 (기지), mu 미지
sigma2 = 4.0
n = 20

# 두 개의 서로 다른 표본 생성 (같은 표본평균을 갖도록 조정)
x = np.random.normal(loc=3.0, scale=np.sqrt(sigma2), size=n)
y = x.copy()
# y를 섞어서 다른 표본을 만들되, 평균은 동일하게 유지
np.random.shuffle(y)

print(f"x_bar = {np.mean(x):.6f}")
print(f"y_bar = {np.mean(y):.6f}")
print(f"T(x) = T(y): {np.isclose(np.mean(x), np.mean(y))}")

# 인수분해 정리 검증: f(x|mu) = g(x_bar|mu) * h(x)
def log_joint_pdf(data, mu, sigma2):
    """결합 로그 pdf"""
    return np.sum(norm.logpdf(data, loc=mu, scale=np.sqrt(sigma2)))

def log_g(x_bar, mu, sigma2, n):
    """g(t|mu) = exp(-n*(t-mu)^2 / (2*sigma^2)) 의 로그"""
    return -n * (x_bar - mu) ** 2 / (2 * sigma2)

def log_h(data, sigma2):
    """h(x): mu에 무관한 부분의 로그"""
    x_bar = np.mean(data)
    n = len(data)
    return (-n / 2) * np.log(2 * np.pi * sigma2) \
           - np.sum((data - x_bar) ** 2) / (2 * sigma2)

# 여러 mu 값에서 인수분해 확인
mu_values = [1.0, 2.0, 3.0, 4.0, 5.0]
print("\n인수분해 정리 검증: log f(x|mu) = log g(x_bar|mu) + log h(x)")
print(f"{'mu':>6} | {'log f(x|mu)':>14} | {'log g + log h':>14} | {'차이':>12}")
print("-" * 55)

for mu in mu_values:
    log_f = log_joint_pdf(x, mu, sigma2)
    log_gh = log_g(np.mean(x), mu, sigma2, n) + log_h(x, sigma2)
    print(f"{mu:6.1f} | {log_f:14.6f} | {log_gh:14.6f} | {abs(log_f - log_gh):12.2e}")

print("\n차이가 0에 가까우면 인수분해가 정확히 성립함을 확인")

12 응용 분야

분야	충분통계량 활용	구체적 예시
임상시험	처치 효과 요약	정규 모형에서 \((\bar{X}, S^2)\) 로 두 군의 효과 비교
품질관리	공정 파라미터 모니터링	포아송 모형에서 \(\sum X_i\) 로 불량 총수 추적
베이지안 추론	사후분포 계산의 단순화	사전분포와 충분통계량만으로 사후분포 결정
추정량 설계	최적 추정량 구성	라오-블랙웰 정리를 통한 UMVUE 도출
머신러닝	피처 엔지니어링	지수족에서 자연 충분통계량이 최적 요약 피처
정보 이론	데이터 압축 한계	충분통계량은 무손실 압축의 통계적 대응물

13 관련 주제

선행 지식

상위 주제

데이터 축소의 원리 (Overview)

후속 주제

최소충분통계량과 보조통계량 — 현재 overview에 포함, 세분화 예정
완비통계량과 바수 정리
우도원리
점추정: 라오-블랙웰 정리 — 충분통계량을 활용한 추정량 개선

14 참고 문헌

Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 6, Section 6.2.1.
Halmos, P. R. & Savage, L. J. (1949). Application of the Radon-Nikodym theorem to the theory of sufficient statistics. Annals of Mathematical Statistics, 20, 225-241.
Fisher, R. A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A, 222, 309-368.