Kwangmin Kim - 데이터 축소의 원리 (Principles of Data Reduction)

1 개요

표본 \(X_1, \ldots, X_n\) 으로 미지의 모수 \(\theta\) 를 추론할 때, 표본 크기 \(n\) 이 크면 관측값 전체를 직접 다루기 어렵다. 이때 통계량(statistic) \(T(\mathbf{X})\) 를 계산해 표본을 요약하는 것이 데이터 축소(data reduction) 이다 (Casella & Berger, 2002, Ch.6).

“어떤 통계량 \(T(\mathbf{X})\) 든 데이터 축소 또는 데이터 요약의 한 형태를 정의한다.”

\(T(\mathbf{x}) = T(\mathbf{y})\) 이면 두 표본 \(\mathbf{x}, \mathbf{y}\) 를 동일하게 취급한다. 예를 들어 \(T(\mathbf{x}) = x_1 + \cdots + x_n\) (합계)을 사용하면, 합이 같은 모든 표본을 하나의 값으로 압축한다.

1.1 표본공간의 분할 관점

통계량 \(T(\mathbf{x})\) 는 표본공간 \(\mathcal{X}\) 를 분할(partition)한다. \(T\) 의 상(image) \(\mathcal{T} = \{t : t = T(\mathbf{x}) \text{ for some } \mathbf{x} \in \mathcal{X}\}\) 에 대해, 각 \(t \in \mathcal{T}\) 마다

\[ A_t = \{\mathbf{x} : T(\mathbf{x}) = t\} \]

를 정의하면, 통계량은 전체 표본 \(\mathbf{x}\) 대신 “\(\mathbf{x} \in A_t\)” 라는 사실만 보고한다.

1.2 세 가지 축소 원리

이 장에서는 모수 \(\theta\) 에 대한 정보를 잃지 않으면서 데이터를 축소하는 세 가지 원리를 다룬다.

원리	핵심 아이디어
충분성 원리(Sufficiency Principle)	\(\theta\) 에 대한 모든 정보를 보존하는 통계량으로 축소
우도원리(Likelihood Principle)	관측된 표본이 결정하는 우도함수가 \(\theta\) 에 대한 모든 정보를 담고 있다
등변원리(Equivariance Principle)	측정 단위를 변환해도 추론이 일관되도록 축소

2 충분성 원리 (The Sufficiency Principle)

2.1 충분통계량의 정의

정의: 충분통계량 (Sufficient Statistic)

통계량 \(T(\mathbf{X})\) 가 모수 \(\theta\) 에 대한 충분통계량이란, \(T(\mathbf{X})\) 의 값이 주어졌을 때 표본 \(\mathbf{X}\) 의 조건부 분포가 \(\theta\) 에 의존하지 않는 것을 의미한다.

\[ P_\theta(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t) \text{ 가 } \theta \text{ 에 무관} \]

직관적 해석: \(T(\mathbf{X})\) 가 충분통계량이면, \(T(\mathbf{X})\) 의 값만 알아도 전체 표본 \(\mathbf{X}\) 를 아는 것과 \(\theta\) 에 대해 동등한 정보를 가진다.

이것을 “두 실험자” 비유로 설명할 수 있다.

실험자 1: 전체 표본 \(\mathbf{X} = \mathbf{x}\) 를 관측하고, \(T(\mathbf{X}) = T(\mathbf{x})\) 도 계산할 수 있다
실험자 2: \(T(\mathbf{X}) = T(\mathbf{x})\) 만 알려받고, 조건부 분포 \(P(\mathbf{X} = \mathbf{y} \mid T(\mathbf{X}) = T(\mathbf{x}))\) 와 난수 생성기를 이용해 가상 표본 \(\mathbf{Y}\) 를 생성한다

\(T(\mathbf{X})\) 가 충분통계량이면, 모든 \(\theta\) 에 대해 \(\mathbf{X}\) 와 \(\mathbf{Y}\) 의 비조건부 분포가 동일하다. 따라서 실험자 2는 난수 테이블을 이용했을 뿐인데, \(\theta\) 에 대해 실험자 1과 동등한 정보를 가진다. 난수 생성이 \(\theta\) 에 대한 지식을 추가하지 않으므로, \(T(\mathbf{X})\) 의 값만으로 \(\theta\) 에 대한 모든 정보가 전달된 것이다.

2.2 판별 기준: pmf/pdf 비

이산 분포에서 \(T(\mathbf{X})\) 가 충분통계량인지 확인하려면, \(p(\mathbf{x}|\theta)\) 를 표본의 결합 pmf, \(q(t|\theta)\) 를 \(T(\mathbf{X})\) 의 pmf라 할 때

\[ \frac{p(\mathbf{x}|\theta)}{q(T(\mathbf{x})|\theta)} \]

가 \(\theta\) 의 함수로서 상수인지 확인하면 된다 (Theorem 6.2.2). 연속 분포에서도 pdf 비로 동일한 기준을 적용한다.

2.3 인수분해 정리 (Factorization Theorem)

정의를 직접 사용하면 충분통계량을 찾기 어렵다. \(T(\mathbf{X})\) 를 추측하고, \(T(\mathbf{X})\) 의 분포를 구하고, 비를 계산해야 한다. 인수분해 정리(Halmos & Savage, 1949)는 결합 pdf/pmf를 검사하는 것만으로 충분통계량을 찾게 해준다.

정리: 인수분해 정리 (Factorization Theorem)

\(f(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X}\) 의 결합 pdf 또는 pmf라 하자. 통계량 \(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량이 되기 위한 필요충분조건은, 함수 \(g(t|\theta)\) 와 \(h(\mathbf{x})\) 가 존재하여 모든 표본점 \(\mathbf{x}\) 와 모든 모수 \(\theta\) 에 대해

\[ f(\mathbf{x}|\theta) = g(T(\mathbf{x})|\theta) \, h(\mathbf{x}) \]

로 분해되는 것이다.

사용법: 결합 pdf/pmf를 두 부분으로 분해한다.

\(h(\mathbf{x})\): \(\theta\) 에 의존하지 않는 부분
\(g(T(\mathbf{x})|\theta)\): \(\theta\) 에 의존하되, 표본 \(\mathbf{x}\) 는 \(T(\mathbf{x})\) 를 통해서만 나타나는 부분

이때 \(T(\mathbf{X})\) 가 충분통계량이다.

2.4 예시

2.4.1 예시 1: 베르누이 표본의 충분통계량

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Bernoulli}(\theta)\), \(0 < \theta < 1\) 일 때, \(T(\mathbf{X}) = \sum_{i=1}^n X_i\) 가 충분통계량임을 보인다.

결합 pmf는

\[ p(\mathbf{x}|\theta) = \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} = \theta^{\sum x_i}(1-\theta)^{n - \sum x_i} \]

이것을 \(T(\mathbf{x}) = \sum x_i = t\) 로 놓으면

\[ p(\mathbf{x}|\theta) = \theta^t (1-\theta)^{n-t} \cdot 1 \]

여기서 \(g(t|\theta) = \theta^t(1-\theta)^{n-t}\), \(h(\mathbf{x}) = 1\) 로 인수분해된다. 따라서 \(T(\mathbf{X}) = \sum X_i\) 는 \(\theta\) 에 대한 충분통계량이다.

해석: 베르누이 표본에서 1의 총 개수가 \(\theta\) 에 대한 모든 정보를 담고 있다. 예를 들어 \(X_3\) 의 구체적인 값은 추가 정보를 제공하지 않는다.

2.4.2 예시 2: 정규 표본의 충분통계량 (\(\sigma^2\) 기지)

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\sigma^2\) 기지(known)일 때, \(T(\mathbf{X}) = \bar{X}\) 가 \(\mu\) 에 대한 충분통계량이다.

결합 pdf를 전개하면

\[ f(\mathbf{x}|\mu) = (2\pi\sigma^2)^{-n/2} \exp\!\left(-\frac{\sum_{i=1}^n (x_i - \bar{x})^2 + n(\bar{x}-\mu)^2}{2\sigma^2}\right) \]

여기서

\(h(\mathbf{x}) = (2\pi\sigma^2)^{-n/2} \exp\!\left(-\sum(x_i - \bar{x})^2 / (2\sigma^2)\right)\) 는 \(\mu\) 에 무관
\(g(t|\mu) = \exp\!\left(-n(t-\mu)^2 / (2\sigma^2)\right)\) 는 \(\mathbf{x}\) 를 \(\bar{x}\) 를 통해서만 포함

따라서 인수분해 정리에 의해 \(\bar{X}\) 는 \(\mu\) 에 대한 충분통계량이다.

2.4.3 예시 3: 정규 표본 (\(\mu, \sigma^2\) 모두 미지)

\(\mu\) 와 \(\sigma^2\) 가 모두 미지이면, \(\mu\) 또는 \(\sigma^2\) 에 의존하는 모든 부분을 \(g\) 함수에 포함해야 한다. 이 경우 \(T(\mathbf{X}) = (\bar{X}, S^2)\) 이 \((\mu, \sigma^2)\) 에 대한 충분통계량이 된다.

\[ f(\mathbf{x}|\mu,\sigma^2) = \underbrace{(2\pi\sigma^2)^{-n/2}\exp\!\left(-\frac{n(\bar{x}-\mu)^2 + (n-1)s^2}{2\sigma^2}\right)}_{g(\bar{x}, s^2 | \mu, \sigma^2)} \cdot \underbrace{1}_{h(\mathbf{x})} \]

실무적 의미: 정규 모형에서 표본평균과 표본분산만 보고하는 관행은 충분성에 의해 정당화된다. 다만 이것은 모형에 의존적(model-dependent) 이다. 다른 분포 가족에서는 \((\bar{X}, S^2)\) 가 충분통계량이 아닐 수 있다.

2.4.4 예시 4: 이산 균등분포

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Uniform}\{1, \ldots, \theta\}\) 일 때, \(T(\mathbf{X}) = \max_i X_i\) 가 충분통계량이다.

결합 pmf를 지시함수로 쓰면

\[ f(\mathbf{x}|\theta) = \theta^{-n} \prod_{i=1}^n I_{\{1,\ldots,\theta\}}(x_i) = \underbrace{\theta^{-n} I_{\{1,\ldots,\theta\}}(\max_i x_i)}_{g(T(\mathbf{x})|\theta)} \cdot \underbrace{\prod_{i=1}^n I_{\{1,2,\ldots\}}(x_i)}_{h(\mathbf{x})} \]

\(\theta\) 에 의존하는 부분이 \(\mathbf{x}\) 를 \(\max_i x_i\) 를 통해서만 포함하므로, 최대 순서통계량이 충분통계량이다.

2.5 지수족과 충분통계량

지수족(exponential family)에서는 충분통계량을 체계적으로 찾을 수 있다.

정리: 지수족의 충분통계량

\(X_1, \ldots, X_n\) 이 다음 형태의 지수족에서 iid로 추출되었다고 하자.

\[ f(x|\boldsymbol{\theta}) = h(x)\,c(\boldsymbol{\theta})\exp\!\left(\sum_{i=1}^k w_i(\boldsymbol{\theta})\,t_i(x)\right) \]

그러면

\[ T(\mathbf{X}) = \left(\sum_{j=1}^n t_1(X_j),\; \ldots,\; \sum_{j=1}^n t_k(X_j)\right) \]

는 \(\boldsymbol{\theta}\) 에 대한 충분통계량이다.

지수족 밖에서는 표본 크기보다 작은 차원의 충분통계량이 존재하는 것이 드물다. 예를 들어 코시(Cauchy) 분포나 로지스틱(logistic) 분포에서는 순서통계량 전체가 최선의 충분통계량이다.

3 최소충분통계량 (Minimal Sufficient Statistics)

어떤 문제에서든 충분통계량은 여러 개 존재한다. 전체 표본 \(\mathbf{X}\) 자체도 항상 충분통계량이고, 충분통계량의 일대일 함수도 충분통계량이다.

따라서 “가장 많이 축소하는” 충분통계량이 바람직하다.

정의: 최소충분통계량 (Minimal Sufficient Statistic)

충분통계량 \(T(\mathbf{X})\) 가 최소충분통계량이란, 다른 모든 충분통계량 \(T'(\mathbf{X})\) 에 대해 \(T(\mathbf{x})\) 가 \(T'(\mathbf{x})\) 의 함수인 것이다.

즉, \(T'(\mathbf{x}) = T'(\mathbf{y})\) 이면 \(T(\mathbf{x}) = T(\mathbf{y})\) 이다.

분할 관점에서, 최소충분통계량의 분할은 모든 충분통계량의 분할 중 가장 거친(coarsest) 분할이다.

3.1 최소충분통계량 판별법

정리: Lehmann-Scheffe (1950)

\(f(\mathbf{x}|\theta)\) 를 표본의 pmf 또는 pdf라 하자. 통계량 \(T(\mathbf{x})\) 에 대해, 임의의 두 표본점 \(\mathbf{x}, \mathbf{y}\) 에 대해 비

\[ \frac{f(\mathbf{x}|\theta)}{f(\mathbf{y}|\theta)} \]

가 \(\theta\) 의 함수로서 상수인 것이 \(T(\mathbf{x}) = T(\mathbf{y})\) 와 동치이면, \(T(\mathbf{X})\) 는 \(\theta\) 에 대한 최소충분통계량이다.

3.1.1 예시: 정규 최소충분통계량

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\mu\) 와 \(\sigma^2\) 모두 미지일 때

\[ \frac{f(\mathbf{x}|\mu,\sigma^2)}{f(\mathbf{y}|\mu,\sigma^2)} = \exp\!\left(\frac{-n(\bar{x}^2 - \bar{y}^2) + 2n\mu(\bar{x}-\bar{y}) - (n-1)(s_x^2 - s_y^2)}{2\sigma^2}\right) \]

이 비가 \(\mu, \sigma^2\) 에 무관한 상수가 되려면 \(\bar{x} = \bar{y}\) 이고 \(s_x^2 = s_y^2\) 이어야 한다. 따라서 \((\bar{X}, S^2)\) 는 \((\mu, \sigma^2)\) 에 대한 최소충분통계량이다.

3.1.2 예시: 균등분포의 최소충분통계량

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Uniform}(\theta, \theta+1)\) 일 때, pdf 비의 분자와 분모가 동시에 양수가 되려면 \(\min_i x_i = \min_i y_i\) 이고 \(\max_i x_i = \max_i y_i\) 이어야 한다.

따라서 \(T(\mathbf{X}) = (X_{(1)}, X_{(n)})\) 이 최소충분통계량이다. 이 경우 모수 \(\theta\) 는 1차원인데 최소충분통계량은 2차원이다.

4 보조통계량 (Ancillary Statistics)

충분통계량이 \(\theta\) 에 대한 모든 정보를 담는 통계량이라면, 보조통계량은 정반대 성격의 통계량이다.

정의: 보조통계량 (Ancillary Statistic)

통계량 \(S(\mathbf{X})\) 의 분포가 모수 \(\theta\) 에 의존하지 않으면, \(S(\mathbf{X})\) 를 보조통계량이라 한다.

보조통계량은 단독으로는 \(\theta\) 에 대한 정보를 전혀 갖지 않는다. 그러나 다른 통계량과 결합하면 \(\theta\) 에 대한 유용한 정보를 제공할 수 있다.

4.1 위치 모수 가족의 보조통계량

\(X_1, \ldots, X_n\) 이 cdf \(F(x - \theta)\) 인 위치 모수 가족에서 iid로 추출되었다면, 범위통계량 \(R = X_{(n)} - X_{(1)}\) 은 보조통계량이다.

\(X_i = Z_i + \theta\) (\(Z_i \overset{\text{iid}}{\sim} F\)) 로 쓰면

\[ R = \max_i X_i - \min_i X_i = \max_i Z_i - \min_i Z_i \]

이므로 \(R\) 의 분포는 \(\theta\) 에 무관하다.

4.2 척도 모수 가족의 보조통계량

\(X_1, \ldots, X_n\) 이 cdf \(F(x/\sigma)\) 인 척도 모수 가족에서 iid로 추출되었다면, \(X_1/X_n, \ldots, X_{n-1}/X_n\) 에만 의존하는 통계량은 보조통계량이다.

\(X_i = \sigma Z_i\) 로 쓰면 \(X_i/X_n = Z_i/Z_n\) 이므로 비(ratio)들의 분포는 \(\sigma\) 에 무관하다.

4.3 보조통계량의 역설

보조통계량은 단독으로는 \(\theta\) 에 대한 정보가 없지만, 최소충분통계량의 구성 요소가 될 수 있다. 예를 들어 \(\text{Uniform}(\theta, \theta+1)\) 모형에서 \((X_{(n)} - X_{(1)},\; (X_{(n)} + X_{(1)})/2)\) 이 최소충분통계량인데, \(R = X_{(n)} - X_{(1)}\) 은 보조통계량이다. 이 경우 보조통계량이 최소충분통계량과 독립이 아니다.

5 완비통계량과 바수 정리 (Complete Statistics & Basu’s Theorem)

직관적으로, 최소충분통계량은 \(\theta\) 에 대한 정보만 남기고 나머지를 제거하므로, 보조통계량(정보가 없는 통계량)과 독립이어야 할 것 같다. 많은 중요한 경우에 이 직관이 맞으며, 그 조건을 제공하는 것이 완비성(completeness) 과 바수 정리(Basu’s Theorem) 이다.

5.1 완비통계량

정의: 완비통계량 (Complete Statistic)

통계량 \(T(\mathbf{X})\) 의 분포 가족 \(\{f(t|\theta)\}\) 이 완비(complete) 하다는 것은, 모든 \(\theta\) 에 대해 \(E_\theta[g(T)] = 0\) 이면 모든 \(\theta\) 에 대해 \(P_\theta(g(T) = 0) = 1\) 인 것이다.

완비성은 분포 가족의 성질이지, 특정 분포 하나의 성질이 아니다.

5.1.1 예시: 이항분포의 완비성

\(T \sim \text{Binomial}(n, p)\), \(0 < p < 1\) 에서 \(E_p[g(T)] = 0\) 이면

\[ 0 = (1-p)^n \sum_{t=0}^n g(t)\binom{n}{t}\left(\frac{p}{1-p}\right)^t \]

\((1-p)^n \neq 0\) 이므로, \(r = p/(1-p)\) 로 치환하면 \(r > 0\) 인 모든 \(r\) 에 대해 \(n\) 차 다항식이 0이다. 이는 모든 계수가 0, 즉 \(g(t) = 0\) (\(t = 0, 1, \ldots, n\)) 을 의미한다. 따라서 \(T\) 는 완비통계량이다.

5.2 지수족에서의 완비통계량

정리: 지수족의 완비성

\(X_1, \ldots, X_n\) 이 다음 형태의 지수족에서 iid로 추출되었다고 하자.

\[ f(x|\boldsymbol{\theta}) = h(x)\,c(\boldsymbol{\theta})\exp\!\left(\sum_{j=1}^k w_j(\boldsymbol{\theta})\,t_j(x)\right) \]

\(\{(w_1(\boldsymbol{\theta}), \ldots, w_k(\boldsymbol{\theta}))\}\) 가 \(\mathbb{R}^k\) 의 열린 집합(open set)을 포함하면,

\[ T(\mathbf{X}) = \left(\sum_{i=1}^n t_1(X_i), \ldots, \sum_{i=1}^n t_k(X_i)\right) \]

는 완비통계량이다.

5.3 바수 정리 (Basu’s Theorem)

정리: 바수 정리

\(T(\mathbf{X})\) 가 완비이고 최소충분인 통계량이면, \(T(\mathbf{X})\) 는 모든 보조통계량과 독립이다.

바수 정리의 힘은, 두 통계량의 결합분포를 구하지 않고도 독립성을 증명할 수 있다는 데 있다.

5.3.1 예시: 지수분포에서 바수 정리 활용

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \text{Exp}(\theta)\) 일 때, \(g(\mathbf{X}) = X_n / (X_1 + \cdots + X_n)\) 의 기댓값을 구해 보자.

지수분포는 척도 모수 가족이므로 \(g(\mathbf{X})\) 는 보조통계량이다
지수분포는 지수족이므로 \(T(\mathbf{X}) = \sum X_i\) 는 완비충분통계량이다
바수 정리에 의해 \(T(\mathbf{X})\) 와 \(g(\mathbf{X})\) 는 독립이다

따라서

\[ \theta = E_\theta[X_n] = E_\theta[T(\mathbf{X}) \cdot g(\mathbf{X})] = E_\theta[T(\mathbf{X})] \cdot E_\theta[g(\mathbf{X})] = n\theta \cdot E_\theta[g(\mathbf{X})] \]

이므로 \(E_\theta[g(\mathbf{X})] = 1/n\) 이다.

5.3.2 예시: 정규분포에서 \(\bar{X}\) 와 \(S^2\) 의 독립

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\) 에서 \(\sigma^2\) 를 고정하고 \(\mu\) 를 모수로 보면

\(\bar{X}\) 는 \(\mu\) 에 대한 완비충분통계량이다 (정규족은 지수족)
\(S^2\) 는 위치 모수 가족에서 보조통계량이다 (\(S^2\) 의 분포는 \(\mu\) 에 무관)

바수 정리에 의해 \(\bar{X}\) 와 \(S^2\) 는 독립이다. \(\sigma^2\) 가 임의이므로, 모든 \((\mu, \sigma^2)\) 에서 독립이다.

5.4 완비통계량과 최소충분통계량의 관계

힌트

최소충분통계량이 존재하면, 모든 완비통계량은 최소충분통계량이기도 하다 (Theorem 6.2.28). 따라서 바수 정리에서 “최소충분”이라는 조건은 사실 “완비”에 이미 포함되어 있다.

6 우도원리 (The Likelihood Principle)

6.1 우도함수 (Likelihood Function)

정의: 우도함수 (Likelihood Function)

\(f(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X}\) 의 결합 pdf 또는 pmf라 하자. \(\mathbf{X} = \mathbf{x}\) 가 관측된 후, \(\theta\) 의 함수로 정의되는

\[ L(\theta|\mathbf{x}) = f(\mathbf{x}|\theta) \]

를 우도함수라 한다.

pdf/pmf와 우도함수는 수학적으로 같은 식이지만, 어떤 변수를 고정하고 어떤 변수를 변화시키는가가 다르다.

\(f(\mathbf{x}|\theta)\): \(\theta\) 고정, \(\mathbf{x}\) 변동 → 확률 분포
\(L(\theta|\mathbf{x})\): \(\mathbf{x}\) 고정(관측값), \(\theta\) 변동 → 가능도(plausibility)

\(L(\theta_1|\mathbf{x}) > L(\theta_2|\mathbf{x})\) 이면, 관측된 표본 \(\mathbf{x}\) 는 \(\theta = \theta_1\) 일 때 더 가능성이 높다(more plausible).

6.2 우도원리의 정의

우도원리 (Likelihood Principle)

두 표본점 \(\mathbf{x}\) 와 \(\mathbf{y}\) 에 대해, 상수 \(C(\mathbf{x}, \mathbf{y})\) (단, \(\theta\) 에 무관)가 존재하여

\[ L(\theta|\mathbf{x}) = C(\mathbf{x}, \mathbf{y}) \cdot L(\theta|\mathbf{y}) \quad \text{for all } \theta \]

이면, \(\mathbf{x}\) 와 \(\mathbf{y}\) 로부터 내리는 \(\theta\) 에 대한 결론은 동일해야 한다.

우도함수가 비례(proportional)하면, 모수값들 사이의 상대적 가능도(plausibility) 비교 결과가 동일하다. \(L(\theta_2|\mathbf{x}) = 2L(\theta_1|\mathbf{x})\) 이면 \(L(\theta_2|\mathbf{y}) = 2L(\theta_1|\mathbf{y})\) 이므로, 어떤 표본을 관측하든 “\(\theta_2\) 가 \(\theta_1\) 보다 두 배 가능성이 높다”는 결론이 같다.

6.3 형식적 우도원리와 비른바움 정리

우도원리는 두 가지 더 기본적인 원리로부터 도출될 수 있다.

형식적 충분성 원리(Formal Sufficiency Principle): 실험 \(E\) 에서 \(T(\mathbf{X})\) 가 충분통계량이고, \(T(\mathbf{x}) = T(\mathbf{y})\) 이면, 두 표본으로부터의 증거(evidence)는 동일하다.

\[ T(\mathbf{x}) = T(\mathbf{y}) \implies \text{Ev}(E, \mathbf{x}) = \text{Ev}(E, \mathbf{y}) \]

조건부 원리(Conditionality Principle): 두 실험 \(E_1, E_2\) 중 하나를 랜덤으로 선택하여 \(E_j\) 를 수행했다면, \(\theta\) 에 대한 정보는 실제로 수행한 실험 \(E_j\) 와 그 관측값에만 의존한다. 수행하지 않은 실험은 결론에 영향을 주지 않는다.

비른바움 정리 (Birnbaum’s Theorem, 1962)

형식적 우도원리 = 형식적 충분성 원리 + 조건부 원리

역도 성립한다.

6.3.1 이항-음이항 예시

동전의 앞면 확률 \(p\) 를 추정하는 두 실험을 고려한다.

실험 \(E_1\) (이항): 20번 던져서 앞면 수를 기록. \(x_1 = 7\) 관측
실험 \(E_2\) (음이항): 7번째 앞면이 나올 때까지 던져서 뒷면 수를 기록. \(x_2 = 13\) 관측

두 경우 모두 “20번 중 7번 앞면”이라는 결과이지만, 실험 설계가 다르다. 그러나 우도함수를 비교하면

\[ L(p|x_1=7) = \binom{20}{7}p^7(1-p)^{13}, \quad L(p|x_2=13) = \binom{19}{6}p^7(1-p)^{13} \]

이 둘은 비례하므로, 형식적 우도원리에 의해 \(p\) 에 대한 결론은 동일해야 한다. 표집 중단 규칙(stopping rule)이 다르다는 사실은 \(p\) 에 대한 추론에 영향을 주지 않는다는 것이 우도원리의 주장이다.

6.4 우도원리의 논쟁

많은 통계적 절차(빈도주의적 검정 등)가 우도원리를 위반한다. 비른바움 정리에 의하면 이는 충분성 원리 또는 조건부 원리 중 하나를 위반하는 것이다.

Kalbfleisch(1975)는 비른바움 정리의 증명이 충분성 원리를 조건부 원리와 독립적으로 적용하기 때문에 논증이 완전하지 않다고 지적한다. 조건부 원리를 먼저 적용하면, 각 실험에 대해 별도의 충분통계량을 정의해야 하고, 이 경우 형식적 우도원리가 따라오지 않는다.

실무적으로는 우도원리가 보편적으로 받아들여지지는 않지만, 수학적으로 매력적인 데이터 축소 기법을 제시한다.

7 등변원리 (The Equivariance Principle)

충분성 원리와 우도원리는 “\(T(\mathbf{x}) = T(\mathbf{y})\) 이면 동일한 추론”이라는 형태였다. 등변원리는 다른 방식으로 작동한다: “\(T(\mathbf{x}) = T(\mathbf{y})\) 이면 일정한 관계를 가지는 추론”을 요구한다.

7.1 두 가지 등변성

측정 등변성(Measurement Equivariance): 추론은 측정 단위에 의존하지 않아야 한다. 예를 들어, 나무 직경의 평균을 추정할 때 인치로 추정한 결과와 미터로 추정한 후 인치로 변환한 결과가 같아야 한다.

형식적 불변성(Formal Invariance): 두 추론 문제의 수학적 구조(모수 공간, pdf/pmf 가족, 추론 가능 집합)가 동일하면, 같은 추론 절차를 사용해야 한다.

등변원리

\(\mathbf{Y} = g(\mathbf{X})\) 가 측정 단위 변환이고, \(\mathbf{Y}\) 의 모형이 \(\mathbf{X}\) 의 모형과 동일한 형식적 구조를 가지면, 추론 절차는 측정 등변성과 형식적 불변성을 모두 만족해야 한다.

7.1.1 예시: 이항분포의 등변성

\(X \sim \text{Binomial}(n, p)\) 에서 \(p\) 를 추정할 때, 성공 횟수 \(X\) 대신 실패 횟수 \(Y = n - X\) 를 사용할 수도 있다. \(Y \sim \text{Binomial}(n, q = 1-p)\) 이므로, 형식적 구조가 동일하다.

\(T(x)\): \(X = x\) 일 때 \(p\) 의 추정량
\(T^*(y)\): \(Y = y\) 일 때 \(q\) 의 추정량

측정 등변성: \(T(x) = 1 - T^*(n-x)\) 형식적 불변성: \(T(z) = T^*(z)\) (같은 구조이므로 같은 절차)

이 두 조건을 결합하면 \(T(x) = 1 - T(n-x)\) 가 된다. 예를 들어 \(T(x) = x/n\) (표본비율)은 이 조건을 만족한다: \(T(x) = x/n = 1 - (n-x)/n = 1 - T(n-x)\).

7.1.2 위치 모수에서의 등변성

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} f(x-\theta)\) 인 위치 모수 모형에서, \(Y_i = X_i + c\) 로 변환하면 \(Y_i \sim f(y - (\theta+c))\) 이다. 측정 등변성은 \(T(\mathbf{y}) = T(\mathbf{x}) + c\) 를 요구한다. 이 조건을 만족하는 추정량을 위치 등변 추정량(location equivariant estimator) 이라 하며, \(T(\mathbf{X}) = \bar{X}\), 표본중앙값, 절사평균 등이 이에 해당한다.

8 세 원리의 비교와 요약

원리	축소 방식	장점	한계
충분성 원리	\(T(\mathbf{x}) = T(\mathbf{y})\) 이면 동일 추론	정보 손실 없는 최대 축소	모형에 강하게 의존
우도원리	\(L(\theta\|\mathbf{x}) \propto L(\theta\|\mathbf{y})\) 이면 동일 추론	실험 설계와 무관	빈도주의적 절차와 충돌
등변원리	측정 변환 시 추론이 일관	직관적으로 자연스러움	적용 범위가 제한적

8.1 핵심 관계

충분성 원리와 조건부 원리를 함께 받아들이면 → 우도원리가 따라온다 (비른바움 정리)
지수족에서 충분통계량 = 완비통계량 = 최소충분통계량 (모수 공간이 열린 집합을 포함할 때)
완비충분통계량은 모든 보조통계량과 독립이다 (바수 정리)

9 참고 문헌

Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 6.
Birnbaum, A. (1962). On the foundations of statistical inference. JASA, 57, 269-306.
Halmos, P. R. & Savage, L. J. (1949). Application of the Radon-Nikodym theorem to the theory of sufficient statistics. Annals of Mathematical Statistics, 20, 225-241.
Lehmann, E. L. & Scheffe, H. (1950). Completeness, similar regions, and unbiased estimation. Sankhya, 10, 305-340.