1 개요
데이터 축소의 원리 overview에서 우도원리를 전체 데이터 축소 원리의 맥락에서 간략히 다루었다. 이 포스트에서는 우도원리(The Likelihood Principle) 를 세분화하여, 우도함수의 본질적 의미, 형식적 정의, 증거함수(evidence function) 개념, 비른바움 정리의 증명 구조, 빈도주의 통계학과의 충돌, 그리고 실무적 논쟁까지 깊이 있게 다룬다 (Casella & Berger, 2002, Ch.6.3).
우도원리의 핵심 주장은 단순하다:
관측된 데이터가 \(\theta\) 에 대해 제공하는 모든 정보는 우도함수에 담겨 있다.
이 원리가 받아들여지면, 표집 중단 규칙(stopping rule), 수행하지 않은 실험 설계, 관측되지 않은 데이터의 분포 등은 \(\theta\) 에 대한 추론에 영향을 주지 않아야 한다. 이것이 빈도주의적 절차(p-value, 검정력 등)와 근본적으로 충돌하는 이유이다.
2 우도함수 (The Likelihood Function)
2.1 정의
\(f(\mathbf{x}|\theta)\) 를 표본 \(\mathbf{X} = (X_1, \ldots, X_n)\) 의 결합 pdf 또는 pmf라 하자. \(\mathbf{X} = \mathbf{x}\) 가 관측된 후, \(\theta\) 의 함수로 정의되는
\[ L(\theta|\mathbf{x}) = f(\mathbf{x}|\theta) \]
를 우도함수(likelihood function) 라 한다.
우도함수와 pdf/pmf는 수학적으로 같은 식이다. 차이는 어떤 변수를 고정하고 어떤 변수를 변화시키느냐에 있다:
| 함수 | 고정 | 변동 | 해석 |
|---|---|---|---|
| \(f(\mathbf{x}|\theta)\) (pdf/pmf) | \(\theta\) | \(\mathbf{x}\) | “\(\theta\) 가 참일 때 \(\mathbf{x}\) 가 나올 확률(밀도)” |
| \(L(\theta|\mathbf{x})\) (우도함수) | \(\mathbf{x}\) (관측값) | \(\theta\) | “\(\mathbf{x}\) 를 관측했을 때 \(\theta\) 의 그럴듯함(plausibility)” |
2.2 우도비를 통한 모수 비교
\(L(\theta_1|\mathbf{x}) > L(\theta_2|\mathbf{x})\) 이면, 관측된 표본 \(\mathbf{x}\) 는 \(\theta = \theta_1\) 일 때 더 높은 확률(밀도)로 발생하므로, \(\theta_1\) 이 \(\theta_2\) 보다 더 그럴듯하다(more plausible) 고 해석한다.
이산 분포에서는 이 해석이 직관적이다: \(L(\theta|\mathbf{x}) = P_\theta(\mathbf{X} = \mathbf{x})\) 이므로, 우도가 높은 \(\theta\) 는 관측된 데이터를 생성할 확률이 실제로 더 높다.
연속 분포에서도 유사한 해석이 가능하다. 충분히 작은 \(\epsilon > 0\) 에 대해
\[ \frac{P_{\theta_1}(x - \epsilon < X < x + \epsilon)}{P_{\theta_2}(x - \epsilon < X < x + \epsilon)} \approx \frac{L(\theta_1|x)}{L(\theta_2|x)} \]
이므로, 우도비는 \(x\) 근방의 확률비의 근사이다.
2.3 “그럴듯함”과 “확률”의 구별
우도함수를 다룰 때 “plausible(그럴듯한)”이라는 표현을 “probable(개연적인)”과 구별해야 한다.
- \(\theta\) 는 (빈도주의 관점에서) 고정된 미지의 값이므로, \(\theta\) 에 대한 확률을 말하는 것은 엄밀하지 않다
- \(L(\theta|\mathbf{x})\) 는 \(\theta\) 의 함수이지만, \(\theta\) 에 대한 pdf가 아니다 — 적분하면 1이 될 보장이 없다
- 우도함수의 역할은 \(\theta\) 값들 사이의 상대적 비교이지, 절대적 확률 부여가 아니다
역사적으로 Fisher(1930)에서 시작된 피듀셜 추론은 우도함수를 정규화하여 \(\theta\) 의 분포로 해석하려는 시도이다. \(M(\mathbf{x}) = \left(\int L(\theta|\mathbf{x}) \, d\theta\right)^{-1}\) 이 유한하면 \(M(\mathbf{x}) L(\theta|\mathbf{x})\) 를 \(\theta\) 의 pdf로 취급한다. 비례하는 우도함수는 동일한 정규화 pdf를 산출하므로, 피듀셜 관점에서 우도원리는 자연스럽게 성립한다. 그러나 대부분의 현대 통계학자는 피듀셜 이론을 채택하지 않는다.
2.4 예시: 음이항분포의 우도함수
\(X \sim \text{NegBin}(r=3, p)\) 에서 \(X = 2\) (3번째 성공 전 실패 2회)를 관측했다고 하자. 우도함수는
\[ L(p|2) = P_p(X = 2) = \binom{4}{2} p^3 (1-p)^2 \]
\(p\) 의 5차 다항식이다. 일반적으로 \(X = x\) 를 관측하면
\[ L(p|x) = \binom{r+x-1}{x} p^r (1-p)^x \]
이 함수의 형태(shape)가 \(p\) 에 대한 모든 정보를 담고 있다. 앞의 이항계수 \(\binom{r+x-1}{x}\) 는 \(p\) 에 무관한 상수이므로, 우도원리에 의하면 추론에 영향을 주지 않는다.
3 우도원리의 정의
3.1 비형식적 정의 (Likelihood Principle)
두 표본점 \(\mathbf{x}\) 와 \(\mathbf{y}\) 에 대해, 상수 \(C(\mathbf{x}, \mathbf{y})\) (\(\theta\) 에 무관)가 존재하여
\[ L(\theta|\mathbf{x}) = C(\mathbf{x}, \mathbf{y}) \cdot L(\theta|\mathbf{y}) \quad \text{for all } \theta \]
이면, \(\mathbf{x}\) 와 \(\mathbf{y}\) 로부터 내리는 \(\theta\) 에 대한 결론은 동일해야 한다.
\(C(\mathbf{x}, \mathbf{y}) = 1\) 인 특수한 경우, 두 표본이 동일한 우도함수를 산출하면 동일한 추론을 해야 한다는 것이다. 그러나 우도원리는 더 강한 주장을 한다: 비례(proportional) 하기만 해도 동일한 추론을 해야 한다.
3.2 왜 비례만으로 충분한가
우도함수의 핵심 용도는 모수값들 사이의 상대적 그럴듯함 비교이다.
\(L(\theta_2|\mathbf{x}) = 2 L(\theta_1|\mathbf{x})\) 이고 \(L(\theta|\mathbf{x}) = C \cdot L(\theta|\mathbf{y})\) 이면
\[ \frac{L(\theta_2|\mathbf{y})}{L(\theta_1|\mathbf{y})} = \frac{L(\theta_2|\mathbf{x}) / C}{L(\theta_1|\mathbf{x}) / C} = \frac{L(\theta_2|\mathbf{x})}{L(\theta_1|\mathbf{x})} = 2 \]
따라서 \(\mathbf{x}\) 를 관측하든 \(\mathbf{y}\) 를 관측하든 “\(\theta_2\) 가 \(\theta_1\) 보다 두 배 그럴듯하다”는 결론이 동일하다. 상수 \(C\) 는 모든 \(\theta\) 에 대해 동일하게 곱해지므로, 상대 비교에 영향을 주지 않는다.
3.3 예시: 정규분포에서의 우도 비례
\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\sigma^2\) 기지일 때, 두 표본 \(\mathbf{x}\) 와 \(\mathbf{y}\) 의 우도함수가 비례할 조건은
\[ L(\mu|\mathbf{x}) = C(\mathbf{x}, \mathbf{y}) \cdot L(\mu|\mathbf{y}) \quad \text{for all } \mu \]
이것은 \(\bar{x} = \bar{y}\) 일 때, 그리고 오직 그때만 성립한다. 이 경우
\[ C(\mathbf{x}, \mathbf{y}) = \exp\!\left(-\frac{\sum(x_i - \bar{x})^2 - \sum(y_i - \bar{y})^2}{2\sigma^2}\right) \]
이다. 따라서 우도원리는 “표본평균이 같은 두 표본에 대해 \(\mu\) 에 대한 결론은 동일해야 한다”고 주장한다 — 이것은 \(\bar{X}\) 가 \(\mu\) 에 대한 충분통계량이라는 사실과 일치한다.
4 증거함수 형식론 (Evidence Function Formalism)
비른바움 정리를 이해하려면, 실험(experiment) 과 증거(evidence) 를 형식적으로 정의해야 한다.
4.1 실험의 정의
실험 \(E\) 는 세 가지 요소로 구성된 삼중체(triple)이다:
\[ E = (\mathbf{X}, \theta, \{f(\mathbf{x}|\theta)\}) \]
- \(\mathbf{X}\): 관측할 확률 벡터
- \(\theta\): 모수 공간 \(\Theta\) 위의 미지의 모수
- \(\{f(\mathbf{x}|\theta)\}\): \(\mathbf{X}\) 의 pmf/pdf 가족
4.2 증거함수
실험 \(E\) 를 수행하고 \(\mathbf{X} = \mathbf{x}\) 를 관측한 후, \(\theta\) 에 대해 내리는 결론을 \(\text{Ev}(E, \mathbf{x})\) 로 표기한다. 이것이 증거함수(evidence function) 이다.
4.2.1 예시: 정규분포의 증거함수
\(E\): \(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\sigma^2\) 기지. 표본평균 \(\bar{X}\) 가 \(\mu\) 에 대한 충분통계량이고 \(E\bar{X} = \mu\) 이므로, 자연스러운 증거함수는
\[ \text{Ev}(E, \mathbf{x}) = (\bar{x}, \sigma/\sqrt{n}) \]
\(\bar{x}\) 는 관측된 표본에 의존하고, \(\sigma/\sqrt{n}\) (추정의 정밀도)는 실험 \(E\) 의 설계에 의존한다.
5 세 가지 원리와 그 관계
비른바움 정리는 두 가지 “자명해 보이는” 원리로부터 우도원리가 도출된다는 놀라운 결과이다.
5.1 형식적 충분성 원리 (Formal Sufficiency Principle)
실험 \(E = (\mathbf{X}, \theta, \{f(\mathbf{x}|\theta)\})\) 에서 \(T(\mathbf{X})\) 가 \(\theta\) 에 대한 충분통계량이고, 두 표본점 \(\mathbf{x}\) 와 \(\mathbf{y}\) 가 \(T(\mathbf{x}) = T(\mathbf{y})\) 를 만족하면
\[ \text{Ev}(E, \mathbf{x}) = \text{Ev}(E, \mathbf{y}) \]
이것은 충분성 원리의 형식적 재진술이다. 충분통계량이 같으면 증거도 같다는 것이다. 6.2절의 충분성 원리와의 미묘한 차이는, 여기서는 실험 \(E\) 의 개념이 명시적으로 등장한다는 점이다.
5.2 조건부 원리 (Conditionality Principle)
실험 \(E_1 = (\mathbf{X}_1, \theta, \{f_1(\mathbf{x}_1|\theta)\})\) 과 \(E_2 = (\mathbf{X}_2, \theta, \{f_2(\mathbf{x}_2|\theta)\})\) 가 있다. 확률변수 \(J\) (\(P(J=1) = P(J=2) = 1/2\), \(\theta\) 와 독립)를 관측하여 실험 \(E_J\) 를 수행하는 혼합 실험 \(E^*\) 를 정의한다:
\[ \mathbf{X}^* = (J, \mathbf{X}_J), \quad f^*(\mathbf{x}^*|\theta) = f^*((j, \mathbf{x}_j)|\theta) = \tfrac{1}{2} f_j(\mathbf{x}_j|\theta) \]
그러면
\[ \text{Ev}(E^*, (j, \mathbf{x}_j)) = \text{Ev}(E_j, \mathbf{x}_j) \]
직관적 해석: 두 실험 중 하나를 랜덤으로 골라서 \(E_j\) 를 수행했다면, \(\theta\) 에 대한 정보는 실제로 수행한 실험 \(E_j\) 와 그 관측값 \(\mathbf{x}_j\) 에만 의존한다. 수행하지 않은 실험은 결론에 영향을 주지 않는다.
이 원리는 직관적으로 매우 자연스럽다. 동전을 던져 이항 실험과 음이항 실험 중 하나를 골랐는데 이항 실험이 선택되었다면, 고려만 하고 수행하지 않은 음이항 실험이 이항 실험의 결론에 영향을 줄 이유가 없다.
5.3 형식적 우도원리 (Formal Likelihood Principle)
두 실험 \(E_1 = (\mathbf{X}_1, \theta, \{f_1(\mathbf{x}_1|\theta)\})\) 과 \(E_2 = (\mathbf{X}_2, \theta, \{f_2(\mathbf{x}_2|\theta)\})\) 에서 모수 \(\theta\) 가 동일하다. 각 실험의 표본점 \(\mathbf{x}_1^*\) 과 \(\mathbf{x}_2^*\) 에 대해
\[ L(\theta|\mathbf{x}_2^*) = C \cdot L(\theta|\mathbf{x}_1^*) \quad \text{for all } \theta \]
(\(C\) 는 \(\theta\) 에 무관한 상수)이면
\[ \text{Ev}(E_1, \mathbf{x}_1^*) = \text{Ev}(E_2, \mathbf{x}_2^*) \]
형식적 우도원리는 비형식적 우도원리보다 더 강하다: 서로 다른 실험에서 나온 표본이라도, 우도함수가 비례하면 동일한 결론을 내려야 한다.
비형식적 우도원리는 형식적 우도원리에서 \(E_2\) 를 \(E_1\) 의 정확한 복제(replicate)로 놓으면 얻어지는 따름정리(corollary)이다.
실험 \(E = (\mathbf{X}, \theta, \{f(\mathbf{x}|\theta)\})\) 에서 \(\text{Ev}(E, \mathbf{x})\) 는 \(E\) 와 \(\mathbf{x}\) 를 \(L(\theta|\mathbf{x})\) 를 통해서만 의존해야 한다.
6 비른바움 정리 (Birnbaum’s Theorem, 1962)
6.1 정리
형식적 우도원리 = 형식적 충분성 원리 + 조건부 원리
역도 성립한다.
이 정리는 직관적으로 각각 자명해 보이는 두 원리(충분성, 조건부)를 동시에 받아들이면, 빈도주의 통계학의 상당 부분과 충돌하는 우도원리를 필연적으로 받아들여야 한다는 놀라운 결과이다.
6.2 증명 스케치
(\(\Rightarrow\)) 충분성 원리 + 조건부 원리 \(\implies\) 형식적 우도원리
\(E_1\), \(E_2\) 가 주어지고 \(\mathbf{x}_1^*\), \(\mathbf{x}_2^*\) 가 비례 우도 조건 \(L(\theta|\mathbf{x}_2^*) = C \cdot L(\theta|\mathbf{x}_1^*)\) 를 만족한다고 하자.
1단계: 혼합 실험 \(E^*\) 를 정의한다 (조건부 원리에서 사용한 것과 동일).
2단계: \(E^*\) 의 표본공간 위에 통계량 \(T\) 를 정의한다:
\[ T(j, \mathbf{x}_j) = \begin{cases} (1, \mathbf{x}_1^*) & \text{if } j=1, \mathbf{x}_1 = \mathbf{x}_1^* \text{ or } j=2, \mathbf{x}_2 = \mathbf{x}_2^* \\ (j, \mathbf{x}_j) & \text{otherwise} \end{cases} \]
이 통계량은 \((1, \mathbf{x}_1^*)\) 과 \((2, \mathbf{x}_2^*)\) 를 같은 값으로 매핑한다. 나머지 표본점은 자기 자신으로 매핑한다.
3단계: \(T\) 가 \(E^*\) 에서 충분통계량임을 인수분해 정리로 확인한다. 핵심은 우도 비례 조건에 의해
\[ f^*((1, \mathbf{x}_1^*)|\theta) = \tfrac{1}{2}f_1(\mathbf{x}_1^*|\theta) = \tfrac{1}{2}L(\theta|\mathbf{x}_1^*) \]
\[ f^*((2, \mathbf{x}_2^*)|\theta) = \tfrac{1}{2}f_2(\mathbf{x}_2^*|\theta) = \tfrac{1}{2}L(\theta|\mathbf{x}_2^*) = \tfrac{C}{2}L(\theta|\mathbf{x}_1^*) \]
이므로, \(T\) 의 값이 같은 이 두 점에서 pdf 비가 \(\theta\) 에 무관한 상수 \(C\) 이다.
4단계: 형식적 충분성 원리를 \(T\) 에 적용하면
\[ \text{Ev}(E^*, (1, \mathbf{x}_1^*)) = \text{Ev}(E^*, (2, \mathbf{x}_2^*)) \quad \cdots (a) \]
5단계: 조건부 원리를 각각 적용하면
\[ \text{Ev}(E^*, (1, \mathbf{x}_1^*)) = \text{Ev}(E_1, \mathbf{x}_1^*) \quad \cdots (b) \]
\[ \text{Ev}(E^*, (2, \mathbf{x}_2^*)) = \text{Ev}(E_2, \mathbf{x}_2^*) \quad \cdots (c) \]
6단계: (a), (b), (c)를 결합하면
\[ \text{Ev}(E_1, \mathbf{x}_1^*) = \text{Ev}(E_2, \mathbf{x}_2^*) \]
형식적 우도원리가 성립한다. \(\square\)
(\(\Leftarrow\)) 역방향: 형식적 우도원리로부터 충분성 원리와 조건부 원리를 각각 유도할 수 있다. \(T(\mathbf{x}) = T(\mathbf{y})\) 이면 우도가 비례하므로 형식적 우도원리가 충분성 원리를 함의하고, 혼합 실험과 원래 실험의 우도가 비례하므로 조건부 원리도 함의한다.
7 핵심 예시: 이항-음이항 문제
이 예시는 우도원리의 실질적 함의를 가장 극적으로 보여준다.
7.1 설정
동전의 앞면 확률 \(p\) (\(0 < p < 1\))를 추정한다.
- 실험 \(E_1\) (이항): 동전을 20번 던져 앞면 수를 기록. \(X_1 \sim \text{Binomial}(20, p)\)
- 실험 \(E_2\) (음이항): 7번째 앞면이 나올 때까지 던져 뒷면 수를 기록. \(X_2 \sim \text{NegBin}(7, p)\)
7.2 관측
\(E_1\) 에서 \(x_1 = 7\) (20번 중 7번 앞면), \(E_2\) 에서 \(x_2 = 13\) (7번째 앞면이 20번째 시행에서 발생)을 관측했다.
두 경우 모두 물리적 결과는 동일하다: 20번 시행, 7번 앞면, 13번 뒷면.
7.3 우도함수 비교
\[ L(p|x_1 = 7) = \binom{20}{7} p^7 (1-p)^{13} \]
\[ L(p|x_2 = 13) = \binom{19}{6} p^7 (1-p)^{13} \]
두 우도함수의 비는
\[ \frac{L(p|x_1 = 7)}{L(p|x_2 = 13)} = \frac{\binom{20}{7}}{\binom{19}{6}} = \frac{77520}{27132} \approx 2.857 \]
이 비가 \(p\) 에 무관한 상수이므로, 두 우도함수는 비례한다.
7.4 우도원리의 주장
형식적 우도원리에 의하면, \(\text{Ev}(E_1, 7) = \text{Ev}(E_2, 13)\) 이다. 즉, 표집 중단 규칙(stopping rule)이 달랐다는 사실은 \(p\) 에 대한 추론에 영향을 주지 않아야 한다.
“20번 던지기로 미리 정해놓았는지” vs “7번째 앞면이 나올 때까지 던지기로 했는지”는, 관측된 데이터가 동일한 우도 형태를 산출하는 한, 추론에 무관하다는 것이다.
7.5 빈도주의와의 충돌
그러나 빈도주의적 p-value를 계산하면:
- 이항 실험: \(P(X_1 \leq 7 | p = 0.5) = \sum_{k=0}^{7} \binom{20}{k}(0.5)^{20} \approx 0.132\)
- 음이항 실험: \(P(X_2 \geq 13 | p = 0.5) = \sum_{k=13}^{\infty} \binom{6+k}{k}(0.5)^{7+k} \approx 0.044\)
동일한 물리적 결과에 대해 이항 실험에서는 p-value \(\approx 0.132\) (유의하지 않음), 음이항 실험에서는 p-value \(\approx 0.044\) (5% 수준에서 유의)이다. 빈도주의적 절차는 관측되지 않은 데이터의 분포(꼬리 확률)에 의존하기 때문에, 표집 중단 규칙이 결론을 바꾼다.
8 빈도주의 절차의 우도원리 위반
8.1 어떤 절차가 위반하는가
빈도주의 통계학의 핵심 도구들 대부분이 우도원리를 위반한다:
| 절차 | 우도원리 위반 이유 |
|---|---|
| p-value | 관측되지 않은 표본(꼬리 확률)에 의존 |
| 검정력(power) | 대립가설 하에서의 표본 분포에 의존 |
| 신뢰구간 | 반복 표집(repeated sampling) 해석에 기반 |
| 네이만-피어슨 검정 | 기각역이 관측 가능한 모든 표본의 분포로 결정 |
| 잔차 분석 | 충분통계량에 기반하지 않은 통계량 사용 |
8.2 왜 위반이 발생하는가
비른바움 정리에 의하면, 우도원리를 위반한다는 것은 충분성 원리 또는 조건부 원리 중 하나를 위반하는 것이다.
충분성 원리의 위반: 모형 점검(model checking)은 본질적으로 충분통계량 이외의 정보를 사용한다. 잔차(residual)는 충분통계량에 기반하지 않는 통계량이다. 따라서 잔차를 검토하는 것 자체가 충분성 원리(그리고 우도원리)를 위반한다. 그러나 모형이 올바른지 확인하지 않고 충분통계량에만 의존하는 것은 실무적으로 위험하다.
모형 의존성의 딜레마: 충분성 원리와 우도원리 모두 “모형이 올바르다”는 전제 위에 성립한다. 모형을 의심하려면 충분통계량 바깥의 정보를 써야 하고, 그 순간 두 원리 모두 위반된다. 이것은 논리적 순환이 아니라, 원리의 적용 범위에 대한 본질적 한계이다.
9 우도원리를 둘러싼 논쟁
9.1 Kalbfleisch(1975)의 비판
비른바움 정리의 증명에서 충분성 원리를 조건부 원리와 독립적으로 적용한다는 것이 Kalbfleisch의 핵심 비판이다.
증명의 2단계에서 정의한 통계량 \(T(J, \mathbf{X}_J)\) 는 혼합 실험 \(E^*\) 위에서 정의된 충분통계량이다. 이 통계량의 핵심은 서로 다른 실험의 표본점 \((1, \mathbf{x}_1^*)\) 과 \((2, \mathbf{x}_2^*)\) 를 같은 값으로 매핑하는 것이다. 그러나 조건부 원리를 먼저 적용하면:
- 실험 \(E_1\) 에서의 충분통계량과 \(E_2\) 에서의 충분통계량은 별도로 정의해야 한다
- 별도의 충분통계량으로는 다른 실험의 표본점을 같은 값으로 매핑할 수 없다
- 따라서 비른바움 정리의 핵심 논증이 성립하지 않는다
이 비판은 두 원리의 적용 순서가 결론에 영향을 미친다는 것을 지적한다. 충분성 원리를 조건부 원리보다 먼저 적용해야만 비른바움 정리가 성립한다.
9.2 베이지안 관점
베이지안 통계학에서는 우도원리가 자연스럽게 성립한다. 베이즈 정리에 의해
\[ \pi(\theta|\mathbf{x}) \propto L(\theta|\mathbf{x}) \cdot \pi(\theta) \]
사후분포는 우도함수와 사전분포의 곱에 비례하므로, 비례하는 우도함수는 동일한 사후분포를 산출한다. 따라서 베이지안 추론은 자동적으로 우도원리를 만족한다.
9.3 실용적 타협
실무에서는 대부분의 통계학자가 원칙적으로 우도원리의 매력을 인정하면서도, 실용적으로 빈도주의적 도구(p-value, 신뢰구간 등)를 사용한다. 이유는:
- 모형 점검 없이 우도함수에만 의존하는 것은 위험하다
- 빈도주의적 보장(반복 표집 하에서의 오류율 제어)은 규제 환경(임상시험, FDA 등)에서 필수적이다
- 우도원리를 엄격히 적용하면 표본 크기 결정, 중간 분석 설계 등의 사전 계획이 무의미해진다
10 우도원리의 함의 요약
우도원리가 받아들여진다면, 다음이 성립한다:
| 함의 | 설명 |
|---|---|
| 표집 중단 규칙 무관 | 데이터 수집을 언제 멈췄는지(고정 표본, 순차 표집 등)는 추론에 무관 |
| 수행하지 않은 실험 무관 | 계획만 하고 수행하지 않은 다른 실험은 결론에 영향 없음 |
| 관측되지 않은 데이터 무관 | 꼬리 확률, 기각역 내 다른 표본점의 확률은 추론에 불필요 |
| 우도함수가 유일한 데이터 요약 | 관측된 데이터에서 \(\theta\) 에 대한 모든 정보는 \(L(\theta|\mathbf{x})\) 에 집약 |
11 코드 예시
11.1 Step 1: 순수 Python 구현 (이항-음이항 우도 비교)
우도원리의 핵심 예시를 시각화하여, 두 우도함수의 비례 관계를 확인한다.
import math
def binomial_likelihood(p, x, n):
"""이항 실험의 우도함수"""
return math.comb(n, x) * p**x * (1-p)**(n-x)
def negbin_likelihood(p, x, r):
"""음이항 실험의 우도함수 (x = 실패 횟수)"""
return math.comb(r + x - 1, x) * p**r * (1-p)**x
# 이항: n=20, x=7 / 음이항: r=7, x=13
p_values = [i/100 for i in range(1, 100)]
# 우도함수 계산
L_binom = [binomial_likelihood(p, 7, 20) for p in p_values]
L_negbin = [negbin_likelihood(p, 13, 7) for p in p_values]
# 비례 상수 확인
ratios = [L_binom[i] / L_negbin[i] for i in range(len(p_values))
if L_negbin[i] > 0]
print("이항-음이항 우도 비례 상수 확인:")
print(f" C(binom/negbin) = {ratios[0]:.6f}")
print(f" C가 p에 무관한 상수인가? max-min = {max(ratios)-min(ratios):.2e}")
print(f" 이론값: C(20,7)/C(19,6) = {math.comb(20,7)/math.comb(19,6):.6f}")
# MLE는 동일
mle_binom = 7 / 20
mle_negbin = 7 / 20 # r/(r+x) = 7/20
print(f"\nMLE (이항): p_hat = {mle_binom:.4f}")
print(f"MLE (음이항): p_hat = {mle_negbin:.4f}")
print("두 실험의 MLE가 동일 → 우도원리와 일치")11.2 Step 2: scipy 구현 (빈도주의 p-value 비교)
동일한 물리적 결과에 대해 빈도주의적 p-value가 표집 중단 규칙에 따라 달라지는 것을 보인다.
import numpy as np
from scipy.stats import binom, nbinom
# 이항 실험: X ~ Binomial(20, p), 관측 x=7
# H0: p = 0.5, 양측 검정에서 좌측 꼬리
p_value_binom = binom.cdf(7, n=20, p=0.5)
print(f"이항 실험 p-value (P(X <= 7 | p=0.5)): {p_value_binom:.4f}")
# 음이항 실험: X ~ NegBin(r=7, p), 관측 x=13 (실패 횟수)
# H0: p = 0.5, 우측 꼬리 (실패가 많을수록 p가 작다는 증거)
# scipy의 nbinom: X = 실패 횟수, pmf(k, n, p) = C(k+n-1, k) * p^n * (1-p)^k
p_value_negbin = 1 - nbinom.cdf(12, n=7, p=0.5) # P(X >= 13)
print(f"음이항 실험 p-value (P(X >= 13 | p=0.5)): {p_value_negbin:.4f}")
print(f"\n차이: {abs(p_value_binom - p_value_negbin):.4f}")
print("동일한 물리적 결과(20번 중 7번 앞면)인데 p-value가 다르다")
print("→ 빈도주의적 p-value는 표집 중단 규칙에 의존 → 우도원리 위반")
# 우도비는 동일
p_grid = np.linspace(0.01, 0.99, 1000)
L_binom = binom.pmf(7, n=20, p=p_grid)
L_negbin = nbinom.pmf(13, n=7, p=p_grid)
# 정규화 후 비교
L_binom_norm = L_binom / L_binom.max()
L_negbin_norm = L_negbin / L_negbin.max()
max_diff = np.max(np.abs(L_binom_norm - L_negbin_norm))
print(f"\n정규화 우도함수 최대 차이: {max_diff:.2e}")
print("정규화 후 동일한 형태 → 우도원리에 의하면 동일한 증거")12 응용 분야
| 분야 | 우도원리의 역할 | 구체적 예시 |
|---|---|---|
| 베이지안 추론 | 자연스럽게 성립 | 사후분포 = 우도 \(\times\) 사전분포 → 비례 우도는 동일 사후 |
| 임상시험 | 중간 분석 논쟁 | 순차 모니터링에서 정지 규칙이 결론에 영향을 주는가? |
| MLE 이론 | 우도 기반 추정 | MLE는 우도함수만 사용 → 우도원리와 자연스럽게 일치 |
| 모형 선택 | AIC/BIC | 정보 기준이 우도함수에 기반 |
| 메타 분석 | 다른 실험의 증거 결합 | 서로 다른 실험 설계에서 나온 우도의 결합 |
| FDA 규제 | 검정력 기반 설계 | 빈도주의적 보장이 규제에서 요구되므로 우도원리와 긴장 |
13 관련 주제
선행 지식
상위 주제
후속 주제
- 등변원리 — 현재 overview에 포함, 세분화 예정
- 점추정: 최대우도추정법 — 우도함수를 최대화하는 추정 방법
- 가설검정과 우도비 검정 — 우도비를 검정에 활용
관련 개념
14 참고 문헌
- Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 6, Section 6.3.
- Birnbaum, A. (1962). On the foundations of statistical inference. Journal of the American Statistical Association, 57, 269-306.
- Berger, J. O. & Wolpert, R. L. (1984). The Likelihood Principle. Institute of Mathematical Statistics.
- Kalbfleisch, J. D. (1975). Sufficiency and conditionality. Biometrika, 62, 251-259.
- Lindley, D. V. & Phillips, L. D. (1976). Inference for a Bernoulli process (a Bayesian view). The American Statistician, 30, 112-119.
- Fisher, R. A. (1930). Inverse probability. Proceedings of the Cambridge Philosophical Society, 26, 528-535.