1 이 포스트의 위치 — Ch.2 심화의 마지막 조각
§ 2.1~2.4 가 이항-Beta, § 2.5~2.7 이 정규·Poisson·지수·암 발생률 사례였다면, 이 포스트의 § 2.8~2.11 은 “사전 선택의 원리와 응용 훈련” 이다. 베이즈 비판에서 가장 자주 등장하는 “사전을 어떻게 고르나” 질문에 대한 교재의 답변과, Ch.2 전체를 흡수하는 연습문제 풀이를 함께 다룬다.
“완전 비정보 사전은 환상에 가깝고, 약정보적 사전이 현대 베이즈의 실용적 중도다. Ch.2 의 연습문제들이 이 원리를 이항·정규·Poisson·지수 전반에 걸쳐 구체화한다.”
Part II 이후 모든 모델의 사전 설정 전략이 이 절에서 결정된다 (Gelman et al., 2013, Ch.2.8~2.11).
2 § 2.8 비정보적 사전분포
2.1 동기 — “데이터가 스스로 말하게”
사전이 모집단 기반이 아닐 때 — 즉 \(\theta\) 가 추출될 “모집단” 이 상상 속에만 존재할 때 — 사후분포에서 사전 역할을 최소화 하는 사전이 바람직하다는 오랜 요구.
이런 분포를 참조 사전 (reference prior) 이라 부르고, 밀도를 vague, flat, diffuse, noninformative 로 묘사.
“비정보적 사전의 근거는 종종 ‘데이터가 스스로 말하게’ — 즉 현재 데이터 밖 정보가 추론에 영향을 주지 않도록.” (교재)
2.2 Proper vs improper 사전
적절 (proper) 사전 — 데이터에 의존하지 않고 전체 구간에서 적분이 1 (또는 재정규화 가능).
부적절 (improper) 사전 — 적분이 무한. 확률 분포가 아니지만 비정규화 밀도 로 계산에 쓸 수 있다.
2.3 정규 평균의 비정보적 사전
알려진 \(\sigma^2\) 의 정규 모델 \(y \sim N(\theta, \sigma^2)\), 사전 \(N(\mu_0, \tau_0^2)\). 사전 정밀도 \(1/\tau_0^2\) 가 데이터 정밀도 \(n/\sigma^2\) 에 비해 매우 작으면.
\[ p(\theta \mid y) \approx N(\bar{y}, \sigma^2/n) \]
\(\tau_0^2 \to \infty\) 극한에서는 \(p(\theta) \propto 1\) (상수) 로 쓸 수 있다. 이는 “\(\theta \in (-\infty, \infty)\) 의 균등 분포” — 적분이 무한이라 부적절.
그러나 사후는 적절 (관측 한 개만 있으면). Improper 사전이 proper 사후로 이어지는 패턴.
2.4 알려진 \(\theta\) 의 분산 사전
분산에 대한 비정보적 사전은 \(p(\sigma^2) \propto 1/\sigma^2\) 또는 동치로 \(p(\log \sigma^2) \propto 1\) (상수). \(\sigma^2 \in (0, \infty)\) 에서 \(\log\) 가 실수 전체이므로 스케일 모수의 “진짜 균등”.
\(\nu_0 = 0\) 극한에서 Inv-\(\chi^2(\nu_0, \sigma_0^2)\) 가 이 비정보적 사전에 접근 — 사후는 \(\sigma^2 \mid y \sim \text{Inv-}\chi^2(n, v)\), 빈도주의 표본 분산 분포와 일치.
2.5 Improper 사전에서 proper 사후 얻기
교재의 경고.
“Improper 사전 분포에서 얻은 사후 분포는 극도의 주의 로 해석해야 한다. 항상 사후 분포가 유한 적분과 합리적 형태 를 갖는지 확인해야 한다. 그들의 가장 합리적 해석은 가능도가 사전 밀도를 지배하는 상황에서의 근사.”
2.6 Jeffreys 의 불변 원리
서로 다른 매개변수화에서 균등 사전이 다르다 — \(p(\theta) \propto 1\) 과 \(p(\phi) \propto 1\) (\(\phi = g(\theta)\)) 은 일반적으로 서로 다른 사전. Laplace 의 “불충분 이유 원리” 의 본질적 문제.
Jeffreys 의 해결 — 매개변수화 불변인 규칙.
“\(p(\theta)\) 를 결정하는 어떤 규칙이든 변환된 모수에 적용해도 동일한 결과 를 산출해야 한다.”
즉 \(p(\phi)\) 를 (1) \(p(\theta)\) 를 구한 뒤 변환 (2.19) 으로 유도하거나, (2) 변환된 모델 \(p(y, \phi) = p(\phi) p(y \mid \phi)\) 로 직접 구해도 같은 결과여야 한다.
Jeffreys 사전.
\[ p(\theta) \propto \sqrt{J(\theta)} \]
여기서 \(J(\theta)\) 는 Fisher 정보량.
\[ J(\theta) = E\left[\left(\frac{d \log p(y \mid \theta)}{d\theta}\right)^2 \mid \theta\right] = -E\left[\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \tag{2.20} \]
2.7 불변성 증명
\(\phi = h(\theta)\) 변환. \(J(\phi) = J(\theta) |d\theta/d\phi|^2\) 이므로 \(\sqrt{J(\phi)} = \sqrt{J(\theta)} |d\theta/d\phi|\).
변환 공식 (2.19): \(p(\phi) = p(\theta) |d\theta/d\phi|\).
\(p(\theta) \propto \sqrt{J(\theta)}\) 를 대입하면 \(p(\phi) \propto \sqrt{J(\theta)} |d\theta/d\phi| = \sqrt{J(\phi)}\) — 같은 규칙이 \(\phi\) 에서도 성립. 불변성 확인.
\(J(\theta)\) 는 “단위 표본당 기대 정보량”. \(\sqrt{J(\theta)}\) 에 비례한 사전은 정보 공간에서 균등 — 모수 공간에서 \(\theta\) 가 변할 때 정보량이 많이 바뀌는 구간에 높은 밀도를 부여.
매개변수화를 바꿔도 정보 기하학적 균등성 이 보존. 즉 “내가 \(\theta\) 를 쓰든 \(\phi = \log \theta\) 를 쓰든 같은 사후를 얻는다” 는 보장.
2.8 이항에서의 세 비정보적 사전
이항 모델 \(y \sim \text{Bin}(n, \theta)\). 로그 가능도.
\[ \log p(y \mid \theta) = \text{const} + y \log \theta + (n - y) \log(1 - \theta) \]
Fisher 정보.
\[ J(\theta) = -E\left[\frac{d^2 \log p(y \mid \theta)}{d\theta^2}\right] = \frac{n}{\theta(1 - \theta)} \]
Jeffreys 사전.
\[ p(\theta) \propto \sqrt{J(\theta)} \propto \theta^{-1/2}(1 - \theta)^{-1/2} = \text{Beta}(1/2, 1/2) \]
세 가지 후보.
| 이름 | 사전 | 유래 |
|---|---|---|
| Laplace (Bayes) | Beta(1, 1) = Uniform | “불충분 이유 원리” |
| Jeffreys | Beta(1/2, 1/2) | 불변 원리 |
| Haldane | Beta(0, 0) | 자연 모수 logit(\(\theta\)) 공간의 균등 |
세 선택에서 사후는 Beta(\(\alpha + y, \beta + n - y\)) 이므로 \(\alpha + \beta\) 의 “가상 관측 수” 만 다르다.
- Beta(1, 1): 가상 관측 2개
- Beta(1/2, 1/2): 가상 관측 1개
- Beta(0, 0): 가상 관측 0개
대개 실제 관측 \(n\) 이 충분히 크면 세 선택이 거의 같은 결과. 작은 \(n\) 에서 차이가 날 뿐.
2.9 Haldane 사전의 위험
“Improper Beta(0, 0) 사전을 주의해야 한다 — 만약 \(y = 0\) 또는 \(n\) 이면 사후가 부적절 이다!” (교재)
연습문제 7 의 답 — \(y = 0\) 이면 사후가 \(\theta^{-1}(1 - \theta)^{n - 1}\) 형태라 \(\theta \to 0\) 에서 발산, 적분 무한. 극단값에서 Haldane 이 실패.
2.10 피벗 양 (pivotal quantities) — 위치·스케일 모수
이항처럼 서로 다른 원리가 다른 비정보적 사전을 주지만, 위치 모수 와 스케일 모수 에 대해서는 모든 원리가 일치.
위치 모수 — \(p(y - \theta \mid \theta)\) 가 \(\theta, y\) 와 무관한 함수 \(f(y - \theta)\) 일 때. 예 — 정규 평균.
- 비정보적 사전: \(p(\theta) \propto 1\) (상수)
스케일 모수 — \(p(y/\theta \mid \theta)\) 가 \(g(y/\theta)/\theta\) 형태일 때. 예 — 정규 표준편차, 감마 스케일.
- 비정보적 사전: \(p(\theta) \propto 1/\theta\) 즉 \(p(\log \theta) \propto 1\)
2.11 피벗 원리의 유도
위치 모수 경우. \(y - \theta\) 가 피벗 — \(\theta\) 와 \(y\) 에 무관한 분포 \(f\). 베이즈 규칙으로.
\[ p(y - \theta \mid y) \propto p(\theta) \cdot p(y - \theta \mid \theta) = p(\theta) \cdot f(y - \theta) \]
“\(y - \theta\) 가 사후에서도 피벗 (즉 분포 \(f\))” 조건을 요구하면 \(p(\theta) \propto \text{const}\) 로 귀결.
“데이터 \(y\) 를 5 만큼 이동하면 사후도 5 만큼 이동” 이라는 직관. 이것이 성립하려면 사전이 위치에 대해 균등해야 한다. 자연스러운 결과.
스케일 모수에서는 “데이터를 \(c\) 배 하면 사후도 \(c\) 배” 라는 직관이 사전 \(p(\theta) \propto 1/\theta\) 에 해당.
2.12 비정보적 사전의 세 난점
교재의 정리.
1. 가능도가 지배적이면 사전 선택이 큰 문제가 아니다
“진정으로 지배적인 가능도라면 상대적으로 평평한 사전들 중 선택이 중요하지 않다. 특정 명세를 참조 사전으로 확립하는 것은 부적절한 자동 사용을 조장 할 수 있다.”
2. 매개변수화 의존성
\(\sigma^2\) 에서 합리적인 \(p(\sigma^2) \propto 1/\sigma^2\) 는 \(\phi = \log \sigma^2\) 에서 \(p(\phi) \propto 1\). 두 표현은 동치지만, \(\sigma\) 에 대해 균등한 사전 을 쓰면 완전히 다른 결과.
어느 매개변수화가 “진짜” 인가 에 대한 답이 없다.
3. 모델 평균화에서의 문제
여러 모델을 비교·평균할 때 improper 사전은 Bayes 팩터를 발산 시킬 수 있다 — Ch.7.3 에서 상세.
2.13 결론
“그럼에도 불구하고 비정보적·참조 사전 밀도는 실제 사전 지식을 확률 분포로 정량화할 가치가 없어 보이는 경우, 수학적 작업으로 사후가 적절한지 확인하고 편의상 모델링 가정에 대한 사후 추론의 민감도를 결정할 수 있는 한, 유용하다.”
3 § 2.9 약정보적 사전분포
3.1 정의 — 의도적으로 약하게
“우리는 사전이 적절하지만, 제공하는 정보가 실제 가용한 사전 지식보다 의도적으로 약하도록 설정되어 있을 때 약정보적 (weakly informative) 이라고 부른다.” (교재)
3.2 자연스러운 제약의 활용
거의 모든 문제에서 자연스러운 크기 제약 이 있다. 교재 예.
- 로그 스케일 회귀: 계수 > 10 이면 예측값이 \(\exp(10) \approx 20{,}000\) 배 증가 — 대부분 비현실적
- 로짓 스케일: 계수 > 5 이면 확률이 \(\text{logit}^{-1}(-5) = 0.01\) 에서 \(\text{logit}^{-1}(5) = 0.99\) 로 이동 — 대부분 적용에서 극단
이런 제약을 사전에 투입하면 — 실제 알려진 정보 일부만 활용하되 사후가 합리적 범위 내에 있도록 정규화.
3.3 성비 예제 — 약정보적 Beta
Placenta previa 예제 처럼 \(\theta \approx 0.5\) 가 자연스러운 중심.
- 비정보: Beta(1, 1) — 모든 값 동등
- 강정보: Beta(200, 200) — 사전 표본 400개, 매우 좁음
- 약정보: Beta(20, 20) — 사전 표본 40개, 80% 확률이 [0.4, 0.6] 내
교재의 각주 — “R 계산 pbeta(.6, 20, 20) - pbeta(.4, 20, 20) 이 Beta(20, 20) 의 80% 확률 질량이 [0.4, 0.6] 에 있음을 보여준다.”
3.4 정규 평균의 약정보 — \(N(0, A^2)\)
위치 모수 \(\theta\) 에 대해 \(N(0, A^2)\), \(A\) 는 문맥 맞춤 큰 값.
- 응답 변수가 \(\sim 100\) 스케일이면 \(A = 1000\) 정도
- 로짓 회귀 계수는 \(A = 2.5 \sim 10\) 정도 — Cauchy(0, 2.5) 는 더 꼬리가 두꺼운 변형
3.5 근사 vs 정확성의 타협
“거의 모든 실제 문제에서 데이터 분석가는 통계 모델에 편리하게 포함시킬 수 있는 것보다 더 많은 정보를 가지고 있다. 이는 가능도에도 마찬가지. 실무에서 타협은 불가피.” (교재)
타협 이유.
- 모델을 편리하게 기술하기 위해
- 지식을 정확히 확률 형태로 표현하기 어려워서
- 계산을 단순화하려고
- 불안정한 정보원을 피하려고
첫 세 이유는 “답이 더 정확히 하더라도 크게 달라지지 않았을 것” 이라는 주장으로 정당화. 마지막은 별개 문제.
3.6 약정보적 사전을 만드는 두 전략
전략 1: 비정보에서 정보 추가
비정보적 사전에서 출발해 사후가 합리적 이 되도록 정보 추가.
예 — 드문 질병 비율 추정에서 \(\theta \sim \text{Uniform}(0, 1)\) 은 사실 너무 강할 수 있다. \(n = 100\) 에서 \(y = 0\) 이면 사후 Beta(1, 101) 평균 ≈ 0.01 — 하지만 실제 유병률이 1/10,000 이면 사후가 과대추정. 이 경우 사전을 Beta(0.1, 10) 같은 극단값 쪽으로 기울여야 현실적.
전략 2: 강정보에서 완화
역사적 데이터 · 전문가 지식 기반의 강정보 사전 을 조금 느슨하게 — 사전 지식의 불확실성과 새 데이터에 대한 적용성 불확실성을 반영.
예 — 이전 연구에서 \(\theta \approx 0.8 \pm 0.02\) 로 추정. 강정보 사전 Beta(320, 80) 대신 Beta(8, 2) 로 완화 — 평균 0.8 유지하되 사전 표본을 10개로 축소.
3.7 대칭성과 공정성
강정보 사전이 과학적으로 정당해도 실험 분석에서는 위험 할 수 있다. 예 — 연구자가 “효과가 양수” 라고 확신해서 \(\theta \sim N(0.5, 0.5)\) 를 쓰면 — 가설 검증 실험 에서 이 사전은 편향된 결과를 낳을 수 있다.
“만약 어떤 실험이 과학자의 이론을 검정하도록 설계된 것이라면, 오히려 과학자의 가설에 불리한 사전이 필요할 수도 있다 — 더 높은 증명 기준을 요구하기 위해.” (교재)
3.8 대칭성 원리
“단일 처치 효과의 사전은 0 에 대칭 이어야 한다” 같은 제약이 의미 있을 수 있다.
이유 — 실무에서 통계 추론은 효과의 증거로 받아들여진다. 사전이 한쪽으로 기울면 결과 해석의 공정성이 훼손된다.
3.9 대칭성을 포기하는 경우
교재의 단서. 궁극적으로는 결정 분석과 과학적 프로세스 전체의 모델 에 포함되어야 한다 — 조기에 큰 실제 효과를 식별하는 이득 vs 효과 크기 과대추정과 우연 패턴 과잉 반응의 손실 간 균형. 이것이 Part II Ch.9 의 주제.
| 모수 유형 | 권장 사전 |
|---|---|
| 로지스틱 회귀 계수 | Cauchy(0, 2.5) — 로짓 스케일 극단 방지 |
| 정규 평균 (중심화된 예측자) | N(0, 2.5²) 또는 Cauchy(0, 2.5) |
| 표준편차 (계층 분산 모수) | half-Cauchy(0, 5) |
| 계층 분산 | Inv-Gamma 대신 half-t, half-Normal |
| 상관 행렬 | LKJ(2) 약정보 |
Stan · PyMC · brms 등 현대 베이즈 도구의 기본 권장 이 이 원리들. “정보를 전혀 안 준다” 가 아니라 “상식의 울타리를 친다” 는 철학.
4 § 2.10 참고문헌 주해
4.1 Ch.2 의 지적 계보
1763 Bayes 의 원본 논문 — 베이즈 정리의 최초 유도, 이항 모델의 사후 적분. Stigler (1986) 의 “역확률 (inverse probability)” 역사서가 Bayes 와 Laplace 의 발전을 상세히 다룬다.
1785, 1810 Laplace — Bayes 와 독립적으로 베이즈 정리를 재발견하고 정규 근사 방법 을 개발. 파리 출생 통계 분석 (241,945 여아 / 493,472 총).
4.2 켤레 이론의 체계화
Raiffa & Schlaifer (1961) — 켤레 사전 이론의 상세 전개. Ch.2 의 수학적 뼈대가 이 책에서 유래.
Aitchison & Dunsmore (1975) — 예측 추론과 켤레 모델의 상세 분석.
4.3 비정보적 사전의 철학적 논쟁
Jeffreys (1961) — 불변 원리의 원전. “확률론” 전서.
Hartigan (1964) — 불변 원리의 일반화.
Bernardo (1979) — 참조 사전 (reference prior) 의 확장. Kullback-Leibler 발산 기반.
Box & Tiao (1973) — 실무적 관점의 정규 모델과 HPD 영역 상세.
Berger (1985) — 통계적 결정 이론과 베이즈 분석의 표준 참고서.
Kass & Wasserman (1996) — 비정보적 사전 구성 방법 전반 리뷰. 비판적 사용 의 필요성 강조.
4.4 약정보적 사전의 발전
Gelman (2006a) — 계층적 분산 모수에 대한 half-t 사전 제안. 분산 모수에 대한 Inv-Gamma 사전의 문제 지적.
Gelman, Jakulin, et al. (2008) — 로지스틱 회귀의 Cauchy(0, 2.5) 약정보 사전 체계적 권장.
4.5 암 지도 예제의 배경
Manton et al. (1989) — 연령 조정 신장암 사망률의 베이즈 분석. § 2.7 의 기반.
Gelman & Nolan (2002a), Bernardinelli et al. (1995) — 질병 지도에 대한 사전 분포 일반 논의.
Louis (1984), Shen & Louis (1998) — 모수 앙상블 추정 (Ch.5 계층 모형 예고).
4.6 Placenta Previa 사례
James (1987) 의 1922 년 독일 연구. Gelman & Weakliem (2009) 이 작은 표본에서 성비 추정의 과제 심층 분석.
5 § 2.11 선정 연습문제 풀이
5.1 Exercise 1 — Beta(4, 4) 사전, 검열된 이항 관측
문제. Beta(4, 4) 사전. 10 회 동전 시행 중 앞면이 3 회 미만 (몇 회인지는 모름). \(\theta\) 의 사후 밀도를 구하여라.
풀이. 관측 \(A = \{y < 3\} = \{y \in \{0, 1, 2\}\}\).
\[ p(\theta \mid A) \propto p(A \mid \theta) \, p(\theta) = \Pr(y < 3 \mid \theta) \cdot \text{Beta}(\theta \mid 4, 4) \]
\[ \Pr(y < 3 \mid \theta) = \sum_{k=0}^{2} \binom{10}{k} \theta^k (1 - \theta)^{10 - k} \]
따라서
\[ p(\theta \mid A) \propto \theta^3 (1 - \theta)^3 \cdot \left[(1-\theta)^{10} + 10\theta(1-\theta)^9 + 45\theta^2(1-\theta)^8\right] \]
관찰 — 세 개 Beta 분포의 혼합.
\[ p(\theta \mid A) \propto \theta^3 (1-\theta)^{13} + 10 \theta^4 (1-\theta)^{12} + 45 \theta^5 (1-\theta)^{11} \]
= 혼합 Beta: 가중치 있는 Beta(4, 14), Beta(5, 13), Beta(6, 12).
“정확한 \(y\) 값 대신 \(y \in A\)” 만 관측 — 생존 분석·실패 시간·설문의 범주화 데이터에서 흔한 구조. 사후는 각 \(y\) 에서의 사후의 가중 혼합. Ch.18 다중 대체의 씨앗이 여기 있다.
5.2 Exercise 5 — Beta 사후의 절충 성질 증명
문제. \(y \sim \text{Bin}(n, \theta)\), \(\theta \sim \text{Beta}(\alpha, \beta)\). 사후 Beta(\(\alpha + y, \beta + n - y\)).
(b) 사후 평균이 사전 평균과 표본 비율 사이에 있음을 대수적으로 증명.
\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} \]
사전 평균 \(\mu_0 = \alpha / (\alpha + \beta)\), 표본 비율 \(p = y / n\).
\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} = \frac{(\alpha + \beta) \mu_0 + n p}{\alpha + \beta + n} = \underbrace{\frac{\alpha + \beta}{\alpha + \beta + n}}_{w_0} \mu_0 + \underbrace{\frac{n}{\alpha + \beta + n}}_{w_1} p \]
\(w_0, w_1 \geq 0\), \(w_0 + w_1 = 1\) → 사후 평균은 사전 평균과 표본 비율의 볼록 조합. 따라서 항상 사이에 위치.
(c) 균등 사전 (\(\alpha = \beta = 1\)) 하에서 사후 분산 < 사전 분산 증명.
Beta(1, 1) 의 분산 = \(1/12\).
Beta(\(1 + y, 1 + n - y\)) 의 분산 = \(\frac{(1+y)(1+n-y)}{(n+2)^2 (n+3)}\).
\((1+y)(1+n-y) \leq ((n+2)/2)^2 = (n+2)^2/4\) (AM-GM).
\[ \text{var}(\theta \mid y) \leq \frac{(n+2)^2/4}{(n+2)^2(n+3)} = \frac{1}{4(n+3)} \]
\(n \geq 0\) 이면 \(1/(4(n+3)) \leq 1/12\). 등호는 \(n = 0\) (데이터 없음) 에서. 항상 사후 분산 ≤ 사전 분산.
(d) 사후 분산이 사전 분산보다 큰 예.
Beta(2, 2) 사전 → 사전 분산 = \(\frac{2 \cdot 2}{16 \cdot 5} = 0.05\). \(n = 1, y = 0\) 관측 → 사후 Beta(2, 3) → 사후 분산 = \(\frac{2 \cdot 3}{25 \cdot 6} = 0.04\). 사후가 작음.
더 극단적 예를 찾으려면 사전과 데이터 충돌. 예 — Beta(100, 2) 사전 (평균 약 0.98), \(n = 10\), \(y = 1\). 사후 Beta(101, 11) → 평균 약 0.90, 분산 \(\frac{101 \cdot 11}{112^2 \cdot 113} \approx 7.8 \times 10^{-4}\). 사전 Beta(100, 2) 분산 = \(\frac{100 \cdot 2}{102^2 \cdot 103} \approx 1.9 \times 10^{-4}\). 사후 분산이 약 4 배 증가 — 사전과 데이터 충돌의 신호.
5.3 Exercise 8 — 정규 미지 평균, 학생 몸무게
문제. \(y_1, \ldots, y_n \sim N(\theta, 20^2)\), \(\bar{y} = 150\). 사전 \(\theta \sim N(180, 40^2)\).
(a) 사후 분포.
정규-정규 켤레 공식 (2.12).
\[ \mu_n = \frac{\frac{1}{40^2} \cdot 180 + \frac{n}{20^2} \cdot 150}{\frac{1}{40^2} + \frac{n}{20^2}} = \frac{180/1600 + 150n/400}{1/1600 + n/400} = \frac{0.1125 + 0.375n}{0.000625 + 0.0025n} \]
간단히.
\[ \mu_n = \frac{180 + 4n \cdot 150}{1 + 4n} = \frac{180 + 600n}{1 + 4n} \]
사후 분산.
\[ \tau_n^2 = \frac{1}{\frac{1}{1600} + \frac{n}{400}} = \frac{1600}{1 + 4n} \]
(b) 사후 예측. \(\tilde{y} \mid y \sim N(\mu_n, 20^2 + \tau_n^2) = N(\mu_n, 400 + 1600/(1+4n))\).
(c) \(n = 10\).
\[ \mu_{10} = \frac{180 + 6000}{41} = \frac{6180}{41} \approx 150.73 \]
\[ \tau_{10}^2 = \frac{1600}{41} \approx 39.02, \quad \tau_{10} \approx 6.25 \]
95% 사후 구간 \(\theta\): \([150.73 - 1.96 \times 6.25, 150.73 + 1.96 \times 6.25] = [138.5, 163.0]\).
95% 예측 구간 \(\tilde{y}\): 분산 \(400 + 39.02 = 439.02\), 표준편차 \(20.95\) → \([150.73 - 1.96 \times 20.95, 150.73 + 1.96 \times 20.95] = [109.7, 191.8]\).
(d) \(n = 100\).
\[ \mu_{100} = \frac{180 + 60000}{401} \approx 150.07 \]
\[ \tau_{100}^2 = \frac{1600}{401} \approx 3.99, \quad \tau_{100} \approx 2.00 \]
95% 사후 구간: \([146.15, 153.99]\). 95% 예측 구간: 분산 \(400 + 3.99 = 403.99\), 표준편차 \(20.10\) → \([110.68, 189.46]\).
- 사후 평균: \(\mu_n \to \bar{y} = 150\)
- 사후 분산: \(\tau_n^2 \to 0\)
- 예측 분산: \(\tau_n^2 + \sigma^2 \to \sigma^2 = 400\)
예측 분산은 0 으로 수렴하지 않는다 — 모수 불확실성이 사라져도 표본 변동 \(\sigma^2\) 는 남기 때문. 빈도주의와 베이즈 둘 다에서 같은 진실. Ch.14 회귀 예측 구간의 원형.
5.4 Exercise 13 — 항공 사고 Poisson 모델
데이터 (표 2.2). 1976-1985 전 세계 치명 사고 수: 24, 25, 31, 31, 22, 21, 26, 20, 16, 22. 10 년 총 238 사고.
(a) 단순 Poisson 모델.
가정 — 각 연도 사고 수 ∼ Poisson(\(\theta\)) iid, \(\theta\) 는 연간 사고율.
사전. 약정보 Gamma(\(\alpha = 1\), \(\beta = 0\)) — improper Gamma (\(\alpha = 1\), \(\beta \to 0\)) 는 \(1/\theta\) 에 해당. 또는 Jeffreys (Ex.12 해): \(p(\theta) \propto \theta^{-1/2}\).
Jeffreys 로 진행. 사후 ∝ \(\theta^{-1/2} \cdot \theta^{238} e^{-10\theta} = \theta^{237.5} e^{-10\theta}\) → Gamma(238.5, 10).
1986 년 예측 구간. \(y_{1986} \mid \theta \sim \text{Poisson}(\theta)\).
\(S = 10000\) 시뮬레이션.
- \(\theta^{(s)} \sim \text{Gamma}(238.5, 10)\)
- \(y^{(s)} \sim \text{Poisson}(\theta^{(s)})\)
2.5·97.5 분위수가 95% 예측 구간. 교재 가이드로는 약 [14, 35] 수준. 실제 1986년 22 사고 — 구간 내.
(b) 노출 조정 모델. 연도별 비행 마일 \(x_i\) (표 2.2 의 deaths/death rate 로 계산). 1986 년 \(x = 8 \times 10^{11}\) 마일.
\(y_i \sim \text{Poisson}(x_i \theta)\), \(\theta\) = 사고 율 per passenger mile.
사후 Gamma(\(\alpha + \sum y_i, \beta + \sum x_i\)). (a) 보다 정확한 예측.
비행 마일이 해마다 크게 증가했다면 고정 \(\theta\) 모델 (a) 은 평균화하여 과소추정·과대추정할 위험. 노출 조정 모델 (b) 는 연도별 “위험 수준” 을 포착하여 더 정확한 예측.
Ch.6 의 사후 예측 점검으로 두 모델 비교 — 잔차 · 관측 vs 예측 비교가 더 좋은 모델을 식별.
5.5 Exercise 17 — HPD 의 변환 불변성 위반
문제. \(nv/\sigma^2 \sim \chi^2_n\), \(\sigma\) 의 사전 \(p(\sigma) \propto 1/\sigma\).
(a) \(\sigma^2\) 의 사전 유도.
\(\phi = \sigma^2\), 변환 공식.
\[ p(\sigma^2) = p(\sigma) \left|\frac{d\sigma}{d\sigma^2}\right| = \frac{1}{\sigma} \cdot \frac{1}{2\sigma} = \frac{1}{2\sigma^2} \propto \frac{1}{\sigma^2} \]
(b) \(\sigma^2\) 의 95% HPD 가 \(\sigma\) 의 95% HPD 의 제곱 끝점과 다르다.
이유 — HPD 는 “밀도가 높은 영역” 을 수집. 밀도는 변환 시 야코비안 으로 바뀐다. \(\sigma^2\) 에서 \([a, b]\) 가 HPD 면 \(\sigma\) 에서 \([\sqrt{a}, \sqrt{b}]\) 의 밀도는 \(p_\sigma(\sqrt{a})\) 가 아니라 \(p_{\sigma^2}(a) \cdot 2\sqrt{a}\) — 양변의 밀도 순위가 뒤바뀔 수 있다.
중앙 구간은 변환 불변 — 분위수가 단조 변환에서 보존. 이것이 Gelman 이 중앙 구간을 권장하는 기술적 이유.
- 장점: 최고 밀도 수집, 다봉 분포에서 정보적
- 단점: 변환에 민감, 시뮬레이션 계산 복잡
실무에서 단봉 사후면 중앙 구간·HPD 거의 같음 → 중앙 구간 선호. 다봉이면 구간 하나로 요약하지 말고 분포 자체를 제시.
5.6 Exercise 20 — 검열된 지수 데이터의 분산 역설
문제. \(y \mid \theta \sim \text{Exp}(\theta)\), \(\theta \sim \text{Gamma}(\alpha, \beta)\).
(a) \(y \geq 100\) 만 관측. 사후 \(p(\theta \mid y \geq 100)\) 는?
\[ \Pr(y \geq 100 \mid \theta) = e^{-100\theta} \]
\[ p(\theta \mid y \geq 100) \propto p(\theta) \cdot e^{-100\theta} \propto \theta^{\alpha - 1} e^{-\beta\theta} \cdot e^{-100\theta} = \theta^{\alpha - 1} e^{-(\beta + 100)\theta} \]
→ Gamma(\(\alpha, \beta + 100\)). 관측 하나 증가 없이 대기 시간 100 만 증가 — 사후 분산 감소.
사후 평균 \(\alpha / (\beta + 100)\), 사후 분산 \(\alpha / (\beta + 100)^2\).
(b) \(y = 100\) 정확 관측.
\[ p(\theta \mid y = 100) \propto p(\theta) \cdot \theta e^{-100\theta} = \theta^\alpha e^{-(\beta + 100)\theta} \]
→ Gamma(\(\alpha + 1, \beta + 100\)). 관측 하나 추가.
사후 평균 \((\alpha + 1) / (\beta + 100)\), 사후 분산 \((\alpha + 1) / (\beta + 100)^2\).
(c) 왜 (b) 의 사후 분산이 (a) 보다 큰가.
- 가 더 많은 정보 를 관측했음에도 — “정확한 \(y = 100\)” vs “\(y \geq 100\)” — 사후 분산이 더 크다.
\[ \text{var}_{(b)} = \frac{\alpha + 1}{(\beta + 100)^2}, \quad \text{var}_{(a)} = \frac{\alpha}{(\beta + 100)^2}, \quad \text{var}_{(b)} > \text{var}_{(a)} \]
왜? — 식 (2.8) 은 기댓값 관계. \(\text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y))\). 특정 관측값에서 \(\text{var}(\theta \mid y)\) 가 평균보다 크거나 작을 수 있다.
\(y = 100\) 은 “검열 임계값에 정확히 위치” — 특이한 관측. 이 경우 사후 분산이 조건부로 평균 이상. 식 (2.8) 의 기댓값 관계와 모순되지 않는다.
“더 많은 정보 → 더 작은 불확실성” 은 평균적으로 참. 특정 관측에서는 위반 가능. 베이즈 업데이트에서 이런 “역설” 을 만났다면 특정 관측이 사전과 강한 충돌 하는지 확인 — Ch.6 의 사후 예측 점검 대상.
식 (2.8) 은 모수와 관측의 결합 분포에 대한 기댓값 진술이지, 특정 관측 조건부 진술이 아니다.
6 네 절의 구조적 통합
| 절 | 주제 | 핵심 메시지 |
|---|---|---|
| § 2.8 | 비정보적 사전 | 진정 비정보는 환상 — 매개변수화에 의존 |
| § 2.9 | 약정보적 사전 | 현대 베이즈의 실용적 중도 |
| § 2.10 | 참고문헌 | Bayes·Laplace 에서 현대 약정보로 |
| § 2.11 | 연습문제 | Ch.2 전체 기법 · 미묘한 함정 훈련 |
7 코드 예제 — Jeffreys 사전과 약정보적 사전 비교
7.1 Step 1: 이항에서 세 가지 사전의 사후 비교
import numpy as np
from scipy import stats
np.random.seed(0)
# 작은 표본: n=5, y=3
n, y = 5, 3
priors = [
("Laplace Beta(1, 1)", 1, 1),
("Jeffreys Beta(1/2, 1/2)", 0.5, 0.5),
("Haldane Beta(0, 0)*", 0.01, 0.01), # 0, 0 은 improper 이므로 근사
("Weakly info Beta(2, 2)", 2, 2),
]
S = 10000
print(f"{'Prior':<30} {'Mean':<8} {'95% Interval':<20}")
for name, a, b in priors:
post = stats.beta(a + y, b + n - y)
mean = post.mean()
lo, hi = post.ppf(0.025), post.ppf(0.975)
print(f"{name:<30} {mean:.4f} [{lo:.4f}, {hi:.4f}]")예상 출력 — 작은 표본에서 사전에 따라 사후가 약간씩 다름. Jeffreys 가 Laplace 보다 약간 극단 방향으로 shift, Beta(2, 2) 가 0.5 쪽으로 더 shrunk.
7.2 Step 2: \(y = 0\) 극단에서 Haldane 의 위험
# y = 0, n = 10 극단
n, y = 10, 0
for name, a, b in priors:
post = stats.beta(a + y, b + n - y)
try:
mean = post.mean()
lo, hi = post.ppf(0.025), post.ppf(0.975)
print(f"{name:<30} mean={mean:.4f}, 95% interval=[{lo:.4f}, {hi:.4f}]")
except Exception as e:
print(f"{name:<30} 계산 오류: {e}")예상 관찰 — Haldane 에 가까운 Beta(0.01, 0.01) 사전은 사후가 0 으로 극단 수축. Improper 한계에서 사후가 부적절해짐.
8 관련 주제
Ch.2 의 다른 심화 포스트
- Ch.2 개요 — 전체 훑기
- § 2.1~2.4 심화
- § 2.5~2.7 심화
Ch.1 심화 (선행)
Part I~V 전체
빈도주의 대응
- MLE · 점 추정 — Fisher 정보량의 빈도주의 역할
- 신뢰 구간 — HPD 와 신뢰 구간 비교
- 베이즈 검정 — improper 사전의 Bayes 팩터 문제
9 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.8~2.11).
- Jeffreys, H. (1961). Theory of Probability (3rd ed.). Oxford University Press.
- Kass, R. E., & Wasserman, L. (1996). The selection of prior distributions by formal rules. Journal of the American Statistical Association, 91(435), 1343–1370.
- Gelman, A. (2006a). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515–534.
- Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models. Annals of Applied Statistics, 2(4), 1360–1383.
- Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis (2nd ed.). Springer.
- Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Harvard University Press.