1 Ch.2 의 위치 — “언어” 에서 “문법 연습” 으로
Ch.1 이 베이즈 데이터 분석의 언어와 3단계 순환 을 확립했다면, Ch.2 는 그 언어를 네 가지 표준 분포 (이항·정규·Poisson·지수) 에서 구체적으로 돌려보는 장이다. Gelman 은 단일 모수 모델을 통해 베이즈 추론의 핵심 개념·계산·해석 을 압축 소개한다.
“모수가 하나뿐인 모델에서 사후분포를 손으로 유도하고 해석하는 훈련을 통해 베이즈 추론의 문법을 체득한다. 켤레 사전·사후 절충·정밀도 가산·요약 통계·정보적/비정보적/약정보적 사전의 세 단계가 모두 이 장에 압축되어 있다.”
이 장의 모든 공식은 Part IV 회귀와 Part V 비모수까지 같은 구조로 확장 된다 (Gelman et al., 2013, Ch.2).
Ch.2 의 구성.
| 절 | 핵심 | 역할 |
|---|---|---|
| § 2.1 | 이항 모델 · Beta 켤레 · 여아 출생 | 첫 켤레 사전 — Beta(1, 1) 균등부터 |
| § 2.2 | 사후는 사전과 데이터의 절충 | 반복 분산 공식 이 여기서 진가 발휘 |
| § 2.3 | 중앙 구간·HPD·모드/평균/중앙값 | 사후 분포의 요약 도구 상자 |
| § 2.4 | 정보적 사전 · 하이퍼파라미터 | 두 해석 — 모집단 vs 신념 상태 |
| § 2.5 | 정규 (알려진 분산) · 정밀도 가산 | 정규-정규 켤레의 핵심 기하 |
| § 2.6 | Poisson · 지수 · 다른 모델 | 지수족 가족의 같은 구조 확인 |
| § 2.7 | 암 발생률 정보 사전 예제 | 실무에서 사전 어떻게 세우나 |
| § 2.8 | 비정보적 사전 · Jeffreys · pivot | 불변 원리 와 한계 |
| § 2.9 | 약정보적 사전 | 현대 베이즈의 실용적 중도 |
각 절을 모델 · 수식 · 직관 · 실무 지침 순서로 정리한다.
2 § 2.1 이항 모델과 Beta 켤레
2.1 모델
베르누이 시행 \(n\) 개, \(y\) 개 성공. 교환가능성 가정 아래 성공 확률 \(\theta\).
\[ p(y \mid \theta) = \binom{n}{y} \theta^y (1 - \theta)^{n - y} \tag{2.1} \]
2.2 균등 사전과 Beta 사후
가장 단순한 사전 — \(\theta \sim \text{Uniform}(0, 1)\). 베이즈 규칙.
\[ p(\theta \mid y) \propto \theta^y (1 - \theta)^{n - y} \tag{2.2} \]
이 형태는 Beta 분포.
\[ \theta \mid y \sim \text{Beta}(y + 1, n - y + 1) \tag{2.3} \]
2.3 여아 출생 비율 예제
역사적 관심 — 유럽 인구의 여아 출생 비율. 현재 통용 값 0.485. 표본 \(n\) 명 중 여아 \(y\) 명이면 사후 Beta(\(y + 1, n - y + 1\)). \(n\) 이 커질수록 사후가 \(\theta \approx y/n\) 주변에 집중.
Bayes 의 당구대 논증 (1763) — 균등 사전은 “공을 먼저 던지고 (사전), 이후 \(n\) 개 공을 던져 왼쪽에 떨어진 수를 세는” 물리 실험의 확률 구조와 일치. Laplace 의 “불충분 이유 원리” — “아무것도 모를 때 균등이 합리적” 은 § 2.8 에서 비판적 재검토 대상이 된다. 하지만 Beta(1, 1) = 균등이라는 사실이 “사전 = 데이터 없는 관측 0개” 라는 아이디어를 단번에 이해하게 한다.
2.4 하이퍼파라미터와 일반 Beta 사전
가능도 \(\theta^y (1 - \theta)^{n-y}\) 와 같은 함수 형태의 사전.
\[ p(\theta) \propto \theta^{\alpha - 1} (1 - \theta)^{\beta - 1} = \text{Beta}(\theta \mid \alpha, \beta) \]
사후.
\[ \theta \mid y \sim \text{Beta}(\alpha + y, \beta + n - y) \]
하이퍼파라미터 \((\alpha, \beta)\) 의 의미 — “관측 전의 성공 수 \(\alpha - 1\), 실패 수 \(\beta - 1\)”. 예 — Beta(5, 3) 는 “관측 전 성공 4, 실패 2” 를 관측한 효과.
실무 지침 — 사전 평균을 \(\mu = \alpha / (\alpha + \beta)\), 사전 “유효 표본 크기” 를 \(\alpha + \beta\) 로 잡아 도메인 지식을 투입.
3 § 2.2 사후는 사전과 데이터의 절충
3.1 반복 분산 공식의 재등장
Ch.1.8 의 식 (1.8)·(1.9) 를 \((u, v) = (\theta, y)\) 로 대입.
\[ E(\theta) = E(E(\theta \mid y)) \tag{2.7} \]
\[ \text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y)) \tag{2.8} \]
3.2 의미
사전 분산 = 사후 분산의 평균 + 사후 평균의 분산.
- 왼쪽 항은 \(\theta\) 의 사전 불확실성
- 첫 오른쪽 항은 “관측 후 평균적으로 남는 불확실성”
- 두 번째 항은 “가능한 데이터에 대한 사후 평균 이동 폭”
이 분해가 “데이터의 정보량” 을 정량화한다. 두 번째 항 (가능한 데이터에 따른 사후 평균 이동) 이 클수록 데이터가 정보적.
3.3 이항 예제에서의 절충
균등 사전 Beta(1, 1) 은 평균 1/2, 분산 1/12. 사후 Beta(\(y+1, n-y+1\)) 의 평균.
\[ E(\theta \mid y) = \frac{y + 1}{n + 2} \]
이것은 표본 비율 \(y/n\) 과 사전 평균 \(1/2\) 의 가중 평균.
\[ \frac{y + 1}{n + 2} = \frac{n}{n + 2} \cdot \frac{y}{n} + \frac{2}{n + 2} \cdot \frac{1}{2} \]
\(n\) 이 커질수록 데이터 \(y/n\) 쪽에 가중치. \(n = 0\) 이면 사전 \(1/2\). 일반적 성질 — 사후 평균은 항상 사전과 데이터의 타협점이고, 표본이 클수록 데이터가 지배.
식 (2.8) 의 두 항이 모두 비음이므로 \(\text{var}(\theta) \geq E(\text{var}(\theta \mid y))\). 즉 평균적으로 사후 분산은 사전 분산보다 작다. 관측이 불확실성을 줄이는 것은 특수한 성질이 아니라 확률의 구조적 귀결.
특수 상황에서 사후 분산이 사전과 비슷하거나 크게 나오면? — 모델과 사전 간 충돌 (conflict) 의 신호. Part II Ch.6 의 사후 예측 점검이 이런 충돌을 체계적으로 찾아낸다.
4 § 2.3 사후 추론 요약
4.1 전체 사후분포가 우선
사후 분포 \(p(\theta \mid y)\) 가 \(\theta\) 에 관한 모든 정보 를 담고 있다. 이상적으로는 분포 전체를 보고 — 밀도 그림·히스토그램 — 모든 질문에 답한다.
4.2 중심·산포 요약
| 위치 | 의미 |
|---|---|
| 평균 \(E(\theta \mid y)\) | 사후 기댓값 — 제곱 손실 최적 |
| 중앙값 | 절대값 손실 최적, 비대칭 분포에서 견고 |
| 최빈값 (mode) | “가장 가능성 높은 단일 값”, 계산 용이 |
| 산포 | 의미 |
|---|---|
| 표준편차 | 정규 근사에서 표준 척도 |
| 사분위수 범위 (IQR) | 꼬리가 두꺼운 분포에 견고 |
| 분위수 | 모양 정보를 넘어 직접 해석 |
4.3 Beta 사후의 닫힌 형태
Beta(\(y+1, n-y+1\)) 에서 (Appendix A 의 표준 결과).
\[ E(\theta \mid y) = \frac{y + 1}{n + 2}, \quad \text{mode}(\theta \mid y) = \frac{y}{n} \]
사후 최빈값 = MLE = 표본 비율 — Bayes 와 빈도주의가 균등 사전에서 점 추정 수준에서 일치.
4.4 사후 구간 — 중앙 구간 vs HPD
두 주류 선택.
1. 중앙 사후 구간 (central posterior interval) — \(100(1 - \alpha)\%\) 구간 \([a, b]\) 에서 \(\Pr(\theta < a) = \alpha/2\), \(\Pr(\theta > b) = \alpha/2\). 분위수 기반.
2. 최고 사후 밀도 영역 (HPD, highest posterior density region) — \(100(1 - \alpha)\%\) 확률을 포함하되 영역 내 밀도가 외부보다 항상 높은 영역.
단봉 · 대칭 분포에서는 둘이 일치. 다봉 분포 에서는 다르다 — HPD 가 두 개 분리된 구간이 될 수 있고, 중앙 구간은 분포 가운데 확률 0 영역까지 포함할 수 있다.
- 직접 해석 — “2.5 분위수와 97.5 분위수” 로 명확
- 시뮬레이션 친화적 — \(S\) 개 표본의 \(0.025 S\), \(0.975 S\) 순서 통계량으로 즉시 계산
- 단조 변환 불변 — \(\theta \to \log \theta\) 등 단조 변환에서 구간이 일관
HPD 는 다봉/비대칭에서 정보가 많지만 시뮬레이션 계산이 복잡 하고 변환에 불변하지 않다. Gelman 은 중앙 구간을 기본 추천하되, 다봉에서는 “구간 하나로 요약하지 말고 분포 자체를 보라” 고 한다.
5 § 2.4 정보적 사전분포
5.1 두 해석
1. 모집단 해석 (population interpretation)
사전 = 가능한 모수 값들의 모집단. 현재 \(\theta\) 가 그 모집단에서 뽑힌 것으로 간주.
예 — 여러 공장의 불량률을 추정할 때 각 공장의 \(\theta_j\) 는 공장 모집단에서의 추출로 해석.
2. 신념 상태 해석 (state-of-knowledge interpretation)
사전 = 현재 알고 있는 지식과 불확실성을 표현. “만약 \(\theta\) 가 이 사전분포에서 무작위로 뽑힌 것이라고 여길 수 있다면” 이라는 판단.
예 — 새 산업 공정의 불량률 — 실제 “모집단” 은 없지만 도메인 지식으로 합리적 범위 설정.
“일반적으로 사전분포는 \(\theta\) 의 모든 그럴듯한 값을 포함해야 하지만, 실제 값 주변에 현실적으로 집중될 필요는 없다. 대개 데이터가 담은 \(\theta\) 정보가 어떤 합리적 사전 확률 명세보다 훨씬 크기 때문이다.” (교재)
즉 사전은 “정확히” 맞을 필요가 없고, “가능한 영역을 빠뜨리지 않는” 것이 훨씬 중요. 작은 표본에서 사전이 결과를 흔들지만, 표본이 커지면 어떤 합리적 사전이든 거의 같은 사후로 수렴 — Ch.1 의 순차 갱신이 이를 예고.
5.2 Beta 사전의 가상 관측 해석
Beta(\(\alpha, \beta\)) 의 하이퍼파라미터는 가상의 사전 관측.
- \(\alpha - 1\) 회 사전 성공
- \(\beta - 1\) 회 사전 실패
- 유효 표본 크기 \(\alpha + \beta - 2\)
Beta(3, 2) = “이미 2 회 성공 · 1 회 실패를 보았다는 지식” 과 등가. Beta(30, 20) = “이미 29 회 성공 · 19 회 실패를 보았다는 지식” → 훨씬 선명한 사전.
6 § 2.5 정규 분포 (알려진 분산)
6.1 단일 관측의 모델
\[ y \mid \theta \sim N(\theta, \sigma^2), \quad \sigma^2 \text{ 알려짐} \]
켤레 사전.
\[ \theta \sim N(\mu_0, \tau_0^2) \]
\((\mu_0, \tau_0^2)\) 는 하이퍼파라미터 — 사전 평균과 사전 분산.
6.2 사후 — 정규 \(\times\) 정규 = 정규
지수가 \(\theta\) 에 대한 이차식의 합이므로 사후도 정규.
\[ \theta \mid y \sim N(\mu_1, \tau_1^2) \tag{2.9} \]
\[ \mu_1 = \frac{\frac{1}{\tau_0^2} \mu_0 + \frac{1}{\sigma^2} y}{\frac{1}{\tau_0^2} + \frac{1}{\sigma^2}}, \quad \frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2} \tag{2.10} \]
6.3 정밀도 (precision) — 핵심 어휘
정밀도 = 분산의 역수. \(\theta\) 의 분산을 직접 쓰기 보다 정밀도 로 표현하면 공식이 단순해진다.
\[ \text{사후 정밀도} = \text{사전 정밀도} + \text{데이터 정밀도} \]
정밀도는 “정보의 양” 이다. 두 독립 정보 출처의 정보량이 가산 된다는 것이 정규-정규 켤레의 수학적 본질. 이 가산 구조가 —
- 계층 모형의 shrinkage 크기 (Part I Ch.5)
- 칼만 필터의 업데이트 공식
- Ridge 회귀의 정규화 강도 (Part IV Ch.14)
모두에서 같은 공식 으로 나타난다. 정밀도의 가산은 베이즈 추론의 보편적 기하.
6.4 사후 평균의 세 가지 얼굴
\[ \mu_1 = \frac{\tau_0^{-2} \mu_0 + \sigma^{-2} y}{\tau_0^{-2} + \sigma^{-2}} \quad \text{(정밀도 가중 평균)} \]
\[ \mu_1 = \mu_0 + (y - \mu_0) \cdot \frac{\tau_0^2}{\sigma^2 + \tau_0^2} \quad \text{(사전 평균을 $y$ 쪽으로 당김)} \]
\[ \mu_1 = y - (y - \mu_0) \cdot \frac{\sigma^2}{\sigma^2 + \tau_0^2} \quad \text{(데이터를 사전 평균으로 shrinkage)} \]
세 표현이 동치지만 각각 다른 직관을 준다. 세 번째 표현이 Ch.5 shrinkage 의 원형.
6.5 극단 사례
- \(\tau_0^2 = 0\): 사전이 무한 정밀 → 사후 = 사전 (\(\mu_1 = \mu_0\))
- \(\sigma^2 = 0\): 데이터가 무한 정밀 → 사후 = 데이터 (\(\mu_1 = y\))
- \(y = \mu_0\): 사전과 데이터가 일치 → 사후 = 공통값
6.6 사후 예측 분포
반복 기댓값·분산 공식으로.
\[ E(\tilde{y} \mid y) = \mu_1, \quad \text{var}(\tilde{y} \mid y) = \sigma^2 + \tau_1^2 \]
사후 예측 분산 = 표본 변동 \(\sigma^2\) + 모수 불확실성 \(\tau_1^2\). Part I Ch.3 사후 예측 공식의 전형.
6.7 다중 관측
iid 관측 \(y_1, \ldots, y_n\) 에서 사후는 표본 평균 \(\bar{y}\) 만 통해 데이터에 의존 — \(\bar{y}\) 가 충분통계량.
\[ \mu_n = \frac{\tau_0^{-2} \mu_0 + n \sigma^{-2} \bar{y}}{\tau_0^{-2} + n \sigma^{-2}}, \quad \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \tag{2.12} \]
표본 크기 \(n\) 이 데이터 정밀도에 곱해진다. \(n\) 이 커지면 사전 정밀도가 상대적으로 사소해지며 사후는 \(N(\bar{y}, \sigma^2/n)\) 에 근접 — 베이즈가 빈도주의와 합류 하는 Part I Ch.4 의 원형.
7 § 2.6 다른 표준 단일 모수 모델
7.1 Poisson 모델
\[ y \mid \theta \sim \text{Poisson}(\theta), \quad y = 0, 1, 2, \ldots \]
켤레 사전은 감마 분포.
\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y \sim \text{Gamma}(\alpha + y, \beta + 1) \]
\(n\) 개 iid 관측 에서.
\[ \theta \mid y_1, \ldots, y_n \sim \text{Gamma}\left(\alpha + \sum y_i, \beta + n\right) \]
사후 평균.
\[ E(\theta \mid y) = \frac{\alpha + \sum y_i}{\beta + n} \]
사전 평균 \(\alpha/\beta\) 와 표본 평균 \(\bar{y}\) 의 가중 평균. Poisson 회귀·계수 데이터의 기본 구조.
7.2 지수 모델
\[ y \mid \theta \sim \text{Exponential}(\theta) \quad \text{(} \theta = \text{속도}\text{)} \]
역시 감마 켤레.
\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y_1, \ldots, y_n \sim \text{Gamma}\left(\alpha + n, \beta + \sum y_i\right) \]
대기 시간 · 생존 데이터 · 부품 수명 모델의 출발점. Part V 의 약동학 (Ch.19) 도 여기서 출발.
7.3 지수족의 통일 구조
네 모델 (이항·정규·Poisson·지수) 모두 지수족 이며 각각 켤레 사전을 갖는다.
| 가능도 | 켤레 사전 | 사후 구조 |
|---|---|---|
| Binomial(\(n, \theta\)) | Beta(\(\alpha, \beta\)) | Beta(\(\alpha + y, \beta + n - y\)) |
| Normal(\(\theta, \sigma^2\)) | Normal(\(\mu_0, \tau_0^2\)) | Normal — 정밀도 가산 |
| Poisson(\(\theta\)) | Gamma(\(\alpha, \beta\)) | Gamma(\(\alpha + \sum y, \beta + n\)) |
| Exponential(\(\theta\)) | Gamma(\(\alpha, \beta\)) | Gamma(\(\alpha + n, \beta + \sum y\)) |
공통 패턴 — 사후의 하이퍼파라미터 = 사전 하이퍼파라미터 + (관측 통계량). 이것이 지수족 켤레의 본질 — GLM 이론 기초 와 정확히 같은 구조.
8 § 2.7 암 발생률의 정보적 사전 예제
Gelman 은 “현실에서 사전을 어떻게 세우나” 를 암 발생률 예제로 시연.
맥락 — 미국 각 카운티의 신장암 발생률 데이터. 작은 카운티 (인구 1,000 명) 의 경험적 비율이 극단값 (0 또는 매우 큰 비율) 이 되기 쉽다.
해결 — 전체 카운티의 평균 발생률과 분산을 이용해 Gamma 사전 설정. 각 카운티 사후는 작은 카운티 = 전체 평균으로 강하게 shrunk, 큰 카운티 = 자체 비율에 가까움.
이것이 Ch.5 계층 모형의 empirical Bayes 예고 — 사전 하이퍼파라미터를 데이터에서 추정 해 사용하는 전략.
작은 카운티의 \(\hat{\theta} = y/n\) 은 표본이 작아 극도로 불안정 — 운 좋게 암 환자가 한 명 더 생기면 비율이 두 배 이상. 사전 Gamma(\(\alpha, \beta\)) 는 \(\alpha\) 회 사전 관측과 \(\beta\) 시간의 사전 관측 경험 을 더해 안정화. 전체 평균이 “이웃 카운티의 지혜” 역할을 한다.
이 아이디어가 Part V Ch.22 의 혼합 모형, Ch.18 결측 데이터 다중 대체의 철학적 뿌리.
9 § 2.8 비정보적 사전
9.1 동기
“사전이 사후에 최소 역할만 하도록” 의도한 사전 — vague, flat, diffuse, noninformative. 목표 — “데이터가 스스로 말하게”.
9.2 정규 평균의 비정보적 사전
정규 모델 \(y \sim N(\theta, \sigma^2)\) 에 대해 \(\tau_0^2 \to \infty\) 극한.
\[ p(\theta) \propto 1, \quad \theta \in (-\infty, \infty) \]
improper (적분 무한). 하지만 사후는 proper.
\[ p(\theta \mid y) = N(\bar{y}, \sigma^2 / n) \]
9.3 Jeffreys 의 불변 원리
문제 — 한 매개변수화에서 균등한 사전이 다른 매개변수화에서는 균등하지 않다. 어느 매개변수화가 “진짜” 비정보적인가?
Jeffreys 규칙 — 사전은 매개변수화에 불변 해야 한다.
\[ p(\theta) \propto [J(\theta)]^{1/2} \]
\(J(\theta)\) 는 Fisher 정보량.
\[ J(\theta) = E\left[\left(\frac{d \log p(y \mid \theta)}{d \theta}\right)^2 \mid \theta\right] \]
9.4 이항에서의 Jeffreys 사전
이항 모델의 Fisher 정보 \(J(\theta) = n / [\theta(1 - \theta)]\).
\[ p(\theta) \propto \theta^{-1/2}(1 - \theta)^{-1/2} = \text{Beta}(1/2, 1/2) \]
이는 Beta-Laplace 의 Beta(1, 1) 도 아니고, logit 공간에서 균등한 Beta(0, 0) 도 아닌 Beta(1/2, 1/2). 세 선택 중 Jeffreys 가 불변 원리를 만족.
9.5 위치 · 스케일 모수
Fisher 정보 계산이 복잡할 때도 위치 모수 과 스케일 모수 에는 합의된 비정보적 사전이 있다.
위치 모수 (\(p(y - \theta \mid \theta) = f(y - \theta)\)) — \(p(\theta) \propto \text{constant}\)
스케일 모수 (\(p(y/\theta \mid \theta) = g(y/\theta)/\theta\)) — \(p(\theta) \propto 1/\theta\), 즉 \(p(\log \theta) \propto \text{constant}\)
9.6 비정보적 사전의 난점
교재는 세 가지 어려움 을 명시.
진짜 비정보적 사전은 대체로 무용 — 가능도가 지배적이면 사전 선택이 중요하지 않고, 가능도가 약하면 어떤 “비정보적” 선택도 결과에 영향. 둘 다에서 특정 규약을 “표준” 으로 고정하는 것은 해롭다
매개변수화 의존성 — Laplace 의 “불충분 이유” 의 본질적 문제. \(\sigma^2\) 의 비정보적 사전과 \(\log \sigma^2\) 의 비정보적 사전이 다르다
모델 평균화에서의 improper 사전 — Bayes 팩터 등 모델 비교에서 improper 사전이 심각한 문제를 일으킨다 (Ch.7.3)
10 § 2.9 약정보적 사전 — 현대 베이즈의 실용적 중도
10.1 정의
“우리는 사전분포가 proper 하지만 실제 가용한 사전 지식보다 의도적으로 약한 정보를 제공하도록 설정되어 있을 때 약정보적 (weakly informative) 이라고 부른다.” (교재)
10.2 동기
- 비정보적 사전의 어려움 (improper · 매개변수화 의존성) 을 피함
- 완전 정보적 사전의 “사전 지식을 정확히 양적화” 의 부담을 피함
- 사후를 “합리적 범위로 정규화 (regularize)” 하되 과하게 좁히지 않음
10.3 실무 예
로지스틱 회귀 계수 에 대한 Cauchy(0, 2.5) 사전 (Gelman, 2008). Cauchy 는 꼬리가 두꺼워 실제 값이 크면 허용, 그러나 완전 분리 (complete separation) 시 계수가 무한대로 발산하는 것을 막는다.
분산 모수 에 대한 half-Cauchy(0, 5) 사전. 0 근처에서 무한 밀도를 갖지 않아 “분산이 0 이다” 라는 극단을 허용하지 않고, 꼬리가 두꺼워 큰 분산도 허용.
완전 정보적 사전은 “정확한 값의 지도” 를 요구한다. 비정보적 사전은 “아무 지식도 주지 않는다” 를 선언한다. 약정보적 사전은 “상식의 울타리” — 내부에서는 데이터가 자유롭게 움직이지만 물리적/논리적으로 말이 안 되는 영역은 차단.
이것이 Stan · PyMC 같은 현대 베이즈 도구의 기본 권장 이 된 이유. Part IV Ch.16 의 MRP 도 약정보적 사전을 기반으로 한다.
11 Ch.2 가 Part I 에서 차지하는 위치
| 개념 | Ch.2 의 도입 | 이후 장의 확장 |
|---|---|---|
| 켤레 사전 | 이항-Beta, 정규-정규 | Ch.3 다모수 nuisance 주변화 |
| 반복 분산 | 사후 분산 = 사전 분산 - 사후 평균의 분산 | Ch.5 계층 shrinkage |
| 정밀도 가산 | 정규 모델에서 | Ch.14 Ridge, Ch.15 계층 회귀 |
| 충분통계량 | \(\bar{y}\) | Ch.3, Ch.4 (점근) |
| 사후 요약 | 평균·구간·HPD | 모든 장 |
| 비정보적 사전 | Jeffreys | Ch.8 MAR 과 결합 |
| 약정보적 사전 | Cauchy 로지스틱 | Ch.16 GLM, Ch.17 robust |
Ch.2 를 단단히 다지면 Ch.3 이후의 복잡한 모델이 “같은 문법의 변주” 로 보인다.
12 빈도주의 대응
| 질문 | 빈도주의 | 베이즈 (Ch.2) |
|---|---|---|
| 이항 \(\theta\) 추정 | \(\hat{\theta} = y/n\) | Beta(\(\alpha + y, \beta + n - y\)) 사후 |
| 정규 평균 추정 | \(\hat{\mu} = \bar{y}\) | \(N(\mu_n, \tau_n^2)\) 사후 |
| 95% 구간 | 신뢰 구간 \(\bar{y} \pm 1.96 \sigma/\sqrt{n}\) | 사후 2.5/97.5 분위수 |
| 작은 표본 보정 | Agresti-Coull, Wilson | Beta 사전의 \(\alpha, \beta\) |
| 정규화 | Ridge · LASSO | 정보적 사전 |
빈도주의의 작은 표본 보정 = 베이즈의 약한 사전 — 두 관점이 실질적으로 같은 계산을 하는 경우가 많다. 차이는 해석 — “보정” 이냐 “사전” 이냐.
13 코드 예제 — Beta-Binomial 사후 요약
13.1 Step 1: 순수 Python — Beta(α, β) 사후의 사후 평균·중앙값·95% 구간
import math
import random
random.seed(42)
def beta_mean(alpha, beta):
return alpha / (alpha + beta)
def beta_mode(alpha, beta):
if alpha > 1 and beta > 1:
return (alpha - 1) / (alpha + beta - 2)
return None
# 세 가지 사전
priors = [
("Beta(1,1) = Uniform (Laplace)", 1, 1),
("Beta(1/2, 1/2) = Jeffreys", 0.5, 0.5),
("Beta(2, 2) = Weak informative", 2, 2),
]
# 데이터 — 10 번 중 7 성공
y, n = 7, 10
print(f"{'Prior':<35} {'Posterior α':<15} {'Posterior β':<15} {'Mean':<10} {'Mode':<10}")
for name, a, b in priors:
a_post = a + y
b_post = b + n - y
print(f"{name:<35} {a_post:<15} {b_post:<15} {beta_mean(a_post, b_post):.4f} {beta_mode(a_post, b_post):.4f}")예상 출력.
Beta(1,1) = Uniform (Laplace) 8 4 0.6667 0.7000
Beta(1/2, 1/2) = Jeffreys 7.5 3.5 0.6818 0.7222
Beta(2, 2) = Weak informative 9 5 0.6429 0.6667
해석 — 세 사전 모두 사후 평균이 0.64~0.68 로 비슷하다. 사전 선택의 영향은 작지만 완전히 0 은 아니다 — 표본 \(n = 10\) 이 작기 때문. \(n = 100\) 이면 세 사전의 사후가 거의 일치한다.
13.2 Step 2: scipy - 시뮬레이션 기반 95% 구간과 HPD 비교
import numpy as np
from scipy import stats
np.random.seed(42)
y, n = 7, 10
alpha, beta = 2, 2 # 약정보적 Beta(2, 2) 사전
alpha_post, beta_post = alpha + y, beta + n - y
# 사후에서 샘플
S = 10000
theta_samples = stats.beta.rvs(alpha_post, beta_post, size=S)
# 중앙 95% 구간
central_lo, central_hi = np.percentile(theta_samples, [2.5, 97.5])
# HPD — 간단한 소트 기반 근사
sorted_samples = np.sort(theta_samples)
n_ci = int(0.95 * S)
widths = sorted_samples[n_ci:] - sorted_samples[:S - n_ci]
min_idx = np.argmin(widths)
hpd_lo, hpd_hi = sorted_samples[min_idx], sorted_samples[min_idx + n_ci]
print(f"Posterior mean: {theta_samples.mean():.4f}")
print(f"Posterior median: {np.median(theta_samples):.4f}")
print(f"중앙 95% 구간: [{central_lo:.4f}, {central_hi:.4f}] (폭 {central_hi - central_lo:.4f})")
print(f"HPD 95% 구간: [{hpd_lo:.4f}, {hpd_hi:.4f}] (폭 {hpd_hi - hpd_lo:.4f})")Beta 사후가 대체로 단봉·거의 대칭이므로 중앙 구간과 HPD 구간이 거의 일치 — § 2.3 의 관찰 확인.
14 관련 주제
Part I 전체 맥락
- Part I 개관 — Ch.1~5 개관
- Ch.1 Probability and Inference 개요
- Ch.3 Multiparameter Models (작성 예정)
- Ch.4 Asymptotics (작성 예정)
- Ch.5 Hierarchical Models (작성 예정)
Part II~V
빈도주의 대응
- Casella & Berger 분포 가족 — 이항·정규·Poisson·지수의 빈도주의
- GLM 이론 기초 — 지수족의 구조
- MLE · 점 추정 — 빈도주의 점 추정
- 베이즈 구간 — 신용 구간의 C&B 관점
- 베이즈 검정 — 사후 확률 기반 검정
Ch.1 심화 (선행)
15 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2.
- Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society, 53, 370–418.
- Jeffreys, H. (1961). Theory of Probability (3rd ed.). Oxford University Press.
- Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models. Annals of Applied Statistics, 2(4), 1360–1383.
- Kass, R. E., & Wasserman, L. (1996). The selection of prior distributions by formal rules. Journal of the American Statistical Association, 91(435), 1343–1370.