Kwangmin Kim - Ch.2 Single-Parameter Models — 베이즈 추론의 기초 문법이 실제로 작동하는 현장

1 Ch.2 의 위치 — “언어” 에서 “문법 연습” 으로

Ch.1 이 베이즈 데이터 분석의 언어와 3단계 순환 을 확립했다면, Ch.2 는 그 언어를 네 가지 표준 분포 (이항·정규·Poisson·지수) 에서 구체적으로 돌려보는 장이다. Gelman 은 단일 모수 모델을 통해 베이즈 추론의 핵심 개념·계산·해석 을 압축 소개한다.

Ch.2 의 한 줄 요약

“모수가 하나뿐인 모델에서 사후분포를 손으로 유도하고 해석하는 훈련을 통해 베이즈 추론의 문법을 체득한다. 켤레 사전·사후 절충·정밀도 가산·요약 통계·정보적/비정보적/약정보적 사전의 세 단계가 모두 이 장에 압축되어 있다.”

이 장의 모든 공식은 Part IV 회귀와 Part V 비모수까지 같은 구조로 확장 된다 (Gelman et al., 2013, Ch.2).

Ch.2 의 구성.

절	핵심	역할
§ 2.1	이항 모델 · Beta 켤레 · 여아 출생	첫 켤레 사전 — Beta(1, 1) 균등부터
§ 2.2	사후는 사전과 데이터의 절충	반복 분산 공식 이 여기서 진가 발휘
§ 2.3	중앙 구간·HPD·모드/평균/중앙값	사후 분포의 요약 도구 상자
§ 2.4	정보적 사전 · 하이퍼파라미터	두 해석 — 모집단 vs 신념 상태
§ 2.5	정규 (알려진 분산) · 정밀도 가산	정규-정규 켤레의 핵심 기하
§ 2.6	Poisson · 지수 · 다른 모델	지수족 가족의 같은 구조 확인
§ 2.7	암 발생률 정보 사전 예제	실무에서 사전 어떻게 세우나
§ 2.8	비정보적 사전 · Jeffreys · pivot	불변 원리 와 한계
§ 2.9	약정보적 사전	현대 베이즈의 실용적 중도

각 절을 모델 · 수식 · 직관 · 실무 지침 순서로 정리한다.

2 § 2.1 이항 모델과 Beta 켤레

2.1 모델

베르누이 시행 $n$ 개, $y$ 개 성공. 교환가능성 가정 아래 성공 확률 $\theta$.

\[ p(y \mid \theta) = \binom{n}{y} \theta^y (1 - \theta)^{n - y} \tag{2.1} \]

2.2 균등 사전과 Beta 사후

가장 단순한 사전 — $\theta \sim \text{Uniform}(0, 1)$. 베이즈 규칙.

\[ p(\theta \mid y) \propto \theta^y (1 - \theta)^{n - y} \tag{2.2} \]

이 형태는 Beta 분포.

\[ \theta \mid y \sim \text{Beta}(y + 1, n - y + 1) \tag{2.3} \]

2.3 여아 출생 비율 예제

역사적 관심 — 유럽 인구의 여아 출생 비율. 현재 통용 값 0.485. 표본 $n$ 명 중 여아 $y$ 명이면 사후 Beta($y + 1, n - y + 1$). $n$ 이 커질수록 사후가 $\theta \approx y/n$ 주변에 집중.

직관 — Bayes 와 Laplace 의 Beta(1, 1) 정당화

Bayes 의 당구대 논증 (1763) — 균등 사전은 “공을 먼저 던지고 (사전), 이후 $n$ 개 공을 던져 왼쪽에 떨어진 수를 세는” 물리 실험의 확률 구조와 일치. Laplace 의 “불충분 이유 원리” — “아무것도 모를 때 균등이 합리적” 은 § 2.8 에서 비판적 재검토 대상이 된다. 하지만 Beta(1, 1) = 균등이라는 사실이 “사전 = 데이터 없는 관측 0개” 라는 아이디어를 단번에 이해하게 한다.

2.4 하이퍼파라미터와 일반 Beta 사전

가능도 $\theta^y (1 - \theta)^{n-y}$ 와 같은 함수 형태의 사전.

\[ p(\theta) \propto \theta^{\alpha - 1} (1 - \theta)^{\beta - 1} = \text{Beta}(\theta \mid \alpha, \beta) \]

사후.

\[ \theta \mid y \sim \text{Beta}(\alpha + y, \beta + n - y) \]

하이퍼파라미터 $(\alpha, \beta)$ 의 의미 — “관측 전의 성공 수 $\alpha - 1$, 실패 수 $\beta - 1$”. 예 — Beta(5, 3) 는 “관측 전 성공 4, 실패 2” 를 관측한 효과.

실무 지침 — 사전 평균을 $\mu = \alpha / (\alpha + \beta)$, 사전 “유효 표본 크기” 를 $\alpha + \beta$ 로 잡아 도메인 지식을 투입.

3 § 2.2 사후는 사전과 데이터의 절충

3.1 반복 분산 공식의 재등장

Ch.1.8 의 식 (1.8)·(1.9) 를 $(u, v) = (\theta, y)$ 로 대입.

\[ E(\theta) = E(E(\theta \mid y)) \tag{2.7} \]

\[ \text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y)) \tag{2.8} \]

3.2 의미

사전 분산 = 사후 분산의 평균 + 사후 평균의 분산.

왼쪽 항은 $\theta$ 의 사전 불확실성
첫 오른쪽 항은 “관측 후 평균적으로 남는 불확실성”
두 번째 항은 “가능한 데이터에 대한 사후 평균 이동 폭”

이 분해가 “데이터의 정보량” 을 정량화한다. 두 번째 항 (가능한 데이터에 따른 사후 평균 이동) 이 클수록 데이터가 정보적.

3.3 이항 예제에서의 절충

균등 사전 Beta(1, 1) 은 평균 1/2, 분산 1/12. 사후 Beta($y+1, n-y+1$) 의 평균.

\[ E(\theta \mid y) = \frac{y + 1}{n + 2} \]

이것은 표본 비율 $y/n$ 과 사전 평균 $1/2$ 의 가중 평균.

\[ \frac{y + 1}{n + 2} = \frac{n}{n + 2} \cdot \frac{y}{n} + \frac{2}{n + 2} \cdot \frac{1}{2} \]

$n$ 이 커질수록 데이터 $y/n$ 쪽에 가중치. $n = 0$ 이면 사전 $1/2$. 일반적 성질 — 사후 평균은 항상 사전과 데이터의 타협점이고, 표본이 클수록 데이터가 지배.

직관 — “사후 분산이 사전 분산보다 작다” 는 일반 법칙

식 (2.8) 의 두 항이 모두 비음이므로 $\text{var}(\theta) \geq E(\text{var}(\theta \mid y))$. 즉 평균적으로 사후 분산은 사전 분산보다 작다. 관측이 불확실성을 줄이는 것은 특수한 성질이 아니라 확률의 구조적 귀결.

특수 상황에서 사후 분산이 사전과 비슷하거나 크게 나오면? — 모델과 사전 간 충돌 (conflict) 의 신호. Part II Ch.6 의 사후 예측 점검이 이런 충돌을 체계적으로 찾아낸다.

4 § 2.3 사후 추론 요약

4.1 전체 사후분포가 우선

사후 분포 $p(\theta \mid y)$ 가 $\theta$ 에 관한 모든 정보 를 담고 있다. 이상적으로는 분포 전체를 보고 — 밀도 그림·히스토그램 — 모든 질문에 답한다.

4.2 중심·산포 요약

위치	의미
평균 $E(\theta \mid y)$	사후 기댓값 — 제곱 손실 최적
중앙값	절대값 손실 최적, 비대칭 분포에서 견고
최빈값 (mode)	“가장 가능성 높은 단일 값”, 계산 용이

산포	의미
표준편차	정규 근사에서 표준 척도
사분위수 범위 (IQR)	꼬리가 두꺼운 분포에 견고
분위수	모양 정보를 넘어 직접 해석

4.3 Beta 사후의 닫힌 형태

Beta($y+1, n-y+1$) 에서 (Appendix A 의 표준 결과).

\[ E(\theta \mid y) = \frac{y + 1}{n + 2}, \quad \text{mode}(\theta \mid y) = \frac{y}{n} \]

사후 최빈값 = MLE = 표본 비율 — Bayes 와 빈도주의가 균등 사전에서 점 추정 수준에서 일치.

4.4 사후 구간 — 중앙 구간 vs HPD

두 주류 선택.

1. 중앙 사후 구간 (central posterior interval) — $100(1 - \alpha)\%$ 구간 $[a, b]$ 에서 $\Pr(\theta < a) = \alpha/2$, $\Pr(\theta > b) = \alpha/2$. 분위수 기반.

2. 최고 사후 밀도 영역 (HPD, highest posterior density region) — $100(1 - \alpha)\%$ 확률을 포함하되 영역 내 밀도가 외부보다 항상 높은 영역.

단봉 · 대칭 분포에서는 둘이 일치. 다봉 분포 에서는 다르다 — HPD 가 두 개 분리된 구간이 될 수 있고, 중앙 구간은 분포 가운데 확률 0 영역까지 포함할 수 있다.

직관 — 왜 중앙 구간이 실무 표준인가

직접 해석 — “2.5 분위수와 97.5 분위수” 로 명확
시뮬레이션 친화적 — $S$ 개 표본의 $0.025 S$, $0.975 S$ 순서 통계량으로 즉시 계산
단조 변환 불변 — $\theta \to \log \theta$ 등 단조 변환에서 구간이 일관

HPD 는 다봉/비대칭에서 정보가 많지만 시뮬레이션 계산이 복잡 하고 변환에 불변하지 않다. Gelman 은 중앙 구간을 기본 추천하되, 다봉에서는 “구간 하나로 요약하지 말고 분포 자체를 보라” 고 한다.

5 § 2.4 정보적 사전분포

5.1 두 해석

1. 모집단 해석 (population interpretation)

사전 = 가능한 모수 값들의 모집단. 현재 $\theta$ 가 그 모집단에서 뽑힌 것으로 간주.

예 — 여러 공장의 불량률을 추정할 때 각 공장의 $\theta_j$ 는 공장 모집단에서의 추출로 해석.

2. 신념 상태 해석 (state-of-knowledge interpretation)

사전 = 현재 알고 있는 지식과 불확실성을 표현. “만약 $\theta$ 가 이 사전분포에서 무작위로 뽑힌 것이라고 여길 수 있다면” 이라는 판단.

예 — 새 산업 공정의 불량률 — 실제 “모집단” 은 없지만 도메인 지식으로 합리적 범위 설정.

직관 — “완벽한 사전” 은 필요 없다

“일반적으로 사전분포는 $\theta$ 의 모든 그럴듯한 값을 포함해야 하지만, 실제 값 주변에 현실적으로 집중될 필요는 없다. 대개 데이터가 담은 $\theta$ 정보가 어떤 합리적 사전 확률 명세보다 훨씬 크기 때문이다.” (교재)

즉 사전은 “정확히” 맞을 필요가 없고, “가능한 영역을 빠뜨리지 않는” 것이 훨씬 중요. 작은 표본에서 사전이 결과를 흔들지만, 표본이 커지면 어떤 합리적 사전이든 거의 같은 사후로 수렴 — Ch.1 의 순차 갱신이 이를 예고.

5.2 Beta 사전의 가상 관측 해석

Beta($\alpha, \beta$) 의 하이퍼파라미터는 가상의 사전 관측.

$\alpha - 1$ 회 사전 성공
$\beta - 1$ 회 사전 실패
유효 표본 크기 $\alpha + \beta - 2$

Beta(3, 2) = “이미 2 회 성공 · 1 회 실패를 보았다는 지식” 과 등가. Beta(30, 20) = “이미 29 회 성공 · 19 회 실패를 보았다는 지식” → 훨씬 선명한 사전.

6 § 2.5 정규 분포 (알려진 분산)

6.1 단일 관측의 모델

\[ y \mid \theta \sim N(\theta, \sigma^2), \quad \sigma^2 \text{ 알려짐} \]

켤레 사전.

\[ \theta \sim N(\mu_0, \tau_0^2) \]

$(\mu_0, \tau_0^2)$ 는 하이퍼파라미터 — 사전 평균과 사전 분산.

6.2 사후 — 정규 $\times$ 정규 = 정규

지수가 $\theta$ 에 대한 이차식의 합이므로 사후도 정규.

\[ \theta \mid y \sim N(\mu_1, \tau_1^2) \tag{2.9} \]

\[ \mu_1 = \frac{\frac{1}{\tau_0^2} \mu_0 + \frac{1}{\sigma^2} y}{\frac{1}{\tau_0^2} + \frac{1}{\sigma^2}}, \quad \frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2} \tag{2.10} \]

6.3 정밀도 (precision) — 핵심 어휘

정밀도 = 분산의 역수. $\theta$ 의 분산을 직접 쓰기 보다 정밀도 로 표현하면 공식이 단순해진다.

\[ \text{사후 정밀도} = \text{사전 정밀도} + \text{데이터 정밀도} \]

직관 — “정밀도는 더한다” 가 왜 중요한가

정밀도는 “정보의 양” 이다. 두 독립 정보 출처의 정보량이 가산 된다는 것이 정규-정규 켤레의 수학적 본질. 이 가산 구조가 —

계층 모형의 shrinkage 크기 (Part I Ch.5)
칼만 필터의 업데이트 공식
Ridge 회귀의 정규화 강도 (Part IV Ch.14)

모두에서 같은 공식 으로 나타난다. 정밀도의 가산은 베이즈 추론의 보편적 기하.

6.4 사후 평균의 세 가지 얼굴

\[ \mu_1 = \frac{\tau_0^{-2} \mu_0 + \sigma^{-2} y}{\tau_0^{-2} + \sigma^{-2}} \quad \text{(정밀도 가중 평균)} \]

\[ \mu_1 = \mu_0 + (y - \mu_0) \cdot \frac{\tau_0^2}{\sigma^2 + \tau_0^2} \quad \text{(사전 평균을 $y$ 쪽으로 당김)} \]

\[ \mu_1 = y - (y - \mu_0) \cdot \frac{\sigma^2}{\sigma^2 + \tau_0^2} \quad \text{(데이터를 사전 평균으로 shrinkage)} \]

세 표현이 동치지만 각각 다른 직관을 준다. 세 번째 표현이 Ch.5 shrinkage 의 원형.

6.5 극단 사례

$\tau_0^2 = 0$: 사전이 무한 정밀 → 사후 = 사전 ($\mu_1 = \mu_0$)
$\sigma^2 = 0$: 데이터가 무한 정밀 → 사후 = 데이터 ($\mu_1 = y$)
$y = \mu_0$: 사전과 데이터가 일치 → 사후 = 공통값

6.6 사후 예측 분포

반복 기댓값·분산 공식으로.

\[ E(\tilde{y} \mid y) = \mu_1, \quad \text{var}(\tilde{y} \mid y) = \sigma^2 + \tau_1^2 \]

사후 예측 분산 = 표본 변동 $\sigma^2$ + 모수 불확실성 $\tau_1^2$. Part I Ch.3 사후 예측 공식의 전형.

6.7 다중 관측

iid 관측 $y_1, \ldots, y_n$ 에서 사후는 표본 평균 $\bar{y}$ 만 통해 데이터에 의존 — $\bar{y}$ 가 충분통계량.

\[ \mu_n = \frac{\tau_0^{-2} \mu_0 + n \sigma^{-2} \bar{y}}{\tau_0^{-2} + n \sigma^{-2}}, \quad \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \tag{2.12} \]

표본 크기 $n$ 이 데이터 정밀도에 곱해진다. $n$ 이 커지면 사전 정밀도가 상대적으로 사소해지며 사후는 $N(\bar{y}, \sigma^2/n)$ 에 근접 — 베이즈가 빈도주의와 합류 하는 Part I Ch.4 의 원형.

7 § 2.6 다른 표준 단일 모수 모델

7.1 Poisson 모델

\[ y \mid \theta \sim \text{Poisson}(\theta), \quad y = 0, 1, 2, \ldots \]

켤레 사전은 감마 분포.

\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y \sim \text{Gamma}(\alpha + y, \beta + 1) \]

$n$ 개 iid 관측 에서.

\[ \theta \mid y_1, \ldots, y_n \sim \text{Gamma}\left(\alpha + \sum y_i, \beta + n\right) \]

사후 평균.

\[ E(\theta \mid y) = \frac{\alpha + \sum y_i}{\beta + n} \]

사전 평균 $\alpha/\beta$ 와 표본 평균 $\bar{y}$ 의 가중 평균. Poisson 회귀·계수 데이터의 기본 구조.

7.2 지수 모델

\[ y \mid \theta \sim \text{Exponential}(\theta) \quad \text{(} \theta = \text{속도}\text{)} \]

역시 감마 켤레.

\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y_1, \ldots, y_n \sim \text{Gamma}\left(\alpha + n, \beta + \sum y_i\right) \]

대기 시간 · 생존 데이터 · 부품 수명 모델의 출발점. Part V 의 약동학 (Ch.19) 도 여기서 출발.

7.3 지수족의 통일 구조

네 모델 (이항·정규·Poisson·지수) 모두 지수족 이며 각각 켤레 사전을 갖는다.

가능도	켤레 사전	사후 구조
Binomial($n, \theta$)	Beta($\alpha, \beta$)	Beta($\alpha + y, \beta + n - y$)
Normal($\theta, \sigma^2$)	Normal($\mu_0, \tau_0^2$)	Normal — 정밀도 가산
Poisson($\theta$)	Gamma($\alpha, \beta$)	Gamma($\alpha + \sum y, \beta + n$)
Exponential($\theta$)	Gamma($\alpha, \beta$)	Gamma($\alpha + n, \beta + \sum y$)

공통 패턴 — 사후의 하이퍼파라미터 = 사전 하이퍼파라미터 + (관측 통계량). 이것이 지수족 켤레의 본질 — GLM 이론 기초 와 정확히 같은 구조.

8 § 2.7 암 발생률의 정보적 사전 예제

Gelman 은 “현실에서 사전을 어떻게 세우나” 를 암 발생률 예제로 시연.

맥락 — 미국 각 카운티의 신장암 발생률 데이터. 작은 카운티 (인구 1,000 명) 의 경험적 비율이 극단값 (0 또는 매우 큰 비율) 이 되기 쉽다.

해결 — 전체 카운티의 평균 발생률과 분산을 이용해 Gamma 사전 설정. 각 카운티 사후는 작은 카운티 = 전체 평균으로 강하게 shrunk, 큰 카운티 = 자체 비율에 가까움.

이것이 Ch.5 계층 모형의 empirical Bayes 예고 — 사전 하이퍼파라미터를 데이터에서 추정 해 사용하는 전략.

직관 — 작은 표본은 사전이 살려준다

작은 카운티의 $\hat{\theta} = y/n$ 은 표본이 작아 극도로 불안정 — 운 좋게 암 환자가 한 명 더 생기면 비율이 두 배 이상. 사전 Gamma($\alpha, \beta$) 는 $\alpha$ 회 사전 관측과 $\beta$ 시간의 사전 관측 경험 을 더해 안정화. 전체 평균이 “이웃 카운티의 지혜” 역할을 한다.

이 아이디어가 Part V Ch.22 의 혼합 모형, Ch.18 결측 데이터 다중 대체의 철학적 뿌리.

9 § 2.8 비정보적 사전

9.1 동기

“사전이 사후에 최소 역할만 하도록” 의도한 사전 — vague, flat, diffuse, noninformative. 목표 — “데이터가 스스로 말하게”.

9.2 정규 평균의 비정보적 사전

정규 모델 $y \sim N(\theta, \sigma^2)$ 에 대해 $\tau_0^2 \to \infty$ 극한.

\[ p(\theta) \propto 1, \quad \theta \in (-\infty, \infty) \]

improper (적분 무한). 하지만 사후는 proper.

\[ p(\theta \mid y) = N(\bar{y}, \sigma^2 / n) \]

9.3 Jeffreys 의 불변 원리

문제 — 한 매개변수화에서 균등한 사전이 다른 매개변수화에서는 균등하지 않다. 어느 매개변수화가 “진짜” 비정보적인가?

Jeffreys 규칙 — 사전은 매개변수화에 불변 해야 한다.

\[ p(\theta) \propto [J(\theta)]^{1/2} \]

$J(\theta)$ 는 Fisher 정보량.

\[ J(\theta) = E\left[\left(\frac{d \log p(y \mid \theta)}{d \theta}\right)^2 \mid \theta\right] \]

9.4 이항에서의 Jeffreys 사전

이항 모델의 Fisher 정보 $J(\theta) = n / [\theta(1 - \theta)]$.

\[ p(\theta) \propto \theta^{-1/2}(1 - \theta)^{-1/2} = \text{Beta}(1/2, 1/2) \]

이는 Beta-Laplace 의 Beta(1, 1) 도 아니고, logit 공간에서 균등한 Beta(0, 0) 도 아닌 Beta(1/2, 1/2). 세 선택 중 Jeffreys 가 불변 원리를 만족.

9.5 위치 · 스케일 모수

Fisher 정보 계산이 복잡할 때도 위치 모수 과 스케일 모수 에는 합의된 비정보적 사전이 있다.

위치 모수 ($p(y - \theta \mid \theta) = f(y - \theta)$) — $p(\theta) \propto \text{constant}$

스케일 모수 ($p(y/\theta \mid \theta) = g(y/\theta)/\theta$) — $p(\theta) \propto 1/\theta$, 즉 $p(\log \theta) \propto \text{constant}$

9.6 비정보적 사전의 난점

교재는 세 가지 어려움 을 명시.

진짜 비정보적 사전은 대체로 무용 — 가능도가 지배적이면 사전 선택이 중요하지 않고, 가능도가 약하면 어떤 “비정보적” 선택도 결과에 영향. 둘 다에서 특정 규약을 “표준” 으로 고정하는 것은 해롭다
매개변수화 의존성 — Laplace 의 “불충분 이유” 의 본질적 문제. $\sigma^2$ 의 비정보적 사전과 $\log \sigma^2$ 의 비정보적 사전이 다르다
모델 평균화에서의 improper 사전 — Bayes 팩터 등 모델 비교에서 improper 사전이 심각한 문제를 일으킨다 (Ch.7.3)

10 § 2.9 약정보적 사전 — 현대 베이즈의 실용적 중도

10.1 정의

“우리는 사전분포가 proper 하지만 실제 가용한 사전 지식보다 의도적으로 약한 정보를 제공하도록 설정되어 있을 때 약정보적 (weakly informative) 이라고 부른다.” (교재)

10.2 동기

비정보적 사전의 어려움 (improper · 매개변수화 의존성) 을 피함
완전 정보적 사전의 “사전 지식을 정확히 양적화” 의 부담을 피함
사후를 “합리적 범위로 정규화 (regularize)” 하되 과하게 좁히지 않음

10.3 실무 예

로지스틱 회귀 계수 에 대한 Cauchy(0, 2.5) 사전 (Gelman, 2008). Cauchy 는 꼬리가 두꺼워 실제 값이 크면 허용, 그러나 완전 분리 (complete separation) 시 계수가 무한대로 발산하는 것을 막는다.

분산 모수 에 대한 half-Cauchy(0, 5) 사전. 0 근처에서 무한 밀도를 갖지 않아 “분산이 0 이다” 라는 극단을 허용하지 않고, 꼬리가 두꺼워 큰 분산도 허용.

직관 — 약정보적 사전은 “상식의 울타리”

완전 정보적 사전은 “정확한 값의 지도” 를 요구한다. 비정보적 사전은 “아무 지식도 주지 않는다” 를 선언한다. 약정보적 사전은 “상식의 울타리” — 내부에서는 데이터가 자유롭게 움직이지만 물리적/논리적으로 말이 안 되는 영역은 차단.

이것이 Stan · PyMC 같은 현대 베이즈 도구의 기본 권장 이 된 이유. Part IV Ch.16 의 MRP 도 약정보적 사전을 기반으로 한다.

11 Ch.2 가 Part I 에서 차지하는 위치

개념	Ch.2 의 도입	이후 장의 확장
켤레 사전	이항-Beta, 정규-정규	Ch.3 다모수 nuisance 주변화
반복 분산	사후 분산 = 사전 분산 - 사후 평균의 분산	Ch.5 계층 shrinkage
정밀도 가산	정규 모델에서	Ch.14 Ridge, Ch.15 계층 회귀
충분통계량	$\bar{y}$	Ch.3, Ch.4 (점근)
사후 요약	평균·구간·HPD	모든 장
비정보적 사전	Jeffreys	Ch.8 MAR 과 결합
약정보적 사전	Cauchy 로지스틱	Ch.16 GLM, Ch.17 robust

Ch.2 를 단단히 다지면 Ch.3 이후의 복잡한 모델이 “같은 문법의 변주” 로 보인다.

12 빈도주의 대응

질문	빈도주의	베이즈 (Ch.2)
이항 $\theta$ 추정	$\hat{\theta} = y/n$	Beta($\alpha + y, \beta + n - y$) 사후
정규 평균 추정	$\hat{\mu} = \bar{y}$	$N(\mu_n, \tau_n^2)$ 사후
95% 구간	신뢰 구간 $\bar{y} \pm 1.96 \sigma/\sqrt{n}$	사후 2.5/97.5 분위수
작은 표본 보정	Agresti-Coull, Wilson	Beta 사전의 $\alpha, \beta$
정규화	Ridge · LASSO	정보적 사전

빈도주의의 작은 표본 보정 = 베이즈의 약한 사전 — 두 관점이 실질적으로 같은 계산을 하는 경우가 많다. 차이는 해석 — “보정” 이냐 “사전” 이냐.

13 코드 예제 — Beta-Binomial 사후 요약

13.1 Step 1: 순수 Python — Beta(α, β) 사후의 사후 평균·중앙값·95% 구간

import math
import random

random.seed(42)

def beta_mean(alpha, beta):
    return alpha / (alpha + beta)

def beta_mode(alpha, beta):
    if alpha > 1 and beta > 1:
        return (alpha - 1) / (alpha + beta - 2)
    return None

# 세 가지 사전
priors = [
    ("Beta(1,1) = Uniform (Laplace)", 1, 1),
    ("Beta(1/2, 1/2) = Jeffreys",    0.5, 0.5),
    ("Beta(2, 2) = Weak informative", 2, 2),
]

# 데이터 — 10 번 중 7 성공
y, n = 7, 10

print(f"{'Prior':<35} {'Posterior α':<15} {'Posterior β':<15} {'Mean':<10} {'Mode':<10}")
for name, a, b in priors:
    a_post = a + y
    b_post = b + n - y
    print(f"{name:<35} {a_post:<15} {b_post:<15} {beta_mean(a_post, b_post):.4f}     {beta_mode(a_post, b_post):.4f}")

예상 출력.

Beta(1,1) = Uniform (Laplace)       8               4               0.6667     0.7000
Beta(1/2, 1/2) = Jeffreys           7.5             3.5             0.6818     0.7222
Beta(2, 2) = Weak informative       9               5               0.6429     0.6667

해석 — 세 사전 모두 사후 평균이 0.64~0.68 로 비슷하다. 사전 선택의 영향은 작지만 완전히 0 은 아니다 — 표본 $n = 10$ 이 작기 때문. $n = 100$ 이면 세 사전의 사후가 거의 일치한다.

13.2 Step 2: scipy - 시뮬레이션 기반 95% 구간과 HPD 비교

import numpy as np
from scipy import stats

np.random.seed(42)

y, n = 7, 10
alpha, beta = 2, 2  # 약정보적 Beta(2, 2) 사전
alpha_post, beta_post = alpha + y, beta + n - y

# 사후에서 샘플
S = 10000
theta_samples = stats.beta.rvs(alpha_post, beta_post, size=S)

# 중앙 95% 구간
central_lo, central_hi = np.percentile(theta_samples, [2.5, 97.5])

# HPD — 간단한 소트 기반 근사
sorted_samples = np.sort(theta_samples)
n_ci = int(0.95 * S)
widths = sorted_samples[n_ci:] - sorted_samples[:S - n_ci]
min_idx = np.argmin(widths)
hpd_lo, hpd_hi = sorted_samples[min_idx], sorted_samples[min_idx + n_ci]

print(f"Posterior mean:      {theta_samples.mean():.4f}")
print(f"Posterior median:    {np.median(theta_samples):.4f}")
print(f"중앙 95% 구간:       [{central_lo:.4f}, {central_hi:.4f}] (폭 {central_hi - central_lo:.4f})")
print(f"HPD 95% 구간:        [{hpd_lo:.4f}, {hpd_hi:.4f}] (폭 {hpd_hi - hpd_lo:.4f})")

Beta 사후가 대체로 단봉·거의 대칭이므로 중앙 구간과 HPD 구간이 거의 일치 — § 2.3 의 관찰 확인.

14 관련 주제

Part I 전체 맥락

Part I 개관 — Ch.1~5 개관
Ch.1 Probability and Inference 개요
Ch.3 Multiparameter Models (작성 예정)
Ch.4 Asymptotics (작성 예정)
Ch.5 Hierarchical Models (작성 예정)

Part II~V

Part II · Part III · Part IV · Part V

빈도주의 대응

Casella & Berger 분포 가족 — 이항·정규·Poisson·지수의 빈도주의
GLM 이론 기초 — 지수족의 구조
MLE · 점 추정 — 빈도주의 점 추정
베이즈 구간 — 신용 구간의 C&B 관점
베이즈 검정 — 사후 확률 기반 검정

Ch.1 심화 (선행)

15 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2.
Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society, 53, 370–418.
Jeffreys, H. (1961). Theory of Probability (3rd ed.). Oxford University Press.
Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models. Annals of Applied Statistics, 2(4), 1360–1383.
Kass, R. E., & Wasserman, L. (1996). The selection of prior distributions by formal rules. Journal of the American Statistical Association, 91(435), 1343–1370.

가능도	켤레 사전	사후 구조
Binomial(\(n, \theta\))	Beta(\(\alpha, \beta\))	Beta(\(\alpha + y, \beta + n - y\))
Normal(\(\theta, \sigma^2\))	Normal(\(\mu_0, \tau_0^2\))	Normal — 정밀도 가산
Poisson(\(\theta\))	Gamma(\(\alpha, \beta\))	Gamma(\(\alpha + \sum y, \beta + n\))
Exponential(\(\theta\))	Gamma(\(\alpha, \beta\))	Gamma(\(\alpha + n, \beta + \sum y\))