Kwangmin Kim - Part I: Fundamentals of Bayesian Inference — 베이즈 추론의 언어와 문법

1 왜 Part I 을 먼저 읽는가

빈도주의 교재 (예: Casella & Berger) 가 “확률 → 분포 → 추정 → 검정 → 회귀” 의 순서로 추론 도구 를 쌓는다면, Gelman 의 Bayesian Data Analysis 는 정반대 입구에서 출발한다. 데이터 분석의 목적은 추론 도구가 아니라 결정 지원 이라는 전제에서, 확률 모델 자체를 분석 대상의 언어로 세우고 그 위에서 모든 결론을 사후분포 하나로 끌어낸다. Part I 은 이 언어와 문법을 확립하는 다섯 장이다.

Part I 의 한 줄 요약

“불확실한 모든 양을 확률변수로 두고, 베이즈 규칙으로 관측 후의 분포를 계산해, 그 사후분포로부터 모든 질문에 답한다.”

추론 · 예측 · 결정이 분리된 세 장이 아니라 하나의 사후분포를 읽는 세 가지 방식 이 된다 (Gelman et al., 2013, Ch.1).

Part I 의 구성은 다음과 같다.

장	핵심	한 줄 역할
Ch.1	Probability and Inference	언어 — 베이즈 3 단계, 표기법, 교환가능성
Ch.2	Single-Parameter Models	문법 — 켤레 사전·사후 업데이트의 기본 사례
Ch.3	Multiparameter Models	확장 — nuisance 모수 주변화로 다차원 처리
Ch.4	Asymptotics & Non-Bayesian Connections	다리 — 표본이 커지면 빈도주의와 합류
Ch.5	Hierarchical Models	일반화 — 교환가능한 집단을 계층으로 묶고 shrinkage

각 장을 뒤에서 개념 → 핵심 수식 → 직관 → 대표 예제 순서로 압축 정리한다. 상세 전개는 후속 포스트에서 장별로 다룬다.

2 Ch.1 Probability and Inference — 베이즈 데이터 분석의 3 단계

2.1 핵심 프로세스

Gelman 은 베이즈 데이터 분석을 세 단계의 순환으로 정의한다.

완전 확률 모델 설정: 관측 가능한 \(y\) 와 관측 불가능한 \(\theta\) 의 결합 확률분포 \(p(\theta, y)\) 를 과학적 지식에 맞춰 쓴다
사후분포 계산: 관측한 \(y\) 로 조건화해 \(p(\theta \mid y)\) 를 구한다
모델 적합도 평가: 사후 예측 분포 \(p(\tilde y \mid y)\) 로 복제 데이터를 생성해 실제와 비교하고, 모델이 관심 질문에 부적절한 지점을 찾는다

세 단계가 순환 이라는 점이 중요하다. 3 단계에서 부적합이 드러나면 1 단계로 되돌아가 모델을 확장한다.

2.2 베이즈 규칙 — 기술적 핵심

모든 것은 한 줄에서 나온다.

\[ p(\theta \mid y) = \frac{p(\theta) \, p(y \mid \theta)}{p(y)} \propto p(\theta) \, p(y \mid \theta). \]

\(p(\theta)\) — 사전분포(prior). 데이터를 보기 전 \(\theta\) 에 대한 믿음
\(p(y \mid \theta)\) — 가능도(likelihood). 데이터가 \(\theta\) 에 대해 말하는 정보
\(p(y) = \int p(\theta) p(y \mid \theta)\, d\theta\) — 주변 가능도(marginal likelihood). 모든 \(\theta\) 에 대한 가중 평균. 정규화 상수로 대개 계산 생략
\(p(\theta \mid y)\) — 사후분포(posterior). 관측 후 \(\theta\) 에 대한 믿음

직관 — 왜 곱으로만 쓰면 충분한가. 분모 \(p(y)\) 는 \(\theta\) 에 무관한 상수라 \(\theta\) 에 대한 분포의 형태 를 결정하지 않는다. 그래서 \(p(\theta \mid y) \propto p(\theta) p(y \mid \theta)\) 만 계산해도 사후의 모양 을 알 수 있고, 마지막에 한 번 정규화하면 된다. 고차원에서 \(p(y)\) 적분이 어렵더라도, MCMC 같은 계산법은 이 비정규화된 형태만 있으면 표본을 뽑을 수 있다.

2.3 사전 예측 vs 사후 예측

“미래 관측값 \(\tilde y\)” 에 대한 예측 분포는 두 층으로 정의된다.

\[ \underbrace{p(\tilde y)}_{\text{사전 예측 (prior predictive)}} = \int p(\tilde y \mid \theta) \, p(\theta) \, d\theta, \qquad \underbrace{p(\tilde y \mid y)}_{\text{사후 예측 (posterior predictive)}} = \int p(\tilde y \mid \theta) \, p(\theta \mid y) \, d\theta. \]

전자는 아직 데이터를 안 본 상태의 예측, 후자는 관측 후의 예측이다. 사후 예측은 Ch.6 모델 점검의 핵심 도구 가 된다.

2.4 교환가능성 — 모델링의 출발선

관측 수열 \((y_1, \ldots, y_n)\) 의 결합 분포가 인덱스 순열에 불변 이면 교환가능(exchangeable) 이라 한다. 이 조건 하에서 de Finetti 표현정리에 의해 결합 분포가 어떤 잠재 모수 \(\theta\) 와 사전분포 \(p(\theta)\) 에 대한 iid 혼합으로 쓰인다.

\[ p(y_1, \ldots, y_n) = \int \prod_{i=1}^n p(y_i \mid \theta) \, p(\theta) \, d\theta. \]

직관. “관측치의 순서가 의미가 없다” 라는 약한 가정 하나가 iid + 사전분포 구조를 정당화한다. 즉 베이즈 모델의 표준 형태 (“iid 데이터 + 사전 \(p(\theta)\)”) 는 교환가능성이라는 서술적 가정의 수학적 귀결 이다. 이 사실이 베이즈 모델링의 기초 정당화가 된다.

2.5 실제 예제 (Ch.1)

혈우병 보인자 여부 (유전학), 맞춤법 검사, 미식축구 포인트 스프레드, 레코드 링키지 — 이산·연속·혼합 사례를 통해 베이즈 규칙의 기계적 적용을 보여준다. Ch.1 의 목적은 불확실성을 확률로 표현하는 것이 자연스럽다 는 감각을 심어주는 것.

3 Ch.2 Single-Parameter Models — 켤레 사전과 사후 업데이트의 문법

3.1 이항 모델 — 표본·파리 출생 데이터

\(y \mid \theta \sim \text{Bin}(n, \theta)\), 균등 사전 \(\theta \sim \text{U}(0, 1) = \text{Beta}(1, 1)\) 하에서

\[ p(\theta \mid y) \propto \theta^y (1-\theta)^{n-y} \cdot 1 = \text{Beta}(y + 1, \, n - y + 1). \]

직관 — 사전과 데이터의 타협. 균등 사전은 “가상 관측 1 성공 + 1 실패” 와 같다. 실제 관측 \(n\) 이 커질수록 이 가상 관측이 희석되어 사후는 데이터에 지배 된다. Laplace 가 파리 출생 통계로 “여아 비율이 \(0.5\) 미만이라는 사실을 도덕적 확신” 으로 선언한 계산이 이 사후분포의 꼬리 확률이었다.

3.2 켤레 사전 — Beta, Normal, Gamma

사후가 사전과 같은 분포족에 속하면 사전을 켤레(conjugate) 라 한다. Part I 에서 다루는 주요 켤레 쌍:

가능도	켤레 사전	사후	켤레 모수의 해석
\(\text{Bin}(n, \theta)\)	\(\text{Beta}(\alpha, \beta)\)	\(\text{Beta}(\alpha + y, \beta + n - y)\)	가상 성공 \(\alpha\) + 실패 \(\beta\)
\(N(\theta, \sigma^2)\) (known \(\sigma\))	\(N(\mu_0, \tau_0^2)\)	\(N(\mu_n, \tau_n^2)\)	가상 표본의 평균·분산
\(\text{Poisson}(\theta)\)	\(\text{Gamma}(\alpha, \beta)\)	\(\text{Gamma}(\alpha + \sum y_i, \beta + n)\)	가상 이벤트 \(\alpha\) 회 · 관측 시간 \(\beta\)
\(\text{Exp}(\theta)\)	\(\text{Gamma}(\alpha, \beta)\)	\(\text{Gamma}(\alpha + n, \beta + \sum y_i)\)	가상 고장 \(\alpha\) 회 · 총 시간 \(\beta\)

직관 — 켤레 사전이 왜 아름다운가. 사전 모수가 “가상 관측 횟수” 로 해석된다. 예: \(\text{Beta}(2, 2)\) 는 “이전에 성공 1 회 실패 1 회를 더 본 것 같은 믿음”. 이 해석 덕에 사전의 세기를 직관적으로 조정할 수 있다 — 데이터가 많으면 사전 영향이 줄고, 적으면 사전이 지배한다.

3.3 정규 평균의 사후 — 가중 평균

알려진 \(\sigma^2\) 하에서 \(\bar y \sim N(\theta, \sigma^2/n)\), 사전 \(\theta \sim N(\mu_0, \tau_0^2)\) 이면 사후 평균은 사전 평균과 표본 평균의 정밀도 가중 평균 이 된다.

\[ \mu_n = \frac{\frac{1}{\tau_0^2} \mu_0 + \frac{n}{\sigma^2} \bar y}{\frac{1}{\tau_0^2} + \frac{n}{\sigma^2}}, \qquad \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2}. \]

직관. 분산의 역수 (precision) 가 “정보량”. 사후 정보 = 사전 정보 + 데이터 정보. 두 출처의 정보량 가중 평균 이 사후 평균이다. \(n \to \infty\) 에서 사전 정보가 데이터에 비해 무시 가능해져 \(\mu_n \to \bar y\), 즉 MLE 로 수렴.

3.4 사전분포의 세 유형

유형	정의	대표 예	용도
정보적(informative)	이전 연구·전문가 의견 반영	\(\text{Beta}(8, 2)\) for 임상 성공률	사전 정보가 강할 때
비정보적(noninformative)	의도적으로 정보 최소화	Jeffreys \(\text{Beta}(1/2, 1/2)\)	순수 데이터 분석
약정보적(weakly informative)	범위만 제한, 세기 약함	\(\text{Cauchy}(0, 2.5)\) for 로짓 계수	실무 기본값 (Gelman 권장)

Gelman 의 실용 지침은 약정보적 사전이 기본 이라는 것. 비정보적 사전은 소표본·경계에서 부적절할 수 있고, 정보적 사전은 주관적 선택이 큰 영향을 미친다. 약정보적 사전은 불합리한 값을 배제하면서도 데이터 증거를 방해하지 않는다.

4 Ch.3 Introduction to Multiparameter Models — 주변화의 기술

4.1 왜 문제가 어려운가

실제 모델은 다모수다. 정규 모델만 해도 \((\mu, \sigma^2)\) 두 개. 다항 모델은 \(k\) 개, 회귀는 \(p+1\) 개. 관심은 보통 일부 모수 \(\theta_1\) 에 있고, 나머지 \(\theta_2\) 는 nuisance (장해) 모수다.

4.2 주변화 — 핵심 전략

\(\theta_2\) 를 “적분으로 지우는” 것이 베이즈 방식이다.

\[ p(\theta_1 \mid y) = \int p(\theta_1, \theta_2 \mid y) \, d\theta_2. \]

결합 사후분포를 구한 뒤 관심 없는 차원을 평균 내버림(marginalize). 빈도주의에서 nuisance 를 처리하기 위해 proi 우도 · conditional 우도 · REML 같은 기교가 필요한 것과 달리, 베이즈는 적분 한 번으로 통일된다.

4.3 정규 (미지 평균·분산)

비정보적 사전 \(p(\mu, \sigma^2) \propto 1/\sigma^2\) 하에서 완전 결합 사후는

\[ p(\mu, \sigma^2 \mid y) \propto (\sigma^2)^{-(n/2 + 1)} \exp\!\left[-\frac{1}{2\sigma^2}\bigl\{(n-1)s^2 + n(\bar y - \mu)^2\bigr\}\right]. \]

주변화하면

\(\mu \mid \sigma^2, y \sim N(\bar y, \sigma^2/n)\) — 조건부 정규
\(\sigma^2 \mid y \sim \text{Inv-}\chi^2(n - 1, s^2)\) — 주변 scale inverse chi-squared
\(\mu \mid y \sim t_{n-1}(\bar y, s^2/n)\) — 주변 \(t\) 분포

직관. “\(\sigma^2\) 를 적분으로 지우면 \(\mu\) 의 주변 분포가 두꺼운 꼬리의 \(t\) 가 된다” — 빈도주의 \(t\)-검정이 주는 피벗 양 \((\bar y - \mu)/(s/\sqrt n) \sim t_{n-1}\) 와 수치적으로 동일 한 결과다. 빈도주의 도구가 베이즈적 주변화의 부산물로 자연 재현된다.

4.4 Dirichlet-다항 — 범주형 확장

\(y \mid \boldsymbol\theta \sim \text{Multinomial}(n, \boldsymbol\theta)\) (\(k\) 범주, \(\sum \theta_j = 1\)), 켤레 사전 \(\boldsymbol\theta \sim \text{Dirichlet}(\boldsymbol\alpha)\) 이면

\[ \boldsymbol\theta \mid y \sim \text{Dirichlet}(\alpha_1 + y_1, \ldots, \alpha_k + y_k). \]

각 \(\alpha_j\) 가 “가상 관측 횟수” 의 범주별 확장이다. 3 범주 이상 분할표 분석의 베이즈 기초가 된다.

4.5 생물학적 검정 예제 — 비켤레 격자 계산

Ch.3 의 마지막 예제는 용량-반응 로지스틱 회귀 (\(y_i \sim \text{Bin}(n_i, \pi_i)\), \(\text{logit}\,\pi_i = \alpha + \beta x_i\)). 켤레 구조가 없어 사후를 해석적으로 쓸 수 없다. 해결책: 2 차원 \((\alpha, \beta)\) 격자 위에서 사후를 수치적으로 평가하고 표본을 뽑는다.

직관 — 이 예제의 메시지. 켤레가 깨지는 순간 베이즈는 계산 문제 가 된다. Part III (MCMC, HMC) 로 넘어가는 자연스러운 전환점이다.

5 Ch.4 Asymptotics and Connections to Non-Bayesian Approaches — 표본이 클 때의 다리

5.1 사후의 정규 근사

표본이 충분히 크면 사후분포가 최빈값 \(\hat\theta\) 를 중심으로 한 정규분포 로 수렴한다.

\[ \theta \mid y \approx N\!\bigl(\hat\theta,\, [I(\hat\theta)]^{-1}\bigr), \qquad I(\theta) = -\frac{d^2 \log p(\theta \mid y)}{d\theta^2}. \]

유도 골격 (Laplace 전개). 로그 사후 \(\log p(\theta \mid y)\) 를 \(\hat\theta\) 에서 2 차 Taylor 전개. 1 차 항은 \(\hat\theta\) 가 최빈값이라 0, 2 차 항이 관측 정보행렬의 음수 역할. 지수함수를 취하면 정규 커널이 나온다.

직관. 최대가능도 추정의 점근 정규성 \(\hat\theta_{MLE} \approx N(\theta_0, [J(\theta_0)]^{-1})\) 와 거의 동일한 형태. 차이는 “\(\hat\theta\) 가 사후 최빈값인가 MLE 인가” 와 “정보행렬이 관측 정보인가 기대 정보인가” 정도. 표본이 커지면 둘이 합류한다.

5.2 대표본 정리 — 일치성과 사전 희석

정규성 조건 하에서

일치성(consistency): 사후가 참값 \(\theta_0\) 주위로 집중 — \(p(\theta \mid y) \to \delta_{\theta_0}\)
점근 정규성: 표본이 클수록 사후가 정규
사전 희석: \(p(\theta) p(y \mid \theta) \approx p(y \mid \theta)\) — 가능도가 사전을 지배

직관 — 왜 사전이 사라지나. 가능도 \(p(y \mid \theta)\) 는 \(n\) 개 관측치의 곱이라 \(n\) 에 지수적으로 날카로워진다. 반면 사전 \(p(\theta)\) 는 상수 (관측 수에 무관). 둘의 곱을 보면 가능도의 피크 가 사후를 지배한다. 이것이 “데이터가 충분하면 합리적 사전은 어느 것이든 상관없다” 는 실용 원칙의 수학적 근거다.

5.3 반례 — 점근이 실패하는 곳

상황	실패 이유
경계 모수 (\(\theta \ge 0\) 의 \(\theta = 0\))	정규 근사가 음수 부분을 허용 불가
유한 혼합 (라벨 스위칭)	식별성 결여 — 여러 봉우리
무한 차원 (\(\theta\) 가 함수)	Laplace 전개 자체가 불가능
비일치 사전 (null 집합에 질량)	참값이 사전의 support 밖이면 영원히 수렴 안 함

5.4 빈도주의 도구의 베이즈적 재해석

MLE = 사후 최빈값 (균등 사전 하에서 엄밀히, 일반적으로 근사)
표준오차 = 사후 표준편차
부트스트랩 = 비모수 사후에 대한 시뮬레이션
신뢰구간 = 사후 구간 (대표본에서 coverage 일치)

직관. Ch.4 의 메시지는 “베이즈와 빈도주의가 대립하는 두 진영이 아니다” 는 것. 대표본 극한에서 둘은 같은 답 을 준다. 차이가 드러나는 곳은 소표본·구조화 문제·사전 정보 활용이다.

6 Ch.5 Hierarchical Models — 교환가능 집단의 구조화

6.1 문제 설정

여러 그룹 이 있고 (여러 학교, 여러 실험, 여러 센터), 각 그룹에 모수 \(\theta_j\) 가 있다. 두 극단은 모두 나쁘다.

완전 풀링(pooling): \(\theta_1 = \cdots = \theta_J\) 로 가정 → 그룹 차이 무시, 부적합
비풀링(no pooling): 각 \(\theta_j\) 를 독립으로 추정 → 소표본 그룹은 과적합

계층 모형은 이 둘의 타협이다. \(\theta_j\) 들이 공통 모집단 분포 에서 추출됐다고 보고,

\[ \theta_j \mid \phi \sim p(\theta \mid \phi), \qquad \phi \sim p(\phi), \qquad y_{ij} \mid \theta_j \sim p(y \mid \theta_j). \]

상위 모수 \(\phi\) (hyperparameter) 가 그룹 간 공통 구조를 포착한다. 그룹 수준 추론 \(p(\theta_j \mid y)\) 은 자기 데이터와 다른 그룹 데이터 양쪽의 정보를 결합한 결과가 된다.

6.2 8 Schools 예제 — 대표 사례

SAT 코칭 효과를 8 개 학교에서 실험. 학교 \(j\) 의 관측 효과 \(y_j\), 표준오차 \(\sigma_j\). 계층 모형:

\[ y_j \mid \theta_j \sim N(\theta_j, \sigma_j^2), \qquad \theta_j \mid \mu, \tau \sim N(\mu, \tau^2). \]

\(\tau\) 가 그룹 간 변동의 크기. \(\tau \to 0\) 이면 완전 풀링 (\(\theta_j = \mu\)), \(\tau \to \infty\) 면 비풀링.

6.3 Shrinkage — 핵심 메커니즘

각 \(\theta_j\) 의 사후 평균은

\[ E(\theta_j \mid y, \mu, \tau) = \frac{\frac{1}{\sigma_j^2} y_j + \frac{1}{\tau^2} \mu}{\frac{1}{\sigma_j^2} + \frac{1}{\tau^2}}. \]

그룹 자기 데이터 \(y_j\) 와 전체 평균 \(\mu\) 의 정밀도 가중 평균. 표준오차 \(\sigma_j\) 가 크면 (즉 정보 부족) \(y_j\) 의 가중이 줄고 전체 평균 쪽으로 끌려간다 — 이것이 shrinkage.

직관. “잘 모르는 학교의 추정은 평균 쪽으로 당겨서 안정화한다.” James-Stein 역설의 베이즈적 설명이며, 작은 표본 문제에서 가장 극적인 이득을 준다. 비풀링 분산이 비현실적으로 클 때 계층 구조가 자동으로 “빌려오기(borrowing strength)” 를 수행한다.

6.4 약정보적 \(\tau\) 사전 — 설계 선택의 중요성

\(\tau\) 에 대한 사전이 전체 결론에 큰 영향을 준다. 특히 그룹 수 \(J\) 가 작을 때 (예: \(J = 8\)) 더욱 민감.

사전	장단
\(\tau \sim \text{Inverse-Gamma}(\epsilon, \epsilon)\)	\(\tau\) 가 0 근처에서 폭주 — 권장 안 함
\(p(\tau) \propto 1\) (균등)	합리적이나 꼬리 과도
\(\tau \sim \text{half-Cauchy}(0, A)\)	Gelman 권장 — 꼬리 두껍고 0 에서 유한

Gelman (2006) 의 권고는 half-Cauchy 를 기본값으로 하되, 그룹 수가 적으면 반드시 민감도 분석을 수행하라는 것.

6.5 쥐 종양 예제 — 사전을 데이터로 짓기

70 개 역사적 실험의 쥐 종양 발생률이 베타 분포에 맞아 떨어지면, 새 실험의 \(\theta_j\) 사전을 그 베타 모집단으로 삼는다. “다른 실험 결과로부터 사전을 데이터 기반으로 구성한다” 는 베이즈 계층 모형의 강력한 실무적 장점.

7 Part I 의 통합 교훈

모델이 먼저, 추론이 뒤 — 확률 모델을 세우는 것이 베이즈 분석의 본질. 추론·예측·결정은 사후분포 하나에서 모두 파생된다
켤레는 편리, 그러나 제약 — Ch.2 의 켤레가 깨지면 Ch.3 격자 계산, Part III 의 MCMC 로 넘어간다
주변화가 통일된 nuisance 처리법 — 관심 없는 차원은 적분으로 지운다
표본이 크면 빈도주의와 합류 — Ch.4 는 두 전통의 다리
교환가능성 + 계층 구조 = shrinkage — 그룹 간 정보 교환이 자동으로 일어나는 계층 모형이 Part I 의 정점

7.1 Part II~V 예고

Part	주제	Part I 과의 연결
II (Ch.6-9)	모델 점검 · 비교 · 결정	사후 예측 분포 (Ch.1) 의 확장
III (Ch.10-13)	MCMC · HMC · 변분 추론	켤레가 깨진 경우 (Ch.3) 의 계산 도구
IV (Ch.14-18)	회귀 · 계층 회귀 · GLM	Ch.5 계층 구조의 회귀 버전
V (Ch.19-23)	비선형·비모수 (GP, Dirichlet process)	모수 공간의 무한 차원 확장

Part I 이 확립한 언어 (사후분포·주변화·교환가능성) 가 이후 모든 장에서 재사용된다. Part I 을 견고히 하면 나머지 18 장은 그 위에 쌓는 구조물 이다.

8 빈도주의 추론과의 비교 지도

Casella & Berger 기반 블로그 포스트와 Gelman BDA 관점이 어떻게 겹치고 갈라지는가 를 한 장에 정리한다.

주제	C&B 포스트 (빈도주의)	Gelman Part I 대응
베이즈 규칙	조건부 확률·베이즈 정리	Ch.1 (세 단계 프로세스로 확장)
베이즈 추정량	베이즈 추정량	Ch.2 (단일 모수 · 켤레 사전)
신용구간	베이즈 구간	Ch.3 (다모수 주변화로 일반화)
베이즈 검정	베이즈 검정	Ch.6 (사후 예측 점검 관점으로 재구성)
계층 모형	계층 모형과 혼합	Ch.5 (교환가능성과 shrinkage)

관점 차이 요약.

C&B: 추정·검정·구간을 각각의 틀에서 “베이즈적 대안” 으로 제시. 빈도주의 주류 속 서브섹션
Gelman: 베이즈를 데이터 분석의 기본 언어 로 삼고, 빈도주의 도구는 대표본 근사 또는 비공식 요약으로 재해석

두 관점은 상충이 아니라 같은 수학의 다른 지형도다. 실무에서는 두 지도를 번갈아 읽는 것이 가장 안전하다.

9 코드 예시 — 이항 모델 사후 업데이트

Gelman Ch.2 의 이항 예제를 두 단계로 구현한다.

9.1 Step 1: 순수 계산 (Python) — 공식 확인

import numpy as np
from scipy.stats import beta

# Beta 사전 + 이항 데이터 -> Beta 사후
alpha_prior, beta_prior = 2, 2   # 약정보적 사전: 가상 성공 1 + 실패 1
n, y = 20, 12                    # 실제 20 회 중 12 회 성공

alpha_post = alpha_prior + y
beta_post = beta_prior + n - y
print(f"사후: Beta({alpha_post}, {beta_post})")
print(f"사후 평균: {alpha_post / (alpha_post + beta_post):.3f}")
print(f"사후 95% 신용구간: "
      f"[{beta.ppf(0.025, alpha_post, beta_post):.3f}, "
      f"{beta.ppf(0.975, alpha_post, beta_post):.3f}]")

9.2 Step 2: PyMC 로 실무 구현 — 사후 표본

import pymc as pm
import numpy as np

n, y = 20, 12
with pm.Model() as m:
    theta = pm.Beta("theta", alpha=2, beta=2)
    obs = pm.Binomial("obs", n=n, p=theta, observed=y)
    trace = pm.sample(2000, tune=1000, chains=4, progressbar=False)

# 사후 요약
print(pm.summary(trace, var_names=["theta"]))

해석. Step 1 은 해석해 (closed form) — 켤레 구조 덕에 계산이 간단. Step 2 는 MCMC 시뮬레이션 — 더 복잡한 모델로 확장하기 위한 표준 도구. Part I 단일 모수에서는 둘이 같은 답을 주지만, Part III 에서 비켤레 모델을 다룰 때 Step 2 의 일반성이 빛난다.

10 관련 주제

선행 지식

확률론 개요 — 조건부 확률·베이즈 정리의 기초
조건부 확률과 베이즈 정리 — 베이즈 규칙 자체
기대값·적률·MGF — 사후 요약의 언어
분포 가족 개요 — 켤레 사전의 후보들

동일 주제 다른 교재 (Casella & Berger)

베이즈 추정량 — C&B Ch.7 관점
베이즈 구간 — 신용집합·HPD
베이즈 검정 — 베이즈 팩터

후속 주제 (이번 포스트에서 이어지는 Gelman Ch 상세)

Ch.1 Probability and Inference — 3 단계 프로세스 상세
Ch.2 Single-Parameter Models — 켤레 유도·Jeffreys 사전
Ch.3 Multiparameter Models — 주변화·bioassay 예제
Ch.4 Asymptotics — 정규 근사 상세 유도
Ch.5 Hierarchical Models — 8 schools · rat tumor 전 분석

관련 개념

최대가능도 추정량 — 사후 최빈값과의 관계 (Ch.4)
EM 알고리즘 — 잠재 변수 모형에서 베이즈·MLE 의 공통 도구
충분성 원리 — 베이즈에서도 충분통계량이 사후를 결정
계층 모형과 혼합 — Ch.5 의 빈도주의 대응

11 참고 문헌

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC. Part I (pp. 1-137).
Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515-533.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.