1 개요 — Part III 의 관문
Part II (Ch.6~9) 까지는 “모형 → 사후 → 점검 → 비교 → 수집 → 결정” 의 개념적 흐름이었다. 하지만 실제로 Ch.5 의 8 학교 계층 모형부터 이미 해석적 적분이 버거워졌다. Part III (Ch.10~13) 는 이 실무적 벽을 뚫는다.
모든 베이즈 계산은 결국 두 수량의 근사.
- 사후 분포 \(p(\theta \mid y)\) — 모수의 불확실성.
- 사후 예측 분포 \(p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) p(\theta \mid y) d\theta\) — 미래 관측.
두 수량 모두 적분 을 요구. 대부분의 현실 모형에서 닫힌 형태 불가능 → 수치·시뮬레이션.
1.1 Part III 의 구조
| Chapter | 주제 |
|---|---|
| 10 | 개요 — 수치 적분, 직접·기각·중요도 샘플링 |
| 11 | MCMC 기초 — Gibbs, Metropolis-Hastings, 수렴 진단 |
| 12 | 효율적 MCMC — HMC, NUTS, Stan, 재매개변수화 |
| 13 | 분포 근사 — EM, 변분 추론, 기대 전파 |
Ch.10 은 Ch.11~12 의 MCMC 없이 풀 수 있는 문제 를 다룬다. 이 “없이” 가 의미 있는 이유: 독립 표본 + 단순 구조의 문제가 실무에 많고, MCMC 의 수렴 진단 부담을 피할 수 있다.
1.2 직관 — 왜 “계산” 이 별도 Part 로 분리되는가
베이즈 추론의 수학은 한 줄: \(p(\theta \mid y) \propto p(\theta) p(y \mid \theta)\). 그러나 “비례” 의 정규화 상수가 적분:
\[ p(\theta \mid y) = \frac{p(\theta) p(y \mid \theta)}{\int p(\theta) p(y \mid \theta) d\theta} \]
분모의 \(\int\) 가 고차원 적분. 이 적분은:
- 공액 prior 에서만 닫힌 형태 → 매우 제한적.
- \(\theta\) 가 수십~수천 차원이면 격자 계산 불가 (차원의 저주).
- Monte Carlo 계산이 유일한 범용 해법.
Part III 의 핵심 메시지: “이론적 모형 = 계산 가능한 모형” 이 아니다. 두 요구를 분리하여 각각 전문 도구로 대응한다.
2 § 10.1 — 수치 적분 (Numerical Integration)
2.1 두 갈래 — 결정론 vs 시뮬레이션
수치 적분은 적분값 \(\int h(\theta) p(\theta \mid y) d\theta\) 을 유한 개 점에서의 평가로 근사.
2.1.1 시뮬레이션 (확률적) 방법
\(\theta^s \sim p(\theta \mid y)\) 추출 후 표본 평균:
\[ \mathbb{E}[h(\theta) \mid y] \approx \frac{1}{S} \sum_{s=1}^S h(\theta^s) \tag{10.1} \]
- 장점: 고차원에서 작동. 범용성.
- 단점: \(\sqrt{S}\) 속도 수렴. 적분값 정확도가 표본 수에 제한.
2.1.2 결정론 (deterministic) 방법
선택된 격자점에서 가중 평균:
\[ \mathbb{E}[h(\theta) \mid y] \approx \sum_{s=1}^S w_s h(\theta^s) p(\theta^s \mid y) \]
- 장점: 저차원에서 높은 정확도 (Simpson’s rule, Gauss quadrature 등).
- 단점: 차원의 저주 — 격자점 수가 \(d\) 차원에서 \(N^d\) 로 폭증.
경험 법칙: \(d \le 3\) 이면 격자, \(d \ge 5\) 이면 시뮬레이션. 중간은 혼합.
이유: Monte Carlo 오차는 차원 독립 (\(O(1/\sqrt{S})\)). 격자는 차원에 지수 의존 (\(O(1/N^{k/d})\), \(k\) 는 정확도 차수). 교차점이 \(d = 4 \sim 5\) 근처.
Ch.5 의 8 학교 예제 (\(\mu, \tau\) 의 2 차원 하이퍼파라미터) 는 격자, Ch.15~16 의 계층 회귀 (수십~수백 차원) 는 MCMC. Ch.10 의 자리가 이 경계에.
2.2 정규화 안 된 밀도 \(q(\theta \mid y)\)
실무 통일 원칙: \(p(\theta \mid y)\) 대신 \(q(\theta \mid y) = p(\theta) p(y \mid \theta)\) 로 작업.
\(q\) 는 \(\theta\) 에 대한 비례 함수 — 정규화 상수 (marginal likelihood \(p(y)\)) 미지.
이유: 정규화 상수를 구하려면 전체 적분이 필요한데, 그게 불가능해서 \(q\) 로 일하는 것. 대부분의 알고리즘 (기각·중요도·MCMC) 이 \(q/q'\) 비율만 쓰므로 정규화 불필요.
2.3 로그 밀도로 작업
오버플로·언더플로 방지를 위해 \(\log p(\theta \mid y)\) 또는 \(\log q(\theta \mid y)\) 로 계산.
고차원에서 우도 \(\prod p(y_i \mid \theta)\) 가 \(10^{-300}\) 수준이 되면 부동소수점 0 으로 언더플로. 로그 스케일에서:
\[ \log q(\theta \mid y) = \log p(\theta) + \sum_{i=1}^n \log p(y_i \mid \theta) \]
합으로 변환. 마지막에 필요할 때만 exp().
Metropolis 수용 확률 같은 비율 계산도 차이로:
\[ r = \exp(\log q(\theta^*) - \log q(\theta^{(t-1)})) \]
3 § 10.2 — 분포 근사 (Distributional Approximations)
3.1 정규 근사의 복습
Ch.4 의 결과: \(n \to \infty\) 에서 사후가 정규에 수렴 (Bayesian CLT).
\[ p(\theta \mid y) \approx \mathrm{N}(\hat{\theta}, I(\hat{\theta})^{-1}) \]
\(\hat{\theta}\) = MAP 또는 사후 최빈값, \(I\) = 관측 Fisher 정보.
3.2 “조잡한 추정” 의 역할
§ 10.2 의 실용 팁: 해석적 분석 전에 쉬운 근사를 구하라.
방법: 모형의 일부를 무시하고 단순 추정.
- 계층 모형에서 hyperparameter 를 moment method 로 거칠게 추정, 그 다음 조건부.
- 결측 데이터를 단순 imputation 후 시작.
- 복잡한 prior 를 uniform 으로 바꿔 초기값.
사용 목적 3 가지:
- 시작점 — MCMC 초기 위치, 기각/중요도 샘플링의 \(g\).
- 디버깅 기준 — 정확 분석 결과가 이 근사와 크게 다르면 버그 의심.
- 위생 점검 — 모형이 “합리적 값 대역” 을 찾는지 확인.
정밀 알고리즘 (MCMC) 은 잘못된 위치에서 시작하면 수렴까지 오래. 조잡한 추정이 근사적으로 옳은 영역을 미리 찾아 주면 burn-in 시간 단축.
또 다른 역할: 정신 건강. 복잡한 MCMC 코드에서 버그 찾기는 지옥. 조잡한 추정이 “이 모수는 대략 0.5 근처” 라 알려주면, MCMC 결과가 100 이 나왔을 때 즉시 의심 가능.
이 원칙은 “점진적 정교화” — 단순 → 복잡, 항상 이전 단계와 비교하며 전진.
4 § 10.3 — 직접 시뮬레이션과 기각 샘플링
4.1 Direct Simulation
공액 사전 또는 표준 분포에서 직접 추출. 계층 모형의 주변-조건부 분해가 대표 패턴.
4.1.1 주변-조건부 분해 예시 (8 학교)
\[ p(\mu, \tau, \theta_1, \ldots, \theta_8 \mid y) = p(\mu, \tau \mid y) \cdot \prod_{j=1}^8 p(\theta_j \mid \mu, \tau, y) \]
- Step 1: \(p(\mu, \tau \mid y)\) 에서 추출 (2 차원 격자).
- Step 2: 각 \((\mu^s, \tau^s)\) 조건부로 \(\theta_j^s \sim \mathrm{N}(\cdot)\) (정규 공액).
이 2 단계가 “해석적으로 적분 가능한 부분은 적분, 나머지는 시뮬레이션” 의 혼합 전략.
4.2 Grid 기반 근사
저차원 문제:
- \(\theta\) 의 격자점 \(\theta_1, \ldots, \theta_N\) 에서 \(q(\theta_i \mid y)\) 평가.
- 정규화: \(\tilde{p}_i = q(\theta_i \mid y) / \sum_j q(\theta_j \mid y)\).
- \(U \sim \mathrm{Uniform}[0, 1]\), inverse CDF 로 추출.
차원 2~3 까지 실용적. \(N = 100 \times 100 = 10{,}000\) 점으로 2 차원 문제 해결.
4.3 Rejection Sampling — 수용-기각 원리
목표: \(p(\theta \mid y)\) 에서 직접 추출 불가, 보조 분포 \(g(\theta)\) 에서 추출 가능.
조건: 상수 \(M\) 이 존재해 \(\frac{p(\theta \mid y)}{g(\theta)} \le M\) for all \(\theta\).
알고리즘:
- \(\theta \sim g\) 추출.
- 확률 \(\frac{p(\theta \mid y)}{M g(\theta)}\) 로 수용. 기각 시 1 로 복귀.
수용된 \(\theta\) 의 분포가 정확히 \(p(\theta \mid y)\) 임을 증명.
\[ \Pr(\theta = t \mid \text{accept}) = \frac{\Pr(\text{accept} \mid \theta = t) g(t)}{\int \Pr(\text{accept} \mid \theta) g(\theta) d\theta} = \frac{\frac{p(t)}{M g(t)} g(t)}{\int \frac{p(\theta)}{M g(\theta)} g(\theta) d\theta} = \frac{p(t)/M}{1/M} = p(t) \]
수용 확률 \(1/M\) — \(M\) 이 작을수록 효율적.
자기 진단: 수용률이 낮으면 \(g\) 가 부적절 — 개선 또는 다른 방법 전환.
4.4 Envelope 선택의 기술
\(g\) 를 선택하는 원칙: \(p\) 에 “비례에 가까우면서” 추출 가능.
예: \(p(\theta \mid y)\) 가 정규 근사 가능 → \(g\) 를 조금 더 퍼진 \(t\) 분포로. 꼬리가 두꺼워서 \(p/g\) 경계 유한.
반대 실패 사례: \(p\) 가 두꺼운 꼬리인데 \(g\) 가 얇은 꼬리 → \(p/g\) 가 꼬리에서 무한대 → \(M\) 존재 안 함.
반사실적 시나리오: \(g\) 가 얇다 → 꼬리 영역에서 “\(g\) 가 거의 0” 인데 \(p\) 는 유한. 비율 \(p/g\) 가 무한대 → 경계 \(M\) 설정 불가능 → 수용 확률 정의 안 됨.
심지어 \(p/g\) 가 유한해도 매우 크면, 꼬리에 있는 극소수의 \(\theta\) 가 수용률을 지배. 1000 번 중 1 번 수용되면 \(S_{\mathrm{eff}}\) 가 사실상 1.
원칙: \(g\) 는 \(p\) 를 “덮어야” 한다. 두꺼운 꼬리 안전, 얇은 꼬리 위험.
5 § 10.4 — 중요도 샘플링 (Importance Sampling)
5.1 아이디어 — 기대값만 필요할 때
관심이 \(\mathbb{E}[h(\theta) \mid y]\) 뿐이고 \(\theta\) 자체 추출이 필요 없다면, 중요도 가중 으로 우회.
\[ \mathbb{E}[h(\theta) \mid y] = \frac{\int h(\theta) q(\theta \mid y) d\theta}{\int q(\theta \mid y) d\theta} = \frac{\int h(\theta) \frac{q(\theta \mid y)}{g(\theta)} g(\theta) d\theta}{\int \frac{q(\theta \mid y)}{g(\theta)} g(\theta) d\theta} \tag{10.2} \]
\(\theta^s \sim g(\theta)\) 추출 후 추정:
\[ \hat{\mathbb{E}}[h] = \frac{\frac{1}{S} \sum_s h(\theta^s) w(\theta^s)}{\frac{1}{S} \sum_s w(\theta^s)}, \quad w(\theta^s) = \frac{q(\theta^s \mid y)}{g(\theta^s)} \tag{10.3} \]
\(w\) 가 중요도 가중치. 분모가 정규화 상수 추정.
기각 샘플링과의 차이: 기각은 \(\theta\) 를 얻고 일부 버림. 중요도는 모든 \(\theta\) 유지하되 가중. 계산 효율은 경우에 따라 다름.
5.2 정확도 진단 — 유효 표본 크기 \(S_{\mathrm{eff}}\)
중요도 샘플링 실패 시나리오: 소수의 \(\theta^s\) 가 거대한 \(w\) 를 가져 평균을 지배.
진단 지표:
\[ S_{\mathrm{eff}} = \frac{1}{\sum_{s=1}^S \tilde{w}(\theta^s)^2} \tag{10.4} \]
\(\tilde{w} = w / \sum w\) 는 정규화 가중치.
해석:
- 모든 \(w\) 가 같으면 \(\tilde{w}_s = 1/S\), \(S_{\mathrm{eff}} = S\). 이상적.
- 한 개가 1 이고 나머지 0 이면 \(S_{\mathrm{eff}} = 1\). 최악.
\(S\) 개 독립 표본의 평균 분산은 \(\sigma^2/S\). 가중 평균은 가중치 제곱합에 비례한 분산.
공식 (10.4) 는 “같은 정확도를 내려면 몇 개의 동일 가중 표본이 필요한가” 의 등가.
실무 기준: \(S_{\mathrm{eff}} / S < 10\%\) 면 의심. \(< 1\%\) 면 중요도 샘플링 포기.
Vehtari, Gelman, Gabry (2017) 의 현대 개선 — Pareto-smoothed importance sampling (PSIS). 극단값을 Pareto 분포로 근사해 안정화. Ch.7 의 PSIS-LOO 가 이 발전의 직접 응용.
5.3 무한 분산의 위험
\(w\) 의 분산이 무한하면 (예: \(g\) 꼬리가 \(q\) 보다 얇음), 표본 평균이 수렴 안 함. \(S \to \infty\) 여도 수렴 속도 \(O(1/\sqrt{S})\) 보장 안 됨.
진단: \(\log w\) 의 최대값 분포. 평균보다 훨씬 크면 위험 신호.
5.4 SIR — Sampling-Importance Resampling
\(S\) 개의 가중 \(\theta^s\) 에서 등가중 \(k < S\) 개 표본 얻기.
- 가중치 \(\tilde{w}(\theta^s)\) 에 비례해 \(\theta^s\) 중 하나 선택.
- 제거 (비복원) 후 반복 \(k\) 회.
왜 비복원? 복원이면 소수 큰 \(w\) 가 반복 선택 — 중복. 비복원은 중복 없이 가중치 따라 분포 생성.
(현대 권장: PSIS-복원.)
6 § 10.5 — 시뮬레이션 표본 수 결정
6.1 표준 권고
\(S = 100\) 독립 표본이 대부분 목적에 충분.
수식적 근거: 사후 평균의 Monte Carlo 표준오차.
\[ \mathrm{SE}_{\mathrm{MC}}[\hat{\mu}] = \frac{s_\theta}{\sqrt{S}} \]
전체 불확실성:
\[ \mathrm{SD}_{\mathrm{total}} = s_\theta \sqrt{1 + \frac{1}{S}} \]
\(S = 100\): \(\sqrt{1 + 0.01} = 1.005\) — Monte Carlo 오차가 전체에 0.5% 기여. 사실상 무시 가능.
6.2 정확도가 더 필요한 경우
확률 추정 (특히 꼬리):
\[ \mathrm{SE}[\hat{p}] = \sqrt{\frac{p(1-p)}{S}} \]
- \(p \approx 0.5\): \(S = 100 \to\) SE 0.05. \(S = 2{,}500 \to\) SE 0.01.
- 희귀 사건 (\(p \approx 0.001\)): \(S = 10{,}000\) 도 부족. 해석적 보조 필요.
6.3 8 학교 예제의 수치
Ch.5.5 의 8 학교 모형. \(\theta_1\) (학교 A 효과) 추론:
| \(S\) | 중앙값 | 50% 구간 | 95% 구간 |
|---|---|---|---|
| 200 (1차) | 10 | [7, 16] | [−2, 31] |
| 200 (2차) | 9 | [6, 14] | [−4, 32] |
| 10,000 | 10 | [6, 15] | [−2, 31] |
요약: 200 과 10,000 이 실질적 차이 없음. 모수 중앙값·중심 구간에는 적은 표본으로 충분.
희귀 확률 \(\Pr(\theta_1 > 50 \mid y)\):
- 200 표본: 0 건 → 추정 0 (정보 없음).
- 10,000 표본: 3 건 → 추정 0.0003.
- 반-해석적 (정규 근사 + 시뮬레이션): 200 표본으로 충분.
“\(S\) 크게” 가 항상 답이 아니다. 실용 우선순위:
- 중앙값·중심 구간 — \(S = 100{-}200\) 충분.
- 극단 분위수 (\(p < 0.05\)) — \(S = 1000\) 권장.
- 꼬리 확률 (\(p < 0.01\)) — 해석적 보조 + \(S = 10{,}000\).
- 고차원 사후 전체 — MCMC effective sample size 기준.
이 계층이 Ch.10~12 의 선택을 안내. 단순 문제는 Ch.10, 복잡은 Ch.11~12.
7 § 10.6 — 계산 환경
7.1 왜 통합 패키지가 필요한가
Gelman 이 제시하는 4 가지 이유:
- 접근성 — 통계 초보자·도메인 전문가가 베이즈 모형 적합 가능.
- 교육 — 구조에 집중, 계산은 나중.
- 시간 절약 — 매번 직접 프로그래밍 불필요.
- 버그 감소 — 검증된 라이브러리 사용.
7.2 현대 도구 지형
| 도구 | 언어 | 특징 |
|---|---|---|
| Stan | C++ 백엔드, R/Python/Julia 인터페이스 | HMC/NUTS, 자동 미분, 고속 |
| PyMC | Python | NUTS, 변분 추론, PyTensor 백엔드 |
| NumPyro | JAX | JIT 컴파일, 고속 HMC, GPU 지원 |
| JAGS | C++ | Gibbs, 전통적 베이즈 사용자 |
| Turing.jl | Julia | HMC, 임의 PPL |
| Edward/TensorFlow Probability | Python | VI + 대규모 |
| Bambi | Python | lme4 스타일 API (PyMC 위) |
| brms | R | lme4 스타일 API (Stan 위) |
Gelman 은 저서 집필 시점에 Stan 을 주로 사용. 현재 NumPyro·Stan 이 병존.
7.3 블랙박스의 한계
§ 10.6 의 주의: “추론 엔진만 믿으면 안 된다”. 이유:
- 잘못된 모형을 fitting 해도 수치 결과는 나옴.
- 수렴 진단 (R-hat, ESS) 에 책임은 여전히 사용자.
- 이상 사후 (다봉, 얇은 꼬리) 에서 엔진 실패 가능성.
원칙: “이해 + 자동화”. 수동으로 작은 문제 한 번은 풀어 본 뒤 대형 문제를 자동화.
8 § 10.7 — 디버깅 전략
Gelman 이 제시하는 베이즈 디버깅 원칙.
8.1 핵심 전략
- 조잡한 추정과 비교 — § 10.2 의 활용.
- 기지 답 문제 테스트 — 모수를 고정해 가상 데이터 생성 → fit → 추정치 비교.
- 작게 시작 — \(n = 10\) 으로 시작, 문제 없으면 키움.
- 모수 개수 점진적 증가 — simple → hierarchical → full model.
- 사후 예측 시뮬레이션 — 적합 결과로 \(y^{\mathrm{rep}}\) 생성해 실제 \(y\) 와 비교 (Ch.6).
8.2 흔한 버그 유형
- 데이터-매개변수 매칭 오류 — 관측 벡터와 predictor 순서 불일치.
- 로그 밀도 부호 —
-빠뜨림. - 초기값 — 경계값 (0, 1) 에서 시작 → nan.
- 정규화 — Jacobian 빠진 변환.
- prior 범위 위반 — 음수 분산에 unconstrained prior.
수학적으로 완벽한 모형도 구현에 버그가 있으면 의미 없음. Gelman 의 경험담: 복잡한 모형을 디버깅하는 데 모형 설계보다 더 오래 걸리는 경우가 흔함.
베이즈 디버깅의 특수성: “답” 이 없다. 빈도주의의 closed-form 이 비교 기준 제공하는데, 베이즈는 그런 기준이 희박.
실무 팁: simulate → fit → recover 사이클. 가상 데이터에서 참 모수 복원 가능하면 실제 데이터에 적용. 이 사이클을 빠르게 반복하는 것이 베이즈 프로그래머의 생산성.
9 § 10.8 — 문헌 좌표계
Ch.10 참고문헌의 현대 지도.
9.1 수치 적분
- Liu (2001), Monte Carlo Strategies in Scientific Computing — 시뮬레이션 전반.
- Robert & Casella (2004), Monte Carlo Statistical Methods — 통계학적 관점.
9.2 기각·중요도 샘플링
- Geweke (1989) — 중요도 샘플링의 베이즈 응용.
- Rubin (1987a) — SIR 알고리즘.
- Vehtari, Gelman, Gabry (2017) — PSIS 의 현대 개선.
9.3 계산 환경
- Stan Development Team — Stan 매뉴얼.
- Salvatier, Wiecki, Fonnesbeck (2016) — PyMC 원 논문.
- Phan, Pradhan, Jankowiak (2019) — NumPyro.
10 통합 관점 — Ch.10 알고리즘의 선택 기준
각 방법이 어떤 상황에 적합한가를 한 장 요약.
| 방법 | 차원 | 사후 특성 | 장점 | 단점 |
|---|---|---|---|---|
| 해석적 공액 | 제한 | 표준 분포 | 완벽 | 매우 제한적 |
| Grid | \(\le 3\) | 매끄러움 | 시각화 | 차원 저주 |
| Direct + 주변-조건부 | 저~중 | 계층 구조 | 8 학교 스타일 | 구조 필요 |
| Rejection | 저~중 | envelope 존재 | 독립 표본 | 고차원 실패 |
| Importance | 전체 | expectation 만 | 가중 샘플 유지 | 무한 분산 위험 |
| SIR/PSIS | 전체 | IS 보완 | 등가중 변환 | IS 품질 의존 |
| MCMC (Ch.11) | 고차원 | 거의 모든 경우 | 범용 | 수렴 확인 |
| HMC (Ch.12) | 초고차원 | 매끄러움 | 고효율 | 기울기 필요 |
| VI/EP (Ch.13) | 초대형 | 속도 우선 | 병렬화 | 근사 |
Ch.10 의 메시지: MCMC 전에 더 단순한 도구를 먼저 시도하라. 많은 문제가 이 장의 기법으로 풀린다.
11 응용 분야
| 분야 | Ch.10 도구의 역할 |
|---|---|
| 임상 시험 | 공액 prior + 직접 시뮬레이션으로 적응적 설계 |
| 마케팅 A/B | 간단한 이항 모형의 SIR |
| 여론 조사 | 계층 이항의 주변-조건부 분해 |
| 역학 | rate 추정의 중요도 샘플링 |
| 보험 수리 | 희귀 사건 확률의 해석적 + 시뮬레이션 결합 |
| 금융 리스크 | VaR 계산의 IS (희귀 손실 이벤트) |
| 기계 학습 | 모델 앙상블의 SIR 기반 가중 |
| 물리/공학 | MCMC 전 초기값 탐색 |
12 실전 체크리스트
Ch.10 을 실무에 녹이는 10 단계.
- \(q(\theta \mid y)\) 로 작업 — 정규화 상수 무시.
- 로그 스케일 습관 — overflow/underflow 방지.
- 조잡한 추정 먼저 — 계산 전 “답의 대역” 파악.
- 차원 확인 — \(d \le 3\) 이면 격자, \(\ge 5\) 면 시뮬레이션.
- 공액 구조 활용 — 해석적 적분 가능한 부분은 적분.
- Envelope 선택 — 기각 샘플링 \(g\) 의 꼬리가 \(p\) 보다 두꺼워야.
- IS 진단 필수 — \(S_{\mathrm{eff}} / S\) 확인, 무한 분산 위험 점검.
- PSIS 고려 — 현대 IS 실무 표준.
- 표본 수 맞춤 — 중심 추론 \(S = 100\), 꼬리는 훨씬 더.
- 디버깅 사이클 — simulate → fit → recover 반복.
13 관련 주제
선행 지식
- Bayesian Part II 개관 — Part II 결말이 Part III 시작을 요구하는 이유
- Bayesian Part III 개관 — Ch.10~13 전체 지도
- Ch.4 Asymptotics — § 10.2 의 정규 근사 근거
- Ch.5 Hierarchical Models — § 10.3 의 주변-조건부 분해가 가장 잘 쓰이는 곳
후속 주제
- Ch.11 Basics of MCMC — Gibbs, Metropolis-Hastings, 수렴 진단
- Ch.12 Efficient MCMC — HMC, NUTS, Stan, 재매개변수화
- Ch.13 Modal·Distributional Approximations — EM, VI, EP
- Ch.7 § 7.2 WAIC/LOO — PSIS 가 실제 응용되는 맥락
관련 개념
- Liu (2001), Monte Carlo Strategies in Scientific Computing — 시뮬레이션 표준서
- Robert & Casella (2004), Monte Carlo Statistical Methods — 통계 Monte Carlo
- Rubin (1987a) — SIR 원저
- Geweke (1989) — 중요도 샘플링 베이즈 응용
- Vehtari, Gelman, Gabry (2017), Practical Bayesian model evaluation using loo — PSIS-LOO
- Carpenter et al. (2017) — Stan 논문
- Phan, Pradhan, Jankowiak (2019) — NumPyro 논문