1 Ch.3 의 위치 — “하나의 모수” 에서 “여러 모수” 로
Ch.2 의 모델은 모두 단일 모수 — 이항의 \(\theta\), 정규의 \(\mu\) (분산 고정) 또는 \(\sigma^2\) (평균 고정), Poisson 의 rate. 그러나 현실 문제는 거의 항상 여러 미지량 을 포함한다. Ch.3 는 이 다모수 세계로의 확장을 다룬다.
“다모수 문제에서도 베이즈의 개념적 단순함이 그대로 유지된다. 핵심 기법은 ‘모든 모수의 공동 사후를 계산한 뒤 관심 없는 모수를 주변화’ 한 것 — 그리고 이 주변화는 시뮬레이션 (Ch.1.9) 으로 거의 자동으로 이루어진다.”
Ch.2 가 단일 모수의 문법이었다면 Ch.3 는 같은 문법을 벡터 \(\theta\) 에 확장 하고, Part IV~V 회귀·계층 모형의 수학적 토대를 마련한다 (Gelman et al., 2013, Ch.3).
Ch.3 의 구성.
| 절 | 핵심 | 역할 |
|---|---|---|
| § 3.1 | nuisance 모수 주변화 | 다모수의 근본 기법 |
| § 3.2 | \(\mu, \sigma^2\) 비정보 사전 | Newcomb 광속 예제, \(t_{n-1}\) 사후 |
| § 3.3 | 정규 켤레 사전 | 정규-Inv-\(\chi^2\) 공동 켤레 |
| § 3.4 | 다항·Dirichlet | 1988 대선 여론조사 (\(y_1, y_2, y_3\)) |
| § 3.5 | 다변량 정규 (알려진 \(\Sigma\)) | 선형 모형의 수학적 기초 |
| § 3.6 | 다변량 정규 (미지 \(\mu, \Sigma\)) | Inverse-Wishart 켤레 |
| § 3.7 | Bioassay 예제 | 비켤레 2 모수 격자 계산 |
| § 3.8 | 모델링 전략 요약 | Ch.1~3 의 실무 체크리스트 |
2 § 3.1 Nuisance 모수의 주변화
2.1 문제 설정
\(\theta = (\theta_1, \theta_2)\), 관심사는 \(\theta_1\), \(\theta_2\) 는 nuisance 모수. 예 — 측정 문제에서 \(\mu\) 가 관심, \(\sigma^2\) 가 nuisance.
관심 분포는 조건부 사후 \(p(\theta_1 \mid y)\). 공동 사후.
\[ p(\theta_1, \theta_2 \mid y) \propto p(y \mid \theta_1, \theta_2) \, p(\theta_1, \theta_2) \]
에서 \(\theta_2\) 를 적분 소거.
\[ p(\theta_1 \mid y) = \int p(\theta_1, \theta_2 \mid y) \, d\theta_2 \]
2.2 주변화의 분해 형태
조건부·주변으로 분해.
\[ p(\theta_1 \mid y) = \int p(\theta_1 \mid \theta_2, y) \, p(\theta_2 \mid y) \, d\theta_2 \tag{3.1} \]
관심 사후 = 조건부 사후들의 혼합, 가중치는 \(p(\theta_2 \mid y)\).
\(\theta_2\) 를 모른다면, 그 사후 분포가 제공하는 모든 가능한 값을 가중 평균 한다. 각 가중치는 “이 \(\theta_2\) 값이 데이터와 얼마나 일치하는가”. 결과는 \(\theta_2\) 의 불확실성을 \(\theta_1\) 의 추론에 자연스럽게 전파 하는 분포.
이것이 베이즈의 결정적 강점 — 빈도주의에서는 nuisance 모수를 점 추정 (\(\hat{\sigma}^2 = s^2\)) 한 뒤 \(\theta_1\) 추론하는데, 이는 \(\sigma^2\) 불확실성을 반영 못 함. 베이즈 주변화는 자동으로 전파한다.
2.3 시뮬레이션 전략
식 (3.1) 을 명시적으로 적분하는 대신 보통 시뮬레이션으로 해결.
- \(\theta_2^{(s)} \sim p(\theta_2 \mid y)\)
- \(\theta_1^{(s)} \sim p(\theta_1 \mid \theta_2^{(s)}, y)\)
- \((\theta_1^{(1)}, \ldots, \theta_1^{(S)})\) 를 요약
단순 기법 — “조건부 공액 구조를 이용해 분해하고 순차적으로 표본”. Ch.3 의 모든 예제가 이 패턴을 쓴다. Ch.11 의 Gibbs 표본추출기가 이 아이디어의 일반화.
3 § 3.2 미지 \(\mu, \sigma^2\) 의 정규 — 비정보 사전
3.1 모델과 사전
관측 \(y = (y_1, \ldots, y_n)\) iid \(N(\mu, \sigma^2)\), 둘 다 미지. 위치-스케일 독립의 비정보 사전.
\[ p(\mu, \sigma^2) \propto (\sigma^2)^{-1} \]
이는 \(p(\mu, \log \sigma) \propto 1\) 과 동치 — 위치 모수에 균등, 로그 스케일에 균등.
3.2 공동 사후
\[ p(\mu, \sigma^2 \mid y) \propto \sigma^{-n-2} \exp\left(-\frac{1}{2\sigma^2}[(n-1)s^2 + n(\bar{y} - \mu)^2]\right) \tag{3.2} \]
여기서 충분통계량 은 \((\bar{y}, s^2)\), \(s^2 = \frac{1}{n-1} \sum (y_i - \bar{y})^2\).
3.3 조건부 · 주변 분해
조건부 \(p(\mu \mid \sigma^2, y)\) — Ch.2.5 와 정확히 같음.
\[ \mu \mid \sigma^2, y \sim N(\bar{y}, \sigma^2/n) \tag{3.3} \]
주변 \(p(\sigma^2 \mid y)\) — 식 (3.2) 에서 \(\mu\) 적분 소거. 정규 적분을 수행하면.
\[ \sigma^2 \mid y \sim \text{Inv-}\chi^2(n - 1, s^2) \tag{3.5} \]
이것이 빈도주의 \(\chi^2_{n-1}\) 분포 와 정확히 대응 — \((n-1)s^2/\sigma^2 \sim \chi^2_{n-1}\).
3.4 공동 사후 표본 추출
간단한 두 단계.
- \(\sigma^2 \sim \text{Inv-}\chi^2(n-1, s^2)\)
- \(\mu \mid \sigma^2 \sim N(\bar{y}, \sigma^2/n)\)
3.5 \(\mu\) 의 주변 사후 — \(t\) 분포
식 (3.1) 과 동일 패턴 — 정규 조건부 × Inv-\(\chi^2\) 주변의 혼합. 적분 수행 후.
\[ \mu \mid y \sim t_{n-1}(\bar{y}, s^2/n) \]
또는 표준화 형태.
\[ \frac{\mu - \bar{y}}{s/\sqrt{n}} \mid y \sim t_{n-1} \]
빈도주의의 \(t\) 통계량과 동일 분포 — 그러나 해석이 뒤집혀 있다.
| 프레임워크 | 진술 |
|---|---|
| 빈도주의 | \((\bar{y} - \mu)/(s/\sqrt{n}) \mid \mu, \sigma^2 \sim t_{n-1}\) — 추정량의 표본 분포 |
| 베이즈 | \((\mu - \bar{y})/(s/\sqrt{n}) \mid y \sim t_{n-1}\) — 모수의 사후 분포 |
두 진술은 같은 \(t\) 분포 를 주지만 조건부의 의미가 반대. 빈도주의는 \(\mu\) 고정 데이터 가변, 베이즈는 \(y\) 고정 \(\mu\) 가변.
빈도주의의 \(t\) 통계량이 \(t\) 분포를 따르는 것은 CLT 와 \(\chi^2\) 의 비율 때문. 베이즈에서 \(t\) 사후가 나오는 것은 정규-Inv-\(\chi^2\) 혼합의 주변 이기 때문. 같은 결과, 다른 경로.
실용적 의미 — 작은 표본의 “t 구간 사용” 이 빈도주의/베이즈 모두에서 정당화. 중앙 95% 구간 \(\bar{y} \pm t_{n-1, 0.975} \cdot s/\sqrt{n}\) 가 양쪽 관점의 같은 숫자를 준다.
3.6 Newcomb 광속 예제
1882 년 Newcomb 의 66 개 측정. \(\bar{y} = 26.2, s = 10.8\) (데이터는 24,800 나노초 편차).
비정보 사전 하의 사후 — \(\mu\) 의 \(t_{65}\) 주변.
95% 중앙 구간: \(26.2 \pm 1.997 \cdot 10.8/\sqrt{66} = [23.6, 28.8]\).
주의 — 현재 알려진 진짜 값 33.0 이 이 구간 밖. Gelman 의 논평.
“이는 사후 추론이 오직 모델과 데이터를 생성한 실험만큼만 좋다 는 사실을 강조한다.” (교재)
두 개의 이상치가 정규 가정을 위반한다는 사실을 Ch.6 에서 사후 예측 점검으로 재검토한다.
3.7 사후 예측
새 관측 \(\tilde{y}\) 는 다음과 같이 표본.
- \((\mu, \sigma^2) \sim\) 공동 사후
- \(\tilde{y} \sim N(\mu, \sigma^2)\)
해석적 결과.
\[ \tilde{y} \mid y \sim t_{n-1}\left(\bar{y}, s\sqrt{1 + \frac{1}{n}}\right) \]
예측 분산 \(s^2(1 + 1/n)\) — 표본 변동 \(s^2\) + 평균 추정 불확실성 \(s^2/n\).
4 § 3.3 정규 켤레 사전
4.1 계층 구조
정규 미지 \(\mu, \sigma^2\) 의 켤레 — 두 모수가 독립이 아닌 조건부 구조.
\[ \mu \mid \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0), \quad \sigma^2 \sim \text{Inv-}\chi^2(\nu_0, \sigma_0^2) \]
공동.
\[ p(\mu, \sigma^2) = p(\mu \mid \sigma^2) \, p(\sigma^2) \]
이것이 정규-Inv-\(\chi^2\) 공동 켤레. 하이퍼파라미터 4 개 — \((\mu_0, \kappa_0, \nu_0, \sigma_0^2)\).
4.2 직관 — \(\mu\) 의 사전 분산이 \(\sigma^2\) 에 비례
\(\mu \mid \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0)\) 에서 \(\mu\) 의 사전 정밀도가 데이터 정밀도 \(1/\sigma^2\) 의 \(\kappa_0\) 배.
\(\kappa_0 = 1\) 이면 “관측 1 개 가치의 사전 정보”, \(\kappa_0 = 10\) 이면 “관측 10 개 가치”.
이 스케일 결합이 켤레를 가능하게 하는 핵심. \(\mu\) 와 \(\sigma^2\) 의 사전을 독립으로 잡으면 공동 켤레가 깨진다.
4.3 사후
공동 사후의 하이퍼파라미터.
\[ \mu_n = \frac{\kappa_0 \mu_0 + n\bar{y}}{\kappa_0 + n}, \quad \kappa_n = \kappa_0 + n, \quad \nu_n = \nu_0 + n \]
\[ \sigma_n^2 = \frac{\nu_0 \sigma_0^2 + (n-1)s^2 + \frac{\kappa_0 n}{\kappa_0 + n}(\bar{y} - \mu_0)^2}{\nu_n} \]
사후 = 사전 + 데이터 + (평균 차이 항). 사전 평균이 표본 평균과 멀면 사후 분산이 증가 — 충돌의 흔적.
5 § 3.4 다항 모델과 Dirichlet 사전
5.1 이항의 다범주 일반화
\(k\) 개 가능한 결과, 각 관측이 한 범주. 관측 벡터 \(y = (y_1, \ldots, y_k)\), \(\sum y_j = n\).
다항 (multinomial) 분포.
\[ p(y \mid \theta) \propto \prod_{j=1}^k \theta_j^{y_j}, \quad \sum_j \theta_j = 1 \]
5.2 Dirichlet 사전
Beta 의 다차원 일반화.
\[ p(\theta \mid \alpha) \propto \prod_{j=1}^k \theta_j^{\alpha_j - 1}, \quad \theta_j \geq 0, \sum \theta_j = 1 \]
사후.
\[ \theta \mid y \sim \text{Dirichlet}(\alpha_1 + y_1, \ldots, \alpha_k + y_k) \]
하이퍼파라미터 \(\alpha_j - 1\) 은 “범주 \(j\) 의 가상 관측 수”.
5.3 비정보 선택
- \(\alpha_j = 1\) (Laplace): 단체 (simplex) 위의 균등 분포
- \(\alpha_j = 0\) (Haldane): improper, \(\log \theta_j\) 에 균등 — 모든 범주에 최소 1 개 관측 있어야 사후 proper
5.4 1988 대선 여론조사
CBS News 1447 명 설문. \(y_1 = 727\) (Bush), \(y_2 = 583\) (Dukakis), \(y_3 = 137\) (기타/무응답).
질문 — \(\theta_1 - \theta_2\) (Bush vs Dukakis 지지율 차이) 의 사후 분포.
균등 사전 하에서 \(\theta \mid y \sim \text{Dirichlet}(728, 584, 138)\).
계산 — 해석적 적분 대신 시뮬레이션.
- 1000 회 \((\theta_1, \theta_2, \theta_3) \sim \text{Dirichlet}(728, 584, 138)\)
- 각 시뮬에서 \(\theta_1 - \theta_2\) 계산
- 히스토그램
결과 — 1000 시뮬 모두 \(\theta_1 > \theta_2\). Bush 지지가 더 많다는 사후 확률 > 99.9%.
\(\theta_1 - \theta_2\) 같은 파생량의 사후 는 시뮬레이션으로 쉽게 계산 — 공동 사후에서 표본을 뽑고 함수를 계산만 하면 된다. 이것이 § 1.9 의 \(S \times k\) 표 전략.
빈도주의에서는 델타 방법·부트스트랩 등이 필요한 반면, 베이즈는 같은 시뮬 표 하나 로 어떤 파생량에도 답한다.
6 § 3.5 다변량 정규 (알려진 \(\Sigma\))
6.1 모델
\(d\)-차원 관측 벡터 \(y \sim N(\mu, \Sigma)\). \(\mu \in \mathbb{R}^d\), \(\Sigma\) — \(d \times d\) 대칭 양정부호 공분산.
6.2 켤레 사전과 사후
\(\Sigma\) 알려진 상황에서 \(\mu \sim N(\mu_0, \Lambda_0)\) 가 켤레. 사후.
\[ \mu \mid y, \Sigma \sim N(\mu_n, \Lambda_n) \]
\[ \mu_n = (\Lambda_0^{-1} + n\Sigma^{-1})^{-1}(\Lambda_0^{-1}\mu_0 + n\Sigma^{-1}\bar{y}), \quad \Lambda_n^{-1} = \Lambda_0^{-1} + n\Sigma^{-1} \tag{3.12} \]
정밀도 행렬의 가산 — Ch.2.5 의 스칼라 정밀도 가산의 행렬 일반화. 단변량의 모든 직관이 그대로 연장.
6.3 조건부 사후 (부분 벡터)
\(\mu = (\mu^{(1)}, \mu^{(2)})\) 로 분할하면.
\[ \mu^{(1)} \mid \mu^{(2)}, y \sim N(\mu_n^{(1)} + \beta^{1|2}(\mu^{(2)} - \mu_n^{(2)}), \Lambda^{1|2}) \tag{3.13} \]
\(\beta^{1|2} = \Lambda_n^{(12)}(\Lambda_n^{(22)})^{-1}\) — 회귀 계수의 형태.
이것이 Part IV 회귀 모형 의 수학적 출발점. “한 성분에 대한 다른 성분의 조건부 평균 = 회귀식” 이라는 구조가 여기서 자연스럽게 나온다.
6.4 사후 예측
\[ E(\tilde{y} \mid y) = \mu_n, \quad \text{var}(\tilde{y} \mid y) = \Sigma + \Lambda_n \]
예측 공분산 = 표본 \(\Sigma\) + 평균 추정 \(\Lambda_n\). 단변량 공식의 행렬 버전.
7 § 3.6 다변량 정규 (미지 \(\mu, \Sigma\))
7.1 Inverse-Wishart 사전
\(\Sigma\) 의 사전 — 스케일된 Inv-\(\chi^2\) 의 다차원 일반화인 Inverse-Wishart.
\[ \Sigma \sim \text{Inv-Wishart}_{\nu_0}(\Lambda_0^{-1}), \quad \mu \mid \Sigma \sim N(\mu_0, \Sigma/\kappa_0) \]
공동 사후.
\[ \mu_n = \frac{\kappa_0 \mu_0 + n\bar{y}}{\kappa_0 + n}, \quad \kappa_n = \kappa_0 + n, \quad \nu_n = \nu_0 + n \]
\[ \Lambda_n = \Lambda_0 + S + \frac{\kappa_0 n}{\kappa_0 + n}(\bar{y} - \mu_0)(\bar{y} - \mu_0)^\top \]
\(S = \sum_i (y_i - \bar{y})(y_i - \bar{y})^\top\) — 표본 공분산의 \((n-1)\) 배 형태.
7.2 주변 사후
\(\mu\) 의 주변 — 다변량 \(t\) (단변량 \(t\) 의 벡터 일반화).
\[ \mu \mid y \sim t_{\nu_n - d + 1}\left(\mu_n, \frac{\Lambda_n}{\kappa_n(\nu_n - d + 1)}\right) \]
7.3 비정보 Jeffreys 사전
\(p(\mu, \Sigma) \propto |\Sigma|^{-(d+1)/2}\). 극한 \(\kappa_0 \to 0, \nu_0 \to -1, |\Lambda_0| \to 0\) 에서.
사후 — \(\Sigma \mid y \sim \text{Inv-Wishart}_{n-1}(S^{-1})\), \(\mu \mid \Sigma, y \sim N(\bar{y}, \Sigma/n)\).
7.4 현대 실무 — Scaled Inverse-Wishart
Inv-Wishart 의 제약 — 분산과 상관이 얽혀 있어 유연성이 떨어진다. 스케일된 Inv-Wishart.
\[ \Sigma = \text{Diag}(\xi) \, \Sigma_\eta \, \text{Diag}(\xi) \]
\(\Sigma_\eta\) 는 Inv-Wishart, \(\xi\) 는 표준편차 벡터에 각각 약정보 사전. 현대 계층 회귀 (Ch.15) 의 표준.
Inv-Wishart 사전은 모든 대각 요소에 같은 자유도 를 부여. 실제 문제에서는 변수별로 분산 스케일이 크게 다른 경우가 많다. Scaled Inv-Wishart 는 상관 행렬에만 Inv-Wishart (대각 확장 후 역계산), 분산 스케일은 별도 사전 — 이 분해가 계층 회귀의 random effect 공분산 추정을 현대적으로 만든다. LKJ 사전은 이것을 더 다듬은 최신 도구.
8 § 3.7 Bioassay 예제 — 비켤레 2 모수 격자 계산
8.1 데이터
Racine et al. (1986) — 네 개 용량에서 동물 5 마리 사망 여부.
| 용량 \(x_i\) | 관측 수 \(n_i\) | 사망 수 \(y_i\) |
|---|---|---|
| \(-0.86\) | 5 | 0 |
| \(-0.30\) | 5 | 1 |
| \(-0.05\) | 5 | 3 |
| \(0.73\) | 5 | 5 |
8.2 로지스틱 회귀 모델
\[ y_i \sim \text{Bin}(n_i, \theta_i), \quad \text{logit}(\theta_i) = \alpha + \beta x_i \]
2 모수 — \((\alpha, \beta)\).
8.3 비정보 사전과 비켤레 사후
\((\alpha, \beta)\) 에 균등 사전. 비켤레 — 닫힌 형태 없음.
사후 밀도.
\[ p(\alpha, \beta \mid y) \propto \prod_{i=1}^4 \left[\text{logit}^{-1}(\alpha + \beta x_i)\right]^{y_i} \left[1 - \text{logit}^{-1}(\alpha + \beta x_i)\right]^{n_i - y_i} \]
8.4 격자 계산
\(\alpha, \beta\) 가 2 차원이라 격자 방법 가능.
- \(\alpha \in [-5, 10]\), \(\beta \in [-10, 40]\) 의 격자 설정
- 각 격자 점에서 비정규화 사후 평가
- 격자 합으로 정규화
- 격자에서 (빗방울 떨어뜨리듯) 샘플 추출
결과 — 등고선 플롯이 \(\alpha, \beta\) 의 결합 분포. LD50 (사망률 50% 용량) = \(-\alpha/\beta\) 같은 파생량도 쉽게 계산.
2 차원까지는 격자가 정확하고 간단. 하지만 격자 점 수가 차원에 따라 지수 폭발 — 차원 저주. \(d = 5\) 정도면 이미 격자가 비현실적.
더 복잡한 모델은 Part III Ch.11~12 의 MCMC · HMC 가 필요. Ch.3 의 bioassay 는 “2 모수에서도 격자 · 시뮬레이션 기본기가 베이즈 분석을 가능하게 한다” 는 교훈의 예시.
9 § 3.8 모델링과 계산의 요약
9.1 Ch.1~3 을 종합한 전략
- 가능도 작성 \(p(y \mid \theta)\) — \(\theta\) 와 무관한 상수는 무시
- 사후 밀도 작성 \(p(\theta \mid y) \propto p(\theta) p(y \mid \theta)\) — 사전 정보가 잘 정립되면 포함, 그렇지 않으면 약정보적 사전 또는 일시적으로 \(p(\theta) \propto 1\)
- 조잡한 모수 추정 — 시작점과 비교 기준
- 사후 표본 추출 \(\theta^{(1)}, \ldots, \theta^{(S)}\) — 관심 함수의 사후 계산
- 예측량 시뮬레이션 — \(\tilde{y}^{(s)} \sim p(\tilde{y} \mid \theta^{(s)})\)
단계 4 가 핵심이자 가장 어려움. 비켤레 모델에서는 MCMC 등 Part III 의 기법 필요.
9.2 더 현실적 모델로 가는 세 가지 이유
“다모수 모델의 쉬운 계산 부재는 세 가지 이유로 주요한 실무적 제약이 아니다.”
- 단순 모델은 시뮬레이션으로 해결 (bioassay 처럼 격자 또는 직접 표본)
- 복잡한 모델은 계층 구조로 — Ch.5 및 Part III 의 계산 전략
- 정규 근사 — Ch.4 의 주요 주제, 비정규 사후에도 정규 근사가 유용
Ch.3 이 Part I 의 마지막 “단순 모델 편” 을 닫고 Ch.4 (점근) → Ch.5 (계층) → Part III (MCMC) 으로 이어지는 다리 역할.
10 빈도주의 대응 — Ch.3 의 두 얼굴
| 질문 | 빈도주의 | 베이즈 (Ch.3) |
|---|---|---|
| \(\mu\) 추정 (정규, \(\sigma^2\) 미지) | \(\bar{y} \pm t_{n-1} s/\sqrt{n}\) | \(\mu \mid y \sim t_{n-1}(\bar{y}, s^2/n)\) |
| 다항 비율 차 \(\theta_1 - \theta_2\) | 델타 방법·부트스트랩 | Dirichlet 사후의 시뮬레이션 |
| 다변량 평균 \(\mu\) | \(\bar{y}\), Hotelling \(T^2\) | 다변량 \(t\) 사후 |
| 공분산 \(\Sigma\) 추정 | 표본 공분산 \(S/(n-1)\) | Inv-Wishart 사후 |
| 2-모수 비선형 회귀 | MLE + 델타 | 격자 또는 MCMC 사후 |
같은 숫자, 다른 해석 이 자주 성립하지만, 베이즈는 파생량 · 주변 사후 · 예측 분포를 시뮬레이션 하나로 처리 한다는 점이 결정적 이점.
11 코드 예제 — Newcomb 광속 정규 공동 사후
11.1 Step 1: 순수 Python — \(\mu, \sigma^2\) 공동 사후 표본
import math
import random
random.seed(42)
# Newcomb 데이터 요약: ȳ = 26.2, s = 10.8, n = 66
y_bar, s, n = 26.2, 10.8, 66
def sample_inv_chi2(nu, s2):
# σ² ~ Inv-χ²(ν, s²) = ν s² / χ²_ν
chi2 = sum((random.gauss(0, 1) ** 2 for _ in range(int(nu))))
return nu * s2 / chi2
def sample_normal(mu, sigma):
return random.gauss(mu, sigma)
S = 5000
mu_samples = []
sigma2_samples = []
for _ in range(S):
sigma2 = sample_inv_chi2(n - 1, s ** 2)
mu = sample_normal(y_bar, math.sqrt(sigma2 / n))
mu_samples.append(mu)
sigma2_samples.append(sigma2)
# μ 사후 요약
mu_sorted = sorted(mu_samples)
mu_median = mu_sorted[S // 2]
mu_lo, mu_hi = mu_sorted[int(0.025 * S)], mu_sorted[int(0.975 * S)]
print(f"μ 사후 중앙값: {mu_median:.2f}")
print(f"μ 95% 구간: [{mu_lo:.2f}, {mu_hi:.2f}]")
# σ² 사후 요약
s2_sorted = sorted(sigma2_samples)
print(f"σ² 사후 중앙값: {s2_sorted[S // 2]:.2f}")
# 진짜 값 33.0 이 구간에 포함되는가
included = sum(1 for m in mu_samples if 23 <= m <= 29) / S
print(f"μ ∈ [23, 29] 사후 확률: {included:.3f}")예상 출력 — \(\mu\) 95% 구간 ≈ [23.6, 28.8], 진짜 값 33.0 을 포함하지 않음. 정규 모델과 데이터 이상치의 충돌 신호.
11.2 Step 2: NumPy/scipy — 벡터화 + 사후 예측
import numpy as np
from scipy import stats
np.random.seed(42)
y_bar, s, n = 26.2, 10.8, 66
S = 10000
# σ² ~ Inv-χ²(n-1, s²)
chi2_samples = stats.chi2.rvs(df=n-1, size=S)
sigma2_samples = (n - 1) * s ** 2 / chi2_samples
# μ | σ² ~ N(ȳ, σ²/n)
mu_samples = np.random.normal(y_bar, np.sqrt(sigma2_samples / n))
# 사후 예측 — ỹ ~ N(μ, σ²)
y_tilde = np.random.normal(mu_samples, np.sqrt(sigma2_samples))
# 해석적 t_{n-1}(ȳ, s²/n) 구간과 비교
t_lo, t_hi = stats.t.ppf([0.025, 0.975], df=n-1) * s / np.sqrt(n) + y_bar
print(f"μ 시뮬 95% 구간: [{np.percentile(mu_samples, 2.5):.3f}, {np.percentile(mu_samples, 97.5):.3f}]")
print(f"μ 해석적 t 구간: [{t_lo:.3f}, {t_hi:.3f}]")
print(f"ỹ 사후 예측 95% 구간: [{np.percentile(y_tilde, 2.5):.3f}, {np.percentile(y_tilde, 97.5):.3f}]")예상 출력 — 두 구간이 거의 일치 (시뮬 불확실성 내). 예측 구간이 훨씬 넓음 — 표본 변동 \(\sigma^2\) 가 모수 불확실성 \(\sigma^2/n\) 보다 훨씬 큼.
12 관련 주제
Ch.1~2 심화 (선행)
- Ch.1 Probability and Inference 개요 + § 1.1~1.4 · § 1.5~1.8 · § 1.9·1.10·1.12
- Ch.2 Single-Parameter 개요 + § 2.1~2.4 · § 2.5~2.7 · § 2.8~2.11
Part I~V 전체
빈도주의 대응
- Student’s \(t\) 분포
- MLE · 점 추정 · 신뢰 구간
- GLM 이론 기초 — bioassay 예제의 GLM 연결
후속 Ch.4~5 상세 (작성 예정)
- Ch.4 Asymptotics and Connections to Non-Bayesian Approaches
- Ch.5 Hierarchical Models — 8 schools · shrinkage · rat tumor
13 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.3.
- Box, G. E. P., & Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Addison-Wesley.
- Stigler, S. M. (1977). Do robust estimators work with real data? Annals of Statistics, 5(6), 1055–1098. [Newcomb 데이터]
- Racine, A., Grieve, A. P., Fluhler, H., & Smith, A. F. M. (1986). Bayesian methods in practice: Experiences in the pharmaceutical industry. Applied Statistics, 35(2), 93–150. [Bioassay 데이터]
- Lewandowski, D., Kurowicka, D., & Joe, H. (2009). Generating random correlation matrices based on vines and extended onion method. Journal of Multivariate Analysis, 100(9), 1989–2001. [LKJ 사전]