Kwangmin Kim - Ch.3 Introduction to Multiparameter Models

1 Ch.3 의 위치 — “하나의 모수” 에서 “여러 모수” 로

Ch.2 의 모델은 모두 단일 모수 — 이항의 \(\theta\), 정규의 \(\mu\) (분산 고정) 또는 \(\sigma^2\) (평균 고정), Poisson 의 rate. 그러나 현실 문제는 거의 항상 여러 미지량 을 포함한다. Ch.3 는 이 다모수 세계로의 확장을 다룬다.

Ch.3 의 한 줄 요약

“다모수 문제에서도 베이즈의 개념적 단순함이 그대로 유지된다. 핵심 기법은 ‘모든 모수의 공동 사후를 계산한 뒤 관심 없는 모수를 주변화’ 한 것 — 그리고 이 주변화는 시뮬레이션 (Ch.1.9) 으로 거의 자동으로 이루어진다.”

Ch.2 가 단일 모수의 문법이었다면 Ch.3 는 같은 문법을 벡터 \(\theta\) 에 확장 하고, Part IV~V 회귀·계층 모형의 수학적 토대를 마련한다 (Gelman et al., 2013, Ch.3).

Ch.3 의 구성.

절	핵심	역할
§ 3.1	nuisance 모수 주변화	다모수의 근본 기법
§ 3.2	\(\mu, \sigma^2\) 비정보 사전	Newcomb 광속 예제, \(t_{n-1}\) 사후
§ 3.3	정규 켤레 사전	정규-Inv-\(\chi^2\) 공동 켤레
§ 3.4	다항·Dirichlet	1988 대선 여론조사 (\(y_1, y_2, y_3\))
§ 3.5	다변량 정규 (알려진 \(\Sigma\))	선형 모형의 수학적 기초
§ 3.6	다변량 정규 (미지 \(\mu, \Sigma\))	Inverse-Wishart 켤레
§ 3.7	Bioassay 예제	비켤레 2 모수 격자 계산
§ 3.8	모델링 전략 요약	Ch.1~3 의 실무 체크리스트

2 § 3.1 Nuisance 모수의 주변화

2.1 문제 설정

\(\theta = (\theta_1, \theta_2)\), 관심사는 \(\theta_1\), \(\theta_2\) 는 nuisance 모수. 예 — 측정 문제에서 \(\mu\) 가 관심, \(\sigma^2\) 가 nuisance.

관심 분포는 조건부 사후 \(p(\theta_1 \mid y)\). 공동 사후.

\[ p(\theta_1, \theta_2 \mid y) \propto p(y \mid \theta_1, \theta_2) \, p(\theta_1, \theta_2) \]

에서 \(\theta_2\) 를 적분 소거.

\[ p(\theta_1 \mid y) = \int p(\theta_1, \theta_2 \mid y) \, d\theta_2 \]

2.2 주변화의 분해 형태

조건부·주변으로 분해.

\[ p(\theta_1 \mid y) = \int p(\theta_1 \mid \theta_2, y) \, p(\theta_2 \mid y) \, d\theta_2 \tag{3.1} \]

관심 사후 = 조건부 사후들의 혼합, 가중치는 \(p(\theta_2 \mid y)\).

직관 — 주변화는 “가능한 \(\theta_2\) 값에 대한 평균”

\(\theta_2\) 를 모른다면, 그 사후 분포가 제공하는 모든 가능한 값을 가중 평균 한다. 각 가중치는 “이 \(\theta_2\) 값이 데이터와 얼마나 일치하는가”. 결과는 \(\theta_2\) 의 불확실성을 \(\theta_1\) 의 추론에 자연스럽게 전파 하는 분포.

이것이 베이즈의 결정적 강점 — 빈도주의에서는 nuisance 모수를 점 추정 (\(\hat{\sigma}^2 = s^2\)) 한 뒤 \(\theta_1\) 추론하는데, 이는 \(\sigma^2\) 불확실성을 반영 못 함. 베이즈 주변화는 자동으로 전파한다.

2.3 시뮬레이션 전략

식 (3.1) 을 명시적으로 적분하는 대신 보통 시뮬레이션으로 해결.

\(\theta_2^{(s)} \sim p(\theta_2 \mid y)\)
\(\theta_1^{(s)} \sim p(\theta_1 \mid \theta_2^{(s)}, y)\)
\((\theta_1^{(1)}, \ldots, \theta_1^{(S)})\) 를 요약

단순 기법 — “조건부 공액 구조를 이용해 분해하고 순차적으로 표본”. Ch.3 의 모든 예제가 이 패턴을 쓴다. Ch.11 의 Gibbs 표본추출기가 이 아이디어의 일반화.

3 § 3.2 미지 \(\mu, \sigma^2\) 의 정규 — 비정보 사전

3.1 모델과 사전

관측 \(y = (y_1, \ldots, y_n)\) iid \(N(\mu, \sigma^2)\), 둘 다 미지. 위치-스케일 독립의 비정보 사전.

\[ p(\mu, \sigma^2) \propto (\sigma^2)^{-1} \]

이는 \(p(\mu, \log \sigma) \propto 1\) 과 동치 — 위치 모수에 균등, 로그 스케일에 균등.

3.2 공동 사후

\[ p(\mu, \sigma^2 \mid y) \propto \sigma^{-n-2} \exp\left(-\frac{1}{2\sigma^2}[(n-1)s^2 + n(\bar{y} - \mu)^2]\right) \tag{3.2} \]

여기서 충분통계량 은 \((\bar{y}, s^2)\), \(s^2 = \frac{1}{n-1} \sum (y_i - \bar{y})^2\).

3.3 조건부 · 주변 분해

조건부 \(p(\mu \mid \sigma^2, y)\) — Ch.2.5 와 정확히 같음.

\[ \mu \mid \sigma^2, y \sim N(\bar{y}, \sigma^2/n) \tag{3.3} \]

주변 \(p(\sigma^2 \mid y)\) — 식 (3.2) 에서 \(\mu\) 적분 소거. 정규 적분을 수행하면.

\[ \sigma^2 \mid y \sim \text{Inv-}\chi^2(n - 1, s^2) \tag{3.5} \]

이것이 빈도주의 \(\chi^2_{n-1}\) 분포 와 정확히 대응 — \((n-1)s^2/\sigma^2 \sim \chi^2_{n-1}\).

3.4 공동 사후 표본 추출

간단한 두 단계.

\(\sigma^2 \sim \text{Inv-}\chi^2(n-1, s^2)\)
\(\mu \mid \sigma^2 \sim N(\bar{y}, \sigma^2/n)\)

3.5 \(\mu\) 의 주변 사후 — \(t\) 분포

식 (3.1) 과 동일 패턴 — 정규 조건부 × Inv-\(\chi^2\) 주변의 혼합. 적분 수행 후.

\[ \mu \mid y \sim t_{n-1}(\bar{y}, s^2/n) \]

또는 표준화 형태.

\[ \frac{\mu - \bar{y}}{s/\sqrt{n}} \mid y \sim t_{n-1} \]

빈도주의의 \(t\) 통계량과 동일 분포 — 그러나 해석이 뒤집혀 있다.

프레임워크	진술
빈도주의	\((\bar{y} - \mu)/(s/\sqrt{n}) \mid \mu, \sigma^2 \sim t_{n-1}\) — 추정량의 표본 분포
베이즈	\((\mu - \bar{y})/(s/\sqrt{n}) \mid y \sim t_{n-1}\) — 모수의 사후 분포

두 진술은 같은 \(t\) 분포 를 주지만 조건부의 의미가 반대. 빈도주의는 \(\mu\) 고정 데이터 가변, 베이즈는 \(y\) 고정 \(\mu\) 가변.

직관 — Student’s \(t\) 의 두 얼굴

빈도주의의 \(t\) 통계량이 \(t\) 분포를 따르는 것은 CLT 와 \(\chi^2\) 의 비율 때문. 베이즈에서 \(t\) 사후가 나오는 것은 정규-Inv-\(\chi^2\) 혼합의 주변 이기 때문. 같은 결과, 다른 경로.

실용적 의미 — 작은 표본의 “t 구간 사용” 이 빈도주의/베이즈 모두에서 정당화. 중앙 95% 구간 \(\bar{y} \pm t_{n-1, 0.975} \cdot s/\sqrt{n}\) 가 양쪽 관점의 같은 숫자를 준다.

3.6 Newcomb 광속 예제

1882 년 Newcomb 의 66 개 측정. \(\bar{y} = 26.2, s = 10.8\) (데이터는 24,800 나노초 편차).

비정보 사전 하의 사후 — \(\mu\) 의 \(t_{65}\) 주변.

95% 중앙 구간: \(26.2 \pm 1.997 \cdot 10.8/\sqrt{66} = [23.6, 28.8]\).

주의 — 현재 알려진 진짜 값 33.0 이 이 구간 밖. Gelman 의 논평.

“이는 사후 추론이 오직 모델과 데이터를 생성한 실험만큼만 좋다 는 사실을 강조한다.” (교재)

두 개의 이상치가 정규 가정을 위반한다는 사실을 Ch.6 에서 사후 예측 점검으로 재검토한다.

3.7 사후 예측

새 관측 \(\tilde{y}\) 는 다음과 같이 표본.

\((\mu, \sigma^2) \sim\) 공동 사후
\(\tilde{y} \sim N(\mu, \sigma^2)\)

해석적 결과.

\[ \tilde{y} \mid y \sim t_{n-1}\left(\bar{y}, s\sqrt{1 + \frac{1}{n}}\right) \]

예측 분산 \(s^2(1 + 1/n)\) — 표본 변동 \(s^2\) + 평균 추정 불확실성 \(s^2/n\).

4 § 3.3 정규 켤레 사전

4.1 계층 구조

정규 미지 \(\mu, \sigma^2\) 의 켤레 — 두 모수가 독립이 아닌 조건부 구조.

\[ \mu \mid \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0), \quad \sigma^2 \sim \text{Inv-}\chi^2(\nu_0, \sigma_0^2) \]

공동.

\[ p(\mu, \sigma^2) = p(\mu \mid \sigma^2) \, p(\sigma^2) \]

이것이 정규-Inv-\(\chi^2\) 공동 켤레. 하이퍼파라미터 4 개 — \((\mu_0, \kappa_0, \nu_0, \sigma_0^2)\).

4.2 직관 — \(\mu\) 의 사전 분산이 \(\sigma^2\) 에 비례

\(\mu \mid \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0)\) 에서 \(\mu\) 의 사전 정밀도가 데이터 정밀도 \(1/\sigma^2\) 의 \(\kappa_0\) 배.

\(\kappa_0 = 1\) 이면 “관측 1 개 가치의 사전 정보”, \(\kappa_0 = 10\) 이면 “관측 10 개 가치”.

이 스케일 결합이 켤레를 가능하게 하는 핵심. \(\mu\) 와 \(\sigma^2\) 의 사전을 독립으로 잡으면 공동 켤레가 깨진다.

4.3 사후

공동 사후의 하이퍼파라미터.

\[ \mu_n = \frac{\kappa_0 \mu_0 + n\bar{y}}{\kappa_0 + n}, \quad \kappa_n = \kappa_0 + n, \quad \nu_n = \nu_0 + n \]

\[ \sigma_n^2 = \frac{\nu_0 \sigma_0^2 + (n-1)s^2 + \frac{\kappa_0 n}{\kappa_0 + n}(\bar{y} - \mu_0)^2}{\nu_n} \]

사후 = 사전 + 데이터 + (평균 차이 항). 사전 평균이 표본 평균과 멀면 사후 분산이 증가 — 충돌의 흔적.

5 § 3.4 다항 모델과 Dirichlet 사전

5.1 이항의 다범주 일반화

\(k\) 개 가능한 결과, 각 관측이 한 범주. 관측 벡터 \(y = (y_1, \ldots, y_k)\), \(\sum y_j = n\).

다항 (multinomial) 분포.

\[ p(y \mid \theta) \propto \prod_{j=1}^k \theta_j^{y_j}, \quad \sum_j \theta_j = 1 \]

5.2 Dirichlet 사전

Beta 의 다차원 일반화.

\[ p(\theta \mid \alpha) \propto \prod_{j=1}^k \theta_j^{\alpha_j - 1}, \quad \theta_j \geq 0, \sum \theta_j = 1 \]

사후.

\[ \theta \mid y \sim \text{Dirichlet}(\alpha_1 + y_1, \ldots, \alpha_k + y_k) \]

하이퍼파라미터 \(\alpha_j - 1\) 은 “범주 \(j\) 의 가상 관측 수”.

5.3 비정보 선택

\(\alpha_j = 1\) (Laplace): 단체 (simplex) 위의 균등 분포
\(\alpha_j = 0\) (Haldane): improper, \(\log \theta_j\) 에 균등 — 모든 범주에 최소 1 개 관측 있어야 사후 proper

5.4 1988 대선 여론조사

CBS News 1447 명 설문. \(y_1 = 727\) (Bush), \(y_2 = 583\) (Dukakis), \(y_3 = 137\) (기타/무응답).

질문 — \(\theta_1 - \theta_2\) (Bush vs Dukakis 지지율 차이) 의 사후 분포.

균등 사전 하에서 \(\theta \mid y \sim \text{Dirichlet}(728, 584, 138)\).

계산 — 해석적 적분 대신 시뮬레이션.

1000 회 \((\theta_1, \theta_2, \theta_3) \sim \text{Dirichlet}(728, 584, 138)\)
각 시뮬에서 \(\theta_1 - \theta_2\) 계산
히스토그램

결과 — 1000 시뮬 모두 \(\theta_1 > \theta_2\). Bush 지지가 더 많다는 사후 확률 > 99.9%.

직관 — 다항 사후의 파생량 추론

\(\theta_1 - \theta_2\) 같은 파생량의 사후 는 시뮬레이션으로 쉽게 계산 — 공동 사후에서 표본을 뽑고 함수를 계산만 하면 된다. 이것이 § 1.9 의 \(S \times k\) 표 전략.

빈도주의에서는 델타 방법·부트스트랩 등이 필요한 반면, 베이즈는 같은 시뮬 표 하나 로 어떤 파생량에도 답한다.

6 § 3.5 다변량 정규 (알려진 \(\Sigma\))

6.1 모델

\(d\)-차원 관측 벡터 \(y \sim N(\mu, \Sigma)\). \(\mu \in \mathbb{R}^d\), \(\Sigma\) — \(d \times d\) 대칭 양정부호 공분산.

6.2 켤레 사전과 사후

\(\Sigma\) 알려진 상황에서 \(\mu \sim N(\mu_0, \Lambda_0)\) 가 켤레. 사후.

\[ \mu \mid y, \Sigma \sim N(\mu_n, \Lambda_n) \]

\[ \mu_n = (\Lambda_0^{-1} + n\Sigma^{-1})^{-1}(\Lambda_0^{-1}\mu_0 + n\Sigma^{-1}\bar{y}), \quad \Lambda_n^{-1} = \Lambda_0^{-1} + n\Sigma^{-1} \tag{3.12} \]

정밀도 행렬의 가산 — Ch.2.5 의 스칼라 정밀도 가산의 행렬 일반화. 단변량의 모든 직관이 그대로 연장.

6.3 조건부 사후 (부분 벡터)

\(\mu = (\mu^{(1)}, \mu^{(2)})\) 로 분할하면.

\[ \mu^{(1)} \mid \mu^{(2)}, y \sim N(\mu_n^{(1)} + \beta^{1|2}(\mu^{(2)} - \mu_n^{(2)}), \Lambda^{1|2}) \tag{3.13} \]

\(\beta^{1|2} = \Lambda_n^{(12)}(\Lambda_n^{(22)})^{-1}\) — 회귀 계수의 형태.

이것이 Part IV 회귀 모형 의 수학적 출발점. “한 성분에 대한 다른 성분의 조건부 평균 = 회귀식” 이라는 구조가 여기서 자연스럽게 나온다.

6.4 사후 예측

\[ E(\tilde{y} \mid y) = \mu_n, \quad \text{var}(\tilde{y} \mid y) = \Sigma + \Lambda_n \]

예측 공분산 = 표본 \(\Sigma\) + 평균 추정 \(\Lambda_n\). 단변량 공식의 행렬 버전.

7 § 3.6 다변량 정규 (미지 \(\mu, \Sigma\))

7.1 Inverse-Wishart 사전

\(\Sigma\) 의 사전 — 스케일된 Inv-\(\chi^2\) 의 다차원 일반화인 Inverse-Wishart.

\[ \Sigma \sim \text{Inv-Wishart}_{\nu_0}(\Lambda_0^{-1}), \quad \mu \mid \Sigma \sim N(\mu_0, \Sigma/\kappa_0) \]

공동 사후.

\[ \mu_n = \frac{\kappa_0 \mu_0 + n\bar{y}}{\kappa_0 + n}, \quad \kappa_n = \kappa_0 + n, \quad \nu_n = \nu_0 + n \]

\[ \Lambda_n = \Lambda_0 + S + \frac{\kappa_0 n}{\kappa_0 + n}(\bar{y} - \mu_0)(\bar{y} - \mu_0)^\top \]

\(S = \sum_i (y_i - \bar{y})(y_i - \bar{y})^\top\) — 표본 공분산의 \((n-1)\) 배 형태.

7.2 주변 사후

\(\mu\) 의 주변 — 다변량 \(t\) (단변량 \(t\) 의 벡터 일반화).

\[ \mu \mid y \sim t_{\nu_n - d + 1}\left(\mu_n, \frac{\Lambda_n}{\kappa_n(\nu_n - d + 1)}\right) \]

7.3 비정보 Jeffreys 사전

\(p(\mu, \Sigma) \propto |\Sigma|^{-(d+1)/2}\). 극한 \(\kappa_0 \to 0, \nu_0 \to -1, |\Lambda_0| \to 0\) 에서.

사후 — \(\Sigma \mid y \sim \text{Inv-Wishart}_{n-1}(S^{-1})\), \(\mu \mid \Sigma, y \sim N(\bar{y}, \Sigma/n)\).

7.4 현대 실무 — Scaled Inverse-Wishart

Inv-Wishart 의 제약 — 분산과 상관이 얽혀 있어 유연성이 떨어진다. 스케일된 Inv-Wishart.

\[ \Sigma = \text{Diag}(\xi) \, \Sigma_\eta \, \text{Diag}(\xi) \]

\(\Sigma_\eta\) 는 Inv-Wishart, \(\xi\) 는 표준편차 벡터에 각각 약정보 사전. 현대 계층 회귀 (Ch.15) 의 표준.

직관 — 왜 Inv-Wishart 만으로는 부족한가

Inv-Wishart 사전은 모든 대각 요소에 같은 자유도 를 부여. 실제 문제에서는 변수별로 분산 스케일이 크게 다른 경우가 많다. Scaled Inv-Wishart 는 상관 행렬에만 Inv-Wishart (대각 확장 후 역계산), 분산 스케일은 별도 사전 — 이 분해가 계층 회귀의 random effect 공분산 추정을 현대적으로 만든다. LKJ 사전은 이것을 더 다듬은 최신 도구.

8 § 3.7 Bioassay 예제 — 비켤레 2 모수 격자 계산

8.1 데이터

Racine et al. (1986) — 네 개 용량에서 동물 5 마리 사망 여부.

용량 \(x_i\)	관측 수 \(n_i\)	사망 수 \(y_i\)
\(-0.86\)	5	0
\(-0.30\)	5	1
\(-0.05\)	5	3
\(0.73\)	5	5

8.2 로지스틱 회귀 모델

\[ y_i \sim \text{Bin}(n_i, \theta_i), \quad \text{logit}(\theta_i) = \alpha + \beta x_i \]

2 모수 — \((\alpha, \beta)\).

8.3 비정보 사전과 비켤레 사후

\((\alpha, \beta)\) 에 균등 사전. 비켤레 — 닫힌 형태 없음.

사후 밀도.

\[ p(\alpha, \beta \mid y) \propto \prod_{i=1}^4 \left[\text{logit}^{-1}(\alpha + \beta x_i)\right]^{y_i} \left[1 - \text{logit}^{-1}(\alpha + \beta x_i)\right]^{n_i - y_i} \]

8.4 격자 계산

\(\alpha, \beta\) 가 2 차원이라 격자 방법 가능.

\(\alpha \in [-5, 10]\), \(\beta \in [-10, 40]\) 의 격자 설정
각 격자 점에서 비정규화 사후 평가
격자 합으로 정규화
격자에서 (빗방울 떨어뜨리듯) 샘플 추출

결과 — 등고선 플롯이 \(\alpha, \beta\) 의 결합 분포. LD50 (사망률 50% 용량) = \(-\alpha/\beta\) 같은 파생량도 쉽게 계산.

직관 — 격자 계산의 한계와 일반성

2 차원까지는 격자가 정확하고 간단. 하지만 격자 점 수가 차원에 따라 지수 폭발 — 차원 저주. \(d = 5\) 정도면 이미 격자가 비현실적.

더 복잡한 모델은 Part III Ch.11~12 의 MCMC · HMC 가 필요. Ch.3 의 bioassay 는 “2 모수에서도 격자 · 시뮬레이션 기본기가 베이즈 분석을 가능하게 한다” 는 교훈의 예시.

9 § 3.8 모델링과 계산의 요약

9.1 Ch.1~3 을 종합한 전략

가능도 작성 \(p(y \mid \theta)\) — \(\theta\) 와 무관한 상수는 무시
사후 밀도 작성 \(p(\theta \mid y) \propto p(\theta) p(y \mid \theta)\) — 사전 정보가 잘 정립되면 포함, 그렇지 않으면 약정보적 사전 또는 일시적으로 \(p(\theta) \propto 1\)
조잡한 모수 추정 — 시작점과 비교 기준
사후 표본 추출 \(\theta^{(1)}, \ldots, \theta^{(S)}\) — 관심 함수의 사후 계산
예측량 시뮬레이션 — \(\tilde{y}^{(s)} \sim p(\tilde{y} \mid \theta^{(s)})\)

단계 4 가 핵심이자 가장 어려움. 비켤레 모델에서는 MCMC 등 Part III 의 기법 필요.

9.2 더 현실적 모델로 가는 세 가지 이유

“다모수 모델의 쉬운 계산 부재는 세 가지 이유로 주요한 실무적 제약이 아니다.”

단순 모델은 시뮬레이션으로 해결 (bioassay 처럼 격자 또는 직접 표본)
복잡한 모델은 계층 구조로 — Ch.5 및 Part III 의 계산 전략
정규 근사 — Ch.4 의 주요 주제, 비정규 사후에도 정규 근사가 유용

Ch.3 이 Part I 의 마지막 “단순 모델 편” 을 닫고 Ch.4 (점근) → Ch.5 (계층) → Part III (MCMC) 으로 이어지는 다리 역할.

10 빈도주의 대응 — Ch.3 의 두 얼굴

질문	빈도주의	베이즈 (Ch.3)
\(\mu\) 추정 (정규, \(\sigma^2\) 미지)	\(\bar{y} \pm t_{n-1} s/\sqrt{n}\)	\(\mu \mid y \sim t_{n-1}(\bar{y}, s^2/n)\)
다항 비율 차 \(\theta_1 - \theta_2\)	델타 방법·부트스트랩	Dirichlet 사후의 시뮬레이션
다변량 평균 \(\mu\)	\(\bar{y}\), Hotelling \(T^2\)	다변량 \(t\) 사후
공분산 \(\Sigma\) 추정	표본 공분산 \(S/(n-1)\)	Inv-Wishart 사후
2-모수 비선형 회귀	MLE + 델타	격자 또는 MCMC 사후

같은 숫자, 다른 해석 이 자주 성립하지만, 베이즈는 파생량 · 주변 사후 · 예측 분포를 시뮬레이션 하나로 처리 한다는 점이 결정적 이점.

11 코드 예제 — Newcomb 광속 정규 공동 사후

11.1 Step 1: 순수 Python — \(\mu, \sigma^2\) 공동 사후 표본

import math
import random

random.seed(42)

# Newcomb 데이터 요약: ȳ = 26.2, s = 10.8, n = 66
y_bar, s, n = 26.2, 10.8, 66

def sample_inv_chi2(nu, s2):
    # σ² ~ Inv-χ²(ν, s²) = ν s² / χ²_ν
    chi2 = sum((random.gauss(0, 1) ** 2 for _ in range(int(nu))))
    return nu * s2 / chi2

def sample_normal(mu, sigma):
    return random.gauss(mu, sigma)

S = 5000
mu_samples = []
sigma2_samples = []

for _ in range(S):
    sigma2 = sample_inv_chi2(n - 1, s ** 2)
    mu = sample_normal(y_bar, math.sqrt(sigma2 / n))
    mu_samples.append(mu)
    sigma2_samples.append(sigma2)

# μ 사후 요약
mu_sorted = sorted(mu_samples)
mu_median = mu_sorted[S // 2]
mu_lo, mu_hi = mu_sorted[int(0.025 * S)], mu_sorted[int(0.975 * S)]

print(f"μ 사후 중앙값: {mu_median:.2f}")
print(f"μ 95% 구간: [{mu_lo:.2f}, {mu_hi:.2f}]")

# σ² 사후 요약
s2_sorted = sorted(sigma2_samples)
print(f"σ² 사후 중앙값: {s2_sorted[S // 2]:.2f}")

# 진짜 값 33.0 이 구간에 포함되는가
included = sum(1 for m in mu_samples if 23 <= m <= 29) / S
print(f"μ ∈ [23, 29] 사후 확률: {included:.3f}")

예상 출력 — \(\mu\) 95% 구간 ≈ [23.6, 28.8], 진짜 값 33.0 을 포함하지 않음. 정규 모델과 데이터 이상치의 충돌 신호.

11.2 Step 2: NumPy/scipy — 벡터화 + 사후 예측

import numpy as np
from scipy import stats

np.random.seed(42)

y_bar, s, n = 26.2, 10.8, 66
S = 10000

# σ² ~ Inv-χ²(n-1, s²)
chi2_samples = stats.chi2.rvs(df=n-1, size=S)
sigma2_samples = (n - 1) * s ** 2 / chi2_samples

# μ | σ² ~ N(ȳ, σ²/n)
mu_samples = np.random.normal(y_bar, np.sqrt(sigma2_samples / n))

# 사후 예측 — ỹ ~ N(μ, σ²)
y_tilde = np.random.normal(mu_samples, np.sqrt(sigma2_samples))

# 해석적 t_{n-1}(ȳ, s²/n) 구간과 비교
t_lo, t_hi = stats.t.ppf([0.025, 0.975], df=n-1) * s / np.sqrt(n) + y_bar

print(f"μ 시뮬 95% 구간:      [{np.percentile(mu_samples, 2.5):.3f}, {np.percentile(mu_samples, 97.5):.3f}]")
print(f"μ 해석적 t 구간:      [{t_lo:.3f}, {t_hi:.3f}]")
print(f"ỹ 사후 예측 95% 구간: [{np.percentile(y_tilde, 2.5):.3f}, {np.percentile(y_tilde, 97.5):.3f}]")

예상 출력 — 두 구간이 거의 일치 (시뮬 불확실성 내). 예측 구간이 훨씬 넓음 — 표본 변동 \(\sigma^2\) 가 모수 불확실성 \(\sigma^2/n\) 보다 훨씬 큼.

12 관련 주제

Ch.1~2 심화 (선행)

Ch.1 Probability and Inference 개요 + § 1.1~1.4 · § 1.5~1.8 · § 1.9·1.10·1.12
Ch.2 Single-Parameter 개요 + § 2.1~2.4 · § 2.5~2.7 · § 2.8~2.11

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

후속 Ch.4~5 상세 (작성 예정)

Ch.4 Asymptotics and Connections to Non-Bayesian Approaches
Ch.5 Hierarchical Models — 8 schools · shrinkage · rat tumor

13 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.3.
Box, G. E. P., & Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Addison-Wesley.
Stigler, S. M. (1977). Do robust estimators work with real data? Annals of Statistics, 5(6), 1055–1098. [Newcomb 데이터]
Racine, A., Grieve, A. P., Fluhler, H., & Smith, A. F. M. (1986). Bayesian methods in practice: Experiences in the pharmaceutical industry. Applied Statistics, 35(2), 93–150. [Bioassay 데이터]
Lewandowski, D., Kurowicka, D., & Joe, H. (2009). Generating random correlation matrices based on vines and extended onion method. Journal of Multivariate Analysis, 100(9), 1989–2001. [LKJ 사전]