1 이 포스트의 위치 — Ch.5 의 종결과 Part I 의 마지막
Ch.5 개요 가 계층 모형의 전 지도, § 5.1~5.3 심화 가 Beta-Binomial, § 5.4~5.6 심화 가 정규·8 학교·메타분석이었다. 이 포스트는 § 5.7~5.9 를 통해 Ch.5 와 Part I (Ch.1~5) 을 닫는다.
“계층 분산 모수 \(\tau\) 에 대한 사전 선택이 소규모 그룹 (\(J\) 작음) 에서 결정적이다. 8 학교에서는 균등 사전이 충분하지만 3 학교 같은 극단에서는 Half-Cauchy 같은 약정보 사전이 필요하다. 연습문제들이 교환가능성과 계층 구조의 미묘함을 드러낸다.”
Part I (Ch.1~5) 을 닫는 마지막 심화 포스트 — 이후 Part II (Ch.6~9) 의 모델 점검으로 진행 (Gelman et al., 2013, Ch.5.7~5.9).
2 § 5.7 계층 분산 모수의 약정보 사전
2.1 왜 분산 모수의 사전이 중요한가
계층 모형에서 \(\tau\) (그룹 간 표준편차) 에 대한 사전 선택이 결과에 큰 영향을 준다. 특히.
- \(J\) (그룹 수) 작을 때 — 데이터가 \(\tau\) 에 대해 약한 정보만 제공
- \(\tau\) 실제 작을 때 — 사후가 0 근처에 몰려 사전에 민감
Gelman (2006a) 의 강조 — “모든 비정보적/약정보적 사전은 잠정적. 사후 적합 후 결과가 말이 되는지 확인, 안 되면 추가 지식 반영”.
2.2 사전의 세 가지 후보
Uniform on \(\log\tau\) — 제약 없는 실수 균등.
\[ p(\log\tau) \propto 1 \quad \Leftrightarrow \quad p(\tau) \propto 1/\tau \]
문제. 계층 모형에서 \(\tau \to 0\) 에서 가능도가 유한. \(p(\tau) \propto 1/\tau\) 는 \(\tau \to 0\) 에서 발산 → 사후가 \(\log\tau \to -\infty\) 로 무한 질량 → improper.
“계층 모형에서 데이터가 \(\tau = 0\) 을 결코 배제할 수 없으므로, 사전이 이 영역에 무한 질량을 둘 수 없다.” (교재)
Uniform on \(\tau\) — Ch.5.5 에서 8 학교에 사용.
\[ p(\tau) \propto 1, \quad \tau \geq 0 \]
장점 — \(\tau = 0\) 근처에서 유한 질량. \(J \geq 3\) 이면 사후 proper.
단점 — \(\tau \to \infty\) 쪽으로 무한 질량. 약간의 miscalibration toward positive (양수 쪽 편향). \(J = 1, 2\) 에서는 사후 improper — “\(\tau = \infty\), no pooling” 결론.
Uniform on \(\tau^2\) — \(p(\tau^2) \propto 1\).
더 큰 우측 편향. \(J \geq 4\) 필요. 권장 안 함.
2.3 Inverse-Gamma(\(\epsilon, \epsilon\)) — 전통적 “비정보”
\(\tau^2\) 에 Inverse-Gamma(\(\epsilon, \epsilon\)) 사전 (작은 \(\epsilon\), 예 0.001).
\[ p(\tau^2) \propto (\tau^2)^{-\epsilon - 1} e^{-\epsilon/\tau^2} \]
장점 — 조건부 켤레 (given \(\theta, \mu\), \(\tau^2\) 의 조건부 사후도 Inv-Gamma).
결정적 단점 — \(\epsilon \to 0\) 극한이 improper 사후. \(\epsilon\) 이 “낮은 값” 이어도 — 낮은 \(\tau\) 가능한 데이터셋에서 추론이 \(\epsilon\) 에 민감. “비정보적” 이라는 외관에 속지 말아야.
Inverse-Gamma(\(0.001, 0.001\)) 은 \(\tau^2\) 스케일에서 매우 분산된 것처럼 보이지만, 실제로 \(\tau\) 스케일로 변환하면 0 근처에 강하게 집중. \(\tau = 0\) 에서 밀도가 매우 높다.
그 결과 계층 모형에서 \(\tau\) 사후가 0 쪽으로 인위적으로 shrink — 실제로는 0 이 아닌데도. 데이터가 지배 안 하면 Inverse-Gamma 의 강한 편향이 그대로 반영.
이것이 Gelman (2006a) 이 Inverse-Gamma 를 포기하고 Half-Cauchy 를 제안 한 이유.
2.4 Half-Cauchy — Gelman 의 권장
Half-Cauchy — Cauchy 를 양수로 자름.
\[ p(\tau) \propto \frac{1}{1 + (\tau/A)^2}, \quad \tau > 0 \]
\(A\) — 스케일 파라미터. “합리적 \(\tau\) 상한” 의 두 배쯤.
특징.
- \(\tau = 0\) 에서 양의 밀도 — Inv-Gamma 와 달리 0 을 배제 안 함
- 중간 범위에서 plateau — 약정보적
- 두꺼운 꼬리 — 큰 \(\tau\) 도 허용 (Half-Normal 보다 완만)
- Proper — 적분 유한
2.5 8 학교 예제의 세 사전 비교 (그림 5.9)
| 사전 | 결과 |
|---|---|
| Uniform on \(\tau\) | 0 에서 20 까지 두터운 지지, 약간의 우측 꼬리 |
| Inv-Gamma(1, 1) | \([0.5, 5]\) 에 집중 — 사전이 사후 지배 (likelihood flat 영역) |
| Inv-Gamma(0.001, 0.001) | 0 근처에 강하게 집중 — 더 심한 왜곡 |
교재의 결론.
“Uniform 사전이 이 문제에 가장 ‘비정보’ 로 보인다 — 사후 추론을 제약하는 것처럼 보이지 않는다. Inv-Gamma 사전들은 사후를 크게 왜곡.” (교재)
2.6 중요한 시각화 경고
그림 5.9 의 히스토그램은 \(\tau\) 스케일 로 그려진다. \(\log\tau\) 스케일로 그리면 Inv-Gamma(0.001, 0.001) 이 가장 평평해 보인다 — 하지만 이는 misleading.
“계층 모형 가능도는 \(\log\tau \to -\infty\) 극한에서 제약되지 않는다. 따라서 log 스케일에서 비정보인 사전이 작동하지 않는다.” (교재)
결론 — 시각화 스케일 선택이 사전의 정보성 판단에 결정적. 관심 파라미터의 자연스러운 스케일 (\(\tau\) 원 공간) 에서 평가해야 한다.
2.7 3 학교 문제 — 약정보 사전의 필요성
\(J = 3\) (8 학교 중 처음 3 개) 재분석. 결과 (그림 5.10).
Uniform 사전. 사후 \(\tau\) 의 극단 우측 꼬리 — 100, 200 등 비현실적 값들이 상당한 확률 로 존재. 그 결과 school effects under-pooling.
Half-Cauchy(0, 25) 사전. 사후가 합리적 범위 (\(\tau < 50\)) 에 집중. plausible 영역에서 likelihood 지배, tail 영역에서 약정보 제약.
| \(J\) | 권장 사전 | 이유 |
|---|---|---|
| 매우 작음 (1~2) | Half-Cauchy 또는 informative | Uniform 도 improper |
| 작음 (3~5) | Half-Cauchy (0, A) | Uniform 은 heavy tail 문제 |
| 중간 (6~10) | Uniform on \(\tau\) 또는 Half-Cauchy | 둘 다 OK |
| 큼 (> 15) | 거의 무관 | 데이터가 지배 |
\(A\) 선택 원칙 — “실제 \(\tau\) 의 예상 상한 근처” 또는 약간 위. 8 학교의 SAT 효과는 최대 ~100 이므로 \(A = 25\) 합리적.
\(A\) 너무 작으면 — 강정보 사전 (데이터에 비해 shrink 과도) \(A\) 너무 크면 — 약정보 사전 (거의 uniform)
실무에서 민감도 분석 권장 — \(A = 5, 25, 100\) 에서 결과 차이 확인.
2.8 Calibration 개념
캘리브레이션 (Bayes 대응 bias). 사후 평균 \(\hat\theta = E(\theta \mid y)\) 에 대해.
\[ \text{miscalibration} = E(\theta \mid \hat\theta) - \hat\theta \]
사전이 실제 데이터 생성 과정 과 일치하면 miscalibration = 0 (well-calibrated).
교재의 분석 — Uniform \((0, A)\) 을 \(A \to \infty\) 극한으로 보면, “진짜 사전이 유한 A” 이고 “추론 사전이 \(\infty\)” 일 때 miscalibration 양수 (overestimate).
Inverse-Gamma(\(\epsilon, \epsilon\)) 의 더 심한 문제 — \(\epsilon \to 0\) 한계가 proper 극한 없음. 어떤 “진짜 사전” 도 이 극한을 근사하지 못함.
2.9 General Principle — 약정보 사전의 철학
“약정보 사전은 사전 지식을 정확히 표현하려는 시도가 아니라, 사후를 합리적 범위로 제약 하기 위해 설계된다. 데이터가 허용하는 만큼 말하되, 말도 안 되는 영역 (τ = 1000 같은) 을 제거.” (교재 전반 요지)
이것이 현대 베이즈 실무의 기본 — Stan, PyMC 가 기본 권장하는 \(\tau \sim \text{Cauchy}_+(0, A)\) 의 근거.
3 § 5.8 참고문헌 주해
3.1 Shrinkage 의 지적 계보
- Stein (1955), James & Stein (1960) — 비베이즈 shrinkage 의 원전. 다변량 정규 평균의 MLE 가 JS 추정량에 dominated (차원 \(\geq 3\) 에서 MSE 더 작음). “Stein’s paradox”
- Efron & Morris (1971, 1972) — Empirical Bayes 연결. JS 추정량 = EB 추정량의 특수 경우
- Robbins (1955, 1964) — 결정이론적 정당화
3.2 계층 모형의 선구자
- Good (1965) — 초기 체계적 발전
- Lindley & Smith (1972) — 선형 모형의 계층 베이즈
- Mosteller & Wallace (1964) — 저자 문제 (Federalist Papers) 에 음이항 계층. 초기 실무 사례
3.3 de Finetti 정리
- de Finetti (1974) — 교환가능성 정리
- Bernardo & Smith (1994) — 베이즈 모델링에서의 역할 상세
3.4 8 학교 예제
- Rubin (1981) — 원전 논문. ETS 데이터
- Lindley & Novick (1981) — 교환가능성 논의
3.5 메타분석
- DerSimonian & Laird (1986) — Random-effects 메타분석의 고전 (REML)
- Smith, Spiegelhalter, & Thomas (1995) — 베이즈 메타분석
3.6 분산 사전
- Gelman (2006a) — “Prior distributions for variance parameters in hierarchical models” — Half-Cauchy 권장의 원전
- Gelman, Hill, & Yajima (2012) — 다중 비교의 베이즈 해결
4 § 5.9 선정 연습문제 풀이
4.1 Exercise 1 — 교환가능성과 독립성 (알려진 모델)
(a) 상자에 흑/백 공 1 개씩, \(y_1\) 뽑고 되돌려넣기, \(y_2\) 뽑기.
- 교환가능? 네. \(p(y_1, y_2)\) 대칭
- 독립? 네. 되돌려 넣으면 \(y_1, y_2\) 각각 독립적으로 1/2 확률로 흑/백
- 독립으로 간주? 네
(b) 되돌려 넣지 않음.
- 교환가능? 네. \(p(y_1 = 1, y_2 = 0) = p(y_1 = 0, y_2 = 1) = 1/2\)
- 독립? 아니오. \(y_1\) 알면 \(y_2\) 확정
- 독립으로 간주? 아니오
(c) 100 만 흑, 100 만 백, 되돌려 넣지 않음.
- 교환가능? 네
- 독립? 엄밀히 아니오. 하지만 사실상 독립 (영향 무시 가능)
- 독립으로 간주? 네 (거의)
- 예제가 명확하게 보여준다. 교환가능 하지만 독립 아님. 공이 2 개만 있으면 첫째 결과가 둘째 결과를 완전히 결정 — 강한 종속성.
de Finetti 정리 — “교환가능 ≠ iid 혼합” 이 유한 \(J\) 에서는 엄밀히 성립 안 함. \(J \to \infty\) 에서만 iid 혼합. (b) 의 \(n = 2\) 는 극단적 유한 사례.
4.2 Exercise 2 — 교환가능성과 독립성 (미지 모델)
(a) 흑/백 미지 수, 되돌려 넣기.
- 교환가능? 네
- 독립? 아니오 (되돌려 넣어도 미지 비율 공유). \(y_1\) 관측이 \(y_2\) 의 분포를 업데이트
- 독립으로 간주? 아니오
핵심 — \(\theta\) (미지 비율) 조건부로 는 독립, 주변으로는 종속.
(b) 되돌려 넣지 않음, 미지 수. 여전히 교환가능, 두 종류 종속성 (모델 공유 + 유한성).
(c) 많은 공. 유한성 효과 무시 → \(\theta\) 조건부 iid 근사 가능.
4.3 Exercise 3 — 8 학교 다중 비교
(a) 계층 모형. 각 학교의 “최고일 확률” 및 쌍별 비교.
교재 § 5.5 결과 기반 시뮬 — 학교 A 가 최고일 확률 약 30%, G 약 20%, H 약 10% … (모두 비슷, 우세 없음).
(b) No pooling (\(\tau = \infty\)).
각 학교 독립 정규. \(\theta_A \sim N(28, 15^2), \theta_G \sim N(18, 10^2)\) 등. 해석적 계산 가능.
\[ \Pr(\theta_A > \theta_G) = \Phi\left(\frac{28 - 18}{\sqrt{15^2 + 10^2}}\right) = \Phi(0.55) \approx 0.71 \]
반면 계층에서는 약 55% — 차이 훨씬 작음.
(c) 차이 해석. No pooling 이 학교 간 차이를 과장. 계층이 shrinkage 로 자동 보정.
(d) Complete pooling (\(\tau = 0\)). 모두 같음 → 확률 (i) = 1/8 = 0.125, (ii) = 0.5 (동률).
4.4 Exercise 4 — 교환가능 but not iid mixture
설정. \(2J\) 개 중 정확히 \(J\) 개가 \(N(1, 1)\), \(J\) 개가 \(N(-1, 1)\). 어느 개가 어느 그룹인지 모름.
(a) 교환가능? 네. 라벨 없어서 순열 불변.
(b) iid 혼합으로 쓸 수 없음을 증명.
iid 혼합이면 \(p(\theta) = \int \prod p(\theta_j \mid \phi) p(\phi) d\phi\). 이 경우 \(\theta_1, \theta_2\) 가 모두 양수일 확률 이 독립이면 \(p(\theta_1 > 0)^2\), 하지만 실제로는 정확히 \(J\) 개만 양수 제약 때문에 달라진다.
구체적으로 \(J = 1\) 인 경우 (2 개 모수). \(\Pr(\theta_1 > 0) = 1/2\), \(\Pr(\theta_1 > 0, \theta_2 > 0) = 0\) (하나는 반드시 음수 그룹). 독립이면 \(1/4\) 여야 함.
(c) \(J \to \infty\) 한계? de Finetti 반례 아님 — 비율 제약 (\(J\)/\(2J\) = 1/2) 이 iid 혼합에서 자연스럽게 근사 된다.
4.5 Exercise 5 — iid 혼합의 공분산 비음수
문제. \(p(\theta) = \int \prod p(\theta_j \mid \phi) p(\phi) d\phi\) 이면 \(\text{cov}(\theta_i, \theta_j) \geq 0\).
증명. 반복 공분산.
\[ \text{cov}(\theta_i, \theta_j) = E(\text{cov}(\theta_i, \theta_j \mid \phi)) + \text{cov}(E(\theta_i \mid \phi), E(\theta_j \mid \phi)) \]
\(\phi\) 고정 하 \(\theta_i, \theta_j\) 독립 → \(\text{cov}(\theta_i, \theta_j \mid \phi) = 0\). 첫 항 = 0.
\(E(\theta_i \mid \phi) = E(\theta_j \mid \phi) = g(\phi)\) (iid 가정). 둘째 항 = \(\text{Var}(g(\phi)) \geq 0\).
\(\square\)
iid 혼합이면 \(\theta_i\) 들이 항상 양의 상관. Ex 4 의 Normal(1, 1) / Normal(-1, 1) 혼합은 \(\theta_i\) 간 음의 상관 → iid 혼합 아님 (de Finetti 반례 아님, 유한 \(J\) 의 이 특수 구조).
일반 교환가능 ⊃ iid 혼합 (진부분집합).
4.6 Exercise 10 — 계층 정규 hyperprior 의 proper 조건
(a) \(p(\mu, \tau) \propto 1/\tau\) → improper.
식 (5.21) 의 사후.
\[ p(\tau \mid y) \propto \frac{1}{\tau} V_\mu^{1/2} \prod_j \frac{1}{\sqrt{\sigma_j^2 + \tau^2}} \exp(\cdots) \]
\(\tau \to 0\) 에서 \(1/\tau\) 발산, \(V_\mu \to 1/\sum_j 1/\sigma_j^2\) 유한, 지수 유한 → 사후 발산.
(b) \(p(\mu, \tau) \propto 1\) → \(J > 2\) 에서 proper.
\(\tau \to 0\) 에서 \(p(\tau \mid y) \to\) 유한 (상수). \(\tau \to \infty\) 에서 \(\prod_j (\sigma_j^2 + \tau^2)^{-1/2} \sim \tau^{-J}\), \(V_\mu \sim \tau^2/J\), 따라서 \(p(\tau \mid y) \sim \tau^{1-J}\). 적분 (\(\int \tau^{1-J} d\tau\)) 는 \(1 - J < -1\), 즉 \(J > 2\) 에서 수렴.
(c) \(J = 2\) 전략. Uniform 사전 불가 → Half-Cauchy 또는 informative 사전 필요.
4.7 Exercise 11 — 비켤레 계층 모형 (로그 오즈)
문제. 쥐 종양에서 \(\text{logit}(\theta_j) \sim N(\mu, \tau^2)\).
(a) 공동 사후.
\[ p(\theta, \mu, \tau \mid y) \propto p(\mu, \tau) \prod_{j=1}^J N(\text{logit}(\theta_j) \mid \mu, \tau^2) \cdot \text{Jacobian} \cdot \text{Bin}(y_j \mid n_j, \theta_j) \]
(b) 적분 (5.4) 닫힌 형태 없음. \(\int \text{Bin} \cdot N(\text{logit}) d\theta\) 비켤레. 로짓 정규-이항 결합이 해석적으로 안 됨.
(c) (5.5) 도 불가. 분모 \(p(\theta \mid \mu, \tau, y)\) 가 닫힌 형태 아님. 실무 해결 — MCMC (Part III Ch.11).
4.8 Exercise 12 — 조건부 사후 평균·분산
문제. 계층 정규에서 \(E(\theta_j \mid \tau, y), \text{Var}(\theta_j \mid \tau, y)\) 유도.
Hint — (2.7), (2.8) 으로 \(\mu\) 에 대해 평균.
\[ E(\theta_j \mid \tau, y) = E(E(\theta_j \mid \mu, \tau, y) \mid \tau, y) = E(\hat\theta_j \mid \tau, y) \]
\(\hat\theta_j = \frac{\bar{y}_{\cdot j}/\sigma_j^2 + \mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2}\) 가 \(\mu\) 의 선형 함수 — \(E(\hat\theta_j \mid \tau, y) = \hat\theta_j\) (\(\mu \to \hat\mu\)).
\[ E(\theta_j \mid \tau, y) = \frac{\bar{y}_{\cdot j}/\sigma_j^2 + \hat\mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2} \]
\[ \text{Var}(\theta_j \mid \tau, y) = V_j + \left(\frac{1/\tau^2}{1/\sigma_j^2 + 1/\tau^2}\right)^2 V_\mu \]
해석 — 조건부 분산 \(V_j\) + \(\mu\) 의 불확실성 기여. 8 학교의 각 학교별 \(E(\theta_j \mid \tau, y)\) 그림 (그림 5.6-5.7) 의 근거.
4.9 Exercise 13 — 자전거 교통 이항 계층 (Ex 3.8 재검토)
데이터 (Ex 3.8 표 3.3, 처음 두 행). 10 개 자전거 도로 구역에서 자전거/기타 차량 수.
(a) 모델. \(y_j \sim \text{Bin}(n_j, \theta_j)\), \(\theta_j \sim \text{Beta}(\alpha, \beta)\), 비정보 hyperprior.
(b-c) 격자 계산 + shrinkage 비교. Ex 3.8 의 단일 구역 분석 vs 계층 모형의 10 구역 공동 분석. 계층에서 표본 크기 작은 구역의 비율이 공통 평균 쪽으로 shrunk.
(d) 평균 자전거 비율의 95% 구간. \(\alpha/(\alpha+\beta)\) 의 주변 사후.
(e) 새 구역 100 대 중 자전거 수 예측. 두 단계 불확실성 전파.
- 새 \(\tilde\theta \sim \text{Beta}(\alpha, \beta)\) (\(\alpha, \beta\) 사후 주변화)
- \(\tilde{y} \sim \text{Bin}(100, \tilde\theta)\)
(f) Beta 합리성. 자전거 비율이 구역에 따라 극단 변동 (0 에서 40%). Beta 가 이 변동 포착 가능? \(\alpha + \beta\) 작으면 (flat Beta) 가능. 실제 적합 후 확인.
5 세 절의 구조적 통합
| 절 | 주제 | 핵심 메시지 |
|---|---|---|
| § 5.7 | 분산 사전 | Half-Cauchy 가 현대 표준 |
| § 5.8 | 지적 계보 | Stein → Efron-Morris → Gelman |
| § 5.9 | 연습 | Ch.5 전체 기법 훈련 |
6 Ch.5 전체의 폐쇄 — Part I 의 완결
Ch.5 심화 3 편 (§ 5.1~5.3, § 5.4~5.6, § 5.7~5.9) 의 완결 = Part I (Ch.1~5) 의 심화 포스트 세트 완결.
| Part I 의 장 | Overview | 심화 편수 |
|---|---|---|
| Ch.1 | 확률과 추론 | 3 |
| Ch.2 | 단일 모수 | 3 |
| Ch.3 | 다모수 | 3 |
| Ch.4 | 점근 | 2 |
| Ch.5 | 계층 | 3 |
총 14 개 심화 + 5 개 overview + Part I overview = 20 개 포스트. Part II (Ch.6~9) 으로 진행 준비 완료.
7 빈도주의와의 대응 — 계층의 완결
| 질문 | 빈도주의 | 베이즈 (Ch.5) |
|---|---|---|
| 분산 추정 | REML | \(p(\tau \mid y)\) 사후 |
| 분산 0 검정 | LR 검정 | \(\Pr(\tau = 0)\) 가능 |
| Shrinkage 강도 | AIC/BIC 모델 선택 | \(\tau\) 의 사후 평균 |
| 소그룹 분석 | 안 됨 (점근 실패) | Half-Cauchy 로 해결 |
James-Stein 의 놀라움 — 3 차원 이상에서 MLE 가 inadmissible. 베이즈 관점에서 — 자연스러운 shrinkage 결과. 계층 모형이 이 놀라움을 수학적으로 당연한 것 으로 만든다.
8 코드 예제 — 분산 사전 비교 (8 schools, 3 schools)
8.1 Step 1: 순수 Python — 세 사전에서 \(p(\tau \mid y)\) 비교
import math
import random
random.seed(42)
# 8 schools 데이터
y = [28, 8, -3, 7, -1, 1, 18, 12]
sigma = [15, 10, 16, 11, 9, 11, 10, 18]
J = 8
def log_lik_tau(tau, y, sigma):
# 식 (5.21) 의 likelihood 부분 (사전 제외)
V_inv = sum(1/(s**2 + tau**2) for s in sigma)
mu_hat = sum(y[j]/(sigma[j]**2 + tau**2) for j in range(J)) / V_inv
log_p = 0.5 * math.log(1/V_inv)
for j in range(J):
log_p += -0.5 * math.log(sigma[j]**2 + tau**2)
log_p += -(y[j] - mu_hat)**2 / (2 * (sigma[j]**2 + tau**2))
return log_p
def log_prior(tau, prior_type, A=25):
if prior_type == "uniform_tau":
return 0 # p(τ) ∝ 1
elif prior_type == "inv_gamma_001":
# p(τ²) ∝ (τ²)^{-1.001} exp(-0.001/τ²), τ Jacobian
if tau <= 0: return float("-inf")
return -1.001 * 2 * math.log(tau) - 0.001 / tau**2 + math.log(2 * tau)
elif prior_type == "half_cauchy":
return -math.log(1 + (tau/A)**2)
return 0
tau_grid = [0.01 + i * 0.5 for i in range(61)]
for prior_type in ["uniform_tau", "inv_gamma_001", "half_cauchy"]:
log_posts = [log_lik_tau(tau, y, sigma) + log_prior(tau, prior_type) for tau in tau_grid]
max_lp = max(log_posts)
weights = [math.exp(lp - max_lp) for lp in log_posts]
total = sum(weights)
probs = [w/total for w in weights]
cum = 0
q_50 = None
for i, p in enumerate(probs):
cum += p
if q_50 is None and cum >= 0.5:
q_50 = tau_grid[i]
break
print(f"{prior_type:<25} τ 사후 중앙값: {q_50:.2f}")예상 출력 — Uniform \(\tau \approx 5\), Inv-Gamma 에서 \(\tau\) 가 더 작음 (0 쪽으로 shrink), Half-Cauchy 는 Uniform 과 비슷.
8.2 Step 2: 3 schools 에서 Half-Cauchy 의 우위
# 3 schools — 처음 3 개만
y3 = y[:3]
sigma3 = sigma[:3]
J3 = 3
def log_lik_tau_3(tau):
V_inv = sum(1/(s**2 + tau**2) for s in sigma3)
mu_hat = sum(y3[j]/(sigma3[j]**2 + tau**2) for j in range(J3)) / V_inv
log_p = 0.5 * math.log(1/V_inv)
for j in range(J3):
log_p += -0.5 * math.log(sigma3[j]**2 + tau**2)
log_p += -(y3[j] - mu_hat)**2 / (2 * (sigma3[j]**2 + tau**2))
return log_p
tau_grid_3 = [0.01 + i * 2 for i in range(200)] # 0 에서 400 까지
for prior_type in ["uniform_tau", "half_cauchy"]:
log_posts = [log_lik_tau_3(tau) + log_prior(tau, prior_type) for tau in tau_grid_3]
max_lp = max(log_posts)
weights = [math.exp(lp - max_lp) for lp in log_posts]
total = sum(weights)
probs = [w/total for w in weights]
cum = 0
q_50 = q_975 = None
for i, p in enumerate(probs):
cum += p
if q_50 is None and cum >= 0.5: q_50 = tau_grid_3[i]
if q_975 is None and cum >= 0.975: q_975 = tau_grid_3[i]; break
print(f"{prior_type:<25} τ 사후: 중앙 {q_50:.1f}, 97.5% {q_975:.1f}")예상 출력 — Uniform 에서 τ 97.5% 가 매우 큼 (100+), Half-Cauchy 에서 훨씬 제약.
9 관련 주제
Ch.5 의 다른 심화 (완료)
Part I (Ch.1~5) 전체
Part I~V 전체
빈도주의 대응
- James-Stein shrinkage
- 혼합 효과 모형 — REML
후속 — Part II
- Part II 개요 — 모델 점검·비교·결정
10 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.5 (§ 5.7~5.9).
- Gelman, A. (2006a). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515–534.
- Stein, C. (1955). Inadmissibility of the usual estimator for the mean of a multivariate normal distribution. Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 197–206.
- James, W., & Stein, C. (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium, 1, 361–379.
- Efron, B., & Morris, C. (1971). Limiting the risk of Bayes and empirical Bayes estimators. Journal of the American Statistical Association, 66(336), 807–815.
- Rubin, D. B. (1981). Estimation in parallel randomized experiments. Journal of Educational Statistics, 6(4), 377–401.
- Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887–902.