Kwangmin Kim - Ch.5.7~5.9 — 분산 모수의 약정보 사전과 계층 연습문제 심화

1 이 포스트의 위치 — Ch.5 의 종결과 Part I 의 마지막

Ch.5 개요 가 계층 모형의 전 지도, § 5.1~5.3 심화 가 Beta-Binomial, § 5.4~5.6 심화 가 정규·8 학교·메타분석이었다. 이 포스트는 § 5.7~5.9 를 통해 Ch.5 와 Part I (Ch.1~5) 을 닫는다.

§ 5.7~5.9 의 한 줄 요약

“계층 분산 모수 \(\tau\) 에 대한 사전 선택이 소규모 그룹 (\(J\) 작음) 에서 결정적이다. 8 학교에서는 균등 사전이 충분하지만 3 학교 같은 극단에서는 Half-Cauchy 같은 약정보 사전이 필요하다. 연습문제들이 교환가능성과 계층 구조의 미묘함을 드러낸다.”

Part I (Ch.1~5) 을 닫는 마지막 심화 포스트 — 이후 Part II (Ch.6~9) 의 모델 점검으로 진행 (Gelman et al., 2013, Ch.5.7~5.9).

2 § 5.7 계층 분산 모수의 약정보 사전

2.1 왜 분산 모수의 사전이 중요한가

계층 모형에서 \(\tau\) (그룹 간 표준편차) 에 대한 사전 선택이 결과에 큰 영향을 준다. 특히.

\(J\) (그룹 수) 작을 때 — 데이터가 \(\tau\) 에 대해 약한 정보만 제공
\(\tau\) 실제 작을 때 — 사후가 0 근처에 몰려 사전에 민감

Gelman (2006a) 의 강조 — “모든 비정보적/약정보적 사전은 잠정적. 사후 적합 후 결과가 말이 되는지 확인, 안 되면 추가 지식 반영”.

2.2 사전의 세 가지 후보

Uniform on \(\log\tau\) — 제약 없는 실수 균등.

\[ p(\log\tau) \propto 1 \quad \Leftrightarrow \quad p(\tau) \propto 1/\tau \]

문제. 계층 모형에서 \(\tau \to 0\) 에서 가능도가 유한. \(p(\tau) \propto 1/\tau\) 는 \(\tau \to 0\) 에서 발산 → 사후가 \(\log\tau \to -\infty\) 로 무한 질량 → improper.

“계층 모형에서 데이터가 \(\tau = 0\) 을 결코 배제할 수 없으므로, 사전이 이 영역에 무한 질량을 둘 수 없다.” (교재)

Uniform on \(\tau\) — Ch.5.5 에서 8 학교에 사용.

\[ p(\tau) \propto 1, \quad \tau \geq 0 \]

장점 — \(\tau = 0\) 근처에서 유한 질량. \(J \geq 3\) 이면 사후 proper.

단점 — \(\tau \to \infty\) 쪽으로 무한 질량. 약간의 miscalibration toward positive (양수 쪽 편향). \(J = 1, 2\) 에서는 사후 improper — “\(\tau = \infty\), no pooling” 결론.

Uniform on \(\tau^2\) — \(p(\tau^2) \propto 1\).

더 큰 우측 편향. \(J \geq 4\) 필요. 권장 안 함.

2.3 Inverse-Gamma(\(\epsilon, \epsilon\)) — 전통적 “비정보”

\(\tau^2\) 에 Inverse-Gamma(\(\epsilon, \epsilon\)) 사전 (작은 \(\epsilon\), 예 0.001).

\[ p(\tau^2) \propto (\tau^2)^{-\epsilon - 1} e^{-\epsilon/\tau^2} \]

장점 — 조건부 켤레 (given \(\theta, \mu\), \(\tau^2\) 의 조건부 사후도 Inv-Gamma).

결정적 단점 — \(\epsilon \to 0\) 극한이 improper 사후. \(\epsilon\) 이 “낮은 값” 이어도 — 낮은 \(\tau\) 가능한 데이터셋에서 추론이 \(\epsilon\) 에 민감. “비정보적” 이라는 외관에 속지 말아야.

직관 — Inverse-Gamma 의 숨은 강한 사전

Inverse-Gamma(\(0.001, 0.001\)) 은 \(\tau^2\) 스케일에서 매우 분산된 것처럼 보이지만, 실제로 \(\tau\) 스케일로 변환하면 0 근처에 강하게 집중. \(\tau = 0\) 에서 밀도가 매우 높다.

그 결과 계층 모형에서 \(\tau\) 사후가 0 쪽으로 인위적으로 shrink — 실제로는 0 이 아닌데도. 데이터가 지배 안 하면 Inverse-Gamma 의 강한 편향이 그대로 반영.

이것이 Gelman (2006a) 이 Inverse-Gamma 를 포기하고 Half-Cauchy 를 제안 한 이유.

2.4 Half-Cauchy — Gelman 의 권장

Half-Cauchy — Cauchy 를 양수로 자름.

\[ p(\tau) \propto \frac{1}{1 + (\tau/A)^2}, \quad \tau > 0 \]

\(A\) — 스케일 파라미터. “합리적 \(\tau\) 상한” 의 두 배쯤.

특징.

\(\tau = 0\) 에서 양의 밀도 — Inv-Gamma 와 달리 0 을 배제 안 함
중간 범위에서 plateau — 약정보적
두꺼운 꼬리 — 큰 \(\tau\) 도 허용 (Half-Normal 보다 완만)
Proper — 적분 유한

2.5 8 학교 예제의 세 사전 비교 (그림 5.9)

사전	결과
Uniform on \(\tau\)	0 에서 20 까지 두터운 지지, 약간의 우측 꼬리
Inv-Gamma(1, 1)	\([0.5, 5]\) 에 집중 — 사전이 사후 지배 (likelihood flat 영역)
Inv-Gamma(0.001, 0.001)	0 근처에 강하게 집중 — 더 심한 왜곡

교재의 결론.

“Uniform 사전이 이 문제에 가장 ‘비정보’ 로 보인다 — 사후 추론을 제약하는 것처럼 보이지 않는다. Inv-Gamma 사전들은 사후를 크게 왜곡.” (교재)

2.6 중요한 시각화 경고

그림 5.9 의 히스토그램은 \(\tau\) 스케일 로 그려진다. \(\log\tau\) 스케일로 그리면 Inv-Gamma(0.001, 0.001) 이 가장 평평해 보인다 — 하지만 이는 misleading.

“계층 모형 가능도는 \(\log\tau \to -\infty\) 극한에서 제약되지 않는다. 따라서 log 스케일에서 비정보인 사전이 작동하지 않는다.” (교재)

결론 — 시각화 스케일 선택이 사전의 정보성 판단에 결정적. 관심 파라미터의 자연스러운 스케일 (\(\tau\) 원 공간) 에서 평가해야 한다.

2.7 3 학교 문제 — 약정보 사전의 필요성

\(J = 3\) (8 학교 중 처음 3 개) 재분석. 결과 (그림 5.10).

Uniform 사전. 사후 \(\tau\) 의 극단 우측 꼬리 — 100, 200 등 비현실적 값들이 상당한 확률 로 존재. 그 결과 school effects under-pooling.

Half-Cauchy(0, 25) 사전. 사후가 합리적 범위 (\(\tau < 50\)) 에 집중. plausible 영역에서 likelihood 지배, tail 영역에서 약정보 제약.

직관 — \(J\) 에 따른 사전 민감도

\(J\)	권장 사전	이유
매우 작음 (1~2)	Half-Cauchy 또는 informative	Uniform 도 improper
작음 (3~5)	Half-Cauchy (0, A)	Uniform 은 heavy tail 문제
중간 (6~10)	Uniform on \(\tau\) 또는 Half-Cauchy	둘 다 OK
큼 (> 15)	거의 무관	데이터가 지배

\(A\) 선택 원칙 — “실제 \(\tau\) 의 예상 상한 근처” 또는 약간 위. 8 학교의 SAT 효과는 최대 ~100 이므로 \(A = 25\) 합리적.

\(A\) 너무 작으면 — 강정보 사전 (데이터에 비해 shrink 과도) \(A\) 너무 크면 — 약정보 사전 (거의 uniform)

실무에서 민감도 분석 권장 — \(A = 5, 25, 100\) 에서 결과 차이 확인.

2.8 Calibration 개념

캘리브레이션 (Bayes 대응 bias). 사후 평균 \(\hat\theta = E(\theta \mid y)\) 에 대해.

\[ \text{miscalibration} = E(\theta \mid \hat\theta) - \hat\theta \]

사전이 실제 데이터 생성 과정 과 일치하면 miscalibration = 0 (well-calibrated).

교재의 분석 — Uniform \((0, A)\) 을 \(A \to \infty\) 극한으로 보면, “진짜 사전이 유한 A” 이고 “추론 사전이 \(\infty\)” 일 때 miscalibration 양수 (overestimate).

Inverse-Gamma(\(\epsilon, \epsilon\)) 의 더 심한 문제 — \(\epsilon \to 0\) 한계가 proper 극한 없음. 어떤 “진짜 사전” 도 이 극한을 근사하지 못함.

2.9 General Principle — 약정보 사전의 철학

“약정보 사전은 사전 지식을 정확히 표현하려는 시도가 아니라, 사후를 합리적 범위로 제약 하기 위해 설계된다. 데이터가 허용하는 만큼 말하되, 말도 안 되는 영역 (τ = 1000 같은) 을 제거.” (교재 전반 요지)

이것이 현대 베이즈 실무의 기본 — Stan, PyMC 가 기본 권장하는 \(\tau \sim \text{Cauchy}_+(0, A)\) 의 근거.

3 § 5.8 참고문헌 주해

3.1 Shrinkage 의 지적 계보

Stein (1955), James & Stein (1960) — 비베이즈 shrinkage 의 원전. 다변량 정규 평균의 MLE 가 JS 추정량에 dominated (차원 \(\geq 3\) 에서 MSE 더 작음). “Stein’s paradox”
Efron & Morris (1971, 1972) — Empirical Bayes 연결. JS 추정량 = EB 추정량의 특수 경우
Robbins (1955, 1964) — 결정이론적 정당화

3.2 계층 모형의 선구자

Good (1965) — 초기 체계적 발전
Lindley & Smith (1972) — 선형 모형의 계층 베이즈
Mosteller & Wallace (1964) — 저자 문제 (Federalist Papers) 에 음이항 계층. 초기 실무 사례

3.3 de Finetti 정리

de Finetti (1974) — 교환가능성 정리
Bernardo & Smith (1994) — 베이즈 모델링에서의 역할 상세

3.4 8 학교 예제

Rubin (1981) — 원전 논문. ETS 데이터
Lindley & Novick (1981) — 교환가능성 논의

3.5 메타분석

DerSimonian & Laird (1986) — Random-effects 메타분석의 고전 (REML)
Smith, Spiegelhalter, & Thomas (1995) — 베이즈 메타분석

3.6 분산 사전

Gelman (2006a) — “Prior distributions for variance parameters in hierarchical models” — Half-Cauchy 권장의 원전
Gelman, Hill, & Yajima (2012) — 다중 비교의 베이즈 해결

4 § 5.9 선정 연습문제 풀이

4.1 Exercise 1 — 교환가능성과 독립성 (알려진 모델)

(a) 상자에 흑/백 공 1 개씩, \(y_1\) 뽑고 되돌려넣기, \(y_2\) 뽑기.

교환가능? 네. \(p(y_1, y_2)\) 대칭
독립? 네. 되돌려 넣으면 \(y_1, y_2\) 각각 독립적으로 1/2 확률로 흑/백
독립으로 간주? 네

(b) 되돌려 넣지 않음.

교환가능? 네. \(p(y_1 = 1, y_2 = 0) = p(y_1 = 0, y_2 = 1) = 1/2\)
독립? 아니오. \(y_1\) 알면 \(y_2\) 확정
독립으로 간주? 아니오

(c) 100 만 흑, 100 만 백, 되돌려 넣지 않음.

교환가능? 네
독립? 엄밀히 아니오. 하지만 사실상 독립 (영향 무시 가능)
독립으로 간주? 네 (거의)

직관 — 교환가능성 ≠ 독립성

예제가 명확하게 보여준다. 교환가능 하지만 독립 아님. 공이 2 개만 있으면 첫째 결과가 둘째 결과를 완전히 결정 — 강한 종속성.

de Finetti 정리 — “교환가능 ≠ iid 혼합” 이 유한 \(J\) 에서는 엄밀히 성립 안 함. \(J \to \infty\) 에서만 iid 혼합. (b) 의 \(n = 2\) 는 극단적 유한 사례.

4.2 Exercise 2 — 교환가능성과 독립성 (미지 모델)

(a) 흑/백 미지 수, 되돌려 넣기.

교환가능? 네
독립? 아니오 (되돌려 넣어도 미지 비율 공유). \(y_1\) 관측이 \(y_2\) 의 분포를 업데이트
독립으로 간주? 아니오

핵심 — \(\theta\) (미지 비율) 조건부로 는 독립, 주변으로는 종속.

(b) 되돌려 넣지 않음, 미지 수. 여전히 교환가능, 두 종류 종속성 (모델 공유 + 유한성).

(c) 많은 공. 유한성 효과 무시 → \(\theta\) 조건부 iid 근사 가능.

4.3 Exercise 3 — 8 학교 다중 비교

(a) 계층 모형. 각 학교의 “최고일 확률” 및 쌍별 비교.

교재 § 5.5 결과 기반 시뮬 — 학교 A 가 최고일 확률 약 30%, G 약 20%, H 약 10% … (모두 비슷, 우세 없음).

(b) No pooling (\(\tau = \infty\)).

각 학교 독립 정규. \(\theta_A \sim N(28, 15^2), \theta_G \sim N(18, 10^2)\) 등. 해석적 계산 가능.

\[ \Pr(\theta_A > \theta_G) = \Phi\left(\frac{28 - 18}{\sqrt{15^2 + 10^2}}\right) = \Phi(0.55) \approx 0.71 \]

반면 계층에서는 약 55% — 차이 훨씬 작음.

(c) 차이 해석. No pooling 이 학교 간 차이를 과장. 계층이 shrinkage 로 자동 보정.

(d) Complete pooling (\(\tau = 0\)). 모두 같음 → 확률 (i) = 1/8 = 0.125, (ii) = 0.5 (동률).

4.4 Exercise 4 — 교환가능 but not iid mixture

설정. \(2J\) 개 중 정확히 \(J\) 개가 \(N(1, 1)\), \(J\) 개가 \(N(-1, 1)\). 어느 개가 어느 그룹인지 모름.

(a) 교환가능? 네. 라벨 없어서 순열 불변.

(b) iid 혼합으로 쓸 수 없음을 증명.

iid 혼합이면 \(p(\theta) = \int \prod p(\theta_j \mid \phi) p(\phi) d\phi\). 이 경우 \(\theta_1, \theta_2\) 가 모두 양수일 확률 이 독립이면 \(p(\theta_1 > 0)^2\), 하지만 실제로는 정확히 \(J\) 개만 양수 제약 때문에 달라진다.

구체적으로 \(J = 1\) 인 경우 (2 개 모수). \(\Pr(\theta_1 > 0) = 1/2\), \(\Pr(\theta_1 > 0, \theta_2 > 0) = 0\) (하나는 반드시 음수 그룹). 독립이면 \(1/4\) 여야 함.

(c) \(J \to \infty\) 한계? de Finetti 반례 아님 — 비율 제약 (\(J\)/\(2J\) = 1/2) 이 iid 혼합에서 자연스럽게 근사 된다.

4.5 Exercise 5 — iid 혼합의 공분산 비음수

문제. \(p(\theta) = \int \prod p(\theta_j \mid \phi) p(\phi) d\phi\) 이면 \(\text{cov}(\theta_i, \theta_j) \geq 0\).

증명. 반복 공분산.

\[ \text{cov}(\theta_i, \theta_j) = E(\text{cov}(\theta_i, \theta_j \mid \phi)) + \text{cov}(E(\theta_i \mid \phi), E(\theta_j \mid \phi)) \]

\(\phi\) 고정 하 \(\theta_i, \theta_j\) 독립 → \(\text{cov}(\theta_i, \theta_j \mid \phi) = 0\). 첫 항 = 0.

\(E(\theta_i \mid \phi) = E(\theta_j \mid \phi) = g(\phi)\) (iid 가정). 둘째 항 = \(\text{Var}(g(\phi)) \geq 0\).

\(\square\)

직관 — iid 혼합의 구조적 성질

iid 혼합이면 \(\theta_i\) 들이 항상 양의 상관. Ex 4 의 Normal(1, 1) / Normal(-1, 1) 혼합은 \(\theta_i\) 간 음의 상관 → iid 혼합 아님 (de Finetti 반례 아님, 유한 \(J\) 의 이 특수 구조).

일반 교환가능 ⊃ iid 혼합 (진부분집합).

4.6 Exercise 10 — 계층 정규 hyperprior 의 proper 조건

(a) \(p(\mu, \tau) \propto 1/\tau\) → improper.

식 (5.21) 의 사후.

\[ p(\tau \mid y) \propto \frac{1}{\tau} V_\mu^{1/2} \prod_j \frac{1}{\sqrt{\sigma_j^2 + \tau^2}} \exp(\cdots) \]

\(\tau \to 0\) 에서 \(1/\tau\) 발산, \(V_\mu \to 1/\sum_j 1/\sigma_j^2\) 유한, 지수 유한 → 사후 발산.

(b) \(p(\mu, \tau) \propto 1\) → \(J > 2\) 에서 proper.

\(\tau \to 0\) 에서 \(p(\tau \mid y) \to\) 유한 (상수). \(\tau \to \infty\) 에서 \(\prod_j (\sigma_j^2 + \tau^2)^{-1/2} \sim \tau^{-J}\), \(V_\mu \sim \tau^2/J\), 따라서 \(p(\tau \mid y) \sim \tau^{1-J}\). 적분 (\(\int \tau^{1-J} d\tau\)) 는 \(1 - J < -1\), 즉 \(J > 2\) 에서 수렴.

(c) \(J = 2\) 전략. Uniform 사전 불가 → Half-Cauchy 또는 informative 사전 필요.

4.7 Exercise 11 — 비켤레 계층 모형 (로그 오즈)

문제. 쥐 종양에서 \(\text{logit}(\theta_j) \sim N(\mu, \tau^2)\).

(a) 공동 사후.

\[ p(\theta, \mu, \tau \mid y) \propto p(\mu, \tau) \prod_{j=1}^J N(\text{logit}(\theta_j) \mid \mu, \tau^2) \cdot \text{Jacobian} \cdot \text{Bin}(y_j \mid n_j, \theta_j) \]

(b) 적분 (5.4) 닫힌 형태 없음. \(\int \text{Bin} \cdot N(\text{logit}) d\theta\) 비켤레. 로짓 정규-이항 결합이 해석적으로 안 됨.

(c) (5.5) 도 불가. 분모 \(p(\theta \mid \mu, \tau, y)\) 가 닫힌 형태 아님. 실무 해결 — MCMC (Part III Ch.11).

4.8 Exercise 12 — 조건부 사후 평균·분산

문제. 계층 정규에서 \(E(\theta_j \mid \tau, y), \text{Var}(\theta_j \mid \tau, y)\) 유도.

Hint — (2.7), (2.8) 으로 \(\mu\) 에 대해 평균.

\[ E(\theta_j \mid \tau, y) = E(E(\theta_j \mid \mu, \tau, y) \mid \tau, y) = E(\hat\theta_j \mid \tau, y) \]

\(\hat\theta_j = \frac{\bar{y}_{\cdot j}/\sigma_j^2 + \mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2}\) 가 \(\mu\) 의 선형 함수 — \(E(\hat\theta_j \mid \tau, y) = \hat\theta_j\) (\(\mu \to \hat\mu\)).

\[ E(\theta_j \mid \tau, y) = \frac{\bar{y}_{\cdot j}/\sigma_j^2 + \hat\mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2} \]

\[ \text{Var}(\theta_j \mid \tau, y) = V_j + \left(\frac{1/\tau^2}{1/\sigma_j^2 + 1/\tau^2}\right)^2 V_\mu \]

해석 — 조건부 분산 \(V_j\) + \(\mu\) 의 불확실성 기여. 8 학교의 각 학교별 \(E(\theta_j \mid \tau, y)\) 그림 (그림 5.6-5.7) 의 근거.

4.9 Exercise 13 — 자전거 교통 이항 계층 (Ex 3.8 재검토)

데이터 (Ex 3.8 표 3.3, 처음 두 행). 10 개 자전거 도로 구역에서 자전거/기타 차량 수.

(a) 모델. \(y_j \sim \text{Bin}(n_j, \theta_j)\), \(\theta_j \sim \text{Beta}(\alpha, \beta)\), 비정보 hyperprior.

(b-c) 격자 계산 + shrinkage 비교. Ex 3.8 의 단일 구역 분석 vs 계층 모형의 10 구역 공동 분석. 계층에서 표본 크기 작은 구역의 비율이 공통 평균 쪽으로 shrunk.

(d) 평균 자전거 비율의 95% 구간. \(\alpha/(\alpha+\beta)\) 의 주변 사후.

(e) 새 구역 100 대 중 자전거 수 예측. 두 단계 불확실성 전파.

새 \(\tilde\theta \sim \text{Beta}(\alpha, \beta)\) (\(\alpha, \beta\) 사후 주변화)
\(\tilde{y} \sim \text{Bin}(100, \tilde\theta)\)

(f) Beta 합리성. 자전거 비율이 구역에 따라 극단 변동 (0 에서 40%). Beta 가 이 변동 포착 가능? \(\alpha + \beta\) 작으면 (flat Beta) 가능. 실제 적합 후 확인.

5 세 절의 구조적 통합

절	주제	핵심 메시지
§ 5.7	분산 사전	Half-Cauchy 가 현대 표준
§ 5.8	지적 계보	Stein → Efron-Morris → Gelman
§ 5.9	연습	Ch.5 전체 기법 훈련

6 Ch.5 전체의 폐쇄 — Part I 의 완결

Ch.5 심화 3 편 (§ 5.1~5.3, § 5.4~5.6, § 5.7~5.9) 의 완결 = Part I (Ch.1~5) 의 심화 포스트 세트 완결.

Part I 의 장	Overview	심화 편수
Ch.1	확률과 추론	3
Ch.2	단일 모수	3
Ch.3	다모수	3
Ch.4	점근	2
Ch.5	계층	3

총 14 개 심화 + 5 개 overview + Part I overview = 20 개 포스트. Part II (Ch.6~9) 으로 진행 준비 완료.

7 빈도주의와의 대응 — 계층의 완결

질문	빈도주의	베이즈 (Ch.5)
분산 추정	REML	\(p(\tau \mid y)\) 사후
분산 0 검정	LR 검정	\(\Pr(\tau = 0)\) 가능
Shrinkage 강도	AIC/BIC 모델 선택	\(\tau\) 의 사후 평균
소그룹 분석	안 됨 (점근 실패)	Half-Cauchy 로 해결

James-Stein 의 놀라움 — 3 차원 이상에서 MLE 가 inadmissible. 베이즈 관점에서 — 자연스러운 shrinkage 결과. 계층 모형이 이 놀라움을 수학적으로 당연한 것 으로 만든다.

8 코드 예제 — 분산 사전 비교 (8 schools, 3 schools)

8.1 Step 1: 순수 Python — 세 사전에서 \(p(\tau \mid y)\) 비교

import math
import random

random.seed(42)

# 8 schools 데이터
y = [28, 8, -3, 7, -1, 1, 18, 12]
sigma = [15, 10, 16, 11, 9, 11, 10, 18]
J = 8

def log_lik_tau(tau, y, sigma):
    # 식 (5.21) 의 likelihood 부분 (사전 제외)
    V_inv = sum(1/(s**2 + tau**2) for s in sigma)
    mu_hat = sum(y[j]/(sigma[j]**2 + tau**2) for j in range(J)) / V_inv
    log_p = 0.5 * math.log(1/V_inv)
    for j in range(J):
        log_p += -0.5 * math.log(sigma[j]**2 + tau**2)
        log_p += -(y[j] - mu_hat)**2 / (2 * (sigma[j]**2 + tau**2))
    return log_p

def log_prior(tau, prior_type, A=25):
    if prior_type == "uniform_tau":
        return 0  # p(τ) ∝ 1
    elif prior_type == "inv_gamma_001":
        # p(τ²) ∝ (τ²)^{-1.001} exp(-0.001/τ²), τ Jacobian
        if tau <= 0: return float("-inf")
        return -1.001 * 2 * math.log(tau) - 0.001 / tau**2 + math.log(2 * tau)
    elif prior_type == "half_cauchy":
        return -math.log(1 + (tau/A)**2)
    return 0

tau_grid = [0.01 + i * 0.5 for i in range(61)]

for prior_type in ["uniform_tau", "inv_gamma_001", "half_cauchy"]:
    log_posts = [log_lik_tau(tau, y, sigma) + log_prior(tau, prior_type) for tau in tau_grid]
    max_lp = max(log_posts)
    weights = [math.exp(lp - max_lp) for lp in log_posts]
    total = sum(weights)
    probs = [w/total for w in weights]

    cum = 0
    q_50 = None
    for i, p in enumerate(probs):
        cum += p
        if q_50 is None and cum >= 0.5:
            q_50 = tau_grid[i]
            break

    print(f"{prior_type:<25} τ 사후 중앙값: {q_50:.2f}")

예상 출력 — Uniform \(\tau \approx 5\), Inv-Gamma 에서 \(\tau\) 가 더 작음 (0 쪽으로 shrink), Half-Cauchy 는 Uniform 과 비슷.

8.2 Step 2: 3 schools 에서 Half-Cauchy 의 우위

# 3 schools — 처음 3 개만
y3 = y[:3]
sigma3 = sigma[:3]
J3 = 3

def log_lik_tau_3(tau):
    V_inv = sum(1/(s**2 + tau**2) for s in sigma3)
    mu_hat = sum(y3[j]/(sigma3[j]**2 + tau**2) for j in range(J3)) / V_inv
    log_p = 0.5 * math.log(1/V_inv)
    for j in range(J3):
        log_p += -0.5 * math.log(sigma3[j]**2 + tau**2)
        log_p += -(y3[j] - mu_hat)**2 / (2 * (sigma3[j]**2 + tau**2))
    return log_p

tau_grid_3 = [0.01 + i * 2 for i in range(200)]  # 0 에서 400 까지

for prior_type in ["uniform_tau", "half_cauchy"]:
    log_posts = [log_lik_tau_3(tau) + log_prior(tau, prior_type) for tau in tau_grid_3]
    max_lp = max(log_posts)
    weights = [math.exp(lp - max_lp) for lp in log_posts]
    total = sum(weights)
    probs = [w/total for w in weights]

    cum = 0
    q_50 = q_975 = None
    for i, p in enumerate(probs):
        cum += p
        if q_50 is None and cum >= 0.5: q_50 = tau_grid_3[i]
        if q_975 is None and cum >= 0.975: q_975 = tau_grid_3[i]; break

    print(f"{prior_type:<25} τ 사후: 중앙 {q_50:.1f}, 97.5% {q_975:.1f}")

예상 출력 — Uniform 에서 τ 97.5% 가 매우 큼 (100+), Half-Cauchy 에서 훨씬 제약.

9 관련 주제

Ch.5 의 다른 심화 (완료)

Part I (Ch.1~5) 전체

Ch.1 개요 + 세 심화
Ch.2 개요 + 세 심화
Ch.3 개요 + 세 심화
Ch.4 개요 + 두 심화
Ch.5 개요 + 세 심화 (이 포스트 포함)

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

James-Stein shrinkage
혼합 효과 모형 — REML

후속 — Part II

Part II 개요 — 모델 점검·비교·결정

10 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.5 (§ 5.7~5.9).
Gelman, A. (2006a). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515–534.
Stein, C. (1955). Inadmissibility of the usual estimator for the mean of a multivariate normal distribution. Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 197–206.
James, W., & Stein, C. (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium, 1, 361–379.
Efron, B., & Morris, C. (1971). Limiting the risk of Bayes and empirical Bayes estimators. Journal of the American Statistical Association, 66(336), 807–815.
Rubin, D. B. (1981). Estimation in parallel randomized experiments. Journal of Educational Statistics, 6(4), 377–401.
Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887–902.