Ch.5.7~5.9 — 분산 모수의 약정보 사전과 계층 연습문제 심화

Gelman BDA Ch.5.7~5.9 상세 — Half-Cauchy·3 학교 문제·교환가능성 역설

Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.5 후반 세 절을 교재 원문 수준으로 심화한다. § 5.7 계층 분산 모수의 사전 선택 — 균등 사전의 \(J\) 제약·\(\log\tau\) 균등의 improper·Inverse-Gamma(\(\epsilon, \epsilon\)) 의 결함· Half-Cauchy 의 실용성·8 학교에서 세 사전 비교·3 학교 문제로 드러나는 약정보 사전의 필요성, § 5.8 지적 계보 (Stein shrinkage → Efron-Morris → 현대 계층 모형), § 5.9 선정 연습문제 (교환가능성·다중 비교·2 \(J\) 모수의 mixture 역설·de Finetti 반례·계층 로그 오즈·분산 사전 proper 조건) 완전 풀이까지 수식·직관·코드로 완결. Part I (Ch.1~5) 의 마지막 심화.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 20일

1 이 포스트의 위치 — Ch.5 의 종결과 Part I 의 마지막

Ch.5 개요 가 계층 모형의 전 지도, § 5.1~5.3 심화 가 Beta-Binomial, § 5.4~5.6 심화 가 정규·8 학교·메타분석이었다. 이 포스트는 § 5.7~5.9 를 통해 Ch.5 와 Part I (Ch.1~5) 을 닫는다.

§ 5.7~5.9 의 한 줄 요약

“계층 분산 모수 \(\tau\) 에 대한 사전 선택이 소규모 그룹 (\(J\) 작음) 에서 결정적이다. 8 학교에서는 균등 사전이 충분하지만 3 학교 같은 극단에서는 Half-Cauchy 같은 약정보 사전이 필요하다. 연습문제들이 교환가능성과 계층 구조의 미묘함을 드러낸다.”

Part I (Ch.1~5) 을 닫는 마지막 심화 포스트 — 이후 Part II (Ch.6~9) 의 모델 점검으로 진행 (Gelman et al., 2013, Ch.5.7~5.9).


2 § 5.7 계층 분산 모수의 약정보 사전

2.1 왜 분산 모수의 사전이 중요한가

계층 모형에서 \(\tau\) (그룹 간 표준편차) 에 대한 사전 선택이 결과에 큰 영향을 준다. 특히.

  • \(J\) (그룹 수) 작을 때 — 데이터가 \(\tau\) 에 대해 약한 정보만 제공
  • \(\tau\) 실제 작을 때 — 사후가 0 근처에 몰려 사전에 민감

Gelman (2006a) 의 강조 — “모든 비정보적/약정보적 사전은 잠정적. 사후 적합 후 결과가 말이 되는지 확인, 안 되면 추가 지식 반영”.

2.2 사전의 세 가지 후보

Uniform on \(\log\tau\) — 제약 없는 실수 균등.

\[ p(\log\tau) \propto 1 \quad \Leftrightarrow \quad p(\tau) \propto 1/\tau \]

문제. 계층 모형에서 \(\tau \to 0\) 에서 가능도가 유한. \(p(\tau) \propto 1/\tau\)\(\tau \to 0\) 에서 발산 → 사후가 \(\log\tau \to -\infty\) 로 무한 질량 → improper.

“계층 모형에서 데이터가 \(\tau = 0\) 을 결코 배제할 수 없으므로, 사전이 이 영역에 무한 질량을 둘 수 없다.” (교재)

Uniform on \(\tau\) — Ch.5.5 에서 8 학교에 사용.

\[ p(\tau) \propto 1, \quad \tau \geq 0 \]

장점\(\tau = 0\) 근처에서 유한 질량. \(J \geq 3\) 이면 사후 proper.

단점\(\tau \to \infty\) 쪽으로 무한 질량. 약간의 miscalibration toward positive (양수 쪽 편향). \(J = 1, 2\) 에서는 사후 improper — “\(\tau = \infty\), no pooling” 결론.

Uniform on \(\tau^2\)\(p(\tau^2) \propto 1\).

더 큰 우측 편향. \(J \geq 4\) 필요. 권장 안 함.

2.3 Inverse-Gamma(\(\epsilon, \epsilon\)) — 전통적 “비정보”

\(\tau^2\) 에 Inverse-Gamma(\(\epsilon, \epsilon\)) 사전 (작은 \(\epsilon\), 예 0.001).

\[ p(\tau^2) \propto (\tau^2)^{-\epsilon - 1} e^{-\epsilon/\tau^2} \]

장점 — 조건부 켤레 (given \(\theta, \mu\), \(\tau^2\) 의 조건부 사후도 Inv-Gamma).

결정적 단점\(\epsilon \to 0\) 극한이 improper 사후. \(\epsilon\) 이 “낮은 값” 이어도 — 낮은 \(\tau\) 가능한 데이터셋에서 추론이 \(\epsilon\) 에 민감. “비정보적” 이라는 외관에 속지 말아야.

직관 — Inverse-Gamma 의 숨은 강한 사전

Inverse-Gamma(\(0.001, 0.001\)) 은 \(\tau^2\) 스케일에서 매우 분산된 것처럼 보이지만, 실제로 \(\tau\) 스케일로 변환하면 0 근처에 강하게 집중. \(\tau = 0\) 에서 밀도가 매우 높다.

그 결과 계층 모형에서 \(\tau\) 사후가 0 쪽으로 인위적으로 shrink — 실제로는 0 이 아닌데도. 데이터가 지배 안 하면 Inverse-Gamma 의 강한 편향이 그대로 반영.

이것이 Gelman (2006a) 이 Inverse-Gamma 를 포기하고 Half-Cauchy 를 제안 한 이유.

2.4 Half-Cauchy — Gelman 의 권장

Half-Cauchy — Cauchy 를 양수로 자름.

\[ p(\tau) \propto \frac{1}{1 + (\tau/A)^2}, \quad \tau > 0 \]

\(A\) — 스케일 파라미터. “합리적 \(\tau\) 상한” 의 두 배쯤.

특징.

  1. \(\tau = 0\) 에서 양의 밀도 — Inv-Gamma 와 달리 0 을 배제 안 함
  2. 중간 범위에서 plateau — 약정보적
  3. 두꺼운 꼬리 — 큰 \(\tau\) 도 허용 (Half-Normal 보다 완만)
  4. Proper — 적분 유한

2.5 8 학교 예제의 세 사전 비교 (그림 5.9)

사전 결과
Uniform on \(\tau\) 0 에서 20 까지 두터운 지지, 약간의 우측 꼬리
Inv-Gamma(1, 1) \([0.5, 5]\) 에 집중 — 사전이 사후 지배 (likelihood flat 영역)
Inv-Gamma(0.001, 0.001) 0 근처에 강하게 집중 — 더 심한 왜곡

교재의 결론.

“Uniform 사전이 이 문제에 가장 ‘비정보’ 로 보인다 — 사후 추론을 제약하는 것처럼 보이지 않는다. Inv-Gamma 사전들은 사후를 크게 왜곡.” (교재)

2.6 중요한 시각화 경고

그림 5.9 의 히스토그램은 \(\tau\) 스케일 로 그려진다. \(\log\tau\) 스케일로 그리면 Inv-Gamma(0.001, 0.001) 이 가장 평평해 보인다 — 하지만 이는 misleading.

“계층 모형 가능도는 \(\log\tau \to -\infty\) 극한에서 제약되지 않는다. 따라서 log 스케일에서 비정보인 사전이 작동하지 않는다.” (교재)

결론 — 시각화 스케일 선택이 사전의 정보성 판단에 결정적. 관심 파라미터의 자연스러운 스케일 (\(\tau\) 원 공간) 에서 평가해야 한다.

2.7 3 학교 문제 — 약정보 사전의 필요성

\(J = 3\) (8 학교 중 처음 3 개) 재분석. 결과 (그림 5.10).

Uniform 사전. 사후 \(\tau\)극단 우측 꼬리 — 100, 200 등 비현실적 값들이 상당한 확률 로 존재. 그 결과 school effects under-pooling.

Half-Cauchy(0, 25) 사전. 사후가 합리적 범위 (\(\tau < 50\)) 에 집중. plausible 영역에서 likelihood 지배, tail 영역에서 약정보 제약.

직관 — \(J\) 에 따른 사전 민감도
\(J\) 권장 사전 이유
매우 작음 (1~2) Half-Cauchy 또는 informative Uniform 도 improper
작음 (3~5) Half-Cauchy (0, A) Uniform 은 heavy tail 문제
중간 (6~10) Uniform on \(\tau\) 또는 Half-Cauchy 둘 다 OK
큼 (> 15) 거의 무관 데이터가 지배

\(A\) 선택 원칙 — “실제 \(\tau\) 의 예상 상한 근처” 또는 약간 위. 8 학교의 SAT 효과는 최대 ~100 이므로 \(A = 25\) 합리적.

\(A\) 너무 작으면 — 강정보 사전 (데이터에 비해 shrink 과도) \(A\) 너무 크면 — 약정보 사전 (거의 uniform)

실무에서 민감도 분석 권장 — \(A = 5, 25, 100\) 에서 결과 차이 확인.

2.8 Calibration 개념

캘리브레이션 (Bayes 대응 bias). 사후 평균 \(\hat\theta = E(\theta \mid y)\) 에 대해.

\[ \text{miscalibration} = E(\theta \mid \hat\theta) - \hat\theta \]

사전이 실제 데이터 생성 과정 과 일치하면 miscalibration = 0 (well-calibrated).

교재의 분석 — Uniform \((0, A)\)\(A \to \infty\) 극한으로 보면, “진짜 사전이 유한 A” 이고 “추론 사전이 \(\infty\)” 일 때 miscalibration 양수 (overestimate).

Inverse-Gamma(\(\epsilon, \epsilon\)) 의 더 심한 문제 — \(\epsilon \to 0\) 한계가 proper 극한 없음. 어떤 “진짜 사전” 도 이 극한을 근사하지 못함.

2.9 General Principle — 약정보 사전의 철학

“약정보 사전은 사전 지식을 정확히 표현하려는 시도가 아니라, 사후를 합리적 범위로 제약 하기 위해 설계된다. 데이터가 허용하는 만큼 말하되, 말도 안 되는 영역 (τ = 1000 같은) 을 제거.” (교재 전반 요지)

이것이 현대 베이즈 실무의 기본 — Stan, PyMC 가 기본 권장하는 \(\tau \sim \text{Cauchy}_+(0, A)\) 의 근거.


3 § 5.8 참고문헌 주해

3.1 Shrinkage 의 지적 계보

  • Stein (1955), James & Stein (1960)비베이즈 shrinkage 의 원전. 다변량 정규 평균의 MLE 가 JS 추정량에 dominated (차원 \(\geq 3\) 에서 MSE 더 작음). “Stein’s paradox
  • Efron & Morris (1971, 1972) — Empirical Bayes 연결. JS 추정량 = EB 추정량의 특수 경우
  • Robbins (1955, 1964) — 결정이론적 정당화

3.2 계층 모형의 선구자

  • Good (1965) — 초기 체계적 발전
  • Lindley & Smith (1972) — 선형 모형의 계층 베이즈
  • Mosteller & Wallace (1964) — 저자 문제 (Federalist Papers) 에 음이항 계층. 초기 실무 사례

3.3 de Finetti 정리

  • de Finetti (1974) — 교환가능성 정리
  • Bernardo & Smith (1994) — 베이즈 모델링에서의 역할 상세

3.4 8 학교 예제

  • Rubin (1981) — 원전 논문. ETS 데이터
  • Lindley & Novick (1981) — 교환가능성 논의

3.5 메타분석

  • DerSimonian & Laird (1986) — Random-effects 메타분석의 고전 (REML)
  • Smith, Spiegelhalter, & Thomas (1995) — 베이즈 메타분석

3.6 분산 사전

  • Gelman (2006a) — “Prior distributions for variance parameters in hierarchical models” — Half-Cauchy 권장의 원전
  • Gelman, Hill, & Yajima (2012) — 다중 비교의 베이즈 해결

4 § 5.9 선정 연습문제 풀이

4.1 Exercise 1 — 교환가능성과 독립성 (알려진 모델)

(a) 상자에 흑/백 공 1 개씩, \(y_1\) 뽑고 되돌려넣기, \(y_2\) 뽑기.

  • 교환가능? 네. \(p(y_1, y_2)\) 대칭
  • 독립? 네. 되돌려 넣으면 \(y_1, y_2\) 각각 독립적으로 1/2 확률로 흑/백
  • 독립으로 간주?

(b) 되돌려 넣지 않음.

  • 교환가능? 네. \(p(y_1 = 1, y_2 = 0) = p(y_1 = 0, y_2 = 1) = 1/2\)
  • 독립? 아니오. \(y_1\) 알면 \(y_2\) 확정
  • 독립으로 간주? 아니오

(c) 100 만 흑, 100 만 백, 되돌려 넣지 않음.

  • 교환가능?
  • 독립? 엄밀히 아니오. 하지만 사실상 독립 (영향 무시 가능)
  • 독립으로 간주? (거의)
직관 — 교환가능성 ≠ 독립성
  1. 예제가 명확하게 보여준다. 교환가능 하지만 독립 아님. 공이 2 개만 있으면 첫째 결과가 둘째 결과를 완전히 결정 — 강한 종속성.

de Finetti 정리 — “교환가능 ≠ iid 혼합” 이 유한 \(J\) 에서는 엄밀히 성립 안 함. \(J \to \infty\) 에서만 iid 혼합. (b) 의 \(n = 2\) 는 극단적 유한 사례.

4.2 Exercise 2 — 교환가능성과 독립성 (미지 모델)

(a) 흑/백 미지 수, 되돌려 넣기.

  • 교환가능?
  • 독립? 아니오 (되돌려 넣어도 미지 비율 공유). \(y_1\) 관측이 \(y_2\) 의 분포를 업데이트
  • 독립으로 간주? 아니오

핵심\(\theta\) (미지 비율) 조건부로 는 독립, 주변으로는 종속.

(b) 되돌려 넣지 않음, 미지 수. 여전히 교환가능, 두 종류 종속성 (모델 공유 + 유한성).

(c) 많은 공. 유한성 효과 무시 → \(\theta\) 조건부 iid 근사 가능.

4.3 Exercise 3 — 8 학교 다중 비교

(a) 계층 모형. 각 학교의 “최고일 확률” 및 쌍별 비교.

교재 § 5.5 결과 기반 시뮬 — 학교 A 가 최고일 확률 약 30%, G 약 20%, H 약 10% … (모두 비슷, 우세 없음).

(b) No pooling (\(\tau = \infty\)).

각 학교 독립 정규. \(\theta_A \sim N(28, 15^2), \theta_G \sim N(18, 10^2)\) 등. 해석적 계산 가능.

\[ \Pr(\theta_A > \theta_G) = \Phi\left(\frac{28 - 18}{\sqrt{15^2 + 10^2}}\right) = \Phi(0.55) \approx 0.71 \]

반면 계층에서는 약 55% — 차이 훨씬 작음.

(c) 차이 해석. No pooling 이 학교 간 차이를 과장. 계층이 shrinkage 로 자동 보정.

(d) Complete pooling (\(\tau = 0\)). 모두 같음 → 확률 (i) = 1/8 = 0.125, (ii) = 0.5 (동률).

4.4 Exercise 4 — 교환가능 but not iid mixture

설정. \(2J\) 개 중 정확히 \(J\) 개가 \(N(1, 1)\), \(J\) 개가 \(N(-1, 1)\). 어느 개가 어느 그룹인지 모름.

(a) 교환가능? 네. 라벨 없어서 순열 불변.

(b) iid 혼합으로 쓸 수 없음을 증명.

iid 혼합이면 \(p(\theta) = \int \prod p(\theta_j \mid \phi) p(\phi) d\phi\). 이 경우 \(\theta_1, \theta_2\) 가 모두 양수일 확률 이 독립이면 \(p(\theta_1 > 0)^2\), 하지만 실제로는 정확히 \(J\) 개만 양수 제약 때문에 달라진다.

구체적으로 \(J = 1\) 인 경우 (2 개 모수). \(\Pr(\theta_1 > 0) = 1/2\), \(\Pr(\theta_1 > 0, \theta_2 > 0) = 0\) (하나는 반드시 음수 그룹). 독립이면 \(1/4\) 여야 함.

(c) \(J \to \infty\) 한계? de Finetti 반례 아님 — 비율 제약 (\(J\)/\(2J\) = 1/2) 이 iid 혼합에서 자연스럽게 근사 된다.

4.5 Exercise 5 — iid 혼합의 공분산 비음수

문제. \(p(\theta) = \int \prod p(\theta_j \mid \phi) p(\phi) d\phi\) 이면 \(\text{cov}(\theta_i, \theta_j) \geq 0\).

증명. 반복 공분산.

\[ \text{cov}(\theta_i, \theta_j) = E(\text{cov}(\theta_i, \theta_j \mid \phi)) + \text{cov}(E(\theta_i \mid \phi), E(\theta_j \mid \phi)) \]

\(\phi\) 고정 하 \(\theta_i, \theta_j\) 독립 → \(\text{cov}(\theta_i, \theta_j \mid \phi) = 0\). 첫 항 = 0.

\(E(\theta_i \mid \phi) = E(\theta_j \mid \phi) = g(\phi)\) (iid 가정). 둘째 항 = \(\text{Var}(g(\phi)) \geq 0\).

\(\square\)

직관 — iid 혼합의 구조적 성질

iid 혼합이면 \(\theta_i\) 들이 항상 양의 상관. Ex 4 의 Normal(1, 1) / Normal(-1, 1) 혼합은 \(\theta_i\) 간 음의 상관 → iid 혼합 아님 (de Finetti 반례 아님, 유한 \(J\) 의 이 특수 구조).

일반 교환가능 ⊃ iid 혼합 (진부분집합).

4.6 Exercise 10 — 계층 정규 hyperprior 의 proper 조건

(a) \(p(\mu, \tau) \propto 1/\tau\) → improper.

식 (5.21) 의 사후.

\[ p(\tau \mid y) \propto \frac{1}{\tau} V_\mu^{1/2} \prod_j \frac{1}{\sqrt{\sigma_j^2 + \tau^2}} \exp(\cdots) \]

\(\tau \to 0\) 에서 \(1/\tau\) 발산, \(V_\mu \to 1/\sum_j 1/\sigma_j^2\) 유한, 지수 유한 → 사후 발산.

(b) \(p(\mu, \tau) \propto 1\)\(J > 2\) 에서 proper.

\(\tau \to 0\) 에서 \(p(\tau \mid y) \to\) 유한 (상수). \(\tau \to \infty\) 에서 \(\prod_j (\sigma_j^2 + \tau^2)^{-1/2} \sim \tau^{-J}\), \(V_\mu \sim \tau^2/J\), 따라서 \(p(\tau \mid y) \sim \tau^{1-J}\). 적분 (\(\int \tau^{1-J} d\tau\)) 는 \(1 - J < -1\), 즉 \(J > 2\) 에서 수렴.

(c) \(J = 2\) 전략. Uniform 사전 불가 → Half-Cauchy 또는 informative 사전 필요.

4.7 Exercise 11 — 비켤레 계층 모형 (로그 오즈)

문제. 쥐 종양에서 \(\text{logit}(\theta_j) \sim N(\mu, \tau^2)\).

(a) 공동 사후.

\[ p(\theta, \mu, \tau \mid y) \propto p(\mu, \tau) \prod_{j=1}^J N(\text{logit}(\theta_j) \mid \mu, \tau^2) \cdot \text{Jacobian} \cdot \text{Bin}(y_j \mid n_j, \theta_j) \]

(b) 적분 (5.4) 닫힌 형태 없음. \(\int \text{Bin} \cdot N(\text{logit}) d\theta\) 비켤레. 로짓 정규-이항 결합이 해석적으로 안 됨.

(c) (5.5) 도 불가. 분모 \(p(\theta \mid \mu, \tau, y)\) 가 닫힌 형태 아님. 실무 해결 — MCMC (Part III Ch.11).

4.8 Exercise 12 — 조건부 사후 평균·분산

문제. 계층 정규에서 \(E(\theta_j \mid \tau, y), \text{Var}(\theta_j \mid \tau, y)\) 유도.

Hint — (2.7), (2.8) 으로 \(\mu\) 에 대해 평균.

\[ E(\theta_j \mid \tau, y) = E(E(\theta_j \mid \mu, \tau, y) \mid \tau, y) = E(\hat\theta_j \mid \tau, y) \]

\(\hat\theta_j = \frac{\bar{y}_{\cdot j}/\sigma_j^2 + \mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2}\)\(\mu\) 의 선형 함수 — \(E(\hat\theta_j \mid \tau, y) = \hat\theta_j\) (\(\mu \to \hat\mu\)).

\[ E(\theta_j \mid \tau, y) = \frac{\bar{y}_{\cdot j}/\sigma_j^2 + \hat\mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2} \]

\[ \text{Var}(\theta_j \mid \tau, y) = V_j + \left(\frac{1/\tau^2}{1/\sigma_j^2 + 1/\tau^2}\right)^2 V_\mu \]

해석 — 조건부 분산 \(V_j\) + \(\mu\) 의 불확실성 기여. 8 학교의 각 학교별 \(E(\theta_j \mid \tau, y)\) 그림 (그림 5.6-5.7) 의 근거.

4.9 Exercise 13 — 자전거 교통 이항 계층 (Ex 3.8 재검토)

데이터 (Ex 3.8 표 3.3, 처음 두 행). 10 개 자전거 도로 구역에서 자전거/기타 차량 수.

(a) 모델. \(y_j \sim \text{Bin}(n_j, \theta_j)\), \(\theta_j \sim \text{Beta}(\alpha, \beta)\), 비정보 hyperprior.

(b-c) 격자 계산 + shrinkage 비교. Ex 3.8 의 단일 구역 분석 vs 계층 모형의 10 구역 공동 분석. 계층에서 표본 크기 작은 구역의 비율이 공통 평균 쪽으로 shrunk.

(d) 평균 자전거 비율의 95% 구간. \(\alpha/(\alpha+\beta)\) 의 주변 사후.

(e) 새 구역 100 대 중 자전거 수 예측. 두 단계 불확실성 전파.

  1. \(\tilde\theta \sim \text{Beta}(\alpha, \beta)\) (\(\alpha, \beta\) 사후 주변화)
  2. \(\tilde{y} \sim \text{Bin}(100, \tilde\theta)\)

(f) Beta 합리성. 자전거 비율이 구역에 따라 극단 변동 (0 에서 40%). Beta 가 이 변동 포착 가능? \(\alpha + \beta\) 작으면 (flat Beta) 가능. 실제 적합 후 확인.


5 세 절의 구조적 통합

주제 핵심 메시지
§ 5.7 분산 사전 Half-Cauchy 가 현대 표준
§ 5.8 지적 계보 Stein → Efron-Morris → Gelman
§ 5.9 연습 Ch.5 전체 기법 훈련

6 Ch.5 전체의 폐쇄 — Part I 의 완결

Ch.5 심화 3 편 (§ 5.1~5.3, § 5.4~5.6, § 5.7~5.9) 의 완결 = Part I (Ch.1~5) 의 심화 포스트 세트 완결.

Part I 의 장 Overview 심화 편수
Ch.1 확률과 추론 3
Ch.2 단일 모수 3
Ch.3 다모수 3
Ch.4 점근 2
Ch.5 계층 3

총 14 개 심화 + 5 개 overview + Part I overview = 20 개 포스트. Part II (Ch.6~9) 으로 진행 준비 완료.


7 빈도주의와의 대응 — 계층의 완결

질문 빈도주의 베이즈 (Ch.5)
분산 추정 REML \(p(\tau \mid y)\) 사후
분산 0 검정 LR 검정 \(\Pr(\tau = 0)\) 가능
Shrinkage 강도 AIC/BIC 모델 선택 \(\tau\) 의 사후 평균
소그룹 분석 안 됨 (점근 실패) Half-Cauchy 로 해결

James-Stein 의 놀라움 — 3 차원 이상에서 MLE 가 inadmissible. 베이즈 관점에서 — 자연스러운 shrinkage 결과. 계층 모형이 이 놀라움을 수학적으로 당연한 것 으로 만든다.


8 코드 예제 — 분산 사전 비교 (8 schools, 3 schools)

8.1 Step 1: 순수 Python — 세 사전에서 \(p(\tau \mid y)\) 비교

import math
import random

random.seed(42)

# 8 schools 데이터
y = [28, 8, -3, 7, -1, 1, 18, 12]
sigma = [15, 10, 16, 11, 9, 11, 10, 18]
J = 8

def log_lik_tau(tau, y, sigma):
    # 식 (5.21) 의 likelihood 부분 (사전 제외)
    V_inv = sum(1/(s**2 + tau**2) for s in sigma)
    mu_hat = sum(y[j]/(sigma[j]**2 + tau**2) for j in range(J)) / V_inv
    log_p = 0.5 * math.log(1/V_inv)
    for j in range(J):
        log_p += -0.5 * math.log(sigma[j]**2 + tau**2)
        log_p += -(y[j] - mu_hat)**2 / (2 * (sigma[j]**2 + tau**2))
    return log_p

def log_prior(tau, prior_type, A=25):
    if prior_type == "uniform_tau":
        return 0  # p(τ) ∝ 1
    elif prior_type == "inv_gamma_001":
        # p(τ²) ∝ (τ²)^{-1.001} exp(-0.001/τ²), τ Jacobian
        if tau <= 0: return float("-inf")
        return -1.001 * 2 * math.log(tau) - 0.001 / tau**2 + math.log(2 * tau)
    elif prior_type == "half_cauchy":
        return -math.log(1 + (tau/A)**2)
    return 0

tau_grid = [0.01 + i * 0.5 for i in range(61)]

for prior_type in ["uniform_tau", "inv_gamma_001", "half_cauchy"]:
    log_posts = [log_lik_tau(tau, y, sigma) + log_prior(tau, prior_type) for tau in tau_grid]
    max_lp = max(log_posts)
    weights = [math.exp(lp - max_lp) for lp in log_posts]
    total = sum(weights)
    probs = [w/total for w in weights]

    cum = 0
    q_50 = None
    for i, p in enumerate(probs):
        cum += p
        if q_50 is None and cum >= 0.5:
            q_50 = tau_grid[i]
            break

    print(f"{prior_type:<25} τ 사후 중앙값: {q_50:.2f}")

예상 출력 — Uniform \(\tau \approx 5\), Inv-Gamma 에서 \(\tau\) 가 더 작음 (0 쪽으로 shrink), Half-Cauchy 는 Uniform 과 비슷.

8.2 Step 2: 3 schools 에서 Half-Cauchy 의 우위

# 3 schools — 처음 3 개만
y3 = y[:3]
sigma3 = sigma[:3]
J3 = 3

def log_lik_tau_3(tau):
    V_inv = sum(1/(s**2 + tau**2) for s in sigma3)
    mu_hat = sum(y3[j]/(sigma3[j]**2 + tau**2) for j in range(J3)) / V_inv
    log_p = 0.5 * math.log(1/V_inv)
    for j in range(J3):
        log_p += -0.5 * math.log(sigma3[j]**2 + tau**2)
        log_p += -(y3[j] - mu_hat)**2 / (2 * (sigma3[j]**2 + tau**2))
    return log_p

tau_grid_3 = [0.01 + i * 2 for i in range(200)]  # 0 에서 400 까지

for prior_type in ["uniform_tau", "half_cauchy"]:
    log_posts = [log_lik_tau_3(tau) + log_prior(tau, prior_type) for tau in tau_grid_3]
    max_lp = max(log_posts)
    weights = [math.exp(lp - max_lp) for lp in log_posts]
    total = sum(weights)
    probs = [w/total for w in weights]

    cum = 0
    q_50 = q_975 = None
    for i, p in enumerate(probs):
        cum += p
        if q_50 is None and cum >= 0.5: q_50 = tau_grid_3[i]
        if q_975 is None and cum >= 0.975: q_975 = tau_grid_3[i]; break

    print(f"{prior_type:<25} τ 사후: 중앙 {q_50:.1f}, 97.5% {q_975:.1f}")

예상 출력 — Uniform 에서 τ 97.5% 가 매우 큼 (100+), Half-Cauchy 에서 훨씬 제약.


9 관련 주제

Ch.5 의 다른 심화 (완료)

Part I (Ch.1~5) 전체

Part I~V 전체

빈도주의 대응

후속 — Part II


10 참고자료

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.5 (§ 5.7~5.9).
  • Gelman, A. (2006a). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515–534.
  • Stein, C. (1955). Inadmissibility of the usual estimator for the mean of a multivariate normal distribution. Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 1, 197–206.
  • James, W., & Stein, C. (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium, 1, 361–379.
  • Efron, B., & Morris, C. (1971). Limiting the risk of Bayes and empirical Bayes estimators. Journal of the American Statistical Association, 66(336), 807–815.
  • Rubin, D. B. (1981). Estimation in parallel randomized experiments. Journal of Educational Statistics, 6(4), 377–401.
  • Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887–902.

Subscribe

Enjoy this blog? Get notified of new posts by email: