Kwangmin Kim - Ch.5 Hierarchical Models — 부분 풀링과 shrinkage 의 수학

1 Ch.5 의 위치 — Part I 의 정점

Ch.2~3 에서 단일·다모수 모델, Ch.4 에서 점근 이론을 다뤘다. Ch.5 는 이 모든 것을 종합하여 응용 베이즈 분석의 핵심 도구 — 계층 모형 (hierarchical models) 을 도입한다.

Ch.5 의 한 줄 요약

“여러 그룹의 모수 \(\theta_j\) 를 ‘공통 모집단에서 추출’ 로 모델링하면, 그룹 간 정보 공유 (부분 풀링) 와 shrinkage 가 자동으로 일어나 각 그룹의 추정이 개선된다. 이것이 현대 베이즈 분석의 가장 강력한 도구이자 빈도주의 관점에서 설명하기 가장 어려운 개념.”

계층 모형은 Ch.2.7 의 암 발생률 shrinkage 를 일반화 한 것이자, Part IV 회귀와 Part V 혼합 모형의 근간 (Gelman et al., 2013, Ch.5).

Ch.5 의 구성.

절	핵심	역할
§ 5.1	쥐 종양 · 사전 구성	동기 — 이력 데이터의 정보 활용
§ 5.2	교환가능성 · 계층 정의	수학적 기반
§ 5.3	Beta-Binomial 계층	구체적 계산 전략
§ 5.4	정규 교환가능 모델	분산 성분 추정
§ 5.5	8 학교 SAT	Ch.5 의 상징 예제
§ 5.6	메타분석	의학 연구에서의 응용
§ 5.7	약정보적 분산 사전	half-Cauchy 의 필요성
§ 5.8~5.9	참고·연습	-

2 § 5.1 매개변수화된 사전 분포의 구성

2.1 동기 — 이력 데이터 활용

현재 실험 1 개의 데이터만으로는 모수 추정이 불안정. 이전의 유사 실험들 (historical data) 이 있다면 — “현재 모수가 과거 실험들의 공통 모집단에서 추출됐다” 는 모델이 자연스럽다.

2.2 쥐 종양 예제 (Tarone, 1982)

배경. F344 암컷 실험용 쥐에서 drug 제로 용량 (통제 그룹) 시 종양 발생 확률 \(\theta\) 추정.

현재 실험. 14 마리 중 4 마리 종양 발생. 단순 추정 \(\hat\theta = 4/14 \approx 0.286\) — 소표본 불안정.

이력 데이터. 70 개 유사 실험 결과 (표 5.1). 각 실험 \(j\) 에서 \(y_j\) 마리 종양 / \(n_j\) 마리 총. 샘플 비율들의 범위 — 0 (약 10 개 실험) 부터 15/46 (약 0.33) 까지.

역사적 평균 · 표준편차. 70 값 \(y_j/n_j\) 의 표본 평균 0.136, 표본 표준편차 0.103.

2.3 고정 사전 접근

만약 모집단 \(\theta\) 분포가 Beta(\(\alpha, \beta\)) 로 알려졌다면, 현재 데이터로 사후 Beta(\(\alpha + 4, \beta + 10\)) 계산. 이 접근의 한계 — \(\alpha, \beta\) 를 이력 데이터로부터 추정 해야 한다.

2.4 Empirical Bayes 와 Full Bayes

Empirical Bayes — \((\alpha, \beta)\) 를 이력 데이터 모먼트 (평균, 분산) 로 추정하고 이를 고정. 불확실성 전파 안 됨.

Full Bayes (계층) — \((\alpha, \beta)\) 에 하이퍼사전 부여, 이력 데이터 + 현재 데이터로 전체 결합 사후 계산. 하이퍼파라미터 불확실성을 포함.

Ch.5 의 초점이 full Bayes.

2.5 계층 구조 — 다이어그램

\[ \begin{array}{c} (\alpha, \beta) \sim p(\alpha, \beta) \quad \text{(하이퍼사전)} \\ \downarrow \\ \theta_1, \theta_2, \ldots, \theta_{71} \sim \text{Beta}(\alpha, \beta) \quad \text{(모집단 분포)} \\ \downarrow \\ y_j \sim \text{Bin}(n_j, \theta_j) \quad \text{(관측 모델)} \end{array} \]

3 단계 계층 — 하이퍼사전 · 모집단 · 관측.

직관 — “이력 데이터” 가 현재 추정을 돕는다

현재 실험 \(\hat\theta = 4/14 = 0.286\). 그러나 이력 데이터는 종양률이 대체로 0.10~0.15 영역 임을 보여준다. 계층 모형 하에서 현재 \(\theta_{71}\) 의 사후 평균 이 원래 \(0.286\) 에서 약 \(0.19\) 쪽으로 shrunk — 역사적 정보가 현재 추정을 끌어당긴다.

이 부분 풀링 이 Ch.2.7 의 신장암 지도와 같은 메커니즘 — 작은 표본일수록 공통 모집단 쪽으로 더 많이 수축.

3 § 5.2 교환가능성과 계층 모형

3.1 교환가능성의 역할

정의 재확인. \((\theta_1, \ldots, \theta_J)\) 의 공동 분포 \(p(\theta_1, \ldots, \theta_J)\) 가 인덱스 순열에 불변 하면 교환가능.

\[ p(\theta_1, \ldots, \theta_J) = p(\theta_{\sigma(1)}, \ldots, \theta_{\sigma(J)}) \quad \forall \sigma \]

3.2 교환가능성 = 정보 부족 = 대칭

“모수들을 구분할 정보가 없다면 (데이터 \(y\) 외에는) 모수들의 사전 분포에 대칭을 가정해야 한다. 이 대칭이 확률적으로 교환가능성으로 표현된다.” (교재)

쥐 종양 예제 — 71 실험 사이에 \(n_j\) 외에 구분 정보 없음. 그리고 \(n_j\) 가 \(\theta_j\) 와 관련 있을 이유가 없음 → 교환가능 모델.

3.3 de Finetti 정리 — iid 혼합 표현

\(J \to \infty\) 에서, 적절한 교환가능 분포 는 iid 혼합 으로 표현.

\[ p(\theta_1, \ldots, \theta_J) = \int \prod_{j=1}^J p(\theta_j \mid \phi) p(\phi) d\phi \tag{5.2} \]

즉 “교환가능 사전 = 숨은 모수 \(\phi\) 조건부 iid \(\theta_j\)”. 이것이 계층 모형의 수학적 기초.

3.4 교재의 사고 실험 — 이혼율 예제

질문. “미국 8 개 주의 1981 년 이혼률 \(y_1, \ldots, y_8\). \(y_8\) 에 대해 무엇을 말할 수 있나?”

시나리오 A — 정보 없음. 교환가능 사전 사용. \(y_1, \ldots, y_7 = (5.8, 6.6, 7.8, 5.6, 7.0, 7.1, 5.4)\) 관측하면 \(y_8\) 의 사후 예측은 약 6.5 중심, 5.0~8.0 범위.

시나리오 B — “산악 주” 정보 제공. Arizona, Colorado, Idaho, Montana, Nevada, New Mexico, Utah, Wyoming. 여전히 교환가능 (라벨 매칭 없음). 그러나 Nevada 와 Utah 가 극단 일 것이라는 도메인 지식 → 사전이 꼬리 두껍게.

시나리오 C — \(y_8\) = Nevada. 교환가능 무너짐 — \(y_8\) 이 구별됨. 사후 예측이 다른 7 개 최댓값 (7.8) 보다 큼 확률이 매우 높음 실제 13.9 (표본 최댓값의 거의 2 배).

직관 — 교환가능성이 정보 양에 따라 어떻게 무너지는가

정보 0 — 완전 교환가능
공통 범주 정보 (산악 주) — 여전히 교환가능, 단 사전 모양 변화
개별 식별 정보 (Nevada) — 교환가능 무너짐, 설명변수 \(x\) 추가 로 모델링

즉 “교환가능성” 은 이분법이 아니라 정보 수준에 따른 연속 스펙트럼. 관련 공변량을 모델에 투입할수록 잔여 부분은 점점 교환가능에 가까워진다.

3.5 공변량 조건부 교환가능성

관측이 \((x_j, y_j)\) 쌍이고 \(x_j\) 가 \(\theta_j\) 와 관련된 공변량이면, \(y_j\) 자체는 비교환가능해도 \((x_j, y_j)\) 는 교환가능.

\[ p(\theta_1, \ldots, \theta_J \mid x_1, \ldots, x_J) = \int \prod_{j=1}^J p(\theta_j \mid \phi, x_j) p(\phi \mid x) d\phi \]

즉 조건부 독립 모델. 이것이 회귀 모델의 계층적 해석 — Part IV 의 기반.

3.6 전체 베이즈 취급

계층 모형의 “계층” 부분 — \(\phi\) 가 미지이고 고유 사전 \(p(\phi)\) 를 갖는다.

\[ p(\phi, \theta \mid y) \propto p(\phi) p(\theta \mid \phi) p(y \mid \theta) \tag{5.3} \]

가능도 \(p(y \mid \phi, \theta) = p(y \mid \theta)\) — 데이터가 \(\theta\) 를 통해서만 \(\phi\) 에 의존.

3.7 하이퍼사전 (hyperprior)

\(\phi\) 에 대한 사전 — hyperprior. 실무 지침.

사전 지식이 부족하면 diffuse 선택
Improper hyperprior 사용 시 사후가 proper 인지 반드시 확인 (§ 4.3 반례 5 재등장)
약정보적 사전이 대개 안전 — § 5.7 상세

3.8 사후 예측 분포의 두 종류

계층 모형에서 관심 있는 두 가지 예측.

기존 \(\theta_j\) 에 대한 새 관측 — 예 쥐 종양 실험 \(j\) 에 쥐 추가. 사후 \(\theta_j\) 에서 \(\tilde{y}\) 추출
새 \(\tilde\theta\) 에 대한 관측 — 예 새 실험 수행. 먼저 \(\tilde\theta \sim p(\theta \mid \phi^{(s)})\) 후 \(\tilde{y} \sim p(\tilde{y} \mid \tilde\theta)\)

두 가지 모두 모델 점검 (Ch.6) 에 사용.

4 § 5.3 Beta-Binomial 계층 분석

4.1 전략 — Ch.3 의 분해 기법

계층 모형은 파라미터 수가 많아 직접 결합 사후 계산이 어렵다. Ch.3.1 의 조건부-주변 분해 가 구원.

\[ p(\theta, \phi \mid y) = p(\theta \mid \phi, y) \, p(\phi \mid y) \]

\(\theta \mid \phi, y\) — Ch.2 의 “알려진 하이퍼파라미터 하 사후” 로 환원. Beta-Binomial 에서는 독립 Beta(\(\alpha + y_j, \beta + n_j - y_j\)).

\(\phi \mid y\) — 주변 사후. \(\theta\) 를 적분 소거해야 함.

4.2 주변 사후 \(p(\phi \mid y)\) 유도

분모 트릭.

\[ p(\phi \mid y) = \frac{p(\theta, \phi \mid y)}{p(\theta \mid \phi, y)} \]

임의의 \(\theta\) 값 (예 \(\theta^* = \alpha/(\alpha+\beta)\)) 에서 평가. Beta-Binomial 에서는.

\[ p(\alpha, \beta \mid y) \propto p(\alpha, \beta) \prod_{j=1}^J \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} \frac{\Gamma(\alpha + y_j)\Gamma(\beta + n_j - y_j)}{\Gamma(\alpha + \beta + n_j)} \]

\((\alpha, \beta)\) 의 2 차원 주변 — 격자 계산 가능.

4.3 하이퍼파라미터 격자 계산

Beta(α, β) 의 자연스러운 매개변수화. \(\alpha, \beta > 0\).

\(\mu = \alpha/(\alpha+\beta)\) — 모집단 평균
\(\kappa = \alpha + \beta\) — 총 “사전 관측 수” (정확도)

교재 — \(\log(\alpha/\beta), \log(\alpha+\beta)\) 변환 사용. \((\alpha, \beta)\) 가 양수라 로그 스케일이 정규 근사 가까움.

비정보 hyperprior \(p(\alpha, \beta) \propto (\alpha + \beta)^{-5/2}\) — 적절한 사후 보장 하는 informed 선택.

4.4 쥐 종양 예제 — 수치 결과

격자 계산에서.

\(\alpha\) 사후 평균 \(\approx 2.4\), \(\beta \approx 14.0\)
모집단 평균 \(\mu \approx 0.145\)
현재 실험 \(\theta_{71}\) 사후 평균 \(\approx (2.4 + 4)/(14.0 + 4 + 10) = 6.4/28 \approx 0.23\)

비교.

현재 실험만: \(\hat\theta_{71} = 4/14 = 0.286\)
이력 평균 쪽: 0.136
계층 사후 평균: 0.23 (두 값의 중간, 현재 데이터 쪽에 가까움)

직관 — 계층 모형의 shrinkage 강도

\(n_j\) 가 작으면 (현재 14 마리) — 이력 평균 쪽으로 많이 끌림. \(n_j\) 가 크면 — 자체 데이터에 가깝게 유지.

shrinkage 량 = \((\text{이력 평균 - 자체 추정})\) × \(\text{가중치}\). 가중치는 \(\kappa/(n_j + \kappa)\) 형태. 공통 \(\kappa\) 가 “이력 데이터의 유효 표본 크기” 역할.

5 § 5.4 정규 교환가능 평균 모델

5.1 모델 구조

\(J\) 개 그룹, 각 그룹 내 관측 평균 \(\bar{y}_{.j}\) 와 알려진 표본 분산 \(\sigma_j^2\) 가 요약 통계.

\[ \bar{y}_{.j} \mid \theta_j \sim N(\theta_j, \sigma_j^2), \quad j = 1, \ldots, J \tag{5.12} \]

계층 사전.

\[ \theta_j \mid \mu, \tau \sim N(\mu, \tau^2), \quad j = 1, \ldots, J \]

\(\mu\) — 모집단 평균, \(\tau\) — 모집단 표준편차.

Hyperprior — \((\mu, \tau)\) 에 대한 비정보 또는 약정보.

5.2 세 가지 추정 전략

1. No pooling — 각 \(\theta_j\) 를 \(\bar{y}_{.j}\) 로 독립 추정.

2. Complete pooling — 모든 \(\theta_j\) 가 같다고 가정, pooled 추정.

\[ \bar{y}_{..} = \frac{\sum_j \bar{y}_{.j}/\sigma_j^2}{\sum_j 1/\sigma_j^2} \tag{5.13} \]

3. Partial pooling (계층) — \(\tau\) 가 데이터에서 추정. 각 그룹 사후.

\[ E(\theta_j \mid \mu, \tau, y) = \frac{\bar{y}_{.j}/\sigma_j^2 + \mu/\tau^2}{1/\sigma_j^2 + 1/\tau^2} \]

\(\bar{y}_{.j}\) 와 \(\mu\) 의 정밀도 가중 평균. \(\tau\) 가 무한대면 no pooling, 0 이면 complete pooling.

5.3 분산 성분 추정

핵심 질문 — \(\tau^2\) 를 어떻게 추정하나?

전통적 접근 — ANOVA. 그룹 간 SS / 그룹 내 SS 비교.

베이즈 접근 — \(\tau^2\) 의 주변 사후. 데이터의 그룹 간 변동 이 \(\tau\) 에 대한 정보 제공.

5.4 주변 \(p(\tau \mid y)\) 유도

교재의 계산. \(\mu, \theta_j\) 를 모두 적분하면.

\[ p(\tau \mid y) \propto p(\tau) \prod_{j=1}^J \frac{1}{\sqrt{\sigma_j^2 + \tau^2}} \exp\left(-\frac{(\bar{y}_{.j} - \hat\mu)^2}{2(\sigma_j^2 + \tau^2)}\right) \cdot V_\mu^{1/2} \]

비교적 복잡. 격자 계산 또는 MCMC 로 해결.

5.5 시뮬레이션 알고리즘

\(\tau^{(s)} \sim p(\tau \mid y)\) — 격자 또는 MCMC
\(\mu^{(s)} \mid \tau^{(s)}, y \sim N(\hat\mu, V_\mu)\) — 해석적
\(\theta_j^{(s)} \mid \mu^{(s)}, \tau^{(s)}, y \sim N\) — 각 그룹 독립 정규

각 단계가 Ch.3.1 의 조건부-주변 분해 전략의 확장.

6 § 5.5 8 학교 SAT 코칭 실험 — Ch.5 의 상징 예제

6.1 배경

Educational Testing Service (ETS) 가 8 개 고등학교 에서 각각 SAT-V 코칭 프로그램의 효과를 측정. 독립 무작위 실험.

데이터 (표 5.2).

학교	\(y_j\) (추정 효과)	\(\sigma_j\) (표준오차)
A	28	15
B	8	10
C	-3	16
D	7	11
E	-1	9
F	1	11
G	18	10
H	12	18

단위 — SAT-V 점수 증가 (200~800 범위). 8 점 ≈ 1 문제 더 맞음.

6.2 두 극단 접근의 문제

No pooling — 8 개 독립 추정. 학교 A 의 28 점 vs 학교 C 의 -3 점 — “극단 차이” 처럼 보임. 그러나 SE 가 커서 95% 구간이 모두 중첩.

Complete pooling — 모두 같은 효과. \(\bar{y}_{..} = 7.7, SE = 4.1\). 95% 구간 \([-0.2, 15.6]\) — 0 포함 (효과 없음 가능).

어느 쪽도 만족스럽지 않다.

No pooling 은 8 개 독립 추정의 극단값 을 그대로 신뢰
Complete pooling 은 학교 간 변동을 완전 무시

6.3 계층 모형의 해법

\[ y_j \mid \theta_j \sim N(\theta_j, \sigma_j^2), \quad \theta_j \mid \mu, \tau \sim N(\mu, \tau^2) \]

\(\mu\) — 전체 평균 코칭 효과, \(\tau\) — 학교 간 변동.

\(\tau\) 의 사후. 격자 계산에서 \(\tau\) 의 사후 중앙값이 약 5, 95% 구간 \([0, 20]\) 근처. \(\tau\) 가 0 에 가까우면 complete pooling, 크면 no pooling.

6.4 각 학교의 shrinkage 사후

\(\tau \approx 5\) 근처에서 각 \(\theta_j\) 의 사후 평균 (표 5.3 요약).

학교	원 관측 \(y_j\)	계층 사후 평균	SE 감소
A	28	약 11	15 → 10
B	8	약 8	10 → 7
C	-3	약 5	16 → 10
G	18	약 11	10 → 7

모든 추정이 전체 평균 \(\approx 8\) 쪽으로 shrunk. 학교 A (원 28) 의 사후 평균이 11 로 크게 감소. 학교 C (원 -3) 의 사후가 5 로 크게 증가.

6.5 다중 비교의 자동 해결

28 개 짝 비교 — \(\theta_i - \theta_j\) 각각. 계층 사후에서 어느 짝도 0 을 제외하는 95% 구간 없음. 빈도주의 다중 비교 검정을 보지 않아도 자동으로 “학교 간 차이가 통계적으로 확립되지 않았다” 는 결론.

직관 — 8 학교의 교훈

“특정 학교가 특별히 우수” 라는 증거 없음 — 노이즈가 큰 작은 표본의 극단값
“모두 같다” 도 아님 — \(\tau\) 가 0 이 아닐 가능성도 남음
최선의 단일 학교 기대 효과 — 약 8 점 (전체 평균), 하지만 큰 불확실성

정책 함의 — “학교 A 의 코칭 프로그램을 전국 확산” 은 성급한 결론. \(y_A = 28\) 은 상당 부분 운. 진짜 효과는 아마 7~12 점 수준.

이것이 Gelman 이 강조하는 계층 모형의 실용적 가치 — 경영 · 의료 · 교육 정책 의사결정에서 극단값을 자동 regress to mean.

7 § 5.6 메타분석

7.1 문제 정의

메타분석 (meta-analysis) — 여러 독립 연구의 결과를 통합 하여 공통 효과 추정.

예. 여러 임상 시험에서 약물 효과 측정. 각 시험 \(j\) 에서 효과 크기 \(y_j\) 와 SE \(\sigma_j\) 보고됨.

7.2 계층 모형 접근

§ 5.4 와 동일한 구조.

\[ y_j \mid \theta_j \sim N(\theta_j, \sigma_j^2), \quad \theta_j \mid \mu, \tau \sim N(\mu, \tau^2) \]

\(\mu\) — 공통 효과 (주 관심), \(\tau\) — 연구 간 이질성 (heterogeneity).

7.3 전통적 접근과의 비교

Fixed effects (고정 효과) 메타분석 — \(\tau = 0\) 가정. Complete pooling.

Random effects (무작위 효과) 메타분석 — \(\tau > 0\) 허용. 베이즈 계층과 수학적으로 동일.

베이즈의 이점.

\(\tau\) 자체에 대한 사후 추론 — 이질성의 불확실성
개별 \(\theta_j\) 의 shrinkage — 각 연구의 수정된 추정
예측 분포 — 새 연구의 \(\tilde\theta\) 에 대한 사후 예측

7.4 교재 예제 — Baby Aspirin 과 심근경색

교재 § 5.6 의 메타분석 사례. 여러 임상 시험의 aspirin 효과. 공통 효과 \(\mu\) 와 시험 간 이질성 \(\tau\) 의 사후 추론.

8 § 5.7 분산 모수에 대한 약정보적 사전

8.1 계층 모형의 가장 어려운 부분

분산 모수 \(\tau\) 에 대한 사전 선택. 그룹 수 \(J\) 가 작을 때 (8 학교처럼) 결과가 사전에 민감.

8.2 전통적 선택과 그 문제

Inverse-Gamma(\(\epsilon, \epsilon\)) — 작은 \(\epsilon\) (예 0.001) 사용한 흔한 “비정보” 사전. Gelman (2006a) 이 문제 제기.

\(\epsilon \to 0\) 극한이 improper 사후
작은 \(\epsilon\) 도 0 근처에 큰 확률 → \(\tau \approx 0\) 쪽으로 인위적 shrinkage

8.3 Gelman 권장 — Half-Cauchy

\[ \tau \sim \text{half-Cauchy}(0, A) \]

스케일 \(A\) 는 문맥에 맞춰 설정 (\(A = 5 \sim 25\)). 0 에서 양의 밀도, 꼬리가 두껍음 (큰 \(\tau\) 허용).

8 학교 예제 — \(A = 25\) (데이터 SE 최대치 근처) 권장. 결과 — \(\tau\) 사후가 합리적 범위.

8.4 Half-Normal · Half-Student t

Half-Normal — 꼬리가 얇아 극단값 제한. 데이터가 많을 때 적합.

Half-Student t — Half-Cauchy 와 Half-Normal 의 중간. 자유도로 조절.

직관 — 왜 사전이 \(\tau\) 에서 중요한가

\(\tau\) 는 \(J\) 그룹 간 변동 — 즉 \(\tau\) 에 대한 정보는 \(J\) 개 관측만 제공. \(J = 8\) 이면 \(\tau\) 가 잘 식별되지 않음.

반면 \(\mu, \theta_j\) 는 표본 크기에 따라 정보 많음. 그래서 이들에 대한 사전은 상대적으로 덜 중요.

실무 규칙 — \(\tau\) (또는 계층 분산) 에는 항상 약정보적 사전 을 쓰고, 민감도 분석 필수.

9 § 5.8~5.9 참고문헌과 연습

9.1 지적 계보

Lindley & Smith (1972) — 계층 선형 모형의 원전
Rubin (1981) — 8 학교 예제의 출처
Morris (1983) — Empirical Bayes 체계화
Gelman (2006a) — 분산 모수 사전의 현대 권장

9.2 주요 연습 유형

Rat tumor 데이터로 Beta-Binomial 계층 적합
8 학교의 대안 사전 민감도 분석
메타분석 데이터 (실제 임상 시험) 적합
분산 사전 선택이 결과에 미치는 영향

10 Ch.5 가 Part I 을 닫는 이유

앞선 장	Ch.5 의 확장
Ch.2 단일 모수	여러 그룹으로 확장
Ch.3 다모수	각 그룹의 \(\theta_j\) 공동 추정
Ch.4 점근	계층 구조에서 shrinkage

Part I 의 정점 — Ch.2.7 암 발생률 shrinkage 의 완전한 일반화. 현대 응용 베이즈 전체의 뼈대.

11 빈도주의와의 대응

질문	빈도주의	베이즈 (Ch.5)
여러 그룹 평균	ANOVA	정규 교환가능 모델
다중 비교	Bonferroni · Tukey	자동 shrinkage
메타분석	Fixed/random effects	계층 모형
Shrinkage	James-Stein	Empirical/Full Bayes
분산 성분	REML	주변 사후 \(p(\tau \mid y)\)

James-Stein 추정량이 Empirical Bayes 의 빈도주의 버전 — Stein (1956) 의 역설이 계층 모형으로 자연스럽게 해결.

12 코드 예제 — 8 학교 계층 모형

12.1 Step 1: 순수 Python — 격자 계산으로 \(\tau\) 주변 사후

import math
import random

random.seed(42)

# 8 학교 데이터
y = [28, 8, -3, 7, -1, 1, 18, 12]
sigma = [15, 10, 16, 11, 9, 11, 10, 18]
J = len(y)

def log_posterior_tau(tau, y, sigma):
    # p(τ | y) ∝ ∏ 1/sqrt(σ_j² + τ²) * exp(-(y_j - μ̂)²/(2(σ_j² + τ²))) * V_μ^{1/2}
    # where μ̂ = Σ y_j/(σ_j²+τ²) / Σ 1/(σ_j²+τ²)
    V_inv = sum(1 / (s ** 2 + tau ** 2) for s in sigma)
    mu_hat = sum(y[j] / (sigma[j] ** 2 + tau ** 2) for j in range(J)) / V_inv
    log_p = 0.5 * math.log(1 / V_inv)  # V_μ^{1/2}
    for j in range(J):
        log_p += -0.5 * math.log(sigma[j] ** 2 + tau ** 2)
        log_p += -(y[j] - mu_hat) ** 2 / (2 * (sigma[j] ** 2 + tau ** 2))
    return log_p

# τ 격자
tau_grid = [0.01 + i * 0.5 for i in range(81)]
log_post = [log_posterior_tau(tau, y, sigma) for tau in tau_grid]

# 정규화
max_lp = max(log_post)
unnorm = [math.exp(lp - max_lp) for lp in log_post]
total = sum(unnorm)
post = [u / total for u in unnorm]

# τ 사후 중앙값·95% 구간
cum = 0
tau_median = tau_25 = tau_975 = None
for i, p in enumerate(post):
    cum += p
    if tau_25 is None and cum >= 0.025:
        tau_25 = tau_grid[i]
    if tau_median is None and cum >= 0.5:
        tau_median = tau_grid[i]
    if tau_975 is None and cum >= 0.975:
        tau_975 = tau_grid[i]
        break

print(f"τ 사후 중앙값: {tau_median:.2f}")
print(f"τ 95% 구간: [{tau_25:.2f}, {tau_975:.2f}]")
print(f"Pr(τ = 0): {post[0]:.4f}  (Complete pooling 증거)")

예상 출력 — \(\tau\) 중앙값 ≈ 5, 95% 구간 \([0.1, 20]\) 근처. \(\tau\) 가 0 이 아니라는 약한 증거.

12.2 Step 2: 학교별 사후 — shrinkage 시각화

# 격자에서 τ 샘플
S = 10000
tau_samples = []
for _ in range(S):
    u = random.random()
    cum = 0
    for i, p in enumerate(post):
        cum += p
        if u <= cum:
            tau_samples.append(tau_grid[i])
            break

# 각 τ에서 학교별 θ 사후 계산 후 평균
theta_posterior_means = [0.0] * J
for tau in tau_samples:
    V_inv = sum(1 / (s ** 2 + tau ** 2) for s in sigma)
    mu_hat = sum(y[j] / (sigma[j] ** 2 + tau ** 2) for j in range(J)) / V_inv
    for j in range(J):
        # E(θ_j | μ̂, τ, y)
        v_j = 1 / (1 / sigma[j] ** 2 + 1 / tau ** 2)
        theta_hat_j = v_j * (y[j] / sigma[j] ** 2 + mu_hat / tau ** 2)
        theta_posterior_means[j] += theta_hat_j / S

print(f"\n{'학교':<6} {'원 관측 y':<12} {'계층 사후 평균':<15}")
labels = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
for j in range(J):
    print(f"{labels[j]:<6} {y[j]:<12} {theta_posterior_means[j]:<15.1f}")

예상 출력.

학교   원 관측 y    계층 사후 평균
A      28           약 11
B      8            약 8
C      -3           약 5
...
G      18           약 11

shrinkage 가 극단값 (A: 28, C: -3, G: 18) 에 강하게 적용. 중앙값 근처 (B, D) 는 거의 변화 없음.

13 관련 주제

Ch.1~4 (선행)

Ch.1 개요 · Ch.2 개요 · Ch.3 개요 · Ch.4 개요
Ch.2.7 암 발생률 예제 — Ch.5 의 축소판

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

후속 장

Ch.15 Hierarchical Linear Models (Part IV) — 계층 회귀
Ch.22 Finite Mixture Models (Part V) — 계층 혼합
Ch.23 Dirichlet Process (Part V) — 비모수 계층

빈도주의 대응

Mixed Effects Models — 빈도주의 계층 모형
James-Stein 추정 — 빈도주의 shrinkage
ANOVA

14 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.5.
Rubin, D. B. (1981). Estimation in parallel randomized experiments. Journal of Educational Statistics, 6(4), 377–401. [8 학교 원전]
Tarone, R. E. (1982). The use of historical control information in testing for a trend in proportions. Biometrics, 38(1), 215–220. [쥐 종양 데이터]
Lindley, D. V., & Smith, A. F. M. (1972). Bayes estimates for the linear model. Journal of the Royal Statistical Society. Series B, 34(1), 1–41.
Morris, C. N. (1983). Parametric empirical Bayes inference: Theory and applications. Journal of the American Statistical Association, 78(381), 47–55.
Gelman, A. (2006a). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515–534.
James, W., & Stein, C. (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium, 1, 361–379.