Kwangmin Kim - Ch.2.5~2.7 — 정규·Poisson·지수 켤레와 암 발생률 사례 심화

1 이 포스트의 위치 — Ch.2 심화의 두 번째 조각

§ 2.1~2.4 심화 에서 이항 모델과 Beta 켤레의 모든 수학적·철학적 논리를 다뤘다. 이 포스트는 그 같은 구조가 다른 표준 분포들 — 정규·Inv-$\chi^2$·Poisson·Gamma·지수 — 에서 어떻게 작동하는지 풀어 쓴다. § 2.7 의 신장암 지도 예제는 계층 모형 (Ch.5) 의 완벽한 예고편.

§ 2.5~2.7 의 한 줄 요약

“하나의 베이즈 규칙이 네 가지 표준 분포 (정규·Poisson·Gamma·지수) 에서 같은 구조로 작동한다. 특히 작은 표본의 극단값 문제는 정보적 사전으로 자연스럽게 해결되며, 이것이 계층 모형 아이디어의 씨앗이 된다.”

정규-정규 켤레의 정밀도 가산 은 Part III~V 의 모든 현대 베이즈 모델 뒤에서 작동하는 수학적 본질. (Gelman et al., 2013, Ch.2.5~2.7)

2 § 2.5 알려진 분산의 정규 모델

2.1 왜 정규인가

Gelman 의 세 가지 정당화.

중심극한정리 (CLT) — 많은 실제 관측이 “여러 독립 요인의 합” 으로 근사적 정규
더 복잡한 모델의 빌딩 블록 — $t$ 분포 · 혼합 분포가 정규를 기반
수학적 편의 — 지수족에서 가장 다루기 쉬운 형태

2.2 단일 관측의 모델과 우도

\[ p(y \mid \theta) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left(-\frac{1}{2\sigma^2}(y - \theta)^2\right) \]

$\sigma^2$ 는 알려진 것으로 가정. $\theta$ 에 대한 함수로 보면 우도는 $\theta$ 에 대한 이차식의 지수.

2.3 켤레 사전의 유도 — “이차 지수” 가족

가능도가 $\exp(A\theta^2 + B\theta + C)$ 형태이므로 사전도 같은 형태로 두면 사후도 같은 형태. 표준 매개변수화.

\[ p(\theta) \propto \exp\left(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2\right) \quad \Leftrightarrow \quad \theta \sim N(\mu_0, \tau_0^2) \]

하이퍼파라미터 — 사전 평균 $\mu_0$, 사전 분산 $\tau_0^2$.

2.4 사후의 유도

비정규화 사후.

\[ p(\theta \mid y) \propto \exp\left(-\frac{1}{2}\left(\frac{(y - \theta)^2}{\sigma^2} + \frac{(\theta - \mu_0)^2}{\tau_0^2}\right)\right) \]

지수 전개 → 항 정리 → $\theta$ 에 대한 제곱 완성 → 다시 정규 형태.

\[ p(\theta \mid y) \propto \exp\left(-\frac{1}{2\tau_1^2}(\theta - \mu_1)^2\right) \tag{2.9} \]

즉 $\theta \mid y \sim N(\mu_1, \tau_1^2)$, 여기서

\[ \mu_1 = \frac{\frac{1}{\tau_0^2} \mu_0 + \frac{1}{\sigma^2} y}{\frac{1}{\tau_0^2} + \frac{1}{\sigma^2}}, \quad \frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2} \tag{2.10} \]

2.5 정밀도 (precision) — 핵심 어휘

정밀도 = 분산의 역수. $\theta$ 의 정밀도 = $1/\tau^2$, 데이터의 정밀도 = $1/\sigma^2$.

\[ \boxed{\text{사후 정밀도} = \text{사전 정밀도} + \text{데이터 정밀도}} \]

두 독립 정보 출처의 정보량 (정밀도) 이 가산 된다는 것 — 이 식이 베이즈 추론의 가장 기하학적으로 명료한 결과.

직관 — “정밀도가 가산된다” 는 보편 법칙

이 가산 구조가 —

계층 모형 shrinkage: 그룹 내 정밀도 + 그룹 간 정밀도 (Ch.5)
칼만 필터 갱신: 상태 추정 정밀도의 시간에 걸친 누적
Ridge 회귀: 정규화 항이 사전 정밀도로 해석 (Ch.14)
센서 융합: 여러 측정기 결합 시 각 정밀도 가산

전부에서 같은 공식 으로 나타난다. “두 개의 독립 정보는 정밀도를 더한다” 는 문장이 베이즈 추론의 불변 사실 이다.

2.6 사후 평균의 세 가지 표현

\[ \mu_1 = \frac{\tau_0^{-2} \mu_0 + \sigma^{-2} y}{\tau_0^{-2} + \sigma^{-2}} \tag{정밀도 가중 평균} \]

\[ \mu_1 = \mu_0 + (y - \mu_0) \cdot \frac{\tau_0^2}{\sigma^2 + \tau_0^2} \tag{사전을 $y$ 쪽으로 끌어당김} \]

\[ \mu_1 = y - (y - \mu_0) \cdot \frac{\sigma^2}{\sigma^2 + \tau_0^2} \tag{데이터를 사전으로 shrink} \]

세 표현이 동치지만 각각 다른 직관.

첫째: “두 정보를 정밀도 가중 평균”
둘째: “사전이 얼마나 데이터 쪽으로 움직였는가”
셋째: “데이터가 얼마나 사전 쪽으로 축약되었는가”

세 번째 표현이 shrinkage 추정의 원형 — Ch.5 계층 모형에서 결정적 역할.

2.7 극단 사례 — 직관 확인

$\tau_0^2 = 0$ (사전이 무한 정밀): 사후 = 사전, $\mu_1 = \mu_0$
$\sigma^2 = 0$ (데이터가 무한 정밀): 사후 = 데이터, $\mu_1 = y$
$y = \mu_0$ (사전과 데이터 일치): $\mu_1 = \mu_0 = y$
$\tau_0^2 \to \infty$ (비정보적 사전): $\mu_1 \to y$, $\tau_1^2 \to \sigma^2$ — 빈도주의와 일치

2.8 사후 예측 분포

새 관측 $\tilde{y} \sim N(\theta, \sigma^2)$ 의 예측 분포.

\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]

$\tilde{y}$ 와 $\theta$ 의 결합이 정규이므로 주변 $\tilde{y}$ 도 정규. 반복 기댓값·분산으로.

\[ E(\tilde{y} \mid y) = E(E(\tilde{y} \mid \theta, y) \mid y) = E(\theta \mid y) = \mu_1 \]

\[ \text{var}(\tilde{y} \mid y) = E(\text{var}(\tilde{y} \mid \theta) \mid y) + \text{var}(E(\tilde{y} \mid \theta) \mid y) = \sigma^2 + \tau_1^2 \]

직관 — 사후 예측 분산의 두 성분

$\text{var}(\tilde{y} \mid y) = \sigma^2 + \tau_1^2$ 는 두 원천.

$\sigma^2$ — 표본 변동 (sampling variability): 같은 $\theta$ 에서도 $\tilde{y}$ 는 다르게 나온다
$\tau_1^2$ — 모수 불확실성 (parameter uncertainty): 관측 후에도 $\theta$ 가 정확하지 않다

두 항 모두 사후 예측 구간에 기여. 빈도주의의 “예측 구간 = $\hat{y} \pm 1.96 \sigma$” 은 파라미터 불확실성 $\tau_1^2$ 를 빠뜨리는 경향이 있어 보수적 구간을 주려면 추가 계산이 필요하지만, 베이즈는 두 원천이 자연스럽게 통합 된다.

2.9 다중 관측

iid 관측 $y = (y_1, \ldots, y_n)$, 각 $y_i \sim N(\theta, \sigma^2)$. 사후.

\[ p(\theta \mid y) \propto p(\theta) \prod_{i=1}^n p(y_i \mid \theta) \propto \exp\left(-\frac{1}{2}\left(\frac{(\theta - \mu_0)^2}{\tau_0^2} + \frac{\sum (y_i - \theta)^2}{\sigma^2}\right)\right) \]

$\bar{y}$ 가 충분통계량. $\bar{y} \mid \theta \sim N(\theta, \sigma^2/n)$ 이므로 단일 관측 결과를 $\bar{y}$ 에 그대로 적용.

\[ \mu_n = \frac{\tau_0^{-2} \mu_0 + n \sigma^{-2} \bar{y}}{\tau_0^{-2} + n \sigma^{-2}}, \quad \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \tag{2.12} \]

표본 크기 $n$ 이 데이터 정밀도에 곱해진다. $n \to \infty$ 이면 사후 $\to N(\bar{y}, \sigma^2/n)$ — 베이즈가 빈도주의와 합류 하는 Ch.4 점근 결과의 특수 사례.

2.10 순차 갱신과의 동치성

교재의 주석 — “점 $y_1, y_2, \ldots, y_n$ 을 하나씩 추가하면서 이전 사후를 다음 사전으로 쓰는 것도 같은 결과”.

이것이 § 1.4 혈우병 에서 본 순차 갱신의 정규 버전 — 데이터를 한꺼번에 보든 하나씩 보든 사후가 같다.

3 § 2.6 다른 표준 단일 모수 모델

3.1 왜 표준 분포인가

“일반적으로 사후 밀도 $p(\theta \mid y)$ 는 닫힌 형태가 없다. 정규화 상수 $p(y)$ 는 특히 적분 (1.3) 때문에 계산이 어렵다. 공식 베이즈 분석은 닫힌 형태가 가용한 상황에 집중하는데, 이 모델들이 비현실적일 수 있지만, 더 현실적인 모델을 구성할 때의 출발점이 된다.” (교재)

이항·정규·Poisson·지수 각각에 자연 켤레 사전 가족 이 있다.

3.2 정규 분포 (알려진 평균, 모르는 분산)

중요성 — 그 자체보다 “알려지지 않은 분산” 의 첫 다루기. Ch.3 의 공동 평균·분산 추정의 빌딩 블록.

모델.

\[ y \mid \theta, \sigma^2 \sim N(\theta, \sigma^2), \quad \theta \text{ 알려짐}, \sigma^2 \text{ 미지} \]

iid 관측의 우도.

\[ p(y \mid \sigma^2) \propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum (y_i - \theta)^2\right) = (\sigma^2)^{-n/2} \exp\left(-\frac{n}{2\sigma^2} v\right) \]

충분통계량.

\[ v = \frac{1}{n} \sum_{i=1}^n (y_i - \theta)^2 \]

3.3 역감마 · 스케일된 역 $\chi^2$ 켤레

켤레 사전 — 역감마 (inverse-gamma) 분포, 또는 동치로 스케일된 역 $\chi^2$.

\[ \sigma^2 \sim \text{Inv-}\chi^2(\nu_0, \sigma_0^2) \]

하이퍼파라미터 — 사전 자유도 $\nu_0$, 사전 스케일 $\sigma_0^2$. 해석: “$\nu_0$ 개의 사전 관측에서 얻은 평균 제곱 편차 $\sigma_0^2$” 에 해당하는 정보.

3.4 사후

\[ \sigma^2 \mid y \sim \text{Inv-}\chi^2\left(\nu_0 + n, \frac{\nu_0 \sigma_0^2 + n v}{\nu_0 + n}\right) \]

사후 자유도 = 사전 자유도 + $n$, 사후 스케일 = 자유도 가중 평균.

직관 — “자유도는 가산된다” 도 정밀도 가산의 변주

분산 모수의 정보량이 자유도 로 측정된다. 사전 자유도 $\nu_0$ + 데이터 자유도 $n$ = 사후 자유도. 이것이 § 2.5 정밀도 가산의 분산 공간 버전.

$\nu_0 \to 0$ (비정보적 극한) 이면 사후 $\to \text{Inv-}\chi^2(n, v)$ — 빈도주의 표본 분산 분포와 정확히 일치. 이 극한 결과가 Ch.3 공동 평균-분산 모델에서 중요.

3.5 Poisson 모델

계수 (count) 데이터 — 전염병 발생 수·교통사고 건수·방사성 붕괴 수 등.

\[ p(y \mid \theta) = \frac{\theta^y e^{-\theta}}{y!}, \quad y = 0, 1, 2, \ldots \]

iid 관측 $y = (y_1, \ldots, y_n)$ 의 우도.

\[ p(y \mid \theta) \propto \theta^{t(y)} e^{-n\theta} \]

충분통계량 $t(y) = \sum y_i$. 지수족 형태.

\[ p(y \mid \theta) \propto e^{-n\theta} e^{t(y) \log \theta} \]

자연 모수 $\phi(\theta) = \log \theta$. Poisson 회귀의 로그 링크가 “자연스러운” 이유의 수학적 배경.

3.6 Gamma 켤레

우도가 $\theta^a e^{-b\theta}$ 형태이므로 사전도 같은 형태.

\[ p(\theta) \propto \theta^{\alpha - 1} e^{-\beta\theta} \quad \Leftrightarrow \quad \theta \sim \text{Gamma}(\alpha, \beta) \]

하이퍼파라미터 — $\alpha - 1$ = 사전 총 계수, $\beta$ = 사전 총 노출 (exposure).

사후.

\[ \theta \mid y \sim \text{Gamma}(\alpha + n\bar{y}, \beta + n) \]

$n\bar{y} = \sum y_i$ = 총 관측 계수, $n$ = 관측된 총 노출. 사후 = 사전 + 데이터, 지수족의 보편 구조.

3.7 사전 예측 분포 — 음이항

Gamma-Poisson 혼합의 사전 예측.

\[ p(y) = \frac{p(y \mid \theta) p(\theta)}{p(\theta \mid y)} \]

대수적 계산으로.

\[ p(y) = \binom{\alpha + y - 1}{y} \left(\frac{\beta}{\beta + 1}\right)^\alpha \left(\frac{1}{\beta + 1}\right)^y \]

이것이 음이항 분포 (negative binomial) — Neg-bin($\alpha, \beta$).

핵심 표현.

\[ \text{Neg-bin}(y \mid \alpha, \beta) = \int \text{Poisson}(y \mid \theta) \, \text{Gamma}(\theta \mid \alpha, \beta) \, d\theta \]

직관 — 음이항은 “Poisson 의 과분산 버전”

Poisson 은 평균 = 분산 제약 — 현실 데이터는 대개 분산 > 평균 (과분산). 음이항은 Poisson 과 감마의 혼합이라 과분산을 자연스럽게 허용한다. 이것이 GLM 의 음이항 회귀 의 베이즈 뿌리. Ch.17 robust 모델에서 Poisson 의 robust 대안으로 재등장한다.

3.8 노출 (exposure) 모델 — 응용에서 가장 흔한 형태

역학·보험·신뢰성에서 단순 Poisson 대신 노출을 곱한 형태 를 쓴다.

\[ y_i \sim \text{Poisson}(x_i \theta) \tag{2.14} \]

$x_i$ — 알려진 노출 (인구·관측 시간·단위 수 등), $\theta$ — 단위 노출당 rate.

$(y_i, x_i)$ 쌍이 교환가능하면 이 모델은 $y_i$ 가 아니라 $(x, y)_i$ 쌍에 대해 교환가능.

우도.

\[ p(y \mid \theta) \propto \theta^{\sum y_i} e^{-(\sum x_i) \theta} \]

Gamma 켤레 유지, 사후.

\[ \theta \mid y \sim \text{Gamma}\left(\alpha + \sum y_i, \beta + \sum x_i\right) \tag{2.15} \]

사후 평균.

\[ E(\theta \mid y) = \frac{\alpha + \sum y_i}{\beta + \sum x_i} \]

“사전 계수 + 관측 계수” 를 “사전 노출 + 관측 노출” 로 나눔.

3.9 천식 사망률 예제

맥락 — 미국 한 도시의 인구 200,000 명, 1 년간 천식 사망자 $y = 3$ 명. 조 (crude) 비율 = 1.5 / 100,000 / 년.

모델 — $\theta$ = 단위 “100,000 명 년” 당 사망률, $x = 2.0$ (인구 / 100,000). $y = 3 \sim \text{Poisson}(2.0 \, \theta)$.

사전 설정 — 전 세계 천식 사망률 검토에서 서구권 대부분 0.6 / 100,000 수준, 1.5 이상은 드뭄. Gamma(3.0, 5.0) 사전.

평균 $\alpha/\beta = 0.6$
모드 $(\alpha-1)/\beta = 0.4$
97.5 분위수 $\approx 1.44$

사후.

\[ \theta \mid y \sim \text{Gamma}(\alpha + y, \beta + x) = \text{Gamma}(6.0, 7.0) \]

사후 평균 $6.0 / 7.0 \approx 0.857$. 관측 1.5 로부터 사전 0.6 쪽으로 크게 shrinkage.

사후 확률 $\Pr(\theta > 1.0 \mid y) \approx 0.30$ — “실제 사망률이 단위당 1 을 넘을 확률 30%”.

3.10 10 년치 데이터로 확장

같은 도시, 같은 1.5 비율 유지, 10 년간 $y = 30$.

\[ \theta \mid y \sim \text{Gamma}(3.0 + 30, 5.0 + 20) = \text{Gamma}(33.0, 25.0) \]

사후 평균 $33/25 = 1.32$. 데이터가 지배 — 사후가 원래 조 (crude) 비율 1.5 에 훨씬 가까워짐. $\Pr(\theta > 1.0) = 0.93$.

직관 — 노출이 정밀도 역할을 한다

1 년 관측 vs 10 년 관측 — 데이터 정보량이 10 배. 사후 축소가 사전에 가깝던 것 (0.86) 이 데이터에 가까운 것 (1.32) 으로 이동. “노출 $x$ = 데이터 정밀도” — Poisson 의 정밀도 가산은 노출 총합 $\sum x_i$ 형태로 나타난다.

이 원리가 역학 · 보험 · 제조 품질 관리의 표준 — “관측 시간 또는 단위가 많을수록 추정이 정밀” 이라는 직관의 수학화.

3.11 지수 모델

연속형 대기 시간 · 부품 수명 데이터.

\[ p(y \mid \theta) = \theta e^{-y\theta}, \quad y > 0 \]

$\theta = 1 / E(y \mid \theta)$ 는 rate. 지수는 감마의 특수 사례 (α=1).

메모리리스 성질.

\[ \Pr(y > t + s \mid y > s, \theta) = \Pr(y > t \mid \theta) \]

“이미 $s$ 만큼 대기했다” 는 사실이 “추가 대기 시간” 의 분포에 영향 없음 — 신뢰성·대기 행렬 모델의 기본 가정.

3.12 Gamma 켤레

우도가 $\theta^n e^{-n\bar{y}\theta}$ 형태, Gamma 사전 유지.

\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y \sim \text{Gamma}(\alpha + n, \beta + n\bar{y}) \]

해석 — 사전 Gamma($\alpha, \beta$) 는 “$\alpha - 1$ 회의 사전 지수 관측, 총 대기 시간 $\beta$” 와 등가.

4 § 2.7 암 발생률의 정보적 사전 — Ch.2 의 정점

4.1 지도의 역설

교재 그림 2.6·2.7. 1980년대 미국 카운티별 신장/요관암 사망률 (백인 남성).

그림 2.6 — 최고 10% 사망률 카운티. Great Plains 중부 에 몰려 있음
그림 2.7 — 최저 10% 사망률 카운티. 똑같이 Great Plains 중부 에 몰려 있음

지도를 처음 본 사람들은 그림 2.6 을 설명하는 여러 가설을 세운다 — 오염된 공기·물, 의료 접근성 부족, 식단 문제. 그림 2.7 을 보면 이 가설들이 필요 없음 이 드러난다. “왜 같은 지역이 동시에 최고이자 최저인가?” 가 진짜 질문.

4.2 이 역설의 통계적 원인 — 작은 표본

답은 표본 크기. 신장암은 드문 질환. 인구 1,000 명의 작은 카운티를 생각하면.

10 년간 0 명 사망 일 가능성이 대체로 크다 → 비율 0 → 최저 10% 에 해당
그러나 1 명이 사망하면 비율 = 1 / (1000 × 10) = 10⁻⁴ = 연당 10 / 100,000 → 최고 10% 로 이동

Great Plains 에 저인구 카운티가 많다. 그 결과 같은 지역의 카운티들이 양 극단에 동시에 나타난다. 실제 지역의 암 발생률이 특별히 높다는 증거가 아니다.

4.3 모델 설정

각 카운티 $j$ 의 진짜 rate $\theta_j$.

\[ y_j \sim \text{Poisson}(10 \, n_j \, \theta_j) \tag{2.16} \]

$y_j$: 1980-1989 10 년간 카운티 $j$ 의 사망자 수
$n_j$: 카운티 $j$ 의 인구
$10 n_j$: 10 년치 인구 노출
$\theta_j$: 단위 “인구 × 년” 당 사망률

조 (crude) rate = $y_j / (10 n_j)$ — 지도에서 색칠된 수치.

4.4 공통 정보적 사전

전국 카운티의 정보를 활용한 경험적 사전.

\[ \theta_j \sim \text{Gamma}(\alpha, \beta), \quad \alpha = 20, \ \beta = 430{,}000 \]

사전 평균 $\alpha/\beta = 4.65 \times 10^{-5}$ (= 약 4.65 / 100,000 / 년)
사전 표준편차 $\sqrt{\alpha}/\beta = 1.04 \times 10^{-5}$

해석 — 이 사전은 “약 430,000 인구 × 년의 관측에서 20 명 사망을 경험한 사전 정보”. 즉 “미국 전체에 가까운 규모의 경험적 분포”.

4.5 사후 — 각 카운티별

\[ \theta_j \mid y_j \sim \text{Gamma}(20 + y_j, \ 430{,}000 + 10 n_j) \]

사후 평균.

\[ E(\theta_j \mid y_j) = \frac{20 + y_j}{430{,}000 + 10 n_j} \]

이것이 조 rate $y_j / (10 n_j)$ 와 사전 평균 $4.65 \times 10^{-5}$ 의 가중 평균 (Exercise 2.5 과 동일 구조).

4.6 작은 카운티 — 사전이 지배

$n_j = 1000$ 의 카운티.

$y_j$	조 rate ($\times 10^{-5}$)	사후 평균 ($\times 10^{-5}$)
0	0	$20/440{,}000 = 4.55$
1	10	$21/440{,}000 = 4.77$
2	20	$22/440{,}000 = 5.00$

조 rate 는 0 에서 20 까지 요동치지만, 사후 평균은 4.55~5.00 사이의 매우 좁은 범위. 작은 카운티의 사후는 사전이 완전히 지배.

직관 — shrinkage 의 시각화

작은 카운티의 조 rate 는 표본 크기가 작아 극단적으로 변동. 베이즈는 이 변동성을 사전 평균 쪽으로 수축 (shrinkage) 시켜, 결과가 “이웃 카운티들의 지혜” 를 반영하게 한다. 조 rate = 0 인 카운티가 사전 평균에 가까운 4.55 × 10⁻⁵ 로 보정되는 것 — 이것이 지도 역설의 해소.

같은 원리가 스포츠 통계 (“첫 시즌의 우수한 타율은 두 번째 시즌에 평균으로 회귀”) · 학교 평가 · 병원 순위 등에 광범위하게 적용된다.

4.7 사전 예측 (음이항) 으로 합리성 확인

$n_j = 1000$ 카운티가 “사전 하에서” 얼마나 많은 사망자를 낼 것인가?

\[ y_j \sim \text{Neg-bin}\left(\alpha = 20, \ \beta/(10 n_j) = 43\right) \]

교재의 시뮬레이션 — Gamma(20, 430000) 에서 $\theta_j$ 500 개 추출 → 각각에서 Poisson(10,000 $\theta_j$) 로 $y_j$ 추출.

결과: 319 개가 0, 141 개가 1, 33 개가 2, 5 개가 3. 작은 카운티의 “기대되는” 사망자 수 분포. 조 rate 가 0 또는 10⁻⁴ 으로 튀는 것은 사전 예측에서도 예상되는 변동 이다.

4.8 큰 카운티 — 데이터가 지배

$n_j = 1{,}000{,}000$ 의 카운티. 사전 예측 — 중앙값 473 사망, 50% 구간 [393, 545].

$y_j = 393$ 에서.

\[ E(\theta_j \mid y_j) = \frac{20 + 393}{430{,}000 + 10{,}000{,}000} = 3.96 \times 10^{-5} \]

조 rate $3.93 \times 10^{-5}$ 와 거의 일치. 데이터가 사전을 압도.

4.9 핵심 결과

교재 그림 2.9.

2.9(a) Bayes 추정 사후 평균을 $\log_{10}(n_j)$ 로 플롯 — 조 rate 에서 보이던 극단 변동이 사라지고, 전체적으로 사전 평균 근처에 모인다
2.9(b) 일부 카운티의 50% 구간 — 작은 카운티는 구간 폭이 넓고, 큰 카운티는 좁음

이것이 지도 역설의 정확한 해소 — 사후 평균 지도는 조 rate 지도와 달리 Great Plains 에 쏠리지 않는다.

4.10 Ch.5 계층 모형으로의 연결

이 예제의 치명적 가정 — “모든 카운티가 공통 사전 Gamma(20, 430000)”. 이것이 합리적인가?

카운티들이 평균·분산 면에서 유사하면 공통 사전 합리적
카운티들 사이에 구조적 차이 (기후·산업 등) 가 있다면 공통 사전은 너무 강한 가정

Ch.5 의 계층 모형 — 사전 하이퍼파라미터 $(\alpha, \beta)$ 를 고정하지 않고 데이터에서 추정. 카운티 간 변동과 내부 변동을 데이터가 결정.

\[ \theta_j \mid \alpha, \beta \sim \text{Gamma}(\alpha, \beta), \quad (\alpha, \beta) \sim p(\alpha, \beta) \]

이것이 Empirical Bayes → Full Bayes 의 진화. 신장암 지도는 Ch.5 의 rat tumor 예제 · 8 schools 의 핵심 구조를 이미 담고 있다.

직관 — “정보적 사전” 에서 “계층 모형” 으로

§ 2.7 의 핵심 교훈 — 작은 표본의 극단값 문제는 공통 사전 으로 해결된다. 이 사전이 데이터에서 추정 될 때 우리는 완전한 계층 모형에 도달한다. Ch.2 에서 Ch.5 로의 자연스러운 사다리.

현대 베이즈 실무에서 거의 모든 계수 모델 · 비율 모델 · 생존 모델이 이 사다리를 오른다. 카운티 → 학교 → 병원 → 유전자 발현 → 임상 시험 사이트 — 구조가 모두 같다.

5 세 절의 통합 구조

절	핵심 모델	켤레 가족	정보 가산
§ 2.5	정규 (알려진 분산)	정규 사전	정밀도 $1/\tau_1^2 = 1/\tau_0^2 + 1/\sigma^2$
§ 2.6	정규 (알려진 평균)	스케일된 역 $\chi^2$	자유도 $\nu_n = \nu_0 + n$
§ 2.6	Poisson	Gamma	계수 + 노출 가산
§ 2.6	지수	Gamma	관측 수 + 총 시간 가산
§ 2.7	Poisson 위계	공통 Gamma	shrinkage 는 노출에 의존

공통 패턴 — 사후 = 사전 + 데이터 정보량. 가산의 형태가 분포마다 다르지만 수학적 구조는 동일.

6 빈도주의 대응

질문	빈도주의	베이즈 (§ 2.5~2.7)
정규 평균 추정	$\hat{\theta} = \bar{y}$	$N(\mu_n, \tau_n^2)$ 사후
Poisson rate 추정	$\hat{\theta} = \bar{y}/\bar{x}$	Gamma($\alpha + \sum y, \beta + \sum x$)
지수 rate 추정	$\hat{\theta} = 1/\bar{y}$	Gamma($\alpha + n, \beta + n\bar{y}$)
작은 카운티 rate	조 rate (극단값)	Bayes-shrunk rate
과분산 (Poisson)	QL · 준가능도	Gamma-Poisson → 음이항

Bayes-shrunk 추정량이 빈도주의 James-Stein 과 수학적으로 등가 — 빈도주의 JS 추정 이 본질적으로 empirical Bayes 라는 사실이 이 장에서 예고된다.

7 코드 예제 — 천식 사망률 · 암 발생률 Bayes-shrinkage

7.1 Step 1: 천식 사망률 — 1 년 vs 10 년 비교

import math
import random

random.seed(42)

def sample_gamma(alpha, beta):
    # scipy 없이 순수 Python gamma
    return random.gammavariate(alpha, 1.0 / beta)

# 1 년 관측 — y=3, x=2.0
# 사전 Gamma(3.0, 5.0), 사후 Gamma(6.0, 7.0)
S = 10000
posterior_1yr = [sample_gamma(6.0, 7.0) for _ in range(S)]
posterior_10yr = [sample_gamma(33.0, 25.0) for _ in range(S)]

def summarize(samples, name):
    samples = sorted(samples)
    mean = sum(samples) / len(samples)
    lo = samples[int(0.025 * len(samples))]
    hi = samples[int(0.975 * len(samples))]
    p_over_1 = sum(1 for s in samples if s > 1.0) / len(samples)
    print(f"{name:<20} 평균 = {mean:.3f}, 95% 구간 = [{lo:.3f}, {hi:.3f}], Pr(θ > 1) = {p_over_1:.3f}")

summarize(posterior_1yr, "1 년 관측")
summarize(posterior_10yr, "10 년 관측")

예상 출력 —

1 년 관측              평균 ≈ 0.86, 95% 구간 ≈ [0.32, 1.62], Pr(θ > 1) ≈ 0.30
10 년 관측             평균 ≈ 1.32, 95% 구간 ≈ [0.91, 1.81], Pr(θ > 1) ≈ 0.93

관찰 — 1 년에서는 “사망률이 1 초과일 확률 30%” 로 불확실, 10 년에서는 “93%” 로 거의 확정. 노출 증가가 사후 정밀도를 직접 증가시킨다.

7.2 Step 2: 암 발생률 — 지도 역설 수치 재현

import numpy as np
from scipy import stats

np.random.seed(0)

# 3,071 개 카운티 시뮬레이션
# 사전 Gamma(20, 430000), 진짜 rate 는 이 사전에서 추출
alpha_prior, beta_prior = 20, 430000
K = 3071
true_rates = stats.gamma.rvs(alpha_prior, scale=1/beta_prior, size=K)

# 카운티 인구 분포 — 로그 정규 근사
log_pop = np.random.normal(loc=10.5, scale=1.5, size=K)
n_j = np.clip(np.exp(log_pop), 100, 10_000_000).astype(int)

# 관측 사망자 수
y_j = stats.poisson.rvs(10 * n_j * true_rates)

# 조 rate vs Bayes 사후 평균
crude_rate = y_j / (10 * n_j)
post_mean = (alpha_prior + y_j) / (beta_prior + 10 * n_j)

# 조 rate 의 최고/최저 10%
crude_top = np.percentile(crude_rate, 90)
crude_bot = np.percentile(crude_rate, 10)

# 그 카운티들의 인구 평균
top_counties_pop = n_j[crude_rate >= crude_top]
bot_counties_pop = n_j[crude_rate <= crude_bot]

print(f"조 rate 최고 10% 카운티 평균 인구: {top_counties_pop.mean():.0f}")
print(f"조 rate 최저 10% 카운티 평균 인구: {bot_counties_pop.mean():.0f}")
print(f"조 rate 분산:   {crude_rate.var():.4e}")
print(f"Bayes rate 분산: {post_mean.var():.4e}")
print(f"분산 감소 비율: {crude_rate.var() / post_mean.var():.2f}x")

예상 출력 — 최고/최저 10% 모두 평균 인구가 훨씬 작다 (지도 역설 재현), 그리고 Bayes 사후 평균의 분산이 조 rate 의 수십~수백 배 작다 (shrinkage 효과).

8 관련 주제

Ch.2 의 다른 심화 포스트

Ch.2 개요 — Ch.2 전체 훑기
§ 2.1~2.4 심화 — 이항·Beta·Placenta previa
§ 2.8~2.9 비정보적·약정보적 사전 (작성 예정)

Ch.1 (선행)

§ 1.1~1.4 · § 1.5~1.8 · § 1.9·1.10·1.12

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

GLM 이론 기초 — 지수족과 자연 모수
Poisson 분포 · 과분산과 음이항
Monte Carlo 시뮬레이션
MLE · 점 추정 — James-Stein 과 Bayes-shrinkage

9 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.5~2.7).
Gelman, A., & Price, P. N. (1999). All maps of parameter estimates are misleading. Statistics in Medicine, 18(23), 3221–3234.
Clayton, D., & Kaldor, J. (1987). Empirical Bayes estimates of age-standardized relative risks for use in disease mapping. Biometrics, 43(3), 671–681.
Efron, B., & Morris, C. (1977). Stein’s paradox in statistics. Scientific American, 236(5), 119–127.
DeGroot, M. H., & Schervish, M. J. (2012). Probability and Statistics (4th ed.). Pearson.

\(y_j\)	조 rate (\(\times 10^{-5}\))	사후 평균 (\(\times 10^{-5}\))
0	0	\(20/440{,}000 = 4.55\)
1	10	\(21/440{,}000 = 4.77\)
2	20	\(22/440{,}000 = 5.00\)