Ch.2.5~2.7 — 정규·Poisson·지수 켤레와 암 발생률 사례 심화

Gelman BDA Ch.2.5~2.7 상세 — 정밀도 가산·감마 켤레·신장암 지도의 역설

Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 중반 세 절을 상세히 다룬다. § 2.5 알려진 분산의 정규 모델 — 정규-정규 켤레의 정밀도 가산 구조·사후 평균의 세 표현·사후 예측 분산 분해·다중 관측과 \(\bar{y}\) 의 충분성, § 2.6 알려진 평균의 분산 모델 (Inv-\(\chi^2\)), Poisson-Gamma 켤레와 negative binomial 예측, 노출 (exposure) 모델 \(y_i \sim \text{Poisson}(x_i \theta)\), 천식 사망률 예제 (3/200{,}000 → Gamma(6, 7) 사후), 지수 분포의 기억 없음, § 2.7 미국 신장암 지도 역설 — 최고·최저 지역이 같은 이유와 Gamma(20, 430000) 사전으로 계층 모형을 예고하는 Bayes-adjusted 사망률 계산까지 수식·직관·코드로 완결.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 20일

1 이 포스트의 위치 — Ch.2 심화의 두 번째 조각

§ 2.1~2.4 심화 에서 이항 모델과 Beta 켤레의 모든 수학적·철학적 논리를 다뤘다. 이 포스트는 그 같은 구조가 다른 표준 분포들 — 정규·Inv-\(\chi^2\)·Poisson·Gamma·지수 — 에서 어떻게 작동하는지 풀어 쓴다. § 2.7 의 신장암 지도 예제는 계층 모형 (Ch.5) 의 완벽한 예고편.

§ 2.5~2.7 의 한 줄 요약

“하나의 베이즈 규칙이 네 가지 표준 분포 (정규·Poisson·Gamma·지수) 에서 같은 구조로 작동한다. 특히 작은 표본의 극단값 문제는 정보적 사전으로 자연스럽게 해결되며, 이것이 계층 모형 아이디어의 씨앗이 된다.”

정규-정규 켤레의 정밀도 가산 은 Part III~V 의 모든 현대 베이즈 모델 뒤에서 작동하는 수학적 본질. (Gelman et al., 2013, Ch.2.5~2.7)


2 § 2.5 알려진 분산의 정규 모델

2.1 왜 정규인가

Gelman 의 세 가지 정당화.

  1. 중심극한정리 (CLT) — 많은 실제 관측이 “여러 독립 요인의 합” 으로 근사적 정규
  2. 더 복잡한 모델의 빌딩 블록\(t\) 분포 · 혼합 분포가 정규를 기반
  3. 수학적 편의 — 지수족에서 가장 다루기 쉬운 형태

2.2 단일 관측의 모델과 우도

\[ p(y \mid \theta) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left(-\frac{1}{2\sigma^2}(y - \theta)^2\right) \]

\(\sigma^2\) 는 알려진 것으로 가정. \(\theta\) 에 대한 함수로 보면 우도는 \(\theta\) 에 대한 이차식의 지수.

2.3 켤레 사전의 유도 — “이차 지수” 가족

가능도가 \(\exp(A\theta^2 + B\theta + C)\) 형태이므로 사전도 같은 형태로 두면 사후도 같은 형태. 표준 매개변수화.

\[ p(\theta) \propto \exp\left(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2\right) \quad \Leftrightarrow \quad \theta \sim N(\mu_0, \tau_0^2) \]

하이퍼파라미터 — 사전 평균 \(\mu_0\), 사전 분산 \(\tau_0^2\).

2.4 사후의 유도

비정규화 사후.

\[ p(\theta \mid y) \propto \exp\left(-\frac{1}{2}\left(\frac{(y - \theta)^2}{\sigma^2} + \frac{(\theta - \mu_0)^2}{\tau_0^2}\right)\right) \]

지수 전개 → 항 정리 → \(\theta\) 에 대한 제곱 완성 → 다시 정규 형태.

\[ p(\theta \mid y) \propto \exp\left(-\frac{1}{2\tau_1^2}(\theta - \mu_1)^2\right) \tag{2.9} \]

\(\theta \mid y \sim N(\mu_1, \tau_1^2)\), 여기서

\[ \mu_1 = \frac{\frac{1}{\tau_0^2} \mu_0 + \frac{1}{\sigma^2} y}{\frac{1}{\tau_0^2} + \frac{1}{\sigma^2}}, \quad \frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2} \tag{2.10} \]

2.5 정밀도 (precision) — 핵심 어휘

정밀도 = 분산의 역수. \(\theta\) 의 정밀도 = \(1/\tau^2\), 데이터의 정밀도 = \(1/\sigma^2\).

\[ \boxed{\text{사후 정밀도} = \text{사전 정밀도} + \text{데이터 정밀도}} \]

두 독립 정보 출처의 정보량 (정밀도) 이 가산 된다는 것 — 이 식이 베이즈 추론의 가장 기하학적으로 명료한 결과.

직관 — “정밀도가 가산된다” 는 보편 법칙

이 가산 구조가 —

  • 계층 모형 shrinkage: 그룹 내 정밀도 + 그룹 간 정밀도 (Ch.5)
  • 칼만 필터 갱신: 상태 추정 정밀도의 시간에 걸친 누적
  • Ridge 회귀: 정규화 항이 사전 정밀도로 해석 (Ch.14)
  • 센서 융합: 여러 측정기 결합 시 각 정밀도 가산

전부에서 같은 공식 으로 나타난다. “두 개의 독립 정보는 정밀도를 더한다” 는 문장이 베이즈 추론의 불변 사실 이다.

2.6 사후 평균의 세 가지 표현

\[ \mu_1 = \frac{\tau_0^{-2} \mu_0 + \sigma^{-2} y}{\tau_0^{-2} + \sigma^{-2}} \tag{정밀도 가중 평균} \]

\[ \mu_1 = \mu_0 + (y - \mu_0) \cdot \frac{\tau_0^2}{\sigma^2 + \tau_0^2} \tag{사전을 $y$ 쪽으로 끌어당김} \]

\[ \mu_1 = y - (y - \mu_0) \cdot \frac{\sigma^2}{\sigma^2 + \tau_0^2} \tag{데이터를 사전으로 shrink} \]

세 표현이 동치지만 각각 다른 직관.

  • 첫째: “두 정보를 정밀도 가중 평균”
  • 둘째: “사전이 얼마나 데이터 쪽으로 움직였는가”
  • 셋째: “데이터가 얼마나 사전 쪽으로 축약되었는가”

세 번째 표현이 shrinkage 추정의 원형 — Ch.5 계층 모형에서 결정적 역할.

2.7 극단 사례 — 직관 확인

  • \(\tau_0^2 = 0\) (사전이 무한 정밀): 사후 = 사전, \(\mu_1 = \mu_0\)
  • \(\sigma^2 = 0\) (데이터가 무한 정밀): 사후 = 데이터, \(\mu_1 = y\)
  • \(y = \mu_0\) (사전과 데이터 일치): \(\mu_1 = \mu_0 = y\)
  • \(\tau_0^2 \to \infty\) (비정보적 사전): \(\mu_1 \to y\), \(\tau_1^2 \to \sigma^2\) — 빈도주의와 일치

2.8 사후 예측 분포

새 관측 \(\tilde{y} \sim N(\theta, \sigma^2)\) 의 예측 분포.

\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]

\(\tilde{y}\)\(\theta\) 의 결합이 정규이므로 주변 \(\tilde{y}\) 도 정규. 반복 기댓값·분산으로.

\[ E(\tilde{y} \mid y) = E(E(\tilde{y} \mid \theta, y) \mid y) = E(\theta \mid y) = \mu_1 \]

\[ \text{var}(\tilde{y} \mid y) = E(\text{var}(\tilde{y} \mid \theta) \mid y) + \text{var}(E(\tilde{y} \mid \theta) \mid y) = \sigma^2 + \tau_1^2 \]

직관 — 사후 예측 분산의 두 성분

\(\text{var}(\tilde{y} \mid y) = \sigma^2 + \tau_1^2\) 는 두 원천.

  • \(\sigma^2\) — 표본 변동 (sampling variability): 같은 \(\theta\) 에서도 \(\tilde{y}\) 는 다르게 나온다
  • \(\tau_1^2\) — 모수 불확실성 (parameter uncertainty): 관측 후에도 \(\theta\) 가 정확하지 않다

두 항 모두 사후 예측 구간에 기여. 빈도주의의 “예측 구간 = \(\hat{y} \pm 1.96 \sigma\)” 은 파라미터 불확실성 \(\tau_1^2\) 를 빠뜨리는 경향이 있어 보수적 구간을 주려면 추가 계산이 필요하지만, 베이즈는 두 원천이 자연스럽게 통합 된다.

2.9 다중 관측

iid 관측 \(y = (y_1, \ldots, y_n)\), 각 \(y_i \sim N(\theta, \sigma^2)\). 사후.

\[ p(\theta \mid y) \propto p(\theta) \prod_{i=1}^n p(y_i \mid \theta) \propto \exp\left(-\frac{1}{2}\left(\frac{(\theta - \mu_0)^2}{\tau_0^2} + \frac{\sum (y_i - \theta)^2}{\sigma^2}\right)\right) \]

\(\bar{y}\) 가 충분통계량. \(\bar{y} \mid \theta \sim N(\theta, \sigma^2/n)\) 이므로 단일 관측 결과를 \(\bar{y}\) 에 그대로 적용.

\[ \mu_n = \frac{\tau_0^{-2} \mu_0 + n \sigma^{-2} \bar{y}}{\tau_0^{-2} + n \sigma^{-2}}, \quad \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \tag{2.12} \]

표본 크기 \(n\)데이터 정밀도에 곱해진다. \(n \to \infty\) 이면 사후 \(\to N(\bar{y}, \sigma^2/n)\)베이즈가 빈도주의와 합류 하는 Ch.4 점근 결과의 특수 사례.

2.10 순차 갱신과의 동치성

교재의 주석 — “점 \(y_1, y_2, \ldots, y_n\) 을 하나씩 추가하면서 이전 사후를 다음 사전으로 쓰는 것도 같은 결과”.

이것이 § 1.4 혈우병 에서 본 순차 갱신의 정규 버전 — 데이터를 한꺼번에 보든 하나씩 보든 사후가 같다.


3 § 2.6 다른 표준 단일 모수 모델

3.1 왜 표준 분포인가

“일반적으로 사후 밀도 \(p(\theta \mid y)\) 는 닫힌 형태가 없다. 정규화 상수 \(p(y)\) 는 특히 적분 (1.3) 때문에 계산이 어렵다. 공식 베이즈 분석은 닫힌 형태가 가용한 상황에 집중하는데, 이 모델들이 비현실적일 수 있지만, 더 현실적인 모델을 구성할 때의 출발점이 된다.” (교재)

이항·정규·Poisson·지수 각각에 자연 켤레 사전 가족 이 있다.

3.2 정규 분포 (알려진 평균, 모르는 분산)

중요성 — 그 자체보다 “알려지지 않은 분산” 의 첫 다루기. Ch.3 의 공동 평균·분산 추정의 빌딩 블록.

모델.

\[ y \mid \theta, \sigma^2 \sim N(\theta, \sigma^2), \quad \theta \text{ 알려짐}, \sigma^2 \text{ 미지} \]

iid 관측의 우도.

\[ p(y \mid \sigma^2) \propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum (y_i - \theta)^2\right) = (\sigma^2)^{-n/2} \exp\left(-\frac{n}{2\sigma^2} v\right) \]

충분통계량.

\[ v = \frac{1}{n} \sum_{i=1}^n (y_i - \theta)^2 \]

3.3 역감마 · 스케일된 역 \(\chi^2\) 켤레

켤레 사전 — 역감마 (inverse-gamma) 분포, 또는 동치로 스케일된 역 \(\chi^2\).

\[ \sigma^2 \sim \text{Inv-}\chi^2(\nu_0, \sigma_0^2) \]

하이퍼파라미터 — 사전 자유도 \(\nu_0\), 사전 스케일 \(\sigma_0^2\). 해석: “\(\nu_0\) 개의 사전 관측에서 얻은 평균 제곱 편차 \(\sigma_0^2\)” 에 해당하는 정보.

3.4 사후

\[ \sigma^2 \mid y \sim \text{Inv-}\chi^2\left(\nu_0 + n, \frac{\nu_0 \sigma_0^2 + n v}{\nu_0 + n}\right) \]

사후 자유도 = 사전 자유도 + \(n\), 사후 스케일 = 자유도 가중 평균.

직관 — “자유도는 가산된다” 도 정밀도 가산의 변주

분산 모수의 정보량이 자유도 로 측정된다. 사전 자유도 \(\nu_0\) + 데이터 자유도 \(n\) = 사후 자유도. 이것이 § 2.5 정밀도 가산의 분산 공간 버전.

\(\nu_0 \to 0\) (비정보적 극한) 이면 사후 \(\to \text{Inv-}\chi^2(n, v)\) — 빈도주의 표본 분산 분포와 정확히 일치. 이 극한 결과가 Ch.3 공동 평균-분산 모델에서 중요.

3.5 Poisson 모델

계수 (count) 데이터 — 전염병 발생 수·교통사고 건수·방사성 붕괴 수 등.

\[ p(y \mid \theta) = \frac{\theta^y e^{-\theta}}{y!}, \quad y = 0, 1, 2, \ldots \]

iid 관측 \(y = (y_1, \ldots, y_n)\) 의 우도.

\[ p(y \mid \theta) \propto \theta^{t(y)} e^{-n\theta} \]

충분통계량 \(t(y) = \sum y_i\). 지수족 형태.

\[ p(y \mid \theta) \propto e^{-n\theta} e^{t(y) \log \theta} \]

자연 모수 \(\phi(\theta) = \log \theta\). Poisson 회귀의 로그 링크가 “자연스러운” 이유의 수학적 배경.

3.6 Gamma 켤레

우도가 \(\theta^a e^{-b\theta}\) 형태이므로 사전도 같은 형태.

\[ p(\theta) \propto \theta^{\alpha - 1} e^{-\beta\theta} \quad \Leftrightarrow \quad \theta \sim \text{Gamma}(\alpha, \beta) \]

하이퍼파라미터 — \(\alpha - 1\) = 사전 총 계수, \(\beta\) = 사전 총 노출 (exposure).

사후.

\[ \theta \mid y \sim \text{Gamma}(\alpha + n\bar{y}, \beta + n) \]

\(n\bar{y} = \sum y_i\) = 총 관측 계수, \(n\) = 관측된 총 노출. 사후 = 사전 + 데이터, 지수족의 보편 구조.

3.7 사전 예측 분포 — 음이항

Gamma-Poisson 혼합의 사전 예측.

\[ p(y) = \frac{p(y \mid \theta) p(\theta)}{p(\theta \mid y)} \]

대수적 계산으로.

\[ p(y) = \binom{\alpha + y - 1}{y} \left(\frac{\beta}{\beta + 1}\right)^\alpha \left(\frac{1}{\beta + 1}\right)^y \]

이것이 음이항 분포 (negative binomial) — Neg-bin(\(\alpha, \beta\)).

핵심 표현.

\[ \text{Neg-bin}(y \mid \alpha, \beta) = \int \text{Poisson}(y \mid \theta) \, \text{Gamma}(\theta \mid \alpha, \beta) \, d\theta \]

직관 — 음이항은 “Poisson 의 과분산 버전”

Poisson 은 평균 = 분산 제약 — 현실 데이터는 대개 분산 > 평균 (과분산). 음이항은 Poisson 과 감마의 혼합이라 과분산을 자연스럽게 허용한다. 이것이 GLM 의 음이항 회귀 의 베이즈 뿌리. Ch.17 robust 모델에서 Poisson 의 robust 대안으로 재등장한다.

3.8 노출 (exposure) 모델 — 응용에서 가장 흔한 형태

역학·보험·신뢰성에서 단순 Poisson 대신 노출을 곱한 형태 를 쓴다.

\[ y_i \sim \text{Poisson}(x_i \theta) \tag{2.14} \]

\(x_i\) — 알려진 노출 (인구·관측 시간·단위 수 등), \(\theta\) — 단위 노출당 rate.

\((y_i, x_i)\) 쌍이 교환가능하면 이 모델은 \(y_i\) 가 아니라 \((x, y)_i\) 쌍에 대해 교환가능.

우도.

\[ p(y \mid \theta) \propto \theta^{\sum y_i} e^{-(\sum x_i) \theta} \]

Gamma 켤레 유지, 사후.

\[ \theta \mid y \sim \text{Gamma}\left(\alpha + \sum y_i, \beta + \sum x_i\right) \tag{2.15} \]

사후 평균.

\[ E(\theta \mid y) = \frac{\alpha + \sum y_i}{\beta + \sum x_i} \]

“사전 계수 + 관측 계수” 를 “사전 노출 + 관측 노출” 로 나눔.

3.9 천식 사망률 예제

맥락 — 미국 한 도시의 인구 200,000 명, 1 년간 천식 사망자 \(y = 3\) 명. 조 (crude) 비율 = 1.5 / 100,000 / 년.

모델\(\theta\) = 단위 “100,000 명 년” 당 사망률, \(x = 2.0\) (인구 / 100,000). \(y = 3 \sim \text{Poisson}(2.0 \, \theta)\).

사전 설정 — 전 세계 천식 사망률 검토에서 서구권 대부분 0.6 / 100,000 수준, 1.5 이상은 드뭄. Gamma(3.0, 5.0) 사전.

  • 평균 \(\alpha/\beta = 0.6\)
  • 모드 \((\alpha-1)/\beta = 0.4\)
  • 97.5 분위수 \(\approx 1.44\)

사후.

\[ \theta \mid y \sim \text{Gamma}(\alpha + y, \beta + x) = \text{Gamma}(6.0, 7.0) \]

사후 평균 \(6.0 / 7.0 \approx 0.857\). 관측 1.5 로부터 사전 0.6 쪽으로 크게 shrinkage.

사후 확률 \(\Pr(\theta > 1.0 \mid y) \approx 0.30\) — “실제 사망률이 단위당 1 을 넘을 확률 30%”.

3.10 10 년치 데이터로 확장

같은 도시, 같은 1.5 비율 유지, 10 년간 \(y = 30\).

\[ \theta \mid y \sim \text{Gamma}(3.0 + 30, 5.0 + 20) = \text{Gamma}(33.0, 25.0) \]

사후 평균 \(33/25 = 1.32\). 데이터가 지배 — 사후가 원래 조 (crude) 비율 1.5 에 훨씬 가까워짐. \(\Pr(\theta > 1.0) = 0.93\).

직관 — 노출이 정밀도 역할을 한다

1 년 관측 vs 10 년 관측 — 데이터 정보량이 10 배. 사후 축소가 사전에 가깝던 것 (0.86) 이 데이터에 가까운 것 (1.32) 으로 이동. “노출 \(x\) = 데이터 정밀도” — Poisson 의 정밀도 가산은 노출 총합 \(\sum x_i\) 형태로 나타난다.

이 원리가 역학 · 보험 · 제조 품질 관리의 표준 — “관측 시간 또는 단위가 많을수록 추정이 정밀” 이라는 직관의 수학화.

3.11 지수 모델

연속형 대기 시간 · 부품 수명 데이터.

\[ p(y \mid \theta) = \theta e^{-y\theta}, \quad y > 0 \]

\(\theta = 1 / E(y \mid \theta)\) 는 rate. 지수는 감마의 특수 사례 (α=1).

메모리리스 성질.

\[ \Pr(y > t + s \mid y > s, \theta) = \Pr(y > t \mid \theta) \]

“이미 \(s\) 만큼 대기했다” 는 사실이 “추가 대기 시간” 의 분포에 영향 없음 — 신뢰성·대기 행렬 모델의 기본 가정.

3.12 Gamma 켤레

우도가 \(\theta^n e^{-n\bar{y}\theta}\) 형태, Gamma 사전 유지.

\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y \sim \text{Gamma}(\alpha + n, \beta + n\bar{y}) \]

해석 — 사전 Gamma(\(\alpha, \beta\)) 는 “\(\alpha - 1\) 회의 사전 지수 관측, 총 대기 시간 \(\beta\) 와 등가.


4 § 2.7 암 발생률의 정보적 사전 — Ch.2 의 정점

4.1 지도의 역설

교재 그림 2.6·2.7. 1980년대 미국 카운티별 신장/요관암 사망률 (백인 남성).

  • 그림 2.6 — 최고 10% 사망률 카운티. Great Plains 중부 에 몰려 있음
  • 그림 2.7 — 최저 10% 사망률 카운티. 똑같이 Great Plains 중부 에 몰려 있음

지도를 처음 본 사람들은 그림 2.6 을 설명하는 여러 가설을 세운다 — 오염된 공기·물, 의료 접근성 부족, 식단 문제. 그림 2.7 을 보면 이 가설들이 필요 없음 이 드러난다. “왜 같은 지역이 동시에 최고이자 최저인가?” 가 진짜 질문.

4.2 이 역설의 통계적 원인 — 작은 표본

답은 표본 크기. 신장암은 드문 질환. 인구 1,000 명의 작은 카운티를 생각하면.

  • 10 년간 0 명 사망 일 가능성이 대체로 크다 → 비율 0 → 최저 10% 에 해당
  • 그러나 1 명이 사망하면 비율 = 1 / (1000 × 10) = 10⁻⁴ = 연당 10 / 100,000 → 최고 10% 로 이동

Great Plains 에 저인구 카운티가 많다. 그 결과 같은 지역의 카운티들이 양 극단에 동시에 나타난다. 실제 지역의 암 발생률이 특별히 높다는 증거가 아니다.

4.3 모델 설정

각 카운티 \(j\) 의 진짜 rate \(\theta_j\).

\[ y_j \sim \text{Poisson}(10 \, n_j \, \theta_j) \tag{2.16} \]

  • \(y_j\): 1980-1989 10 년간 카운티 \(j\) 의 사망자 수
  • \(n_j\): 카운티 \(j\) 의 인구
  • \(10 n_j\): 10 년치 인구 노출
  • \(\theta_j\): 단위 “인구 × 년” 당 사망률

조 (crude) rate = \(y_j / (10 n_j)\) — 지도에서 색칠된 수치.

4.4 공통 정보적 사전

전국 카운티의 정보를 활용한 경험적 사전.

\[ \theta_j \sim \text{Gamma}(\alpha, \beta), \quad \alpha = 20, \ \beta = 430{,}000 \]

  • 사전 평균 \(\alpha/\beta = 4.65 \times 10^{-5}\) (= 약 4.65 / 100,000 / 년)
  • 사전 표준편차 \(\sqrt{\alpha}/\beta = 1.04 \times 10^{-5}\)

해석 — 이 사전은 “약 430,000 인구 × 년의 관측에서 20 명 사망을 경험한 사전 정보”. 즉 “미국 전체에 가까운 규모의 경험적 분포”.

4.5 사후 — 각 카운티별

\[ \theta_j \mid y_j \sim \text{Gamma}(20 + y_j, \ 430{,}000 + 10 n_j) \]

사후 평균.

\[ E(\theta_j \mid y_j) = \frac{20 + y_j}{430{,}000 + 10 n_j} \]

이것이 조 rate \(y_j / (10 n_j)\) 와 사전 평균 \(4.65 \times 10^{-5}\) 의 가중 평균 (Exercise 2.5 과 동일 구조).

4.6 작은 카운티 — 사전이 지배

\(n_j = 1000\) 의 카운티.

\(y_j\) 조 rate (\(\times 10^{-5}\)) 사후 평균 (\(\times 10^{-5}\))
0 0 \(20/440{,}000 = 4.55\)
1 10 \(21/440{,}000 = 4.77\)
2 20 \(22/440{,}000 = 5.00\)

조 rate 는 0 에서 20 까지 요동치지만, 사후 평균은 4.55~5.00 사이의 매우 좁은 범위. 작은 카운티의 사후는 사전이 완전히 지배.

직관 — shrinkage 의 시각화

작은 카운티의 조 rate 는 표본 크기가 작아 극단적으로 변동. 베이즈는 이 변동성을 사전 평균 쪽으로 수축 (shrinkage) 시켜, 결과가 “이웃 카운티들의 지혜” 를 반영하게 한다. 조 rate = 0 인 카운티가 사전 평균에 가까운 4.55 × 10⁻⁵ 로 보정되는 것 — 이것이 지도 역설의 해소.

같은 원리가 스포츠 통계 (“첫 시즌의 우수한 타율은 두 번째 시즌에 평균으로 회귀”) · 학교 평가 · 병원 순위 등에 광범위하게 적용된다.

4.7 사전 예측 (음이항) 으로 합리성 확인

\(n_j = 1000\) 카운티가 “사전 하에서” 얼마나 많은 사망자를 낼 것인가?

\[ y_j \sim \text{Neg-bin}\left(\alpha = 20, \ \beta/(10 n_j) = 43\right) \]

교재의 시뮬레이션 — Gamma(20, 430000) 에서 \(\theta_j\) 500 개 추출 → 각각에서 Poisson(10,000 \(\theta_j\)) 로 \(y_j\) 추출.

결과: 319 개가 0, 141 개가 1, 33 개가 2, 5 개가 3. 작은 카운티의 “기대되는” 사망자 수 분포. 조 rate 가 0 또는 10⁻⁴ 으로 튀는 것은 사전 예측에서도 예상되는 변동 이다.

4.8 큰 카운티 — 데이터가 지배

\(n_j = 1{,}000{,}000\) 의 카운티. 사전 예측 — 중앙값 473 사망, 50% 구간 [393, 545].

\(y_j = 393\) 에서.

\[ E(\theta_j \mid y_j) = \frac{20 + 393}{430{,}000 + 10{,}000{,}000} = 3.96 \times 10^{-5} \]

조 rate \(3.93 \times 10^{-5}\) 와 거의 일치. 데이터가 사전을 압도.

4.9 핵심 결과

교재 그림 2.9.

  • 2.9(a) Bayes 추정 사후 평균을 \(\log_{10}(n_j)\) 로 플롯 — 조 rate 에서 보이던 극단 변동이 사라지고, 전체적으로 사전 평균 근처에 모인다
  • 2.9(b) 일부 카운티의 50% 구간 — 작은 카운티는 구간 폭이 넓고, 큰 카운티는 좁음

이것이 지도 역설의 정확한 해소 — 사후 평균 지도는 조 rate 지도와 달리 Great Plains 에 쏠리지 않는다.

4.10 Ch.5 계층 모형으로의 연결

이 예제의 치명적 가정 — “모든 카운티가 공통 사전 Gamma(20, 430000)”. 이것이 합리적인가?

  • 카운티들이 평균·분산 면에서 유사하면 공통 사전 합리적
  • 카운티들 사이에 구조적 차이 (기후·산업 등) 가 있다면 공통 사전은 너무 강한 가정

Ch.5 의 계층 모형 — 사전 하이퍼파라미터 \((\alpha, \beta)\)고정하지 않고 데이터에서 추정. 카운티 간 변동과 내부 변동을 데이터가 결정.

\[ \theta_j \mid \alpha, \beta \sim \text{Gamma}(\alpha, \beta), \quad (\alpha, \beta) \sim p(\alpha, \beta) \]

이것이 Empirical Bayes → Full Bayes 의 진화. 신장암 지도는 Ch.5 의 rat tumor 예제 · 8 schools 의 핵심 구조를 이미 담고 있다.

직관 — “정보적 사전” 에서 “계층 모형” 으로

§ 2.7 의 핵심 교훈 — 작은 표본의 극단값 문제는 공통 사전 으로 해결된다. 이 사전이 데이터에서 추정 될 때 우리는 완전한 계층 모형에 도달한다. Ch.2 에서 Ch.5 로의 자연스러운 사다리.

현대 베이즈 실무에서 거의 모든 계수 모델 · 비율 모델 · 생존 모델이 이 사다리를 오른다. 카운티 → 학교 → 병원 → 유전자 발현 → 임상 시험 사이트 — 구조가 모두 같다.


5 세 절의 통합 구조

핵심 모델 켤레 가족 정보 가산
§ 2.5 정규 (알려진 분산) 정규 사전 정밀도 \(1/\tau_1^2 = 1/\tau_0^2 + 1/\sigma^2\)
§ 2.6 정규 (알려진 평균) 스케일된 역 \(\chi^2\) 자유도 \(\nu_n = \nu_0 + n\)
§ 2.6 Poisson Gamma 계수 + 노출 가산
§ 2.6 지수 Gamma 관측 수 + 총 시간 가산
§ 2.7 Poisson 위계 공통 Gamma shrinkage 는 노출에 의존

공통 패턴 — 사후 = 사전 + 데이터 정보량. 가산의 형태가 분포마다 다르지만 수학적 구조는 동일.


6 빈도주의 대응

질문 빈도주의 베이즈 (§ 2.5~2.7)
정규 평균 추정 \(\hat{\theta} = \bar{y}\) \(N(\mu_n, \tau_n^2)\) 사후
Poisson rate 추정 \(\hat{\theta} = \bar{y}/\bar{x}\) Gamma(\(\alpha + \sum y, \beta + \sum x\))
지수 rate 추정 \(\hat{\theta} = 1/\bar{y}\) Gamma(\(\alpha + n, \beta + n\bar{y}\))
작은 카운티 rate 조 rate (극단값) Bayes-shrunk rate
과분산 (Poisson) QL · 준가능도 Gamma-Poisson → 음이항

Bayes-shrunk 추정량이 빈도주의 James-Stein 과 수학적으로 등가빈도주의 JS 추정 이 본질적으로 empirical Bayes 라는 사실이 이 장에서 예고된다.


7 코드 예제 — 천식 사망률 · 암 발생률 Bayes-shrinkage

7.1 Step 1: 천식 사망률 — 1 년 vs 10 년 비교

import math
import random

random.seed(42)

def sample_gamma(alpha, beta):
    # scipy 없이 순수 Python gamma
    return random.gammavariate(alpha, 1.0 / beta)

# 1 년 관측 — y=3, x=2.0
# 사전 Gamma(3.0, 5.0), 사후 Gamma(6.0, 7.0)
S = 10000
posterior_1yr = [sample_gamma(6.0, 7.0) for _ in range(S)]
posterior_10yr = [sample_gamma(33.0, 25.0) for _ in range(S)]

def summarize(samples, name):
    samples = sorted(samples)
    mean = sum(samples) / len(samples)
    lo = samples[int(0.025 * len(samples))]
    hi = samples[int(0.975 * len(samples))]
    p_over_1 = sum(1 for s in samples if s > 1.0) / len(samples)
    print(f"{name:<20} 평균 = {mean:.3f}, 95% 구간 = [{lo:.3f}, {hi:.3f}], Pr(θ > 1) = {p_over_1:.3f}")

summarize(posterior_1yr, "1 년 관측")
summarize(posterior_10yr, "10 년 관측")

예상 출력

1 년 관측              평균 ≈ 0.86, 95% 구간 ≈ [0.32, 1.62], Pr(θ > 1) ≈ 0.30
10 년 관측             평균 ≈ 1.32, 95% 구간 ≈ [0.91, 1.81], Pr(θ > 1) ≈ 0.93

관찰 — 1 년에서는 “사망률이 1 초과일 확률 30%” 로 불확실, 10 년에서는 “93%” 로 거의 확정. 노출 증가가 사후 정밀도를 직접 증가시킨다.

7.2 Step 2: 암 발생률 — 지도 역설 수치 재현

import numpy as np
from scipy import stats

np.random.seed(0)

# 3,071 개 카운티 시뮬레이션
# 사전 Gamma(20, 430000), 진짜 rate 는 이 사전에서 추출
alpha_prior, beta_prior = 20, 430000
K = 3071
true_rates = stats.gamma.rvs(alpha_prior, scale=1/beta_prior, size=K)

# 카운티 인구 분포 — 로그 정규 근사
log_pop = np.random.normal(loc=10.5, scale=1.5, size=K)
n_j = np.clip(np.exp(log_pop), 100, 10_000_000).astype(int)

# 관측 사망자 수
y_j = stats.poisson.rvs(10 * n_j * true_rates)

# 조 rate vs Bayes 사후 평균
crude_rate = y_j / (10 * n_j)
post_mean = (alpha_prior + y_j) / (beta_prior + 10 * n_j)

# 조 rate 의 최고/최저 10%
crude_top = np.percentile(crude_rate, 90)
crude_bot = np.percentile(crude_rate, 10)

# 그 카운티들의 인구 평균
top_counties_pop = n_j[crude_rate >= crude_top]
bot_counties_pop = n_j[crude_rate <= crude_bot]

print(f"조 rate 최고 10% 카운티 평균 인구: {top_counties_pop.mean():.0f}")
print(f"조 rate 최저 10% 카운티 평균 인구: {bot_counties_pop.mean():.0f}")
print(f"조 rate 분산:   {crude_rate.var():.4e}")
print(f"Bayes rate 분산: {post_mean.var():.4e}")
print(f"분산 감소 비율: {crude_rate.var() / post_mean.var():.2f}x")

예상 출력 — 최고/최저 10% 모두 평균 인구가 훨씬 작다 (지도 역설 재현), 그리고 Bayes 사후 평균의 분산이 조 rate 의 수십~수백 배 작다 (shrinkage 효과).


8 관련 주제

Ch.2 의 다른 심화 포스트

  • Ch.2 개요 — Ch.2 전체 훑기
  • § 2.1~2.4 심화 — 이항·Beta·Placenta previa
  • § 2.8~2.9 비정보적·약정보적 사전 (작성 예정)

Ch.1 (선행)

Part I~V 전체

빈도주의 대응


9 참고자료

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.5~2.7).
  • Gelman, A., & Price, P. N. (1999). All maps of parameter estimates are misleading. Statistics in Medicine, 18(23), 3221–3234.
  • Clayton, D., & Kaldor, J. (1987). Empirical Bayes estimates of age-standardized relative risks for use in disease mapping. Biometrics, 43(3), 671–681.
  • Efron, B., & Morris, C. (1977). Stein’s paradox in statistics. Scientific American, 236(5), 119–127.
  • DeGroot, M. H., & Schervish, M. J. (2012). Probability and Statistics (4th ed.). Pearson.

Subscribe

Enjoy this blog? Get notified of new posts by email: