1 이 포스트의 위치 — Ch.2 심화의 두 번째 조각
§ 2.1~2.4 심화 에서 이항 모델과 Beta 켤레의 모든 수학적·철학적 논리를 다뤘다. 이 포스트는 그 같은 구조가 다른 표준 분포들 — 정규·Inv-\(\chi^2\)·Poisson·Gamma·지수 — 에서 어떻게 작동하는지 풀어 쓴다. § 2.7 의 신장암 지도 예제는 계층 모형 (Ch.5) 의 완벽한 예고편.
“하나의 베이즈 규칙이 네 가지 표준 분포 (정규·Poisson·Gamma·지수) 에서 같은 구조로 작동한다. 특히 작은 표본의 극단값 문제는 정보적 사전으로 자연스럽게 해결되며, 이것이 계층 모형 아이디어의 씨앗이 된다.”
정규-정규 켤레의 정밀도 가산 은 Part III~V 의 모든 현대 베이즈 모델 뒤에서 작동하는 수학적 본질. (Gelman et al., 2013, Ch.2.5~2.7)
2 § 2.5 알려진 분산의 정규 모델
2.1 왜 정규인가
Gelman 의 세 가지 정당화.
- 중심극한정리 (CLT) — 많은 실제 관측이 “여러 독립 요인의 합” 으로 근사적 정규
- 더 복잡한 모델의 빌딩 블록 — \(t\) 분포 · 혼합 분포가 정규를 기반
- 수학적 편의 — 지수족에서 가장 다루기 쉬운 형태
2.2 단일 관측의 모델과 우도
\[ p(y \mid \theta) = \frac{1}{\sqrt{2\pi} \sigma} \exp\left(-\frac{1}{2\sigma^2}(y - \theta)^2\right) \]
\(\sigma^2\) 는 알려진 것으로 가정. \(\theta\) 에 대한 함수로 보면 우도는 \(\theta\) 에 대한 이차식의 지수.
2.3 켤레 사전의 유도 — “이차 지수” 가족
가능도가 \(\exp(A\theta^2 + B\theta + C)\) 형태이므로 사전도 같은 형태로 두면 사후도 같은 형태. 표준 매개변수화.
\[ p(\theta) \propto \exp\left(-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2\right) \quad \Leftrightarrow \quad \theta \sim N(\mu_0, \tau_0^2) \]
하이퍼파라미터 — 사전 평균 \(\mu_0\), 사전 분산 \(\tau_0^2\).
2.4 사후의 유도
비정규화 사후.
\[ p(\theta \mid y) \propto \exp\left(-\frac{1}{2}\left(\frac{(y - \theta)^2}{\sigma^2} + \frac{(\theta - \mu_0)^2}{\tau_0^2}\right)\right) \]
지수 전개 → 항 정리 → \(\theta\) 에 대한 제곱 완성 → 다시 정규 형태.
\[ p(\theta \mid y) \propto \exp\left(-\frac{1}{2\tau_1^2}(\theta - \mu_1)^2\right) \tag{2.9} \]
즉 \(\theta \mid y \sim N(\mu_1, \tau_1^2)\), 여기서
\[ \mu_1 = \frac{\frac{1}{\tau_0^2} \mu_0 + \frac{1}{\sigma^2} y}{\frac{1}{\tau_0^2} + \frac{1}{\sigma^2}}, \quad \frac{1}{\tau_1^2} = \frac{1}{\tau_0^2} + \frac{1}{\sigma^2} \tag{2.10} \]
2.5 정밀도 (precision) — 핵심 어휘
정밀도 = 분산의 역수. \(\theta\) 의 정밀도 = \(1/\tau^2\), 데이터의 정밀도 = \(1/\sigma^2\).
\[ \boxed{\text{사후 정밀도} = \text{사전 정밀도} + \text{데이터 정밀도}} \]
두 독립 정보 출처의 정보량 (정밀도) 이 가산 된다는 것 — 이 식이 베이즈 추론의 가장 기하학적으로 명료한 결과.
이 가산 구조가 —
- 계층 모형 shrinkage: 그룹 내 정밀도 + 그룹 간 정밀도 (Ch.5)
- 칼만 필터 갱신: 상태 추정 정밀도의 시간에 걸친 누적
- Ridge 회귀: 정규화 항이 사전 정밀도로 해석 (Ch.14)
- 센서 융합: 여러 측정기 결합 시 각 정밀도 가산
전부에서 같은 공식 으로 나타난다. “두 개의 독립 정보는 정밀도를 더한다” 는 문장이 베이즈 추론의 불변 사실 이다.
2.6 사후 평균의 세 가지 표현
\[ \mu_1 = \frac{\tau_0^{-2} \mu_0 + \sigma^{-2} y}{\tau_0^{-2} + \sigma^{-2}} \tag{정밀도 가중 평균} \]
\[ \mu_1 = \mu_0 + (y - \mu_0) \cdot \frac{\tau_0^2}{\sigma^2 + \tau_0^2} \tag{사전을 $y$ 쪽으로 끌어당김} \]
\[ \mu_1 = y - (y - \mu_0) \cdot \frac{\sigma^2}{\sigma^2 + \tau_0^2} \tag{데이터를 사전으로 shrink} \]
세 표현이 동치지만 각각 다른 직관.
- 첫째: “두 정보를 정밀도 가중 평균”
- 둘째: “사전이 얼마나 데이터 쪽으로 움직였는가”
- 셋째: “데이터가 얼마나 사전 쪽으로 축약되었는가”
세 번째 표현이 shrinkage 추정의 원형 — Ch.5 계층 모형에서 결정적 역할.
2.7 극단 사례 — 직관 확인
- \(\tau_0^2 = 0\) (사전이 무한 정밀): 사후 = 사전, \(\mu_1 = \mu_0\)
- \(\sigma^2 = 0\) (데이터가 무한 정밀): 사후 = 데이터, \(\mu_1 = y\)
- \(y = \mu_0\) (사전과 데이터 일치): \(\mu_1 = \mu_0 = y\)
- \(\tau_0^2 \to \infty\) (비정보적 사전): \(\mu_1 \to y\), \(\tau_1^2 \to \sigma^2\) — 빈도주의와 일치
2.8 사후 예측 분포
새 관측 \(\tilde{y} \sim N(\theta, \sigma^2)\) 의 예측 분포.
\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]
\(\tilde{y}\) 와 \(\theta\) 의 결합이 정규이므로 주변 \(\tilde{y}\) 도 정규. 반복 기댓값·분산으로.
\[ E(\tilde{y} \mid y) = E(E(\tilde{y} \mid \theta, y) \mid y) = E(\theta \mid y) = \mu_1 \]
\[ \text{var}(\tilde{y} \mid y) = E(\text{var}(\tilde{y} \mid \theta) \mid y) + \text{var}(E(\tilde{y} \mid \theta) \mid y) = \sigma^2 + \tau_1^2 \]
\(\text{var}(\tilde{y} \mid y) = \sigma^2 + \tau_1^2\) 는 두 원천.
- \(\sigma^2\) — 표본 변동 (sampling variability): 같은 \(\theta\) 에서도 \(\tilde{y}\) 는 다르게 나온다
- \(\tau_1^2\) — 모수 불확실성 (parameter uncertainty): 관측 후에도 \(\theta\) 가 정확하지 않다
두 항 모두 사후 예측 구간에 기여. 빈도주의의 “예측 구간 = \(\hat{y} \pm 1.96 \sigma\)” 은 파라미터 불확실성 \(\tau_1^2\) 를 빠뜨리는 경향이 있어 보수적 구간을 주려면 추가 계산이 필요하지만, 베이즈는 두 원천이 자연스럽게 통합 된다.
2.9 다중 관측
iid 관측 \(y = (y_1, \ldots, y_n)\), 각 \(y_i \sim N(\theta, \sigma^2)\). 사후.
\[ p(\theta \mid y) \propto p(\theta) \prod_{i=1}^n p(y_i \mid \theta) \propto \exp\left(-\frac{1}{2}\left(\frac{(\theta - \mu_0)^2}{\tau_0^2} + \frac{\sum (y_i - \theta)^2}{\sigma^2}\right)\right) \]
\(\bar{y}\) 가 충분통계량. \(\bar{y} \mid \theta \sim N(\theta, \sigma^2/n)\) 이므로 단일 관측 결과를 \(\bar{y}\) 에 그대로 적용.
\[ \mu_n = \frac{\tau_0^{-2} \mu_0 + n \sigma^{-2} \bar{y}}{\tau_0^{-2} + n \sigma^{-2}}, \quad \frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} \tag{2.12} \]
표본 크기 \(n\) 이 데이터 정밀도에 곱해진다. \(n \to \infty\) 이면 사후 \(\to N(\bar{y}, \sigma^2/n)\) — 베이즈가 빈도주의와 합류 하는 Ch.4 점근 결과의 특수 사례.
2.10 순차 갱신과의 동치성
교재의 주석 — “점 \(y_1, y_2, \ldots, y_n\) 을 하나씩 추가하면서 이전 사후를 다음 사전으로 쓰는 것도 같은 결과”.
이것이 § 1.4 혈우병 에서 본 순차 갱신의 정규 버전 — 데이터를 한꺼번에 보든 하나씩 보든 사후가 같다.
3 § 2.6 다른 표준 단일 모수 모델
3.1 왜 표준 분포인가
“일반적으로 사후 밀도 \(p(\theta \mid y)\) 는 닫힌 형태가 없다. 정규화 상수 \(p(y)\) 는 특히 적분 (1.3) 때문에 계산이 어렵다. 공식 베이즈 분석은 닫힌 형태가 가용한 상황에 집중하는데, 이 모델들이 비현실적일 수 있지만, 더 현실적인 모델을 구성할 때의 출발점이 된다.” (교재)
이항·정규·Poisson·지수 각각에 자연 켤레 사전 가족 이 있다.
3.2 정규 분포 (알려진 평균, 모르는 분산)
중요성 — 그 자체보다 “알려지지 않은 분산” 의 첫 다루기. Ch.3 의 공동 평균·분산 추정의 빌딩 블록.
모델.
\[ y \mid \theta, \sigma^2 \sim N(\theta, \sigma^2), \quad \theta \text{ 알려짐}, \sigma^2 \text{ 미지} \]
iid 관측의 우도.
\[ p(y \mid \sigma^2) \propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum (y_i - \theta)^2\right) = (\sigma^2)^{-n/2} \exp\left(-\frac{n}{2\sigma^2} v\right) \]
충분통계량.
\[ v = \frac{1}{n} \sum_{i=1}^n (y_i - \theta)^2 \]
3.3 역감마 · 스케일된 역 \(\chi^2\) 켤레
켤레 사전 — 역감마 (inverse-gamma) 분포, 또는 동치로 스케일된 역 \(\chi^2\).
\[ \sigma^2 \sim \text{Inv-}\chi^2(\nu_0, \sigma_0^2) \]
하이퍼파라미터 — 사전 자유도 \(\nu_0\), 사전 스케일 \(\sigma_0^2\). 해석: “\(\nu_0\) 개의 사전 관측에서 얻은 평균 제곱 편차 \(\sigma_0^2\)” 에 해당하는 정보.
3.4 사후
\[ \sigma^2 \mid y \sim \text{Inv-}\chi^2\left(\nu_0 + n, \frac{\nu_0 \sigma_0^2 + n v}{\nu_0 + n}\right) \]
사후 자유도 = 사전 자유도 + \(n\), 사후 스케일 = 자유도 가중 평균.
분산 모수의 정보량이 자유도 로 측정된다. 사전 자유도 \(\nu_0\) + 데이터 자유도 \(n\) = 사후 자유도. 이것이 § 2.5 정밀도 가산의 분산 공간 버전.
\(\nu_0 \to 0\) (비정보적 극한) 이면 사후 \(\to \text{Inv-}\chi^2(n, v)\) — 빈도주의 표본 분산 분포와 정확히 일치. 이 극한 결과가 Ch.3 공동 평균-분산 모델에서 중요.
3.5 Poisson 모델
계수 (count) 데이터 — 전염병 발생 수·교통사고 건수·방사성 붕괴 수 등.
\[ p(y \mid \theta) = \frac{\theta^y e^{-\theta}}{y!}, \quad y = 0, 1, 2, \ldots \]
iid 관측 \(y = (y_1, \ldots, y_n)\) 의 우도.
\[ p(y \mid \theta) \propto \theta^{t(y)} e^{-n\theta} \]
충분통계량 \(t(y) = \sum y_i\). 지수족 형태.
\[ p(y \mid \theta) \propto e^{-n\theta} e^{t(y) \log \theta} \]
자연 모수 \(\phi(\theta) = \log \theta\). Poisson 회귀의 로그 링크가 “자연스러운” 이유의 수학적 배경.
3.6 Gamma 켤레
우도가 \(\theta^a e^{-b\theta}\) 형태이므로 사전도 같은 형태.
\[ p(\theta) \propto \theta^{\alpha - 1} e^{-\beta\theta} \quad \Leftrightarrow \quad \theta \sim \text{Gamma}(\alpha, \beta) \]
하이퍼파라미터 — \(\alpha - 1\) = 사전 총 계수, \(\beta\) = 사전 총 노출 (exposure).
사후.
\[ \theta \mid y \sim \text{Gamma}(\alpha + n\bar{y}, \beta + n) \]
\(n\bar{y} = \sum y_i\) = 총 관측 계수, \(n\) = 관측된 총 노출. 사후 = 사전 + 데이터, 지수족의 보편 구조.
3.7 사전 예측 분포 — 음이항
Gamma-Poisson 혼합의 사전 예측.
\[ p(y) = \frac{p(y \mid \theta) p(\theta)}{p(\theta \mid y)} \]
대수적 계산으로.
\[ p(y) = \binom{\alpha + y - 1}{y} \left(\frac{\beta}{\beta + 1}\right)^\alpha \left(\frac{1}{\beta + 1}\right)^y \]
이것이 음이항 분포 (negative binomial) — Neg-bin(\(\alpha, \beta\)).
핵심 표현.
\[ \text{Neg-bin}(y \mid \alpha, \beta) = \int \text{Poisson}(y \mid \theta) \, \text{Gamma}(\theta \mid \alpha, \beta) \, d\theta \]
Poisson 은 평균 = 분산 제약 — 현실 데이터는 대개 분산 > 평균 (과분산). 음이항은 Poisson 과 감마의 혼합이라 과분산을 자연스럽게 허용한다. 이것이 GLM 의 음이항 회귀 의 베이즈 뿌리. Ch.17 robust 모델에서 Poisson 의 robust 대안으로 재등장한다.
3.8 노출 (exposure) 모델 — 응용에서 가장 흔한 형태
역학·보험·신뢰성에서 단순 Poisson 대신 노출을 곱한 형태 를 쓴다.
\[ y_i \sim \text{Poisson}(x_i \theta) \tag{2.14} \]
\(x_i\) — 알려진 노출 (인구·관측 시간·단위 수 등), \(\theta\) — 단위 노출당 rate.
\((y_i, x_i)\) 쌍이 교환가능하면 이 모델은 \(y_i\) 가 아니라 \((x, y)_i\) 쌍에 대해 교환가능.
우도.
\[ p(y \mid \theta) \propto \theta^{\sum y_i} e^{-(\sum x_i) \theta} \]
Gamma 켤레 유지, 사후.
\[ \theta \mid y \sim \text{Gamma}\left(\alpha + \sum y_i, \beta + \sum x_i\right) \tag{2.15} \]
사후 평균.
\[ E(\theta \mid y) = \frac{\alpha + \sum y_i}{\beta + \sum x_i} \]
“사전 계수 + 관측 계수” 를 “사전 노출 + 관측 노출” 로 나눔.
3.9 천식 사망률 예제
맥락 — 미국 한 도시의 인구 200,000 명, 1 년간 천식 사망자 \(y = 3\) 명. 조 (crude) 비율 = 1.5 / 100,000 / 년.
모델 — \(\theta\) = 단위 “100,000 명 년” 당 사망률, \(x = 2.0\) (인구 / 100,000). \(y = 3 \sim \text{Poisson}(2.0 \, \theta)\).
사전 설정 — 전 세계 천식 사망률 검토에서 서구권 대부분 0.6 / 100,000 수준, 1.5 이상은 드뭄. Gamma(3.0, 5.0) 사전.
- 평균 \(\alpha/\beta = 0.6\)
- 모드 \((\alpha-1)/\beta = 0.4\)
- 97.5 분위수 \(\approx 1.44\)
사후.
\[ \theta \mid y \sim \text{Gamma}(\alpha + y, \beta + x) = \text{Gamma}(6.0, 7.0) \]
사후 평균 \(6.0 / 7.0 \approx 0.857\). 관측 1.5 로부터 사전 0.6 쪽으로 크게 shrinkage.
사후 확률 \(\Pr(\theta > 1.0 \mid y) \approx 0.30\) — “실제 사망률이 단위당 1 을 넘을 확률 30%”.
3.10 10 년치 데이터로 확장
같은 도시, 같은 1.5 비율 유지, 10 년간 \(y = 30\).
\[ \theta \mid y \sim \text{Gamma}(3.0 + 30, 5.0 + 20) = \text{Gamma}(33.0, 25.0) \]
사후 평균 \(33/25 = 1.32\). 데이터가 지배 — 사후가 원래 조 (crude) 비율 1.5 에 훨씬 가까워짐. \(\Pr(\theta > 1.0) = 0.93\).
1 년 관측 vs 10 년 관측 — 데이터 정보량이 10 배. 사후 축소가 사전에 가깝던 것 (0.86) 이 데이터에 가까운 것 (1.32) 으로 이동. “노출 \(x\) = 데이터 정밀도” — Poisson 의 정밀도 가산은 노출 총합 \(\sum x_i\) 형태로 나타난다.
이 원리가 역학 · 보험 · 제조 품질 관리의 표준 — “관측 시간 또는 단위가 많을수록 추정이 정밀” 이라는 직관의 수학화.
3.11 지수 모델
연속형 대기 시간 · 부품 수명 데이터.
\[ p(y \mid \theta) = \theta e^{-y\theta}, \quad y > 0 \]
\(\theta = 1 / E(y \mid \theta)\) 는 rate. 지수는 감마의 특수 사례 (α=1).
메모리리스 성질.
\[ \Pr(y > t + s \mid y > s, \theta) = \Pr(y > t \mid \theta) \]
“이미 \(s\) 만큼 대기했다” 는 사실이 “추가 대기 시간” 의 분포에 영향 없음 — 신뢰성·대기 행렬 모델의 기본 가정.
3.12 Gamma 켤레
우도가 \(\theta^n e^{-n\bar{y}\theta}\) 형태, Gamma 사전 유지.
\[ \theta \sim \text{Gamma}(\alpha, \beta) \Rightarrow \theta \mid y \sim \text{Gamma}(\alpha + n, \beta + n\bar{y}) \]
해석 — 사전 Gamma(\(\alpha, \beta\)) 는 “\(\alpha - 1\) 회의 사전 지수 관측, 총 대기 시간 \(\beta\)” 와 등가.
4 § 2.7 암 발생률의 정보적 사전 — Ch.2 의 정점
4.1 지도의 역설
교재 그림 2.6·2.7. 1980년대 미국 카운티별 신장/요관암 사망률 (백인 남성).
- 그림 2.6 — 최고 10% 사망률 카운티. Great Plains 중부 에 몰려 있음
- 그림 2.7 — 최저 10% 사망률 카운티. 똑같이 Great Plains 중부 에 몰려 있음
지도를 처음 본 사람들은 그림 2.6 을 설명하는 여러 가설을 세운다 — 오염된 공기·물, 의료 접근성 부족, 식단 문제. 그림 2.7 을 보면 이 가설들이 필요 없음 이 드러난다. “왜 같은 지역이 동시에 최고이자 최저인가?” 가 진짜 질문.
4.2 이 역설의 통계적 원인 — 작은 표본
답은 표본 크기. 신장암은 드문 질환. 인구 1,000 명의 작은 카운티를 생각하면.
- 10 년간 0 명 사망 일 가능성이 대체로 크다 → 비율 0 → 최저 10% 에 해당
- 그러나 1 명이 사망하면 비율 = 1 / (1000 × 10) = 10⁻⁴ = 연당 10 / 100,000 → 최고 10% 로 이동
Great Plains 에 저인구 카운티가 많다. 그 결과 같은 지역의 카운티들이 양 극단에 동시에 나타난다. 실제 지역의 암 발생률이 특별히 높다는 증거가 아니다.
4.3 모델 설정
각 카운티 \(j\) 의 진짜 rate \(\theta_j\).
\[ y_j \sim \text{Poisson}(10 \, n_j \, \theta_j) \tag{2.16} \]
- \(y_j\): 1980-1989 10 년간 카운티 \(j\) 의 사망자 수
- \(n_j\): 카운티 \(j\) 의 인구
- \(10 n_j\): 10 년치 인구 노출
- \(\theta_j\): 단위 “인구 × 년” 당 사망률
조 (crude) rate = \(y_j / (10 n_j)\) — 지도에서 색칠된 수치.
4.4 공통 정보적 사전
전국 카운티의 정보를 활용한 경험적 사전.
\[ \theta_j \sim \text{Gamma}(\alpha, \beta), \quad \alpha = 20, \ \beta = 430{,}000 \]
- 사전 평균 \(\alpha/\beta = 4.65 \times 10^{-5}\) (= 약 4.65 / 100,000 / 년)
- 사전 표준편차 \(\sqrt{\alpha}/\beta = 1.04 \times 10^{-5}\)
해석 — 이 사전은 “약 430,000 인구 × 년의 관측에서 20 명 사망을 경험한 사전 정보”. 즉 “미국 전체에 가까운 규모의 경험적 분포”.
4.5 사후 — 각 카운티별
\[ \theta_j \mid y_j \sim \text{Gamma}(20 + y_j, \ 430{,}000 + 10 n_j) \]
사후 평균.
\[ E(\theta_j \mid y_j) = \frac{20 + y_j}{430{,}000 + 10 n_j} \]
이것이 조 rate \(y_j / (10 n_j)\) 와 사전 평균 \(4.65 \times 10^{-5}\) 의 가중 평균 (Exercise 2.5 과 동일 구조).
4.6 작은 카운티 — 사전이 지배
\(n_j = 1000\) 의 카운티.
| \(y_j\) | 조 rate (\(\times 10^{-5}\)) | 사후 평균 (\(\times 10^{-5}\)) |
|---|---|---|
| 0 | 0 | \(20/440{,}000 = 4.55\) |
| 1 | 10 | \(21/440{,}000 = 4.77\) |
| 2 | 20 | \(22/440{,}000 = 5.00\) |
조 rate 는 0 에서 20 까지 요동치지만, 사후 평균은 4.55~5.00 사이의 매우 좁은 범위. 작은 카운티의 사후는 사전이 완전히 지배.
작은 카운티의 조 rate 는 표본 크기가 작아 극단적으로 변동. 베이즈는 이 변동성을 사전 평균 쪽으로 수축 (shrinkage) 시켜, 결과가 “이웃 카운티들의 지혜” 를 반영하게 한다. 조 rate = 0 인 카운티가 사전 평균에 가까운 4.55 × 10⁻⁵ 로 보정되는 것 — 이것이 지도 역설의 해소.
같은 원리가 스포츠 통계 (“첫 시즌의 우수한 타율은 두 번째 시즌에 평균으로 회귀”) · 학교 평가 · 병원 순위 등에 광범위하게 적용된다.
4.7 사전 예측 (음이항) 으로 합리성 확인
\(n_j = 1000\) 카운티가 “사전 하에서” 얼마나 많은 사망자를 낼 것인가?
\[ y_j \sim \text{Neg-bin}\left(\alpha = 20, \ \beta/(10 n_j) = 43\right) \]
교재의 시뮬레이션 — Gamma(20, 430000) 에서 \(\theta_j\) 500 개 추출 → 각각에서 Poisson(10,000 \(\theta_j\)) 로 \(y_j\) 추출.
결과: 319 개가 0, 141 개가 1, 33 개가 2, 5 개가 3. 작은 카운티의 “기대되는” 사망자 수 분포. 조 rate 가 0 또는 10⁻⁴ 으로 튀는 것은 사전 예측에서도 예상되는 변동 이다.
4.8 큰 카운티 — 데이터가 지배
\(n_j = 1{,}000{,}000\) 의 카운티. 사전 예측 — 중앙값 473 사망, 50% 구간 [393, 545].
\(y_j = 393\) 에서.
\[ E(\theta_j \mid y_j) = \frac{20 + 393}{430{,}000 + 10{,}000{,}000} = 3.96 \times 10^{-5} \]
조 rate \(3.93 \times 10^{-5}\) 와 거의 일치. 데이터가 사전을 압도.
4.9 핵심 결과
교재 그림 2.9.
- 2.9(a) Bayes 추정 사후 평균을 \(\log_{10}(n_j)\) 로 플롯 — 조 rate 에서 보이던 극단 변동이 사라지고, 전체적으로 사전 평균 근처에 모인다
- 2.9(b) 일부 카운티의 50% 구간 — 작은 카운티는 구간 폭이 넓고, 큰 카운티는 좁음
이것이 지도 역설의 정확한 해소 — 사후 평균 지도는 조 rate 지도와 달리 Great Plains 에 쏠리지 않는다.
4.10 Ch.5 계층 모형으로의 연결
이 예제의 치명적 가정 — “모든 카운티가 공통 사전 Gamma(20, 430000)”. 이것이 합리적인가?
- 카운티들이 평균·분산 면에서 유사하면 공통 사전 합리적
- 카운티들 사이에 구조적 차이 (기후·산업 등) 가 있다면 공통 사전은 너무 강한 가정
Ch.5 의 계층 모형 — 사전 하이퍼파라미터 \((\alpha, \beta)\) 를 고정하지 않고 데이터에서 추정. 카운티 간 변동과 내부 변동을 데이터가 결정.
\[ \theta_j \mid \alpha, \beta \sim \text{Gamma}(\alpha, \beta), \quad (\alpha, \beta) \sim p(\alpha, \beta) \]
이것이 Empirical Bayes → Full Bayes 의 진화. 신장암 지도는 Ch.5 의 rat tumor 예제 · 8 schools 의 핵심 구조를 이미 담고 있다.
§ 2.7 의 핵심 교훈 — 작은 표본의 극단값 문제는 공통 사전 으로 해결된다. 이 사전이 데이터에서 추정 될 때 우리는 완전한 계층 모형에 도달한다. Ch.2 에서 Ch.5 로의 자연스러운 사다리.
현대 베이즈 실무에서 거의 모든 계수 모델 · 비율 모델 · 생존 모델이 이 사다리를 오른다. 카운티 → 학교 → 병원 → 유전자 발현 → 임상 시험 사이트 — 구조가 모두 같다.
5 세 절의 통합 구조
| 절 | 핵심 모델 | 켤레 가족 | 정보 가산 |
|---|---|---|---|
| § 2.5 | 정규 (알려진 분산) | 정규 사전 | 정밀도 \(1/\tau_1^2 = 1/\tau_0^2 + 1/\sigma^2\) |
| § 2.6 | 정규 (알려진 평균) | 스케일된 역 \(\chi^2\) | 자유도 \(\nu_n = \nu_0 + n\) |
| § 2.6 | Poisson | Gamma | 계수 + 노출 가산 |
| § 2.6 | 지수 | Gamma | 관측 수 + 총 시간 가산 |
| § 2.7 | Poisson 위계 | 공통 Gamma | shrinkage 는 노출에 의존 |
공통 패턴 — 사후 = 사전 + 데이터 정보량. 가산의 형태가 분포마다 다르지만 수학적 구조는 동일.
6 빈도주의 대응
| 질문 | 빈도주의 | 베이즈 (§ 2.5~2.7) |
|---|---|---|
| 정규 평균 추정 | \(\hat{\theta} = \bar{y}\) | \(N(\mu_n, \tau_n^2)\) 사후 |
| Poisson rate 추정 | \(\hat{\theta} = \bar{y}/\bar{x}\) | Gamma(\(\alpha + \sum y, \beta + \sum x\)) |
| 지수 rate 추정 | \(\hat{\theta} = 1/\bar{y}\) | Gamma(\(\alpha + n, \beta + n\bar{y}\)) |
| 작은 카운티 rate | 조 rate (극단값) | Bayes-shrunk rate |
| 과분산 (Poisson) | QL · 준가능도 | Gamma-Poisson → 음이항 |
Bayes-shrunk 추정량이 빈도주의 James-Stein 과 수학적으로 등가 — 빈도주의 JS 추정 이 본질적으로 empirical Bayes 라는 사실이 이 장에서 예고된다.
7 코드 예제 — 천식 사망률 · 암 발생률 Bayes-shrinkage
7.1 Step 1: 천식 사망률 — 1 년 vs 10 년 비교
import math
import random
random.seed(42)
def sample_gamma(alpha, beta):
# scipy 없이 순수 Python gamma
return random.gammavariate(alpha, 1.0 / beta)
# 1 년 관측 — y=3, x=2.0
# 사전 Gamma(3.0, 5.0), 사후 Gamma(6.0, 7.0)
S = 10000
posterior_1yr = [sample_gamma(6.0, 7.0) for _ in range(S)]
posterior_10yr = [sample_gamma(33.0, 25.0) for _ in range(S)]
def summarize(samples, name):
samples = sorted(samples)
mean = sum(samples) / len(samples)
lo = samples[int(0.025 * len(samples))]
hi = samples[int(0.975 * len(samples))]
p_over_1 = sum(1 for s in samples if s > 1.0) / len(samples)
print(f"{name:<20} 평균 = {mean:.3f}, 95% 구간 = [{lo:.3f}, {hi:.3f}], Pr(θ > 1) = {p_over_1:.3f}")
summarize(posterior_1yr, "1 년 관측")
summarize(posterior_10yr, "10 년 관측")예상 출력 —
1 년 관측 평균 ≈ 0.86, 95% 구간 ≈ [0.32, 1.62], Pr(θ > 1) ≈ 0.30
10 년 관측 평균 ≈ 1.32, 95% 구간 ≈ [0.91, 1.81], Pr(θ > 1) ≈ 0.93
관찰 — 1 년에서는 “사망률이 1 초과일 확률 30%” 로 불확실, 10 년에서는 “93%” 로 거의 확정. 노출 증가가 사후 정밀도를 직접 증가시킨다.
7.2 Step 2: 암 발생률 — 지도 역설 수치 재현
import numpy as np
from scipy import stats
np.random.seed(0)
# 3,071 개 카운티 시뮬레이션
# 사전 Gamma(20, 430000), 진짜 rate 는 이 사전에서 추출
alpha_prior, beta_prior = 20, 430000
K = 3071
true_rates = stats.gamma.rvs(alpha_prior, scale=1/beta_prior, size=K)
# 카운티 인구 분포 — 로그 정규 근사
log_pop = np.random.normal(loc=10.5, scale=1.5, size=K)
n_j = np.clip(np.exp(log_pop), 100, 10_000_000).astype(int)
# 관측 사망자 수
y_j = stats.poisson.rvs(10 * n_j * true_rates)
# 조 rate vs Bayes 사후 평균
crude_rate = y_j / (10 * n_j)
post_mean = (alpha_prior + y_j) / (beta_prior + 10 * n_j)
# 조 rate 의 최고/최저 10%
crude_top = np.percentile(crude_rate, 90)
crude_bot = np.percentile(crude_rate, 10)
# 그 카운티들의 인구 평균
top_counties_pop = n_j[crude_rate >= crude_top]
bot_counties_pop = n_j[crude_rate <= crude_bot]
print(f"조 rate 최고 10% 카운티 평균 인구: {top_counties_pop.mean():.0f}")
print(f"조 rate 최저 10% 카운티 평균 인구: {bot_counties_pop.mean():.0f}")
print(f"조 rate 분산: {crude_rate.var():.4e}")
print(f"Bayes rate 분산: {post_mean.var():.4e}")
print(f"분산 감소 비율: {crude_rate.var() / post_mean.var():.2f}x")예상 출력 — 최고/최저 10% 모두 평균 인구가 훨씬 작다 (지도 역설 재현), 그리고 Bayes 사후 평균의 분산이 조 rate 의 수십~수백 배 작다 (shrinkage 효과).
8 관련 주제
Ch.2 의 다른 심화 포스트
- Ch.2 개요 — Ch.2 전체 훑기
- § 2.1~2.4 심화 — 이항·Beta·Placenta previa
- § 2.8~2.9 비정보적·약정보적 사전 (작성 예정)
Ch.1 (선행)
Part I~V 전체
빈도주의 대응
- GLM 이론 기초 — 지수족과 자연 모수
- Poisson 분포 · 과분산과 음이항
- Monte Carlo 시뮬레이션
- MLE · 점 추정 — James-Stein 과 Bayes-shrinkage
9 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.5~2.7).
- Gelman, A., & Price, P. N. (1999). All maps of parameter estimates are misleading. Statistics in Medicine, 18(23), 3221–3234.
- Clayton, D., & Kaldor, J. (1987). Empirical Bayes estimates of age-standardized relative risks for use in disease mapping. Biometrics, 43(3), 671–681.
- Efron, B., & Morris, C. (1977). Stein’s paradox in statistics. Scientific American, 236(5), 119–127.
- DeGroot, M. H., & Schervish, M. J. (2012). Probability and Statistics (4th ed.). Pearson.