Ch.2.8~2.11 — 비정보적·약정보적 사전과 연습문제 풀이 심화

Gelman BDA Ch.2.8~2.11 상세 — Jeffreys 불변 원리·약정보적 사전의 구성·주요 연습문제

Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 후반 네 절을 상세히 다룬다. § 2.8 비정보적 사전 — 적절/부적절 (proper/improper) 구분·Jeffreys 의 불변 원리와 Fisher 정보 기반 사전·이항의 Beta(1/2, 1/2) vs Beta(1, 1) vs Beta(0, 0)· 위치·스케일 모수의 피벗 (pivotal) 기반 사전·비정보적 사전의 세 난점, § 2.9 약정보적 사전 — 두 가지 구성 전략 (비정보에서 정보 추가 vs 강정보에서 완화) 과 대칭성 원칙, § 2.10 Bayes/Laplace 역사적 참고문헌, § 2.11 선정 연습문제 (Beta(4,4) 검열된 관측·사후 평균 절충 증명·항공 사고율 모델· HPD 변환 불변성 위반·검열된 지수 데이터) 의 완전 풀이.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 20일

1 이 포스트의 위치 — Ch.2 심화의 마지막 조각

§ 2.1~2.4 가 이항-Beta, § 2.5~2.7 이 정규·Poisson·지수·암 발생률 사례였다면, 이 포스트의 § 2.8~2.11 은 “사전 선택의 원리와 응용 훈련” 이다. 베이즈 비판에서 가장 자주 등장하는 “사전을 어떻게 고르나” 질문에 대한 교재의 답변과, Ch.2 전체를 흡수하는 연습문제 풀이를 함께 다룬다.

§ 2.8~2.11 의 한 줄 요약

“완전 비정보 사전은 환상에 가깝고, 약정보적 사전이 현대 베이즈의 실용적 중도다. Ch.2 의 연습문제들이 이 원리를 이항·정규·Poisson·지수 전반에 걸쳐 구체화한다.”

Part II 이후 모든 모델의 사전 설정 전략이 이 절에서 결정된다 (Gelman et al., 2013, Ch.2.8~2.11).


2 § 2.8 비정보적 사전분포

2.1 동기 — “데이터가 스스로 말하게”

사전이 모집단 기반이 아닐 때 — 즉 \(\theta\) 가 추출될 “모집단” 이 상상 속에만 존재할 때 — 사후분포에서 사전 역할을 최소화 하는 사전이 바람직하다는 오랜 요구.

이런 분포를 참조 사전 (reference prior) 이라 부르고, 밀도를 vague, flat, diffuse, noninformative 로 묘사.

“비정보적 사전의 근거는 종종 ‘데이터가 스스로 말하게’ — 즉 현재 데이터 밖 정보가 추론에 영향을 주지 않도록.” (교재)

2.2 Proper vs improper 사전

적절 (proper) 사전 — 데이터에 의존하지 않고 전체 구간에서 적분이 1 (또는 재정규화 가능).

부적절 (improper) 사전 — 적분이 무한. 확률 분포가 아니지만 비정규화 밀도 로 계산에 쓸 수 있다.

2.3 정규 평균의 비정보적 사전

알려진 \(\sigma^2\) 의 정규 모델 \(y \sim N(\theta, \sigma^2)\), 사전 \(N(\mu_0, \tau_0^2)\). 사전 정밀도 \(1/\tau_0^2\) 가 데이터 정밀도 \(n/\sigma^2\) 에 비해 매우 작으면.

\[ p(\theta \mid y) \approx N(\bar{y}, \sigma^2/n) \]

\(\tau_0^2 \to \infty\) 극한에서는 \(p(\theta) \propto 1\) (상수) 로 쓸 수 있다. 이는 \(\theta \in (-\infty, \infty)\) 의 균등 분포” — 적분이 무한이라 부적절.

그러나 사후는 적절 (관측 한 개만 있으면). Improper 사전이 proper 사후로 이어지는 패턴.

2.4 알려진 \(\theta\) 의 분산 사전

분산에 대한 비정보적 사전은 \(p(\sigma^2) \propto 1/\sigma^2\) 또는 동치로 \(p(\log \sigma^2) \propto 1\) (상수). \(\sigma^2 \in (0, \infty)\) 에서 \(\log\) 가 실수 전체이므로 스케일 모수의 “진짜 균등”.

\(\nu_0 = 0\) 극한에서 Inv-\(\chi^2(\nu_0, \sigma_0^2)\) 가 이 비정보적 사전에 접근 — 사후는 \(\sigma^2 \mid y \sim \text{Inv-}\chi^2(n, v)\), 빈도주의 표본 분산 분포와 일치.

2.5 Improper 사전에서 proper 사후 얻기

교재의 경고.

“Improper 사전 분포에서 얻은 사후 분포는 극도의 주의 로 해석해야 한다. 항상 사후 분포가 유한 적분과 합리적 형태 를 갖는지 확인해야 한다. 그들의 가장 합리적 해석은 가능도가 사전 밀도를 지배하는 상황에서의 근사.”

2.6 Jeffreys 의 불변 원리

서로 다른 매개변수화에서 균등 사전이 다르다 — \(p(\theta) \propto 1\)\(p(\phi) \propto 1\) (\(\phi = g(\theta)\)) 은 일반적으로 서로 다른 사전. Laplace 의 “불충분 이유 원리” 의 본질적 문제.

Jeffreys 의 해결 — 매개변수화 불변인 규칙.

\(p(\theta)\) 를 결정하는 어떤 규칙이든 변환된 모수에 적용해도 동일한 결과 를 산출해야 한다.”

\(p(\phi)\) 를 (1) \(p(\theta)\) 를 구한 뒤 변환 (2.19) 으로 유도하거나, (2) 변환된 모델 \(p(y, \phi) = p(\phi) p(y \mid \phi)\) 로 직접 구해도 같은 결과여야 한다.

Jeffreys 사전.

\[ p(\theta) \propto \sqrt{J(\theta)} \]

여기서 \(J(\theta)\)Fisher 정보량.

\[ J(\theta) = E\left[\left(\frac{d \log p(y \mid \theta)}{d\theta}\right)^2 \mid \theta\right] = -E\left[\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \tag{2.20} \]

2.7 불변성 증명

\(\phi = h(\theta)\) 변환. \(J(\phi) = J(\theta) |d\theta/d\phi|^2\) 이므로 \(\sqrt{J(\phi)} = \sqrt{J(\theta)} |d\theta/d\phi|\).

변환 공식 (2.19): \(p(\phi) = p(\theta) |d\theta/d\phi|\).

\(p(\theta) \propto \sqrt{J(\theta)}\) 를 대입하면 \(p(\phi) \propto \sqrt{J(\theta)} |d\theta/d\phi| = \sqrt{J(\phi)}\) — 같은 규칙이 \(\phi\) 에서도 성립. 불변성 확인.

직관 — Jeffreys 사전은 “정보 기하학의 균등”

\(J(\theta)\) 는 “단위 표본당 기대 정보량”. \(\sqrt{J(\theta)}\) 에 비례한 사전은 정보 공간에서 균등 — 모수 공간에서 \(\theta\) 가 변할 때 정보량이 많이 바뀌는 구간에 높은 밀도를 부여.

매개변수화를 바꿔도 정보 기하학적 균등성 이 보존. 즉 “내가 \(\theta\) 를 쓰든 \(\phi = \log \theta\) 를 쓰든 같은 사후를 얻는다” 는 보장.

2.8 이항에서의 세 비정보적 사전

이항 모델 \(y \sim \text{Bin}(n, \theta)\). 로그 가능도.

\[ \log p(y \mid \theta) = \text{const} + y \log \theta + (n - y) \log(1 - \theta) \]

Fisher 정보.

\[ J(\theta) = -E\left[\frac{d^2 \log p(y \mid \theta)}{d\theta^2}\right] = \frac{n}{\theta(1 - \theta)} \]

Jeffreys 사전.

\[ p(\theta) \propto \sqrt{J(\theta)} \propto \theta^{-1/2}(1 - \theta)^{-1/2} = \text{Beta}(1/2, 1/2) \]

세 가지 후보.

이름 사전 유래
Laplace (Bayes) Beta(1, 1) = Uniform “불충분 이유 원리”
Jeffreys Beta(1/2, 1/2) 불변 원리
Haldane Beta(0, 0) 자연 모수 logit(\(\theta\)) 공간의 균등

세 선택에서 사후는 Beta(\(\alpha + y, \beta + n - y\)) 이므로 \(\alpha + \beta\) 의 “가상 관측 수” 만 다르다.

  • Beta(1, 1): 가상 관측 2개
  • Beta(1/2, 1/2): 가상 관측 1개
  • Beta(0, 0): 가상 관측 0개

대개 실제 관측 \(n\) 이 충분히 크면 세 선택이 거의 같은 결과. 작은 \(n\) 에서 차이가 날 뿐.

2.9 Haldane 사전의 위험

“Improper Beta(0, 0) 사전을 주의해야 한다 — 만약 \(y = 0\) 또는 \(n\) 이면 사후가 부적절 이다!” (교재)

연습문제 7 의 답\(y = 0\) 이면 사후가 \(\theta^{-1}(1 - \theta)^{n - 1}\) 형태라 \(\theta \to 0\) 에서 발산, 적분 무한. 극단값에서 Haldane 이 실패.

2.10 피벗 양 (pivotal quantities) — 위치·스케일 모수

이항처럼 서로 다른 원리가 다른 비정보적 사전을 주지만, 위치 모수스케일 모수 에 대해서는 모든 원리가 일치.

위치 모수\(p(y - \theta \mid \theta)\)\(\theta, y\) 와 무관한 함수 \(f(y - \theta)\) 일 때. 예 — 정규 평균.

  • 비정보적 사전: \(p(\theta) \propto 1\) (상수)

스케일 모수\(p(y/\theta \mid \theta)\)\(g(y/\theta)/\theta\) 형태일 때. 예 — 정규 표준편차, 감마 스케일.

  • 비정보적 사전: \(p(\theta) \propto 1/\theta\)\(p(\log \theta) \propto 1\)

2.11 피벗 원리의 유도

위치 모수 경우. \(y - \theta\) 가 피벗 — \(\theta\)\(y\) 에 무관한 분포 \(f\). 베이즈 규칙으로.

\[ p(y - \theta \mid y) \propto p(\theta) \cdot p(y - \theta \mid \theta) = p(\theta) \cdot f(y - \theta) \]

\(y - \theta\) 가 사후에서도 피벗 (즉 분포 \(f\))” 조건을 요구하면 \(p(\theta) \propto \text{const}\) 로 귀결.

직관 — 피벗 원리는 “데이터 이동에 불변한 분석”

“데이터 \(y\) 를 5 만큼 이동하면 사후도 5 만큼 이동” 이라는 직관. 이것이 성립하려면 사전이 위치에 대해 균등해야 한다. 자연스러운 결과.

스케일 모수에서는 “데이터를 \(c\) 배 하면 사후도 \(c\) 배” 라는 직관이 사전 \(p(\theta) \propto 1/\theta\) 에 해당.

2.12 비정보적 사전의 세 난점

교재의 정리.

1. 가능도가 지배적이면 사전 선택이 큰 문제가 아니다

“진정으로 지배적인 가능도라면 상대적으로 평평한 사전들 중 선택이 중요하지 않다. 특정 명세를 참조 사전으로 확립하는 것은 부적절한 자동 사용을 조장 할 수 있다.”

2. 매개변수화 의존성

\(\sigma^2\) 에서 합리적인 \(p(\sigma^2) \propto 1/\sigma^2\)\(\phi = \log \sigma^2\) 에서 \(p(\phi) \propto 1\). 두 표현은 동치지만, \(\sigma\) 에 대해 균등한 사전 을 쓰면 완전히 다른 결과.

어느 매개변수화가 “진짜” 인가 에 대한 답이 없다.

3. 모델 평균화에서의 문제

여러 모델을 비교·평균할 때 improper 사전은 Bayes 팩터를 발산 시킬 수 있다 — Ch.7.3 에서 상세.

2.13 결론

“그럼에도 불구하고 비정보적·참조 사전 밀도는 실제 사전 지식을 확률 분포로 정량화할 가치가 없어 보이는 경우, 수학적 작업으로 사후가 적절한지 확인하고 편의상 모델링 가정에 대한 사후 추론의 민감도를 결정할 수 있는 한, 유용하다.”


3 § 2.9 약정보적 사전분포

3.1 정의 — 의도적으로 약하게

“우리는 사전이 적절하지만, 제공하는 정보가 실제 가용한 사전 지식보다 의도적으로 약하도록 설정되어 있을 때 약정보적 (weakly informative) 이라고 부른다.” (교재)

3.2 자연스러운 제약의 활용

거의 모든 문제에서 자연스러운 크기 제약 이 있다. 교재 예.

  • 로그 스케일 회귀: 계수 > 10 이면 예측값이 \(\exp(10) \approx 20{,}000\) 배 증가 — 대부분 비현실적
  • 로짓 스케일: 계수 > 5 이면 확률이 \(\text{logit}^{-1}(-5) = 0.01\) 에서 \(\text{logit}^{-1}(5) = 0.99\) 로 이동 — 대부분 적용에서 극단

이런 제약을 사전에 투입하면 — 실제 알려진 정보 일부만 활용하되 사후가 합리적 범위 내에 있도록 정규화.

3.3 성비 예제 — 약정보적 Beta

Placenta previa 예제 처럼 \(\theta \approx 0.5\) 가 자연스러운 중심.

  • 비정보: Beta(1, 1) — 모든 값 동등
  • 강정보: Beta(200, 200) — 사전 표본 400개, 매우 좁음
  • 약정보: Beta(20, 20) — 사전 표본 40개, 80% 확률이 [0.4, 0.6] 내

교재의 각주 — “R 계산 pbeta(.6, 20, 20) - pbeta(.4, 20, 20) 이 Beta(20, 20) 의 80% 확률 질량이 [0.4, 0.6] 에 있음을 보여준다.”

3.4 정규 평균의 약정보 — \(N(0, A^2)\)

위치 모수 \(\theta\) 에 대해 \(N(0, A^2)\), \(A\) 는 문맥 맞춤 큰 값.

  • 응답 변수가 \(\sim 100\) 스케일이면 \(A = 1000\) 정도
  • 로짓 회귀 계수는 \(A = 2.5 \sim 10\) 정도 — Cauchy(0, 2.5) 는 더 꼬리가 두꺼운 변형

3.5 근사 vs 정확성의 타협

“거의 모든 실제 문제에서 데이터 분석가는 통계 모델에 편리하게 포함시킬 수 있는 것보다 더 많은 정보를 가지고 있다. 이는 가능도에도 마찬가지. 실무에서 타협은 불가피.” (교재)

타협 이유.

  • 모델을 편리하게 기술하기 위해
  • 지식을 정확히 확률 형태로 표현하기 어려워서
  • 계산을 단순화하려고
  • 불안정한 정보원을 피하려고

첫 세 이유는 “답이 더 정확히 하더라도 크게 달라지지 않았을 것” 이라는 주장으로 정당화. 마지막은 별개 문제.

3.6 약정보적 사전을 만드는 두 전략

전략 1: 비정보에서 정보 추가

비정보적 사전에서 출발해 사후가 합리적 이 되도록 정보 추가.

예 — 드문 질병 비율 추정에서 \(\theta \sim \text{Uniform}(0, 1)\) 은 사실 너무 강할 수 있다. \(n = 100\) 에서 \(y = 0\) 이면 사후 Beta(1, 101) 평균 ≈ 0.01 — 하지만 실제 유병률이 1/10,000 이면 사후가 과대추정. 이 경우 사전을 Beta(0.1, 10) 같은 극단값 쪽으로 기울여야 현실적.

전략 2: 강정보에서 완화

역사적 데이터 · 전문가 지식 기반의 강정보 사전 을 조금 느슨하게 — 사전 지식의 불확실성과 새 데이터에 대한 적용성 불확실성을 반영.

예 — 이전 연구에서 \(\theta \approx 0.8 \pm 0.02\) 로 추정. 강정보 사전 Beta(320, 80) 대신 Beta(8, 2) 로 완화 — 평균 0.8 유지하되 사전 표본을 10개로 축소.

3.7 대칭성과 공정성

강정보 사전이 과학적으로 정당해도 실험 분석에서는 위험 할 수 있다. 예 — 연구자가 “효과가 양수” 라고 확신해서 \(\theta \sim N(0.5, 0.5)\) 를 쓰면 — 가설 검증 실험 에서 이 사전은 편향된 결과를 낳을 수 있다.

“만약 어떤 실험이 과학자의 이론을 검정하도록 설계된 것이라면, 오히려 과학자의 가설에 불리한 사전이 필요할 수도 있다 — 더 높은 증명 기준을 요구하기 위해.” (교재)

3.8 대칭성 원리

“단일 처치 효과의 사전은 0 에 대칭 이어야 한다” 같은 제약이 의미 있을 수 있다.

이유 — 실무에서 통계 추론은 효과의 증거로 받아들여진다. 사전이 한쪽으로 기울면 결과 해석의 공정성이 훼손된다.

3.9 대칭성을 포기하는 경우

교재의 단서. 궁극적으로는 결정 분석과 과학적 프로세스 전체의 모델 에 포함되어야 한다 — 조기에 큰 실제 효과를 식별하는 이득 vs 효과 크기 과대추정과 우연 패턴 과잉 반응의 손실 간 균형. 이것이 Part II Ch.9 의 주제.

직관 — 약정보적 사전의 현대적 표준
모수 유형 권장 사전
로지스틱 회귀 계수 Cauchy(0, 2.5) — 로짓 스케일 극단 방지
정규 평균 (중심화된 예측자) N(0, 2.5²) 또는 Cauchy(0, 2.5)
표준편차 (계층 분산 모수) half-Cauchy(0, 5)
계층 분산 Inv-Gamma 대신 half-t, half-Normal
상관 행렬 LKJ(2) 약정보

Stan · PyMC · brms 등 현대 베이즈 도구의 기본 권장 이 이 원리들. “정보를 전혀 안 준다” 가 아니라 “상식의 울타리를 친다” 는 철학.


4 § 2.10 참고문헌 주해

4.1 Ch.2 의 지적 계보

1763 Bayes 의 원본 논문 — 베이즈 정리의 최초 유도, 이항 모델의 사후 적분. Stigler (1986) 의 “역확률 (inverse probability)” 역사서가 Bayes 와 Laplace 의 발전을 상세히 다룬다.

1785, 1810 Laplace — Bayes 와 독립적으로 베이즈 정리를 재발견하고 정규 근사 방법 을 개발. 파리 출생 통계 분석 (241,945 여아 / 493,472 총).

4.2 켤레 이론의 체계화

Raiffa & Schlaifer (1961) — 켤레 사전 이론의 상세 전개. Ch.2 의 수학적 뼈대가 이 책에서 유래.

Aitchison & Dunsmore (1975) — 예측 추론과 켤레 모델의 상세 분석.

4.3 비정보적 사전의 철학적 논쟁

Jeffreys (1961) — 불변 원리의 원전. “확률론” 전서.

Hartigan (1964) — 불변 원리의 일반화.

Bernardo (1979) — 참조 사전 (reference prior) 의 확장. Kullback-Leibler 발산 기반.

Box & Tiao (1973) — 실무적 관점의 정규 모델과 HPD 영역 상세.

Berger (1985) — 통계적 결정 이론과 베이즈 분석의 표준 참고서.

Kass & Wasserman (1996) — 비정보적 사전 구성 방법 전반 리뷰. 비판적 사용 의 필요성 강조.

4.4 약정보적 사전의 발전

Gelman (2006a) — 계층적 분산 모수에 대한 half-t 사전 제안. 분산 모수에 대한 Inv-Gamma 사전의 문제 지적.

Gelman, Jakulin, et al. (2008) — 로지스틱 회귀의 Cauchy(0, 2.5) 약정보 사전 체계적 권장.

4.5 암 지도 예제의 배경

Manton et al. (1989) — 연령 조정 신장암 사망률의 베이즈 분석. § 2.7 의 기반.

Gelman & Nolan (2002a), Bernardinelli et al. (1995) — 질병 지도에 대한 사전 분포 일반 논의.

Louis (1984), Shen & Louis (1998) — 모수 앙상블 추정 (Ch.5 계층 모형 예고).

4.6 Placenta Previa 사례

James (1987) 의 1922 년 독일 연구. Gelman & Weakliem (2009) 이 작은 표본에서 성비 추정의 과제 심층 분석.


5 § 2.11 선정 연습문제 풀이

5.1 Exercise 1 — Beta(4, 4) 사전, 검열된 이항 관측

문제. Beta(4, 4) 사전. 10 회 동전 시행 중 앞면이 3 회 미만 (몇 회인지는 모름). \(\theta\) 의 사후 밀도를 구하여라.

풀이. 관측 \(A = \{y < 3\} = \{y \in \{0, 1, 2\}\}\).

\[ p(\theta \mid A) \propto p(A \mid \theta) \, p(\theta) = \Pr(y < 3 \mid \theta) \cdot \text{Beta}(\theta \mid 4, 4) \]

\[ \Pr(y < 3 \mid \theta) = \sum_{k=0}^{2} \binom{10}{k} \theta^k (1 - \theta)^{10 - k} \]

따라서

\[ p(\theta \mid A) \propto \theta^3 (1 - \theta)^3 \cdot \left[(1-\theta)^{10} + 10\theta(1-\theta)^9 + 45\theta^2(1-\theta)^8\right] \]

관찰 — 세 개 Beta 분포의 혼합.

\[ p(\theta \mid A) \propto \theta^3 (1-\theta)^{13} + 10 \theta^4 (1-\theta)^{12} + 45 \theta^5 (1-\theta)^{11} \]

= 혼합 Beta: 가중치 있는 Beta(4, 14), Beta(5, 13), Beta(6, 12).

직관 — 검열된 관측의 대표 구조

“정확한 \(y\) 값 대신 \(y \in A\)” 만 관측 — 생존 분석·실패 시간·설문의 범주화 데이터에서 흔한 구조. 사후는 각 \(y\) 에서의 사후의 가중 혼합. Ch.18 다중 대체의 씨앗이 여기 있다.

5.2 Exercise 5 — Beta 사후의 절충 성질 증명

문제. \(y \sim \text{Bin}(n, \theta)\), \(\theta \sim \text{Beta}(\alpha, \beta)\). 사후 Beta(\(\alpha + y, \beta + n - y\)).

(b) 사후 평균이 사전 평균과 표본 비율 사이에 있음을 대수적으로 증명.

\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} \]

사전 평균 \(\mu_0 = \alpha / (\alpha + \beta)\), 표본 비율 \(p = y / n\).

\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} = \frac{(\alpha + \beta) \mu_0 + n p}{\alpha + \beta + n} = \underbrace{\frac{\alpha + \beta}{\alpha + \beta + n}}_{w_0} \mu_0 + \underbrace{\frac{n}{\alpha + \beta + n}}_{w_1} p \]

\(w_0, w_1 \geq 0\), \(w_0 + w_1 = 1\)사후 평균은 사전 평균과 표본 비율의 볼록 조합. 따라서 항상 사이에 위치.

(c) 균등 사전 (\(\alpha = \beta = 1\)) 하에서 사후 분산 < 사전 분산 증명.

Beta(1, 1) 의 분산 = \(1/12\).

Beta(\(1 + y, 1 + n - y\)) 의 분산 = \(\frac{(1+y)(1+n-y)}{(n+2)^2 (n+3)}\).

\((1+y)(1+n-y) \leq ((n+2)/2)^2 = (n+2)^2/4\) (AM-GM).

\[ \text{var}(\theta \mid y) \leq \frac{(n+2)^2/4}{(n+2)^2(n+3)} = \frac{1}{4(n+3)} \]

\(n \geq 0\) 이면 \(1/(4(n+3)) \leq 1/12\). 등호는 \(n = 0\) (데이터 없음) 에서. 항상 사후 분산 ≤ 사전 분산.

(d) 사후 분산이 사전 분산보다 큰 예.

Beta(2, 2) 사전 → 사전 분산 = \(\frac{2 \cdot 2}{16 \cdot 5} = 0.05\). \(n = 1, y = 0\) 관측 → 사후 Beta(2, 3) → 사후 분산 = \(\frac{2 \cdot 3}{25 \cdot 6} = 0.04\). 사후가 작음.

더 극단적 예를 찾으려면 사전과 데이터 충돌. 예 — Beta(100, 2) 사전 (평균 약 0.98), \(n = 10\), \(y = 1\). 사후 Beta(101, 11) → 평균 약 0.90, 분산 \(\frac{101 \cdot 11}{112^2 \cdot 113} \approx 7.8 \times 10^{-4}\). 사전 Beta(100, 2) 분산 = \(\frac{100 \cdot 2}{102^2 \cdot 103} \approx 1.9 \times 10^{-4}\). 사후 분산이 약 4 배 증가 — 사전과 데이터 충돌의 신호.

5.3 Exercise 8 — 정규 미지 평균, 학생 몸무게

문제. \(y_1, \ldots, y_n \sim N(\theta, 20^2)\), \(\bar{y} = 150\). 사전 \(\theta \sim N(180, 40^2)\).

(a) 사후 분포.

정규-정규 켤레 공식 (2.12).

\[ \mu_n = \frac{\frac{1}{40^2} \cdot 180 + \frac{n}{20^2} \cdot 150}{\frac{1}{40^2} + \frac{n}{20^2}} = \frac{180/1600 + 150n/400}{1/1600 + n/400} = \frac{0.1125 + 0.375n}{0.000625 + 0.0025n} \]

간단히.

\[ \mu_n = \frac{180 + 4n \cdot 150}{1 + 4n} = \frac{180 + 600n}{1 + 4n} \]

사후 분산.

\[ \tau_n^2 = \frac{1}{\frac{1}{1600} + \frac{n}{400}} = \frac{1600}{1 + 4n} \]

(b) 사후 예측. \(\tilde{y} \mid y \sim N(\mu_n, 20^2 + \tau_n^2) = N(\mu_n, 400 + 1600/(1+4n))\).

(c) \(n = 10\).

\[ \mu_{10} = \frac{180 + 6000}{41} = \frac{6180}{41} \approx 150.73 \]

\[ \tau_{10}^2 = \frac{1600}{41} \approx 39.02, \quad \tau_{10} \approx 6.25 \]

95% 사후 구간 \(\theta\): \([150.73 - 1.96 \times 6.25, 150.73 + 1.96 \times 6.25] = [138.5, 163.0]\).

95% 예측 구간 \(\tilde{y}\): 분산 \(400 + 39.02 = 439.02\), 표준편차 \(20.95\)\([150.73 - 1.96 \times 20.95, 150.73 + 1.96 \times 20.95] = [109.7, 191.8]\).

(d) \(n = 100\).

\[ \mu_{100} = \frac{180 + 60000}{401} \approx 150.07 \]

\[ \tau_{100}^2 = \frac{1600}{401} \approx 3.99, \quad \tau_{100} \approx 2.00 \]

95% 사후 구간: \([146.15, 153.99]\). 95% 예측 구간: 분산 \(400 + 3.99 = 403.99\), 표준편차 \(20.10\)\([110.68, 189.46]\).

직관 — \(n\) 이 커지면서의 수렴
  • 사후 평균: \(\mu_n \to \bar{y} = 150\)
  • 사후 분산: \(\tau_n^2 \to 0\)
  • 예측 분산: \(\tau_n^2 + \sigma^2 \to \sigma^2 = 400\)

예측 분산은 0 으로 수렴하지 않는다 — 모수 불확실성이 사라져도 표본 변동 \(\sigma^2\) 는 남기 때문. 빈도주의와 베이즈 둘 다에서 같은 진실. Ch.14 회귀 예측 구간의 원형.

5.4 Exercise 13 — 항공 사고 Poisson 모델

데이터 (표 2.2). 1976-1985 전 세계 치명 사고 수: 24, 25, 31, 31, 22, 21, 26, 20, 16, 22. 10 년 총 238 사고.

(a) 단순 Poisson 모델.

가정 — 각 연도 사고 수 ∼ Poisson(\(\theta\)) iid, \(\theta\) 는 연간 사고율.

사전. 약정보 Gamma(\(\alpha = 1\), \(\beta = 0\)) — improper Gamma (\(\alpha = 1\), \(\beta \to 0\)) 는 \(1/\theta\) 에 해당. 또는 Jeffreys (Ex.12 해): \(p(\theta) \propto \theta^{-1/2}\).

Jeffreys 로 진행. 사후 ∝ \(\theta^{-1/2} \cdot \theta^{238} e^{-10\theta} = \theta^{237.5} e^{-10\theta}\) → Gamma(238.5, 10).

1986 년 예측 구간. \(y_{1986} \mid \theta \sim \text{Poisson}(\theta)\).

\(S = 10000\) 시뮬레이션.

  • \(\theta^{(s)} \sim \text{Gamma}(238.5, 10)\)
  • \(y^{(s)} \sim \text{Poisson}(\theta^{(s)})\)

2.5·97.5 분위수가 95% 예측 구간. 교재 가이드로는 약 [14, 35] 수준. 실제 1986년 22 사고 — 구간 내.

(b) 노출 조정 모델. 연도별 비행 마일 \(x_i\) (표 2.2 의 deaths/death rate 로 계산). 1986 년 \(x = 8 \times 10^{11}\) 마일.

\(y_i \sim \text{Poisson}(x_i \theta)\), \(\theta\) = 사고 율 per passenger mile.

사후 Gamma(\(\alpha + \sum y_i, \beta + \sum x_i\)). (a) 보다 정확한 예측.

직관 — 노출이 달라지는 경우 노출 조정이 필수

비행 마일이 해마다 크게 증가했다면 고정 \(\theta\) 모델 (a) 은 평균화하여 과소추정·과대추정할 위험. 노출 조정 모델 (b) 는 연도별 “위험 수준” 을 포착하여 더 정확한 예측.

Ch.6 의 사후 예측 점검으로 두 모델 비교 — 잔차 · 관측 vs 예측 비교가 더 좋은 모델을 식별.

5.5 Exercise 17 — HPD 의 변환 불변성 위반

문제. \(nv/\sigma^2 \sim \chi^2_n\), \(\sigma\) 의 사전 \(p(\sigma) \propto 1/\sigma\).

(a) \(\sigma^2\) 의 사전 유도.

\(\phi = \sigma^2\), 변환 공식.

\[ p(\sigma^2) = p(\sigma) \left|\frac{d\sigma}{d\sigma^2}\right| = \frac{1}{\sigma} \cdot \frac{1}{2\sigma} = \frac{1}{2\sigma^2} \propto \frac{1}{\sigma^2} \]

(b) \(\sigma^2\) 의 95% HPD 가 \(\sigma\) 의 95% HPD 의 제곱 끝점과 다르다.

이유 — HPD 는 “밀도가 높은 영역” 을 수집. 밀도는 변환 시 야코비안 으로 바뀐다. \(\sigma^2\) 에서 \([a, b]\) 가 HPD 면 \(\sigma\) 에서 \([\sqrt{a}, \sqrt{b}]\) 의 밀도는 \(p_\sigma(\sqrt{a})\) 가 아니라 \(p_{\sigma^2}(a) \cdot 2\sqrt{a}\) — 양변의 밀도 순위가 뒤바뀔 수 있다.

중앙 구간은 변환 불변 — 분위수가 단조 변환에서 보존. 이것이 Gelman 이 중앙 구간을 권장하는 기술적 이유.

직관 — HPD 의 장단점 재확인
  • 장점: 최고 밀도 수집, 다봉 분포에서 정보적
  • 단점: 변환에 민감, 시뮬레이션 계산 복잡

실무에서 단봉 사후면 중앙 구간·HPD 거의 같음 → 중앙 구간 선호. 다봉이면 구간 하나로 요약하지 말고 분포 자체를 제시.

5.6 Exercise 20 — 검열된 지수 데이터의 분산 역설

문제. \(y \mid \theta \sim \text{Exp}(\theta)\), \(\theta \sim \text{Gamma}(\alpha, \beta)\).

(a) \(y \geq 100\) 만 관측. 사후 \(p(\theta \mid y \geq 100)\) 는?

\[ \Pr(y \geq 100 \mid \theta) = e^{-100\theta} \]

\[ p(\theta \mid y \geq 100) \propto p(\theta) \cdot e^{-100\theta} \propto \theta^{\alpha - 1} e^{-\beta\theta} \cdot e^{-100\theta} = \theta^{\alpha - 1} e^{-(\beta + 100)\theta} \]

Gamma(\(\alpha, \beta + 100\)). 관측 하나 증가 없이 대기 시간 100 만 증가 — 사후 분산 감소.

사후 평균 \(\alpha / (\beta + 100)\), 사후 분산 \(\alpha / (\beta + 100)^2\).

(b) \(y = 100\) 정확 관측.

\[ p(\theta \mid y = 100) \propto p(\theta) \cdot \theta e^{-100\theta} = \theta^\alpha e^{-(\beta + 100)\theta} \]

Gamma(\(\alpha + 1, \beta + 100\)). 관측 하나 추가.

사후 평균 \((\alpha + 1) / (\beta + 100)\), 사후 분산 \((\alpha + 1) / (\beta + 100)^2\).

(c) 왜 (b) 의 사후 분산이 (a) 보다 큰가.

  1. 더 많은 정보 를 관측했음에도 — “정확한 \(y = 100\)” vs “\(y \geq 100\)” — 사후 분산이 더 크다.

\[ \text{var}_{(b)} = \frac{\alpha + 1}{(\beta + 100)^2}, \quad \text{var}_{(a)} = \frac{\alpha}{(\beta + 100)^2}, \quad \text{var}_{(b)} > \text{var}_{(a)} \]

왜? — 식 (2.8) 은 기댓값 관계. \(\text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y))\). 특정 관측값에서 \(\text{var}(\theta \mid y)\) 가 평균보다 크거나 작을 수 있다.

\(y = 100\) 은 “검열 임계값에 정확히 위치” — 특이한 관측. 이 경우 사후 분산이 조건부로 평균 이상. 식 (2.8) 의 기댓값 관계와 모순되지 않는다.

직관 — 이 연습문제의 교훈

“더 많은 정보 → 더 작은 불확실성” 은 평균적으로 참. 특정 관측에서는 위반 가능. 베이즈 업데이트에서 이런 “역설” 을 만났다면 특정 관측이 사전과 강한 충돌 하는지 확인 — Ch.6 의 사후 예측 점검 대상.

식 (2.8) 은 모수와 관측의 결합 분포에 대한 기댓값 진술이지, 특정 관측 조건부 진술이 아니다.


6 네 절의 구조적 통합

주제 핵심 메시지
§ 2.8 비정보적 사전 진정 비정보는 환상 — 매개변수화에 의존
§ 2.9 약정보적 사전 현대 베이즈의 실용적 중도
§ 2.10 참고문헌 Bayes·Laplace 에서 현대 약정보로
§ 2.11 연습문제 Ch.2 전체 기법 · 미묘한 함정 훈련

7 코드 예제 — Jeffreys 사전과 약정보적 사전 비교

7.1 Step 1: 이항에서 세 가지 사전의 사후 비교

import numpy as np
from scipy import stats

np.random.seed(0)

# 작은 표본: n=5, y=3
n, y = 5, 3

priors = [
    ("Laplace Beta(1, 1)",    1,   1),
    ("Jeffreys Beta(1/2, 1/2)", 0.5, 0.5),
    ("Haldane Beta(0, 0)*",    0.01, 0.01),  # 0, 0 은 improper 이므로 근사
    ("Weakly info Beta(2, 2)", 2,   2),
]

S = 10000
print(f"{'Prior':<30} {'Mean':<8} {'95% Interval':<20}")
for name, a, b in priors:
    post = stats.beta(a + y, b + n - y)
    mean = post.mean()
    lo, hi = post.ppf(0.025), post.ppf(0.975)
    print(f"{name:<30} {mean:.4f}  [{lo:.4f}, {hi:.4f}]")

예상 출력 — 작은 표본에서 사전에 따라 사후가 약간씩 다름. Jeffreys 가 Laplace 보다 약간 극단 방향으로 shift, Beta(2, 2) 가 0.5 쪽으로 더 shrunk.

7.2 Step 2: \(y = 0\) 극단에서 Haldane 의 위험

# y = 0, n = 10 극단
n, y = 10, 0

for name, a, b in priors:
    post = stats.beta(a + y, b + n - y)
    try:
        mean = post.mean()
        lo, hi = post.ppf(0.025), post.ppf(0.975)
        print(f"{name:<30} mean={mean:.4f}, 95% interval=[{lo:.4f}, {hi:.4f}]")
    except Exception as e:
        print(f"{name:<30} 계산 오류: {e}")

예상 관찰 — Haldane 에 가까운 Beta(0.01, 0.01) 사전은 사후가 0 으로 극단 수축. Improper 한계에서 사후가 부적절해짐.


8 관련 주제

Ch.2 의 다른 심화 포스트

Ch.1 심화 (선행)

Part I~V 전체

빈도주의 대응


9 참고자료

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.8~2.11).
  • Jeffreys, H. (1961). Theory of Probability (3rd ed.). Oxford University Press.
  • Kass, R. E., & Wasserman, L. (1996). The selection of prior distributions by formal rules. Journal of the American Statistical Association, 91(435), 1343–1370.
  • Gelman, A. (2006a). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis, 1(3), 515–534.
  • Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models. Annals of Applied Statistics, 2(4), 1360–1383.
  • Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis (2nd ed.). Springer.
  • Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Harvard University Press.

Subscribe

Enjoy this blog? Get notified of new posts by email: