Ch.2.1~2.4 — 이항 모델·사후 절충·요약·정보적 사전 심화

Gelman BDA Ch.2.1~2.4 상세 — 여아 출생·placenta previa 사례로 보는 베이즈 켤레 계산

Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.2 전반 네 절을 교재 원문 수준으로 심화한다. § 2.1 이항 모델의 교환가능성 유도·Bayes 당구대 논증·Laplace 의 1745-1770 파리 출생 데이터 (\(P(\theta \geq 0.5) \approx 10^{-42}\)) · 계승 법칙 \(\Pr(\tilde{y} = 1 \mid y) = (y+1)/(n+2)\), § 2.2 반복 기댓값/분산 공식으로 본 사후 분산 축소의 메커니즘, § 2.3 중앙 구간 vs HPD 의 구체적 차이·로짓 변환의 효과, § 2.4 Beta 켤레의 공식 정의·지수족-켤레 사전의 보편 구조· placenta previa 사례 (437/980) 의 민감도 분석 표까지 수식·직관·코드로 다룬다.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 20일

1 이 포스트의 위치 — Ch.2 심화의 첫 조각

Ch.2 개요 가 단일 모수 모델 전체 (§ 2.1~2.9) 를 훑는 포스트였다면, 이 포스트는 § 2.1~2.4 를 교재 원문 수준으로 풀어 쓴 심화편이다. 네 절이 함께 묶이는 이유는 이들이 모두 이항 모델과 Beta 사전 의 구체적 계산을 중심으로 구성되어 있기 때문 — 베이즈 추론 “문법 학습” 의 몸통에 해당한다.

§ 2.1~2.4 의 한 줄 요약

“이항-Beta 켤레 쌍 하나로 베이즈 규칙의 모든 측면 — 사후 계산·예측·요약·사전 선택의 민감도·지수족 일반화 — 를 체험한다.”

교재의 첫 Bayesian 사후 계산이 실제로 이루어지는 장이고, Placenta previa 사례 (437/980) 는 Ch.6 이후 모든 분석의 축소 모형. (Gelman et al., 2013, Ch.2.1~2.4)


2 § 2.1 이항 데이터로부터 확률 추정

2.1 모델 유도 — 교환가능성에서 iid 로

베르누이 시행 \(y_1, \ldots, y_n\), 각 \(y_i \in \{0, 1\}\). 어떻게 \(y\) 의 총 성공 수만으로 요약할 수 있는가? 교재의 논리.

“교환가능성 때문에 데이터는 \(n\) 번 시행의 성공 수 총합 \(y\) 로 요약될 수 있다. 교환가능한 시행에서 iid 확률변수 공식으로의 변환은 모수 \(\theta\) 가 모집단 성공 비율 (= 각 시행 성공 확률) 을 나타내도록 함으로써 자연스럽게 달성된다.” (교재 원문)

이것이 § 1.2 de Finetti 정리 의 구체적 응용 — “교환가능 → \(\theta\) 조건부 iid” 의 단일 모수 사례. 결과.

\[ p(y \mid \theta) = \binom{n}{y} \theta^y (1 - \theta)^{n - y} \tag{2.1} \]

\(n\) 은 실험 설계로 고정된 것으로 간주, 모든 확률은 \(n\) 조건부.

2.2 여아 출생 비율 — 사례 설정

관심 모수\(\theta\) = 출생아 중 여아 비율. 현재 공인값 (유럽 인구) 0.485. 대안 표현 — 남성/여성 출생률의 비 \(\phi = (1 - \theta) / \theta\).

가정 — \(n\) 명의 출생이 \(\theta\) 조건부 독립. 이 모델링 가정은 설명변수 없는 교환가능성 (다태 출산·같은 가족 내 출생 등 구분 없음) 에서 유도된다.

2.3 균등 사전 하의 사후

\(\theta \sim \text{Uniform}(0, 1) = \text{Beta}(1, 1)\).

\[ p(\theta \mid y) \propto \theta^y (1 - \theta)^{n - y} \tag{2.2} \]

\(\binom{n}{y}\)\(\theta\) 와 무관해 비례 상수로 흡수.

\[ \theta \mid y \sim \text{Beta}(y + 1, n - y + 1) \tag{2.3} \]

표본 크기에 따른 사후 모양. 교재 그림 2.1 — 같은 성공 비율 (\(y/n = 0.6\)) 이지만 \((n, y)\)\((5, 3), (20, 12), (100, 60), (1000, 600)\) 으로 증가하면 사후가 \(\theta = 0.6\) 주변에 점점 더 날카롭게 집중. 표본이 \(\sqrt{n}\) 에 비례해 축소 — Ch.4 점근 이론 의 씨앗.

2.4 Bayes 의 당구대 논증 (1763)

베이즈 정리의 최초 증명 은 물리적 유비로.

  1. 사전 — 당구공 \(W\) 를 테이블에 균등 분포로 던진다. 그 수평 위치를 \(\theta\) 로 읽는다 (테이블 너비의 분수)
  2. 가능도 — 공 \(O\)\(n\) 번 던져, \(W\) 오른쪽에 떨어진 횟수를 \(y\) 로 센다

이 구조에서 \(\theta \sim \text{Uniform}(0, 1)\), \(y \mid \theta \sim \text{Bin}(n, \theta)\).

Bayes 가 유도한 결과.

\[ \Pr(\theta \in (\theta_1, \theta_2) \mid y) = \frac{\int_{\theta_1}^{\theta_2} \binom{n}{y} \theta^y (1-\theta)^{n-y} \, d\theta}{p(y)} \tag{2.4} \]

분모를 Bayes 가 직접 적분 해 얻은 공식.

\[ p(y) = \int_0^1 \binom{n}{y} \theta^y (1-\theta)^{n-y} \, d\theta = \frac{1}{n + 1}, \quad y = 0, 1, \ldots, n \tag{2.5} \]

직관 — 사전 예측 분포의 균등성

\(p(y) = 1/(n+1)\)균등 사전 하에서 모든 성공 수 \(y \in \{0, 1, \ldots, n\}\) 이 사전적으로 동등 가능 하다는 의미. 이것이 균등 사전 Beta(1, 1) 의 관측 가능한 함의. Bayes 는 이 관측 가능 대칭성을 사전 선택의 정당화 근거로 제시했다.

Laplace 가 나중에 균등 사전을 썼을 때의 논리 (“불충분 이유 원리”) 와 대조된다 — Laplace 는 “아무것도 모르니 균등” 이라 했고, Bayes 는 “관측 가능 균등성이 얻어지니 균등” 이라 했다.

2.5 Laplace 의 파리 출생 통계 (1745-1770)

실제 첫 응용. Laplace 는 파리 출생 데이터 — 여아 241,945 명, 남아 251,527 명 (총 \(n = 493{,}472\)) — 을 분석.

\(\theta \sim \text{Uniform}(0, 1)\) 하에서 사후 Beta(\(241{,}946, 251{,}528\)). Laplace 가 정규 근사로 계산한 것.

\[ \Pr(\theta \geq 0.5 \mid y = 241{,}945, n = 493{,}472) \approx 1.15 \times 10^{-42} \]

“도덕적 확실성”\(\theta < 0.5\) 라는 결론이 실질적으로 확정적. 현대 통계 용어로 엄청나게 작은 \(p\)-값 과 등가지만, Laplace 의 수식은 사후 확률 진술 — 현재 베이즈 해석 그대로.

2.6 예측 — Laplace 의 계승 법칙

균등 사전 하의 사후 예측 분포. 다음 한 번의 시행 \(\tilde{y}\) 에 대한 성공 확률.

\[ \Pr(\tilde{y} = 1 \mid y) = \int_0^1 \theta \, p(\theta \mid y) \, d\theta = E(\theta \mid y) = \frac{y + 1}{n + 2} \tag{2.6} \]

이를 Laplace 의 계승 법칙 (rule of succession) 이라 부른다.

극단 값.

  • \(y = 0\) (모두 실패): \(\Pr(\tilde{y} = 1) = 1/(n+2)\)
  • \(y = n\) (모두 성공): \(\Pr(\tilde{y} = 1) = (n+1)/(n+2)\)
직관 — 계승 법칙이 빈도주의 MLE 보다 나은 지점

\(y = 0, n = 10\) 이면 MLE \(\hat{\theta} = 0\) 이지만 계승 법칙은 \(1/12\). 관측 전 가능성이 있던 사건이 한 번도 관측되지 않았다고 확률 0 으로 선언하는 것은 극단적 — 계승 법칙은 “한 번 관측 안 됐다고 영영 불가능은 아니다” 라는 합리적 신념을 수학화.

이 원리가 라플라스 평활 (Laplace smoothing), add-one smoothing 의 형태로 NLP · 기계학습에서 여전히 쓰인다.


3 § 2.2 사후는 사전과 데이터의 절충 — 반복 분산 공식의 핵심 응용

3.1 반복 기댓값/분산의 모수-데이터 버전

§ 1.8 의 식 (1.8)·(1.9) 에서 \((u, v) = (\theta, y)\) 를 대입.

\[ E(\theta) = E(E(\theta \mid y)) \tag{2.7} \]

\[ \text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y)) \tag{2.8} \]

3.2 식 (2.7) 의 해석 — “진부하지만 중요한 일관성”

“식 (2.7) 의 결과는 거의 놀랍지 않다 — \(\theta\) 의 사전 평균은 가능한 데이터의 분포에 대한 모든 가능한 사후 평균의 평균 이다.” (교재)

이것이 사전-사후의 일관성 조건 — 사전분포가 미래 데이터에 대한 예측과 정합적이어야 한다는 요구의 수식화.

3.3 식 (2.8) 의 해석 — 데이터의 정보량 정량화

식 (2.8) 이 더 흥미롭다.

\[ \underbrace{\text{var}(\theta)}_\text{사전 분산} = \underbrace{E(\text{var}(\theta \mid y))}_\text{평균 사후 분산} + \underbrace{\text{var}(E(\theta \mid y))}_\text{사후 평균의 변동} \]

두 번째 항 \(\text{var}(E(\theta \mid y))\) 이 핵심 — 가능한 데이터에 따라 사후 평균이 얼마나 변하는가. 이것이 “데이터의 정보량”.

  • 정보적 데이터 → 사후 평균이 크게 이동 → 두 번째 항 큼 → 평균 사후 분산 많이 감소
  • 비정보적 데이터 → 사후 평균 거의 고정 → 두 번째 항 작음 → 평균 사후 분산 사전과 비슷

3.4 특수한 주의

교재의 경고.

“평균과 분산 관계는 기댓값만 설명한다. 특정 상황에서 사후 분산이 사전 분산과 비슷하거나 심지어 더 클 수 있다 (단, 이는 표본 모델과 사전분포 간 충돌 또는 불일치의 표시 일 수 있다).”

사후 분산 > 사전 분산 — 관측이 오히려 불확실성을 늘린 경우. 이는 모델 문제의 진단 신호 다. 예 — 실제 모수 값이 사전이 낮은 확률을 부여한 영역에 있다면 데이터가 사전과 충돌.

3.5 이항 예제에서의 구체 확인

균등 사전 Beta(1, 1): 평균 \(1/2\), 분산 \(1/12 \approx 0.083\).

사후 Beta(\(y + 1, n - y + 1\)): 사후 평균 \((y+1)/(n+2)\).

사후 평균의 표현.

\[ \frac{y + 1}{n + 2} = \frac{n}{n + 2} \cdot \frac{y}{n} + \frac{2}{n + 2} \cdot \frac{1}{2} \]

표본 비율과 사전 평균의 가중 평균. 가중치 — 데이터 = \(n / (n+2)\), 사전 = \(2 / (n+2)\).

\(n \to \infty\) 이면 데이터 가중치 → 1, 사전 영향력 → 0. 작은 \(n\) 에서는 사전이 무거운 비중.

이것이 베이즈 추론의 일반적 속성.

“사후분포는 사전과 데이터의 타협점 주변에 중심을 두며, 타협은 표본이 커질수록 데이터가 더 지배하는 방향으로 제어된다.” (교재)


4 § 2.3 사후 추론 요약

4.1 이상은 전체 분포, 실무는 요약

사후분포 \(p(\theta \mid y)\)\(\theta\) 에 대한 모든 정보 를 담고 있다. 이상적으로는 밀도 그림·히스토그램으로 전체 분포를 제시.

“시뮬레이션으로 구현된 베이즈 접근의 핵심 장점은 복잡한 변환 후에도 사후 추론을 요약하는 유연성.” (교재)

그러나 실무에서는 수치 요약이 필요.

4.2 중심 측도 — 세 가지 선택

측도 정의 특성
평균 \(E(\theta \mid y)\) 사후 기댓값 제곱 손실 최적, 정규 근사와 궁합
중앙값 \(\Pr(\theta \leq m \mid y) = 1/2\) 절대값 손실 최적, 비대칭에 견고
최빈값 (mode) \(\arg\max_\theta p(\theta \mid y)\) “가장 가능성 높은 단일 값”, MLE 와 대응

교재가 지적하는 포인트.

“최빈값은 복잡한 문제의 계산 전략에서 중요 하다 — 평균이나 중앙값보다 계산이 종종 더 쉽기 때문. 반면 평균과 표준편차는 많은 실무 추론이 정규 근사 (종종 \(\theta\) 의 대칭화 변환을 통해 개선) 에 기대고 있어 핵심 역할을 한다.”

Beta 분포의 예.

\[ E(\theta \mid y) = \frac{y + 1}{n + 2}, \quad \text{mode}(\theta \mid y) = \frac{y}{n} \]

사후 최빈값 = MLE = 표본 비율. 균등 사전에서 Bayes 와 빈도주의가 점 추정 수준에서 일치.

4.3 산포 측도

측도 의미
표준편차 정규 근사의 기본
IQR 꼬리 두꺼운 분포에 견고
분위수 모양 정보까지 직접

4.4 사후 구간 — 중앙 구간

\(100(1 - \alpha)\%\) 중앙 사후 구간\(\alpha/2\) 분위수와 \(1 - \alpha/2\) 분위수 사이.

\[ \Pr(\theta < a \mid y) = \alpha/2, \quad \Pr(\theta > b \mid y) = \alpha/2 \]

Beta·Normal 같은 단순 모델은 누적분포함수 (CDF) 로 직접 계산 — 컴퓨터 함수 호출 한 번. 일반적으로는 사후 시뮬레이션의 순서 통계량 으로 추정 — § 1.9 의 핵심 메커니즘.

4.5 최고 사후 밀도 (HPD) 영역

또 다른 요약.

\(100(1 - \alpha)\%\) 확률을 포함하되, 영역 내 밀도가 외부보다 항상 높지 않은 값의 집합.”

단봉·대칭 분포에서는 중앙 구간과 HPD 가 일치.

4.6 교재 그림 2.2 — 중앙 구간과 HPD 가 극적으로 다른 경우

다봉 분포. 예 — 사후가 \(\theta = 0.2\)\(\theta = 0.8\) 근처에 두 모드, 중앙 \(\theta = 0.5\) 근처는 저밀도.

  • 95% 중앙 구간: 분위수 기반이므로 두 모드와 그 사이 저밀도 영역 전체 포함. 구간 내에 사후 확률이 거의 0 인 지점 포함
  • 95% HPD: 두 개의 분리된 구간 (각 모드 주변). 고밀도 영역만 수집

교재의 평가.

“HPD 영역이 중앙 구간보다 정보량이 많지만 더 번거롭다. 이런 상황에서는 어떤 단일 구간으로도 이 다봉 밀도를 요약하지 않는 것이 아마 더 낫다.”

단봉이지만 심하게 비대칭 인 경우에도 두 요약이 크게 다를 수 있다.

4.7 실무 선택 — 중앙 구간의 이점

  1. 분위수로 직접 해석 — “\(\alpha/2\), \(1 - \alpha/2\) 사이”
  2. 시뮬레이션 친화적\(S\) 개 표본의 해당 순서 통계량
  3. 단조 변환에 불변\(\theta \to \log \theta\) 에서 구간의 로그가 \(\log \theta\) 의 구간
직관 — 로짓 변환으로 정규 근사의 정확도 향상

\(\theta \in [0, 1]\) 의 정규 근사는 끝점 근처에서 부정확 — 음수·1 초과 값을 허용하는 정규가 경계를 무시. 로짓 변환 \(\phi = \log(\theta / (1 - \theta))\)\((0, 1)\)\((-\infty, \infty)\) 로 확장하여 정규 근사를 현실적으로 만든다.

이 트릭이 — 사후 표본을 로짓 변환 → 정규 구간 추정 → 역변환으로 원래 스케일로 → 비대칭 구간이 자연스럽게 생성. Placenta previa 예제에서 직접 활용된다.


5 § 2.4 정보적 사전분포

5.1 두 해석 — 모집단 vs 신념 상태

모집단 해석 (population interpretation) — 사전은 가능한 모수 값의 모집단을 나타내고, 현재 \(\theta\) 가 그 모집단에서 뽑힌 것.

예 — 여러 공장의 불량률을 모을 때 각 공장 \(\theta_j\) 를 공장 모집단의 표본.

주관적 신념 상태 해석 (subjective state-of-knowledge interpretation)\(\theta\) 에 대한 현재 지식과 불확실성을 표현. “만약 \(\theta\) 가 사전에서의 무작위 실현이라고 여길 수 있다면” 의 사고 실험.

예 — 새 산업 공정 불량률 — 실제 모집단 없음, 도메인 지식으로 합리적 사전 설정.

5.2 현실적 권고

“일반적으로 사전분포는 \(\theta\)모든 그럴듯한 값을 포함 해야 하지만, 실제 값 주변에 현실적으로 집중될 필요는 없다 — 대개 데이터가 담은 정보가 어떤 합리적 사전보다 훨씬 크기 때문.” (교재)

즉 사전 선택은 “정확히 맞히기” 보다 “가능한 영역을 빠뜨리지 않기” 가 우선. 잘못된 사전도 표본이 커지면 수정된다.

5.3 Beta 사전 — 켤레 가족

이항 가능도의 형태 \(\theta^a (1 - \theta)^b\). 사전도 같은 형태 면 사후도 같은 형태.

\[ p(\theta) \propto \theta^{\alpha - 1} (1 - \theta)^{\beta - 1} \quad \Leftrightarrow \quad \theta \sim \text{Beta}(\alpha, \beta) \]

하이퍼파라미터\(\alpha - 1\) 회 사전 성공, \(\beta - 1\) 회 사전 실패로 해석.

사후.

\[ \theta \mid y \sim \text{Beta}(\alpha + y, \beta + n - y) \]

사후 하이퍼파라미터 = 사전 + 데이터. 이것이 켤레성 (conjugacy) — 사후가 사전과 같은 매개변수화 가족에 속함.

5.4 켤레성의 형식적 정의

\(\mathcal{F}\) 가 표본 분포의 클래스 \(p(y \mid \theta)\), \(\mathcal{P}\) 가 사전분포의 클래스 라 하자. 모든 \(p(\cdot \mid \theta) \in \mathcal{F}\)\(p(\cdot) \in \mathcal{P}\) 에 대해 \(p(\theta \mid y) \in \mathcal{P}\) 이면 \(\mathcal{P}\)\(\mathcal{F}\) 의 켤레.” (교재)

교재는 이 정의가 형식적으로 모호 함을 지적 — \(\mathcal{P}\) 를 “모든 분포의 집합” 으로 잡으면 언제나 켤레. 실제로는 자연 켤레 가족 (natural conjugate family) — “가능도와 같은 함수 형태의 밀도 집합” — 을 쓴다.

5.5 켤레 사전의 이점

  1. 계산 용이 — 사후가 닫힌 형태, 수식으로 직접 계산
  2. 가상 데이터 해석 — Beta(\(\alpha, \beta\)) = “사전 성공 \(\alpha-1\), 실패 \(\beta-1\) 을 본 효과”
  3. 더 복잡한 모델의 빌딩 블록 — 다차원 · 계층에서 부분적으로 켤레 구조 활용

5.6 이항 사후의 일반 공식

\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} \]

이 값은 표본 비율 \(y/n\) 과 사전 평균 \(\alpha/(\alpha + \beta)\) 사이에 항상 위치.

사후 분산.

\[ \text{var}(\theta \mid y) = \frac{(\alpha + y)(\beta + n - y)}{(\alpha + \beta + n)^2 (\alpha + \beta + n + 1)} = \frac{E(\theta \mid y)[1 - E(\theta \mid y)]}{\alpha + \beta + n + 1} \]

\(y, n - y \to \infty\) 이면 — 사후 평균 \(\to y/n\), 사후 분산 \(\to \frac{1}{n} \frac{y}{n}(1 - \frac{y}{n})\). \(1/n\) 비율로 수렴 — CLT 와 일치.

5.7 정규 근사

교재의 Ch.4 을 예고 하는 일반 결과.

\[ \left.\frac{\theta - E(\theta \mid y)}{\sqrt{\text{var}(\theta \mid y)}} \, \right| y \to N(0, 1) \]

사후분포가 점근적으로 정규 — Ch.4 Bayesian CLT.

이항의 경우 로짓 스케일에서의 정규 근사가 더 정확. \(\theta\) 가 0 이나 1 에 가까울 때 특히 유의미.

5.8 지수족과 켤레성

Ch.2 가 소개하는 일반 결과 — 지수족 가능도에는 자연 켤레 사전이 존재.

지수족 표준형.

\[ p(y_i \mid \theta) = f(y_i) \, g(\theta) \, e^{\phi(\theta)^\top u(y_i)} \]

\(\phi(\theta)\) — 자연 모수, \(u(y_i)\) — 자연 통계량.

\(n\) 개 iid 관측의 가능도.

\[ p(y \mid \theta) \propto g(\theta)^n \, e^{\phi(\theta)^\top t(y)}, \quad t(y) = \sum_i u(y_i) \]

\(t(y)\)\(\theta\) 에 대한 충분통계량 (가능도가 \(t(y)\) 만 통해 데이터에 의존).

자연 켤레 사전.

\[ p(\theta) \propto g(\theta)^\eta \, e^{\phi(\theta)^\top \nu} \]

사후.

\[ p(\theta \mid y) \propto g(\theta)^{\eta + n} \, e^{\phi(\theta)^\top (\nu + t(y))} \]

사후 = 사전 하이퍼파라미터에 \((n, t(y))\) 를 더한 것. 이항·정규·Poisson·지수 모두 이 구조 — GLM 이론 의 기저.

교재가 남긴 연습 — 이항이 지수족이고 자연 모수가 \(\text{logit}(\theta)\) 임을 보이는 것. 로짓 변환이 “자연스러운” 이유의 수학적 배경.

5.9 비켤레 사전

“켤레 사전의 기본 정당화는 표준 모델 (이항·정규 등) 을 쓰는 것과 비슷 — 결과가 이해하기 쉽고, 종종 해석적 형태로 표현할 수 있고, 흔히 좋은 근사이며 계산을 단순화.” (교재)

그러나 현실 모델에서 켤레가 불가능할 때가 많다.

  • 다차원 모수에서 모든 성분에 대해 동시 켤레는 대개 불가능
  • 계층 모형에서도 부분적으로만 켤레
  • 복잡한 모델은 MCMC 로 해결 (Part III)

비켤레는 개념적 문제가 아니다 — 단지 닫힌 형태가 없을 뿐.


6 § 2.4 Placenta Previa 사례 — Ch.2 의 정수

6.1 문제 설정

Placenta previa — 태반이 자궁 하부에 이식되어 정상 질식 분만을 막는 임신 합병증. 질문 — “Placenta previa 출생의 여아 비율 \(\theta\) 가 일반 인구의 0.485 보다 작은가?”

데이터 — 독일의 초기 연구에서 총 980 회 출생 중 여아 437 명.

6.2 균등 사전 분석

\(\theta \sim \text{Uniform}(0, 1) = \text{Beta}(1, 1)\) 하.

사후.

\[ \theta \mid y \sim \text{Beta}(438, 544) \]

닫힌 형태에서 직접 계산.

요약량
사후 평균 0.446
사후 표준편차 0.016
사후 중앙값 0.446
중앙 95% 구간 [0.415, 0.477]

이 95% 구간이 정규 근사 구간과 소수점 셋째 자리까지 일치\(n = 980\) 이 크고 \(\theta\) 가 0 이나 1 에서 멀기 때문.

6.3 결론

사후 95% 구간 [0.415, 0.477] 가 0.485 를 포함하지 않는다. 즉 placenta previa 집단의 여아 비율이 일반 인구 (0.485) 보다 낮다는 강한 증거.

성비로 재표현. \(\phi = (1 - \theta) / \theta\) (남/여 비).

\[ \text{사후 중앙값 } \phi = 1.24, \quad \text{95\% 구간} = [1.10, 1.41] \]

일반 유럽 인구의 성비 1.06 에서 크게 벗어남 → placenta previa 에서 남아 비율이 현저히 증가.

6.4 민감도 분석 — 교재 표 2.1

Beta(\(\alpha, \beta\)) 사전을 여러 선택으로 바꾸며 사후를 비교.

사전 평균 \(\alpha/(\alpha+\beta)\) \(\alpha + \beta\) (사전 표본) 사후 중앙값 \(\theta\) 95% 사후 구간
0.500 2 0.446 [0.415, 0.477]
0.485 2 0.446 [0.415, 0.477]
0.485 5 0.446 [0.415, 0.477]
0.485 10 0.446 [0.415, 0.477]
0.485 20 0.447 [0.416, 0.478]
0.485 100 0.450 [0.420, 0.479]
0.485 200 0.453 [0.424, 0.481]

관찰.

  • 사전 표본 크기 \(\alpha + \beta \leq 20\) 에서는 사후가 거의 동일
  • \(\alpha + \beta = 100, 200\) 에서 사후가 0.485 쪽으로 약간 이동
  • 모든 사전에서 95% 구간이 0.485 를 제외 — 결론의 강건성
직관 — 큰 표본에서 사전 민감도가 왜 작은가

데이터 표본 \(n = 980\) 이 사전 표본 \(\alpha + \beta\) 보다 훨씬 크면 사후 평균 공식 \((\alpha + y)/(\alpha + \beta + n)\) 에서 데이터 기여가 지배. \(\alpha + \beta = 100\) 이어도 여전히 데이터가 10 배 무겁다.

실무 규칙 — 결론의 민감도가 사전 표본 크기 \(\alpha + \beta\) 와 데이터 표본 \(n\) 의 비율에 달려 있다. Placenta previa 의 경우 \(n = 980 \gg \alpha + \beta\) 이므로 결론이 강건.

6.5 비켤레 사전 — 격자 근사

사전 — 0.485 중심의 조각적 선형 (piecewise linear) 밀도. 40% 의 확률 질량이 [0.385, 0.585] 밖. 평균 0.493, 표준편차 0.21.

계산. 격자 \(\theta = 0.000, 0.001, \ldots, 1.000\) 에서.

  1. 사전 밀도 \(p(\theta)\) 를 각 격자점에서 평가
  2. 가능도 \(p(y \mid \theta) = \theta^{437}(1-\theta)^{543}\) 를 평가
  3. 곱 = 비정규화 사후
  4. 격자에서 정규화 후 재표본추출

결과. 사후 중앙값 0.448, 95% 구간 [0.419, 0.480] — 켤레 분석과 거의 일치.

교훈 — 데이터가 지배적일 때는 사전의 함수 형태보다 대략적 위치와 표본 크기가 중요.

직관 — 격자 계산은 저차원 베이즈의 만능 도구

§ 1.9 에서 소개된 격자 계산이 여기서 실전 적용. 비켤레 사전이라도 \(\theta\) 가 일차원이면 격자 수천 개로 충분 — 정규화 → 재표본추출 → 사후 요약. 차원이 낮으면 MCMC 가 필요 없다.

문제는 차원 저주\(\theta\)\(k\)-차원이면 격자 점 수가 \((n_\text{grid})^k\) 로 폭발. 고차원은 Part III 의 MCMC 로만 다룰 수 있다.


7 네 절의 구조적 연결

도입 개념 다음 절과의 연결
§ 2.1 이항 모델·Beta 켤레·Laplace 계승 법칙 2.4 의 일반 Beta 사전
§ 2.2 사후 = 사전·데이터 절충, 반복 분산 2.5 정규 정밀도 가산으로 확장
§ 2.3 중앙/HPD 구간, 로짓 변환 2.4 placenta previa 에서 사용
§ 2.4 켤레성의 형식 정의·지수족 Ch.3 다모수 켤레로 확장

Ch.2.1~2.4 를 이해하면 Ch.2.5~2.9 의 정규·Poisson·지수·비정보적·약정보적 사전이 같은 패턴의 변주 로 보인다.


8 빈도주의 대응 — Ch.1·Ch.2 의 두 번째 대조

질문 빈도주의 베이즈 (§ 2.1~2.4)
이항 점 추정 \(\hat{\theta} = y/n\) (MLE) 사후 평균 \((y+1)/(n+2)\) 또는 \(y/n\) (모드)
신뢰 구간 Wald: \(\hat{\theta} \pm 1.96 \sqrt{\hat{\theta}(1-\hat{\theta})/n}\) Beta 사후의 2.5·97.5 분위수
작은 표본 조정 Wilson, Agresti-Coull Beta(1, 1), Beta(1/2, 1/2) 사전
다음 관측 예측 \(\Pr(\tilde{y}=1) = \hat{\theta}\) Laplace 계승 법칙 \((y+1)/(n+2)\)
\(y = 0\) 극단값 \(\hat{\theta} = 0\), 구간 계산 곤란 \((\alpha + 0)/(\alpha + \beta + n) > 0\), 구간 정상

빈도주의의 작은 표본 트릭 이 베이즈의 약한 사전과 수학적으로 동치 인 경우가 많다. 해석만 다르다.


9 코드 예제 — Placenta Previa 분석 완전 재현

9.1 Step 1: 순수 Python — 켤레 Beta 분석 + 로짓 변환

import math
import random

random.seed(42)

# 데이터
y, n = 437, 980

# 균등 사전 Beta(1, 1) 하의 사후
alpha_post = 1 + y
beta_post = 1 + (n - y)

# 사후 평균, 모드, 분산
mean_post = alpha_post / (alpha_post + beta_post)
mode_post = (alpha_post - 1) / (alpha_post + beta_post - 2)
var_post = (alpha_post * beta_post) / (((alpha_post + beta_post) ** 2) * (alpha_post + beta_post + 1))
sd_post = math.sqrt(var_post)

print(f"Beta({alpha_post}, {beta_post}) 사후")
print(f"  평균 = {mean_post:.4f}")
print(f"  모드 = {mode_post:.4f}")
print(f"  표준편차 = {sd_post:.4f}")

# Beta 표본 생성 (gamma 비율)
def sample_beta(a, b):
    x = random.gammavariate(a, 1)
    y = random.gammavariate(b, 1)
    return x / (x + y)

S = 5000
theta_samples = [sample_beta(alpha_post, beta_post) for _ in range(S)]
theta_sorted = sorted(theta_samples)

# 95% 중앙 구간
lo, hi = theta_sorted[int(0.025 * S)], theta_sorted[int(0.975 * S)]
print(f"  95% 중앙 구간 = [{lo:.4f}, {hi:.4f}]")

# 사후 확률 Pr(theta >= 0.485 | y)
p_ge_485 = sum(1 for t in theta_samples if t >= 0.485) / S
print(f"  Pr(θ ≥ 0.485 | y) = {p_ge_485:.4f}")

# 성비
sex_ratios = [(1 - t) / t for t in theta_samples]
sex_ratios.sort()
sr_lo, sr_hi = sex_ratios[int(0.025 * S)], sex_ratios[int(0.975 * S)]
print(f"  성비 (M/F) 95% 구간 = [{sr_lo:.4f}, {sr_hi:.4f}]")

예상 출력 — 사후 평균 0.446, 95% 구간 ≈ [0.415, 0.477]. Pr(θ ≥ 0.485 | y) 는 0 에 가까움 — 결론의 강도 확인.

9.2 Step 2: NumPy/scipy — 민감도 분석 표 재현

import numpy as np
from scipy import stats

y, n = 437, 980

priors = [
    ("Beta(1, 1) 균등",    1, 1),
    ("Beta(0.5, 0.5) Jeffreys", 0.5, 0.5),
    ("Beta(1, 1.06) 평균 0.485, α+β=2",    0.97,    1.03),
    ("Beta(2.425, 2.575) 평균 0.485, α+β=5", 2.425,  2.575),
    ("Beta(9.7, 10.3) 평균 0.485, α+β=20",   9.70,   10.30),
    ("Beta(48.5, 51.5) 평균 0.485, α+β=100", 48.5,   51.5),
    ("Beta(97, 103) 평균 0.485, α+β=200",    97.0,   103.0),
]

print(f"{'Prior':<45} {'Median':<10} {'95% Interval':<20}")
for name, a, b in priors:
    a_post = a + y
    b_post = b + n - y
    post = stats.beta(a_post, b_post)
    median = post.median()
    lo, hi = post.ppf(0.025), post.ppf(0.975)
    print(f"{name:<45} {median:.4f}     [{lo:.4f}, {hi:.4f}]")

예상 출력 — 사전 표본 크기가 20 이하이면 사후가 거의 동일, 100·200 에서 약간 이동. 모든 사전에서 95% 구간이 0.485 를 제외 — 교재 표 2.1 의 재현.


10 관련 주제

Ch.2 의 다른 절 (후속)

  • Ch.2 Single-Parameter Models 개요 — § 2.1~2.9 훑기
  • § 2.5 Normal distribution with known variance (작성 예정)
  • § 2.6~2.9 Poisson·지수·비정보적·약정보적 사전 (작성 예정)

Ch.1 심화 (선행)

Part I~V 전체

빈도주의 대응


11 참고자료

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.1~2.4).
  • Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society, 53, 370–418.
  • Laplace, P. S. (1814). Essai philosophique sur les probabilités. Paris: Courcier.
  • Ericson, W. A. (1969). Subjective Bayesian models in sampling finite populations. Journal of the Royal Statistical Society. Series B, 31(2), 195–233.
  • Winkler, R. L. (1967). The assessment of prior distributions in Bayesian analysis. Journal of the American Statistical Association, 62(319), 776–800.

Subscribe

Enjoy this blog? Get notified of new posts by email: