Kwangmin Kim - Ch.2.1~2.4 — 이항 모델·사후 절충·요약·정보적 사전 심화

1 이 포스트의 위치 — Ch.2 심화의 첫 조각

Ch.2 개요 가 단일 모수 모델 전체 (§ 2.1~2.9) 를 훑는 포스트였다면, 이 포스트는 § 2.1~2.4 를 교재 원문 수준으로 풀어 쓴 심화편이다. 네 절이 함께 묶이는 이유는 이들이 모두 이항 모델과 Beta 사전 의 구체적 계산을 중심으로 구성되어 있기 때문 — 베이즈 추론 “문법 학습” 의 몸통에 해당한다.

§ 2.1~2.4 의 한 줄 요약

“이항-Beta 켤레 쌍 하나로 베이즈 규칙의 모든 측면 — 사후 계산·예측·요약·사전 선택의 민감도·지수족 일반화 — 를 체험한다.”

교재의 첫 Bayesian 사후 계산이 실제로 이루어지는 장이고, Placenta previa 사례 (437/980) 는 Ch.6 이후 모든 분석의 축소 모형. (Gelman et al., 2013, Ch.2.1~2.4)

2 § 2.1 이항 데이터로부터 확률 추정

2.1 모델 유도 — 교환가능성에서 iid 로

베르누이 시행 \(y_1, \ldots, y_n\), 각 \(y_i \in \{0, 1\}\). 어떻게 \(y\) 의 총 성공 수만으로 요약할 수 있는가? 교재의 논리.

“교환가능성 때문에 데이터는 \(n\) 번 시행의 성공 수 총합 \(y\) 로 요약될 수 있다. 교환가능한 시행에서 iid 확률변수 공식으로의 변환은 모수 \(\theta\) 가 모집단 성공 비율 (= 각 시행 성공 확률) 을 나타내도록 함으로써 자연스럽게 달성된다.” (교재 원문)

이것이 § 1.2 de Finetti 정리 의 구체적 응용 — “교환가능 → \(\theta\) 조건부 iid” 의 단일 모수 사례. 결과.

\[ p(y \mid \theta) = \binom{n}{y} \theta^y (1 - \theta)^{n - y} \tag{2.1} \]

\(n\) 은 실험 설계로 고정된 것으로 간주, 모든 확률은 \(n\) 조건부.

2.2 여아 출생 비율 — 사례 설정

관심 모수 — \(\theta\) = 출생아 중 여아 비율. 현재 공인값 (유럽 인구) 0.485. 대안 표현 — 남성/여성 출생률의 비 \(\phi = (1 - \theta) / \theta\).

가정 — \(n\) 명의 출생이 \(\theta\) 조건부 독립. 이 모델링 가정은 설명변수 없는 교환가능성 (다태 출산·같은 가족 내 출생 등 구분 없음) 에서 유도된다.

2.3 균등 사전 하의 사후

\(\theta \sim \text{Uniform}(0, 1) = \text{Beta}(1, 1)\).

\[ p(\theta \mid y) \propto \theta^y (1 - \theta)^{n - y} \tag{2.2} \]

\(\binom{n}{y}\) 는 \(\theta\) 와 무관해 비례 상수로 흡수.

\[ \theta \mid y \sim \text{Beta}(y + 1, n - y + 1) \tag{2.3} \]

표본 크기에 따른 사후 모양. 교재 그림 2.1 — 같은 성공 비율 (\(y/n = 0.6\)) 이지만 \((n, y)\) 가 \((5, 3), (20, 12), (100, 60), (1000, 600)\) 으로 증가하면 사후가 \(\theta = 0.6\) 주변에 점점 더 날카롭게 집중. 표본이 \(\sqrt{n}\) 에 비례해 축소 — Ch.4 점근 이론 의 씨앗.

2.4 Bayes 의 당구대 논증 (1763)

베이즈 정리의 최초 증명 은 물리적 유비로.

사전 — 당구공 \(W\) 를 테이블에 균등 분포로 던진다. 그 수평 위치를 \(\theta\) 로 읽는다 (테이블 너비의 분수)
가능도 — 공 \(O\) 를 \(n\) 번 던져, \(W\) 오른쪽에 떨어진 횟수를 \(y\) 로 센다

이 구조에서 \(\theta \sim \text{Uniform}(0, 1)\), \(y \mid \theta \sim \text{Bin}(n, \theta)\).

Bayes 가 유도한 결과.

\[ \Pr(\theta \in (\theta_1, \theta_2) \mid y) = \frac{\int_{\theta_1}^{\theta_2} \binom{n}{y} \theta^y (1-\theta)^{n-y} \, d\theta}{p(y)} \tag{2.4} \]

분모를 Bayes 가 직접 적분 해 얻은 공식.

\[ p(y) = \int_0^1 \binom{n}{y} \theta^y (1-\theta)^{n-y} \, d\theta = \frac{1}{n + 1}, \quad y = 0, 1, \ldots, n \tag{2.5} \]

직관 — 사전 예측 분포의 균등성

\(p(y) = 1/(n+1)\) 은 균등 사전 하에서 모든 성공 수 \(y \in \{0, 1, \ldots, n\}\) 이 사전적으로 동등 가능 하다는 의미. 이것이 균등 사전 Beta(1, 1) 의 관측 가능한 함의. Bayes 는 이 관측 가능 대칭성을 사전 선택의 정당화 근거로 제시했다.

Laplace 가 나중에 균등 사전을 썼을 때의 논리 (“불충분 이유 원리”) 와 대조된다 — Laplace 는 “아무것도 모르니 균등” 이라 했고, Bayes 는 “관측 가능 균등성이 얻어지니 균등” 이라 했다.

2.5 Laplace 의 파리 출생 통계 (1745-1770)

실제 첫 응용. Laplace 는 파리 출생 데이터 — 여아 241,945 명, 남아 251,527 명 (총 \(n = 493{,}472\)) — 을 분석.

\(\theta \sim \text{Uniform}(0, 1)\) 하에서 사후 Beta(\(241{,}946, 251{,}528\)). Laplace 가 정규 근사로 계산한 것.

\[ \Pr(\theta \geq 0.5 \mid y = 241{,}945, n = 493{,}472) \approx 1.15 \times 10^{-42} \]

“도덕적 확실성” — \(\theta < 0.5\) 라는 결론이 실질적으로 확정적. 현대 통계 용어로 엄청나게 작은 \(p\)-값 과 등가지만, Laplace 의 수식은 사후 확률 진술 — 현재 베이즈 해석 그대로.

2.6 예측 — Laplace 의 계승 법칙

균등 사전 하의 사후 예측 분포. 다음 한 번의 시행 \(\tilde{y}\) 에 대한 성공 확률.

\[ \Pr(\tilde{y} = 1 \mid y) = \int_0^1 \theta \, p(\theta \mid y) \, d\theta = E(\theta \mid y) = \frac{y + 1}{n + 2} \tag{2.6} \]

이를 Laplace 의 계승 법칙 (rule of succession) 이라 부른다.

극단 값.

\(y = 0\) (모두 실패): \(\Pr(\tilde{y} = 1) = 1/(n+2)\)
\(y = n\) (모두 성공): \(\Pr(\tilde{y} = 1) = (n+1)/(n+2)\)

직관 — 계승 법칙이 빈도주의 MLE 보다 나은 지점

\(y = 0, n = 10\) 이면 MLE \(\hat{\theta} = 0\) 이지만 계승 법칙은 \(1/12\). 관측 전 가능성이 있던 사건이 한 번도 관측되지 않았다고 확률 0 으로 선언하는 것은 극단적 — 계승 법칙은 “한 번 관측 안 됐다고 영영 불가능은 아니다” 라는 합리적 신념을 수학화.

이 원리가 라플라스 평활 (Laplace smoothing), add-one smoothing 의 형태로 NLP · 기계학습에서 여전히 쓰인다.

3 § 2.2 사후는 사전과 데이터의 절충 — 반복 분산 공식의 핵심 응용

3.1 반복 기댓값/분산의 모수-데이터 버전

§ 1.8 의 식 (1.8)·(1.9) 에서 \((u, v) = (\theta, y)\) 를 대입.

\[ E(\theta) = E(E(\theta \mid y)) \tag{2.7} \]

\[ \text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y)) \tag{2.8} \]

3.2 식 (2.7) 의 해석 — “진부하지만 중요한 일관성”

“식 (2.7) 의 결과는 거의 놀랍지 않다 — \(\theta\) 의 사전 평균은 가능한 데이터의 분포에 대한 모든 가능한 사후 평균의 평균 이다.” (교재)

이것이 사전-사후의 일관성 조건 — 사전분포가 미래 데이터에 대한 예측과 정합적이어야 한다는 요구의 수식화.

3.3 식 (2.8) 의 해석 — 데이터의 정보량 정량화

식 (2.8) 이 더 흥미롭다.

\[ \underbrace{\text{var}(\theta)}_\text{사전 분산} = \underbrace{E(\text{var}(\theta \mid y))}_\text{평균 사후 분산} + \underbrace{\text{var}(E(\theta \mid y))}_\text{사후 평균의 변동} \]

두 번째 항 \(\text{var}(E(\theta \mid y))\) 이 핵심 — 가능한 데이터에 따라 사후 평균이 얼마나 변하는가. 이것이 “데이터의 정보량”.

정보적 데이터 → 사후 평균이 크게 이동 → 두 번째 항 큼 → 평균 사후 분산 많이 감소
비정보적 데이터 → 사후 평균 거의 고정 → 두 번째 항 작음 → 평균 사후 분산 사전과 비슷

3.4 특수한 주의

교재의 경고.

“평균과 분산 관계는 기댓값만 설명한다. 특정 상황에서 사후 분산이 사전 분산과 비슷하거나 심지어 더 클 수 있다 (단, 이는 표본 모델과 사전분포 간 충돌 또는 불일치의 표시 일 수 있다).”

사후 분산 > 사전 분산 — 관측이 오히려 불확실성을 늘린 경우. 이는 모델 문제의 진단 신호 다. 예 — 실제 모수 값이 사전이 낮은 확률을 부여한 영역에 있다면 데이터가 사전과 충돌.

3.5 이항 예제에서의 구체 확인

균등 사전 Beta(1, 1): 평균 \(1/2\), 분산 \(1/12 \approx 0.083\).

사후 Beta(\(y + 1, n - y + 1\)): 사후 평균 \((y+1)/(n+2)\).

사후 평균의 표현.

\[ \frac{y + 1}{n + 2} = \frac{n}{n + 2} \cdot \frac{y}{n} + \frac{2}{n + 2} \cdot \frac{1}{2} \]

표본 비율과 사전 평균의 가중 평균. 가중치 — 데이터 = \(n / (n+2)\), 사전 = \(2 / (n+2)\).

\(n \to \infty\) 이면 데이터 가중치 → 1, 사전 영향력 → 0. 작은 \(n\) 에서는 사전이 무거운 비중.

이것이 베이즈 추론의 일반적 속성.

“사후분포는 사전과 데이터의 타협점 주변에 중심을 두며, 타협은 표본이 커질수록 데이터가 더 지배하는 방향으로 제어된다.” (교재)

4 § 2.3 사후 추론 요약

4.1 이상은 전체 분포, 실무는 요약

사후분포 \(p(\theta \mid y)\) 가 \(\theta\) 에 대한 모든 정보 를 담고 있다. 이상적으로는 밀도 그림·히스토그램으로 전체 분포를 제시.

“시뮬레이션으로 구현된 베이즈 접근의 핵심 장점은 복잡한 변환 후에도 사후 추론을 요약하는 유연성.” (교재)

그러나 실무에서는 수치 요약이 필요.

4.2 중심 측도 — 세 가지 선택

측도	정의	특성
평균 \(E(\theta \mid y)\)	사후 기댓값	제곱 손실 최적, 정규 근사와 궁합
중앙값	\(\Pr(\theta \leq m \mid y) = 1/2\)	절대값 손실 최적, 비대칭에 견고
최빈값 (mode)	\(\arg\max_\theta p(\theta \mid y)\)	“가장 가능성 높은 단일 값”, MLE 와 대응

교재가 지적하는 포인트.

“최빈값은 복잡한 문제의 계산 전략에서 중요 하다 — 평균이나 중앙값보다 계산이 종종 더 쉽기 때문. 반면 평균과 표준편차는 많은 실무 추론이 정규 근사 (종종 \(\theta\) 의 대칭화 변환을 통해 개선) 에 기대고 있어 핵심 역할을 한다.”

Beta 분포의 예.

\[ E(\theta \mid y) = \frac{y + 1}{n + 2}, \quad \text{mode}(\theta \mid y) = \frac{y}{n} \]

사후 최빈값 = MLE = 표본 비율. 균등 사전에서 Bayes 와 빈도주의가 점 추정 수준에서 일치.

4.3 산포 측도

측도	의미
표준편차	정규 근사의 기본
IQR	꼬리 두꺼운 분포에 견고
분위수	모양 정보까지 직접

4.4 사후 구간 — 중앙 구간

\(100(1 - \alpha)\%\) 중앙 사후 구간 — \(\alpha/2\) 분위수와 \(1 - \alpha/2\) 분위수 사이.

\[ \Pr(\theta < a \mid y) = \alpha/2, \quad \Pr(\theta > b \mid y) = \alpha/2 \]

Beta·Normal 같은 단순 모델은 누적분포함수 (CDF) 로 직접 계산 — 컴퓨터 함수 호출 한 번. 일반적으로는 사후 시뮬레이션의 순서 통계량 으로 추정 — § 1.9 의 핵심 메커니즘.

4.5 최고 사후 밀도 (HPD) 영역

또 다른 요약.

“\(100(1 - \alpha)\%\) 확률을 포함하되, 영역 내 밀도가 외부보다 항상 높지 않은 값의 집합.”

단봉·대칭 분포에서는 중앙 구간과 HPD 가 일치.

4.6 교재 그림 2.2 — 중앙 구간과 HPD 가 극적으로 다른 경우

다봉 분포. 예 — 사후가 \(\theta = 0.2\) 와 \(\theta = 0.8\) 근처에 두 모드, 중앙 \(\theta = 0.5\) 근처는 저밀도.

95% 중앙 구간: 분위수 기반이므로 두 모드와 그 사이 저밀도 영역 전체 포함. 구간 내에 사후 확률이 거의 0 인 지점 포함
95% HPD: 두 개의 분리된 구간 (각 모드 주변). 고밀도 영역만 수집

교재의 평가.

“HPD 영역이 중앙 구간보다 정보량이 많지만 더 번거롭다. 이런 상황에서는 어떤 단일 구간으로도 이 다봉 밀도를 요약하지 않는 것이 아마 더 낫다.”

단봉이지만 심하게 비대칭 인 경우에도 두 요약이 크게 다를 수 있다.

4.7 실무 선택 — 중앙 구간의 이점

분위수로 직접 해석 — “\(\alpha/2\), \(1 - \alpha/2\) 사이”
시뮬레이션 친화적 — \(S\) 개 표본의 해당 순서 통계량
단조 변환에 불변 — \(\theta \to \log \theta\) 에서 구간의 로그가 \(\log \theta\) 의 구간

직관 — 로짓 변환으로 정규 근사의 정확도 향상

\(\theta \in [0, 1]\) 의 정규 근사는 끝점 근처에서 부정확 — 음수·1 초과 값을 허용하는 정규가 경계를 무시. 로짓 변환 \(\phi = \log(\theta / (1 - \theta))\) 은 \((0, 1)\) 을 \((-\infty, \infty)\) 로 확장하여 정규 근사를 현실적으로 만든다.

이 트릭이 — 사후 표본을 로짓 변환 → 정규 구간 추정 → 역변환으로 원래 스케일로 → 비대칭 구간이 자연스럽게 생성. Placenta previa 예제에서 직접 활용된다.

5 § 2.4 정보적 사전분포

5.1 두 해석 — 모집단 vs 신념 상태

모집단 해석 (population interpretation) — 사전은 가능한 모수 값의 모집단을 나타내고, 현재 \(\theta\) 가 그 모집단에서 뽑힌 것.

예 — 여러 공장의 불량률을 모을 때 각 공장 \(\theta_j\) 를 공장 모집단의 표본.

주관적 신념 상태 해석 (subjective state-of-knowledge interpretation) — \(\theta\) 에 대한 현재 지식과 불확실성을 표현. “만약 \(\theta\) 가 사전에서의 무작위 실현이라고 여길 수 있다면” 의 사고 실험.

예 — 새 산업 공정 불량률 — 실제 모집단 없음, 도메인 지식으로 합리적 사전 설정.

5.2 현실적 권고

“일반적으로 사전분포는 \(\theta\) 의 모든 그럴듯한 값을 포함 해야 하지만, 실제 값 주변에 현실적으로 집중될 필요는 없다 — 대개 데이터가 담은 정보가 어떤 합리적 사전보다 훨씬 크기 때문.” (교재)

즉 사전 선택은 “정확히 맞히기” 보다 “가능한 영역을 빠뜨리지 않기” 가 우선. 잘못된 사전도 표본이 커지면 수정된다.

5.3 Beta 사전 — 켤레 가족

이항 가능도의 형태 \(\theta^a (1 - \theta)^b\). 사전도 같은 형태 면 사후도 같은 형태.

\[ p(\theta) \propto \theta^{\alpha - 1} (1 - \theta)^{\beta - 1} \quad \Leftrightarrow \quad \theta \sim \text{Beta}(\alpha, \beta) \]

하이퍼파라미터 — \(\alpha - 1\) 회 사전 성공, \(\beta - 1\) 회 사전 실패로 해석.

사후.

\[ \theta \mid y \sim \text{Beta}(\alpha + y, \beta + n - y) \]

사후 하이퍼파라미터 = 사전 + 데이터. 이것이 켤레성 (conjugacy) — 사후가 사전과 같은 매개변수화 가족에 속함.

5.4 켤레성의 형식적 정의

“\(\mathcal{F}\) 가 표본 분포의 클래스 \(p(y \mid \theta)\), \(\mathcal{P}\) 가 사전분포의 클래스 라 하자. 모든 \(p(\cdot \mid \theta) \in \mathcal{F}\) 와 \(p(\cdot) \in \mathcal{P}\) 에 대해 \(p(\theta \mid y) \in \mathcal{P}\) 이면 \(\mathcal{P}\) 는 \(\mathcal{F}\) 의 켤레.” (교재)

교재는 이 정의가 형식적으로 모호 함을 지적 — \(\mathcal{P}\) 를 “모든 분포의 집합” 으로 잡으면 언제나 켤레. 실제로는 자연 켤레 가족 (natural conjugate family) — “가능도와 같은 함수 형태의 밀도 집합” — 을 쓴다.

5.5 켤레 사전의 이점

계산 용이 — 사후가 닫힌 형태, 수식으로 직접 계산
가상 데이터 해석 — Beta(\(\alpha, \beta\)) = “사전 성공 \(\alpha-1\), 실패 \(\beta-1\) 을 본 효과”
더 복잡한 모델의 빌딩 블록 — 다차원 · 계층에서 부분적으로 켤레 구조 활용

5.6 이항 사후의 일반 공식

\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} \]

이 값은 표본 비율 \(y/n\) 과 사전 평균 \(\alpha/(\alpha + \beta)\) 사이에 항상 위치.

사후 분산.

\[ \text{var}(\theta \mid y) = \frac{(\alpha + y)(\beta + n - y)}{(\alpha + \beta + n)^2 (\alpha + \beta + n + 1)} = \frac{E(\theta \mid y)[1 - E(\theta \mid y)]}{\alpha + \beta + n + 1} \]

\(y, n - y \to \infty\) 이면 — 사후 평균 \(\to y/n\), 사후 분산 \(\to \frac{1}{n} \frac{y}{n}(1 - \frac{y}{n})\). \(1/n\) 비율로 수렴 — CLT 와 일치.

5.7 정규 근사

교재의 Ch.4 을 예고 하는 일반 결과.

\[ \left.\frac{\theta - E(\theta \mid y)}{\sqrt{\text{var}(\theta \mid y)}} \, \right| y \to N(0, 1) \]

사후분포가 점근적으로 정규 — Ch.4 Bayesian CLT.

이항의 경우 로짓 스케일에서의 정규 근사가 더 정확. \(\theta\) 가 0 이나 1 에 가까울 때 특히 유의미.

5.8 지수족과 켤레성

Ch.2 가 소개하는 일반 결과 — 지수족 가능도에는 자연 켤레 사전이 존재.

지수족 표준형.

\[ p(y_i \mid \theta) = f(y_i) \, g(\theta) \, e^{\phi(\theta)^\top u(y_i)} \]

\(\phi(\theta)\) — 자연 모수, \(u(y_i)\) — 자연 통계량.

\(n\) 개 iid 관측의 가능도.

\[ p(y \mid \theta) \propto g(\theta)^n \, e^{\phi(\theta)^\top t(y)}, \quad t(y) = \sum_i u(y_i) \]

\(t(y)\) — \(\theta\) 에 대한 충분통계량 (가능도가 \(t(y)\) 만 통해 데이터에 의존).

자연 켤레 사전.

\[ p(\theta) \propto g(\theta)^\eta \, e^{\phi(\theta)^\top \nu} \]

사후.

\[ p(\theta \mid y) \propto g(\theta)^{\eta + n} \, e^{\phi(\theta)^\top (\nu + t(y))} \]

사후 = 사전 하이퍼파라미터에 \((n, t(y))\) 를 더한 것. 이항·정규·Poisson·지수 모두 이 구조 — GLM 이론 의 기저.

교재가 남긴 연습 — 이항이 지수족이고 자연 모수가 \(\text{logit}(\theta)\) 임을 보이는 것. 로짓 변환이 “자연스러운” 이유의 수학적 배경.

5.9 비켤레 사전

“켤레 사전의 기본 정당화는 표준 모델 (이항·정규 등) 을 쓰는 것과 비슷 — 결과가 이해하기 쉽고, 종종 해석적 형태로 표현할 수 있고, 흔히 좋은 근사이며 계산을 단순화.” (교재)

그러나 현실 모델에서 켤레가 불가능할 때가 많다.

다차원 모수에서 모든 성분에 대해 동시 켤레는 대개 불가능
계층 모형에서도 부분적으로만 켤레
복잡한 모델은 MCMC 로 해결 (Part III)

비켤레는 개념적 문제가 아니다 — 단지 닫힌 형태가 없을 뿐.

6 § 2.4 Placenta Previa 사례 — Ch.2 의 정수

6.1 문제 설정

Placenta previa — 태반이 자궁 하부에 이식되어 정상 질식 분만을 막는 임신 합병증. 질문 — “Placenta previa 출생의 여아 비율 \(\theta\) 가 일반 인구의 0.485 보다 작은가?”

데이터 — 독일의 초기 연구에서 총 980 회 출생 중 여아 437 명.

6.2 균등 사전 분석

\(\theta \sim \text{Uniform}(0, 1) = \text{Beta}(1, 1)\) 하.

사후.

\[ \theta \mid y \sim \text{Beta}(438, 544) \]

닫힌 형태에서 직접 계산.

요약량	값
사후 평균	0.446
사후 표준편차	0.016
사후 중앙값	0.446
중앙 95% 구간	[0.415, 0.477]

이 95% 구간이 정규 근사 구간과 소수점 셋째 자리까지 일치 — \(n = 980\) 이 크고 \(\theta\) 가 0 이나 1 에서 멀기 때문.

6.3 결론

사후 95% 구간 [0.415, 0.477] 가 0.485 를 포함하지 않는다. 즉 placenta previa 집단의 여아 비율이 일반 인구 (0.485) 보다 낮다는 강한 증거.

성비로 재표현. \(\phi = (1 - \theta) / \theta\) (남/여 비).

\[ \text{사후 중앙값 } \phi = 1.24, \quad \text{95\% 구간} = [1.10, 1.41] \]

일반 유럽 인구의 성비 1.06 에서 크게 벗어남 → placenta previa 에서 남아 비율이 현저히 증가.

6.4 민감도 분석 — 교재 표 2.1

Beta(\(\alpha, \beta\)) 사전을 여러 선택으로 바꾸며 사후를 비교.

사전 평균 \(\alpha/(\alpha+\beta)\)	\(\alpha + \beta\) (사전 표본)	사후 중앙값 \(\theta\)	95% 사후 구간
0.500	2	0.446	[0.415, 0.477]
0.485	2	0.446	[0.415, 0.477]
0.485	5	0.446	[0.415, 0.477]
0.485	10	0.446	[0.415, 0.477]
0.485	20	0.447	[0.416, 0.478]
0.485	100	0.450	[0.420, 0.479]
0.485	200	0.453	[0.424, 0.481]

관찰.

사전 표본 크기 \(\alpha + \beta \leq 20\) 에서는 사후가 거의 동일
\(\alpha + \beta = 100, 200\) 에서 사후가 0.485 쪽으로 약간 이동
모든 사전에서 95% 구간이 0.485 를 제외 — 결론의 강건성

직관 — 큰 표본에서 사전 민감도가 왜 작은가

데이터 표본 \(n = 980\) 이 사전 표본 \(\alpha + \beta\) 보다 훨씬 크면 사후 평균 공식 \((\alpha + y)/(\alpha + \beta + n)\) 에서 데이터 기여가 지배. \(\alpha + \beta = 100\) 이어도 여전히 데이터가 10 배 무겁다.

실무 규칙 — 결론의 민감도가 사전 표본 크기 \(\alpha + \beta\) 와 데이터 표본 \(n\) 의 비율에 달려 있다. Placenta previa 의 경우 \(n = 980 \gg \alpha + \beta\) 이므로 결론이 강건.

6.5 비켤레 사전 — 격자 근사

사전 — 0.485 중심의 조각적 선형 (piecewise linear) 밀도. 40% 의 확률 질량이 [0.385, 0.585] 밖. 평균 0.493, 표준편차 0.21.

계산. 격자 \(\theta = 0.000, 0.001, \ldots, 1.000\) 에서.

사전 밀도 \(p(\theta)\) 를 각 격자점에서 평가
가능도 \(p(y \mid \theta) = \theta^{437}(1-\theta)^{543}\) 를 평가
곱 = 비정규화 사후
격자에서 정규화 후 재표본추출

결과. 사후 중앙값 0.448, 95% 구간 [0.419, 0.480] — 켤레 분석과 거의 일치.

교훈 — 데이터가 지배적일 때는 사전의 함수 형태보다 대략적 위치와 표본 크기가 중요.

직관 — 격자 계산은 저차원 베이즈의 만능 도구

§ 1.9 에서 소개된 격자 계산이 여기서 실전 적용. 비켤레 사전이라도 \(\theta\) 가 일차원이면 격자 수천 개로 충분 — 정규화 → 재표본추출 → 사후 요약. 차원이 낮으면 MCMC 가 필요 없다.

문제는 차원 저주 — \(\theta\) 가 \(k\)-차원이면 격자 점 수가 \((n_\text{grid})^k\) 로 폭발. 고차원은 Part III 의 MCMC 로만 다룰 수 있다.

7 네 절의 구조적 연결

절	도입 개념	다음 절과의 연결
§ 2.1	이항 모델·Beta 켤레·Laplace 계승 법칙	2.4 의 일반 Beta 사전
§ 2.2	사후 = 사전·데이터 절충, 반복 분산	2.5 정규 정밀도 가산으로 확장
§ 2.3	중앙/HPD 구간, 로짓 변환	2.4 placenta previa 에서 사용
§ 2.4	켤레성의 형식 정의·지수족	Ch.3 다모수 켤레로 확장

Ch.2.1~2.4 를 이해하면 Ch.2.5~2.9 의 정규·Poisson·지수·비정보적·약정보적 사전이 같은 패턴의 변주 로 보인다.

8 빈도주의 대응 — Ch.1·Ch.2 의 두 번째 대조

질문	빈도주의	베이즈 (§ 2.1~2.4)
이항 점 추정	\(\hat{\theta} = y/n\) (MLE)	사후 평균 \((y+1)/(n+2)\) 또는 \(y/n\) (모드)
신뢰 구간	Wald: \(\hat{\theta} \pm 1.96 \sqrt{\hat{\theta}(1-\hat{\theta})/n}\)	Beta 사후의 2.5·97.5 분위수
작은 표본 조정	Wilson, Agresti-Coull	Beta(1, 1), Beta(1/2, 1/2) 사전
다음 관측 예측	\(\Pr(\tilde{y}=1) = \hat{\theta}\)	Laplace 계승 법칙 \((y+1)/(n+2)\)
\(y = 0\) 극단값	\(\hat{\theta} = 0\), 구간 계산 곤란	\((\alpha + 0)/(\alpha + \beta + n) > 0\), 구간 정상

빈도주의의 작은 표본 트릭 이 베이즈의 약한 사전과 수학적으로 동치 인 경우가 많다. 해석만 다르다.

9 코드 예제 — Placenta Previa 분석 완전 재현

9.1 Step 1: 순수 Python — 켤레 Beta 분석 + 로짓 변환

import math
import random

random.seed(42)

# 데이터
y, n = 437, 980

# 균등 사전 Beta(1, 1) 하의 사후
alpha_post = 1 + y
beta_post = 1 + (n - y)

# 사후 평균, 모드, 분산
mean_post = alpha_post / (alpha_post + beta_post)
mode_post = (alpha_post - 1) / (alpha_post + beta_post - 2)
var_post = (alpha_post * beta_post) / (((alpha_post + beta_post) ** 2) * (alpha_post + beta_post + 1))
sd_post = math.sqrt(var_post)

print(f"Beta({alpha_post}, {beta_post}) 사후")
print(f"  평균 = {mean_post:.4f}")
print(f"  모드 = {mode_post:.4f}")
print(f"  표준편차 = {sd_post:.4f}")

# Beta 표본 생성 (gamma 비율)
def sample_beta(a, b):
    x = random.gammavariate(a, 1)
    y = random.gammavariate(b, 1)
    return x / (x + y)

S = 5000
theta_samples = [sample_beta(alpha_post, beta_post) for _ in range(S)]
theta_sorted = sorted(theta_samples)

# 95% 중앙 구간
lo, hi = theta_sorted[int(0.025 * S)], theta_sorted[int(0.975 * S)]
print(f"  95% 중앙 구간 = [{lo:.4f}, {hi:.4f}]")

# 사후 확률 Pr(theta >= 0.485 | y)
p_ge_485 = sum(1 for t in theta_samples if t >= 0.485) / S
print(f"  Pr(θ ≥ 0.485 | y) = {p_ge_485:.4f}")

# 성비
sex_ratios = [(1 - t) / t for t in theta_samples]
sex_ratios.sort()
sr_lo, sr_hi = sex_ratios[int(0.025 * S)], sex_ratios[int(0.975 * S)]
print(f"  성비 (M/F) 95% 구간 = [{sr_lo:.4f}, {sr_hi:.4f}]")

예상 출력 — 사후 평균 0.446, 95% 구간 ≈ [0.415, 0.477]. Pr(θ ≥ 0.485 | y) 는 0 에 가까움 — 결론의 강도 확인.

9.2 Step 2: NumPy/scipy — 민감도 분석 표 재현

import numpy as np
from scipy import stats

y, n = 437, 980

priors = [
    ("Beta(1, 1) 균등",    1, 1),
    ("Beta(0.5, 0.5) Jeffreys", 0.5, 0.5),
    ("Beta(1, 1.06) 평균 0.485, α+β=2",    0.97,    1.03),
    ("Beta(2.425, 2.575) 평균 0.485, α+β=5", 2.425,  2.575),
    ("Beta(9.7, 10.3) 평균 0.485, α+β=20",   9.70,   10.30),
    ("Beta(48.5, 51.5) 평균 0.485, α+β=100", 48.5,   51.5),
    ("Beta(97, 103) 평균 0.485, α+β=200",    97.0,   103.0),
]

print(f"{'Prior':<45} {'Median':<10} {'95% Interval':<20}")
for name, a, b in priors:
    a_post = a + y
    b_post = b + n - y
    post = stats.beta(a_post, b_post)
    median = post.median()
    lo, hi = post.ppf(0.025), post.ppf(0.975)
    print(f"{name:<45} {median:.4f}     [{lo:.4f}, {hi:.4f}]")

예상 출력 — 사전 표본 크기가 20 이하이면 사후가 거의 동일, 100·200 에서 약간 이동. 모든 사전에서 95% 구간이 0.485 를 제외 — 교재 표 2.1 의 재현.

10 관련 주제

Ch.2 의 다른 절 (후속)

Ch.2 Single-Parameter Models 개요 — § 2.1~2.9 훑기
§ 2.5 Normal distribution with known variance (작성 예정)
§ 2.6~2.9 Poisson·지수·비정보적·약정보적 사전 (작성 예정)

Ch.1 심화 (선행)

§ 1.1~1.4 심화 — 사전·우도·사후의 언어
§ 1.5~1.8 심화 — 반복 분산 · 확률 의미
§ 1.9·1.10·1.12 심화 — 시뮬레이션 기반 요약

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

Casella & Berger 분포 가족 — 이항 분포의 빈도주의 관점
MLE · 점 추정
GLM 이론 기초 — 지수족 구조

11 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.1~2.4).
Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society, 53, 370–418.
Laplace, P. S. (1814). Essai philosophique sur les probabilités. Paris: Courcier.
Ericson, W. A. (1969). Subjective Bayesian models in sampling finite populations. Journal of the Royal Statistical Society. Series B, 31(2), 195–233.
Winkler, R. L. (1967). The assessment of prior distributions in Bayesian analysis. Journal of the American Statistical Association, 62(319), 776–800.