1 이 포스트의 위치 — Ch.2 심화의 첫 조각
Ch.2 개요 가 단일 모수 모델 전체 (§ 2.1~2.9) 를 훑는 포스트였다면, 이 포스트는 § 2.1~2.4 를 교재 원문 수준으로 풀어 쓴 심화편이다. 네 절이 함께 묶이는 이유는 이들이 모두 이항 모델과 Beta 사전 의 구체적 계산을 중심으로 구성되어 있기 때문 — 베이즈 추론 “문법 학습” 의 몸통에 해당한다.
“이항-Beta 켤레 쌍 하나로 베이즈 규칙의 모든 측면 — 사후 계산·예측·요약·사전 선택의 민감도·지수족 일반화 — 를 체험한다.”
교재의 첫 Bayesian 사후 계산이 실제로 이루어지는 장이고, Placenta previa 사례 (437/980) 는 Ch.6 이후 모든 분석의 축소 모형. (Gelman et al., 2013, Ch.2.1~2.4)
2 § 2.1 이항 데이터로부터 확률 추정
2.1 모델 유도 — 교환가능성에서 iid 로
베르누이 시행 \(y_1, \ldots, y_n\), 각 \(y_i \in \{0, 1\}\). 어떻게 \(y\) 의 총 성공 수만으로 요약할 수 있는가? 교재의 논리.
“교환가능성 때문에 데이터는 \(n\) 번 시행의 성공 수 총합 \(y\) 로 요약될 수 있다. 교환가능한 시행에서 iid 확률변수 공식으로의 변환은 모수 \(\theta\) 가 모집단 성공 비율 (= 각 시행 성공 확률) 을 나타내도록 함으로써 자연스럽게 달성된다.” (교재 원문)
이것이 § 1.2 de Finetti 정리 의 구체적 응용 — “교환가능 → \(\theta\) 조건부 iid” 의 단일 모수 사례. 결과.
\[ p(y \mid \theta) = \binom{n}{y} \theta^y (1 - \theta)^{n - y} \tag{2.1} \]
\(n\) 은 실험 설계로 고정된 것으로 간주, 모든 확률은 \(n\) 조건부.
2.2 여아 출생 비율 — 사례 설정
관심 모수 — \(\theta\) = 출생아 중 여아 비율. 현재 공인값 (유럽 인구) 0.485. 대안 표현 — 남성/여성 출생률의 비 \(\phi = (1 - \theta) / \theta\).
가정 — \(n\) 명의 출생이 \(\theta\) 조건부 독립. 이 모델링 가정은 설명변수 없는 교환가능성 (다태 출산·같은 가족 내 출생 등 구분 없음) 에서 유도된다.
2.3 균등 사전 하의 사후
\(\theta \sim \text{Uniform}(0, 1) = \text{Beta}(1, 1)\).
\[ p(\theta \mid y) \propto \theta^y (1 - \theta)^{n - y} \tag{2.2} \]
\(\binom{n}{y}\) 는 \(\theta\) 와 무관해 비례 상수로 흡수.
\[ \theta \mid y \sim \text{Beta}(y + 1, n - y + 1) \tag{2.3} \]
표본 크기에 따른 사후 모양. 교재 그림 2.1 — 같은 성공 비율 (\(y/n = 0.6\)) 이지만 \((n, y)\) 가 \((5, 3), (20, 12), (100, 60), (1000, 600)\) 으로 증가하면 사후가 \(\theta = 0.6\) 주변에 점점 더 날카롭게 집중. 표본이 \(\sqrt{n}\) 에 비례해 축소 — Ch.4 점근 이론 의 씨앗.
2.4 Bayes 의 당구대 논증 (1763)
베이즈 정리의 최초 증명 은 물리적 유비로.
- 사전 — 당구공 \(W\) 를 테이블에 균등 분포로 던진다. 그 수평 위치를 \(\theta\) 로 읽는다 (테이블 너비의 분수)
- 가능도 — 공 \(O\) 를 \(n\) 번 던져, \(W\) 오른쪽에 떨어진 횟수를 \(y\) 로 센다
이 구조에서 \(\theta \sim \text{Uniform}(0, 1)\), \(y \mid \theta \sim \text{Bin}(n, \theta)\).
Bayes 가 유도한 결과.
\[ \Pr(\theta \in (\theta_1, \theta_2) \mid y) = \frac{\int_{\theta_1}^{\theta_2} \binom{n}{y} \theta^y (1-\theta)^{n-y} \, d\theta}{p(y)} \tag{2.4} \]
분모를 Bayes 가 직접 적분 해 얻은 공식.
\[ p(y) = \int_0^1 \binom{n}{y} \theta^y (1-\theta)^{n-y} \, d\theta = \frac{1}{n + 1}, \quad y = 0, 1, \ldots, n \tag{2.5} \]
\(p(y) = 1/(n+1)\) 은 균등 사전 하에서 모든 성공 수 \(y \in \{0, 1, \ldots, n\}\) 이 사전적으로 동등 가능 하다는 의미. 이것이 균등 사전 Beta(1, 1) 의 관측 가능한 함의. Bayes 는 이 관측 가능 대칭성을 사전 선택의 정당화 근거로 제시했다.
Laplace 가 나중에 균등 사전을 썼을 때의 논리 (“불충분 이유 원리”) 와 대조된다 — Laplace 는 “아무것도 모르니 균등” 이라 했고, Bayes 는 “관측 가능 균등성이 얻어지니 균등” 이라 했다.
2.5 Laplace 의 파리 출생 통계 (1745-1770)
실제 첫 응용. Laplace 는 파리 출생 데이터 — 여아 241,945 명, 남아 251,527 명 (총 \(n = 493{,}472\)) — 을 분석.
\(\theta \sim \text{Uniform}(0, 1)\) 하에서 사후 Beta(\(241{,}946, 251{,}528\)). Laplace 가 정규 근사로 계산한 것.
\[ \Pr(\theta \geq 0.5 \mid y = 241{,}945, n = 493{,}472) \approx 1.15 \times 10^{-42} \]
“도덕적 확실성” — \(\theta < 0.5\) 라는 결론이 실질적으로 확정적. 현대 통계 용어로 엄청나게 작은 \(p\)-값 과 등가지만, Laplace 의 수식은 사후 확률 진술 — 현재 베이즈 해석 그대로.
2.6 예측 — Laplace 의 계승 법칙
균등 사전 하의 사후 예측 분포. 다음 한 번의 시행 \(\tilde{y}\) 에 대한 성공 확률.
\[ \Pr(\tilde{y} = 1 \mid y) = \int_0^1 \theta \, p(\theta \mid y) \, d\theta = E(\theta \mid y) = \frac{y + 1}{n + 2} \tag{2.6} \]
이를 Laplace 의 계승 법칙 (rule of succession) 이라 부른다.
극단 값.
- \(y = 0\) (모두 실패): \(\Pr(\tilde{y} = 1) = 1/(n+2)\)
- \(y = n\) (모두 성공): \(\Pr(\tilde{y} = 1) = (n+1)/(n+2)\)
\(y = 0, n = 10\) 이면 MLE \(\hat{\theta} = 0\) 이지만 계승 법칙은 \(1/12\). 관측 전 가능성이 있던 사건이 한 번도 관측되지 않았다고 확률 0 으로 선언하는 것은 극단적 — 계승 법칙은 “한 번 관측 안 됐다고 영영 불가능은 아니다” 라는 합리적 신념을 수학화.
이 원리가 라플라스 평활 (Laplace smoothing), add-one smoothing 의 형태로 NLP · 기계학습에서 여전히 쓰인다.
3 § 2.2 사후는 사전과 데이터의 절충 — 반복 분산 공식의 핵심 응용
3.1 반복 기댓값/분산의 모수-데이터 버전
§ 1.8 의 식 (1.8)·(1.9) 에서 \((u, v) = (\theta, y)\) 를 대입.
\[ E(\theta) = E(E(\theta \mid y)) \tag{2.7} \]
\[ \text{var}(\theta) = E(\text{var}(\theta \mid y)) + \text{var}(E(\theta \mid y)) \tag{2.8} \]
3.2 식 (2.7) 의 해석 — “진부하지만 중요한 일관성”
“식 (2.7) 의 결과는 거의 놀랍지 않다 — \(\theta\) 의 사전 평균은 가능한 데이터의 분포에 대한 모든 가능한 사후 평균의 평균 이다.” (교재)
이것이 사전-사후의 일관성 조건 — 사전분포가 미래 데이터에 대한 예측과 정합적이어야 한다는 요구의 수식화.
3.3 식 (2.8) 의 해석 — 데이터의 정보량 정량화
식 (2.8) 이 더 흥미롭다.
\[ \underbrace{\text{var}(\theta)}_\text{사전 분산} = \underbrace{E(\text{var}(\theta \mid y))}_\text{평균 사후 분산} + \underbrace{\text{var}(E(\theta \mid y))}_\text{사후 평균의 변동} \]
두 번째 항 \(\text{var}(E(\theta \mid y))\) 이 핵심 — 가능한 데이터에 따라 사후 평균이 얼마나 변하는가. 이것이 “데이터의 정보량”.
- 정보적 데이터 → 사후 평균이 크게 이동 → 두 번째 항 큼 → 평균 사후 분산 많이 감소
- 비정보적 데이터 → 사후 평균 거의 고정 → 두 번째 항 작음 → 평균 사후 분산 사전과 비슷
3.4 특수한 주의
교재의 경고.
“평균과 분산 관계는 기댓값만 설명한다. 특정 상황에서 사후 분산이 사전 분산과 비슷하거나 심지어 더 클 수 있다 (단, 이는 표본 모델과 사전분포 간 충돌 또는 불일치의 표시 일 수 있다).”
사후 분산 > 사전 분산 — 관측이 오히려 불확실성을 늘린 경우. 이는 모델 문제의 진단 신호 다. 예 — 실제 모수 값이 사전이 낮은 확률을 부여한 영역에 있다면 데이터가 사전과 충돌.
3.5 이항 예제에서의 구체 확인
균등 사전 Beta(1, 1): 평균 \(1/2\), 분산 \(1/12 \approx 0.083\).
사후 Beta(\(y + 1, n - y + 1\)): 사후 평균 \((y+1)/(n+2)\).
사후 평균의 표현.
\[ \frac{y + 1}{n + 2} = \frac{n}{n + 2} \cdot \frac{y}{n} + \frac{2}{n + 2} \cdot \frac{1}{2} \]
표본 비율과 사전 평균의 가중 평균. 가중치 — 데이터 = \(n / (n+2)\), 사전 = \(2 / (n+2)\).
\(n \to \infty\) 이면 데이터 가중치 → 1, 사전 영향력 → 0. 작은 \(n\) 에서는 사전이 무거운 비중.
이것이 베이즈 추론의 일반적 속성.
“사후분포는 사전과 데이터의 타협점 주변에 중심을 두며, 타협은 표본이 커질수록 데이터가 더 지배하는 방향으로 제어된다.” (교재)
4 § 2.3 사후 추론 요약
4.1 이상은 전체 분포, 실무는 요약
사후분포 \(p(\theta \mid y)\) 가 \(\theta\) 에 대한 모든 정보 를 담고 있다. 이상적으로는 밀도 그림·히스토그램으로 전체 분포를 제시.
“시뮬레이션으로 구현된 베이즈 접근의 핵심 장점은 복잡한 변환 후에도 사후 추론을 요약하는 유연성.” (교재)
그러나 실무에서는 수치 요약이 필요.
4.2 중심 측도 — 세 가지 선택
| 측도 | 정의 | 특성 |
|---|---|---|
| 평균 \(E(\theta \mid y)\) | 사후 기댓값 | 제곱 손실 최적, 정규 근사와 궁합 |
| 중앙값 | \(\Pr(\theta \leq m \mid y) = 1/2\) | 절대값 손실 최적, 비대칭에 견고 |
| 최빈값 (mode) | \(\arg\max_\theta p(\theta \mid y)\) | “가장 가능성 높은 단일 값”, MLE 와 대응 |
교재가 지적하는 포인트.
“최빈값은 복잡한 문제의 계산 전략에서 중요 하다 — 평균이나 중앙값보다 계산이 종종 더 쉽기 때문. 반면 평균과 표준편차는 많은 실무 추론이 정규 근사 (종종 \(\theta\) 의 대칭화 변환을 통해 개선) 에 기대고 있어 핵심 역할을 한다.”
Beta 분포의 예.
\[ E(\theta \mid y) = \frac{y + 1}{n + 2}, \quad \text{mode}(\theta \mid y) = \frac{y}{n} \]
사후 최빈값 = MLE = 표본 비율. 균등 사전에서 Bayes 와 빈도주의가 점 추정 수준에서 일치.
4.3 산포 측도
| 측도 | 의미 |
|---|---|
| 표준편차 | 정규 근사의 기본 |
| IQR | 꼬리 두꺼운 분포에 견고 |
| 분위수 | 모양 정보까지 직접 |
4.4 사후 구간 — 중앙 구간
\(100(1 - \alpha)\%\) 중앙 사후 구간 — \(\alpha/2\) 분위수와 \(1 - \alpha/2\) 분위수 사이.
\[ \Pr(\theta < a \mid y) = \alpha/2, \quad \Pr(\theta > b \mid y) = \alpha/2 \]
Beta·Normal 같은 단순 모델은 누적분포함수 (CDF) 로 직접 계산 — 컴퓨터 함수 호출 한 번. 일반적으로는 사후 시뮬레이션의 순서 통계량 으로 추정 — § 1.9 의 핵심 메커니즘.
4.5 최고 사후 밀도 (HPD) 영역
또 다른 요약.
“\(100(1 - \alpha)\%\) 확률을 포함하되, 영역 내 밀도가 외부보다 항상 높지 않은 값의 집합.”
단봉·대칭 분포에서는 중앙 구간과 HPD 가 일치.
4.6 교재 그림 2.2 — 중앙 구간과 HPD 가 극적으로 다른 경우
다봉 분포. 예 — 사후가 \(\theta = 0.2\) 와 \(\theta = 0.8\) 근처에 두 모드, 중앙 \(\theta = 0.5\) 근처는 저밀도.
- 95% 중앙 구간: 분위수 기반이므로 두 모드와 그 사이 저밀도 영역 전체 포함. 구간 내에 사후 확률이 거의 0 인 지점 포함
- 95% HPD: 두 개의 분리된 구간 (각 모드 주변). 고밀도 영역만 수집
교재의 평가.
“HPD 영역이 중앙 구간보다 정보량이 많지만 더 번거롭다. 이런 상황에서는 어떤 단일 구간으로도 이 다봉 밀도를 요약하지 않는 것이 아마 더 낫다.”
단봉이지만 심하게 비대칭 인 경우에도 두 요약이 크게 다를 수 있다.
4.7 실무 선택 — 중앙 구간의 이점
- 분위수로 직접 해석 — “\(\alpha/2\), \(1 - \alpha/2\) 사이”
- 시뮬레이션 친화적 — \(S\) 개 표본의 해당 순서 통계량
- 단조 변환에 불변 — \(\theta \to \log \theta\) 에서 구간의 로그가 \(\log \theta\) 의 구간
\(\theta \in [0, 1]\) 의 정규 근사는 끝점 근처에서 부정확 — 음수·1 초과 값을 허용하는 정규가 경계를 무시. 로짓 변환 \(\phi = \log(\theta / (1 - \theta))\) 은 \((0, 1)\) 을 \((-\infty, \infty)\) 로 확장하여 정규 근사를 현실적으로 만든다.
이 트릭이 — 사후 표본을 로짓 변환 → 정규 구간 추정 → 역변환으로 원래 스케일로 → 비대칭 구간이 자연스럽게 생성. Placenta previa 예제에서 직접 활용된다.
5 § 2.4 정보적 사전분포
5.1 두 해석 — 모집단 vs 신념 상태
모집단 해석 (population interpretation) — 사전은 가능한 모수 값의 모집단을 나타내고, 현재 \(\theta\) 가 그 모집단에서 뽑힌 것.
예 — 여러 공장의 불량률을 모을 때 각 공장 \(\theta_j\) 를 공장 모집단의 표본.
주관적 신념 상태 해석 (subjective state-of-knowledge interpretation) — \(\theta\) 에 대한 현재 지식과 불확실성을 표현. “만약 \(\theta\) 가 사전에서의 무작위 실현이라고 여길 수 있다면” 의 사고 실험.
예 — 새 산업 공정 불량률 — 실제 모집단 없음, 도메인 지식으로 합리적 사전 설정.
5.2 현실적 권고
“일반적으로 사전분포는 \(\theta\) 의 모든 그럴듯한 값을 포함 해야 하지만, 실제 값 주변에 현실적으로 집중될 필요는 없다 — 대개 데이터가 담은 정보가 어떤 합리적 사전보다 훨씬 크기 때문.” (교재)
즉 사전 선택은 “정확히 맞히기” 보다 “가능한 영역을 빠뜨리지 않기” 가 우선. 잘못된 사전도 표본이 커지면 수정된다.
5.3 Beta 사전 — 켤레 가족
이항 가능도의 형태 \(\theta^a (1 - \theta)^b\). 사전도 같은 형태 면 사후도 같은 형태.
\[ p(\theta) \propto \theta^{\alpha - 1} (1 - \theta)^{\beta - 1} \quad \Leftrightarrow \quad \theta \sim \text{Beta}(\alpha, \beta) \]
하이퍼파라미터 — \(\alpha - 1\) 회 사전 성공, \(\beta - 1\) 회 사전 실패로 해석.
사후.
\[ \theta \mid y \sim \text{Beta}(\alpha + y, \beta + n - y) \]
사후 하이퍼파라미터 = 사전 + 데이터. 이것이 켤레성 (conjugacy) — 사후가 사전과 같은 매개변수화 가족에 속함.
5.4 켤레성의 형식적 정의
“\(\mathcal{F}\) 가 표본 분포의 클래스 \(p(y \mid \theta)\), \(\mathcal{P}\) 가 사전분포의 클래스 라 하자. 모든 \(p(\cdot \mid \theta) \in \mathcal{F}\) 와 \(p(\cdot) \in \mathcal{P}\) 에 대해 \(p(\theta \mid y) \in \mathcal{P}\) 이면 \(\mathcal{P}\) 는 \(\mathcal{F}\) 의 켤레.” (교재)
교재는 이 정의가 형식적으로 모호 함을 지적 — \(\mathcal{P}\) 를 “모든 분포의 집합” 으로 잡으면 언제나 켤레. 실제로는 자연 켤레 가족 (natural conjugate family) — “가능도와 같은 함수 형태의 밀도 집합” — 을 쓴다.
5.5 켤레 사전의 이점
- 계산 용이 — 사후가 닫힌 형태, 수식으로 직접 계산
- 가상 데이터 해석 — Beta(\(\alpha, \beta\)) = “사전 성공 \(\alpha-1\), 실패 \(\beta-1\) 을 본 효과”
- 더 복잡한 모델의 빌딩 블록 — 다차원 · 계층에서 부분적으로 켤레 구조 활용
5.6 이항 사후의 일반 공식
\[ E(\theta \mid y) = \frac{\alpha + y}{\alpha + \beta + n} \]
이 값은 표본 비율 \(y/n\) 과 사전 평균 \(\alpha/(\alpha + \beta)\) 사이에 항상 위치.
사후 분산.
\[ \text{var}(\theta \mid y) = \frac{(\alpha + y)(\beta + n - y)}{(\alpha + \beta + n)^2 (\alpha + \beta + n + 1)} = \frac{E(\theta \mid y)[1 - E(\theta \mid y)]}{\alpha + \beta + n + 1} \]
\(y, n - y \to \infty\) 이면 — 사후 평균 \(\to y/n\), 사후 분산 \(\to \frac{1}{n} \frac{y}{n}(1 - \frac{y}{n})\). \(1/n\) 비율로 수렴 — CLT 와 일치.
5.7 정규 근사
교재의 Ch.4 을 예고 하는 일반 결과.
\[ \left.\frac{\theta - E(\theta \mid y)}{\sqrt{\text{var}(\theta \mid y)}} \, \right| y \to N(0, 1) \]
사후분포가 점근적으로 정규 — Ch.4 Bayesian CLT.
이항의 경우 로짓 스케일에서의 정규 근사가 더 정확. \(\theta\) 가 0 이나 1 에 가까울 때 특히 유의미.
5.8 지수족과 켤레성
Ch.2 가 소개하는 일반 결과 — 지수족 가능도에는 자연 켤레 사전이 존재.
지수족 표준형.
\[ p(y_i \mid \theta) = f(y_i) \, g(\theta) \, e^{\phi(\theta)^\top u(y_i)} \]
\(\phi(\theta)\) — 자연 모수, \(u(y_i)\) — 자연 통계량.
\(n\) 개 iid 관측의 가능도.
\[ p(y \mid \theta) \propto g(\theta)^n \, e^{\phi(\theta)^\top t(y)}, \quad t(y) = \sum_i u(y_i) \]
\(t(y)\) — \(\theta\) 에 대한 충분통계량 (가능도가 \(t(y)\) 만 통해 데이터에 의존).
자연 켤레 사전.
\[ p(\theta) \propto g(\theta)^\eta \, e^{\phi(\theta)^\top \nu} \]
사후.
\[ p(\theta \mid y) \propto g(\theta)^{\eta + n} \, e^{\phi(\theta)^\top (\nu + t(y))} \]
사후 = 사전 하이퍼파라미터에 \((n, t(y))\) 를 더한 것. 이항·정규·Poisson·지수 모두 이 구조 — GLM 이론 의 기저.
교재가 남긴 연습 — 이항이 지수족이고 자연 모수가 \(\text{logit}(\theta)\) 임을 보이는 것. 로짓 변환이 “자연스러운” 이유의 수학적 배경.
5.9 비켤레 사전
“켤레 사전의 기본 정당화는 표준 모델 (이항·정규 등) 을 쓰는 것과 비슷 — 결과가 이해하기 쉽고, 종종 해석적 형태로 표현할 수 있고, 흔히 좋은 근사이며 계산을 단순화.” (교재)
그러나 현실 모델에서 켤레가 불가능할 때가 많다.
- 다차원 모수에서 모든 성분에 대해 동시 켤레는 대개 불가능
- 계층 모형에서도 부분적으로만 켤레
- 복잡한 모델은 MCMC 로 해결 (Part III)
비켤레는 개념적 문제가 아니다 — 단지 닫힌 형태가 없을 뿐.
6 § 2.4 Placenta Previa 사례 — Ch.2 의 정수
6.1 문제 설정
Placenta previa — 태반이 자궁 하부에 이식되어 정상 질식 분만을 막는 임신 합병증. 질문 — “Placenta previa 출생의 여아 비율 \(\theta\) 가 일반 인구의 0.485 보다 작은가?”
데이터 — 독일의 초기 연구에서 총 980 회 출생 중 여아 437 명.
6.2 균등 사전 분석
\(\theta \sim \text{Uniform}(0, 1) = \text{Beta}(1, 1)\) 하.
사후.
\[ \theta \mid y \sim \text{Beta}(438, 544) \]
닫힌 형태에서 직접 계산.
| 요약량 | 값 |
|---|---|
| 사후 평균 | 0.446 |
| 사후 표준편차 | 0.016 |
| 사후 중앙값 | 0.446 |
| 중앙 95% 구간 | [0.415, 0.477] |
이 95% 구간이 정규 근사 구간과 소수점 셋째 자리까지 일치 — \(n = 980\) 이 크고 \(\theta\) 가 0 이나 1 에서 멀기 때문.
6.3 결론
사후 95% 구간 [0.415, 0.477] 가 0.485 를 포함하지 않는다. 즉 placenta previa 집단의 여아 비율이 일반 인구 (0.485) 보다 낮다는 강한 증거.
성비로 재표현. \(\phi = (1 - \theta) / \theta\) (남/여 비).
\[ \text{사후 중앙값 } \phi = 1.24, \quad \text{95\% 구간} = [1.10, 1.41] \]
일반 유럽 인구의 성비 1.06 에서 크게 벗어남 → placenta previa 에서 남아 비율이 현저히 증가.
6.4 민감도 분석 — 교재 표 2.1
Beta(\(\alpha, \beta\)) 사전을 여러 선택으로 바꾸며 사후를 비교.
| 사전 평균 \(\alpha/(\alpha+\beta)\) | \(\alpha + \beta\) (사전 표본) | 사후 중앙값 \(\theta\) | 95% 사후 구간 |
|---|---|---|---|
| 0.500 | 2 | 0.446 | [0.415, 0.477] |
| 0.485 | 2 | 0.446 | [0.415, 0.477] |
| 0.485 | 5 | 0.446 | [0.415, 0.477] |
| 0.485 | 10 | 0.446 | [0.415, 0.477] |
| 0.485 | 20 | 0.447 | [0.416, 0.478] |
| 0.485 | 100 | 0.450 | [0.420, 0.479] |
| 0.485 | 200 | 0.453 | [0.424, 0.481] |
관찰.
- 사전 표본 크기 \(\alpha + \beta \leq 20\) 에서는 사후가 거의 동일
- \(\alpha + \beta = 100, 200\) 에서 사후가 0.485 쪽으로 약간 이동
- 모든 사전에서 95% 구간이 0.485 를 제외 — 결론의 강건성
데이터 표본 \(n = 980\) 이 사전 표본 \(\alpha + \beta\) 보다 훨씬 크면 사후 평균 공식 \((\alpha + y)/(\alpha + \beta + n)\) 에서 데이터 기여가 지배. \(\alpha + \beta = 100\) 이어도 여전히 데이터가 10 배 무겁다.
실무 규칙 — 결론의 민감도가 사전 표본 크기 \(\alpha + \beta\) 와 데이터 표본 \(n\) 의 비율에 달려 있다. Placenta previa 의 경우 \(n = 980 \gg \alpha + \beta\) 이므로 결론이 강건.
6.5 비켤레 사전 — 격자 근사
사전 — 0.485 중심의 조각적 선형 (piecewise linear) 밀도. 40% 의 확률 질량이 [0.385, 0.585] 밖. 평균 0.493, 표준편차 0.21.
계산. 격자 \(\theta = 0.000, 0.001, \ldots, 1.000\) 에서.
- 사전 밀도 \(p(\theta)\) 를 각 격자점에서 평가
- 가능도 \(p(y \mid \theta) = \theta^{437}(1-\theta)^{543}\) 를 평가
- 곱 = 비정규화 사후
- 격자에서 정규화 후 재표본추출
결과. 사후 중앙값 0.448, 95% 구간 [0.419, 0.480] — 켤레 분석과 거의 일치.
교훈 — 데이터가 지배적일 때는 사전의 함수 형태보다 대략적 위치와 표본 크기가 중요.
§ 1.9 에서 소개된 격자 계산이 여기서 실전 적용. 비켤레 사전이라도 \(\theta\) 가 일차원이면 격자 수천 개로 충분 — 정규화 → 재표본추출 → 사후 요약. 차원이 낮으면 MCMC 가 필요 없다.
문제는 차원 저주 — \(\theta\) 가 \(k\)-차원이면 격자 점 수가 \((n_\text{grid})^k\) 로 폭발. 고차원은 Part III 의 MCMC 로만 다룰 수 있다.
7 네 절의 구조적 연결
| 절 | 도입 개념 | 다음 절과의 연결 |
|---|---|---|
| § 2.1 | 이항 모델·Beta 켤레·Laplace 계승 법칙 | 2.4 의 일반 Beta 사전 |
| § 2.2 | 사후 = 사전·데이터 절충, 반복 분산 | 2.5 정규 정밀도 가산으로 확장 |
| § 2.3 | 중앙/HPD 구간, 로짓 변환 | 2.4 placenta previa 에서 사용 |
| § 2.4 | 켤레성의 형식 정의·지수족 | Ch.3 다모수 켤레로 확장 |
Ch.2.1~2.4 를 이해하면 Ch.2.5~2.9 의 정규·Poisson·지수·비정보적·약정보적 사전이 같은 패턴의 변주 로 보인다.
8 빈도주의 대응 — Ch.1·Ch.2 의 두 번째 대조
| 질문 | 빈도주의 | 베이즈 (§ 2.1~2.4) |
|---|---|---|
| 이항 점 추정 | \(\hat{\theta} = y/n\) (MLE) | 사후 평균 \((y+1)/(n+2)\) 또는 \(y/n\) (모드) |
| 신뢰 구간 | Wald: \(\hat{\theta} \pm 1.96 \sqrt{\hat{\theta}(1-\hat{\theta})/n}\) | Beta 사후의 2.5·97.5 분위수 |
| 작은 표본 조정 | Wilson, Agresti-Coull | Beta(1, 1), Beta(1/2, 1/2) 사전 |
| 다음 관측 예측 | \(\Pr(\tilde{y}=1) = \hat{\theta}\) | Laplace 계승 법칙 \((y+1)/(n+2)\) |
| \(y = 0\) 극단값 | \(\hat{\theta} = 0\), 구간 계산 곤란 | \((\alpha + 0)/(\alpha + \beta + n) > 0\), 구간 정상 |
빈도주의의 작은 표본 트릭 이 베이즈의 약한 사전과 수학적으로 동치 인 경우가 많다. 해석만 다르다.
9 코드 예제 — Placenta Previa 분석 완전 재현
9.1 Step 1: 순수 Python — 켤레 Beta 분석 + 로짓 변환
import math
import random
random.seed(42)
# 데이터
y, n = 437, 980
# 균등 사전 Beta(1, 1) 하의 사후
alpha_post = 1 + y
beta_post = 1 + (n - y)
# 사후 평균, 모드, 분산
mean_post = alpha_post / (alpha_post + beta_post)
mode_post = (alpha_post - 1) / (alpha_post + beta_post - 2)
var_post = (alpha_post * beta_post) / (((alpha_post + beta_post) ** 2) * (alpha_post + beta_post + 1))
sd_post = math.sqrt(var_post)
print(f"Beta({alpha_post}, {beta_post}) 사후")
print(f" 평균 = {mean_post:.4f}")
print(f" 모드 = {mode_post:.4f}")
print(f" 표준편차 = {sd_post:.4f}")
# Beta 표본 생성 (gamma 비율)
def sample_beta(a, b):
x = random.gammavariate(a, 1)
y = random.gammavariate(b, 1)
return x / (x + y)
S = 5000
theta_samples = [sample_beta(alpha_post, beta_post) for _ in range(S)]
theta_sorted = sorted(theta_samples)
# 95% 중앙 구간
lo, hi = theta_sorted[int(0.025 * S)], theta_sorted[int(0.975 * S)]
print(f" 95% 중앙 구간 = [{lo:.4f}, {hi:.4f}]")
# 사후 확률 Pr(theta >= 0.485 | y)
p_ge_485 = sum(1 for t in theta_samples if t >= 0.485) / S
print(f" Pr(θ ≥ 0.485 | y) = {p_ge_485:.4f}")
# 성비
sex_ratios = [(1 - t) / t for t in theta_samples]
sex_ratios.sort()
sr_lo, sr_hi = sex_ratios[int(0.025 * S)], sex_ratios[int(0.975 * S)]
print(f" 성비 (M/F) 95% 구간 = [{sr_lo:.4f}, {sr_hi:.4f}]")예상 출력 — 사후 평균 0.446, 95% 구간 ≈ [0.415, 0.477]. Pr(θ ≥ 0.485 | y) 는 0 에 가까움 — 결론의 강도 확인.
9.2 Step 2: NumPy/scipy — 민감도 분석 표 재현
import numpy as np
from scipy import stats
y, n = 437, 980
priors = [
("Beta(1, 1) 균등", 1, 1),
("Beta(0.5, 0.5) Jeffreys", 0.5, 0.5),
("Beta(1, 1.06) 평균 0.485, α+β=2", 0.97, 1.03),
("Beta(2.425, 2.575) 평균 0.485, α+β=5", 2.425, 2.575),
("Beta(9.7, 10.3) 평균 0.485, α+β=20", 9.70, 10.30),
("Beta(48.5, 51.5) 평균 0.485, α+β=100", 48.5, 51.5),
("Beta(97, 103) 평균 0.485, α+β=200", 97.0, 103.0),
]
print(f"{'Prior':<45} {'Median':<10} {'95% Interval':<20}")
for name, a, b in priors:
a_post = a + y
b_post = b + n - y
post = stats.beta(a_post, b_post)
median = post.median()
lo, hi = post.ppf(0.025), post.ppf(0.975)
print(f"{name:<45} {median:.4f} [{lo:.4f}, {hi:.4f}]")예상 출력 — 사전 표본 크기가 20 이하이면 사후가 거의 동일, 100·200 에서 약간 이동. 모든 사전에서 95% 구간이 0.485 를 제외 — 교재 표 2.1 의 재현.
10 관련 주제
Ch.2 의 다른 절 (후속)
- Ch.2 Single-Parameter Models 개요 — § 2.1~2.9 훑기
- § 2.5 Normal distribution with known variance (작성 예정)
- § 2.6~2.9 Poisson·지수·비정보적·약정보적 사전 (작성 예정)
Ch.1 심화 (선행)
- § 1.1~1.4 심화 — 사전·우도·사후의 언어
- § 1.5~1.8 심화 — 반복 분산 · 확률 의미
- § 1.9·1.10·1.12 심화 — 시뮬레이션 기반 요약
Part I~V 전체
빈도주의 대응
- Casella & Berger 분포 가족 — 이항 분포의 빈도주의 관점
- MLE · 점 추정
- GLM 이론 기초 — 지수족 구조
11 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.2 (§ 2.1~2.4).
- Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society, 53, 370–418.
- Laplace, P. S. (1814). Essai philosophique sur les probabilités. Paris: Courcier.
- Ericson, W. A. (1969). Subjective Bayesian models in sampling finite populations. Journal of the Royal Statistical Society. Series B, 31(2), 195–233.
- Winkler, R. L. (1967). The assessment of prior distributions in Bayesian analysis. Journal of the American Statistical Association, 62(319), 776–800.