1 이 포스트의 위치 — Ch.1 overview 를 풀어 쓴 심화판
Ch.1 Probability and Inference 개요 가 Ch.1 전체 (§ 1.1~1.9) 를 한 호흡으로 훑는 포스트였다면, 이 포스트는 § 1.1~1.4 를 교재 원문 수준으로 풀어 쓴 심화편이다. 같은 4 절을 다시 다루는 이유는 Gelman 이 이 네 절에 베이즈 데이터 분석의 언어 전체 를 숨겨놓았기 때문이다.
“베이즈 데이터 분석은 (모델 → 사후 → 점검) 의 3단계 순환이고, 하나의 표기 규약과 하나의 베이즈 규칙이 모든 실무 문제 — 유전 · 언어 · 의학 · 조사 — 에 동일하게 적용된다.”
Ch.1.1~1.4 의 논리는 “추론 방법이 아니라 언어를 배우는 장” . 이 언어가 몸에 붙으면 Part I~V 의 모든 모델이 같은 문법으로 해석된다 (Gelman et al., 2013, Ch.1).
2 § 1.1 베이즈 데이터 분석의 3단계 (심화)
2.1 3단계의 공식 정의
Gelman 은 베이즈 데이터 분석을 세 단계의 이상화 (idealization) 로 제시한다.
- 완전 확률 모델 설정: 문제의 모든 관측 가능·관측 불가능 양의 결합 확률분포 를 구성한다. 모델은 과학적 지식과 데이터 수집 절차 에 부합해야 한다
- 관측 데이터에 대한 조건화: 적절한 사후분포 — 궁극적 관심 대상인 관측 불가능 양들의 조건부 분포 — 를 계산하고 해석한다
- 모델 적합도 평가와 사후분포 함의 검토: 모델이 데이터에 얼마나 잘 맞는가, 실질적 결론이 합리적인가, 1단계의 모델 가정에 대한 결과의 민감도는 얼마인가. 이에 따라 모델을 변경·확장하고 세 단계를 반복한다
2.2 “모델은 어디서 오는가” — 1단계의 근본 난제
교재는 다음과 같이 말한다 — “1단계는 여전히 많은 베이즈 분석에서 주요한 걸림돌 이다. 우리 모델은 어디서 오는가? 적절한 확률 명세를 어떻게 구성하는가?”
이 말이 중요한 이유 — 베이즈 교재가 “공식 적용” 을 가르치는 척하지 않고, “모델 만들기는 과학적 판단” 이라고 인정한다. 데이터 수집 절차 · 도메인 지식 · 이전 연구 · 가능한 확장을 모두 모델에 반영해야 한다.
1단계의 어려움을 완화하는 두 가지 메커니즘이 Gelman 의 핵심 주장이다.
- 3단계의 체계화된 모델 점검 (Part II Ch.6~7) — 첫 모델이 완벽할 필요가 없다. 사후 예측 점검으로 실질적 결함을 찾아 수정하면 된다
- “주관적” 사전분포 의존성의 명시적 탐색 — 민감도 분석으로 사전 선택의 영향을 정량화한다
2.3 베이즈적 사고의 동기 — “상식적 해석”
Gelman 이 교재 초반에 반복해서 강조하는 동기는 결론의 상식적 해석 가능성.
| 개념 | 빈도주의 해석 | 베이즈 해석 |
|---|---|---|
| 95% 구간 | “유사한 추론을 반복하면 95% 의 구간이 참값을 포함한다” | “이 구간이 참값을 포함할 확률은 95%” |
| 점 추정 | “편향 · 분산 · 일치성의 절충” | “사후분포의 평균/중앙값/최빈값” |
| 예측 | “표본 오차 + 모수 추정 오차를 결합” | “사후 예측 분포 — 한 덩어리의 분포” |
교재는 “표준 신뢰 구간 사용자들 대부분이 그것에 상식적 베이즈 해석 을 부여하고 있을 가능성이 크다” 고 지적한다. 즉 빈도주의 도구를 쓰면서 베이즈처럼 해석하는 이중성을 해결하려면, 처음부터 베이즈로 출발하는 게 개념적으로 깔끔하다는 것이다.
2.4 복잡성에 대한 태도
“베이즈 추론의 핵심 특징 — 불확실성의 직접 정량화 — 은 원칙적으로 많은 파라미터와 복잡한 다층 확률 명세를 가진 모델을 적합하는 데 방해가 없다” (교재 원문). 실무적 어려움은 설정 (1단계) 과 계산 (2단계) 으로 이전된다. Part III 의 MCMC·VI 가 2단계를, Part II 의 점검 도구가 3단계를 담당한다.
3 § 1.2 통계 추론의 일반 표기 (심화)
3.1 두 종류의 추정량 (estimands)
베이즈는 관측되지 않은 양 에 대해 추론한다. 두 종류로 구분.
- 잠재적으로 관측 가능한 양 (potentially observable): 미래 관측값, 미처 받지 못한 처치 하의 결과 등
- 직접 관측 불가능한 양 (not directly observable): 가설적 데이터 생성 과정을 지배하는 모수 — 회귀 계수 등
이 구분은 항상 명확하진 않지만, “통계 모델이 실제 세계에 어떻게 맞물리는지” 이해하는 데 유용하다.
3.2 기호 규약
BDA 의 표기 규약.
| 기호 | 의미 |
|---|---|
| \(\theta\) | 관측 불가능 벡터 량 또는 모집단 모수 |
| \(y\) | 관측된 데이터 (스칼라 · 벡터 · 행렬 가능) |
| \(\tilde{y}\) | 미지이나 잠재적으로 관측 가능 한 양 |
| \(X\) | 설명변수 전체 (\(n \times k\) 행렬) |
| \(x_i\) | 단일 단위의 설명변수 (열 벡터) |
추가 규약.
- 모수에 그리스 문자
- 관측된·관측 가능한 스칼라·벡터에 소문자 Roman
- 행렬에 대문자 Roman
- 벡터는 열 벡터로 취급 — \(u\) 가 \(n\)-벡터면 \(u^\top u\) 는 스칼라, \(u u^\top\) 은 \(n \times n\) 행렬
3.3 관측 단위와 변수
\(n\) 개 단위의 자료를 \(y = (y_1, \ldots, y_n)\) 벡터로 쓴다. 각 \(y_i\) 가 여러 변수의 측정이면 \(y_i\) 는 벡터, \(y\) 는 \(n \times d\) 행렬. \(y\) 를 “결과 (outcomes)” 또는 “무작위 (random)” 라고 부르는 것은 — 추론 시 “관측값이 다르게 나올 수 있었다” 는 가능성을 허용한다는 뜻이다.
3.4 교환가능성 (exchangeability) — 통계 분석의 출발점
Gelman 은 “통계 분석의 통상적 출발점은 \(n\) 개의 \(y_i\) 값이 교환가능한 것으로 간주될 수 있다는 (종종 암묵적인) 가정” 이라고 선언한다.
\[ p(y_1, \ldots, y_n) = p(y_{\sigma(1)}, \ldots, y_{\sigma(n)}) \quad \text{for all permutations } \sigma \]
비교환가능 모델 은 단위 인덱스 자체에 결과와 관련된 정보가 담겨 있는 경우에만 적절하다 — 대체로 설명변수로 표현해서 제거한다.
교환가능한 분포는 보통 미지 모수 \(\theta\) 조건부 iid 로 모델링한다.
\[ p(y_1, \ldots, y_n) = \int \prod_{i=1}^{n} p(y_i \mid \theta) \, p(\theta) \, d\theta \]
이것이 de Finetti 정리 — “교환가능 신념은 iid 혼합 표현을 갖는다”. iid 가정의 베이즈적 정당화 다.
3.5 설명변수 (covariates, explanatory variables)
각 단위에서 “무작위로 모델링하지 않는” 변수들 — 임상시험 예시의 환자 나이 · 기저 건강 상태. \(x\) 로 표기, 전체는 \(X\).
- 교환가능성은 \((x, y)_i\) 쌍 수준으로 확장 가능
- “적절한 \(X\) 를 포함시키면 교환가능 모델이 항상 적절 하다” — 인덱스를 무작위 할당으로 간주할 수 있을 만큼 충분한 정보를 \(X\) 가 담으면
- \(x\) 의 어떤 것이든 모델링하고 싶으면 \(y\) 범주로 이동 가능 — 결국 \(x\) 와 \(y\) 의 경계는 분석가의 관심에 따라 이동한다
3.6 계층 모형 (hierarchical modeling) 의 예고
Ch.5 이후에서 본격 — 여러 수준의 관측 단위에 정보가 있을 때.
“두 의학적 처치가 여러 도시의 환자들에게 적용된다고 하자. 다른 정보가 없으면 각 도시 내의 환자를 교환가능, 그리고 도시들 자체도 교환가능으로 취급하는 것이 합리적이다.”
계층의 각 수준에서 교환가능성 — 이것이 Ch.5 shrinkage 와 Ch.15 다층 회귀의 출발점.
4 § 1.3 베이즈 추론 (심화)
4.1 조건화의 철학적 차이
“관측된 데이터에 조건화하는 근본적 수준에서 베이즈 추론이 많은 교재의 접근법과 갈라진다. 그 교재들은 \(\theta\) (또는 \(\tilde{y}\)) 를 추정하는 데 쓰인 절차 를 \(y\) 의 가능한 값의 분포에 대해 회고적으로 평가하는 방식이다.” (교재 원문)
차이 요약.
| 조건화 대상 | 무엇에 대한 확률인가 | |
|---|---|---|
| 빈도주의 | \(\theta\) 의 참값 | 절차 · 추정량의 성질 |
| 베이즈 | 관측된 \(y\) | 모수 \(\theta\) · 미래 관측 \(\tilde{y}\) |
4.2 확률 표기 약속
BDA 의 표기 규약 중 가장 주의할 점.
- \(p(\cdot \mid \cdot)\) : 조건부 밀도, 인수는 문맥으로 결정
- \(p(\cdot)\) : 주변 분포
- “분포” 와 “밀도” 는 교환적으로 사용
- 연속 밀도 함수와 이산 확률질량 함수에 동일한 표기
- 같은 식 내의 다른 분포도 모두 \(p(\cdot)\) 로 — “수학적 표준의 남용이지만 간결하다”
- 사건의 확률에는 \(\Pr(\cdot)\) 를 사용할 수 있다 — \(\Pr(\theta > 2) = \int_{\theta > 2} p(\theta) \, d\theta\)
표준 분포의 경우 분포 이름으로 표기.
\[ \theta \sim N(\mu, \sigma^2) \quad \text{or} \quad p(\theta) = N(\theta \mid \mu, \sigma^2) \]
\(N(\mu, \sigma^2)\) 는 확률변수, \(N(\theta \mid \mu, \sigma^2)\) 는 밀도함수. 표기의 차이를 구분 하는 것이 Ch.2 이후에서 중요하다.
4.3 베이즈 규칙 — 공식 유도
모수 \(\theta\) 와 데이터 \(y\) 의 결합 확률은 사전 · 표본 분포로 분해.
\[ p(\theta, y) = p(\theta) \, p(y \mid \theta) \tag{1.1'} \]
조건부 확률의 기본 성질로부터 베이즈 규칙.
\[ p(\theta \mid y) = \frac{p(\theta, y)}{p(y)} = \frac{p(\theta) \, p(y \mid \theta)}{p(y)} \tag{1.1} \]
여기서 \(p(y) = \sum_\theta p(\theta) p(y \mid \theta)\) (이산) 또는 \(p(y) = \int p(\theta) p(y \mid \theta) \, d\theta\) (연속).
\(p(y)\) 는 고정된 \(y\) 에 대해 \(\theta\) 와 무관한 상수 이므로, 비정규화 사후를 쓸 수 있다.
\[ p(\theta \mid y) \propto p(\theta) \, p(y \mid \theta) \tag{1.2} \]
이 식의 두 번째 항 \(p(y \mid \theta)\) 는 \(y\) 의 함수가 아니라 \(\theta\) 의 함수 로 본다 — 우도 함수 (likelihood function).
4.4 사전 예측 분포 vs 사후 예측 분포
사전 예측 분포 (prior predictive distribution) — 관측 전 \(y\) 의 주변 분포.
\[ p(y) = \int p(y, \theta) \, d\theta = \int p(\theta) \, p(y \mid \theta) \, d\theta \tag{1.3} \]
“사전” 이라 부르는 이유 — 이전 관측에 조건화되지 않음. “예측” 이라 부르는 이유 — 관측 가능한 양의 분포.
사후 예측 분포 (posterior predictive distribution) — 관측 후 새 관측 \(\tilde{y}\) 의 분포.
\[ \begin{aligned} p(\tilde{y} \mid y) &= \int p(\tilde{y}, \theta \mid y) \, d\theta \\ &= \int p(\tilde{y} \mid \theta, y) \, p(\theta \mid y) \, d\theta \\ &= \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \tag{1.4} \end{aligned} \]
마지막 줄은 \(y\) 와 \(\tilde{y}\) 의 \(\theta\) 조건부 독립 가정에서 따라온다 — 교환가능성 가정의 직접 귀결.
“사후분포에 대한 조건부 예측의 평균” 이라는 표현이 정확하다. 각 \(\theta\) 값에서 “이 \(\theta\) 라면 \(\tilde{y}\) 는 이러이러한 분포” 를 적분으로 합친다. 두 불확실성 — 표본 변동 (\(p(\tilde{y} \mid \theta)\)) 과 모수 불확실성 (\(p(\theta \mid y)\)) — 이 한 덩어리의 예측 분포 로 자연스럽게 통합된다.
4.5 우도 함수와 우도 원리
\(p(y \mid \theta)\) 를 \(\theta\) 의 함수로 볼 때 우도 함수. 베이즈 규칙에 의하면 데이터가 사후 추론에 영향을 주는 경로는 오직 우도 함수 뿐이다.
“이런 방식으로 베이즈 추론은 우도 원리 (likelihood principle) 를 따른다.”
단, 우도 원리는 선택된 모델 가족의 프레임 내에서만 합리적이다. 모델이 맞다는 확신이 없을 때 Ch.6 의 사후 예측 점검이 필요한 이유다.
“응용 베이즈 통계학자의 관점은 다양한 가능한 모델에 대해 베이즈 규칙을 적용할 의지가 있는 사람 이다.” (교재)
4.6 오즈와 우도비 형식의 베이즈 규칙
사후 오즈 (posterior odds) 가 이산 모수에서 특히 유용하다.
\[ \frac{p(\theta_1 \mid y)}{p(\theta_2 \mid y)} = \frac{p(\theta_1) \, p(y \mid \theta_1) / p(y)}{p(\theta_2) \, p(y \mid \theta_2) / p(y)} = \frac{p(\theta_1)}{p(\theta_2)} \cdot \frac{p(y \mid \theta_1)}{p(y \mid \theta_2)} \tag{1.5} \]
\[ \text{사후 오즈} = \text{사전 오즈} \times \text{우도비} \]
정규화 상수 \(p(y)\) 가 약분된다. 증거의 “곱셈” 구조 — 독립 데이터 \(y_a, y_b\) 에 대해 우도비가 곱해지는 구조가 의사결정 이론 · 진단 검사 · 법의학적 증거 평가 등에서 직관을 준다.
5 § 1.4 이산 예제 — 혈우병 유전과 맞춤법 검사
5.1 혈우병 유전자 보유 여부
배경. 혈우병은 X 염색체 연관 열성 유전. 남성은 X 하나라 병가능 보유자면 발병. 여성은 X 두 개라 한쪽만 보유자면 무증상 (다른 X 가 정상 유전자 제공).
시나리오. 관심 여성 = 영향받은 남동생을 두었음 → 어머니는 보유자 (한쪽 X 에 병원성 유전자) 확정. 아버지는 정상. 관심 여성은 어머니로부터 좋은 X 를 받을 확률 1/2, 나쁜 X 를 받을 확률 1/2.
사전분포.
\[ \theta \in \{0, 1\}, \quad \Pr(\theta = 1) = \Pr(\theta = 0) = \frac{1}{2} \]
\(\theta = 1\): 보유자. \(\theta = 0\): 비보유자.
데이터. 아들 두 명 (\(y_1, y_2\)), 둘 다 비발병. \(y_i = 1\) 이면 발병.
보유자이면 각 아들이 발병 유전자 X 를 받을 확률은 1/2 → 건강할 확률도 1/2.
\[ \Pr(y_1 = 0, y_2 = 0 \mid \theta = 1) = (0.5)(0.5) = 0.25 \]
\[ \Pr(y_1 = 0, y_2 = 0 \mid \theta = 0) = (1)(1) = 1 \]
돌연변이 가능성은 무시 (비보유자의 아들이 발병할 확률은 사실상 0).
사후분포.
\[ \Pr(\theta = 1 \mid y) = \frac{p(y \mid \theta=1) \Pr(\theta=1)}{p(y \mid \theta=1) \Pr(\theta=1) + p(y \mid \theta=0) \Pr(\theta=0)} = \frac{(0.25)(0.5)}{(0.25)(0.5) + (1)(0.5)} = \frac{0.125}{0.625} = 0.20 \]
관측 전 1/2 이던 확률이 관측 후 1/5 로 감소.
5.2 오즈 형식으로 다시 계산
- 사전 오즈: \(0.5 / 0.5 = 1\)
- 우도비: \(0.25 / 1 = 0.25\)
- 사후 오즈: \(1 \times 0.25 = 0.25\)
- 확률로 환산: \(0.25 / (1 + 0.25) = 0.2\) ✓
오즈 형식의 이점 — 정규화 상수 계산 없이 곱셈만으로 끝난다. 순차 갱신에서 특히 유용.
5.3 순차 갱신 — 셋째 아들도 건강
핵심 — 사후분포가 다음 단계의 사전분포 로 쓰인다.
\[ \Pr(\theta = 1 \mid y_1, y_2, y_3 = 0) = \frac{(0.5)(0.20)}{(0.5)(0.20) + (1)(0.80)} = \frac{0.10}{0.90} = 0.111 \]
오즈 형식이면 더 간단.
- 이전 사후 오즈: 0.25
- 세 번째 우도비: 0.5 / 1 = 0.5
- 새 사후 오즈: \(0.25 \times 0.5 = 0.125\)
- 확률: \(0.125 / 1.125 = 0.111\) ✓
5.4 셋째 아들이 발병이라면? — 결정적 업데이트
\(\Pr(y_3 = 1 \mid \theta = 0) \approx 0\) (돌연변이 무시).
\[ \Pr(\theta = 1 \mid \ldots, y_3 = 1) = \frac{p(y_3 = 1 \mid \theta=1) \times \text{이전 사후}}{\text{정규화}} = \frac{(0.5)(0.2)}{(0.5)(0.2) + (0)(0.8)} = 1 \]
단 하나의 발병 관측이 보유자 가설을 결정적으로 확정. 이것이 우도비 = ∞ 인 경우의 베이즈 규칙 의 동작.
- 순차: 한 번에 한 관측씩, 누적 사후로 업데이트
- 결정적: 우도비가 0 이나 ∞ 면 사후가 한쪽으로 완전히 붕괴
- 대칭적: \(n\) 개 관측을 한 번에 처리하거나 \(n\) 번 축차적으로 처리하거나 결과가 같다
이 세 성질이 임상 진단 업데이트 · 스팸 필터 · 법정 증거 평가 등 베이즈 규칙의 전형적 응용 구조다.
5.5 맞춤법 검사 — “radom” 의 의도 추정
사용자가 “radom” 을 타이핑했다. 의도한 단어 \(\theta\) 의 후보 — {random, radon, radom}.
\[ \Pr(\theta \mid y = \text{"radom"}) \propto p(\theta) \Pr(y = \text{"radom"} \mid \theta) \tag{1.6} \]
사전분포 (Google 연구진 제공, 영어 말뭉치의 상대 빈도).
| \(\theta\) | \(p(\theta)\) |
|---|---|
| random | \(7.60 \times 10^{-5}\) |
| radon | \(6.05 \times 10^{-6}\) |
| radom | \(3.12 \times 10^{-7}\) |
세 값의 합이 1 이 아니어도 괜찮다 — 정규화 상수로 흡수.
가능도 (Google 오타 모델).
| \(\theta\) | \(p(\text{"radom"} \mid \theta)\) |
|---|---|
| random | 0.00193 |
| radon | 0.000143 |
| radom | 0.975 |
“radom” 이 실제로 의도된 단어면 97.5% 로 정확히 타이핑됨. “random” 이 의도인데 마지막 글자를 빠뜨려 “radom” 을 입력할 확률 0.193%. “radon” → “radom” 은 마지막 글자 오타로 0.0143%.
표의 \(p(\text{"radom"} \mid \theta)\) 세 값의 합은 1 이 아니다. 각 \(\theta\) 값에서 “radom” 이라는 특정 결과에 대한 조건부 확률 이기 때문이다. 각 행에서 “radom” 이외의 모든 가능한 타이핑 결과 에 대한 확률들까지 합쳐야 1 이 된다.
우도 함수는 \(\theta\) 의 함수 — 하나의 관측 \(y\) 를 고정한 채 \(\theta\) 를 바꾸며 평가한 값들이다.
사후분포 (비정규화 사후 → 정규화).
| \(\theta\) | \(p(\theta) \, p(\text{"radom"} \mid \theta)\) | \(p(\theta \mid \text{"radom"})\) |
|---|---|---|
| random | \(1.47 \times 10^{-7}\) | 0.325 |
| radon | \(8.65 \times 10^{-10}\) | 0.002 |
| radom | \(3.04 \times 10^{-7}\) | 0.673 |
결론 — “radom” 은 올바른 타이핑일 확률이 67.3%, “random” 의 오타일 확률이 32.5%, “radon” 의 오타일 확률이 0.2%.
5.6 모델의 해석·의심·확장
교재는 이 결과를 즉각 받아들이지 않는다. 통계학 교재 저자들의 관점에서는 “radom” 이 너무 낯설다 — 보통 문맥에서 0.673 은 과도해 보인다.
“사후분포의 주장에 이의를 제기할 때, 우리는 모델이 데이터에 맞지 않거나 모델에 포함되지 않은 사전 정보가 있다 고 말하는 것이다.” (교재)
이 경우 데이터가 단일 단어 하나 — 적합도는 이슈가 아니다. 따라서 사전 정보 추가 가 필요.
문맥 정보 \(x\) 추가.
\[ p(\theta \mid x, y) \propto p(\theta \mid x) \, p(y \mid \theta, x) \]
근사 — \(p(y \mid \theta, x) \approx p(y \mid \theta)\) (오타 확률은 문맥 독립). 이 근사 아래서 \(p(\theta \mid x)\) — 문맥 조건부 사전 만 교체하면 된다.
문서가 통계학 책이면 \(p(\text{random} \mid x) \gg p(\text{radom} \mid x)\) 가 될 것이다. 사후가 “random” 쪽으로 크게 이동한다.
베이즈 규칙 자체는 수학적으로 맞다. 사후 결과가 이상하면 거의 항상 사전분포의 문제 — 포함되지 않은 도메인 지식이 있다는 신호다. 이 교훈이 Gelman 의 응용 베이즈 철학의 중심이다.
실무에서 “사후가 이상하면 사전을 점검” 한다는 루틴이 여기서 유래한다. Part II Ch.6 의 사후 예측 점검도 같은 정신 — “모델이 데이터를 설명하지 못하는 지점” 을 찾아 모델을 수정한다.
6 예제와 수식의 연결 지도
| Ch.1 구성 요소 | 예제 역할 | 이후 장 연결 |
|---|---|---|
| 3단계 순환 | 혈우병 — 단계 1: 사전 · 가능도, 단계 2: 사후, 단계 3: 새 관측으로 점검 | Ch.6 사후 예측 점검 |
| 표기 \(\theta, y, \tilde{y}\) | 혈우병의 \(\theta \in \{0,1\}\), \(y = (y_1, y_2)\) | Ch.2~5 연속 \(\theta\) 로 확장 |
| 교환가능성 | 두 아들의 출생 순서 무관 — iid | Ch.5 계층 모형의 출발 |
| 베이즈 규칙 | 사후 = (사전 × 가능도) / 증거 | Ch.2~5 계속 적용 |
| 순차 갱신 | 셋째 아들 관측 시 업데이트 | Ch.11 MCMC 도 근본은 같은 원리 |
| 우도비 형식 | 사전 오즈 × 우도비 = 사후 오즈 | Ch.7 베이즈 팩터 |
| 모델 확장 | 맞춤법 — 문맥 \(x\) 추가 | Ch.14~18 회귀 모형 |
Ch.1.1~1.4 의 네 절이 이후 22개 장의 모든 장치의 축소 모형 이라는 것이 Gelman 의 구성 전략이다.
7 코드 예제 — 혈우병 · 맞춤법 사후확률 전 계산
7.1 Step 1: 순수 Python — 혈우병 오즈 형식 순차 갱신
def odds_update(prior_odds, likelihood_ratio):
return prior_odds * likelihood_ratio
def odds_to_prob(odds):
return odds / (1 + odds)
# Prior: carrier 확률 0.5 → 오즈 1
prior_odds = 1.0
print(f"Prior: P(carrier) = {odds_to_prob(prior_odds):.4f}")
# 아들 1명 건강: 우도비 = 0.5 / 1 = 0.5
prior_odds = odds_update(prior_odds, 0.5)
print(f"Son 1 healthy: P(carrier) = {odds_to_prob(prior_odds):.4f}")
prior_odds = odds_update(prior_odds, 0.5)
print(f"Son 2 healthy: P(carrier) = {odds_to_prob(prior_odds):.4f}")
prior_odds = odds_update(prior_odds, 0.5)
print(f"Son 3 healthy: P(carrier) = {odds_to_prob(prior_odds):.4f}")
# 만약 넷째가 발병 — 우도비 = 0.5 / 0 → 무한
print("If son 4 affected: P(carrier) = 1.0 (deterministic)")예상 출력: 0.5 → 0.2 → 0.111 → 0.059. 오즈 형식이면 정규화 계산 없이 곱셈만 으로 같은 결과를 얻는 것을 확인.
7.2 Step 2: 맞춤법 검사 — Google 확률 값 기반 완전 계산
# Ch.1.4 의 Google 확률 값
priors = {"random": 7.60e-5, "radon": 6.05e-6, "radom": 3.12e-7}
likelihoods = {"random": 0.00193, "radon": 0.000143, "radom": 0.975}
# 비정규화 사후 = prior × likelihood
unnorm = {theta: priors[theta] * likelihoods[theta] for theta in priors}
# 정규화
total = sum(unnorm.values())
posteriors = {theta: val / total for theta, val in unnorm.items()}
print(f"{'theta':<8} {'prior':>12} {'likelihood':>12} {'unnorm':>14} {'posterior':>12}")
for theta in priors:
print(f"{theta:<8} {priors[theta]:>12.2e} {likelihoods[theta]:>12.6f} "
f"{unnorm[theta]:>14.4e} {posteriors[theta]:>12.4f}")
# 문맥 정보 추가 — 통계 교재 문맥에서 'random' 이 훨씬 흔하다고 가정
context_priors = {"random": 1e-3, "radon": 1e-5, "radom": 1e-9}
unnorm_ctx = {theta: context_priors[theta] * likelihoods[theta] for theta in context_priors}
total_ctx = sum(unnorm_ctx.values())
posteriors_ctx = {theta: val / total_ctx for theta, val in unnorm_ctx.items()}
print("\n=== With statistics-textbook context ===")
for theta in posteriors_ctx:
print(f"{theta:<8} posterior = {posteriors_ctx[theta]:.4f}")예상 출력 — 원 사후 random=0.325, radon=0.002, radom=0.673. 통계 문맥 사전 적용 후 random 쪽으로 크게 이동. 문맥 정보의 투입으로 사후가 어떻게 바뀌는지 정량적으로 확인 가능하다.
8 관련 주제
같은 Ch.1 의 다른 절 (계속)
- Ch.1 Probability and Inference 개요 — § 1.1~1.9 를 한 호흡으로 훑는 overview
- § 1.5 Probability as a measure of uncertainty (작성 예정)
- § 1.6 Football point spreads (작성 예정)
- § 1.7~1.8 Useful probability results · Computation (작성 예정)
Part I 전체 맥락
- Part I: Fundamentals of Bayesian Inference — Ch.1~5 개관
- Part II · Part III · Part IV · Part V
빈도주의 기초
- 확률론 개요 — Kolmogorov 공리와 확률공간
- 조건부 확률과 베이즈 정리 — 빈도주의 관점의 베이즈 규칙
- 확률의 계산 규칙 — 전확률 · 주변화 · 독립성
후속 Ch.2~5 상세 (작성 예정)
- Ch.2 Single-Parameter Models — 이항 · 정규 · 포아송의 켤레 사전
- Ch.3 Multiparameter Models — nuisance 모수 주변화
- Ch.4 Asymptotics — 사후 정규 근사
- Ch.5 Hierarchical Models — 교환가능성의 계층화
9 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.1 (§ 1.1~1.4).
- de Finetti, B. (1974). Theory of Probability: A Critical Introductory Treatment. Wiley.
- Lindley, D. V., & Phillips, L. D. (1976). Inference for a Bernoulli process (a Bayesian view). The American Statistician, 30(3), 112–119.
- Kerrich, J. E. (1946). An Experimental Introduction to the Theory of Probability. Belgisk Import Co.
- Google Research (2008). ‘All Our N-gram are Belong to You’. Google Research Blog.