Kwangmin Kim - Ch.1.1~1.4 — 베이즈 프로세스·표기법·베이즈 추론·이산 예제 심화

1 이 포스트의 위치 — Ch.1 overview 를 풀어 쓴 심화판

Ch.1 Probability and Inference 개요 가 Ch.1 전체 (§ 1.1~1.9) 를 한 호흡으로 훑는 포스트였다면, 이 포스트는 § 1.1~1.4 를 교재 원문 수준으로 풀어 쓴 심화편이다. 같은 4 절을 다시 다루는 이유는 Gelman 이 이 네 절에 베이즈 데이터 분석의 언어 전체 를 숨겨놓았기 때문이다.

§ 1.1~1.4 의 한 줄 요약

“베이즈 데이터 분석은 (모델 → 사후 → 점검) 의 3단계 순환이고, 하나의 표기 규약과 하나의 베이즈 규칙이 모든 실무 문제 — 유전 · 언어 · 의학 · 조사 — 에 동일하게 적용된다.”

Ch.1.1~1.4 의 논리는 “추론 방법이 아니라 언어를 배우는 장” . 이 언어가 몸에 붙으면 Part I~V 의 모든 모델이 같은 문법으로 해석된다 (Gelman et al., 2013, Ch.1).

2 § 1.1 베이즈 데이터 분석의 3단계 (심화)

2.1 3단계의 공식 정의

Gelman 은 베이즈 데이터 분석을 세 단계의 이상화 (idealization) 로 제시한다.

완전 확률 모델 설정: 문제의 모든 관측 가능·관측 불가능 양의 결합 확률분포 를 구성한다. 모델은 과학적 지식과 데이터 수집 절차 에 부합해야 한다
관측 데이터에 대한 조건화: 적절한 사후분포 — 궁극적 관심 대상인 관측 불가능 양들의 조건부 분포 — 를 계산하고 해석한다
모델 적합도 평가와 사후분포 함의 검토: 모델이 데이터에 얼마나 잘 맞는가, 실질적 결론이 합리적인가, 1단계의 모델 가정에 대한 결과의 민감도는 얼마인가. 이에 따라 모델을 변경·확장하고 세 단계를 반복한다

2.2 “모델은 어디서 오는가” — 1단계의 근본 난제

직관 — 1단계가 가장 어렵다는 Gelman 의 고백

교재는 다음과 같이 말한다 — “1단계는 여전히 많은 베이즈 분석에서 주요한 걸림돌 이다. 우리 모델은 어디서 오는가? 적절한 확률 명세를 어떻게 구성하는가?”

이 말이 중요한 이유 — 베이즈 교재가 “공식 적용” 을 가르치는 척하지 않고, “모델 만들기는 과학적 판단” 이라고 인정한다. 데이터 수집 절차 · 도메인 지식 · 이전 연구 · 가능한 확장을 모두 모델에 반영해야 한다.

1단계의 어려움을 완화하는 두 가지 메커니즘이 Gelman 의 핵심 주장이다.

3단계의 체계화된 모델 점검 (Part II Ch.6~7) — 첫 모델이 완벽할 필요가 없다. 사후 예측 점검으로 실질적 결함을 찾아 수정하면 된다
“주관적” 사전분포 의존성의 명시적 탐색 — 민감도 분석으로 사전 선택의 영향을 정량화한다

2.3 베이즈적 사고의 동기 — “상식적 해석”

Gelman 이 교재 초반에 반복해서 강조하는 동기는 결론의 상식적 해석 가능성.

개념	빈도주의 해석	베이즈 해석
95% 구간	“유사한 추론을 반복하면 95% 의 구간이 참값을 포함한다”	“이 구간이 참값을 포함할 확률은 95%”
점 추정	“편향 · 분산 · 일치성의 절충”	“사후분포의 평균/중앙값/최빈값”
예측	“표본 오차 + 모수 추정 오차를 결합”	“사후 예측 분포 — 한 덩어리의 분포”

Gelman 의 논증 — 실무자는 이미 베이즈처럼 해석한다

교재는 “표준 신뢰 구간 사용자들 대부분이 그것에 상식적 베이즈 해석 을 부여하고 있을 가능성이 크다” 고 지적한다. 즉 빈도주의 도구를 쓰면서 베이즈처럼 해석하는 이중성을 해결하려면, 처음부터 베이즈로 출발하는 게 개념적으로 깔끔하다는 것이다.

2.4 복잡성에 대한 태도

“베이즈 추론의 핵심 특징 — 불확실성의 직접 정량화 — 은 원칙적으로 많은 파라미터와 복잡한 다층 확률 명세를 가진 모델을 적합하는 데 방해가 없다” (교재 원문). 실무적 어려움은 설정 (1단계) 과 계산 (2단계) 으로 이전된다. Part III 의 MCMC·VI 가 2단계를, Part II 의 점검 도구가 3단계를 담당한다.

3 § 1.2 통계 추론의 일반 표기 (심화)

3.1 두 종류의 추정량 (estimands)

베이즈는 관측되지 않은 양 에 대해 추론한다. 두 종류로 구분.

잠재적으로 관측 가능한 양 (potentially observable): 미래 관측값, 미처 받지 못한 처치 하의 결과 등
직접 관측 불가능한 양 (not directly observable): 가설적 데이터 생성 과정을 지배하는 모수 — 회귀 계수 등

이 구분은 항상 명확하진 않지만, “통계 모델이 실제 세계에 어떻게 맞물리는지” 이해하는 데 유용하다.

3.2 기호 규약

BDA 의 표기 규약.

기호	의미
\(\theta\)	관측 불가능 벡터 량 또는 모집단 모수
\(y\)	관측된 데이터 (스칼라 · 벡터 · 행렬 가능)
\(\tilde{y}\)	미지이나 잠재적으로 관측 가능 한 양
\(X\)	설명변수 전체 (\(n \times k\) 행렬)
\(x_i\)	단일 단위의 설명변수 (열 벡터)

추가 규약.

모수에 그리스 문자
관측된·관측 가능한 스칼라·벡터에 소문자 Roman
행렬에 대문자 Roman
벡터는 열 벡터로 취급 — \(u\) 가 \(n\)-벡터면 \(u^\top u\) 는 스칼라, \(u u^\top\) 은 \(n \times n\) 행렬

3.3 관측 단위와 변수

\(n\) 개 단위의 자료를 \(y = (y_1, \ldots, y_n)\) 벡터로 쓴다. 각 \(y_i\) 가 여러 변수의 측정이면 \(y_i\) 는 벡터, \(y\) 는 \(n \times d\) 행렬. \(y\) 를 “결과 (outcomes)” 또는 “무작위 (random)” 라고 부르는 것은 — 추론 시 “관측값이 다르게 나올 수 있었다” 는 가능성을 허용한다는 뜻이다.

3.4 교환가능성 (exchangeability) — 통계 분석의 출발점

Gelman 은 “통계 분석의 통상적 출발점은 \(n\) 개의 \(y_i\) 값이 교환가능한 것으로 간주될 수 있다는 (종종 암묵적인) 가정” 이라고 선언한다.

\[ p(y_1, \ldots, y_n) = p(y_{\sigma(1)}, \ldots, y_{\sigma(n)}) \quad \text{for all permutations } \sigma \]

비교환가능 모델 은 단위 인덱스 자체에 결과와 관련된 정보가 담겨 있는 경우에만 적절하다 — 대체로 설명변수로 표현해서 제거한다.

교환가능한 분포는 보통 미지 모수 \(\theta\) 조건부 iid 로 모델링한다.

\[ p(y_1, \ldots, y_n) = \int \prod_{i=1}^{n} p(y_i \mid \theta) \, p(\theta) \, d\theta \]

이것이 de Finetti 정리 — “교환가능 신념은 iid 혼합 표현을 갖는다”. iid 가정의 베이즈적 정당화 다.

3.5 설명변수 (covariates, explanatory variables)

각 단위에서 “무작위로 모델링하지 않는” 변수들 — 임상시험 예시의 환자 나이 · 기저 건강 상태. \(x\) 로 표기, 전체는 \(X\).

교환가능성은 \((x, y)_i\) 쌍 수준으로 확장 가능
“적절한 \(X\) 를 포함시키면 교환가능 모델이 항상 적절 하다” — 인덱스를 무작위 할당으로 간주할 수 있을 만큼 충분한 정보를 \(X\) 가 담으면
\(x\) 의 어떤 것이든 모델링하고 싶으면 \(y\) 범주로 이동 가능 — 결국 \(x\) 와 \(y\) 의 경계는 분석가의 관심에 따라 이동한다

3.6 계층 모형 (hierarchical modeling) 의 예고

Ch.5 이후에서 본격 — 여러 수준의 관측 단위에 정보가 있을 때.

“두 의학적 처치가 여러 도시의 환자들에게 적용된다고 하자. 다른 정보가 없으면 각 도시 내의 환자를 교환가능, 그리고 도시들 자체도 교환가능으로 취급하는 것이 합리적이다.”

계층의 각 수준에서 교환가능성 — 이것이 Ch.5 shrinkage 와 Ch.15 다층 회귀의 출발점.

4 § 1.3 베이즈 추론 (심화)

4.1 조건화의 철학적 차이

“관측된 데이터에 조건화하는 근본적 수준에서 베이즈 추론이 많은 교재의 접근법과 갈라진다. 그 교재들은 \(\theta\) (또는 \(\tilde{y}\)) 를 추정하는 데 쓰인 절차 를 \(y\) 의 가능한 값의 분포에 대해 회고적으로 평가하는 방식이다.” (교재 원문)

차이 요약.

	조건화 대상	무엇에 대한 확률인가
빈도주의	\(\theta\) 의 참값	절차 · 추정량의 성질
베이즈	관측된 \(y\)	모수 \(\theta\) · 미래 관측 \(\tilde{y}\)

4.2 확률 표기 약속

BDA 의 표기 규약 중 가장 주의할 점.

\(p(\cdot \mid \cdot)\) : 조건부 밀도, 인수는 문맥으로 결정
\(p(\cdot)\) : 주변 분포
“분포” 와 “밀도” 는 교환적으로 사용
연속 밀도 함수와 이산 확률질량 함수에 동일한 표기
같은 식 내의 다른 분포도 모두 \(p(\cdot)\) 로 — “수학적 표준의 남용이지만 간결하다”
사건의 확률에는 \(\Pr(\cdot)\) 를 사용할 수 있다 — \(\Pr(\theta > 2) = \int_{\theta > 2} p(\theta) \, d\theta\)

표준 분포의 경우 분포 이름으로 표기.

\[ \theta \sim N(\mu, \sigma^2) \quad \text{or} \quad p(\theta) = N(\theta \mid \mu, \sigma^2) \]

\(N(\mu, \sigma^2)\) 는 확률변수, \(N(\theta \mid \mu, \sigma^2)\) 는 밀도함수. 표기의 차이를 구분 하는 것이 Ch.2 이후에서 중요하다.

4.3 베이즈 규칙 — 공식 유도

모수 \(\theta\) 와 데이터 \(y\) 의 결합 확률은 사전 · 표본 분포로 분해.

\[ p(\theta, y) = p(\theta) \, p(y \mid \theta) \tag{1.1'} \]

조건부 확률의 기본 성질로부터 베이즈 규칙.

\[ p(\theta \mid y) = \frac{p(\theta, y)}{p(y)} = \frac{p(\theta) \, p(y \mid \theta)}{p(y)} \tag{1.1} \]

여기서 \(p(y) = \sum_\theta p(\theta) p(y \mid \theta)\) (이산) 또는 \(p(y) = \int p(\theta) p(y \mid \theta) \, d\theta\) (연속).

\(p(y)\) 는 고정된 \(y\) 에 대해 \(\theta\) 와 무관한 상수 이므로, 비정규화 사후를 쓸 수 있다.

\[ p(\theta \mid y) \propto p(\theta) \, p(y \mid \theta) \tag{1.2} \]

이 식의 두 번째 항 \(p(y \mid \theta)\) 는 \(y\) 의 함수가 아니라 \(\theta\) 의 함수 로 본다 — 우도 함수 (likelihood function).

4.4 사전 예측 분포 vs 사후 예측 분포

사전 예측 분포 (prior predictive distribution) — 관측 전 \(y\) 의 주변 분포.

\[ p(y) = \int p(y, \theta) \, d\theta = \int p(\theta) \, p(y \mid \theta) \, d\theta \tag{1.3} \]

“사전” 이라 부르는 이유 — 이전 관측에 조건화되지 않음. “예측” 이라 부르는 이유 — 관측 가능한 양의 분포.

사후 예측 분포 (posterior predictive distribution) — 관측 후 새 관측 \(\tilde{y}\) 의 분포.

\[ \begin{aligned} p(\tilde{y} \mid y) &= \int p(\tilde{y}, \theta \mid y) \, d\theta \\ &= \int p(\tilde{y} \mid \theta, y) \, p(\theta \mid y) \, d\theta \\ &= \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \tag{1.4} \end{aligned} \]

마지막 줄은 \(y\) 와 \(\tilde{y}\) 의 \(\theta\) 조건부 독립 가정에서 따라온다 — 교환가능성 가정의 직접 귀결.

직관 — 사후 예측은 “\(\theta\) 에 대한 사후 평균으로 쓴 새 관측 분포”

“사후분포에 대한 조건부 예측의 평균” 이라는 표현이 정확하다. 각 \(\theta\) 값에서 “이 \(\theta\) 라면 \(\tilde{y}\) 는 이러이러한 분포” 를 적분으로 합친다. 두 불확실성 — 표본 변동 (\(p(\tilde{y} \mid \theta)\)) 과 모수 불확실성 (\(p(\theta \mid y)\)) — 이 한 덩어리의 예측 분포 로 자연스럽게 통합된다.

4.5 우도 함수와 우도 원리

\(p(y \mid \theta)\) 를 \(\theta\) 의 함수로 볼 때 우도 함수. 베이즈 규칙에 의하면 데이터가 사후 추론에 영향을 주는 경로는 오직 우도 함수 뿐이다.

“이런 방식으로 베이즈 추론은 우도 원리 (likelihood principle) 를 따른다.”

단, 우도 원리는 선택된 모델 가족의 프레임 내에서만 합리적이다. 모델이 맞다는 확신이 없을 때 Ch.6 의 사후 예측 점검이 필요한 이유다.

“응용 베이즈 통계학자의 관점은 다양한 가능한 모델에 대해 베이즈 규칙을 적용할 의지가 있는 사람 이다.” (교재)

4.6 오즈와 우도비 형식의 베이즈 규칙

사후 오즈 (posterior odds) 가 이산 모수에서 특히 유용하다.

\[ \frac{p(\theta_1 \mid y)}{p(\theta_2 \mid y)} = \frac{p(\theta_1) \, p(y \mid \theta_1) / p(y)}{p(\theta_2) \, p(y \mid \theta_2) / p(y)} = \frac{p(\theta_1)}{p(\theta_2)} \cdot \frac{p(y \mid \theta_1)}{p(y \mid \theta_2)} \tag{1.5} \]

\[ \text{사후 오즈} = \text{사전 오즈} \times \text{우도비} \]

정규화 상수 \(p(y)\) 가 약분된다. 증거의 “곱셈” 구조 — 독립 데이터 \(y_a, y_b\) 에 대해 우도비가 곱해지는 구조가 의사결정 이론 · 진단 검사 · 법의학적 증거 평가 등에서 직관을 준다.

5 § 1.4 이산 예제 — 혈우병 유전과 맞춤법 검사

5.1 혈우병 유전자 보유 여부

배경. 혈우병은 X 염색체 연관 열성 유전. 남성은 X 하나라 병가능 보유자면 발병. 여성은 X 두 개라 한쪽만 보유자면 무증상 (다른 X 가 정상 유전자 제공).

시나리오. 관심 여성 = 영향받은 남동생을 두었음 → 어머니는 보유자 (한쪽 X 에 병원성 유전자) 확정. 아버지는 정상. 관심 여성은 어머니로부터 좋은 X 를 받을 확률 1/2, 나쁜 X 를 받을 확률 1/2.

사전분포.

\[ \theta \in \{0, 1\}, \quad \Pr(\theta = 1) = \Pr(\theta = 0) = \frac{1}{2} \]

\(\theta = 1\): 보유자. \(\theta = 0\): 비보유자.

데이터. 아들 두 명 (\(y_1, y_2\)), 둘 다 비발병. \(y_i = 1\) 이면 발병.

보유자이면 각 아들이 발병 유전자 X 를 받을 확률은 1/2 → 건강할 확률도 1/2.

\[ \Pr(y_1 = 0, y_2 = 0 \mid \theta = 1) = (0.5)(0.5) = 0.25 \]

\[ \Pr(y_1 = 0, y_2 = 0 \mid \theta = 0) = (1)(1) = 1 \]

돌연변이 가능성은 무시 (비보유자의 아들이 발병할 확률은 사실상 0).

사후분포.

\[ \Pr(\theta = 1 \mid y) = \frac{p(y \mid \theta=1) \Pr(\theta=1)}{p(y \mid \theta=1) \Pr(\theta=1) + p(y \mid \theta=0) \Pr(\theta=0)} = \frac{(0.25)(0.5)}{(0.25)(0.5) + (1)(0.5)} = \frac{0.125}{0.625} = 0.20 \]

관측 전 1/2 이던 확률이 관측 후 1/5 로 감소.

5.2 오즈 형식으로 다시 계산

사전 오즈: \(0.5 / 0.5 = 1\)
우도비: \(0.25 / 1 = 0.25\)
사후 오즈: \(1 \times 0.25 = 0.25\)
확률로 환산: \(0.25 / (1 + 0.25) = 0.2\) ✓

오즈 형식의 이점 — 정규화 상수 계산 없이 곱셈만으로 끝난다. 순차 갱신에서 특히 유용.

5.3 순차 갱신 — 셋째 아들도 건강

핵심 — 사후분포가 다음 단계의 사전분포 로 쓰인다.

\[ \Pr(\theta = 1 \mid y_1, y_2, y_3 = 0) = \frac{(0.5)(0.20)}{(0.5)(0.20) + (1)(0.80)} = \frac{0.10}{0.90} = 0.111 \]

오즈 형식이면 더 간단.

이전 사후 오즈: 0.25
세 번째 우도비: 0.5 / 1 = 0.5
새 사후 오즈: \(0.25 \times 0.5 = 0.125\)
확률: \(0.125 / 1.125 = 0.111\) ✓

5.4 셋째 아들이 발병이라면? — 결정적 업데이트

\(\Pr(y_3 = 1 \mid \theta = 0) \approx 0\) (돌연변이 무시).

\[ \Pr(\theta = 1 \mid \ldots, y_3 = 1) = \frac{p(y_3 = 1 \mid \theta=1) \times \text{이전 사후}}{\text{정규화}} = \frac{(0.5)(0.2)}{(0.5)(0.2) + (0)(0.8)} = 1 \]

단 하나의 발병 관측이 보유자 가설을 결정적으로 확정. 이것이 우도비 = ∞ 인 경우의 베이즈 규칙 의 동작.

직관 — 베이즈 규칙은 순차 · 결정적 · 대칭적

순차: 한 번에 한 관측씩, 누적 사후로 업데이트
결정적: 우도비가 0 이나 ∞ 면 사후가 한쪽으로 완전히 붕괴
대칭적: \(n\) 개 관측을 한 번에 처리하거나 \(n\) 번 축차적으로 처리하거나 결과가 같다

이 세 성질이 임상 진단 업데이트 · 스팸 필터 · 법정 증거 평가 등 베이즈 규칙의 전형적 응용 구조다.

5.5 맞춤법 검사 — “radom” 의 의도 추정

사용자가 “radom” 을 타이핑했다. 의도한 단어 \(\theta\) 의 후보 — {random, radon, radom}.

\[ \Pr(\theta \mid y = \text{"radom"}) \propto p(\theta) \Pr(y = \text{"radom"} \mid \theta) \tag{1.6} \]

사전분포 (Google 연구진 제공, 영어 말뭉치의 상대 빈도).

\(\theta\)	\(p(\theta)\)
random	\(7.60 \times 10^{-5}\)
radon	\(6.05 \times 10^{-6}\)
radom	\(3.12 \times 10^{-7}\)

세 값의 합이 1 이 아니어도 괜찮다 — 정규화 상수로 흡수.

가능도 (Google 오타 모델).

\(\theta\)	\(p(\text{"radom"} \mid \theta)\)
random	0.00193
radon	0.000143
radom	0.975

“radom” 이 실제로 의도된 단어면 97.5% 로 정확히 타이핑됨. “random” 이 의도인데 마지막 글자를 빠뜨려 “radom” 을 입력할 확률 0.193%. “radon” → “radom” 은 마지막 글자 오타로 0.0143%.

중요한 주의 — 우도 함수는 확률 분포가 아니다

표의 \(p(\text{"radom"} \mid \theta)\) 세 값의 합은 1 이 아니다. 각 \(\theta\) 값에서 “radom” 이라는 특정 결과에 대한 조건부 확률 이기 때문이다. 각 행에서 “radom” 이외의 모든 가능한 타이핑 결과 에 대한 확률들까지 합쳐야 1 이 된다.

우도 함수는 \(\theta\) 의 함수 — 하나의 관측 \(y\) 를 고정한 채 \(\theta\) 를 바꾸며 평가한 값들이다.

사후분포 (비정규화 사후 → 정규화).

\(\theta\)	\(p(\theta) \, p(\text{"radom"} \mid \theta)\)	\(p(\theta \mid \text{"radom"})\)
random	\(1.47 \times 10^{-7}\)	0.325
radon	\(8.65 \times 10^{-10}\)	0.002
radom	\(3.04 \times 10^{-7}\)	0.673

결론 — “radom” 은 올바른 타이핑일 확률이 67.3%, “random” 의 오타일 확률이 32.5%, “radon” 의 오타일 확률이 0.2%.

5.6 모델의 해석·의심·확장

교재는 이 결과를 즉각 받아들이지 않는다. 통계학 교재 저자들의 관점에서는 “radom” 이 너무 낯설다 — 보통 문맥에서 0.673 은 과도해 보인다.

“사후분포의 주장에 이의를 제기할 때, 우리는 모델이 데이터에 맞지 않거나 모델에 포함되지 않은 사전 정보가 있다 고 말하는 것이다.” (교재)

이 경우 데이터가 단일 단어 하나 — 적합도는 이슈가 아니다. 따라서 사전 정보 추가 가 필요.

문맥 정보 \(x\) 추가.

\[ p(\theta \mid x, y) \propto p(\theta \mid x) \, p(y \mid \theta, x) \]

근사 — \(p(y \mid \theta, x) \approx p(y \mid \theta)\) (오타 확률은 문맥 독립). 이 근사 아래서 \(p(\theta \mid x)\) — 문맥 조건부 사전 만 교체하면 된다.

문서가 통계학 책이면 \(p(\text{random} \mid x) \gg p(\text{radom} \mid x)\) 가 될 것이다. 사후가 “random” 쪽으로 크게 이동한다.

직관 — “모델 개선의 방향은 대체로 사전분포”

베이즈 규칙 자체는 수학적으로 맞다. 사후 결과가 이상하면 거의 항상 사전분포의 문제 — 포함되지 않은 도메인 지식이 있다는 신호다. 이 교훈이 Gelman 의 응용 베이즈 철학의 중심이다.

실무에서 “사후가 이상하면 사전을 점검” 한다는 루틴이 여기서 유래한다. Part II Ch.6 의 사후 예측 점검도 같은 정신 — “모델이 데이터를 설명하지 못하는 지점” 을 찾아 모델을 수정한다.

6 예제와 수식의 연결 지도

Ch.1 구성 요소	예제 역할	이후 장 연결
3단계 순환	혈우병 — 단계 1: 사전 · 가능도, 단계 2: 사후, 단계 3: 새 관측으로 점검	Ch.6 사후 예측 점검
표기 \(\theta, y, \tilde{y}\)	혈우병의 \(\theta \in \{0,1\}\), \(y = (y_1, y_2)\)	Ch.2~5 연속 \(\theta\) 로 확장
교환가능성	두 아들의 출생 순서 무관 — iid	Ch.5 계층 모형의 출발
베이즈 규칙	사후 = (사전 × 가능도) / 증거	Ch.2~5 계속 적용
순차 갱신	셋째 아들 관측 시 업데이트	Ch.11 MCMC 도 근본은 같은 원리
우도비 형식	사전 오즈 × 우도비 = 사후 오즈	Ch.7 베이즈 팩터
모델 확장	맞춤법 — 문맥 \(x\) 추가	Ch.14~18 회귀 모형

Ch.1.1~1.4 의 네 절이 이후 22개 장의 모든 장치의 축소 모형 이라는 것이 Gelman 의 구성 전략이다.

7 코드 예제 — 혈우병 · 맞춤법 사후확률 전 계산

7.1 Step 1: 순수 Python — 혈우병 오즈 형식 순차 갱신

def odds_update(prior_odds, likelihood_ratio):
    return prior_odds * likelihood_ratio

def odds_to_prob(odds):
    return odds / (1 + odds)

# Prior: carrier 확률 0.5 → 오즈 1
prior_odds = 1.0
print(f"Prior: P(carrier) = {odds_to_prob(prior_odds):.4f}")

# 아들 1명 건강: 우도비 = 0.5 / 1 = 0.5
prior_odds = odds_update(prior_odds, 0.5)
print(f"Son 1 healthy:  P(carrier) = {odds_to_prob(prior_odds):.4f}")

prior_odds = odds_update(prior_odds, 0.5)
print(f"Son 2 healthy:  P(carrier) = {odds_to_prob(prior_odds):.4f}")

prior_odds = odds_update(prior_odds, 0.5)
print(f"Son 3 healthy:  P(carrier) = {odds_to_prob(prior_odds):.4f}")

# 만약 넷째가 발병 — 우도비 = 0.5 / 0 → 무한
print("If son 4 affected: P(carrier) = 1.0 (deterministic)")

예상 출력: 0.5 → 0.2 → 0.111 → 0.059. 오즈 형식이면 정규화 계산 없이 곱셈만 으로 같은 결과를 얻는 것을 확인.

7.2 Step 2: 맞춤법 검사 — Google 확률 값 기반 완전 계산

# Ch.1.4 의 Google 확률 값
priors = {"random": 7.60e-5, "radon": 6.05e-6, "radom": 3.12e-7}
likelihoods = {"random": 0.00193, "radon": 0.000143, "radom": 0.975}

# 비정규화 사후 = prior × likelihood
unnorm = {theta: priors[theta] * likelihoods[theta] for theta in priors}

# 정규화
total = sum(unnorm.values())
posteriors = {theta: val / total for theta, val in unnorm.items()}

print(f"{'theta':<8} {'prior':>12} {'likelihood':>12} {'unnorm':>14} {'posterior':>12}")
for theta in priors:
    print(f"{theta:<8} {priors[theta]:>12.2e} {likelihoods[theta]:>12.6f} "
          f"{unnorm[theta]:>14.4e} {posteriors[theta]:>12.4f}")

# 문맥 정보 추가 — 통계 교재 문맥에서 'random' 이 훨씬 흔하다고 가정
context_priors = {"random": 1e-3, "radon": 1e-5, "radom": 1e-9}
unnorm_ctx = {theta: context_priors[theta] * likelihoods[theta] for theta in context_priors}
total_ctx = sum(unnorm_ctx.values())
posteriors_ctx = {theta: val / total_ctx for theta, val in unnorm_ctx.items()}

print("\n=== With statistics-textbook context ===")
for theta in posteriors_ctx:
    print(f"{theta:<8} posterior = {posteriors_ctx[theta]:.4f}")

예상 출력 — 원 사후 random=0.325, radon=0.002, radom=0.673. 통계 문맥 사전 적용 후 random 쪽으로 크게 이동. 문맥 정보의 투입으로 사후가 어떻게 바뀌는지 정량적으로 확인 가능하다.

8 관련 주제

같은 Ch.1 의 다른 절 (계속)

Ch.1 Probability and Inference 개요 — § 1.1~1.9 를 한 호흡으로 훑는 overview
§ 1.5 Probability as a measure of uncertainty (작성 예정)
§ 1.6 Football point spreads (작성 예정)
§ 1.7~1.8 Useful probability results · Computation (작성 예정)

Part I 전체 맥락

Part I: Fundamentals of Bayesian Inference — Ch.1~5 개관
Part II · Part III · Part IV · Part V

빈도주의 기초

확률론 개요 — Kolmogorov 공리와 확률공간
조건부 확률과 베이즈 정리 — 빈도주의 관점의 베이즈 규칙
확률의 계산 규칙 — 전확률 · 주변화 · 독립성

후속 Ch.2~5 상세 (작성 예정)

Ch.2 Single-Parameter Models — 이항 · 정규 · 포아송의 켤레 사전
Ch.3 Multiparameter Models — nuisance 모수 주변화
Ch.4 Asymptotics — 사후 정규 근사
Ch.5 Hierarchical Models — 교환가능성의 계층화

9 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.1 (§ 1.1~1.4).
de Finetti, B. (1974). Theory of Probability: A Critical Introductory Treatment. Wiley.
Lindley, D. V., & Phillips, L. D. (1976). Inference for a Bernoulli process (a Bayesian view). The American Statistician, 30(3), 112–119.
Kerrich, J. E. (1946). An Experimental Introduction to the Theory of Probability. Belgisk Import Co.
Google Research (2008). ‘All Our N-gram are Belong to You’. Google Research Blog.