1 이 포스트의 위치 — Part I 의 문을 여는 Ch.1
Part I 개관 에서 Ch.1 을 한 줄로 요약했다면 — “불확실한 모든 양을 확률변수로 두고, 베이즈 규칙으로 관측 후의 분포를 계산해, 사후분포로부터 모든 질문에 답한다” — 이 포스트는 그 한 줄을 정의부터 예제까지 풀어 쓴 버전이다.
“베이즈 데이터 분석은 확률 모델 설정·사후 계산·모델 점검의 3단계 순환이고, 모든 도구는 하나의 베이즈 규칙에서 파생된다.”
Ch.1 의 목적은 “무엇을 계산할 것인가” 보다 “어떤 언어로 말할 것인가” 를 확립하는 것이다. Part I~V 의 모든 도구가 이 언어 위에서 펼쳐진다 (Gelman et al., 2013, Ch.1).
2 베이즈 데이터 분석의 3단계 (Section 1.1)
Gelman 은 베이즈 데이터 분석을 세 단계의 순환 으로 정의한다.
2.1 단계 1: 완전 확률 모델 설정
관측 가능한 양 \(y\) 와 관측 불가능한 양 \(\theta\) 의 결합 분포 \(p(\theta, y)\) 를 과학적 지식과 데이터 수집 절차에 맞춰 구성한다. 표준 분해는
\[ p(\theta, y) = p(\theta) \, p(y \mid \theta) \]
\(p(\theta)\) 는 사전분포 (prior distribution), \(p(y \mid \theta)\) 는 표본 분포 (sampling distribution) 또는 가능도 (likelihood).
2.2 단계 2: 사후분포 계산
관측된 \(y\) 로 조건화해 사후분포 (posterior distribution) \(p(\theta \mid y)\) 를 구한다.
\[ p(\theta \mid y) = \frac{p(\theta) \, p(y \mid \theta)}{p(y)}, \quad p(y) = \int p(\theta) \, p(y \mid \theta) \, d\theta \]
\(p(y)\) 는 주변 가능도 (marginal likelihood) 또는 증거 (evidence). 사후분포가 \(\theta\) 의 함수이므로 \(p(y)\) 는 정규화 상수 로 작용하며, 실무 계산에서는 대체로 비례식
\[ p(\theta \mid y) \propto p(\theta) \, p(y \mid \theta) \]
을 사용한다.
2.3 단계 3: 모델 적합도 평가
사후 예측 분포
\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]
로 복제 데이터 를 생성하고 관측 데이터와 비교해 모델이 어디서 부적합한지 식별한다. 부적합이 드러나면 단계 1 로 돌아가 모델을 확장·수정한다.
빈도주의 교재는 “추정 → 검정” 의 선형 구조를 제시한다. 베이즈는 모델 설정 자체가 검증의 대상 이 되고, 점검 결과가 다시 모델을 개선한다. Part II Ch.6~7 의 사후 예측 점검·WAIC·LOO-CV 는 단계 3 을 체계화 한 도구들이다. Ch.1 에서 배울 것은 “한 바퀴 돌리는 법” 이고, Part II 는 “몇 바퀴를 돌려야 하는지” 의 기준을 준다.
3 표기법 (Section 1.2)
BDA 의 표기 규약은 다른 교재와 일부 다르다. 이 규약에 적응하는 것이 Part I~V 전체의 읽기 속도를 결정한다.
| 기호 | 의미 |
|---|---|
| \(y\) | 관측 데이터 (벡터) |
| \(\tilde{y}\) | 아직 관측되지 않은·예측 대상 데이터 |
| \(\theta\) | 관심 모수 (벡터, 고차원일 수 있음) |
| \(X\) | 설명변수 (covariates), 조건부 분석의 조건 변수 |
| \(p(\cdot)\) | 확률밀도 또는 확률질량 (맥락으로 구분, 연속/이산 공통 표기) |
| \(y_{\text{obs}}, y_{\text{mis}}\) | 관측된/결측된 데이터 (Ch.18) |
특히 “\(p\)” 하나로 모든 밀도·질량·조건부·주변·결합을 표기한다. 인수로 구분 — \(p(y)\) 는 \(y\) 의 분포, \(p(\theta \mid y)\) 는 조건부, \(p(y, \theta)\) 는 결합. 처음엔 어색하지만 수식이 짧아지고 분포 간 관계가 선명해지는 장점이 있다.
4 베이즈 추론의 구조 (Section 1.3)
4.1 베이즈 규칙의 재해석
조건부 확률의 정의 \(p(A \mid B) = p(A, B) / p(B)\) 에서 한 줄.
\[ p(\theta \mid y) = \frac{p(\theta, y)}{p(y)} = \frac{p(\theta) \, p(y \mid \theta)}{p(y)} \]
빈도주의 추론이 고정된 \(\theta\) 에 대한 \(y\) 의 분포 로 추정량의 성질을 논하는 반면, 베이즈는 관측된 \(y\) 에 대한 \(\theta\) 의 분포 로 불확실성을 직접 말한다.
\(\theta = 2.3\) 처럼 숫자가 아니라 확률분포 다. “모평균 \(\mu\) 는 \(N(0, 10^2)\) 을 따른다” 는 말이 빈도주의에서는 의미가 없고, 베이즈에서는 출발점 이다. 이 한 전제 덕분에 사후 구간·사후 확률·사후 예측이 모두 평범한 확률 계산 으로 정의된다 — 빈도주의의 “95% 신뢰 구간이 실제로 \(\mu\) 를 포함할 확률” 이라는 거북한 문장이 사라진다.
4.2 사후 예측 분포
관측 데이터로 학습한 뒤 새 데이터 \(\tilde{y}\) 를 예측하는 분포는 두 불확실성의 통합이다.
\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]
- \(p(\tilde{y} \mid \theta)\): 표본 변동 (sampling variability) — 같은 \(\theta\) 에서도 \(\tilde{y}\) 는 다르게 나온다
- \(p(\theta \mid y)\): 모수 불확실성 (parameter uncertainty) — 관측 후에도 \(\theta\) 를 확정할 수 없다
두 원천을 적분으로 합쳐서 한 분포 를 얻는다. 빈도주의의 예측 구간이 두 불확실성을 분리 계산하고 결합해야 하는 것과 대조된다.
4.3 우도 원리 (Likelihood Principle)
\(\theta\) 에 대한 모든 추론은 관측된 \(y\) 에 대한 가능도 함수 \(p(y \mid \theta)\) 에만 의존해야 한다. 베이즈 규칙은 이 원리를 자동으로 따르며, 데이터 수집의 “중단 규칙 (stopping rule)” 이 추론을 바꾸지 않는다 — 빈도주의 검정과의 근본 차이 (Part II Ch.8 에서 재등장).
5 이산 예제 (Section 1.4)
5.1 혈우병 유전자 보유 확률
혈우병은 X 염색체 열성 유전 질환이다. 문제 — 어머니는 보유자일 수도, 아닐 수도 있다. 외삼촌이 환자면 외할머니는 보유자이므로, 어머니가 보유자일 사전확률은 \(1/2\).
\[ \theta \in \{0, 1\}, \quad P(\theta = 1) = 1/2 \]
여기서 \(\theta = 1\) 은 보유자, \(\theta = 0\) 은 비보유자. 어머니가 두 아들을 낳았는데 둘 다 건강하다 는 관측 데이터 \(y = (0, 0)\) 을 얻었다. 보유자가 건강한 아들을 낳을 확률은 \(1/2\) 이므로
\[ p(y = (0,0) \mid \theta = 1) = (1/2)^2 = 1/4, \quad p(y = (0,0) \mid \theta = 0) = 1 \]
사후확률을 베이즈 규칙으로 계산.
\[ P(\theta = 1 \mid y) = \frac{(1/2)(1/4)}{(1/2)(1/4) + (1/2)(1)} = \frac{1/8}{5/8} = \frac{1}{5} \]
관측 전 1/2 이던 보유자 확률이 관측 후 1/5 로 감소 했다. 세 번째 아들이 건강하면?
\[ P(\theta = 1 \mid y, y_3 = 0) = \frac{(1/5)(1/2)}{(1/5)(1/2) + (4/5)(1)} = \frac{1}{9} \]
한 데이터 포인트를 관측할 때마다 사후분포가 업데이트되고, 이 분포는 다음 데이터에 대한 사전분포 로 쓰인다. \(\theta\) 가 두 관측 후 1/5, 세 관측 후 1/9 로 축차적으로 감소 — 관측이 누적될수록 “보유자가 아니다” 쪽으로 정보가 쌓인다. 이 순차 갱신의 일관성 이 베이즈 규칙의 가장 아름다운 성질이다.
5.2 맞춤법 검사 (Spell Checking)
사용자가 “radom” 을 타이핑했다. 의도한 단어 \(\theta\) 의 후보는 {random, radon, radom}. 사전분포 — 영어 말뭉치에서의 단어 빈도.
\[ p(\theta = \text{random}) \approx 7.6 \times 10^{-5}, \quad p(\theta = \text{radon}) \approx 6.1 \times 10^{-6}, \quad p(\theta = \text{radom}) \approx 3.1 \times 10^{-7} \]
가능도 — 타이핑 오류 모델. “한 글자 차이” 의 확률을 \(\varepsilon\) 로 고정.
\[ p(y = \text{radom} \mid \theta) = \begin{cases} \varepsilon & \theta = \text{random} \\ \varepsilon & \theta = \text{radon} \\ 1 - 3\varepsilon & \theta = \text{radom} \end{cases} \]
사후분포는 사전 × 가능도 비율. \(\varepsilon\) 값에 따라 “random” 과 “radom” 중 어느 쪽 사후확률이 큰지 달라진다 — \(\varepsilon\) 이 작으면 오타보다 정확한 입력이 우세. 실제 맞춤법 검사기는 이 구조에 문맥 정보 (앞뒤 단어)·키보드 레이아웃 오류 모델을 추가한 베이즈 모델이다.
5.3 레코드 링키지
두 데이터베이스에서 같은 사람의 레코드를 짝 짓는 문제. \(\theta_{ij} = 1\) 은 “레코드 \(i\) 와 \(j\) 가 같은 사람” 을 의미. 이름·주소·생년월일의 일치 정도 \(y\) 로부터 사후확률 \(P(\theta_{ij} = 1 \mid y)\) 를 계산. 스팸 필터·추천 시스템·개체 해소 (entity resolution) 의 이론적 기반이다.
6 확률의 의미 (Section 1.5)
6.1 주관적 확률 (Subjective Probability)
베이즈의 기초는 확률을 불확실성의 정도 로 보는 것이다. 빈도주의의 “무한 반복 실험에서의 상대 도수” 와 철학적으로 다르다.
- 빈도주의: \(P(A) = \lim_{n \to \infty} n_A / n\)
- 베이즈: $P(A) = $ “\(A\) 에 대한 개인의 신념의 정도”
6.2 신념의 교정 — de Finetti 의 defense
주관적 확률은 임의로 선택 할 수 없다. 내기의 일관성으로부터 확률 공리가 유도된다 (de Finetti 의 Dutch book argument).
\(P(A) = 0.3\) 이라고 주장하는 사람이 \(P(\bar{A}) = 0.5\) 라고 주장하면, 일관성 없는 내기 조합에서 반드시 손실 이 발생한다. 확률이 공리 (비음수, 정규화, 가법성) 를 따르지 않으면 합리적 의사결정자가 아니다. 즉 주관적 확률도 수학적으로는 빈도주의 확률과 같은 규칙을 따른다 — 해석만 다르다.
6.3 교환가능성 (Exchangeability)
이 장에서 도입되지만 Ch.5 에서 본격적 역할을 한다. \((y_1, \ldots, y_n)\) 의 순서를 바꿔도 결합 분포가 같으면 교환가능 하다.
\[ p(y_1, \ldots, y_n) = p(y_{\sigma(1)}, \ldots, y_{\sigma(n)}) \quad \text{for all permutations } \sigma \]
de Finetti 정리 — 무한 교환가능 수열은 iid 혼합 표현 을 갖는다.
\[ p(y_1, \ldots, y_n) = \int \prod_{i=1}^{n} p(y_i \mid \theta) \, p(\theta) \, d\theta \]
즉 “교환가능” 이라는 신념은 “숨은 모수 \(\theta\) 가 있고, 관측은 \(\theta\) 조건부 iid 다” 라는 모델과 등치. 왜 iid 가정이 자연스러운가 에 대한 베이즈의 답이다.
7 축구 포인트 스프레드 예제 (Section 1.6)
구체적 확률 할당 연습. 미식축구에서 “홈팀 -7” 같은 포인트 스프레드 는 경기 전 예상 점수 차. 실제 결과와 스프레드의 차이가 \(y_i\) 다.
1672 경기의 자료에서 \(y_i\) 의 분포가 평균 0, 표준편차 13.86 의 정규 분포에 근사한다. 이 경험 분포를 사전분포로 쓰면
\[ y_i \sim N(0, 13.86^2) \]
특정 경기의 결과 확률 질문 — “홈팀이 스프레드를 이길 확률” 은 \(P(y_i > 0) = 0.5\). “8점 차 이상으로 이길 확률” 은 \(P(y_i > 8) = 1 - \Phi(8/13.86) \approx 0.28\).
이 단순 예제가 가르치는 것 — 경험 분포도 확률 할당의 한 방식 이다. 교재 초반부터 “사전분포는 어디서 오는가” 에 대한 실용적 답을 제시한다.
8 유용한 확률 결과들 (Section 1.7)
8.1 주변화와 조건화
\[ p(\theta) = \int p(\theta, \phi) \, d\phi, \quad p(\theta \mid y) = \int p(\theta, \phi \mid y) \, d\phi \]
다모수 문제에서 관심 모수만 남기고 나머지를 적분 소거하는 것이 주변화 (marginalization). Part I Ch.3 의 핵심 기술.
8.2 전확률 공식의 두 형태
\[ p(y) = \int p(y \mid \theta) \, p(\theta) \, d\theta \quad \text{(prior predictive)} \]
\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \quad \text{(posterior predictive)} \]
두 식의 구조는 같고 조건만 다르다 — 어느 분포로 \(\theta\) 를 적분하느냐의 차이.
8.3 확률변수의 변환
\(\phi = g(\theta)\) 의 분포는 야코비안 으로 계산.
\[ p_\phi(\phi) = p_\theta(g^{-1}(\phi)) \, \left| \frac{d g^{-1}(\phi)}{d \phi} \right| \]
로그 변환 \(\phi = \log \theta\), logit 변환 \(\phi = \log(\theta / (1 - \theta))\) 등이 베이즈 계산에서 자주 쓰인다 — Part III Ch.12 의 재매개변수화가 이 장치에 의존한다.
8.4 기대값·분산의 반복 공식
\[ E[X] = E[E[X \mid Y]], \quad V[X] = E[V[X \mid Y]] + V[E[X \mid Y]] \]
“반복 기댓값의 법칙 (Law of Total Expectation)” 과 “반복 분산 공식 (Law of Total Variance)”. 계층 모형에서 그룹 내 변동 + 그룹 간 변동 의 분산 분해가 정확히 이 공식의 응용이다 (Part IV Ch.15).
- 주변화 → Ch.3 다모수 추론
- 전확률 → Ch.6 사후 예측 점검
- 변환 → Ch.12 재매개변수화
- 반복 기댓값·분산 → Ch.15 계층 모형 분산 분해
Ch.1 은 “도구 창고의 도구 소개” 다. Ch.2 부터 이 도구들이 본격적으로 쓰인다.
9 계산과 소프트웨어 (Section 1.8)
Ch.1 의 마지막에서 Gelman 은 실제 베이즈 분석의 계산 도구 를 예고한다.
| 도구 | 역할 | 이 교재의 어디서 쓰는가 |
|---|---|---|
| R · Python | 전처리·시각화·직접 구현 | 모든 장 |
| Stan / PyMC / JAGS | HMC·Gibbs 기반 MCMC | Ch.11~12, Ch.14~18 |
| INLA | 분석적 근사 | Ch.13 의 변분 추론 대안 |
Part I 의 단순 예제는 손으로 계산 가능하지만, Part IV 이후의 실무 모델은 Stan·PyMC 없이 불가능하다. “계산 가능성” 이 베이즈 분석의 병목 이라는 점을 Ch.1 부터 강조한다.
10 응용 베이즈 추론 (Section 1.9)
Ch.1 은 마지막에 실무 베이즈 분석의 세 가지 특징 을 요약한다.
- 모델 선택의 지속적 재검토 — 한 모델이 아니라 여러 모델의 비교·확장이 분석의 본체
- 사전 정보의 명시적 통합 — 도메인 지식·유사 연구·전문가 의견을 사전분포로 투입
- 의사결정과의 직접 연결 — 사후분포가 불확실성 하의 행동 (Part II Ch.9) 으로 이어짐
Part I~II 전체가 이 세 가지를 하나씩 심화한다.
11 빈도주의와의 대조 — Ch.1 수준의 요약
| 질문 | 빈도주의 | 베이즈 |
|---|---|---|
| \(\theta\) 는 무엇인가 | 미지의 상수 | 확률변수 |
| 추론 대상 | 추정량의 표본 분포 | 모수의 사후 분포 |
| 95% 구간의 의미 | “절차의 장기 포괄률” | “모수가 이 구간에 있을 확률” |
| 사전 정보 | 원칙적으로 제외 | 사전분포로 명시 |
| 계산 | 대체로 닫힌 형태 또는 근사 | MCMC·VI 필요 (일반적) |
| 예측 | 신뢰구간 + 잔차 분포 | 사후 예측 분포 한 덩어리 |
Part I 전체가 이 대조를 점진적으로 깊게 만든다 — Ch.4 에서 빈도주의와 베이즈가 대표본에서 합류하는 구조가 드러난다.
12 코드 예제 — 혈우병 사후확률 업데이트 (Section 1.4)
베이즈 규칙의 순차 갱신을 손으로 · 코드로 확인.
12.1 Step 1: 순수 Python — 축차 베이즈 업데이트
def bayes_update(prior, likelihood_ratio):
# prior: P(theta=1) — carrier 확률
# likelihood_ratio: P(y | theta=1) / P(y | theta=0)
unnorm_carrier = prior * likelihood_ratio
unnorm_non = 1.0 - prior
total = unnorm_carrier + unnorm_non
return unnorm_carrier / total
p = 0.5 # 사전: 외할머니 보유자 이므로 어머니 1/2
print(f"Prior (no data): P(carrier) = {p:.4f}")
# 첫 아들 건강: P(y=0 | carrier) = 0.5, P(y=0 | non) = 1
# likelihood ratio = 0.5
p = bayes_update(p, 0.5)
print(f"After son 1 healthy: P(carrier) = {p:.4f}")
p = bayes_update(p, 0.5)
print(f"After son 2 healthy: P(carrier) = {p:.4f}")
p = bayes_update(p, 0.5)
print(f"After son 3 healthy: P(carrier) = {p:.4f}")
# 만약 네 번째 아들이 환자라면: P(y=1 | carrier) = 0.5, P(y=1 | non) = 0
# likelihood ratio = infinity → P(carrier) = 1
print(f"If son 4 affected: P(carrier) = 1.0 (deterministic)")한 줄 업데이트 함수가 Ch.1 의 베이즈 규칙 그 자체 다. 세 아들이 건강할 때마다 사후확률이 0.5 → 0.2 → 0.111 → 0.059 로 감소. 단 하나의 환자가 나오면 즉시 1.0 — 관측이 모델의 결정적 증거 가 되는 순간이 보인다.
12.2 Step 2: NumPy 벡터화 — 여러 시나리오 동시 계산
import numpy as np
# 여러 프라이어에서 같은 관측으로의 업데이트 비교
priors = np.array([0.1, 0.3, 0.5, 0.7, 0.9])
n_healthy = 3 # 건강한 아들 수
lik_carrier = 0.5 ** n_healthy
lik_non = 1.0 ** n_healthy
posteriors = priors * lik_carrier / (priors * lik_carrier + (1 - priors) * lik_non)
print("Prior | Posterior after 3 healthy sons")
for pr, po in zip(priors, posteriors):
print(f" {pr:.2f} | {po:.4f}")서로 다른 사전분포에서 시작해도 관측이 충분하면 사후분포가 수렴 하는 경향이 보인다 — Part I Ch.4 의 점근 결과 (“사전분포의 영향은 표본이 커질수록 약해진다”) 의 구체적 확인.
13 관련 주제
베이즈 시리즈
- Part I: Fundamentals of Bayesian Inference — Part I 전체 개관
- Part II: Fundamentals of Bayesian Data Analysis — 모델 점검·비교·결정
- Part III: Advanced Computation — MCMC·VI 엔진
- Part IV: Regression Models — 선형·계층·GLM
- Part V: Nonlinear and Nonparametric Models — GP·혼합·DP
빈도주의 대응
- 확률론 개요 — Kolmogorov 공리 기반
- 조건부 확률과 베이즈 정리 — 빈도주의 관점의 베이즈 규칙
- 확률의 계산 규칙 — 주변화·조건화·전확률 공식
후속 주제 (Part I chapter detail)
- Ch.2 Single-Parameter Models — 켤레 사전과 단일 모수 추론 (작성 예정)
- Ch.3 Multiparameter Models — 다모수 주변화 (작성 예정)
- Ch.4 Asymptotics — 사후 정규 근사·빈도주의 연결 (작성 예정)
- Ch.5 Hierarchical Models — 교환가능성·8 schools (작성 예정)
14 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.1.
- de Finetti, B. (1974). Theory of Probability: A Critical Introductory Treatment. Wiley.
- Savage, L. J. (1954). The Foundations of Statistics. Wiley.
- Lindley, D. V. (2006). Understanding Uncertainty. Wiley.
- Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press.