Kwangmin Kim - Ch.1 Probability and Inference — 베이즈 데이터 분석의 3단계와 언어

1 이 포스트의 위치 — Part I 의 문을 여는 Ch.1

Part I 개관 에서 Ch.1 을 한 줄로 요약했다면 — “불확실한 모든 양을 확률변수로 두고, 베이즈 규칙으로 관측 후의 분포를 계산해, 사후분포로부터 모든 질문에 답한다” — 이 포스트는 그 한 줄을 정의부터 예제까지 풀어 쓴 버전이다.

Ch.1 의 한 줄 요약

“베이즈 데이터 분석은 확률 모델 설정·사후 계산·모델 점검의 3단계 순환이고, 모든 도구는 하나의 베이즈 규칙에서 파생된다.”

Ch.1 의 목적은 “무엇을 계산할 것인가” 보다 “어떤 언어로 말할 것인가” 를 확립하는 것이다. Part I~V 의 모든 도구가 이 언어 위에서 펼쳐진다 (Gelman et al., 2013, Ch.1).

2 베이즈 데이터 분석의 3단계 (Section 1.1)

Gelman 은 베이즈 데이터 분석을 세 단계의 순환 으로 정의한다.

2.1 단계 1: 완전 확률 모델 설정

관측 가능한 양 $y$ 와 관측 불가능한 양 $\theta$ 의 결합 분포 $p(\theta, y)$ 를 과학적 지식과 데이터 수집 절차에 맞춰 구성한다. 표준 분해는

\[ p(\theta, y) = p(\theta) \, p(y \mid \theta) \]

$p(\theta)$ 는 사전분포 (prior distribution), $p(y \mid \theta)$ 는 표본 분포 (sampling distribution) 또는 가능도 (likelihood).

2.2 단계 2: 사후분포 계산

관측된 $y$ 로 조건화해 사후분포 (posterior distribution) $p(\theta \mid y)$ 를 구한다.

\[ p(\theta \mid y) = \frac{p(\theta) \, p(y \mid \theta)}{p(y)}, \quad p(y) = \int p(\theta) \, p(y \mid \theta) \, d\theta \]

$p(y)$ 는 주변 가능도 (marginal likelihood) 또는 증거 (evidence). 사후분포가 $\theta$ 의 함수이므로 $p(y)$ 는 정규화 상수 로 작용하며, 실무 계산에서는 대체로 비례식

\[ p(\theta \mid y) \propto p(\theta) \, p(y \mid \theta) \]

을 사용한다.

2.3 단계 3: 모델 적합도 평가

사후 예측 분포

\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]

로 복제 데이터 를 생성하고 관측 데이터와 비교해 모델이 어디서 부적합한지 식별한다. 부적합이 드러나면 단계 1 로 돌아가 모델을 확장·수정한다.

직관 — 3단계는 선형이 아니라 순환이다

빈도주의 교재는 “추정 → 검정” 의 선형 구조를 제시한다. 베이즈는 모델 설정 자체가 검증의 대상 이 되고, 점검 결과가 다시 모델을 개선한다. Part II Ch.6~7 의 사후 예측 점검·WAIC·LOO-CV 는 단계 3 을 체계화 한 도구들이다. Ch.1 에서 배울 것은 “한 바퀴 돌리는 법” 이고, Part II 는 “몇 바퀴를 돌려야 하는지” 의 기준을 준다.

3 표기법 (Section 1.2)

BDA 의 표기 규약은 다른 교재와 일부 다르다. 이 규약에 적응하는 것이 Part I~V 전체의 읽기 속도를 결정한다.

기호	의미
$y$	관측 데이터 (벡터)
$\tilde{y}$	아직 관측되지 않은·예측 대상 데이터
$\theta$	관심 모수 (벡터, 고차원일 수 있음)
$X$	설명변수 (covariates), 조건부 분석의 조건 변수
$p(\cdot)$	확률밀도 또는 확률질량 (맥락으로 구분, 연속/이산 공통 표기)
$y_{\text{obs}}, y_{\text{mis}}$	관측된/결측된 데이터 (Ch.18)

특히 “$p$” 하나로 모든 밀도·질량·조건부·주변·결합을 표기한다. 인수로 구분 — $p(y)$ 는 $y$ 의 분포, $p(\theta \mid y)$ 는 조건부, $p(y, \theta)$ 는 결합. 처음엔 어색하지만 수식이 짧아지고 분포 간 관계가 선명해지는 장점이 있다.

4 베이즈 추론의 구조 (Section 1.3)

4.1 베이즈 규칙의 재해석

조건부 확률의 정의 $p(A \mid B) = p(A, B) / p(B)$ 에서 한 줄.

\[ p(\theta \mid y) = \frac{p(\theta, y)}{p(y)} = \frac{p(\theta) \, p(y \mid \theta)}{p(y)} \]

빈도주의 추론이 고정된 $\theta$ 에 대한 $y$ 의 분포 로 추정량의 성질을 논하는 반면, 베이즈는 관측된 $y$ 에 대한 $\theta$ 의 분포 로 불확실성을 직접 말한다.

직관 — “$\theta$ 가 확률변수” 라는 선언이 전부를 바꾼다

$\theta = 2.3$ 처럼 숫자가 아니라 확률분포 다. “모평균 $\mu$ 는 $N(0, 10^2)$ 을 따른다” 는 말이 빈도주의에서는 의미가 없고, 베이즈에서는 출발점 이다. 이 한 전제 덕분에 사후 구간·사후 확률·사후 예측이 모두 평범한 확률 계산 으로 정의된다 — 빈도주의의 “95% 신뢰 구간이 실제로 $\mu$ 를 포함할 확률” 이라는 거북한 문장이 사라진다.

4.2 사후 예측 분포

관측 데이터로 학습한 뒤 새 데이터 $\tilde{y}$ 를 예측하는 분포는 두 불확실성의 통합이다.

\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \]

$p(\tilde{y} \mid \theta)$: 표본 변동 (sampling variability) — 같은 $\theta$ 에서도 $\tilde{y}$ 는 다르게 나온다
$p(\theta \mid y)$: 모수 불확실성 (parameter uncertainty) — 관측 후에도 $\theta$ 를 확정할 수 없다

두 원천을 적분으로 합쳐서 한 분포 를 얻는다. 빈도주의의 예측 구간이 두 불확실성을 분리 계산하고 결합해야 하는 것과 대조된다.

4.3 우도 원리 (Likelihood Principle)

$\theta$ 에 대한 모든 추론은 관측된 $y$ 에 대한 가능도 함수 $p(y \mid \theta)$ 에만 의존해야 한다. 베이즈 규칙은 이 원리를 자동으로 따르며, 데이터 수집의 “중단 규칙 (stopping rule)” 이 추론을 바꾸지 않는다 — 빈도주의 검정과의 근본 차이 (Part II Ch.8 에서 재등장).

5 이산 예제 (Section 1.4)

5.1 혈우병 유전자 보유 확률

혈우병은 X 염색체 열성 유전 질환이다. 문제 — 어머니는 보유자일 수도, 아닐 수도 있다. 외삼촌이 환자면 외할머니는 보유자이므로, 어머니가 보유자일 사전확률은 $1/2$.

\[ \theta \in \{0, 1\}, \quad P(\theta = 1) = 1/2 \]

여기서 $\theta = 1$ 은 보유자, $\theta = 0$ 은 비보유자. 어머니가 두 아들을 낳았는데 둘 다 건강하다 는 관측 데이터 $y = (0, 0)$ 을 얻었다. 보유자가 건강한 아들을 낳을 확률은 $1/2$ 이므로

\[ p(y = (0,0) \mid \theta = 1) = (1/2)^2 = 1/4, \quad p(y = (0,0) \mid \theta = 0) = 1 \]

사후확률을 베이즈 규칙으로 계산.

\[ P(\theta = 1 \mid y) = \frac{(1/2)(1/4)}{(1/2)(1/4) + (1/2)(1)} = \frac{1/8}{5/8} = \frac{1}{5} \]

관측 전 1/2 이던 보유자 확률이 관측 후 1/5 로 감소 했다. 세 번째 아들이 건강하면?

\[ P(\theta = 1 \mid y, y_3 = 0) = \frac{(1/5)(1/2)}{(1/5)(1/2) + (4/5)(1)} = \frac{1}{9} \]

직관 — 사후분포가 “다음 번 관측의 사전분포” 가 된다

한 데이터 포인트를 관측할 때마다 사후분포가 업데이트되고, 이 분포는 다음 데이터에 대한 사전분포 로 쓰인다. $\theta$ 가 두 관측 후 1/5, 세 관측 후 1/9 로 축차적으로 감소 — 관측이 누적될수록 “보유자가 아니다” 쪽으로 정보가 쌓인다. 이 순차 갱신의 일관성 이 베이즈 규칙의 가장 아름다운 성질이다.

5.2 맞춤법 검사 (Spell Checking)

사용자가 “radom” 을 타이핑했다. 의도한 단어 $\theta$ 의 후보는 {random, radon, radom}. 사전분포 — 영어 말뭉치에서의 단어 빈도.

\[ p(\theta = \text{random}) \approx 7.6 \times 10^{-5}, \quad p(\theta = \text{radon}) \approx 6.1 \times 10^{-6}, \quad p(\theta = \text{radom}) \approx 3.1 \times 10^{-7} \]

가능도 — 타이핑 오류 모델. “한 글자 차이” 의 확률을 $\varepsilon$ 로 고정.

\[ p(y = \text{radom} \mid \theta) = \begin{cases} \varepsilon & \theta = \text{random} \\ \varepsilon & \theta = \text{radon} \\ 1 - 3\varepsilon & \theta = \text{radom} \end{cases} \]

사후분포는 사전 × 가능도 비율. $\varepsilon$ 값에 따라 “random” 과 “radom” 중 어느 쪽 사후확률이 큰지 달라진다 — $\varepsilon$ 이 작으면 오타보다 정확한 입력이 우세. 실제 맞춤법 검사기는 이 구조에 문맥 정보 (앞뒤 단어)·키보드 레이아웃 오류 모델을 추가한 베이즈 모델이다.

5.3 레코드 링키지

두 데이터베이스에서 같은 사람의 레코드를 짝 짓는 문제. $\theta_{ij} = 1$ 은 “레코드 $i$ 와 $j$ 가 같은 사람” 을 의미. 이름·주소·생년월일의 일치 정도 $y$ 로부터 사후확률 $P(\theta_{ij} = 1 \mid y)$ 를 계산. 스팸 필터·추천 시스템·개체 해소 (entity resolution) 의 이론적 기반이다.

6 확률의 의미 (Section 1.5)

6.1 주관적 확률 (Subjective Probability)

베이즈의 기초는 확률을 불확실성의 정도 로 보는 것이다. 빈도주의의 “무한 반복 실험에서의 상대 도수” 와 철학적으로 다르다.

빈도주의: $P(A) = \lim_{n \to \infty} n_A / n$
베이즈: $P(A) = $ “$A$ 에 대한 개인의 신념의 정도”

6.2 신념의 교정 — de Finetti 의 defense

주관적 확률은 임의로 선택 할 수 없다. 내기의 일관성으로부터 확률 공리가 유도된다 (de Finetti 의 Dutch book argument).

Dutch book 아이디어

$P(A) = 0.3$ 이라고 주장하는 사람이 $P(\bar{A}) = 0.5$ 라고 주장하면, 일관성 없는 내기 조합에서 반드시 손실 이 발생한다. 확률이 공리 (비음수, 정규화, 가법성) 를 따르지 않으면 합리적 의사결정자가 아니다. 즉 주관적 확률도 수학적으로는 빈도주의 확률과 같은 규칙을 따른다 — 해석만 다르다.

6.3 교환가능성 (Exchangeability)

이 장에서 도입되지만 Ch.5 에서 본격적 역할을 한다. $(y_1, \ldots, y_n)$ 의 순서를 바꿔도 결합 분포가 같으면 교환가능 하다.

\[ p(y_1, \ldots, y_n) = p(y_{\sigma(1)}, \ldots, y_{\sigma(n)}) \quad \text{for all permutations } \sigma \]

de Finetti 정리 — 무한 교환가능 수열은 iid 혼합 표현 을 갖는다.

\[ p(y_1, \ldots, y_n) = \int \prod_{i=1}^{n} p(y_i \mid \theta) \, p(\theta) \, d\theta \]

즉 “교환가능” 이라는 신념은 “숨은 모수 $\theta$ 가 있고, 관측은 $\theta$ 조건부 iid 다” 라는 모델과 등치. 왜 iid 가정이 자연스러운가 에 대한 베이즈의 답이다.

7 축구 포인트 스프레드 예제 (Section 1.6)

구체적 확률 할당 연습. 미식축구에서 “홈팀 -7” 같은 포인트 스프레드 는 경기 전 예상 점수 차. 실제 결과와 스프레드의 차이가 $y_i$ 다.

1672 경기의 자료에서 $y_i$ 의 분포가 평균 0, 표준편차 13.86 의 정규 분포에 근사한다. 이 경험 분포를 사전분포로 쓰면

\[ y_i \sim N(0, 13.86^2) \]

특정 경기의 결과 확률 질문 — “홈팀이 스프레드를 이길 확률” 은 $P(y_i > 0) = 0.5$. “8점 차 이상으로 이길 확률” 은 $P(y_i > 8) = 1 - \Phi(8/13.86) \approx 0.28$.

이 단순 예제가 가르치는 것 — 경험 분포도 확률 할당의 한 방식 이다. 교재 초반부터 “사전분포는 어디서 오는가” 에 대한 실용적 답을 제시한다.

8 유용한 확률 결과들 (Section 1.7)

8.1 주변화와 조건화

\[ p(\theta) = \int p(\theta, \phi) \, d\phi, \quad p(\theta \mid y) = \int p(\theta, \phi \mid y) \, d\phi \]

다모수 문제에서 관심 모수만 남기고 나머지를 적분 소거하는 것이 주변화 (marginalization). Part I Ch.3 의 핵심 기술.

8.2 전확률 공식의 두 형태

\[ p(y) = \int p(y \mid \theta) \, p(\theta) \, d\theta \quad \text{(prior predictive)} \]

\[ p(\tilde{y} \mid y) = \int p(\tilde{y} \mid \theta) \, p(\theta \mid y) \, d\theta \quad \text{(posterior predictive)} \]

두 식의 구조는 같고 조건만 다르다 — 어느 분포로 $\theta$ 를 적분하느냐의 차이.

8.3 확률변수의 변환

$\phi = g(\theta)$ 의 분포는 야코비안 으로 계산.

\[ p_\phi(\phi) = p_\theta(g^{-1}(\phi)) \, \left| \frac{d g^{-1}(\phi)}{d \phi} \right| \]

로그 변환 $\phi = \log \theta$, logit 변환 $\phi = \log(\theta / (1 - \theta))$ 등이 베이즈 계산에서 자주 쓰인다 — Part III Ch.12 의 재매개변수화가 이 장치에 의존한다.

8.4 기대값·분산의 반복 공식

\[ E[X] = E[E[X \mid Y]], \quad V[X] = E[V[X \mid Y]] + V[E[X \mid Y]] \]

“반복 기댓값의 법칙 (Law of Total Expectation)” 과 “반복 분산 공식 (Law of Total Variance)”. 계층 모형에서 그룹 내 변동 + 그룹 간 변동 의 분산 분해가 정확히 이 공식의 응용이다 (Part IV Ch.15).

직관 — Ch.1 의 공식들이 Part I~V 전체를 구동한다

주변화 → Ch.3 다모수 추론
전확률 → Ch.6 사후 예측 점검
변환 → Ch.12 재매개변수화
반복 기댓값·분산 → Ch.15 계층 모형 분산 분해

Ch.1 은 “도구 창고의 도구 소개” 다. Ch.2 부터 이 도구들이 본격적으로 쓰인다.

9 계산과 소프트웨어 (Section 1.8)

Ch.1 의 마지막에서 Gelman 은 실제 베이즈 분석의 계산 도구 를 예고한다.

도구	역할	이 교재의 어디서 쓰는가
R · Python	전처리·시각화·직접 구현	모든 장
Stan / PyMC / JAGS	HMC·Gibbs 기반 MCMC	Ch.11~12, Ch.14~18
INLA	분석적 근사	Ch.13 의 변분 추론 대안

Part I 의 단순 예제는 손으로 계산 가능하지만, Part IV 이후의 실무 모델은 Stan·PyMC 없이 불가능하다. “계산 가능성” 이 베이즈 분석의 병목 이라는 점을 Ch.1 부터 강조한다.

10 응용 베이즈 추론 (Section 1.9)

Ch.1 은 마지막에 실무 베이즈 분석의 세 가지 특징 을 요약한다.

모델 선택의 지속적 재검토 — 한 모델이 아니라 여러 모델의 비교·확장이 분석의 본체
사전 정보의 명시적 통합 — 도메인 지식·유사 연구·전문가 의견을 사전분포로 투입
의사결정과의 직접 연결 — 사후분포가 불확실성 하의 행동 (Part II Ch.9) 으로 이어짐

Part I~II 전체가 이 세 가지를 하나씩 심화한다.

11 빈도주의와의 대조 — Ch.1 수준의 요약

질문	빈도주의	베이즈
$\theta$ 는 무엇인가	미지의 상수	확률변수
추론 대상	추정량의 표본 분포	모수의 사후 분포
95% 구간의 의미	“절차의 장기 포괄률”	“모수가 이 구간에 있을 확률”
사전 정보	원칙적으로 제외	사전분포로 명시
계산	대체로 닫힌 형태 또는 근사	MCMC·VI 필요 (일반적)
예측	신뢰구간 + 잔차 분포	사후 예측 분포 한 덩어리

Part I 전체가 이 대조를 점진적으로 깊게 만든다 — Ch.4 에서 빈도주의와 베이즈가 대표본에서 합류하는 구조가 드러난다.

12 코드 예제 — 혈우병 사후확률 업데이트 (Section 1.4)

베이즈 규칙의 순차 갱신을 손으로 · 코드로 확인.

12.1 Step 1: 순수 Python — 축차 베이즈 업데이트

def bayes_update(prior, likelihood_ratio):
    # prior: P(theta=1) — carrier 확률
    # likelihood_ratio: P(y | theta=1) / P(y | theta=0)
    unnorm_carrier = prior * likelihood_ratio
    unnorm_non = 1.0 - prior
    total = unnorm_carrier + unnorm_non
    return unnorm_carrier / total

p = 0.5  # 사전: 외할머니 보유자 이므로 어머니 1/2
print(f"Prior (no data):       P(carrier) = {p:.4f}")

# 첫 아들 건강: P(y=0 | carrier) = 0.5, P(y=0 | non) = 1
# likelihood ratio = 0.5
p = bayes_update(p, 0.5)
print(f"After son 1 healthy:   P(carrier) = {p:.4f}")

p = bayes_update(p, 0.5)
print(f"After son 2 healthy:   P(carrier) = {p:.4f}")

p = bayes_update(p, 0.5)
print(f"After son 3 healthy:   P(carrier) = {p:.4f}")

# 만약 네 번째 아들이 환자라면: P(y=1 | carrier) = 0.5, P(y=1 | non) = 0
# likelihood ratio = infinity → P(carrier) = 1
print(f"If son 4 affected:     P(carrier) = 1.0 (deterministic)")

한 줄 업데이트 함수가 Ch.1 의 베이즈 규칙 그 자체 다. 세 아들이 건강할 때마다 사후확률이 0.5 → 0.2 → 0.111 → 0.059 로 감소. 단 하나의 환자가 나오면 즉시 1.0 — 관측이 모델의 결정적 증거 가 되는 순간이 보인다.

12.2 Step 2: NumPy 벡터화 — 여러 시나리오 동시 계산

import numpy as np

# 여러 프라이어에서 같은 관측으로의 업데이트 비교
priors = np.array([0.1, 0.3, 0.5, 0.7, 0.9])
n_healthy = 3  # 건강한 아들 수

lik_carrier = 0.5 ** n_healthy
lik_non = 1.0 ** n_healthy

posteriors = priors * lik_carrier / (priors * lik_carrier + (1 - priors) * lik_non)

print("Prior  | Posterior after 3 healthy sons")
for pr, po in zip(priors, posteriors):
    print(f" {pr:.2f}  | {po:.4f}")

서로 다른 사전분포에서 시작해도 관측이 충분하면 사후분포가 수렴 하는 경향이 보인다 — Part I Ch.4 의 점근 결과 (“사전분포의 영향은 표본이 커질수록 약해진다”) 의 구체적 확인.

13 관련 주제

베이즈 시리즈

Part I: Fundamentals of Bayesian Inference — Part I 전체 개관
Part II: Fundamentals of Bayesian Data Analysis — 모델 점검·비교·결정
Part III: Advanced Computation — MCMC·VI 엔진
Part IV: Regression Models — 선형·계층·GLM
Part V: Nonlinear and Nonparametric Models — GP·혼합·DP

빈도주의 대응

확률론 개요 — Kolmogorov 공리 기반
조건부 확률과 베이즈 정리 — 빈도주의 관점의 베이즈 규칙
확률의 계산 규칙 — 주변화·조건화·전확률 공식

후속 주제 (Part I chapter detail)

Ch.2 Single-Parameter Models — 켤레 사전과 단일 모수 추론 (작성 예정)
Ch.3 Multiparameter Models — 다모수 주변화 (작성 예정)
Ch.4 Asymptotics — 사후 정규 근사·빈도주의 연결 (작성 예정)
Ch.5 Hierarchical Models — 교환가능성·8 schools (작성 예정)

14 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.1.
de Finetti, B. (1974). Theory of Probability: A Critical Introductory Treatment. Wiley.
Savage, L. J. (1954). The Foundations of Statistics. Wiley.
Lindley, D. V. (2006). Understanding Uncertainty. Wiley.
Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press.