Kwangmin Kim - Ch.1.5~1.8 — 확률의 의미·축구·레코드 링키지·확률 이론 도구

1 이 포스트의 위치 — Ch.1 심화의 두 번째 조각

§ 1.1~1.4 심화 가 베이즈 언어의 문법 을 세웠다면, § 1.5~1.8 은 그 언어가 무엇에 관한 언어인가 (확률의 의미) 와 언어를 구동하는 기술 도구 (확률 이론) 를 다룬다. 교재 전체에서 가장 자주 인용되는 철학적 장과 가장 실용적인 장이 한 자리에 모여 있다.

§ 1.5~1.8 의 한 줄 요약

“확률은 불확실성의 척도이며, 그 척도는 경험적 데이터 · 주관적 신념 · 공리적 일관성 어디에서 출발하든 같은 수학적 규칙을 따른다. Ch.1 후반은 이 주장을 예제(축구 · 레코드 링키지)와 도구(반복 기댓값 · 변수 변환)로 보강한다.”

Part II 의 사후 예측 점검, Part III 의 재매개변수화, Part V 의 혼합 모델이 전부 이 네 절에 암시적으로 심어져 있다 (Gelman et al., 2013, Ch.1.5~1.8).

2 § 1.5 확률을 불확실성의 척도로

2.1 수학적 정의를 넘어

Gelman 은 독자가 확률의 수학적 정의 — 비음수 · 가법성 · 전체 합 1 — 에 익숙하다고 가정한다. 그러나 베이즈에서 확률의 사용 범위 가 훨씬 넓으므로 의미의 기초를 짧게 논의할 필요가 있다.

“베이즈 통계학에서 확률은 불확실성의 근본적 척도 또는 자 (yardstick) 로 사용된다.”

이 관점에서 “내일 비 올 확률”, “브라질의 월드컵 우승 확률” 을 논하는 것이 “동전 앞면 확률” 을 논하는 것만큼 정당해진다.

2.2 확률값의 두 정당화 — 왜 $P(\text{앞면}) = 1/2$ 인가

교재는 동전 앞면 확률이 왜 1/2 인지에 대한 두 가지 흔한 정당화 를 제시한다.

1. 대칭 · 교환가능성 논증

\[ \text{확률} = \frac{\text{호의적 경우의 수}}{\text{가능한 경우의 수}} \]

단, 가능성이 동등 하다는 가정 아래. 동전의 경우 이는 사실상 물리적 논증 — 동전의 무게 분포 · 던지는 힘 · 초기 조건에 대한 가정.

2. 도수 논증

\[ \text{확률} = \text{동일한 방식으로 물리적 독립 시행을 무한 반복했을 때의 상대 도수} \]

2.3 주관성의 불가피성

두 논증 모두 어떤 의미에서 주관적 — 동전의 성질 · 던지는 절차 · “동등한 가능성” · “동일 측정” · “독립” 에 대한 판단이 필요하다.

도수 논증은 특히 단일 시행의 확률을 정의하기 어렵다 — 이미 던진 동전의 앞면 확률을 도수적으로 말하려면 무한한 동일 시행 수열에 개념적으로 편입 시켜야 한다.

직관 — 주관성 스펙트럼

교재는 다음 예제들로 주관성이 증가하는 스펙트럼 을 보여준다.

일반 동전 앞면: 대칭 논증 + 도수 논증 모두 성립
“양면 모두 앞면 또는 양면 모두 뒷면” 인 동전: 대칭 논증만 부분 적용 (앞·뒤 레이블의 교환가능성)
내일 콜롬비아 vs 브라질 승리: 도수 논증 구성 가능하나 “동일 시행” 정의가 어려움
내일 비: 도수 근사는 가능하지만 “오늘과 동일한 내일” 이라는 개념이 모호
특정 로켓 발사 실패: 유사 발사체의 과거 실패 도수를 참조하지만, “유사” 의 정의가 모델 선택

“도수 해석은 대개 구성 가능하며, 이는 통계학에서 매우 유용한 도구다. 그러나 그렇게 하는 것은 확률 모델 또는 참조 집합을 만드는 것 이고, 결국 동전 던지기와 유사한 상황 — 교환가능성 가정 — 으로 돌아간다.”

2.4 확률이 합리적인 이유 — 세 가지 논증

교재는 확률을 불확실성의 척도로 쓰는 정당화를 세 가지로 정리한다.

1. 유비 (analogy)

물리적 무작위성은 불확실성을 낳는다. 반대로 불확실성을 무작위 사건의 언어로 기술하는 것이 자연스럽다. “probably”, “unlikely” 같은 일상어에서 이미 확률 계산을 비공식적으로 수행 중.

2. 공리적 / 규범적 접근

결정 이론과 연결. 모든 통계 추론을 이득·손실이 있는 의사결정 맥락에 두면, 합리적 공리 (순서 · 추이성 · 연속성) 로부터 불확실성은 반드시 확률로 표현되어야 함 이 유도된다. Savage (1954) 의 결과.

“우리는 이 규범적 정당화를 시사적이지만 강제적이지는 않다고 본다.” (Gelman 의 원문)

3. 내기의 일관성 (coherence of bets)

사건 $E$ 에 대한 개인의 확률 $p \in [0, 1]$ 을 다음과 같이 정의.

“$p 를 $1 의 대가로 교환할 의사가 있는 비율. $E$ 가 발생하면 당신은 $\$ (1-p)$ 를 얻고, $E^c$ 가 발생하면 $\$p$ 를 잃는다.”

일관성 원리 (principle of coherence) — 모든 가능한 사건에 할당한 확률들이 당신이 확정적 이득을 얻을 수 없도록 해야 한다는 것. 이 원리 아래 구성된 확률은 확률 공리를 반드시 만족 함이 증명 가능하다.

내기 정당화의 난점:

정확한 오즈 요구: 어느 방향으로도 내기할 의사가 있는 정확한 오즈를 모든 사건에 대해. 확신이 없을 때 정확한 오즈를 어떻게 지정하나?
정보 비대칭: 상대방이 추가 정보를 가지고 내기를 걸어오면 받지 않는 것이 합리적. 실무에서 확률은 내기의 필요 조건일 뿐 충분 조건이 아니다.

Dutch Book 논증의 핵심

확률을 공리 (비음수 · 가법성 · 정규화) 에 맞춰 할당하지 않으면, 상대방이 확정적 이득 을 내도록 내기 조합을 구성할 수 있다. 예 — $P(A) = 0.3, P(A^c) = 0.5$ 로 할당하면, 두 사건에 각각 $1 을 걸게 유도하여 상대가 항상 이기는 구조가 나온다. 일관된 신념 = 확률 공리를 따르는 신념이라는 등치.

결국 궁극적 정당화는 응용의 성공 — Gelman 은 이 장의 마지막에 “확률이 응용 통계학에서 불확실성을 요약하는 합리적 접근이라는 궁극적 증거는 응용의 성공에 있다” 고 못박는다.

2.5 주관성과 객관성

모든 확률 사용 통계 방법은 세계의 수학적 이상화에 의존 한다는 의미에서 주관적이다. 베이즈가 특히 주관적이라고 비판받는 이유는 사전분포 의존성 때문이지만, 대부분의 문제에서 우도 (likelihood) 도 똑같이 과학적 판단이 필요 하다. 선형 회귀 모델이 어떤 사전분포만큼이나 “의심스러울” 수 있다.

“복제가 있는 곳에 객관화의 여지가 있다”.

많은 교환가능 단위를 관측하면 확률 분포의 특성을 데이터에서 추정 할 수 있다
전체 실험이 여러 번 반복되면 사전분포의 모수도 데이터에서 추정 가능 (Ch.5 계층 모형 → empirical Bayes)

하지만 분석 데이터의 선택 · 분포의 모수 형식 · 모델 점검 방식 등은 과학적 판단이 남는다. 객관화는 정도 문제이지 이진 문제가 아니다.

3 § 1.6 축구 포인트 스프레드 예제

3.1 포인트 스프레드란

미국 프로 미식축구에서 전문가들이 매 경기에 두 팀 실력 차이의 척도 로 제시하는 숫자. 예 — “팀 A 는 3.5점 우세 (favorite)”. 의미 — “A 가 3.5점 초과로 이긴다” 는 명제가 공정한 내기, 즉 $P(A \text{ 가 3.5점 초과로 승리}) = 1/2$.

포인트 스프레드는 그 자체가 도박 인구의 경기 결과 신념의 중앙값 이라 해석 가능. 이 예제에서는 스프레드를 주어진 것으로 취급하고, 이로부터 추가 확률을 할당한다.

데이터 — 1981, 1983, 1984 세 시즌 672 경기 의 (스프레드 $x$, 결과 $y$ = favorite 점수 $-$ underdog 점수).

3.2 경험적 확률 할당

무승부는 0.5 승, 스프레드 0 경기는 제외 후.

\[ \begin{aligned} \Pr(\text{favorite 승리}) &= \frac{410.5}{655} = 0.63 \\ \Pr(\text{favorite 승리} \mid x = 3.5) &= \frac{36}{59} = 0.61 \\ \Pr(\text{favorite 가 스프레드 초과 승리}) &= \frac{308}{655} = 0.47 \\ \Pr(\text{favorite 가 스프레드 초과 승리} \mid x = 3.5) &= \frac{32}{59} = 0.54 \end{aligned} \]

직관과 일치 — 축구 지식이 있는 팬의 감과 맞다. 그런데 작은 표본의 문제 가 드러난다.

스프레드 8.5 의 favorite: 5전 5승 → 경험적 확률 1.0
스프레드 9.0 의 favorite: 20전 13승 → 경험적 확률 0.65

9점이 8.5점보다 실력 차가 큰데 경험적 확률은 역전. 표본이 작은 구간에서 경험적 할당이 부정확해지는 전형적 문제.

3.3 모수적 모델

해결 전략 — $d = y - x$ (결과와 스프레드의 차이) 의 분포를 $x$ 와 독립으로 모델링.

데이터 관찰 — 그림 1.2a 의 $d$ vs $x$ 산점도는 $d$ 의 분포가 $x$ 에 거의 독립으로 보인다. 그림 1.2b 의 $d$ 히스토그램에 정규 밀도를 겹쳐 보면 정규 근사가 합리적.

672 경기에서 $d$ 의 표본 평균 0.07, 표본 표준편차 13.86. 따라서

\[ d \mid x \sim N(0, 14^2) \]

“미식축구 경기 결과는 대략 평균 = 스프레드, 표준편차 = 거의 14점 (두 번의 터치다운 정도)”.

3.4 모수 모델로 확률 할당

$d \sim N(0, 14^2)$ 에서 $x$ 점 우세 팀의 승리 확률.

\[ \Pr_{\text{norm}}(y > 0 \mid x) = \Pr_{\text{norm}}(d > -x \mid x) = 1 - \Phi\left(-\frac{x}{14}\right) = \Phi\left(\frac{x}{14}\right) \]

여기서 $\Phi$ 는 표준 정규 누적분포함수. 결과.

스프레드 $x$	모수적 확률	경험적 확률
3.5	0.60	0.61
8.5	0.73	1.00 (5/5)
9.0	0.74	0.65 (13/20)

직관 — 모수 모델의 가치

스프레드 3.5 에서는 경험과 모수가 정확히 일치 — 데이터가 많아 두 방법 모두 신뢰 가능. 스프레드 8.5, 9.0 에서는 모수 모델이 더 직관적 — 단조 증가하고 극단값 (확률 1) 을 피한다.

핵심 교훈 — 경험 확률은 표본이 많을 때만 신뢰할 수 있고, 모수 모델은 정보를 “부드럽게” 공유해서 표본이 적은 구간까지 합리적 확률을 할당한다. 이것이 Part IV 회귀 모델 · Part V 기저 함수 · GP 의 근본 동기다.

4 § 1.7 레코드 링키지의 보정

4.1 문제

레코드 링키지 — 서로 다른 데이터베이스에서 동일 개인의 레코드를 식별하는 알고리즘 기법. 예 — 미국 Census 와 대규모 사후 열거 조사 (post-enumeration survey) 의 매칭.

절차 — (1) 각 레코드 쌍에 다변량 필드 일치도에서 파생된 점수 $y$ 를 부여, (2) 점수 임계값 이상이면 “매치 선언” 이하면 “수작업 확인”. 거짓 매치율 (false-match rate) = 거짓 매치 수 / 선언 매치 수.

4.2 기존 방법의 문제

점수를 확률로 변환하는 단순한 방법은 극도로 부정확한 (대개 낙관적) 거짓 매치율 을 추정한다. 예 — 명목 거짓 매치 확률이 $10^{-3}$ ~ $10^{-7}$ 인 레코드 그룹을 수동으로 확인했더니 실제 거짓 매치율은 약 1% 수준. 1% 로 선언된 그룹의 실제 거짓 매치율은 5%.

4.3 혼합 모델로 재보정

$y$ 분포 전체를 진짜 매치와 비매치의 혼합 으로 모델링.

\[ p(y) = \Pr(\text{match}) \, p(y \mid \text{match}) + \Pr(\text{non-match}) \, p(y \mid \text{non-match}) \tag{1.7} \]

혼합 확률 $\Pr(\text{match})$ 와 두 성분 분포의 모수는 매치 상태를 모르는 실제 데이터 에서 혼합 모델로 추정 (Ch.22 의 상세 방법). 임계값을 변화시키며 거짓 매치율 곡선을 구성.

4.4 외부 검증

1988 년 테스트 Census 데이터 (매치 상태가 알려진 별도 데이터) 로 외부 검증. 그림 1.4 — 모델이 예측한 거짓 매치율 곡선과 실제 거짓 매치율 점들이 잘 추적. 그림 1.5 — 거짓 매치율이 급격히 상승하는 영역 ($\approx 88\%$ 의 매치 선언 비율 근처) 에서 모델이 임계점을 정확히 포착.

직관 — Ch.1 에 이미 있는 “모델 점검” 의 씨앗

이 예제는 § 1.1 의 3단계 중 3단계 를 구체화한다. 혼합 모델을 적합하고, 외부 데이터로 “예측된 거짓 매치율” vs “실제 거짓 매치율” 을 비교한다. 이것이 Part II Ch.6~7 의 사후 예측 점검 · 외부 검증 의 원형.

혼합 모델 자체는 Part V Ch.22 의 주제지만, Ch.1 에서 이미 응용 사례로 등장한다. 교재의 구조가 “개관 → 도구 → 상세” 로 나선형이라는 것을 보여주는 대목.

4.5 교재의 메시지

이 두 예제 (축구 · 레코드 링키지) 를 Gelman 이 “확률 할당 사례” 로 배치한 이유 — 확률은 “주관적” 이라기보다 “경험적” 으로 추정할 수 있다는 것을 강조. “확률이 개인의 신념이다” 보다 “확률이 데이터 기반 수량적 진술이다” 라는 쪽에 BDA 교재의 무게가 실린다.

5 § 1.8 확률 이론의 유용한 결과들

5.1 표기 규약 재확인

결합 밀도 $p(u, v)$ 에서 조건부 · 주변으로의 계산. 기본 요인화.

\[ p(u, v, w) = p(u \mid v, w) \, p(v \mid w) \, p(w) \]

세 변수 결합을 조건부 체인으로 풀어쓰는 것은 계층 모델 (Ch.5, Ch.15) 의 기본 어휘.

5.2 모델 가정의 암묵적 조건화

모든 확률 진술은 가정 $H$ 하에 이루어진다 — “진공에서 확률 판단 불가”.

\[ p(\theta, y \mid H) = p(\theta \mid H) \, p(y \mid \theta, H) \]

$H$ 를 명시 안 하는 것이 관례지만 분석이 가정에 의존한다는 사실은 잊으면 안 된다. 이것이 Part II Ch.6 의 민감도 분석의 철학적 기반.

5.3 반복 기댓값 · 반복 분산 — 두 항등식

반복 기댓값의 법칙 — $u$ 의 기댓값은 $v$ 에 조건화한 기댓값을 $v$ 의 분포로 평균.

\[ E(u) = E(E(u \mid v)) \tag{1.8} \]

유도.

\[ E(u) = \iint u \, p(u, v) \, du \, dv = \iint u \, p(u \mid v) \, du \, p(v) \, dv = \int E(u \mid v) \, p(v) \, dv \]

반복 분산 — $u$ 의 분산은 조건부 분산의 평균 + 조건부 기댓값의 분산.

\[ \text{var}(u) = E(\text{var}(u \mid v)) + \text{var}(E(u \mid v)) \tag{1.9} \]

유도 스케치.

\[ \begin{aligned} E(\text{var}(u \mid v)) + \text{var}(E(u \mid v)) &= E(E(u^2 \mid v) - (E(u \mid v))^2) + E((E(u \mid v))^2) - (E(E(u \mid v)))^2 \\ &= E(u^2) - E((E(u \mid v))^2) + E((E(u \mid v))^2) - (E(u))^2 \\ &= E(u^2) - (E(u))^2 = \text{var}(u) \end{aligned} \]

직관 — 반복 분산이 계층 모형의 엔진

$u$ 가 학생 점수, $v$ 가 학교라면.

$E(\text{var}(u \mid v))$: 학교 내 변동의 평균 (within-school variance) — 같은 학교 학생 간 차이
$\text{var}(E(u \mid v))$: 학교 평균의 변동 (between-school variance) — 학교별 평균 차이

학생 점수의 전체 분산 = 학교 내 분산 + 학교 간 분산. 이 분해가 ANOVA · 급내 상관 · 계층 회귀 · 혼합 모형 의 출발점. Ch.15 의 varying intercept 모델 구조가 식 (1.9) 의 한 줄에서 자라난다.

5.4 조건부 모델링의 선호

예시 — 대학생의 키 $y$. 주변 분포 $p(y)$ 는 약 160cm, 175cm 근방에 두 정규의 혼합. 더 유용한 기술은 결합 분포 로부터.

\[ p(y) = p(\text{male}) \, p(y \mid \text{male}) + p(\text{female}) \, p(y \mid \text{female}) \]

$p(\text{male}) \approx p(\text{female}) \approx 1/2$ 에 $p(y \mid \text{male})$, $p(y \mid \text{female})$ 는 각각 정규.

“일반적으로 우리는 복잡한 주변 분포보다 추가 변수를 사용한 계층적 구조로 복잡성을 모델링하는 것을 선호한다 — 심지어 추가 변수가 관측되지 않거나 관측 불가능하더라도.” (교재 원문)

이것이 Ch.22 의 혼합 모델, Ch.18 의 데이터 증대 (latent variable augmentation) 의 근본 철학.

5.5 변수 변환 — 이산

$u$ 의 이산 분포 $p_u(u)$ 와 1-대-1 변환 $v = f(u)$.

\[ p_v(v) = p_u(f^{-1}(v)) \]

다-대-1 이면 각 역상에 해당하는 항의 합.

5.6 변수 변환 — 연속 (야코비안)

$v = f(u)$ 가 1-대-1 연속 변환이면.

\[ p_v(v) = |J| \, p_u(f^{-1}(v)) \]

$|J|$ 는 변환 $u = f^{-1}(v)$ 의 야코비안 행렬식의 절댓값. 야코비안 행렬 $J$ 는 $(i, j)$ 성분이 $\partial u_i / \partial v_j$ 인 정방 행렬.

5.7 표준 변환 — logit · probit

베이즈 계산에서 자주 쓰이는 두 변환.

Logit — $(0, 1)$ 을 $(-\infty, \infty)$ 로.

\[ \text{logit}(u) = \log\left(\frac{u}{1 - u}\right), \quad \text{logit}^{-1}(v) = \frac{e^v}{1 + e^v} \tag{1.10} \]

Probit — 마찬가지로 $(0, 1)$ 을 $(-\infty, \infty)$ 로.

\[ \text{probit}(u) = \Phi^{-1}(u) \]

$\Phi$ 는 표준 정규 cdf.

로그 변환 — $(0, \infty)$ 을 $(-\infty, \infty)$ 로 — 분산 · 스케일 모수에 흔히 사용.

직관 — 왜 제약 공간을 실수 전체로 옮기는가

MCMC · 최적화 · 정규 근사 모두 제약 없는 실수 공간에서 더 잘 작동 한다. Gibbs 의 정규 조건부, HMC 의 leapfrog, BFGS 의 탐색 방향 모두 $\mathbb{R}^d$ 를 전제. 따라서 비율·확률·분산 같은 제약 모수를 logit · log 로 실수 공간 으로 옮겨 계산한 뒤 역변환으로 돌아온다.

이 관행이 Part III Ch.12 재매개변수화 의 기본 어휘다. § 1.1~1.4 심화 의 혈우병 Metropolis 예제에서도 $\theta \in (0, 1)$ 를 logit 공간으로 옮겨 정규 제안을 썼다.

6 각 절의 후속 연결

§	Ch.1 의 뿌리	이후 장에서 자라는 나무
1.5	확률의 의미 · 주관/객관	Ch.2 사전 선택 · Ch.6 민감도 분석
1.6	경험 vs 모수 모델	Ch.14~16 회귀 · Ch.20 기저 함수
1.7	혼합 모델 · 외부 검증	Ch.22 혼합 · Ch.6 사후 예측 점검
1.8	반복 분산 · 조건부 모델링 · 변환	Ch.15 계층 분산 분해 · Ch.12 재매개변수화

Ch.1 이 “교재 전체를 압축한 목차” 라는 Gelman 의 구성은 후반 네 절에서 더욱 분명해진다.

7 코드 예제 — Ch.1.6 축구 모수 모델 · Ch.1.8 반복 분산

7.1 Step 1: 축구 점 스프레드 — 경험 vs 모수 확률 비교

import math
import random

random.seed(42)

# 시뮬레이션 데이터 — 참값 d ~ N(0, 14^2), x 는 {3.5, 8.5, 9.0} 중 랜덤
true_sd = 14.0
x_choices = [3.5, 8.5, 9.0]
n_games = 1000

games = []
for _ in range(n_games):
    x = random.choice(x_choices)
    d = random.gauss(0, true_sd)
    y = x + d
    games.append((x, y))

# 경험 확률
def empirical_favorite_win(x_target):
    wins = [1 if y > 0 else 0 for (x, y) in games if x == x_target]
    n = len(wins)
    if n == 0:
        return None, 0
    return sum(wins) / n, n

# 모수 확률 (정규 모델)
def phi(x):
    # 표준 정규 cdf
    return 0.5 * (1 + math.erf(x / math.sqrt(2)))

def parametric_favorite_win(x, sd=14.0):
    return phi(x / sd)

print(f"{'x':<5} {'empirical':<15} {'parametric':<15}")
for x in x_choices:
    emp, n = empirical_favorite_win(x)
    par = parametric_favorite_win(x)
    print(f"{x:<5} {emp:.4f} (n={n}) {par:.4f}")

예상 출력 — $n$ 이 약 330 개씩 분할되므로 경험 확률도 안정적. 세 값 모두 모수 확률과 거의 일치. 실제 교재 데이터 (8.5 에서 $n=5$) 처럼 표본이 극도로 작지 않다면 두 방법이 수렴한다는 것을 확인.

7.2 Step 2: 반복 분산 공식의 수치 검증

import random

random.seed(0)

# 두 그룹 (학교 A, B) 에서 점수 생성
# A 학교: N(70, 5^2), B 학교: N(85, 8^2)
schools = {"A": (70.0, 5.0), "B": (85.0, 8.0)}
group_probs = {"A": 0.5, "B": 0.5}

n = 100000
data = []
for _ in range(n):
    g = "A" if random.random() < group_probs["A"] else "B"
    mu, sd = schools[g]
    y = random.gauss(mu, sd)
    data.append((g, y))

# 전체 분산
ys = [y for (_, y) in data]
mean_all = sum(ys) / n
var_all = sum((y - mean_all) ** 2 for y in ys) / n

# within-school (조건부 분산의 평균)
y_A = [y for (g, y) in data if g == "A"]
y_B = [y for (g, y) in data if g == "B"]
mean_A = sum(y_A) / len(y_A)
mean_B = sum(y_B) / len(y_B)
var_A = sum((y - mean_A) ** 2 for y in y_A) / len(y_A)
var_B = sum((y - mean_B) ** 2 for y in y_B) / len(y_B)
E_var_given_v = (len(y_A) * var_A + len(y_B) * var_B) / n

# between-school (조건부 기댓값의 분산)
group_means = [mean_A, mean_B]
group_weights = [len(y_A) / n, len(y_B) / n]
mean_of_means = group_weights[0] * mean_A + group_weights[1] * mean_B
var_E_given_v = sum(w * (m - mean_of_means) ** 2 for w, m in zip(group_weights, group_means))

print(f"var(y)                 = {var_all:.3f}")
print(f"E[var(y|school)]       = {E_var_given_v:.3f}  (within)")
print(f"var(E[y|school])       = {var_E_given_v:.3f}  (between)")
print(f"within + between sum   = {E_var_given_v + var_E_given_v:.3f}")
print(f"차이                   = {abs(var_all - (E_var_given_v + var_E_given_v)):.6f}")

예상 출력 — 전체 분산 ≈ within + between (거의 0 의 수치 오차). Ch.15 계층 모형에서 $\tau^2$ (그룹 간 분산) 이 분리되는 수학적 근거가 이 식 (1.9) 임을 코드로 확인.

8 관련 주제

같은 Ch.1 의 다른 심화 포스트

Ch.1 Probability and Inference 개요 — § 1.1~1.9 훑기
§ 1.1~1.4 심화 — 프로세스·표기법·베이즈 추론·이산 예제

Part I 전체 맥락

Part I: Fundamentals of Bayesian Inference — Ch.1~5 개관
Part II · Part III · Part IV · Part V

빈도주의 확률론

확률론 개요 — Kolmogorov 공리와 확률공간
조건부 확률과 베이즈 정리 — 빈도주의 관점
변환과 기대값 개요 — 반복 기댓값 · 야코비안

후속 Ch.2~5 상세 (작성 예정)

Ch.2 Single-Parameter Models
Ch.3 Multiparameter Models
Ch.4 Asymptotics
Ch.5 Hierarchical Models

Part V 혼합 모델 (§ 1.7 레코드 링키지의 후속)

Part V 개관 — Ch.22 유한 혼합의 상세 다루는 Part

9 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.1 (§ 1.5~1.8).
Savage, L. J. (1954). The Foundations of Statistics. Wiley.
de Finetti, B. (1974). Theory of Probability: A Critical Introductory Treatment. Wiley.
Lindley, D. V. (2006). Understanding Uncertainty. Wiley.
Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press.
Ramsey, F. P. (1931). Truth and probability. In The Foundations of Mathematics and Other Logical Essays, ed. R. B. Braithwaite, 156–198. Routledge.
Belin, T. R., & Rubin, D. B. (1995). A method for calibrating false-match rates in record linkage. Journal of the American Statistical Association, 90(430), 694–707.