Kwangmin Kim - Ch.4 Asymptotics and Connections to Non-Bayesian Approaches

1 Ch.4 의 위치 — 베이즈와 빈도주의의 합류점

Ch.1~3 에서 여러 번 확인했다 — “비정보 사전 하의 베이즈 사후가 빈도주의 결과와 같은 숫자 를 준다”. Newcomb 의 $t$ 구간, bioassay 의 MLE, placenta previa 의 정규 근사 구간 — 모두 베이즈 해석과 빈도주의 해석이 수치적으로 일치.

Ch.4 는 이 일치가 왜 그리고 언제 성립하는지의 수학적 정당화.

Ch.4 의 한 줄 요약

“표본이 커지면 사전 영향은 사라지고, 사후는 $N(\hat\theta, I(\hat\theta)^{-1})$ 정규로 수렴하며, 95% 사후 구간이 빈도주의 신뢰 구간과 수치적으로 일치한다. 그러나 비식별 · 경계 · 꼬리 영역에서는 점근이 실패하며, 이 때 모델 교정이 필요하다.”

Ch.4 는 베이즈 추론에 ‘필수’ 는 아니지만, 빈도주의와의 관계를 이해하고 근사적 계산을 정당화하는 데 가장 유용한 장 (Gelman et al., 2013, Ch.4).

Ch.4 의 구성.

절	핵심	역할
§ 4.1	사후 정규 근사	Taylor 전개로 $N(\hat\theta, I^{-1})$
§ 4.2	대표본 이론	일관성 + 점근 정규성
§ 4.3	반례	정규 근사가 실패하는 7 가지 상황
§ 4.4	빈도주의 평가	Bayesian 구간의 frequency coverage
§ 4.5	빈도주의의 Bayes 해석	MLE·신뢰구간·붓스트랩의 사전
§ 4.6~4.7	참고문헌·연습	-

2 § 4.1 사후분포의 정규 근사

2.1 Taylor 전개 아이디어

사후분포가 단봉 (unimodal) 이고 대략 대칭 이면 정규로 근사 가능. 방법 — 로그 사후의 이차 함수 근사.

사후 모드 $\hat\theta$ 주변에서 $\log p(\theta \mid y)$ 의 Taylor 전개.

\[ \log p(\theta \mid y) = \log p(\hat\theta \mid y) + \frac{1}{2}(\theta - \hat\theta)^\top \left[\frac{d^2}{d\theta^2}\log p(\theta \mid y)\right]_{\theta = \hat\theta}(\theta - \hat\theta) + \cdots \tag{4.1} \]

1 차 항은 0 (모드에서 기울기 0). 2 차 항이 이차 근사 의 핵심. 고차 항은 $n$ 이 클 때 상대적으로 작아진다 (§ 4.2 에서 확인).

2.2 정규 근사 공식

\[ p(\theta \mid y) \approx N(\hat\theta, [I(\hat\theta)]^{-1}) \tag{4.2} \]

여기서 관측 정보 (observed information).

\[ I(\theta) = -\frac{d^2}{d\theta^2}\log p(\theta \mid y) \]

사후 모드에서 $I(\hat\theta)$ 가 양정부호 → 정규 근사의 공분산 $I(\hat\theta)^{-1}$.

직관 — “관측 정보” 는 사후가 모드 주변에서 얼마나 뾰족한가

$I(\hat\theta)$ 가 크면 로그 사후가 모드 주변에서 가파르게 감소 → 날카로운 모드 → 작은 분산. $I(\hat\theta)$ 가 작으면 로그 사후가 평탄 → 넓은 모드 → 큰 분산.

정규 근사는 “$\hat\theta$ 에서의 곡률 정보” 만으로 전체 분포 근사 — 현대 Laplace 근사·변분 추론의 기초. Ch.13 에서 더 정교한 근사를 다룬다.

2.3 예제 — 정규 모델 $(\mu, \log \sigma)$

$y_1, \ldots, y_n \sim N(\mu, \sigma^2)$, 균등 사전 $p(\mu, \log \sigma) \propto 1$.

로그 사후.

\[ \log p(\mu, \log \sigma \mid y) = \text{const} - n\log\sigma - \frac{1}{2\sigma^2}\left((n-1)s^2 + n(\bar{y} - \mu)^2\right) \]

사후 모드.

\[ (\hat\mu, \log \hat\sigma) = \left(\bar{y}, \log\sqrt{\frac{n-1}{n}}s\right) \]

2 차 미분 행렬 (모드에서).

\[ \left(\frac{d^2}{d\theta^2}\log p\right)_{\hat\theta} = \begin{pmatrix} -n/\hat\sigma^2 & 0 \\ 0 & -2n \end{pmatrix} \]

비대각이 0 — $(\mu, \log\sigma)$ 가 근사적으로 독립.

정규 근사.

\[ p(\mu, \log\sigma \mid y) \approx N\left(\begin{pmatrix}\bar{y} \\ \log\hat\sigma\end{pmatrix}, \begin{pmatrix}\hat\sigma^2/n & 0 \\ 0 & 1/(2n)\end{pmatrix}\right) \]

$\mu$ 의 주변 근사 $N(\bar{y}, \hat\sigma^2/n)$ 가 Ch.3.2 의 $t_{n-1}(\bar{y}, s^2/n)$ 의 점근 한계 — 대 $n$ 에서 $t \to N$.

2.4 로그 스케일의 이점

$\log \sigma$ 공간에서의 정규 근사가 $\sigma$ 나 $\sigma^2$ 공간보다 더 정확. $\sigma \in (0, \infty)$ 제약을 $\log \sigma \in \mathbb{R}$ 로 풀어 정규의 무한 지지와 맞춘다.

일반 원리 — 제약 있는 모수는 변환 후 정규 근사. Ch.1.8 의 logit·log·probit 변환이 다시 등장.

2.5 로그 밀도의 $\chi^2$ 해석

다변량 정규 $N(\hat\theta, I^{-1})$ 에서.

\[ -2 \log \frac{p(\theta)}{p(\hat\theta)} = (\theta - \hat\theta)^\top I(\hat\theta) (\theta - \hat\theta) \sim \chi^2_d \]

즉 로그 밀도 차이 × (-2) 가 $\chi^2_d$ 분포. 이를 바탕으로.

차원 $d$	$\chi^2_d$ 의 95 분위수	등고선 밀도 vs 모드 밀도
1	3.84	$\exp(-3.84/2) = 0.15$
2	5.99	$\exp(-5.99/2) = 0.05$
10	18.31	$\exp(-18.31/2) = 1.1 \times 10^{-4}$

Bioassay 등고선 (Ch.3.7 그림 3.3a) 의 0.05 등고선이 95% 확률 포함 한다는 사실의 근거.

2.6 부분 공간 정규 근사

고차원 $\theta$ 에서 전체 결합이 정규 근사와 멀어도, 주변 분포 · 조건부 분포 는 더 가까울 수 있다 (혼합이 정규성으로 수렴하는 경향).

두 전략.

개별 $\theta_j$ 의 주변 근사 — 각 성분을 점 추정 + 표준오차로
$\theta = (\theta_1, \theta_2)$ 분할, $p(\theta_2 \mid y)$ 는 비정규여도 $p(\theta_1 \mid \theta_2, y)$ 는 정규 — Ch.13.5 의 잠재 가우시안 모델 전략

2.7 Bioassay 재방문

Ch.3.7 의 2 모수 $(\alpha, \beta)$ 실제 사후 vs 정규 근사 비교.

실제 사후 (그림 3.3): 우상 skewed, 모드 $(0.8, 7.7)$ 이지만 평균 $(1.4, 11.9)$
정규 근사 (그림 4.1): 대칭 타원, 평균 = 모드 $(0.8, 7.7)$

효과 — 표본이 20 마리로 작아 정규 근사의 대칭성이 실제 skewness 를 놓친다.

LD50 사후 는 더 극적 차이.

실제: $\Pr(\beta > 0) > 0.999$, LD50 히스토그램 꼬리 좁음 (그림 3.4)
정규 근사: $\Pr(\beta > 0) \approx 0.95$ (950/1000), LD50 꼬리 매우 넓음 ($-12.4 \sim 5.4$)

정규 근사가 $\beta \approx 0$ 근처 확률을 과대추정 → LD50 $= -\alpha/\beta$ 가 발산하는 시뮬 증가.

직관 — “정규 근사의 한계를 어떻게 판단하는가”

시뮬 수 비교 — 실제 사후 시뮬 (격자 또는 MCMC) 과 정규 근사 시뮬을 모두 돌리고 주요 요약 (평균·구간·파생량 확률) 을 비교. 차이가 작으면 근사 적절, 크면 실제 사후 기반 분석 필요.

Gelman 의 교훈 — “정규 근사의 정확성은 사례별로 확인해야 한다”. 일반 규칙이 없다 — 사후 모양과 표본 크기에 따라 결정.

2.8 정규 근사의 실무 용도

점 추정 + 표준오차 의 통계적 정당화 — MLE ± 1.96 SE 의 베이즈 버전
초기값 — MCMC 의 시작점, Gibbs 의 분산 정보
디버깅 — 더 정교한 근사·시뮬 결과와의 sanity check
요약 통계 — 계층 모델에서 개별 그룹을 점 추정 + SE 로 요약 (Ch.5.5 의 8 학교)

3 § 4.2 대표본 이론

3.1 핵심 정리

점근 정규성 (asymptotic normality) — $n \to \infty$ 에서 사후가 다변량 정규로 수렴.

\[ p(\theta \mid y) \to N(\theta_0, (nJ(\theta_0))^{-1}) \]

$\theta_0$ — “진짜” 모수 값, $J(\theta)$ — Fisher 정보량.

일관성 (consistency) — 사후가 $\theta_0$ 에 점 질량으로 집중.

\[ p(\theta \mid y) \to \delta_{\theta_0} \quad \text{(point mass)} \]

3.2 Fisher 정보의 역할

\[ J(\theta) = E\left[-\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \]

단위 관측당 평균 정보량. 사후 정밀도 = $n \cdot J(\theta_0)$ — 표본 크기 × 단위 정보량.

직관 — “표본이 많으면 사전이 사라진다” 의 수학적 이유

로그 사후의 2 차 미분 ($\theta$ 가 모드 $\hat\theta$ 근처) 를 분해.

\[ \left[\frac{d^2 \log p(\theta \mid y)}{d\theta^2}\right]_{\hat\theta} = \underbrace{\left[\frac{d^2 \log p(\theta)}{d\theta^2}\right]_{\hat\theta}}_\text{사전 1 항} + \underbrace{\sum_{i=1}^n \left[\frac{d^2 \log p(y_i \mid \theta)}{d\theta^2}\right]_{\hat\theta}}_\text{가능도 $n$ 항} \]

$n \to \infty$ 이면 가능도 항의 합이 $n$ 배로 커지지만 사전 항은 고정. 비율이 $n/(n+1) \to 1$ — 가능도가 완전히 지배.

$n = 1$: 사전이 절반 정보. $n = 10$: 사전이 $1/11$, 가능도 $10/11$. $n = 1000$: 사전 사실상 무시.

이것이 “베이즈 추정이 대표본에서 MLE 로 수렴” 의 수학적 메커니즘.

3.3 진짜 모델이 포함되지 않은 경우

가정된 모델 가족 $p(y \mid \theta)$ 에 진짜 분포 $f(y)$ 가 포함되지 않을 때도 점근 정규성은 성립. 이 경우 $\theta_0$ 는

\[ \theta_0 = \arg\min_\theta \text{KL}(f \| p(\cdot \mid \theta)) \]

즉 KL 발산 최소화 모수. 모델의 최선 근사.

의미 — 모델이 완벽하지 않아도 “가장 가까운” 모수 로 수렴. 실무 분석에서 모델 불완전성을 허용하는 점근 기반.

3.4 가능도가 사전을 지배

$n$ 이 커지면 사전 영향이 감소. 실무 함의.

표본 크기	사전 선택의 중요성
작음 ($n < 50$)	핵심 — 결론이 사전에 민감
중간 ($n < 1000$)	중요 — 민감도 분석 권장
큼 ($n \geq 1000$)	무시 가능 (합리적 사전이면)

“표본이 크면 사전에 시간 쓰지 말라” 가 아니라 “표본이 작으면 사전에 많이 공들여라” 가 옳은 교훈.

4 § 4.3 반례 — 정규 근사가 실패하는 경우

점근 정규성의 규칙성 조건이 깨지는 상황들.

4.1 1. 비식별 (underidentified) 모수

가능도 $p(y \mid \theta)$ 가 $\theta$ 의 일정 범위에서 같은 값 — 이 범위 내에서 데이터가 구분 정보를 주지 못한다.

예 — 두 변수 정규 $(u, v) \sim N(0, \Sigma)$ 에서 각 쌍 중 하나만 관측. $\rho$ (상관) 가 비식별. 데이터가 $\rho$ 에 대해 아무 정보도 주지 않아 사후 = 사전 — 표본이 아무리 커도.

해결 — 모수 차원 축소 또는 추가 정보 수집.

4.2 2. 매개변수 수가 표본 크기와 함께 증가

$y_i \sim N(\theta_i, \sigma^2)$ — 관측마다 고유 모수. 개별 $\theta_i$ 가 추가 데이터 없이는 추정 안 됨.

해결 — 계층 모형 (Ch.5) 으로 $\theta_i$ 들의 공통 분포 부여.

4.3 3. Aliasing

가능도가 이산적으로 반복. 예 — 정규 혼합 모델에서 두 성분 교환.

\[ (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) \leftrightarrow (\mu_2, \mu_1, \sigma_2^2, \sigma_1^2, 1-\lambda) \]

라벨 스위칭 — 두 해가 수학적으로 동치. 사후가 2 개 모드의 50/50 혼합 → 단일 정규 근사 실패.

해결 — 모수 공간 제한 (예: $\mu_1 \leq \mu_2$).

4.4 4. 무계 (unbounded) 가능도

가능도가 무한대로 발산 — 정규 혼합에서 $\mu_1 = y_i, \sigma_1 \to 0$. 모드가 모수 공간 밖 또는 없음.

해결 — 모수 공간 제한 또는 경계에서 감쇠하는 사전.

4.5 5. Improper 사후

Improper 사전 × 가능도 = 적분 무한인 사후. 예 — Beta(0, 0) 사전 + $y = n$ 데이터 → 사후 $\theta^{n-1}(1-\theta)^{-1}$ 가 $\theta = 1$ 에서 발산.

해결 — Proper 사전 또는 integrable improper 확인.

4.6 6. 경계 수렴

$\theta_0$ 가 모수 공간의 경계 — 예 $y_i \sim N(\theta, 1)$, $\theta \geq 0$, 진짜 $\theta_0 = 0$.

사후는 반정규 (정규를 0 에서 잘라낸 분포). 정규 근사 부적합.

해결 — 경계 근처에서 근사 주의, 또는 모수 공간 변환.

4.7 7. 꼬리 근사 실패

사후의 중심 부분 은 정규 근사가 좋아도 꼬리 가 다를 수 있다. 예 — 라플라스 분포 꼬리 $e^{-c|\theta|}$ 가 정규 $e^{-c\theta^2}$ 보다 두꺼움.

해결 — 꼬리 영역 추론이 중요하면 정규 근사 대신 실제 사후.

직관 — 반례들이 알려주는 것

이 일곱 가지 반례는 “언제 정규 근사를 믿지 마라” 의 체크리스트. 실무에서.

모수가 식별되는가 (1, 3)
모수 차원이 표본에 비해 합리적인가 (2)
가능도가 유계인가 (4)
사후가 proper 인가 (5)
관심 영역이 경계에서 먼가 (6)
꼬리 추론이 필요한가 (7)

각 점검이 실패하면 MCMC · 더 정교한 근사 (Ch.13) · 모델 수정이 필요. Ch.4 의 반례들이 Ch.5~17 의 많은 기법의 동기.

5 § 4.4 빈도주의적 평가

5.1 반복 표본 관점

베이즈 패러다임이 고전 기법을 정당화하듯, 빈도주의도 베이즈 추론의 운영 특성 (operating characteristics) 을 평가하는 데 유용.

5.2 대표본 대응 (large-sample correspondence)

정규 근사 (4.2) 가 성립하면.

\[ [I(\hat\theta)]^{1/2}(\theta - \hat\theta) \mid y \sim N(0, I) \tag{4.3} \]

반복 표본에서 (진짜 $\theta_0$ 고정).

\[ [I(\hat\theta)]^{1/2}(\theta_0 - \hat\theta) \mid \theta_0 \sim N(0, I) \tag{4.4} \]

두 분포가 점근적으로 동일. 함의.

“95% 중앙 사후 구간이 반복 표본에서 95% 의 경우 참값을 포함 한다 — 어떤 고정된 진짜 $\theta$ 에 대해서도.” (교재)

즉 베이즈 신용 구간이 빈도주의 신뢰 구간으로 기능.

5.3 점 추정의 일관성과 효율성

일관성 (consistency). $\hat\theta$ 의 표본 분포가 $n \to \infty$ 에서 $\theta_0$ 에 점 질량 수렴. 베이즈에서 — 사후 평균·중앙값·모드 모두 일관 (규칙성 조건 아래).

점근적 비편향성. $(\mathrm{E}(\hat\theta \mid \theta_0) - \theta_0)/\text{sd}(\hat\theta \mid \theta_0) \to 0$. 베이즈 점 추정들 역시 점근적 비편향.

효율성 (efficiency). $\text{MSE}$ 가 최적. Cramér-Rao 하한 과 비교. 점근 효율성이 1 → Fisher 정보에 기반한 최소 MSE 달성. 베이즈 점 추정도 점근 효율.

5.4 신뢰 포괄 (confidence coverage)

$C(y)$ 가 $100(1-\alpha)\%$ 신뢰 영역 — 어느 $\theta_0$ 에 대해서도 반복 표본 중 $1 - \alpha$ 의 경우 $\theta_0$ 포함.

점근적으로 $100(1-\alpha)\%$ 중앙 사후 구간 이 $100(1-\alpha)\%$ 신뢰 영역. 작은 표본에서도 대개 가까운 포괄율.

6 § 4.5 빈도주의 방법의 베이즈 해석

6.1 세 가지 수준의 비교

대표본: 베이즈와 빈도주의가 수치 수렴
소표본: 많은 고전 기법이 특정 사전 하의 베이즈 근사 로 해석 가능
일부 기법은 근본적으로 다름 — 특히 가설검정 결과가 크게 차이날 수 있다

6.2 MLE 와 점 추정

빈도주의 MLE 는 균등 사전 하의 사후 모드. 큰 $n$ 에서 충분통계량이자 점근 효율. 비정보 사전의 베이즈적 정당화 가 여기서 온다.

\[ p(\hat\theta \mid \theta_0) \approx N(\theta_0, (nJ(\theta_0))^{-1}) \tag{빈도주의} \]

\[ p(\theta \mid \hat\theta) \approx N(\hat\theta, (nJ(\hat\theta))^{-1}) \tag{베이즈} \]

두 분포가 역할이 뒤집힌 같은 $N$. 수치 일치의 근원.

6.3 비편향성의 한계

빈도주의 전통이 강조하는 비편향 추정 은 대표본에서 합리적이지만 소표본에서 misleading.

Gelman 의 예 — 키 회귀. 딸의 키 $\theta$, 엄마의 키 $y$. 공동 정규 $\mu = 160, \text{corr} = 0.5$.

베이즈 사후 평균 (중앙으로의 회귀).

\[ E(\theta \mid y) = 160 + 0.5(y - 160) \tag{4.5} \]

이 베이즈 추정은 비편향이 아님 — $\theta$ 고정 $y$ 반복에서 $E(\theta \mid y)$ 의 평균이 $160 + 0.25(\theta - 160)$. 평균으로 향하는 편향.

반면 “비편향” 추정.

\[ \hat\theta = 160 + 2(y - 160) \]

$y$ 평균 = 160 에서 멀어지면 딸을 2 배 극단으로 추정 — 키 160 + 10cm 엄마의 딸을 160 + 20cm 로 예측! 현실과 동떨어진 결과.

교훈 — 비편향성은 소표본에서 중심으로의 회귀를 부정 하여 합리적 추정을 포기. 계층 모형 (Ch.5) 의 shrinkage 와 충돌.

6.4 Galton 의 회귀

이 예제는 Galton 의 “평균으로의 회귀 (regression to the mean)” 원리. 19 세기 말 Galton 이 도입한 “회귀” 라는 용어의 원래 의미가 “두 극단이 평균으로 당겨지는 현상” 이었다. 베이즈 분석은 이 원리의 논리적 확장 — 서로 다른 정보 출처를 적절히 가중.

6.5 신뢰 구간 vs 베이즈 구간

대개 점근적으로 일치. 소표본에서 차이는 주로 사전 정보 반영 여부. 빈도주의가 확장 원리 등에서 이상한 구간을 줄 때 — 베이즈가 더 합리적.

6.6 가설검정과 다중 비교

Ch.4 가 명시적으로 논의.

빈도주의 가설검정 — $p$-값, 유의 수준. 고정된 $\alpha = 0.05$ 는 다중 비교 에서 문제.

베이즈 가설검정 — Bayes 팩터 또는 사후 확률. 다중 비교 자연 보정 — 계층 사전이 여러 효과를 동시에 shrink.

6.7 붓스트랩

붓스트랩 분포 이 특정 사전 하의 사후 분포 근사 로 해석될 수 있다. 정규 근사에서는 두 방법이 거의 일치.

6.8 비모수 방법

경험 분포 함수 (EDF) 가 Dirichlet Process 사전 과 연결. Part V Ch.23 의 DP 가 빈도주의 비모수의 베이즈 재해석 중 핵심.

직관 — Ch.4 의 실용적 메시지

빈도주의 방법의 베이즈 해석 을 알면.

언제 정당한가 이해 — 특정 사전 가정 하에서 합리적
언제 개선 가능한가 이해 — 정보적 사전 · 계층 구조로 보강
언제 갈라지는가 이해 — 비편향성 · 유의성 검정이 베이즈와 다른 철학

Gelman 의 스타일 — “베이즈가 빈도주의를 대체하는 것이 아니라 포괄한다”. 표본이 크면 같은 답, 작으면 다른 답 — 두 관점을 모두 이해하는 것이 실용 통계학자의 덕목.

7 § 4.6~4.7 참고문헌과 연습

7.1 지적 계보

Laplace (1810) — 정규 근사의 원전. 이항 분포 사후를 가우시안으로 근사
Le Cam (1986) — 점근 통계학의 현대적 체계화
van der Vaart (1998) — Asymptotic Statistics 표준 교재
Efron & Hastie (2016) — Computer Age Statistical Inference, 베이즈와 빈도주의의 현대적 통합

7.2 연습문제 유형

Ch.4 의 연습은.

정규 근사 유도 — 이항, Poisson, 지수 등에서 Taylor 전개 수행
반례 탐색 — 가능도가 무계인 경우 · 비식별 모수
빈도주의-베이즈 비교 — 특정 문제에서 사전 선택이 주는 효과
정규 근사 정확도 — 실제 사후와 근사의 시뮬레이션 비교

8 Ch.4 의 구조적 통합

주제	핵심 결과	실무 함의
정규 근사	$p(\theta \mid y) \approx N(\hat\theta, I^{-1})$	점 추정 + SE 의 정당화
일관성	$\hat\theta \to \theta_0$	대표본에서 점 추정 가능
점근 정규성	사후 $\to$ 정규	신용 = 신뢰 (대표본)
반례	7 가지 실패 상황	근사 전 점검 필요
빈도 평가	95% 구간 = 95% 포괄	베이즈 구간의 빈도주의 정당화
빈도 방법의 Bayes 해석	MLE = 균등 사전 사후 모드	Shrinkage · 계층의 필요성

Ch.4 가 닫는 Part I — “단순 모델 + 점근” 의 실용 요약. Ch.5 의 계층 모형으로 Part I 가 완결된다.

9 빈도주의와의 최종 대응

질문	빈도주의	베이즈 (Ch.4 점근)
점 추정	MLE $\hat\theta$	사후 모드·평균·중앙값
표준오차	$(nJ)^{-1/2}$	사후 표준편차 $\approx (nJ)^{-1/2}$
95% 구간	Wald, Wilson 등	사후 2.5/97.5 분위수
가설검정	$p$-값 · 유의 수준	Bayes 팩터 · 사후 확률
다중 비교	Bonferroni 등 보정	계층 사전이 자동 shrinkage
예측	신뢰 구간 + 잔차	사후 예측 분포

대표본에서 일치, 소표본에서 차이 — Ch.4 가 이 경계를 정확히 밝힌다.

10 코드 예제 — 정규 근사의 실무

10.1 Step 1: 순수 Python — 이항 사후의 정규 근사 vs 실제

import math
import random

random.seed(42)

# 데이터: n = 20, y = 12
n, y = 20, 12

# 균등 사전 하의 Beta(13, 9) 사후
alpha_post, beta_post = y + 1, n - y + 1

# 실제 사후 평균·분산
mean_exact = alpha_post / (alpha_post + beta_post)
var_exact = (alpha_post * beta_post) / ((alpha_post + beta_post) ** 2 * (alpha_post + beta_post + 1))

# 정규 근사 — 모드와 관측 정보
theta_hat = (alpha_post - 1) / (alpha_post + beta_post - 2)  # Beta 모드
# log-posterior 의 2차 미분 (관측 정보)
I_theta = (alpha_post - 1) / theta_hat ** 2 + (beta_post - 1) / (1 - theta_hat) ** 2
var_approx = 1 / I_theta

print(f"실제 사후 평균: {mean_exact:.4f}, 분산: {var_exact:.6f}")
print(f"정규 근사 모드: {theta_hat:.4f}, 분산: {var_approx:.6f}")

# Beta 표본과 정규 근사 표본 비교
def sample_beta(a, b):
    x = random.gammavariate(a, 1)
    y = random.gammavariate(b, 1)
    return x / (x + y)

S = 10000
beta_samples = sorted([sample_beta(alpha_post, beta_post) for _ in range(S)])
normal_samples = sorted([random.gauss(theta_hat, math.sqrt(var_approx)) for _ in range(S)])

for q in [0.025, 0.5, 0.975]:
    i = int(q * S)
    print(f"{q*100:.1f}% 분위수 — 실제: {beta_samples[i]:.4f}, 정규 근사: {normal_samples[i]:.4f}")

예상 출력 — 실제 사후와 정규 근사의 분위수가 매우 비슷 ($n = 20$ 에서도). $n$ 이 더 작으면 차이 증가.

10.2 Step 2: 큰 표본에서 수렴 확인

import numpy as np
from scipy import stats

np.random.seed(42)

# 다양한 n 에서 베이즈와 MLE 비교
ns = [10, 50, 200, 1000]
true_theta = 0.3

print(f"{'n':<8} {'MLE':<12} {'사후 평균':<12} {'차이':<12}")
for n in ns:
    y = stats.binom.rvs(n, true_theta)
    mle = y / n
    post_mean = (y + 1) / (n + 2)  # Beta(1, 1) 사전
    print(f"{n:<8} {mle:<12.4f} {post_mean:<12.4f} {abs(mle - post_mean):<12.4f}")

예상 출력 — $n$ 증가에 따라 MLE 와 사후 평균의 차이가 $O(1/n)$ 속도로 감소. 가능도가 사전을 지배 의 수치 증거.

11 관련 주제

Ch.4 의 심화 포스트 (작성 예정)

§ 4.1 정규 근사의 상세 유도
§ 4.2 대표본 정리의 증명 스케치 (Appendix B)
§ 4.3 7 가지 반례의 구체적 예
§ 4.4~4.5 빈도주의와의 철학적 비교

Ch.1~3 심화 (선행)

Ch.1 개요 + § 1.1~1.4 · § 1.5~1.8 · § 1.9·1.10·1.12
Ch.2 개요 + 세 심화
Ch.3 개요 + 세 심화

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

MLE · 점 추정 — 최대가능도의 표본 분포
신뢰 구간 — 빈도주의 구간 이론
변환과 기대값 — 중심 극한 정리
James-Stein · Shrinkage — 빈도주의 shrinkage 의 베이즈 해석

후속 Ch.5 상세 (작성 예정)

Ch.5 Hierarchical Models — 8 schools · shrinkage · rat tumor

12 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.4.
Le Cam, L. (1986). Asymptotic Methods in Statistical Decision Theory. Springer.
van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
Efron, B., & Hastie, T. (2016). Computer Age Statistical Inference. Cambridge University Press.
Laplace, P. S. (1810). Mémoire sur les approximations des formules qui sont fonctions de très-grands nombres. Mémoires de l’Académie des Sciences de Paris.
James, W., & Stein, C. (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, 1, 361–379.