Ch.4 Asymptotics and Connections to Non-Bayesian Approaches — 점근이 만드는 다리

Gelman BDA Ch.4 개관 — 정규 근사·일관성·빈도주의와의 합류점

Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.4 를 개관한다. § 4.1 사후분포의 정규 근사 (Taylor 전개·관측 정보·bioassay 재방문), § 4.2 대표본 이론 (일관성·점근 정규성·Fisher 정보·가능도 지배), § 4.3 반례 (비식별 모수·매개변수 수 증가·aliasing·무계 가능도·improper 사후· 경계 수렴·꼬리), § 4.4 빈도주의적 평가 (신뢰 포괄·일관성·효율성), § 4.5 빈도주의 방법의 베이즈 해석 (MLE·비편향·신뢰 구간·가설검정·붓스트랩· 비모수), § 4.6~4.7 참고문헌·연습까지. Ch.1~3 의 단순 모델이 Ch.4 에서 왜 빈도주의 결과와 자연스럽게 합류하는지, 그리고 언제 갈라지는지를 수식·직관· 코드로 정리.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 20일

1 Ch.4 의 위치 — 베이즈와 빈도주의의 합류점

Ch.1~3 에서 여러 번 확인했다 — “비정보 사전 하의 베이즈 사후가 빈도주의 결과와 같은 숫자 를 준다”. Newcomb 의 \(t\) 구간, bioassay 의 MLE, placenta previa 의 정규 근사 구간 — 모두 베이즈 해석과 빈도주의 해석이 수치적으로 일치.

Ch.4 는 이 일치가 그리고 언제 성립하는지의 수학적 정당화.

Ch.4 의 한 줄 요약

“표본이 커지면 사전 영향은 사라지고, 사후는 \(N(\hat\theta, I(\hat\theta)^{-1})\) 정규로 수렴하며, 95% 사후 구간이 빈도주의 신뢰 구간과 수치적으로 일치한다. 그러나 비식별 · 경계 · 꼬리 영역에서는 점근이 실패하며, 이 때 모델 교정이 필요하다.”

Ch.4 는 베이즈 추론에 ‘필수’ 는 아니지만, 빈도주의와의 관계를 이해하고 근사적 계산을 정당화하는 데 가장 유용한 장 (Gelman et al., 2013, Ch.4).

Ch.4 의 구성.

핵심 역할
§ 4.1 사후 정규 근사 Taylor 전개로 \(N(\hat\theta, I^{-1})\)
§ 4.2 대표본 이론 일관성 + 점근 정규성
§ 4.3 반례 정규 근사가 실패하는 7 가지 상황
§ 4.4 빈도주의 평가 Bayesian 구간의 frequency coverage
§ 4.5 빈도주의의 Bayes 해석 MLE·신뢰구간·붓스트랩의 사전
§ 4.6~4.7 참고문헌·연습 -

2 § 4.1 사후분포의 정규 근사

2.1 Taylor 전개 아이디어

사후분포가 단봉 (unimodal) 이고 대략 대칭 이면 정규로 근사 가능. 방법 — 로그 사후의 이차 함수 근사.

사후 모드 \(\hat\theta\) 주변에서 \(\log p(\theta \mid y)\) 의 Taylor 전개.

\[ \log p(\theta \mid y) = \log p(\hat\theta \mid y) + \frac{1}{2}(\theta - \hat\theta)^\top \left[\frac{d^2}{d\theta^2}\log p(\theta \mid y)\right]_{\theta = \hat\theta}(\theta - \hat\theta) + \cdots \tag{4.1} \]

1 차 항은 0 (모드에서 기울기 0). 2 차 항이 이차 근사 의 핵심. 고차 항은 \(n\) 이 클 때 상대적으로 작아진다 (§ 4.2 에서 확인).

2.2 정규 근사 공식

\[ p(\theta \mid y) \approx N(\hat\theta, [I(\hat\theta)]^{-1}) \tag{4.2} \]

여기서 관측 정보 (observed information).

\[ I(\theta) = -\frac{d^2}{d\theta^2}\log p(\theta \mid y) \]

사후 모드에서 \(I(\hat\theta)\) 가 양정부호 → 정규 근사의 공분산 \(I(\hat\theta)^{-1}\).

직관 — “관측 정보” 는 사후가 모드 주변에서 얼마나 뾰족한가

\(I(\hat\theta)\) 가 크면 로그 사후가 모드 주변에서 가파르게 감소 → 날카로운 모드 → 작은 분산. \(I(\hat\theta)\) 가 작으면 로그 사후가 평탄 → 넓은 모드 → 큰 분산.

정규 근사는 \(\hat\theta\) 에서의 곡률 정보” 만으로 전체 분포 근사 — 현대 Laplace 근사·변분 추론의 기초. Ch.13 에서 더 정교한 근사를 다룬다.

2.3 예제 — 정규 모델 \((\mu, \log \sigma)\)

\(y_1, \ldots, y_n \sim N(\mu, \sigma^2)\), 균등 사전 \(p(\mu, \log \sigma) \propto 1\).

로그 사후.

\[ \log p(\mu, \log \sigma \mid y) = \text{const} - n\log\sigma - \frac{1}{2\sigma^2}\left((n-1)s^2 + n(\bar{y} - \mu)^2\right) \]

사후 모드.

\[ (\hat\mu, \log \hat\sigma) = \left(\bar{y}, \log\sqrt{\frac{n-1}{n}}s\right) \]

2 차 미분 행렬 (모드에서).

\[ \left(\frac{d^2}{d\theta^2}\log p\right)_{\hat\theta} = \begin{pmatrix} -n/\hat\sigma^2 & 0 \\ 0 & -2n \end{pmatrix} \]

비대각이 0 — \((\mu, \log\sigma)\) 가 근사적으로 독립.

정규 근사.

\[ p(\mu, \log\sigma \mid y) \approx N\left(\begin{pmatrix}\bar{y} \\ \log\hat\sigma\end{pmatrix}, \begin{pmatrix}\hat\sigma^2/n & 0 \\ 0 & 1/(2n)\end{pmatrix}\right) \]

\(\mu\) 의 주변 근사 \(N(\bar{y}, \hat\sigma^2/n)\) 가 Ch.3.2 의 \(t_{n-1}(\bar{y}, s^2/n)\)점근 한계 — 대 \(n\) 에서 \(t \to N\).

2.4 로그 스케일의 이점

\(\log \sigma\) 공간에서의 정규 근사가 \(\sigma\)\(\sigma^2\) 공간보다 더 정확. \(\sigma \in (0, \infty)\) 제약을 \(\log \sigma \in \mathbb{R}\) 로 풀어 정규의 무한 지지와 맞춘다.

일반 원리제약 있는 모수는 변환 후 정규 근사. Ch.1.8 의 logit·log·probit 변환이 다시 등장.

2.5 로그 밀도의 \(\chi^2\) 해석

다변량 정규 \(N(\hat\theta, I^{-1})\) 에서.

\[ -2 \log \frac{p(\theta)}{p(\hat\theta)} = (\theta - \hat\theta)^\top I(\hat\theta) (\theta - \hat\theta) \sim \chi^2_d \]

로그 밀도 차이 × (-2) 가 \(\chi^2_d\) 분포. 이를 바탕으로.

차원 \(d\) \(\chi^2_d\) 의 95 분위수 등고선 밀도 vs 모드 밀도
1 3.84 \(\exp(-3.84/2) = 0.15\)
2 5.99 \(\exp(-5.99/2) = 0.05\)
10 18.31 \(\exp(-18.31/2) = 1.1 \times 10^{-4}\)

Bioassay 등고선 (Ch.3.7 그림 3.3a) 의 0.05 등고선이 95% 확률 포함 한다는 사실의 근거.

2.6 부분 공간 정규 근사

고차원 \(\theta\) 에서 전체 결합이 정규 근사와 멀어도, 주변 분포 · 조건부 분포 는 더 가까울 수 있다 (혼합이 정규성으로 수렴하는 경향).

두 전략.

  1. 개별 \(\theta_j\) 의 주변 근사 — 각 성분을 점 추정 + 표준오차로
  2. \(\theta = (\theta_1, \theta_2)\) 분할, \(p(\theta_2 \mid y)\) 는 비정규여도 \(p(\theta_1 \mid \theta_2, y)\) 는 정규 — Ch.13.5 의 잠재 가우시안 모델 전략

2.7 Bioassay 재방문

Ch.3.7 의 2 모수 \((\alpha, \beta)\) 실제 사후 vs 정규 근사 비교.

  • 실제 사후 (그림 3.3): 우상 skewed, 모드 \((0.8, 7.7)\) 이지만 평균 \((1.4, 11.9)\)
  • 정규 근사 (그림 4.1): 대칭 타원, 평균 = 모드 \((0.8, 7.7)\)

효과 — 표본이 20 마리로 작아 정규 근사의 대칭성이 실제 skewness 를 놓친다.

LD50 사후 는 더 극적 차이.

  • 실제: \(\Pr(\beta > 0) > 0.999\), LD50 히스토그램 꼬리 좁음 (그림 3.4)
  • 정규 근사: \(\Pr(\beta > 0) \approx 0.95\) (950/1000), LD50 꼬리 매우 넓음 (\(-12.4 \sim 5.4\))

정규 근사가 \(\beta \approx 0\) 근처 확률을 과대추정 → LD50 \(= -\alpha/\beta\) 가 발산하는 시뮬 증가.

직관 — “정규 근사의 한계를 어떻게 판단하는가”

시뮬 수 비교 — 실제 사후 시뮬 (격자 또는 MCMC) 과 정규 근사 시뮬을 모두 돌리고 주요 요약 (평균·구간·파생량 확률) 을 비교. 차이가 작으면 근사 적절, 크면 실제 사후 기반 분석 필요.

Gelman 의 교훈 — “정규 근사의 정확성은 사례별로 확인해야 한다”. 일반 규칙이 없다 — 사후 모양과 표본 크기에 따라 결정.

2.8 정규 근사의 실무 용도

  1. 점 추정 + 표준오차 의 통계적 정당화 — MLE ± 1.96 SE 의 베이즈 버전
  2. 초기값 — MCMC 의 시작점, Gibbs 의 분산 정보
  3. 디버깅 — 더 정교한 근사·시뮬 결과와의 sanity check
  4. 요약 통계 — 계층 모델에서 개별 그룹을 점 추정 + SE 로 요약 (Ch.5.5 의 8 학교)

3 § 4.2 대표본 이론

3.1 핵심 정리

점근 정규성 (asymptotic normality)\(n \to \infty\) 에서 사후가 다변량 정규로 수렴.

\[ p(\theta \mid y) \to N(\theta_0, (nJ(\theta_0))^{-1}) \]

\(\theta_0\) — “진짜” 모수 값, \(J(\theta)\) — Fisher 정보량.

일관성 (consistency) — 사후가 \(\theta_0\) 에 점 질량으로 집중.

\[ p(\theta \mid y) \to \delta_{\theta_0} \quad \text{(point mass)} \]

3.2 Fisher 정보의 역할

\[ J(\theta) = E\left[-\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \]

단위 관측당 평균 정보량. 사후 정밀도 = \(n \cdot J(\theta_0)\) — 표본 크기 × 단위 정보량.

직관 — “표본이 많으면 사전이 사라진다” 의 수학적 이유

로그 사후의 2 차 미분 (\(\theta\) 가 모드 \(\hat\theta\) 근처) 를 분해.

\[ \left[\frac{d^2 \log p(\theta \mid y)}{d\theta^2}\right]_{\hat\theta} = \underbrace{\left[\frac{d^2 \log p(\theta)}{d\theta^2}\right]_{\hat\theta}}_\text{사전 1 항} + \underbrace{\sum_{i=1}^n \left[\frac{d^2 \log p(y_i \mid \theta)}{d\theta^2}\right]_{\hat\theta}}_\text{가능도 $n$ 항} \]

\(n \to \infty\) 이면 가능도 항의 합이 \(n\) 배로 커지지만 사전 항은 고정. 비율이 \(n/(n+1) \to 1\)가능도가 완전히 지배.

\(n = 1\): 사전이 절반 정보. \(n = 10\): 사전이 \(1/11\), 가능도 \(10/11\). \(n = 1000\): 사전 사실상 무시.

이것이 “베이즈 추정이 대표본에서 MLE 로 수렴” 의 수학적 메커니즘.

3.3 진짜 모델이 포함되지 않은 경우

가정된 모델 가족 \(p(y \mid \theta)\) 에 진짜 분포 \(f(y)\)포함되지 않을 때도 점근 정규성은 성립. 이 경우 \(\theta_0\)

\[ \theta_0 = \arg\min_\theta \text{KL}(f \| p(\cdot \mid \theta)) \]

KL 발산 최소화 모수. 모델의 최선 근사.

의미 — 모델이 완벽하지 않아도 “가장 가까운” 모수 로 수렴. 실무 분석에서 모델 불완전성을 허용하는 점근 기반.

3.4 가능도가 사전을 지배

\(n\) 이 커지면 사전 영향이 감소. 실무 함의.

표본 크기 사전 선택의 중요성
작음 (\(n < 50\)) 핵심 — 결론이 사전에 민감
중간 (\(n < 1000\)) 중요 — 민감도 분석 권장
큼 (\(n \geq 1000\)) 무시 가능 (합리적 사전이면)

“표본이 크면 사전에 시간 쓰지 말라” 가 아니라 “표본이 작으면 사전에 많이 공들여라” 가 옳은 교훈.


4 § 4.3 반례 — 정규 근사가 실패하는 경우

점근 정규성의 규칙성 조건이 깨지는 상황들.

4.1 1. 비식별 (underidentified) 모수

가능도 \(p(y \mid \theta)\)\(\theta\) 의 일정 범위에서 같은 값 — 이 범위 내에서 데이터가 구분 정보를 주지 못한다.

— 두 변수 정규 \((u, v) \sim N(0, \Sigma)\) 에서 각 쌍 중 하나만 관측. \(\rho\) (상관) 가 비식별. 데이터가 \(\rho\) 에 대해 아무 정보도 주지 않아 사후 = 사전 — 표본이 아무리 커도.

해결 — 모수 차원 축소 또는 추가 정보 수집.

4.2 2. 매개변수 수가 표본 크기와 함께 증가

\(y_i \sim N(\theta_i, \sigma^2)\) — 관측마다 고유 모수. 개별 \(\theta_i\) 가 추가 데이터 없이는 추정 안 됨.

해결 — 계층 모형 (Ch.5) 으로 \(\theta_i\) 들의 공통 분포 부여.

4.3 3. Aliasing

가능도가 이산적으로 반복. 예 — 정규 혼합 모델에서 두 성분 교환.

\[ (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) \leftrightarrow (\mu_2, \mu_1, \sigma_2^2, \sigma_1^2, 1-\lambda) \]

라벨 스위칭 — 두 해가 수학적으로 동치. 사후가 2 개 모드의 50/50 혼합 → 단일 정규 근사 실패.

해결 — 모수 공간 제한 (예: \(\mu_1 \leq \mu_2\)).

4.4 4. 무계 (unbounded) 가능도

가능도가 무한대로 발산 — 정규 혼합에서 \(\mu_1 = y_i, \sigma_1 \to 0\). 모드가 모수 공간 밖 또는 없음.

해결 — 모수 공간 제한 또는 경계에서 감쇠하는 사전.

4.5 5. Improper 사후

Improper 사전 × 가능도 = 적분 무한인 사후. 예 — Beta(0, 0) 사전 + \(y = n\) 데이터 → 사후 \(\theta^{n-1}(1-\theta)^{-1}\)\(\theta = 1\) 에서 발산.

해결 — Proper 사전 또는 integrable improper 확인.

4.6 6. 경계 수렴

\(\theta_0\) 가 모수 공간의 경계 — 예 \(y_i \sim N(\theta, 1)\), \(\theta \geq 0\), 진짜 \(\theta_0 = 0\).

사후는 반정규 (정규를 0 에서 잘라낸 분포). 정규 근사 부적합.

해결 — 경계 근처에서 근사 주의, 또는 모수 공간 변환.

4.7 7. 꼬리 근사 실패

사후의 중심 부분 은 정규 근사가 좋아도 꼬리 가 다를 수 있다. 예 — 라플라스 분포 꼬리 \(e^{-c|\theta|}\) 가 정규 \(e^{-c\theta^2}\) 보다 두꺼움.

해결 — 꼬리 영역 추론이 중요하면 정규 근사 대신 실제 사후.

직관 — 반례들이 알려주는 것

이 일곱 가지 반례는 “언제 정규 근사를 믿지 마라” 의 체크리스트. 실무에서.

  • 모수가 식별되는가 (1, 3)
  • 모수 차원이 표본에 비해 합리적인가 (2)
  • 가능도가 유계인가 (4)
  • 사후가 proper 인가 (5)
  • 관심 영역이 경계에서 먼가 (6)
  • 꼬리 추론이 필요한가 (7)

각 점검이 실패하면 MCMC · 더 정교한 근사 (Ch.13) · 모델 수정이 필요. Ch.4 의 반례들이 Ch.5~17 의 많은 기법의 동기.


5 § 4.4 빈도주의적 평가

5.1 반복 표본 관점

베이즈 패러다임이 고전 기법을 정당화하듯, 빈도주의도 베이즈 추론의 운영 특성 (operating characteristics) 을 평가하는 데 유용.

5.2 대표본 대응 (large-sample correspondence)

정규 근사 (4.2) 가 성립하면.

\[ [I(\hat\theta)]^{1/2}(\theta - \hat\theta) \mid y \sim N(0, I) \tag{4.3} \]

반복 표본에서 (진짜 \(\theta_0\) 고정).

\[ [I(\hat\theta)]^{1/2}(\theta_0 - \hat\theta) \mid \theta_0 \sim N(0, I) \tag{4.4} \]

두 분포가 점근적으로 동일. 함의.

95% 중앙 사후 구간이 반복 표본에서 95% 의 경우 참값을 포함 한다 — 어떤 고정된 진짜 \(\theta\) 에 대해서도.” (교재)

베이즈 신용 구간이 빈도주의 신뢰 구간으로 기능.

5.3 점 추정의 일관성과 효율성

일관성 (consistency). \(\hat\theta\) 의 표본 분포가 \(n \to \infty\) 에서 \(\theta_0\) 에 점 질량 수렴. 베이즈에서 — 사후 평균·중앙값·모드 모두 일관 (규칙성 조건 아래).

점근적 비편향성. \((\mathrm{E}(\hat\theta \mid \theta_0) - \theta_0)/\text{sd}(\hat\theta \mid \theta_0) \to 0\). 베이즈 점 추정들 역시 점근적 비편향.

효율성 (efficiency). \(\text{MSE}\) 가 최적. Cramér-Rao 하한 과 비교. 점근 효율성이 1 → Fisher 정보에 기반한 최소 MSE 달성. 베이즈 점 추정도 점근 효율.

5.4 신뢰 포괄 (confidence coverage)

\(C(y)\)\(100(1-\alpha)\%\) 신뢰 영역 — 어느 \(\theta_0\) 에 대해서도 반복 표본 중 \(1 - \alpha\) 의 경우 \(\theta_0\) 포함.

점근적으로 \(100(1-\alpha)\%\) 중앙 사후 구간\(100(1-\alpha)\%\) 신뢰 영역. 작은 표본에서도 대개 가까운 포괄율.


6 § 4.5 빈도주의 방법의 베이즈 해석

6.1 세 가지 수준의 비교

  1. 대표본: 베이즈와 빈도주의가 수치 수렴
  2. 소표본: 많은 고전 기법이 특정 사전 하의 베이즈 근사 로 해석 가능
  3. 일부 기법은 근본적으로 다름 — 특히 가설검정 결과가 크게 차이날 수 있다

6.2 MLE 와 점 추정

빈도주의 MLE 는 균등 사전 하의 사후 모드. 큰 \(n\) 에서 충분통계량이자 점근 효율. 비정보 사전의 베이즈적 정당화 가 여기서 온다.

\[ p(\hat\theta \mid \theta_0) \approx N(\theta_0, (nJ(\theta_0))^{-1}) \tag{빈도주의} \]

\[ p(\theta \mid \hat\theta) \approx N(\hat\theta, (nJ(\hat\theta))^{-1}) \tag{베이즈} \]

두 분포가 역할이 뒤집힌 같은 \(N\). 수치 일치의 근원.

6.3 비편향성의 한계

빈도주의 전통이 강조하는 비편향 추정 은 대표본에서 합리적이지만 소표본에서 misleading.

Gelman 의 예 — 키 회귀. 딸의 키 \(\theta\), 엄마의 키 \(y\). 공동 정규 \(\mu = 160, \text{corr} = 0.5\).

베이즈 사후 평균 (중앙으로의 회귀).

\[ E(\theta \mid y) = 160 + 0.5(y - 160) \tag{4.5} \]

베이즈 추정은 비편향이 아님\(\theta\) 고정 \(y\) 반복에서 \(E(\theta \mid y)\) 의 평균이 \(160 + 0.25(\theta - 160)\). 평균으로 향하는 편향.

반면 “비편향” 추정.

\[ \hat\theta = 160 + 2(y - 160) \]

\(y\) 평균 = 160 에서 멀어지면 딸을 2 배 극단으로 추정 — 키 160 + 10cm 엄마의 딸을 160 + 20cm 로 예측! 현실과 동떨어진 결과.

교훈 — 비편향성은 소표본에서 중심으로의 회귀를 부정 하여 합리적 추정을 포기. 계층 모형 (Ch.5) 의 shrinkage 와 충돌.

6.4 Galton 의 회귀

이 예제는 Galton 의 “평균으로의 회귀 (regression to the mean)” 원리. 19 세기 말 Galton 이 도입한 “회귀” 라는 용어의 원래 의미가 “두 극단이 평균으로 당겨지는 현상” 이었다. 베이즈 분석은 이 원리의 논리적 확장 — 서로 다른 정보 출처를 적절히 가중.

6.5 신뢰 구간 vs 베이즈 구간

대개 점근적으로 일치. 소표본에서 차이는 주로 사전 정보 반영 여부. 빈도주의가 확장 원리 등에서 이상한 구간을 줄 때 — 베이즈가 더 합리적.

6.6 가설검정과 다중 비교

Ch.4 가 명시적으로 논의.

빈도주의 가설검정\(p\)-값, 유의 수준. 고정된 \(\alpha = 0.05\)다중 비교 에서 문제.

베이즈 가설검정 — Bayes 팩터 또는 사후 확률. 다중 비교 자연 보정 — 계층 사전이 여러 효과를 동시에 shrink.

6.7 붓스트랩

붓스트랩 분포 이 특정 사전 하의 사후 분포 근사 로 해석될 수 있다. 정규 근사에서는 두 방법이 거의 일치.

6.8 비모수 방법

경험 분포 함수 (EDF)Dirichlet Process 사전 과 연결. Part V Ch.23 의 DP 가 빈도주의 비모수의 베이즈 재해석 중 핵심.

직관 — Ch.4 의 실용적 메시지

빈도주의 방법의 베이즈 해석 을 알면.

  1. 언제 정당한가 이해 — 특정 사전 가정 하에서 합리적
  2. 언제 개선 가능한가 이해 — 정보적 사전 · 계층 구조로 보강
  3. 언제 갈라지는가 이해 — 비편향성 · 유의성 검정이 베이즈와 다른 철학

Gelman 의 스타일 — “베이즈가 빈도주의를 대체하는 것이 아니라 포괄한다”. 표본이 크면 같은 답, 작으면 다른 답 — 두 관점을 모두 이해하는 것이 실용 통계학자의 덕목.


7 § 4.6~4.7 참고문헌과 연습

7.1 지적 계보

  • Laplace (1810) — 정규 근사의 원전. 이항 분포 사후를 가우시안으로 근사
  • Le Cam (1986) — 점근 통계학의 현대적 체계화
  • van der Vaart (1998)Asymptotic Statistics 표준 교재
  • Efron & Hastie (2016)Computer Age Statistical Inference, 베이즈와 빈도주의의 현대적 통합

7.2 연습문제 유형

Ch.4 의 연습은.

  1. 정규 근사 유도 — 이항, Poisson, 지수 등에서 Taylor 전개 수행
  2. 반례 탐색 — 가능도가 무계인 경우 · 비식별 모수
  3. 빈도주의-베이즈 비교 — 특정 문제에서 사전 선택이 주는 효과
  4. 정규 근사 정확도 — 실제 사후와 근사의 시뮬레이션 비교

8 Ch.4 의 구조적 통합

주제 핵심 결과 실무 함의
정규 근사 \(p(\theta \mid y) \approx N(\hat\theta, I^{-1})\) 점 추정 + SE 의 정당화
일관성 \(\hat\theta \to \theta_0\) 대표본에서 점 추정 가능
점근 정규성 사후 \(\to\) 정규 신용 = 신뢰 (대표본)
반례 7 가지 실패 상황 근사 전 점검 필요
빈도 평가 95% 구간 = 95% 포괄 베이즈 구간의 빈도주의 정당화
빈도 방법의 Bayes 해석 MLE = 균등 사전 사후 모드 Shrinkage · 계층의 필요성

Ch.4 가 닫는 Part I — “단순 모델 + 점근” 의 실용 요약. Ch.5 의 계층 모형으로 Part I 가 완결된다.


9 빈도주의와의 최종 대응

질문 빈도주의 베이즈 (Ch.4 점근)
점 추정 MLE \(\hat\theta\) 사후 모드·평균·중앙값
표준오차 \((nJ)^{-1/2}\) 사후 표준편차 \(\approx (nJ)^{-1/2}\)
95% 구간 Wald, Wilson 등 사후 2.5/97.5 분위수
가설검정 \(p\)-값 · 유의 수준 Bayes 팩터 · 사후 확률
다중 비교 Bonferroni 등 보정 계층 사전이 자동 shrinkage
예측 신뢰 구간 + 잔차 사후 예측 분포

대표본에서 일치, 소표본에서 차이 — Ch.4 가 이 경계를 정확히 밝힌다.


10 코드 예제 — 정규 근사의 실무

10.1 Step 1: 순수 Python — 이항 사후의 정규 근사 vs 실제

import math
import random

random.seed(42)

# 데이터: n = 20, y = 12
n, y = 20, 12

# 균등 사전 하의 Beta(13, 9) 사후
alpha_post, beta_post = y + 1, n - y + 1

# 실제 사후 평균·분산
mean_exact = alpha_post / (alpha_post + beta_post)
var_exact = (alpha_post * beta_post) / ((alpha_post + beta_post) ** 2 * (alpha_post + beta_post + 1))

# 정규 근사 — 모드와 관측 정보
theta_hat = (alpha_post - 1) / (alpha_post + beta_post - 2)  # Beta 모드
# log-posterior 의 2차 미분 (관측 정보)
I_theta = (alpha_post - 1) / theta_hat ** 2 + (beta_post - 1) / (1 - theta_hat) ** 2
var_approx = 1 / I_theta

print(f"실제 사후 평균: {mean_exact:.4f}, 분산: {var_exact:.6f}")
print(f"정규 근사 모드: {theta_hat:.4f}, 분산: {var_approx:.6f}")

# Beta 표본과 정규 근사 표본 비교
def sample_beta(a, b):
    x = random.gammavariate(a, 1)
    y = random.gammavariate(b, 1)
    return x / (x + y)

S = 10000
beta_samples = sorted([sample_beta(alpha_post, beta_post) for _ in range(S)])
normal_samples = sorted([random.gauss(theta_hat, math.sqrt(var_approx)) for _ in range(S)])

for q in [0.025, 0.5, 0.975]:
    i = int(q * S)
    print(f"{q*100:.1f}% 분위수 — 실제: {beta_samples[i]:.4f}, 정규 근사: {normal_samples[i]:.4f}")

예상 출력 — 실제 사후와 정규 근사의 분위수가 매우 비슷 (\(n = 20\) 에서도). \(n\) 이 더 작으면 차이 증가.

10.2 Step 2: 큰 표본에서 수렴 확인

import numpy as np
from scipy import stats

np.random.seed(42)

# 다양한 n 에서 베이즈와 MLE 비교
ns = [10, 50, 200, 1000]
true_theta = 0.3

print(f"{'n':<8} {'MLE':<12} {'사후 평균':<12} {'차이':<12}")
for n in ns:
    y = stats.binom.rvs(n, true_theta)
    mle = y / n
    post_mean = (y + 1) / (n + 2)  # Beta(1, 1) 사전
    print(f"{n:<8} {mle:<12.4f} {post_mean:<12.4f} {abs(mle - post_mean):<12.4f}")

예상 출력\(n\) 증가에 따라 MLE 와 사후 평균의 차이가 \(O(1/n)\) 속도로 감소. 가능도가 사전을 지배 의 수치 증거.


11 관련 주제

Ch.4 의 심화 포스트 (작성 예정)

  • § 4.1 정규 근사의 상세 유도
  • § 4.2 대표본 정리의 증명 스케치 (Appendix B)
  • § 4.3 7 가지 반례의 구체적 예
  • § 4.4~4.5 빈도주의와의 철학적 비교

Ch.1~3 심화 (선행)

Part I~V 전체

빈도주의 대응

후속 Ch.5 상세 (작성 예정)

  • Ch.5 Hierarchical Models — 8 schools · shrinkage · rat tumor

12 참고자료

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.4.
  • Le Cam, L. (1986). Asymptotic Methods in Statistical Decision Theory. Springer.
  • van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
  • Efron, B., & Hastie, T. (2016). Computer Age Statistical Inference. Cambridge University Press.
  • Laplace, P. S. (1810). Mémoire sur les approximations des formules qui sont fonctions de très-grands nombres. Mémoires de l’Académie des Sciences de Paris.
  • James, W., & Stein, C. (1961). Estimation with quadratic loss. Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, 1, 361–379.

Subscribe

Enjoy this blog? Get notified of new posts by email: