Kwangmin Kim - Ch.4.1~4.3 — 사후 정규 근사·대표본 이론·반례 심화

1 이 포스트의 위치 — Ch.4 심화의 첫 조각

Ch.4 개요 가 점근 이론의 전체 지도였다면, 이 포스트는 § 4.1~4.3 을 교재 원문 수준으로 풀어 쓴 심화편이다. 세 절이 함께 묶이는 이유 — § 4.1 이 도구 (정규 근사), § 4.2 가 이론 (왜 정당한가), § 4.3 이 한계 (언제 실패하는가) 의 삼각 구조.

§ 4.1~4.3 의 한 줄 요약

“사후분포의 정규 근사는 Taylor 2 차 전개에서 나오는 마법이 아닌 로그 사후 곡률의 $-I(\hat\theta)$ 구조의 직접 귀결이다. $n \to \infty$ 에서 일관성·점근 정규성이 확립되지만, 비식별·경계·aliasing 등 일곱 가지 상황에서 이 근사가 실패한다.”

현대 베이즈 실무의 거의 모든 디버깅·초기값·Laplace/변분 근사가 이 세 절에 뿌리를 둔다 (Gelman et al., 2013, Ch.4.1~4.3).

2 § 4.1 사후분포의 정규 근사

2.1 아이디어의 기원

사후분포가 단봉 (unimodal), 대략 대칭 이라면 정규로 근사 가능. 근거 — 로그 밀도의 이차 함수 근사.

정규 분포의 로그 밀도는 정확히 이차 다.

\[ \log N(\theta \mid \mu, \sigma^2) = \text{const} - \frac{(\theta - \mu)^2}{2\sigma^2} \]

따라서 “어떤 밀도든 로그가 이차로 근사되면 정규” 로 간주할 수 있다.

2.2 Taylor 전개 — 모드 주변의 2 차 근사

사후 모드 $\hat\theta$ (모수 공간 내부 에 있다고 가정) 주변 Taylor 전개.

\[ \log p(\theta \mid y) = \log p(\hat\theta \mid y) + \underbrace{(\theta - \hat\theta)^\top \left[\frac{d}{d\theta}\log p(\theta \mid y)\right]_{\hat\theta}}_\text{$= 0$ (모드의 정의)} + \frac{1}{2}(\theta - \hat\theta)^\top \left[\frac{d^2}{d\theta^2}\log p(\theta \mid y)\right]_{\hat\theta}(\theta - \hat\theta) + \cdots \tag{4.1} \]

1 차 항은 0. 모드는 기울기가 0 인 점이라는 정의에서. 2 차 항이 근사의 본체. 3 차 이상 고차 항은 $n$ 이 클 때 상대적으로 작아진다 (§ 4.2 에서 확인).

2.3 정규 근사 공식 유도

$\theta$ 에 대한 함수로.

첫 항 (로그 사후의 모드 값) — $\theta$ 와 무관한 상수
2 차 항 — $\theta$ 에 대한 이차식

이차식 $-\frac{1}{2}(\theta - \hat\theta)^\top A (\theta - \hat\theta)$ (여기서 $A$ 는 양정부호) 는 정규 밀도 $N(\hat\theta, A^{-1})$ 의 로그와 같다.

따라서.

\[ p(\theta \mid y) \approx N(\hat\theta, [I(\hat\theta)]^{-1}) \tag{4.2} \]

관측 정보 (observed information).

\[ I(\theta) = -\frac{d^2}{d\theta^2}\log p(\theta \mid y) \]

$\hat\theta$ 가 내부 모드면 $I(\hat\theta)$ 는 양정부호 → 정규의 공분산 $I(\hat\theta)^{-1}$ 이 잘 정의.

직관 — 왜 “관측 정보” 라 부르는가

Fisher 정보 $J(\theta) = -E[d^2 \log p(y \mid \theta)/d\theta^2]$ 는 표본 분포에 대한 평균.

관측 정보 $I(\theta)$ 는 현재 관측된 데이터에서의 2 차 미분. 즉 실제 데이터 기반 정보량.

대표본에서 $I(\hat\theta) \approx nJ(\hat\theta)$ — 실제 관측이 평균적 기댓값에 수렴. 그러나 유한 표본에서는 차이 있을 수 있음.

실무에서는 관측 정보를 쓴다 — 해석적 Fisher 계산보다 쉽고 현재 데이터를 직접 반영.

2.4 예제 — 정규 $(\mu, \log\sigma)$ 모델의 정규 근사

$y_1, \ldots, y_n \sim N(\mu, \sigma^2)$, 비정보 사전 $p(\mu, \log\sigma) \propto 1$.

로그 사후 (이전 Ch.3.2 유도).

\[ \log p(\mu, \log\sigma \mid y) = \text{const} - n\log\sigma - \frac{1}{2\sigma^2}\left[(n-1)s^2 + n(\bar{y} - \mu)^2\right] \]

1 차 미분.

\[ \frac{\partial}{\partial \mu}\log p = \frac{n(\bar{y} - \mu)}{\sigma^2} \]

\[ \frac{\partial}{\partial \log\sigma}\log p = -n + \frac{(n-1)s^2 + n(\bar{y} - \mu)^2}{\sigma^2} \]

사후 모드 — 기울기 = 0 에서.

$\partial/\partial\mu = 0 \Rightarrow \mu = \bar{y}$. $\partial/\partial \log\sigma = 0 \Rightarrow \sigma^2 = ((n-1)s^2 + 0)/n = (n-1)s^2/n$.

\[ (\hat\mu, \log\hat\sigma) = \left(\bar{y}, \log\sqrt{\frac{n-1}{n}}s\right) \]

2 차 미분 행렬 (모드에서).

\[ \frac{\partial^2}{\partial\mu^2}\log p = -\frac{n}{\sigma^2} \]

\[ \frac{\partial^2}{\partial\mu \partial\log\sigma}\log p = -\frac{2n(\bar{y} - \mu)}{\sigma^2} \Bigg|_{\hat\mu = \bar{y}} = 0 \]

\[ \frac{\partial^2}{\partial(\log\sigma)^2}\log p = -\frac{2}{\sigma^2}\left[(n-1)s^2 + n(\bar{y} - \mu)^2\right]\Bigg|_\hat\theta = -2n \]

모드에서 Hessian.

\[ \left[\frac{d^2}{d\theta^2}\log p\right]_{\hat\theta} = \begin{pmatrix}-n/\hat\sigma^2 & 0 \\ 0 & -2n\end{pmatrix} \]

대각 행렬 — $(\mu, \log\sigma)$ 가 근사적으로 독립. 정규 근사.

\[ p(\mu, \log\sigma \mid y) \approx N\left(\begin{pmatrix}\bar{y} \\ \log\hat\sigma\end{pmatrix}, \begin{pmatrix}\hat\sigma^2/n & 0 \\ 0 & 1/(2n)\end{pmatrix}\right) \]

2.5 주변·조건부 해석

$\mu$ 의 주변 근사: $N(\bar{y}, \hat\sigma^2/n)$.

Ch.3.2 에서 정확한 $\mu$ 의 주변 사후 는 $t_{n-1}(\bar{y}, s^2/n)$. $n \to \infty$ 에서 $t_{n-1} \to N$ — 점근 정규성 확인.

$\log\sigma$ 의 주변: $N(\log\hat\sigma, 1/(2n))$.

2.6 매개변수화의 영향

$\sigma^2$ 공간에서의 정규 근사를 하면 ?

야코비안 변환 — $\phi = \sigma^2, \log\sigma = \frac{1}{2}\log\phi$.

$\log\sigma$ 에서 $N(\log\hat\sigma, 1/(2n))$ 을 $\sigma^2$ 으로 변환하면 로그 정규 분포가 되지만, 로그 정규 ≈ 정규 근사 가능. 결과.

\[ p(\sigma^2 \mid y) \approx N(\tilde\sigma^2, 2\tilde\sigma^4/(n+2)) \]

여기서 $\tilde\sigma^2 = \frac{n}{n+2}\hat\sigma^2$ (이 매개변수화의 모드).

관찰 — $\sigma^2$ 공간의 근사가 $\log\sigma$ 공간의 근사와 수치적으로 약간 다르다. 어느 쪽이 더 정확한가는 실제 사후의 모양에 의존.

직관 — 매개변수화 선택의 원칙

제약 없는 실수 공간에서 정규 근사가 더 정확. 이유 — 정규는 $\mathbb{R}$ 전체에 지지, 제약 있는 모수는 경계 근처에서 왜곡.

권장.

$\theta \in (0, 1)$ (확률) → $\text{logit}(\theta)$
$\theta \in (0, \infty)$ (스케일) → $\log\theta$
$\theta \in \mathbb{R}^d$ (평균 벡터) → 그대로

적용. 정보 계산도 변환 공간에서. $\log\sigma$ 공간의 $N$ 이 $\sigma$ 공간의 $N$ 보다 정확한 이유.

2.7 로그 사후와 $\chi^2_d$ 분포

$d$-차원 정규 $N(\hat\theta, I^{-1})$ 에서.

\[ -2[\log p(\theta) - \log p(\hat\theta)] = (\theta - \hat\theta)^\top I(\theta - \hat\theta) \sim \chi^2_d \]

사후 표본 $\theta^{(s)}$ 들의 “모드로부터의 마할라노비스 거리 제곱” 이 $\chi^2_d$.

등고선 포함 확률.

\[ \Pr\left(\log p(\theta \mid y) \geq \log p(\hat\theta \mid y) - \frac{1}{2}\chi^2_{d, 1-\alpha}\right) \approx 1 - \alpha \]

$d$	$\chi^2_{d, 0.95}$	95% 등고선 = 모드 × ?
1	3.84	$\exp(-3.84/2) = 0.146$
2	5.99	$\exp(-5.99/2) = 0.050$
5	11.07	$0.0040$
10	18.31	$1.1 \times 10^{-4}$

Ch.3.7 bioassay 의 0.05 등고선 (2 차원) 이 95% 확률 포함하는 근거.

2.8 점 추정 + 표준오차 요약의 정당화

현대 통계학의 표준 보고 형식 — “추정치 $\hat\theta \pm 2 \cdot \text{SE}$” 가 95% 신뢰/사후 구간.

빈도주의 해석: $\hat\theta$ 의 표본 분포 $\approx N(\theta_0, (nJ(\theta_0))^{-1})$. 95% 신뢰 구간.

베이즈 해석: 사후 $p(\theta \mid y) \approx N(\hat\theta, I(\hat\theta)^{-1})$. 95% 사후 구간.

두 해석이 같은 숫자 를 주는 것이 § 4.4 의 frequency coverage 결과.

SE 계산. 표준오차 = 정규 근사의 표준편차 = $[I(\hat\theta)^{-1}]_{jj}^{1/2}$ ($j$-번째 성분). 실무 로지스틱 회귀 · GLM 소프트웨어가 출력하는 SE 가 이것.

2.9 변환으로 정규성 개선

교재의 실무 권장.

“많은 경우 모수 $\theta$ 의 사후 수렴의 정규성은 변환으로 극적으로 개선 될 수 있다. $\phi$ 가 $\theta$ 의 연속 변환이면, $p(\phi \mid y)$ 와 $p(\theta \mid y)$ 모두 정규로 수렴하지만, 유한 $n$ 에서의 근사 정확도는 변환 선택에 따라 크게 다를 수 있다.” (교재)

실전 예.

로지스틱 회귀의 $\beta$ → 그대로 (자연 모수)
이항 비율 $\theta$ → $\text{logit}(\theta)$
Poisson rate $\lambda$ → $\log \lambda$
분산 $\sigma^2$ → $\log \sigma^2$
상관 $\rho \in (-1, 1)$ → $\text{atanh}(\rho)$ (Fisher $z$)

2.10 부분 공간 정규 근사

유한 $n$ 에서 정규 근사는 주변·조건부 분포 에 대해 더 정확 (전체 결합보다).

CLT 와의 관계 — 주변화가 분포를 정규로 끌어당기는 경향. “주변 = 평균 = 정규 방향으로”.

두 전략.

각 $\theta_j$ 의 주변을 정규 근사 — 고차원에서 개별 성분은 잘 근사
$\theta = (\theta_1, \theta_2)$ 분할 — $p(\theta_2 \mid y)$ 는 비정규, $p(\theta_1 \mid \theta_2, y)$ 는 조건부 정규 ($\theta_2$ 의 함수 평균·분산)

Ch.13.5 의 잠재 가우시안 모델 (INLA) 이 전략 2 의 대표.

2.11 Bioassay 재방문 — 정규 근사 vs 실제

Ch.3.7 의 데이터 (4 용량, 각 5 마리). 균등 사전 $p(\alpha, \beta) \propto 1$, 로지스틱 회귀.

MLE / 사후 모드: $(0.8, 7.7)$.

정규 근사 (그림 4.1): 중심 $(0.8, 7.7)$, 대칭 타원.

실제 사후 (그림 3.3 시뮬): 중심 평균 $(1.4, 11.9)$, 우상 skewed.

차이.

모드 = 근사 평균 = (0.8, 7.7)
실제 평균 = (1.4, 11.9) — 우상 꼬리가 평균을 끌어올림
근사는 이 skewness 를 놓친다

2.12 LD50 사후의 근사 실패

실제 사후 (Ch.3.7).

$\Pr(\beta > 0) > 0.999$ (1000/1000)
LD50 $= -\alpha/\beta$ 꼬리 좁음 (그림 3.4)

정규 근사 (그림 4.2).

$\Pr(\beta > 0) \approx 0.95$ (950/1000) — 정규 근사가 $\beta$ 꼬리를 과대
LD50 범위 $[-12.4, 5.4]$ — $\beta \approx 0$ 인 시뮬에서 발산

직관 — 파생량에서 정규 근사가 더 크게 실패하는 이유

$\beta$ 자체의 근사 오차는 작아도 (5% 의 $\beta < 0$ 허용), $-\alpha/\beta$ 라는 비선형 변환 이 작은 $\beta$ 근처에서 발산. 근사 오차가 증폭.

실무 교훈 — 주요 모수 근사가 괜찮아도 관심 파생량 (ratios, differences, ratios of differences) 의 근사는 별도 검증 필요.

이것이 Part III MCMC 가 작은 표본 · 비선형 변환 · 꼬리 이벤트 에서 정규 근사보다 강력한 이유.

2.13 교재의 정리

“요약하면, 이 예의 정규 근사에 기반한 사후 추론은 정확한 결과와 대체로 비슷 하지만, 작은 표본 때문에 실제 결합 사후가 대표본 근사보다 훨씬 skewed 하고, LD50 의 사후 분포가 결합 정규 근사가 암시하는 것보다 훨씬 짧은 꼬리 를 가진다. 이러한 차이가 정규 근사가 실무에서 부적절하다 는 것을 의미하는지 여부는 분석의 궁극적 목적 에 달려 있다.” (교재)

3 § 4.2 대표본 이론

3.1 표기와 수학적 설정

독립 관측 $y_1, \ldots, y_n$ 이 공통 분포 $f(y)$ 에서 추출. 모델링은 parametric family $p(y \mid \theta)$.

두 시나리오.

모델이 맞다: $f(y) = p(y \mid \theta_0)$, 어떤 $\theta_0$ 에 대해
모델이 맞지 않는다: $f(y)$ 가 가족에 포함되지 않음

두 경우 모두 점근 정규성 성립. 1 의 경우 일관성 추가 — 사후가 $\theta_0$ 에 점 질량 수렴.

3.2 점근 정규성 정리

규칙성 조건 (가능도가 $\theta$ 의 연속 함수이고 $\theta_0$ 가 모수 공간 경계에 없음) 하에서 $n \to \infty$ 에서.

\[ p(\theta \mid y) \to N(\theta_0, (nJ(\theta_0))^{-1}) \]

$J(\theta)$ 는 Fisher 정보량 (Ch.2.8, 2.20).

\[ J(\theta) = E\left[-\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \]

3.3 정리의 직관적 유도

Taylor 전개 (4.1) 의 2 차 항 계수를 다시 보자.

\[ \left[\frac{d^2 \log p(\theta \mid y)}{d\theta^2}\right]_{\hat\theta} = \left[\frac{d^2 \log p(\theta)}{d\theta^2}\right]_{\hat\theta} + \sum_{i=1}^n \left[\frac{d^2 \log p(y_i \mid \theta)}{d\theta^2}\right]_{\hat\theta} \]

두 항.

사전 항 — 1 개
가능도 항 — $n$ 개의 합

각 가능도 항의 진짜 표본 분포 $p(y \mid \theta_0)$ 하 기댓값 은 $-J(\theta_0)$.

따라서 큰 $n$ 에서 총 곡률 $\approx nJ(\theta_0)$ — 관측 정보 $I(\hat\theta) \approx nJ(\hat\theta) \approx nJ(\theta_0)$.

3.4 가능도가 사전을 지배

결과.

\[ \text{사전 항} : \text{가능도 항} = 1 : n \]

$n \to \infty$ 에서 사전이 무시. 이것이 “표본이 크면 사전 선택이 중요하지 않다” 의 수학적 정확한 기술.

3.5 실무 함의

교재의 권장.

“표본 크기가 큰 문제에서는 가용한 모든 정보를 정확히 반영하는 사전 분포 구성에 특별한 노력을 기울일 필요 없다. 표본 크기가 작을 때는 사전 분포가 모델 명세의 결정적 부분.” (교재)

이 비대칭이 베이즈 실무의 역설 — 사전이 중요한 상황 (작은 표본) 에서 정보적 사전 구성이 가장 어렵고, 사전이 중요하지 않은 상황 (큰 표본) 에서 쉽다.

해결 — Ch.5 의 계층 모형 + Ch.2.9 의 약정보적 사전. 작은 표본에서도 “공유 가능한 정보를 자동 추정”.

3.6 일관성 vs 점근 정규성

두 결과의 구분.

일관성: 사후 모드 $\hat\theta \to \theta_0$ (점 수렴)
점근 정규성: 사후 분포가 $N(\hat\theta, I^{-1}) \to N(\theta_0, 0)$

일관성은 $O(1/\sqrt{n})$ 속도 의 수렴. 점근 정규성은 $\sqrt{n}(\theta - \theta_0) \to N(0, J^{-1})$ 의 CLT 형태.

3.7 진짜 모델이 포함되지 않은 경우

$f(y) \neq p(y \mid \theta)$ 어떤 $\theta$ 에 대해서도. 그러면 사후가 KL 발산 최소화 $\theta_0$ 에 수렴.

\[ \theta_0 = \arg\min_\theta \text{KL}(f \| p(\cdot \mid \theta)) = \arg\min_\theta \int f(y) \log \frac{f(y)}{p(y \mid \theta)} dy \]

의미 — 모델이 근사적이어도 “가장 가까운” 모수가 여전히 존재. Newcomb 광속 (Ch.3.2) 예에서 정규 모델이 틀려도 사후가 어떤 “최적 정규” 에 수렴. 단 그 $\theta_0$ 가 진짜 광속과 다를 수 있다.

직관 — 모델 오지정 (misspecification) 하에서도 베이즈가 작동

현실에서 모델은 항상 근사. KL 최소화 모수의 존재가 근사적 베이즈 추론의 정당성.

그러나 두 가지 경고.

신용 구간의 해석 — KL 최소 $\theta_0$ 가 과학적으로 의미 있는 값이 아닐 수 있음
사후 예측 점검 필수 — Ch.6 의 기법으로 모델 오지정을 감지

교재가 강조하는 “추론은 모델만큼 좋다” 의 수학적 근거.

3.8 곡률의 크기 축소

점근 정규성의 또 다른 함의 — 사후 분산이 $(nJ)^{-1}$ 로 $1/n$ 속도로 수축.

CLT 의 베이즈 버전 — $\sqrt{n}(\theta - \theta_0) \mid y \to N(0, J(\theta_0)^{-1})$.

4 § 4.3 반례 — 점근 정리가 실패하는 7 가지 상황

정규 근사의 규칙성 조건이 깨지는 구체적 경우들.

4.1 반례 1 — 비식별 (underidentified) 모수

정의 — 가능도 $p(y \mid \theta)$ 가 $\theta$ 의 일정 범위에서 같은 값.

교재의 예.

\[ (u, v) \sim N\left(\begin{pmatrix}0 \\ 0\end{pmatrix}, \begin{pmatrix}1 & \rho \\ \rho & 1\end{pmatrix}\right) \]

각 쌍 $(u, v)$ 중 하나만 관측. 상관 $\rho$ 는 완전히 비식별 — 데이터가 아무 정보도 주지 않음.

사후 = 사전 — $n$ 이 아무리 커도.

해결 — (1) 모수 공간 제한 또는 합리적 감축, (2) 추가 정보 수집 (완전 쌍 관측 또는 외부 사전 지식).

직관 — 비식별은 수학적 결함이 아니라 정보 부족의 솔직한 표현

빈도주의에서는 비식별 모델이 “병적 (pathological)” 로 취급되지만, 베이즈에서는 “사전 정보가 필수” 의 신호. 계층 모형에서 흔히 발생 — 그룹 간 공유 구조가 모수 식별에 필요.

4.2 반례 2 — 매개변수 수가 표본 크기와 함께 증가

Neyman-Scott 문제 — $y_i \sim N(\theta_i, \sigma^2)$ (관측마다 고유 $\theta_i$).

$n$ 이 커져도 각 $\theta_i$ 에 데이터가 1 개씩 — 개별 모수 추정 불가.

Fisher 정보 $J$ 는 단일 관측당이므로 $n$ 과 비례. 그러나 $\theta$ 의 차원도 $n$ 과 비례 해서 결과적으로 각 $\theta_i$ 의 정밀도가 증가하지 않음.

해결 — Ch.5 계층 모형. $\theta_i \sim N(\mu, \tau^2)$ 등 공통 분포로 정보 공유.

4.3 반례 3 — Aliasing (다중 모드)

정의 — 가능도가 이산적으로 반복. 여러 동치 해 (mode) 존재.

교재의 예 — 정규 혼합.

\[ p(y_i \mid \mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) = \lambda N(y_i \mid \mu_1, \sigma_1^2) + (1-\lambda) N(y_i \mid \mu_2, \sigma_2^2) \]

대칭 변환.

\[ (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) \leftrightarrow (\mu_2, \mu_1, \sigma_2^2, \sigma_1^2, 1-\lambda) \]

두 모수 벡터가 동일 가능도. 사후가 50/50 거울상 혼합 — 단일 정규로 근사 불가.

해결 — 모수 공간 제한. 예 — $\mu_1 \leq \mu_2$ 제약. MCMC 에서 라벨 스위칭 후처리 로 해결.

4.4 반례 4 — 무계 가능도

교재의 예 — 정규 혼합에서 $\mu_1 = y_i$ 고정, $\sigma_1 \to 0$.

\[ N(y_i \mid y_i, \sigma_1^2) = \frac{1}{\sqrt{2\pi}\sigma_1} \to \infty \quad (\sigma_1 \to 0) \]

한 성분을 한 관측에 “무한히 집중” — 가능도 $\infty$. $n$ 이 커지면 이런 모드가 여러 개.

해결 — (1) 분산 모수에 $\sigma^2 > \epsilon$ 제약, (2) 경계에서 감쇠하는 사전 ($\sigma^2$ 에 half-$t$ 등).

4.5 반례 5 — Improper 사후

Improper 사전 × 가능도 = 적분 무한.

교재의 예. Beta(0, 0) 사전 + $y = n$ (모두 성공) 데이터.

\[ p(\theta \mid y) \propto \theta^{-1}(1-\theta)^{-1} \cdot \theta^n(1-\theta)^0 = \theta^{n-1}(1-\theta)^{-1} \]

$\theta \to 1$ 에서 $(1-\theta)^{-1}$ 가 발산 → 적분 $\infty$.

해결 — Proper 사전 (예 Beta(1, 1)) 또는 integrable improper 확인.

직관 — Improper 사후의 은밀한 위험

MCMC 가 improper 사후에서도 표본을 뽑아준다 — 수치적으로 구분하기 어렵다. 그러나 결과 해석이 의미 없거나 misleading.

사전 설정 후 반드시 사후의 적절성 (propriety) 을 해석적 또는 경계 조건으로 확인. 이것이 Ch.5 계층 모형에서 특히 중요 — 계층 분산에 improper 사전 쓸 때 사후가 improper 일 수 있다 (Ch.5.4 경고).

4.6 반례 6 — 경계 수렴

예 — $y_i \sim N(\theta, 1)$, 제약 $\theta \geq 0$. 진짜 $\theta_0 = 0$.

사후는 $\theta \sim N(\bar{y}, 1/n)$ 을 $\theta \geq 0$ 으로 자른 (truncated) 분포.

$n \to \infty$ 에서 반정규 (half-normal) — 정규 근사 완전히 부적합.

더 나쁜 예 — 진짜 $\theta_0 = -1$ (모수 공간 밖). 사후가 0 에 뾰족한 스파이크. 근사 실패.

해결 — 경계 근처 관심이면 근사 주의. 또는 모수 공간을 $\mathbb{R}$ 로 확장하는 변환 ($\theta = \log\phi, \phi \in (0, \infty)$).

4.7 반례 7 — 꼬리

본체는 정규에 가까워도 꼬리는 다를 수 있다.

예 — 사후 $\propto e^{-c|\theta|}$ (라플라스 꼬리). 정규 꼬리 $e^{-c\theta^2}$. 중심에서는 비슷해도 꼬리가 훨씬 두꺼움.

예 — 양수 제약 $\theta > 0$. 정규 근사가 $\theta < 0$ 확률 부여 — 근사가 음수 꼬리에서 실패.

해결 — 꼬리 영역 추론 (예 극단 분위수, 희귀 사건 확률) 에는 정규 근사 금지. 실제 사후 또는 Ch.17 robust 모델.

직관 — 7 가지 반례의 공통점

모두 “사후가 단봉·대칭·내부 모드” 조건 을 위반.

1, 3: 여러 모드 또는 flat 영역
2: 모드가 의미 없이 증가
4: 모드가 모수 공간 밖 또는 무한대
5: 사후가 적분 무한
6: 모드가 경계
7: 꼬리가 정규와 달라

실무 체크리스트.

모수 식별? (1, 3)
매개변수 수 ≪ 표본 크기? (2)
가능도 유계? (4)
사후 proper? (5)
관심 영역이 경계에서 먼가? (6)
꼬리 추론 필요? (7)

각 체크 실패 → MCMC · 더 정교한 근사 (Ch.13) · 모델 수정.

5 세 절의 구조적 통합

절	주제	핵심 메시지
§ 4.1	도구 (정규 근사)	$N(\hat\theta, I^{-1})$ — 점 추정 + SE 의 정당화
§ 4.2	이론 (왜 작동)	$n \to \infty$, Fisher 정보 지배
§ 4.3	한계 (언제 실패)	7 가지 반례의 체크리스트

$n$ 이 크고 규칙성 조건 충족 → 정규 근사 성공. 반례 상황 → MCMC · 모델 수정 필요. 경계 지점의 판단 이 Ch.4 의 실무 가치.

6 코드 예제 — 정규 근사의 실제 적용과 반례 시뮬

6.1 Step 1: 순수 Python — 정규 근사 vs 실제 (Beta, Poisson, Laplace)

import math
import random

random.seed(42)

def newton_mode_beta(alpha, beta):
    # Beta 사후 모드 (alpha > 1, beta > 1)
    if alpha > 1 and beta > 1:
        return (alpha - 1) / (alpha + beta - 2)
    return None

def observed_info_beta(theta, alpha, beta):
    # -d² log p / d θ² at theta
    # log p = (alpha-1) log θ + (beta-1) log(1-θ)
    return (alpha - 1) / theta ** 2 + (beta - 1) / (1 - theta) ** 2

# 경우 1: n = 100 (크면 근사 좋음)
alpha, beta = 61, 41  # Beta(1, 1) 사전 + 60 성공 / 100 시행
theta_hat = newton_mode_beta(alpha, beta)
I = observed_info_beta(theta_hat, alpha, beta)
sd_approx = 1 / math.sqrt(I)

# 실제 Beta 평균·분산
mean_exact = alpha / (alpha + beta)
var_exact = (alpha * beta) / ((alpha + beta) ** 2 * (alpha + beta + 1))
sd_exact = math.sqrt(var_exact)

print(f"n = 100:")
print(f"  실제: 평균 = {mean_exact:.4f}, sd = {sd_exact:.4f}")
print(f"  근사: 모드 = {theta_hat:.4f}, sd = {sd_approx:.4f}")

# 경우 2: n = 10 (작으면 근사 악화)
alpha, beta = 7, 5  # Beta(1,1) + 6/10
theta_hat = newton_mode_beta(alpha, beta)
I = observed_info_beta(theta_hat, alpha, beta)
sd_approx = 1 / math.sqrt(I)
mean_exact = alpha / (alpha + beta)
var_exact = (alpha * beta) / ((alpha + beta) ** 2 * (alpha + beta + 1))
sd_exact = math.sqrt(var_exact)

print(f"\nn = 10:")
print(f"  실제: 평균 = {mean_exact:.4f}, sd = {sd_exact:.4f}")
print(f"  근사: 모드 = {theta_hat:.4f}, sd = {sd_approx:.4f}")

예상 출력 — $n = 100$ 에서 실제와 근사 거의 일치. $n = 10$ 에서 차이 증가 (모드 ≠ 평균, sd 약간 다름).

6.2 Step 2: 반례 6 (경계) — Truncated normal 의 정규 근사 실패

import numpy as np
from scipy import stats

np.random.seed(42)

# 모델: y_i ~ N(θ, 1), 제약 θ ≥ 0, 진짜 θ_0 = 0
n = 100
theta_0 = 0
y = np.random.normal(theta_0, 1, size=n)
y_bar = y.mean()

# 순진한 정규 근사 — 경계 무시
theta_approx_mean = y_bar
theta_approx_sd = 1 / np.sqrt(n)

# 실제 사후 — truncated normal
# θ | y ~ N(ȳ, 1/n), θ ≥ 0
from scipy.stats import truncnorm
a = (0 - y_bar) / (1/np.sqrt(n))  # 표준화된 하한
true_post = truncnorm(a, np.inf, loc=y_bar, scale=1/np.sqrt(n))
S = 10000
samples = true_post.rvs(size=S)

print(f"ȳ = {y_bar:.4f}")
print(f"순진한 정규 근사: 평균 = {theta_approx_mean:.4f}, sd = {theta_approx_sd:.4f}")
print(f"실제 Truncated 사후: 평균 = {samples.mean():.4f}, sd = {samples.std():.4f}")
print(f"실제 사후에서 θ < 0 확률: {(samples < 0).mean():.4f}")  # 0 이어야 함
print(f"순진한 근사에서 θ < 0 확률: {stats.norm.cdf(0, theta_approx_mean, theta_approx_sd):.4f}")

예상 출력 — 순진한 근사는 θ < 0 확률 ≈ 50% (ȳ 가 0 근처면) 를 부여. 실제는 0. 경계 반례의 구체적 증거.

7 관련 주제

Ch.4 의 다른 심화 (후속)

Ch.4 개요
§ 4.4~4.5 빈도주의 평가·베이즈 해석 (작성 예정)
§ 4.6~4.7 참고·연습 (작성 예정)

Ch.1~3 심화 (선행)

Ch.1 개요 + 세 심화: § 1.1~1.4 · § 1.5~1.8 · § 1.9·1.10·1.12
Ch.2 개요 + 세 심화
Ch.3 개요 + 세 심화

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

8 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.4 (§ 4.1~4.3).
van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
Le Cam, L. (1986). Asymptotic Methods in Statistical Decision Theory. Springer.
Neyman, J., & Scott, E. L. (1948). Consistent estimates based on partially consistent observations. Econometrica, 16, 1–32.
Richardson, S., & Green, P. J. (1997). On Bayesian analysis of mixtures with an unknown number of components (with discussion). Journal of the Royal Statistical Society. Series B, 59(4), 731–792.

Ch.4.1~4.3 — 사후 정규 근사·대표본 이론·반례 심화