1 이 포스트의 위치 — Ch.4 심화의 첫 조각
Ch.4 개요 가 점근 이론의 전체 지도였다면, 이 포스트는 § 4.1~4.3 을 교재 원문 수준으로 풀어 쓴 심화편이다. 세 절이 함께 묶이는 이유 — § 4.1 이 도구 (정규 근사), § 4.2 가 이론 (왜 정당한가), § 4.3 이 한계 (언제 실패하는가) 의 삼각 구조.
“사후분포의 정규 근사는 Taylor 2 차 전개에서 나오는 마법이 아닌 로그 사후 곡률의 \(-I(\hat\theta)\) 구조의 직접 귀결이다. \(n \to \infty\) 에서 일관성·점근 정규성이 확립되지만, 비식별·경계·aliasing 등 일곱 가지 상황에서 이 근사가 실패한다.”
현대 베이즈 실무의 거의 모든 디버깅·초기값·Laplace/변분 근사가 이 세 절에 뿌리를 둔다 (Gelman et al., 2013, Ch.4.1~4.3).
2 § 4.1 사후분포의 정규 근사
2.1 아이디어의 기원
사후분포가 단봉 (unimodal), 대략 대칭 이라면 정규로 근사 가능. 근거 — 로그 밀도의 이차 함수 근사.
정규 분포의 로그 밀도는 정확히 이차 다.
\[ \log N(\theta \mid \mu, \sigma^2) = \text{const} - \frac{(\theta - \mu)^2}{2\sigma^2} \]
따라서 “어떤 밀도든 로그가 이차로 근사되면 정규” 로 간주할 수 있다.
2.2 Taylor 전개 — 모드 주변의 2 차 근사
사후 모드 \(\hat\theta\) (모수 공간 내부 에 있다고 가정) 주변 Taylor 전개.
\[ \log p(\theta \mid y) = \log p(\hat\theta \mid y) + \underbrace{(\theta - \hat\theta)^\top \left[\frac{d}{d\theta}\log p(\theta \mid y)\right]_{\hat\theta}}_\text{$= 0$ (모드의 정의)} + \frac{1}{2}(\theta - \hat\theta)^\top \left[\frac{d^2}{d\theta^2}\log p(\theta \mid y)\right]_{\hat\theta}(\theta - \hat\theta) + \cdots \tag{4.1} \]
1 차 항은 0. 모드는 기울기가 0 인 점이라는 정의에서. 2 차 항이 근사의 본체. 3 차 이상 고차 항은 \(n\) 이 클 때 상대적으로 작아진다 (§ 4.2 에서 확인).
2.3 정규 근사 공식 유도
\(\theta\) 에 대한 함수로.
- 첫 항 (로그 사후의 모드 값) — \(\theta\) 와 무관한 상수
- 2 차 항 — \(\theta\) 에 대한 이차식
이차식 \(-\frac{1}{2}(\theta - \hat\theta)^\top A (\theta - \hat\theta)\) (여기서 \(A\) 는 양정부호) 는 정규 밀도 \(N(\hat\theta, A^{-1})\) 의 로그와 같다.
따라서.
\[ p(\theta \mid y) \approx N(\hat\theta, [I(\hat\theta)]^{-1}) \tag{4.2} \]
관측 정보 (observed information).
\[ I(\theta) = -\frac{d^2}{d\theta^2}\log p(\theta \mid y) \]
\(\hat\theta\) 가 내부 모드면 \(I(\hat\theta)\) 는 양정부호 → 정규의 공분산 \(I(\hat\theta)^{-1}\) 이 잘 정의.
Fisher 정보 \(J(\theta) = -E[d^2 \log p(y \mid \theta)/d\theta^2]\) 는 표본 분포에 대한 평균.
관측 정보 \(I(\theta)\) 는 현재 관측된 데이터에서의 2 차 미분. 즉 실제 데이터 기반 정보량.
대표본에서 \(I(\hat\theta) \approx nJ(\hat\theta)\) — 실제 관측이 평균적 기댓값에 수렴. 그러나 유한 표본에서는 차이 있을 수 있음.
실무에서는 관측 정보를 쓴다 — 해석적 Fisher 계산보다 쉽고 현재 데이터를 직접 반영.
2.4 예제 — 정규 \((\mu, \log\sigma)\) 모델의 정규 근사
\(y_1, \ldots, y_n \sim N(\mu, \sigma^2)\), 비정보 사전 \(p(\mu, \log\sigma) \propto 1\).
로그 사후 (이전 Ch.3.2 유도).
\[ \log p(\mu, \log\sigma \mid y) = \text{const} - n\log\sigma - \frac{1}{2\sigma^2}\left[(n-1)s^2 + n(\bar{y} - \mu)^2\right] \]
1 차 미분.
\[ \frac{\partial}{\partial \mu}\log p = \frac{n(\bar{y} - \mu)}{\sigma^2} \]
\[ \frac{\partial}{\partial \log\sigma}\log p = -n + \frac{(n-1)s^2 + n(\bar{y} - \mu)^2}{\sigma^2} \]
사후 모드 — 기울기 = 0 에서.
\(\partial/\partial\mu = 0 \Rightarrow \mu = \bar{y}\). \(\partial/\partial \log\sigma = 0 \Rightarrow \sigma^2 = ((n-1)s^2 + 0)/n = (n-1)s^2/n\).
\[ (\hat\mu, \log\hat\sigma) = \left(\bar{y}, \log\sqrt{\frac{n-1}{n}}s\right) \]
2 차 미분 행렬 (모드에서).
\[ \frac{\partial^2}{\partial\mu^2}\log p = -\frac{n}{\sigma^2} \]
\[ \frac{\partial^2}{\partial\mu \partial\log\sigma}\log p = -\frac{2n(\bar{y} - \mu)}{\sigma^2} \Bigg|_{\hat\mu = \bar{y}} = 0 \]
\[ \frac{\partial^2}{\partial(\log\sigma)^2}\log p = -\frac{2}{\sigma^2}\left[(n-1)s^2 + n(\bar{y} - \mu)^2\right]\Bigg|_\hat\theta = -2n \]
모드에서 Hessian.
\[ \left[\frac{d^2}{d\theta^2}\log p\right]_{\hat\theta} = \begin{pmatrix}-n/\hat\sigma^2 & 0 \\ 0 & -2n\end{pmatrix} \]
대각 행렬 — \((\mu, \log\sigma)\) 가 근사적으로 독립. 정규 근사.
\[ p(\mu, \log\sigma \mid y) \approx N\left(\begin{pmatrix}\bar{y} \\ \log\hat\sigma\end{pmatrix}, \begin{pmatrix}\hat\sigma^2/n & 0 \\ 0 & 1/(2n)\end{pmatrix}\right) \]
2.5 주변·조건부 해석
\(\mu\) 의 주변 근사: \(N(\bar{y}, \hat\sigma^2/n)\).
Ch.3.2 에서 정확한 \(\mu\) 의 주변 사후 는 \(t_{n-1}(\bar{y}, s^2/n)\). \(n \to \infty\) 에서 \(t_{n-1} \to N\) — 점근 정규성 확인.
\(\log\sigma\) 의 주변: \(N(\log\hat\sigma, 1/(2n))\).
2.6 매개변수화의 영향
\(\sigma^2\) 공간에서의 정규 근사를 하면 ?
야코비안 변환 — \(\phi = \sigma^2, \log\sigma = \frac{1}{2}\log\phi\).
\(\log\sigma\) 에서 \(N(\log\hat\sigma, 1/(2n))\) 을 \(\sigma^2\) 으로 변환하면 로그 정규 분포가 되지만, 로그 정규 ≈ 정규 근사 가능. 결과.
\[ p(\sigma^2 \mid y) \approx N(\tilde\sigma^2, 2\tilde\sigma^4/(n+2)) \]
여기서 \(\tilde\sigma^2 = \frac{n}{n+2}\hat\sigma^2\) (이 매개변수화의 모드).
관찰 — \(\sigma^2\) 공간의 근사가 \(\log\sigma\) 공간의 근사와 수치적으로 약간 다르다. 어느 쪽이 더 정확한가는 실제 사후의 모양에 의존.
제약 없는 실수 공간에서 정규 근사가 더 정확. 이유 — 정규는 \(\mathbb{R}\) 전체에 지지, 제약 있는 모수는 경계 근처에서 왜곡.
권장.
- \(\theta \in (0, 1)\) (확률) → \(\text{logit}(\theta)\)
- \(\theta \in (0, \infty)\) (스케일) → \(\log\theta\)
- \(\theta \in \mathbb{R}^d\) (평균 벡터) → 그대로
적용. 정보 계산도 변환 공간에서. \(\log\sigma\) 공간의 \(N\) 이 \(\sigma\) 공간의 \(N\) 보다 정확한 이유.
2.7 로그 사후와 \(\chi^2_d\) 분포
\(d\)-차원 정규 \(N(\hat\theta, I^{-1})\) 에서.
\[ -2[\log p(\theta) - \log p(\hat\theta)] = (\theta - \hat\theta)^\top I(\theta - \hat\theta) \sim \chi^2_d \]
사후 표본 \(\theta^{(s)}\) 들의 “모드로부터의 마할라노비스 거리 제곱” 이 \(\chi^2_d\).
등고선 포함 확률.
\[ \Pr\left(\log p(\theta \mid y) \geq \log p(\hat\theta \mid y) - \frac{1}{2}\chi^2_{d, 1-\alpha}\right) \approx 1 - \alpha \]
| \(d\) | \(\chi^2_{d, 0.95}\) | 95% 등고선 = 모드 × ? |
|---|---|---|
| 1 | 3.84 | \(\exp(-3.84/2) = 0.146\) |
| 2 | 5.99 | \(\exp(-5.99/2) = 0.050\) |
| 5 | 11.07 | \(0.0040\) |
| 10 | 18.31 | \(1.1 \times 10^{-4}\) |
Ch.3.7 bioassay 의 0.05 등고선 (2 차원) 이 95% 확률 포함하는 근거.
2.8 점 추정 + 표준오차 요약의 정당화
현대 통계학의 표준 보고 형식 — “추정치 \(\hat\theta \pm 2 \cdot \text{SE}\)” 가 95% 신뢰/사후 구간.
빈도주의 해석: \(\hat\theta\) 의 표본 분포 \(\approx N(\theta_0, (nJ(\theta_0))^{-1})\). 95% 신뢰 구간.
베이즈 해석: 사후 \(p(\theta \mid y) \approx N(\hat\theta, I(\hat\theta)^{-1})\). 95% 사후 구간.
두 해석이 같은 숫자 를 주는 것이 § 4.4 의 frequency coverage 결과.
SE 계산. 표준오차 = 정규 근사의 표준편차 = \([I(\hat\theta)^{-1}]_{jj}^{1/2}\) (\(j\)-번째 성분). 실무 로지스틱 회귀 · GLM 소프트웨어가 출력하는 SE 가 이것.
2.9 변환으로 정규성 개선
교재의 실무 권장.
“많은 경우 모수 \(\theta\) 의 사후 수렴의 정규성은 변환으로 극적으로 개선 될 수 있다. \(\phi\) 가 \(\theta\) 의 연속 변환이면, \(p(\phi \mid y)\) 와 \(p(\theta \mid y)\) 모두 정규로 수렴하지만, 유한 \(n\) 에서의 근사 정확도는 변환 선택에 따라 크게 다를 수 있다.” (교재)
실전 예.
- 로지스틱 회귀의 \(\beta\) → 그대로 (자연 모수)
- 이항 비율 \(\theta\) → \(\text{logit}(\theta)\)
- Poisson rate \(\lambda\) → \(\log \lambda\)
- 분산 \(\sigma^2\) → \(\log \sigma^2\)
- 상관 \(\rho \in (-1, 1)\) → \(\text{atanh}(\rho)\) (Fisher \(z\))
2.10 부분 공간 정규 근사
유한 \(n\) 에서 정규 근사는 주변·조건부 분포 에 대해 더 정확 (전체 결합보다).
CLT 와의 관계 — 주변화가 분포를 정규로 끌어당기는 경향. “주변 = 평균 = 정규 방향으로”.
두 전략.
- 각 \(\theta_j\) 의 주변을 정규 근사 — 고차원에서 개별 성분은 잘 근사
- \(\theta = (\theta_1, \theta_2)\) 분할 — \(p(\theta_2 \mid y)\) 는 비정규, \(p(\theta_1 \mid \theta_2, y)\) 는 조건부 정규 (\(\theta_2\) 의 함수 평균·분산)
Ch.13.5 의 잠재 가우시안 모델 (INLA) 이 전략 2 의 대표.
2.11 Bioassay 재방문 — 정규 근사 vs 실제
Ch.3.7 의 데이터 (4 용량, 각 5 마리). 균등 사전 \(p(\alpha, \beta) \propto 1\), 로지스틱 회귀.
MLE / 사후 모드: \((0.8, 7.7)\).
정규 근사 (그림 4.1): 중심 \((0.8, 7.7)\), 대칭 타원.
실제 사후 (그림 3.3 시뮬): 중심 평균 \((1.4, 11.9)\), 우상 skewed.
차이.
- 모드 = 근사 평균 = (0.8, 7.7)
- 실제 평균 = (1.4, 11.9) — 우상 꼬리가 평균을 끌어올림
- 근사는 이 skewness 를 놓친다
2.12 LD50 사후의 근사 실패
실제 사후 (Ch.3.7).
- \(\Pr(\beta > 0) > 0.999\) (1000/1000)
- LD50 \(= -\alpha/\beta\) 꼬리 좁음 (그림 3.4)
정규 근사 (그림 4.2).
- \(\Pr(\beta > 0) \approx 0.95\) (950/1000) — 정규 근사가 \(\beta\) 꼬리를 과대
- LD50 범위 \([-12.4, 5.4]\) — \(\beta \approx 0\) 인 시뮬에서 발산
\(\beta\) 자체의 근사 오차는 작아도 (5% 의 \(\beta < 0\) 허용), \(-\alpha/\beta\) 라는 비선형 변환 이 작은 \(\beta\) 근처에서 발산. 근사 오차가 증폭.
실무 교훈 — 주요 모수 근사가 괜찮아도 관심 파생량 (ratios, differences, ratios of differences) 의 근사는 별도 검증 필요.
이것이 Part III MCMC 가 작은 표본 · 비선형 변환 · 꼬리 이벤트 에서 정규 근사보다 강력한 이유.
2.13 교재의 정리
“요약하면, 이 예의 정규 근사에 기반한 사후 추론은 정확한 결과와 대체로 비슷 하지만, 작은 표본 때문에 실제 결합 사후가 대표본 근사보다 훨씬 skewed 하고, LD50 의 사후 분포가 결합 정규 근사가 암시하는 것보다 훨씬 짧은 꼬리 를 가진다. 이러한 차이가 정규 근사가 실무에서 부적절하다 는 것을 의미하는지 여부는 분석의 궁극적 목적 에 달려 있다.” (교재)
3 § 4.2 대표본 이론
3.1 표기와 수학적 설정
독립 관측 \(y_1, \ldots, y_n\) 이 공통 분포 \(f(y)\) 에서 추출. 모델링은 parametric family \(p(y \mid \theta)\).
두 시나리오.
- 모델이 맞다: \(f(y) = p(y \mid \theta_0)\), 어떤 \(\theta_0\) 에 대해
- 모델이 맞지 않는다: \(f(y)\) 가 가족에 포함되지 않음
두 경우 모두 점근 정규성 성립. 1 의 경우 일관성 추가 — 사후가 \(\theta_0\) 에 점 질량 수렴.
3.2 점근 정규성 정리
규칙성 조건 (가능도가 \(\theta\) 의 연속 함수이고 \(\theta_0\) 가 모수 공간 경계에 없음) 하에서 \(n \to \infty\) 에서.
\[ p(\theta \mid y) \to N(\theta_0, (nJ(\theta_0))^{-1}) \]
\(J(\theta)\) 는 Fisher 정보량 (Ch.2.8, 2.20).
\[ J(\theta) = E\left[-\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \]
3.3 정리의 직관적 유도
Taylor 전개 (4.1) 의 2 차 항 계수를 다시 보자.
\[ \left[\frac{d^2 \log p(\theta \mid y)}{d\theta^2}\right]_{\hat\theta} = \left[\frac{d^2 \log p(\theta)}{d\theta^2}\right]_{\hat\theta} + \sum_{i=1}^n \left[\frac{d^2 \log p(y_i \mid \theta)}{d\theta^2}\right]_{\hat\theta} \]
두 항.
- 사전 항 — 1 개
- 가능도 항 — \(n\) 개의 합
각 가능도 항의 진짜 표본 분포 \(p(y \mid \theta_0)\) 하 기댓값 은 \(-J(\theta_0)\).
따라서 큰 \(n\) 에서 총 곡률 \(\approx nJ(\theta_0)\) — 관측 정보 \(I(\hat\theta) \approx nJ(\hat\theta) \approx nJ(\theta_0)\).
3.4 가능도가 사전을 지배
결과.
\[ \text{사전 항} : \text{가능도 항} = 1 : n \]
\(n \to \infty\) 에서 사전이 무시. 이것이 “표본이 크면 사전 선택이 중요하지 않다” 의 수학적 정확한 기술.
3.5 실무 함의
교재의 권장.
“표본 크기가 큰 문제에서는 가용한 모든 정보를 정확히 반영하는 사전 분포 구성에 특별한 노력을 기울일 필요 없다. 표본 크기가 작을 때는 사전 분포가 모델 명세의 결정적 부분.” (교재)
이 비대칭이 베이즈 실무의 역설 — 사전이 중요한 상황 (작은 표본) 에서 정보적 사전 구성이 가장 어렵고, 사전이 중요하지 않은 상황 (큰 표본) 에서 쉽다.
해결 — Ch.5 의 계층 모형 + Ch.2.9 의 약정보적 사전. 작은 표본에서도 “공유 가능한 정보를 자동 추정”.
3.6 일관성 vs 점근 정규성
두 결과의 구분.
- 일관성: 사후 모드 \(\hat\theta \to \theta_0\) (점 수렴)
- 점근 정규성: 사후 분포가 \(N(\hat\theta, I^{-1}) \to N(\theta_0, 0)\)
일관성은 \(O(1/\sqrt{n})\) 속도 의 수렴. 점근 정규성은 \(\sqrt{n}(\theta - \theta_0) \to N(0, J^{-1})\) 의 CLT 형태.
3.7 진짜 모델이 포함되지 않은 경우
\(f(y) \neq p(y \mid \theta)\) 어떤 \(\theta\) 에 대해서도. 그러면 사후가 KL 발산 최소화 \(\theta_0\) 에 수렴.
\[ \theta_0 = \arg\min_\theta \text{KL}(f \| p(\cdot \mid \theta)) = \arg\min_\theta \int f(y) \log \frac{f(y)}{p(y \mid \theta)} dy \]
의미 — 모델이 근사적이어도 “가장 가까운” 모수가 여전히 존재. Newcomb 광속 (Ch.3.2) 예에서 정규 모델이 틀려도 사후가 어떤 “최적 정규” 에 수렴. 단 그 \(\theta_0\) 가 진짜 광속과 다를 수 있다.
현실에서 모델은 항상 근사. KL 최소화 모수의 존재가 근사적 베이즈 추론의 정당성.
그러나 두 가지 경고.
- 신용 구간의 해석 — KL 최소 \(\theta_0\) 가 과학적으로 의미 있는 값이 아닐 수 있음
- 사후 예측 점검 필수 — Ch.6 의 기법으로 모델 오지정을 감지
교재가 강조하는 “추론은 모델만큼 좋다” 의 수학적 근거.
3.8 곡률의 크기 축소
점근 정규성의 또 다른 함의 — 사후 분산이 \((nJ)^{-1}\) 로 \(1/n\) 속도로 수축.
CLT 의 베이즈 버전 — \(\sqrt{n}(\theta - \theta_0) \mid y \to N(0, J(\theta_0)^{-1})\).
4 § 4.3 반례 — 점근 정리가 실패하는 7 가지 상황
정규 근사의 규칙성 조건이 깨지는 구체적 경우들.
4.1 반례 1 — 비식별 (underidentified) 모수
정의 — 가능도 \(p(y \mid \theta)\) 가 \(\theta\) 의 일정 범위에서 같은 값.
교재의 예.
\[ (u, v) \sim N\left(\begin{pmatrix}0 \\ 0\end{pmatrix}, \begin{pmatrix}1 & \rho \\ \rho & 1\end{pmatrix}\right) \]
각 쌍 \((u, v)\) 중 하나만 관측. 상관 \(\rho\) 는 완전히 비식별 — 데이터가 아무 정보도 주지 않음.
사후 = 사전 — \(n\) 이 아무리 커도.
해결 — (1) 모수 공간 제한 또는 합리적 감축, (2) 추가 정보 수집 (완전 쌍 관측 또는 외부 사전 지식).
빈도주의에서는 비식별 모델이 “병적 (pathological)” 로 취급되지만, 베이즈에서는 “사전 정보가 필수” 의 신호. 계층 모형에서 흔히 발생 — 그룹 간 공유 구조가 모수 식별에 필요.
4.2 반례 2 — 매개변수 수가 표본 크기와 함께 증가
Neyman-Scott 문제 — \(y_i \sim N(\theta_i, \sigma^2)\) (관측마다 고유 \(\theta_i\)).
\(n\) 이 커져도 각 \(\theta_i\) 에 데이터가 1 개씩 — 개별 모수 추정 불가.
Fisher 정보 \(J\) 는 단일 관측당이므로 \(n\) 과 비례. 그러나 \(\theta\) 의 차원도 \(n\) 과 비례 해서 결과적으로 각 \(\theta_i\) 의 정밀도가 증가하지 않음.
해결 — Ch.5 계층 모형. \(\theta_i \sim N(\mu, \tau^2)\) 등 공통 분포로 정보 공유.
4.3 반례 3 — Aliasing (다중 모드)
정의 — 가능도가 이산적으로 반복. 여러 동치 해 (mode) 존재.
교재의 예 — 정규 혼합.
\[ p(y_i \mid \mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) = \lambda N(y_i \mid \mu_1, \sigma_1^2) + (1-\lambda) N(y_i \mid \mu_2, \sigma_2^2) \]
대칭 변환.
\[ (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) \leftrightarrow (\mu_2, \mu_1, \sigma_2^2, \sigma_1^2, 1-\lambda) \]
두 모수 벡터가 동일 가능도. 사후가 50/50 거울상 혼합 — 단일 정규로 근사 불가.
해결 — 모수 공간 제한. 예 — \(\mu_1 \leq \mu_2\) 제약. MCMC 에서 라벨 스위칭 후처리 로 해결.
4.4 반례 4 — 무계 가능도
교재의 예 — 정규 혼합에서 \(\mu_1 = y_i\) 고정, \(\sigma_1 \to 0\).
\[ N(y_i \mid y_i, \sigma_1^2) = \frac{1}{\sqrt{2\pi}\sigma_1} \to \infty \quad (\sigma_1 \to 0) \]
한 성분을 한 관측에 “무한히 집중” — 가능도 \(\infty\). \(n\) 이 커지면 이런 모드가 여러 개.
해결 — (1) 분산 모수에 \(\sigma^2 > \epsilon\) 제약, (2) 경계에서 감쇠하는 사전 (\(\sigma^2\) 에 half-\(t\) 등).
4.5 반례 5 — Improper 사후
Improper 사전 × 가능도 = 적분 무한.
교재의 예. Beta(0, 0) 사전 + \(y = n\) (모두 성공) 데이터.
\[ p(\theta \mid y) \propto \theta^{-1}(1-\theta)^{-1} \cdot \theta^n(1-\theta)^0 = \theta^{n-1}(1-\theta)^{-1} \]
\(\theta \to 1\) 에서 \((1-\theta)^{-1}\) 가 발산 → 적분 \(\infty\).
해결 — Proper 사전 (예 Beta(1, 1)) 또는 integrable improper 확인.
MCMC 가 improper 사후에서도 표본을 뽑아준다 — 수치적으로 구분하기 어렵다. 그러나 결과 해석이 의미 없거나 misleading.
사전 설정 후 반드시 사후의 적절성 (propriety) 을 해석적 또는 경계 조건으로 확인. 이것이 Ch.5 계층 모형에서 특히 중요 — 계층 분산에 improper 사전 쓸 때 사후가 improper 일 수 있다 (Ch.5.4 경고).
4.6 반례 6 — 경계 수렴
예 — \(y_i \sim N(\theta, 1)\), 제약 \(\theta \geq 0\). 진짜 \(\theta_0 = 0\).
사후는 \(\theta \sim N(\bar{y}, 1/n)\) 을 \(\theta \geq 0\) 으로 자른 (truncated) 분포.
\(n \to \infty\) 에서 반정규 (half-normal) — 정규 근사 완전히 부적합.
더 나쁜 예 — 진짜 \(\theta_0 = -1\) (모수 공간 밖). 사후가 0 에 뾰족한 스파이크. 근사 실패.
해결 — 경계 근처 관심이면 근사 주의. 또는 모수 공간을 \(\mathbb{R}\) 로 확장하는 변환 (\(\theta = \log\phi, \phi \in (0, \infty)\)).
4.7 반례 7 — 꼬리
본체는 정규에 가까워도 꼬리는 다를 수 있다.
예 — 사후 \(\propto e^{-c|\theta|}\) (라플라스 꼬리). 정규 꼬리 \(e^{-c\theta^2}\). 중심에서는 비슷해도 꼬리가 훨씬 두꺼움.
예 — 양수 제약 \(\theta > 0\). 정규 근사가 \(\theta < 0\) 확률 부여 — 근사가 음수 꼬리에서 실패.
해결 — 꼬리 영역 추론 (예 극단 분위수, 희귀 사건 확률) 에는 정규 근사 금지. 실제 사후 또는 Ch.17 robust 모델.
모두 “사후가 단봉·대칭·내부 모드” 조건 을 위반.
- 1, 3: 여러 모드 또는 flat 영역
- 2: 모드가 의미 없이 증가
- 4: 모드가 모수 공간 밖 또는 무한대
- 5: 사후가 적분 무한
- 6: 모드가 경계
- 7: 꼬리가 정규와 달라
실무 체크리스트.
- 모수 식별? (1, 3)
- 매개변수 수 ≪ 표본 크기? (2)
- 가능도 유계? (4)
- 사후 proper? (5)
- 관심 영역이 경계에서 먼가? (6)
- 꼬리 추론 필요? (7)
각 체크 실패 → MCMC · 더 정교한 근사 (Ch.13) · 모델 수정.
5 세 절의 구조적 통합
| 절 | 주제 | 핵심 메시지 |
|---|---|---|
| § 4.1 | 도구 (정규 근사) | \(N(\hat\theta, I^{-1})\) — 점 추정 + SE 의 정당화 |
| § 4.2 | 이론 (왜 작동) | \(n \to \infty\), Fisher 정보 지배 |
| § 4.3 | 한계 (언제 실패) | 7 가지 반례의 체크리스트 |
\(n\) 이 크고 규칙성 조건 충족 → 정규 근사 성공. 반례 상황 → MCMC · 모델 수정 필요. 경계 지점의 판단 이 Ch.4 의 실무 가치.
6 코드 예제 — 정규 근사의 실제 적용과 반례 시뮬
6.1 Step 1: 순수 Python — 정규 근사 vs 실제 (Beta, Poisson, Laplace)
import math
import random
random.seed(42)
def newton_mode_beta(alpha, beta):
# Beta 사후 모드 (alpha > 1, beta > 1)
if alpha > 1 and beta > 1:
return (alpha - 1) / (alpha + beta - 2)
return None
def observed_info_beta(theta, alpha, beta):
# -d² log p / d θ² at theta
# log p = (alpha-1) log θ + (beta-1) log(1-θ)
return (alpha - 1) / theta ** 2 + (beta - 1) / (1 - theta) ** 2
# 경우 1: n = 100 (크면 근사 좋음)
alpha, beta = 61, 41 # Beta(1, 1) 사전 + 60 성공 / 100 시행
theta_hat = newton_mode_beta(alpha, beta)
I = observed_info_beta(theta_hat, alpha, beta)
sd_approx = 1 / math.sqrt(I)
# 실제 Beta 평균·분산
mean_exact = alpha / (alpha + beta)
var_exact = (alpha * beta) / ((alpha + beta) ** 2 * (alpha + beta + 1))
sd_exact = math.sqrt(var_exact)
print(f"n = 100:")
print(f" 실제: 평균 = {mean_exact:.4f}, sd = {sd_exact:.4f}")
print(f" 근사: 모드 = {theta_hat:.4f}, sd = {sd_approx:.4f}")
# 경우 2: n = 10 (작으면 근사 악화)
alpha, beta = 7, 5 # Beta(1,1) + 6/10
theta_hat = newton_mode_beta(alpha, beta)
I = observed_info_beta(theta_hat, alpha, beta)
sd_approx = 1 / math.sqrt(I)
mean_exact = alpha / (alpha + beta)
var_exact = (alpha * beta) / ((alpha + beta) ** 2 * (alpha + beta + 1))
sd_exact = math.sqrt(var_exact)
print(f"\nn = 10:")
print(f" 실제: 평균 = {mean_exact:.4f}, sd = {sd_exact:.4f}")
print(f" 근사: 모드 = {theta_hat:.4f}, sd = {sd_approx:.4f}")예상 출력 — \(n = 100\) 에서 실제와 근사 거의 일치. \(n = 10\) 에서 차이 증가 (모드 ≠ 평균, sd 약간 다름).
6.2 Step 2: 반례 6 (경계) — Truncated normal 의 정규 근사 실패
import numpy as np
from scipy import stats
np.random.seed(42)
# 모델: y_i ~ N(θ, 1), 제약 θ ≥ 0, 진짜 θ_0 = 0
n = 100
theta_0 = 0
y = np.random.normal(theta_0, 1, size=n)
y_bar = y.mean()
# 순진한 정규 근사 — 경계 무시
theta_approx_mean = y_bar
theta_approx_sd = 1 / np.sqrt(n)
# 실제 사후 — truncated normal
# θ | y ~ N(ȳ, 1/n), θ ≥ 0
from scipy.stats import truncnorm
a = (0 - y_bar) / (1/np.sqrt(n)) # 표준화된 하한
true_post = truncnorm(a, np.inf, loc=y_bar, scale=1/np.sqrt(n))
S = 10000
samples = true_post.rvs(size=S)
print(f"ȳ = {y_bar:.4f}")
print(f"순진한 정규 근사: 평균 = {theta_approx_mean:.4f}, sd = {theta_approx_sd:.4f}")
print(f"실제 Truncated 사후: 평균 = {samples.mean():.4f}, sd = {samples.std():.4f}")
print(f"실제 사후에서 θ < 0 확률: {(samples < 0).mean():.4f}") # 0 이어야 함
print(f"순진한 근사에서 θ < 0 확률: {stats.norm.cdf(0, theta_approx_mean, theta_approx_sd):.4f}")예상 출력 — 순진한 근사는 θ < 0 확률 ≈ 50% (ȳ 가 0 근처면) 를 부여. 실제는 0. 경계 반례의 구체적 증거.
7 관련 주제
Ch.4 의 다른 심화 (후속)
- Ch.4 개요
- § 4.4~4.5 빈도주의 평가·베이즈 해석 (작성 예정)
- § 4.6~4.7 참고·연습 (작성 예정)
Ch.1~3 심화 (선행)
Part I~V 전체
빈도주의 대응
- MLE · 점 추정 — Fisher 정보·관측 정보
- 신뢰 구간
- Monte Carlo 시뮬레이션
8 참고자료
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.4 (§ 4.1~4.3).
- van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
- Le Cam, L. (1986). Asymptotic Methods in Statistical Decision Theory. Springer.
- Neyman, J., & Scott, E. L. (1948). Consistent estimates based on partially consistent observations. Econometrica, 16, 1–32.
- Richardson, S., & Green, P. J. (1997). On Bayesian analysis of mixtures with an unknown number of components (with discussion). Journal of the Royal Statistical Society. Series B, 59(4), 731–792.