Ch.4.1~4.3 — 사후 정규 근사·대표본 이론·반례 심화

Gelman BDA Ch.4.1~4.3 상세 — Taylor 전개·Fisher 정보·7 가지 근사 실패

Gelman et al. Bayesian Data Analysis (3rd ed., 2013) Ch.4 전반 세 절을 교재 원문 수준으로 심화한다. § 4.1 로그 사후의 Taylor 전개와 관측 정보 \(I(\hat\theta)\)·정규 \((\mu, \log\sigma)\) 공동 사후의 완전 유도·\(\chi^2_d\) 등고선 해석·부분 공간 정규 근사·bioassay 의 실제 vs 근사 비교, § 4.2 점근 정규성의 수학적 기반·Fisher 정보 \(J(\theta)\)·로그 사후 곡률의 사전/가능도 분해·KL 발산 최소화 모수·가능도가 사전을 지배하는 속도, § 4.3 일곱 가지 반례 (비식별 · 매개변수 수 증가 · aliasing · 무계 가능도 · improper 사후 · 경계 수렴 · 꼬리) 의 구체적 예와 해결책까지 수식·직관· 코드로 완결.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 20일

1 이 포스트의 위치 — Ch.4 심화의 첫 조각

Ch.4 개요 가 점근 이론의 전체 지도였다면, 이 포스트는 § 4.1~4.3 을 교재 원문 수준으로 풀어 쓴 심화편이다. 세 절이 함께 묶이는 이유 — § 4.1 이 도구 (정규 근사), § 4.2 가 이론 (왜 정당한가), § 4.3 이 한계 (언제 실패하는가) 의 삼각 구조.

§ 4.1~4.3 의 한 줄 요약

“사후분포의 정규 근사는 Taylor 2 차 전개에서 나오는 마법이 아닌 로그 사후 곡률의 \(-I(\hat\theta)\) 구조의 직접 귀결이다. \(n \to \infty\) 에서 일관성·점근 정규성이 확립되지만, 비식별·경계·aliasing 등 일곱 가지 상황에서 이 근사가 실패한다.”

현대 베이즈 실무의 거의 모든 디버깅·초기값·Laplace/변분 근사가 이 세 절에 뿌리를 둔다 (Gelman et al., 2013, Ch.4.1~4.3).


2 § 4.1 사후분포의 정규 근사

2.1 아이디어의 기원

사후분포가 단봉 (unimodal), 대략 대칭 이라면 정규로 근사 가능. 근거 — 로그 밀도의 이차 함수 근사.

정규 분포의 로그 밀도는 정확히 이차 다.

\[ \log N(\theta \mid \mu, \sigma^2) = \text{const} - \frac{(\theta - \mu)^2}{2\sigma^2} \]

따라서 “어떤 밀도든 로그가 이차로 근사되면 정규” 로 간주할 수 있다.

2.2 Taylor 전개 — 모드 주변의 2 차 근사

사후 모드 \(\hat\theta\) (모수 공간 내부 에 있다고 가정) 주변 Taylor 전개.

\[ \log p(\theta \mid y) = \log p(\hat\theta \mid y) + \underbrace{(\theta - \hat\theta)^\top \left[\frac{d}{d\theta}\log p(\theta \mid y)\right]_{\hat\theta}}_\text{$= 0$ (모드의 정의)} + \frac{1}{2}(\theta - \hat\theta)^\top \left[\frac{d^2}{d\theta^2}\log p(\theta \mid y)\right]_{\hat\theta}(\theta - \hat\theta) + \cdots \tag{4.1} \]

1 차 항은 0. 모드는 기울기가 0 인 점이라는 정의에서. 2 차 항이 근사의 본체. 3 차 이상 고차 항은 \(n\) 이 클 때 상대적으로 작아진다 (§ 4.2 에서 확인).

2.3 정규 근사 공식 유도

\(\theta\) 에 대한 함수로.

  • 첫 항 (로그 사후의 모드 값) — \(\theta\) 와 무관한 상수
  • 2 차 항 — \(\theta\) 에 대한 이차식

이차식 \(-\frac{1}{2}(\theta - \hat\theta)^\top A (\theta - \hat\theta)\) (여기서 \(A\) 는 양정부호) 는 정규 밀도 \(N(\hat\theta, A^{-1})\) 의 로그와 같다.

따라서.

\[ p(\theta \mid y) \approx N(\hat\theta, [I(\hat\theta)]^{-1}) \tag{4.2} \]

관측 정보 (observed information).

\[ I(\theta) = -\frac{d^2}{d\theta^2}\log p(\theta \mid y) \]

\(\hat\theta\) 가 내부 모드면 \(I(\hat\theta)\) 는 양정부호 → 정규의 공분산 \(I(\hat\theta)^{-1}\) 이 잘 정의.

직관 — 왜 “관측 정보” 라 부르는가

Fisher 정보 \(J(\theta) = -E[d^2 \log p(y \mid \theta)/d\theta^2]\)표본 분포에 대한 평균.

관측 정보 \(I(\theta)\)현재 관측된 데이터에서의 2 차 미분. 즉 실제 데이터 기반 정보량.

대표본에서 \(I(\hat\theta) \approx nJ(\hat\theta)\) — 실제 관측이 평균적 기댓값에 수렴. 그러나 유한 표본에서는 차이 있을 수 있음.

실무에서는 관측 정보를 쓴다 — 해석적 Fisher 계산보다 쉽고 현재 데이터를 직접 반영.

2.4 예제 — 정규 \((\mu, \log\sigma)\) 모델의 정규 근사

\(y_1, \ldots, y_n \sim N(\mu, \sigma^2)\), 비정보 사전 \(p(\mu, \log\sigma) \propto 1\).

로그 사후 (이전 Ch.3.2 유도).

\[ \log p(\mu, \log\sigma \mid y) = \text{const} - n\log\sigma - \frac{1}{2\sigma^2}\left[(n-1)s^2 + n(\bar{y} - \mu)^2\right] \]

1 차 미분.

\[ \frac{\partial}{\partial \mu}\log p = \frac{n(\bar{y} - \mu)}{\sigma^2} \]

\[ \frac{\partial}{\partial \log\sigma}\log p = -n + \frac{(n-1)s^2 + n(\bar{y} - \mu)^2}{\sigma^2} \]

사후 모드 — 기울기 = 0 에서.

\(\partial/\partial\mu = 0 \Rightarrow \mu = \bar{y}\). \(\partial/\partial \log\sigma = 0 \Rightarrow \sigma^2 = ((n-1)s^2 + 0)/n = (n-1)s^2/n\).

\[ (\hat\mu, \log\hat\sigma) = \left(\bar{y}, \log\sqrt{\frac{n-1}{n}}s\right) \]

2 차 미분 행렬 (모드에서).

\[ \frac{\partial^2}{\partial\mu^2}\log p = -\frac{n}{\sigma^2} \]

\[ \frac{\partial^2}{\partial\mu \partial\log\sigma}\log p = -\frac{2n(\bar{y} - \mu)}{\sigma^2} \Bigg|_{\hat\mu = \bar{y}} = 0 \]

\[ \frac{\partial^2}{\partial(\log\sigma)^2}\log p = -\frac{2}{\sigma^2}\left[(n-1)s^2 + n(\bar{y} - \mu)^2\right]\Bigg|_\hat\theta = -2n \]

모드에서 Hessian.

\[ \left[\frac{d^2}{d\theta^2}\log p\right]_{\hat\theta} = \begin{pmatrix}-n/\hat\sigma^2 & 0 \\ 0 & -2n\end{pmatrix} \]

대각 행렬\((\mu, \log\sigma)\)근사적으로 독립. 정규 근사.

\[ p(\mu, \log\sigma \mid y) \approx N\left(\begin{pmatrix}\bar{y} \\ \log\hat\sigma\end{pmatrix}, \begin{pmatrix}\hat\sigma^2/n & 0 \\ 0 & 1/(2n)\end{pmatrix}\right) \]

2.5 주변·조건부 해석

\(\mu\) 의 주변 근사: \(N(\bar{y}, \hat\sigma^2/n)\).

Ch.3.2 에서 정확한 \(\mu\) 의 주변 사후\(t_{n-1}(\bar{y}, s^2/n)\). \(n \to \infty\) 에서 \(t_{n-1} \to N\) — 점근 정규성 확인.

\(\log\sigma\) 의 주변: \(N(\log\hat\sigma, 1/(2n))\).

2.6 매개변수화의 영향

\(\sigma^2\) 공간에서의 정규 근사를 하면 ?

야코비안 변환\(\phi = \sigma^2, \log\sigma = \frac{1}{2}\log\phi\).

\(\log\sigma\) 에서 \(N(\log\hat\sigma, 1/(2n))\)\(\sigma^2\) 으로 변환하면 로그 정규 분포가 되지만, 로그 정규 ≈ 정규 근사 가능. 결과.

\[ p(\sigma^2 \mid y) \approx N(\tilde\sigma^2, 2\tilde\sigma^4/(n+2)) \]

여기서 \(\tilde\sigma^2 = \frac{n}{n+2}\hat\sigma^2\) (이 매개변수화의 모드).

관찰\(\sigma^2\) 공간의 근사가 \(\log\sigma\) 공간의 근사와 수치적으로 약간 다르다. 어느 쪽이 더 정확한가는 실제 사후의 모양에 의존.

직관 — 매개변수화 선택의 원칙

제약 없는 실수 공간에서 정규 근사가 더 정확. 이유 — 정규는 \(\mathbb{R}\) 전체에 지지, 제약 있는 모수는 경계 근처에서 왜곡.

권장.

  • \(\theta \in (0, 1)\) (확률) → \(\text{logit}(\theta)\)
  • \(\theta \in (0, \infty)\) (스케일) → \(\log\theta\)
  • \(\theta \in \mathbb{R}^d\) (평균 벡터) → 그대로

적용. 정보 계산도 변환 공간에서. \(\log\sigma\) 공간의 \(N\)\(\sigma\) 공간의 \(N\) 보다 정확한 이유.

2.7 로그 사후와 \(\chi^2_d\) 분포

\(d\)-차원 정규 \(N(\hat\theta, I^{-1})\) 에서.

\[ -2[\log p(\theta) - \log p(\hat\theta)] = (\theta - \hat\theta)^\top I(\theta - \hat\theta) \sim \chi^2_d \]

사후 표본 \(\theta^{(s)}\) 들의 “모드로부터의 마할라노비스 거리 제곱”\(\chi^2_d\).

등고선 포함 확률.

\[ \Pr\left(\log p(\theta \mid y) \geq \log p(\hat\theta \mid y) - \frac{1}{2}\chi^2_{d, 1-\alpha}\right) \approx 1 - \alpha \]

\(d\) \(\chi^2_{d, 0.95}\) 95% 등고선 = 모드 × ?
1 3.84 \(\exp(-3.84/2) = 0.146\)
2 5.99 \(\exp(-5.99/2) = 0.050\)
5 11.07 \(0.0040\)
10 18.31 \(1.1 \times 10^{-4}\)

Ch.3.7 bioassay 의 0.05 등고선 (2 차원) 이 95% 확률 포함하는 근거.

2.8 점 추정 + 표준오차 요약의 정당화

현대 통계학의 표준 보고 형식 — “추정치 \(\hat\theta \pm 2 \cdot \text{SE}\) 가 95% 신뢰/사후 구간.

빈도주의 해석: \(\hat\theta\) 의 표본 분포 \(\approx N(\theta_0, (nJ(\theta_0))^{-1})\). 95% 신뢰 구간.

베이즈 해석: 사후 \(p(\theta \mid y) \approx N(\hat\theta, I(\hat\theta)^{-1})\). 95% 사후 구간.

두 해석이 같은 숫자 를 주는 것이 § 4.4 의 frequency coverage 결과.

SE 계산. 표준오차 = 정규 근사의 표준편차 = \([I(\hat\theta)^{-1}]_{jj}^{1/2}\) (\(j\)-번째 성분). 실무 로지스틱 회귀 · GLM 소프트웨어가 출력하는 SE 가 이것.

2.9 변환으로 정규성 개선

교재의 실무 권장.

“많은 경우 모수 \(\theta\) 의 사후 수렴의 정규성은 변환으로 극적으로 개선 될 수 있다. \(\phi\)\(\theta\) 의 연속 변환이면, \(p(\phi \mid y)\)\(p(\theta \mid y)\) 모두 정규로 수렴하지만, 유한 \(n\) 에서의 근사 정확도는 변환 선택에 따라 크게 다를 수 있다.” (교재)

실전 예.

  • 로지스틱 회귀의 \(\beta\) → 그대로 (자연 모수)
  • 이항 비율 \(\theta\)\(\text{logit}(\theta)\)
  • Poisson rate \(\lambda\)\(\log \lambda\)
  • 분산 \(\sigma^2\)\(\log \sigma^2\)
  • 상관 \(\rho \in (-1, 1)\)\(\text{atanh}(\rho)\) (Fisher \(z\))

2.10 부분 공간 정규 근사

유한 \(n\) 에서 정규 근사는 주변·조건부 분포 에 대해 더 정확 (전체 결합보다).

CLT 와의 관계 — 주변화가 분포를 정규로 끌어당기는 경향. “주변 = 평균 = 정규 방향으로”.

두 전략.

  1. \(\theta_j\) 의 주변을 정규 근사 — 고차원에서 개별 성분은 잘 근사
  2. \(\theta = (\theta_1, \theta_2)\) 분할\(p(\theta_2 \mid y)\) 는 비정규, \(p(\theta_1 \mid \theta_2, y)\) 는 조건부 정규 (\(\theta_2\) 의 함수 평균·분산)

Ch.13.5 의 잠재 가우시안 모델 (INLA) 이 전략 2 의 대표.

2.11 Bioassay 재방문 — 정규 근사 vs 실제

Ch.3.7 의 데이터 (4 용량, 각 5 마리). 균등 사전 \(p(\alpha, \beta) \propto 1\), 로지스틱 회귀.

MLE / 사후 모드: \((0.8, 7.7)\).

정규 근사 (그림 4.1): 중심 \((0.8, 7.7)\), 대칭 타원.

실제 사후 (그림 3.3 시뮬): 중심 평균 \((1.4, 11.9)\), 우상 skewed.

차이.

  • 모드 = 근사 평균 = (0.8, 7.7)
  • 실제 평균 = (1.4, 11.9) — 우상 꼬리가 평균을 끌어올림
  • 근사는 이 skewness 를 놓친다

2.12 LD50 사후의 근사 실패

실제 사후 (Ch.3.7).

  • \(\Pr(\beta > 0) > 0.999\) (1000/1000)
  • LD50 \(= -\alpha/\beta\) 꼬리 좁음 (그림 3.4)

정규 근사 (그림 4.2).

  • \(\Pr(\beta > 0) \approx 0.95\) (950/1000) — 정규 근사가 \(\beta\) 꼬리를 과대
  • LD50 범위 \([-12.4, 5.4]\)\(\beta \approx 0\) 인 시뮬에서 발산
직관 — 파생량에서 정규 근사가 더 크게 실패하는 이유

\(\beta\) 자체의 근사 오차는 작아도 (5% 의 \(\beta < 0\) 허용), \(-\alpha/\beta\) 라는 비선형 변환 이 작은 \(\beta\) 근처에서 발산. 근사 오차가 증폭.

실무 교훈 — 주요 모수 근사가 괜찮아도 관심 파생량 (ratios, differences, ratios of differences) 의 근사는 별도 검증 필요.

이것이 Part III MCMC 가 작은 표본 · 비선형 변환 · 꼬리 이벤트 에서 정규 근사보다 강력한 이유.

2.13 교재의 정리

“요약하면, 이 예의 정규 근사에 기반한 사후 추론은 정확한 결과와 대체로 비슷 하지만, 작은 표본 때문에 실제 결합 사후가 대표본 근사보다 훨씬 skewed 하고, LD50 의 사후 분포가 결합 정규 근사가 암시하는 것보다 훨씬 짧은 꼬리 를 가진다. 이러한 차이가 정규 근사가 실무에서 부적절하다 는 것을 의미하는지 여부는 분석의 궁극적 목적 에 달려 있다.” (교재)


3 § 4.2 대표본 이론

3.1 표기와 수학적 설정

독립 관측 \(y_1, \ldots, y_n\) 이 공통 분포 \(f(y)\) 에서 추출. 모델링은 parametric family \(p(y \mid \theta)\).

두 시나리오.

  1. 모델이 맞다: \(f(y) = p(y \mid \theta_0)\), 어떤 \(\theta_0\) 에 대해
  2. 모델이 맞지 않는다: \(f(y)\) 가 가족에 포함되지 않음

두 경우 모두 점근 정규성 성립. 1 의 경우 일관성 추가 — 사후가 \(\theta_0\) 에 점 질량 수렴.

3.2 점근 정규성 정리

규칙성 조건 (가능도가 \(\theta\) 의 연속 함수이고 \(\theta_0\) 가 모수 공간 경계에 없음) 하에서 \(n \to \infty\) 에서.

\[ p(\theta \mid y) \to N(\theta_0, (nJ(\theta_0))^{-1}) \]

\(J(\theta)\)Fisher 정보량 (Ch.2.8, 2.20).

\[ J(\theta) = E\left[-\frac{d^2 \log p(y \mid \theta)}{d\theta^2} \mid \theta\right] \]

3.3 정리의 직관적 유도

Taylor 전개 (4.1) 의 2 차 항 계수를 다시 보자.

\[ \left[\frac{d^2 \log p(\theta \mid y)}{d\theta^2}\right]_{\hat\theta} = \left[\frac{d^2 \log p(\theta)}{d\theta^2}\right]_{\hat\theta} + \sum_{i=1}^n \left[\frac{d^2 \log p(y_i \mid \theta)}{d\theta^2}\right]_{\hat\theta} \]

두 항.

  1. 사전 항 — 1 개
  2. 가능도 항\(n\) 개의 합

각 가능도 항의 진짜 표본 분포 \(p(y \mid \theta_0)\) 하 기댓값\(-J(\theta_0)\).

따라서 큰 \(n\) 에서 총 곡률 \(\approx nJ(\theta_0)\) — 관측 정보 \(I(\hat\theta) \approx nJ(\hat\theta) \approx nJ(\theta_0)\).

3.4 가능도가 사전을 지배

결과.

\[ \text{사전 항} : \text{가능도 항} = 1 : n \]

\(n \to \infty\) 에서 사전이 무시. 이것이 “표본이 크면 사전 선택이 중요하지 않다” 의 수학적 정확한 기술.

3.5 실무 함의

교재의 권장.

“표본 크기가 큰 문제에서는 가용한 모든 정보를 정확히 반영하는 사전 분포 구성에 특별한 노력을 기울일 필요 없다. 표본 크기가 작을 때는 사전 분포가 모델 명세의 결정적 부분.” (교재)

이 비대칭이 베이즈 실무의 역설 — 사전이 중요한 상황 (작은 표본) 에서 정보적 사전 구성이 가장 어렵고, 사전이 중요하지 않은 상황 (큰 표본) 에서 쉽다.

해결 — Ch.5 의 계층 모형 + Ch.2.9 의 약정보적 사전. 작은 표본에서도 “공유 가능한 정보를 자동 추정”.

3.6 일관성 vs 점근 정규성

두 결과의 구분.

  • 일관성: 사후 모드 \(\hat\theta \to \theta_0\) (점 수렴)
  • 점근 정규성: 사후 분포가 \(N(\hat\theta, I^{-1}) \to N(\theta_0, 0)\)

일관성은 \(O(1/\sqrt{n})\) 속도 의 수렴. 점근 정규성은 \(\sqrt{n}(\theta - \theta_0) \to N(0, J^{-1})\) 의 CLT 형태.

3.7 진짜 모델이 포함되지 않은 경우

\(f(y) \neq p(y \mid \theta)\) 어떤 \(\theta\) 에 대해서도. 그러면 사후가 KL 발산 최소화 \(\theta_0\) 에 수렴.

\[ \theta_0 = \arg\min_\theta \text{KL}(f \| p(\cdot \mid \theta)) = \arg\min_\theta \int f(y) \log \frac{f(y)}{p(y \mid \theta)} dy \]

의미 — 모델이 근사적이어도 “가장 가까운” 모수가 여전히 존재. Newcomb 광속 (Ch.3.2) 예에서 정규 모델이 틀려도 사후가 어떤 “최적 정규” 에 수렴. 단 그 \(\theta_0\) 가 진짜 광속과 다를 수 있다.

직관 — 모델 오지정 (misspecification) 하에서도 베이즈가 작동

현실에서 모델은 항상 근사. KL 최소화 모수의 존재가 근사적 베이즈 추론의 정당성.

그러나 두 가지 경고.

  1. 신용 구간의 해석 — KL 최소 \(\theta_0\) 가 과학적으로 의미 있는 값이 아닐 수 있음
  2. 사후 예측 점검 필수 — Ch.6 의 기법으로 모델 오지정을 감지

교재가 강조하는 “추론은 모델만큼 좋다” 의 수학적 근거.

3.8 곡률의 크기 축소

점근 정규성의 또 다른 함의 — 사후 분산이 \((nJ)^{-1}\)\(1/n\) 속도로 수축.

CLT 의 베이즈 버전\(\sqrt{n}(\theta - \theta_0) \mid y \to N(0, J(\theta_0)^{-1})\).


4 § 4.3 반례 — 점근 정리가 실패하는 7 가지 상황

정규 근사의 규칙성 조건이 깨지는 구체적 경우들.

4.1 반례 1 — 비식별 (underidentified) 모수

정의 — 가능도 \(p(y \mid \theta)\)\(\theta\) 의 일정 범위에서 같은 값.

교재의 예.

\[ (u, v) \sim N\left(\begin{pmatrix}0 \\ 0\end{pmatrix}, \begin{pmatrix}1 & \rho \\ \rho & 1\end{pmatrix}\right) \]

각 쌍 \((u, v)\)하나만 관측. 상관 \(\rho\)완전히 비식별 — 데이터가 아무 정보도 주지 않음.

사후 = 사전\(n\) 이 아무리 커도.

해결 — (1) 모수 공간 제한 또는 합리적 감축, (2) 추가 정보 수집 (완전 쌍 관측 또는 외부 사전 지식).

직관 — 비식별은 수학적 결함이 아니라 정보 부족의 솔직한 표현

빈도주의에서는 비식별 모델이 “병적 (pathological)” 로 취급되지만, 베이즈에서는 “사전 정보가 필수” 의 신호. 계층 모형에서 흔히 발생 — 그룹 간 공유 구조가 모수 식별에 필요.

4.2 반례 2 — 매개변수 수가 표본 크기와 함께 증가

Neyman-Scott 문제\(y_i \sim N(\theta_i, \sigma^2)\) (관측마다 고유 \(\theta_i\)).

\(n\) 이 커져도 각 \(\theta_i\)데이터가 1 개씩 — 개별 모수 추정 불가.

Fisher 정보 \(J\) 는 단일 관측당이므로 \(n\) 과 비례. 그러나 \(\theta\) 의 차원도 \(n\) 과 비례 해서 결과적으로 각 \(\theta_i\) 의 정밀도가 증가하지 않음.

해결 — Ch.5 계층 모형. \(\theta_i \sim N(\mu, \tau^2)\) 등 공통 분포로 정보 공유.

4.3 반례 3 — Aliasing (다중 모드)

정의 — 가능도가 이산적으로 반복. 여러 동치 해 (mode) 존재.

교재의 예 — 정규 혼합.

\[ p(y_i \mid \mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) = \lambda N(y_i \mid \mu_1, \sigma_1^2) + (1-\lambda) N(y_i \mid \mu_2, \sigma_2^2) \]

대칭 변환.

\[ (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \lambda) \leftrightarrow (\mu_2, \mu_1, \sigma_2^2, \sigma_1^2, 1-\lambda) \]

두 모수 벡터가 동일 가능도. 사후가 50/50 거울상 혼합 — 단일 정규로 근사 불가.

해결 — 모수 공간 제한. 예 — \(\mu_1 \leq \mu_2\) 제약. MCMC 에서 라벨 스위칭 후처리 로 해결.

4.4 반례 4 — 무계 가능도

교재의 예 — 정규 혼합에서 \(\mu_1 = y_i\) 고정, \(\sigma_1 \to 0\).

\[ N(y_i \mid y_i, \sigma_1^2) = \frac{1}{\sqrt{2\pi}\sigma_1} \to \infty \quad (\sigma_1 \to 0) \]

한 성분을 한 관측에 “무한히 집중” — 가능도 \(\infty\). \(n\) 이 커지면 이런 모드가 여러 개.

해결 — (1) 분산 모수에 \(\sigma^2 > \epsilon\) 제약, (2) 경계에서 감쇠하는 사전 (\(\sigma^2\) 에 half-\(t\) 등).

4.5 반례 5 — Improper 사후

Improper 사전 × 가능도 = 적분 무한.

교재의 예. Beta(0, 0) 사전 + \(y = n\) (모두 성공) 데이터.

\[ p(\theta \mid y) \propto \theta^{-1}(1-\theta)^{-1} \cdot \theta^n(1-\theta)^0 = \theta^{n-1}(1-\theta)^{-1} \]

\(\theta \to 1\) 에서 \((1-\theta)^{-1}\) 가 발산 → 적분 \(\infty\).

해결 — Proper 사전 (예 Beta(1, 1)) 또는 integrable improper 확인.

직관 — Improper 사후의 은밀한 위험

MCMC 가 improper 사후에서도 표본을 뽑아준다 — 수치적으로 구분하기 어렵다. 그러나 결과 해석이 의미 없거나 misleading.

사전 설정 후 반드시 사후의 적절성 (propriety) 을 해석적 또는 경계 조건으로 확인. 이것이 Ch.5 계층 모형에서 특히 중요 — 계층 분산에 improper 사전 쓸 때 사후가 improper 일 수 있다 (Ch.5.4 경고).

4.6 반례 6 — 경계 수렴

\(y_i \sim N(\theta, 1)\), 제약 \(\theta \geq 0\). 진짜 \(\theta_0 = 0\).

사후는 \(\theta \sim N(\bar{y}, 1/n)\)\(\theta \geq 0\) 으로 자른 (truncated) 분포.

\(n \to \infty\) 에서 반정규 (half-normal) — 정규 근사 완전히 부적합.

더 나쁜 예 — 진짜 \(\theta_0 = -1\) (모수 공간 밖). 사후가 0 에 뾰족한 스파이크. 근사 실패.

해결 — 경계 근처 관심이면 근사 주의. 또는 모수 공간을 \(\mathbb{R}\) 로 확장하는 변환 (\(\theta = \log\phi, \phi \in (0, \infty)\)).

4.7 반례 7 — 꼬리

본체는 정규에 가까워도 꼬리는 다를 수 있다.

— 사후 \(\propto e^{-c|\theta|}\) (라플라스 꼬리). 정규 꼬리 \(e^{-c\theta^2}\). 중심에서는 비슷해도 꼬리가 훨씬 두꺼움.

— 양수 제약 \(\theta > 0\). 정규 근사가 \(\theta < 0\) 확률 부여 — 근사가 음수 꼬리에서 실패.

해결 — 꼬리 영역 추론 (예 극단 분위수, 희귀 사건 확률) 에는 정규 근사 금지. 실제 사후 또는 Ch.17 robust 모델.

직관 — 7 가지 반례의 공통점

모두 “사후가 단봉·대칭·내부 모드” 조건 을 위반.

  • 1, 3: 여러 모드 또는 flat 영역
  • 2: 모드가 의미 없이 증가
  • 4: 모드가 모수 공간 밖 또는 무한대
  • 5: 사후가 적분 무한
  • 6: 모드가 경계
  • 7: 꼬리가 정규와 달라

실무 체크리스트.

  1. 모수 식별? (1, 3)
  2. 매개변수 수 ≪ 표본 크기? (2)
  3. 가능도 유계? (4)
  4. 사후 proper? (5)
  5. 관심 영역이 경계에서 먼가? (6)
  6. 꼬리 추론 필요? (7)

각 체크 실패 → MCMC · 더 정교한 근사 (Ch.13) · 모델 수정.


5 세 절의 구조적 통합

주제 핵심 메시지
§ 4.1 도구 (정규 근사) \(N(\hat\theta, I^{-1})\) — 점 추정 + SE 의 정당화
§ 4.2 이론 (왜 작동) \(n \to \infty\), Fisher 정보 지배
§ 4.3 한계 (언제 실패) 7 가지 반례의 체크리스트

\(n\) 이 크고 규칙성 조건 충족 → 정규 근사 성공. 반례 상황 → MCMC · 모델 수정 필요. 경계 지점의 판단 이 Ch.4 의 실무 가치.


6 코드 예제 — 정규 근사의 실제 적용과 반례 시뮬

6.1 Step 1: 순수 Python — 정규 근사 vs 실제 (Beta, Poisson, Laplace)

import math
import random

random.seed(42)

def newton_mode_beta(alpha, beta):
    # Beta 사후 모드 (alpha > 1, beta > 1)
    if alpha > 1 and beta > 1:
        return (alpha - 1) / (alpha + beta - 2)
    return None

def observed_info_beta(theta, alpha, beta):
    # -d² log p / d θ² at theta
    # log p = (alpha-1) log θ + (beta-1) log(1-θ)
    return (alpha - 1) / theta ** 2 + (beta - 1) / (1 - theta) ** 2

# 경우 1: n = 100 (크면 근사 좋음)
alpha, beta = 61, 41  # Beta(1, 1) 사전 + 60 성공 / 100 시행
theta_hat = newton_mode_beta(alpha, beta)
I = observed_info_beta(theta_hat, alpha, beta)
sd_approx = 1 / math.sqrt(I)

# 실제 Beta 평균·분산
mean_exact = alpha / (alpha + beta)
var_exact = (alpha * beta) / ((alpha + beta) ** 2 * (alpha + beta + 1))
sd_exact = math.sqrt(var_exact)

print(f"n = 100:")
print(f"  실제: 평균 = {mean_exact:.4f}, sd = {sd_exact:.4f}")
print(f"  근사: 모드 = {theta_hat:.4f}, sd = {sd_approx:.4f}")

# 경우 2: n = 10 (작으면 근사 악화)
alpha, beta = 7, 5  # Beta(1,1) + 6/10
theta_hat = newton_mode_beta(alpha, beta)
I = observed_info_beta(theta_hat, alpha, beta)
sd_approx = 1 / math.sqrt(I)
mean_exact = alpha / (alpha + beta)
var_exact = (alpha * beta) / ((alpha + beta) ** 2 * (alpha + beta + 1))
sd_exact = math.sqrt(var_exact)

print(f"\nn = 10:")
print(f"  실제: 평균 = {mean_exact:.4f}, sd = {sd_exact:.4f}")
print(f"  근사: 모드 = {theta_hat:.4f}, sd = {sd_approx:.4f}")

예상 출력\(n = 100\) 에서 실제와 근사 거의 일치. \(n = 10\) 에서 차이 증가 (모드 ≠ 평균, sd 약간 다름).

6.2 Step 2: 반례 6 (경계) — Truncated normal 의 정규 근사 실패

import numpy as np
from scipy import stats

np.random.seed(42)

# 모델: y_i ~ N(θ, 1), 제약 θ ≥ 0, 진짜 θ_0 = 0
n = 100
theta_0 = 0
y = np.random.normal(theta_0, 1, size=n)
y_bar = y.mean()

# 순진한 정규 근사 — 경계 무시
theta_approx_mean = y_bar
theta_approx_sd = 1 / np.sqrt(n)

# 실제 사후 — truncated normal
# θ | y ~ N(ȳ, 1/n), θ ≥ 0
from scipy.stats import truncnorm
a = (0 - y_bar) / (1/np.sqrt(n))  # 표준화된 하한
true_post = truncnorm(a, np.inf, loc=y_bar, scale=1/np.sqrt(n))
S = 10000
samples = true_post.rvs(size=S)

print(f"ȳ = {y_bar:.4f}")
print(f"순진한 정규 근사: 평균 = {theta_approx_mean:.4f}, sd = {theta_approx_sd:.4f}")
print(f"실제 Truncated 사후: 평균 = {samples.mean():.4f}, sd = {samples.std():.4f}")
print(f"실제 사후에서 θ < 0 확률: {(samples < 0).mean():.4f}")  # 0 이어야 함
print(f"순진한 근사에서 θ < 0 확률: {stats.norm.cdf(0, theta_approx_mean, theta_approx_sd):.4f}")

예상 출력 — 순진한 근사는 θ < 0 확률 ≈ 50% (ȳ 가 0 근처면) 를 부여. 실제는 0. 경계 반례의 구체적 증거.


7 관련 주제

Ch.4 의 다른 심화 (후속)

  • Ch.4 개요
  • § 4.4~4.5 빈도주의 평가·베이즈 해석 (작성 예정)
  • § 4.6~4.7 참고·연습 (작성 예정)

Ch.1~3 심화 (선행)

Part I~V 전체

빈도주의 대응


8 참고자료

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.4 (§ 4.1~4.3).
  • van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
  • Le Cam, L. (1986). Asymptotic Methods in Statistical Decision Theory. Springer.
  • Neyman, J., & Scott, E. L. (1948). Consistent estimates based on partially consistent observations. Econometrica, 16, 1–32.
  • Richardson, S., & Green, P. J. (1997). On Bayesian analysis of mixtures with an unknown number of components (with discussion). Journal of the Royal Statistical Society. Series B, 59(4), 731–792.

Subscribe

Enjoy this blog? Get notified of new posts by email: