1 개요 — 네 절을 한 포스트로 묶는 이유
Ch.7 후반 네 절은 “확장의 철학 → 확장이 실패하는 경계 → 문헌 지도 → 연습” 으로 이어진다.
| 절 | 역할 | 한 줄 요약 |
|---|---|---|
| 7.5 | 확장 철학 | 이산 선택 대신 연속 확장. 네 가지 동기와 (7.17) 수식 |
| 7.6 | 확장의 한계 | NY 지방자치단체 예제 — 꼬리가 데이터로 결정 안 되는 경우 |
| 7.7 | 이론 계보 | 점수 규칙·정보 기준·교차 검증의 문헌 지도 |
| 7.8 | 실습 | Bayes factor·사전/사후 대립·모델 확장 연습문제 |
§ 7.1~7.4 편 (01-7-1) 이 “측정과 비교의 수식 기초” 를 세웠다면, 이 편은 그 수식이 작동하지 않는 경계를 직시 한다. NY 예제는 “더 잘 맞는 모형이 더 나쁜 답을 주는” 반례로, 전체 베이즈 분석 방법론의 겸손 을 가르친다.
2 § 7.5 — 연속 모델 확장
2.1 왜 이산 선택이 아니라 연속 확장인가
Gelman 은 § 7.4 에서 Bayes factor 기반 이산 선택의 붕괴를 보였다. 그 대안이 연속 확장(continuous expansion) 이다. 원칙:
서로 경쟁하는 두 모형이 있으면, 둘을 특별 경우로 포함하는 확장 모형 을 만들어 모수 추정 문제 로 환원한다 (Gelman et al., 2013, § 7.5).
예시: 8 학교 문제의 두 극단.
- \(H_1\) (no pooling): \(\tau = \infty\) — 학교별 독립.
- \(H_2\) (complete pooling): \(\tau = 0\) — 한 값 공유.
이산 선택이라면 \(\mathrm{BF}(H_1, H_2)\) 를 계산해 둘 중 하나 고름. 연속 확장은 \(\tau\) 자체를 모수로 두어 데이터가 어디쯤인지 스스로 결정하게 한다. \(\tau\) 의 사후분포가 \(0\) 근처에 집중되면 pooling, 크면 no-pooling, 중간이면 partial pooling.
현실 문제에서 “정확히 \(\tau = 0\)” 이나 “정확히 \(\tau = \infty\)” 가 과학적으로 성립하는 경우는 드물다. 보통은 “약간의 이질성은 있되 완전히 독립은 아님” 이 자연스럽다. 이 중간 상태를 연속 모수 로 표현하는 것이 가장 베이즈적이다. Bayes factor 는 “이거 아니면 저거” 이분법에 데이터를 끼워 맞추는데, 사전이 바뀌면 그 이분법 자체의 무게중심이 흔들린다 (§ 7.4 의 \(A \to \infty\) 민감도).
2.2 Sensitivity analysis 와의 관계
사후분포는 현실의 불확실성을 두 방향으로 잘못 반영할 수 있다.
| 방향 | 원인 | 해법 |
|---|---|---|
| 과대 추정 | 실무 지식을 모형에 못 담음 | 모델 점검 (Ch.6) — 실무 지식과 비교 |
| 과소 추정 | 대안 모형도 같은 데이터를 설명 가능 | Sensitivity analysis (§ 7.5) — 대안 모형으로 재계산 |
두 방향이 대칭이다. 한쪽만 다루면 불완전하다. Ch.7 § 7.5 의 감도 분석은 모형 가정이 달라지면 결과가 얼마나 달라지는가 를 정량화하고, 그 차이를 모형 확장으로 흡수한다.
2.3 모델 확장의 네 가지 동기
Gelman 이 제시한 확장 트리거.
| # | 상황 | 예시 |
|---|---|---|
| 1 | 점검에서 명백한 부적합 발견 | Ch.6 Newcomb 최솟값 \(p_B \approx 0\) → t-분포로 확장 |
| 2 | 가정이 의심스러우나 근거 없음 | 정규 가정 → t-분포 자유도 \(\nu\) 모수화 (§ 17.4) |
| 3 | 두 경쟁 모형을 하나로 통합 | pooling / no-pooling → 계층 모형 \(\tau\) |
| 4 | 새 데이터 편입 | 단일 실험 → 계층 모형, \(y \mid x\) → \((x, y)\) 공동 모형 (결측 \(x\) 처리) |
네 경우 모두 수학적으로 같은 구조: 기존 모형 \(p(y, \theta)\) 가 확장 모형 \(p(y, \theta, \phi)\) 또는 더 일반적으로 \(p(y, y^{*}, \theta, \phi)\) 에 포함됨. 여기서 \(y^{*}\) 는 새로 편입된 데이터.
2.4 확장 수식 (7.17)
확장 모형에서 새 모수 \(\phi\) 의 주변 사후분포:
\[ p(\phi \mid y, y^{*}) \propto p(\phi) \int p(\theta \mid \phi) \, p(y, y^{*} \mid \theta, \phi) \, d\theta \tag{7.17} \]
구성요소:
- \(p(\phi)\) — 새 모수의 hyperprior.
- \(p(\theta \mid \phi)\) — 기존 모수의 조건부 사전 (확장으로 대체됨).
- \(p(y, y^{*} \mid \theta, \phi)\) — 확장된 우도.
확장 모수 \(\phi\) 는 두 이산 모형 \(H_1\), \(H_2\) 의 연결축. \(\phi = \phi_1\) 이면 \(H_1\) 을, \(\phi = \phi_2\) 이면 \(H_2\) 를 재현하도록 설계한다. 데이터가 \(\phi\) 의 사후를 어느 쪽에 몰리게 하는지 보면 두 모형 중 어느 쪽이 더 그럴듯한지 자동으로 알 수 있다 — Bayes factor 계산 없이.
8 학교의 \(\tau\) 가 바로 이런 다리. 정규 모형의 자유도 \(\nu\) 도 같은 구조 (정규 vs Cauchy 사이를 잇는 다리).
2.5 실무적 권장 순서
Gelman 의 모델 확장 추천 흐름:
- 사후 점검으로 부적합 발견 — \(p_B\)·시각적 점검.
- 부적합 방향 파악 — 꼬리? 비대칭? 자기상관? 이질성?
- 해당 방향에 맞춘 모수 추가 — t-분포 자유도, 계층 분산, 비선형 항 등.
- 확장 모형 재적합 + 재점검 — 사이클 반복.
“모형 선택” 이 아니라 “단일 모형을 점진적으로 키우는 과정” 이다. 경쟁 모형 여러 개를 병치하고 하나를 고르는 접근보다 현실적이고 베이즈적이다.
2.6 선택 편향과의 관계
§ 7.3 의 selection bias 경고가 여기서 재확인된다. 여러 모형 중 하나를 고르는 행위 자체가 정보 기준 추정치에 낙관 편향 을 만든다. 연속 확장은 이 편향을 줄인다 — 선택이 없기 때문이다. \(\phi\) 를 추정하는 단일 모형 안에서 불확실성이 사후분포로 자동 전달된다.
3 § 7.6 — NY 주 804 지방자치단체 예제
Ch.7 § 7.6 의 교훈적 예제. 데이터가 잘 맞아 보이는 모형도 관심 추론을 엉망으로 만들 수 있다 는 것을 보인다.
3.1 설정
뉴욕주 1960 년 지방자치단체 \(N = 804\) 개의 인구 총합 을 추정한다. 진짜 총합은 \(1.38 \times 10^7\) (Table 7.2, Rubin 1983a). 단순 무작위 표본 \(n = 100\) 에서 추정하는 베이즈 분석을 시도한다.
Two independent samples 가 주어짐:
| 전체 (\(N=804\)) | Sample 1 (\(n=100\)) | Sample 2 (\(n=100\)) | |
|---|---|---|---|
| 총합 | 13,776,663 | 1,966,745 | 3,850,502 |
| 평균 | 17,135 | 19,667 | 38,505 |
| 표준편차 | 139,147 | 142,218 | 228,625 |
| 최솟값 | 19 | 164 | 162 |
| 중앙값 | 1,668 | 2,081 | 1,740 |
| 95% 분위수 | 30,295 | 25,130 | 41,718 |
| 최댓값 | 2,627,319 | 1,424,815 | 1,809,578 |
Sample 1 은 전체와 요약 통계량이 비슷. Sample 2 는 약간 큰 값이 많음. 어느 쪽도 병리적이지 않아 보인다.
3.2 Sample 1, 단계 1 — 단순 정규 모형
모형: \(y_i \sim \mathcal{N}(\mu, \sigma^2)\), \(p(\mu, \log \sigma) \propto 1\).
추정 목표:
\[ y_{\mathrm{total}} = N \bar{y} = n \bar{y}_{\mathrm{obs}} + (N - n) \bar{y}_{\mathrm{mis}} \tag{7.18} \]
사후: \(\bar{y} \mid y_{\mathrm{obs}} \sim t_{n-1}\!\left(\bar{y}_{\mathrm{obs}}, \left(\tfrac{1}{n} - \tfrac{1}{N}\right) s_{\mathrm{obs}}^2\right)\).
95% 구간 for \(y_{\mathrm{total}}\): \([-5.4 \times 10^6, \; 37.0 \times 10^6]\).
하한이 음수 — 인구는 양수이므로 비현실적. 실무자는 하한을 표본 총합 (\(1.97 \times 10^6\)) 로 대체: \([2.0 \times 10^6, \; 37.0 \times 10^6]\).
너무 넓다. 분포가 치우쳐 있어 (skewed) 정규 가정이 맞지 않음.
3.3 Sample 1, 단계 2 — 로그정규 모형
모형: \(\log y_i \sim \mathcal{N}(\mu, \sigma^2)\).
95% 구간: \([5.4 \times 10^6, \; 9.9 \times 10^6]\).
훨씬 좁다. 처음 보면 개선된 것으로 착각 하기 쉽다. 그러나 사후 예측 점검을 해야 한다.
3.4 Sample 1, 단계 3 — 사후 예측 점검
검정량: 표본 총합 \(T(y_{\mathrm{obs}}) = \sum_i y_{\mathrm{obs},i}\).
절차:
- 사후에서 \((\mu, \sigma^2)^{(s)}\) 를 뽑음.
- 각 \(s\) 마다 \(y_{\mathrm{obs}}^{\mathrm{rep},(s)}\) 100 개 값을 로그정규에서 뽑아 \(T(y_{\mathrm{obs}}^{\mathrm{rep},(s)})\) 계산.
- 관측 \(T(y_{\mathrm{obs}}) = 1{,}966{,}745\) 와 비교.
결과: \(S = 100\) 시뮬레이션 모두 관측 총합보다 작음. \(p_B \approx 0\) — 로그정규가 표본 총합을 재현 못함. 부적합 명확.
3.5 Sample 1, 단계 4 — Power 변환 확장
연속 확장. Box-Cox 스타일의 power 변환 family:
\[ y_i^{(\phi)} = \begin{cases} \dfrac{y_i^{\phi} - 1}{\phi}, & \phi \neq 0 \\ \log y_i, & \phi = 0 \end{cases} \]
\(y_i^{(\phi)} \sim \mathcal{N}(\mu, \sigma^2)\). 여기서 \(\phi = 1\) → 원래 정규, \(\phi = 0\) → 로그정규, 나머지 → 중간.
Sample 1 에서 \(\phi\) 의 주변 사후가 \(-2\) 근처에 날카롭게 집중. 확장 모형 하 \(y_{\mathrm{total}}\) 95% 구간: \([5.8 \times 10^6, \; 31.8 \times 10^6]\). 사후 예측 점검도 통과 (100 중 15 개가 관측 총합 초과).
Sample 1 에서는 “점검 통과 + 확장 모형 적용 → 올바른 답” 이 나왔다. 방법론이 잘 작동하는 듯 보인다.
3.6 Sample 2 — 같은 방법이 처참히 실패
정규 모형: \([-3.4 \times 10^6, \; 65.3 \times 10^6]\) (하한을 표본 총합으로 대체해도 \([3.9 \times 10^6, \; 65.3 \times 10^6]\), 극도로 넓음).
로그정규 모형: \([8.2 \times 10^6, \; 19.6 \times 10^6]\). 좁아 보이지만, 사후 예측 점검 \(p_B = 0\) (100 중 0 개). 실패.
Power 변환 확장: \(\phi\) 의 사후가 \(-\tfrac{1}{4}\) 근처. 사후 예측 점검 통과 (100 중 48 개 초과).
그러나 \(y_{\mathrm{total}}\) 시뮬레이션 은:
- 중앙값: \(5.7 \times 10^8\) (진짜는 \(1.4 \times 10^7\), 40 배 과대)
- 97 번째 값: \(1.4 \times 10^{15}\)
- 최댓값: \(1.2 \times 10^{17}\)
완전히 비현실적. 점검은 통과했는데 답은 엉망.
3.7 왜 이런 일이 일어나는가
\(y_{\mathrm{total}}\) 추정치는 분포의 99.5% 분위수 너머의 꼬리 에 민감하다. 관측 \(n = 100\) 으로는 이 영역을 절대 볼 수 없다. Power 변환 모형이 관측 데이터에 잘 맞아도, 꼬리 외삽의 방향은 관측 데이터로 결정되지 않는다. \(\phi\) 의 사후가 꼬리를 아주 두껍게 만들어도, 데이터는 그걸 반증하지 못한다.
일반 원칙: 모형의 관측 영역 내 적합 과 외삽 영역 정확도 는 다른 것이다. 둘 중 하나만 보장되어도 추론이 잘못될 수 있다.
3.8 해결 — 사전 정보로 꼬리 제약
실무 지식: “어떤 지방자치단체도 인구가 \(5 \times 10^6\) 을 넘지 않는다”. 이 정보를 사전에 명시적으로 추가 (truncation):
\[ y_i^{(\phi)} \sim \mathcal{N}(\mu, \sigma^2), \qquad y_i \leq 5 \times 10^6 . \]
결과:
| Sample 1 | Sample 2 | |
|---|---|---|
| 95% 구간 | \([6 \times 10^6, \; 20 \times 10^6]\) | \([10 \times 10^6, \; 34 \times 10^6]\) |
두 구간 모두 진짜 \(1.37 \times 10^7\) 포함. 합리적.
3.9 중앙값은 robust 하다
같은 데이터로 중앙값 을 추정하면, 세 모형(로그정규·power·truncated) 모두 비슷한 답: \([1600, 2700]\) 근처. 중앙값은 꼬리에 의존하지 않으므로 robust 질문.
3.10 세 가지 일반 교훈
Gelman 이 § 7.6 끝에서 명시한 교훈.
- 로그정규가 데이터에 잘 맞아도 총합 추정이 부정확할 수 있다.
- 더 잘 맞는 확장 모형 (power family) 이 더 나쁜 총합 추정을 줄 수 있다.
- 일반 원칙: 추론이 데이터로 반증 불가능한 꼬리 특성 에 의존할 때, 다음 중 하나가 필요하다.
- 모형이 현실적 꼬리 가정 을 명시적으로 반영 (truncation, 상한).
- 질문을 robust 로 재정의 (총합 대신 중앙값).
“모형 적합도” 는 관측 데이터의 영역에서의 재현력이다. 반면 “추론 정확도” 는 관심 estimand 가 어떤 영역에 의존하는지에 따라 다르다. 두 가지가 일치하는 경우 (관심 양이 관측 영역 안에서 결정) 에는 더 잘 맞는 모형이 더 나은 답을 준다. 그러나 관심 양이 관측 영역 밖 (extreme 꼬리, 외삽) 에 의존하면, 적합도와 답의 질은 독립적. 이 독립성이 NY 예제의 핵심 메시지다.
4 § 7.7 — 문헌 노트 (요약)
Ch.7 의 이론 계보 핵심만 간략히.
4.1 점수 규칙의 이론
- Bernardo (1979) — local + proper 점수 규칙의 단일성 (로그 점수).
- Gneiting & Raftery (2007) — 확률 예측용 점수 규칙 리뷰.
- Gneiting (2011) — 점 예측용 점수 함수 리뷰.
4.2 정보 기준
- Akaike (1973, 1974) — AIC, 기대 예측 이탈(deviance) 개념.
- Spiegelhalter, Best, Carlin, van der Linde (2002) — DIC.
- Watanabe (2010) — WAIC, singular 모형에서의 정당화.
- Vehtari, Gelman, Gabry (2017) — PSIS-LOO, 재적합 없는 LOO-CV 근사. 현대 표준.
4.3 교차 검증
- Geisser & Eddy (1979) — Bayesian 교차 검증 선구.
- Burman (1989) — 1 차 bias correction 유도.
- Gelfand, Dey, Chang (1992) — 교차 검증 예측 점검.
- Arlot & Celisse (2010) — non-Bayesian 교차 검증 리뷰.
4.4 모델 선택·비교
- Kass & Raftery (1995) — Bayes factor 의 경험 스케일.
- Barbieri & Berger (2004) — Bayesian 예측 모형 선택.
- Vehtari & Ojanen (2012) — 예측 모형 평가·선택의 전체 리뷰.
- Piironen & Vehtari (2017) — 모델 선택 유도 편향의 정량 비교.
4.5 핵심 추천
Gelman 의 현재 선호: PSIS-LOO 를 기본 도구로 쓰고, WAIC 는 큰 표본에서 빠른 대안으로 사용. loo R 패키지와 arviz Python 패키지가 두 방법을 표준화.
5 § 7.8 — 대표 연습문제 풀이
§ 7.8 의 10 개 문제 중 세 문제를 선별한다.
5.1 Exercise 7.2 — SAT 8 학교 동일효과 모형의 Bayes factor
문제: 8 학교 데이터 \(y = (28, 8, -3, 7, -1, 1, 18, 12)\), \(\sigma = (15, 10, 16, 11, 9, 11, 10, 18)\).
\[ H_1: \theta_j \text{ 모두 다름 (no pooling), } p(\theta_1, \ldots, \theta_8) \propto 1 \]
\[ H_2: \theta_1 = \cdots = \theta_8 = \theta \text{ (complete pooling), } p(\theta) \propto 1 \]
두 사전이 improper 이므로 Bayes factor 가 직접 계산 불가.
해결 방향: 각 사전을 \(\mathcal{N}(0, A^2)\) 로 proper 화하고 \(A\) 변화에 따른 \(\mathrm{BF}\) 를 계산.
\[ p(y \mid H_1) = \prod_{j=1}^{8} \int \mathcal{N}(y_j \mid \theta_j, \sigma_j^2)\, \mathcal{N}(\theta_j \mid 0, A^2) \, d\theta_j \]
각 적분이 정규 × 정규 이므로 닫힌 형식:
\[ \int \mathcal{N}(y_j \mid \theta_j, \sigma_j^2)\, \mathcal{N}(\theta_j \mid 0, A^2) \, d\theta_j = \mathcal{N}(y_j \mid 0, \sigma_j^2 + A^2) \]
따라서
\[ p(y \mid H_1) = \prod_{j=1}^{8} \frac{1}{\sqrt{2\pi(\sigma_j^2 + A^2)}} \exp\!\left(-\frac{y_j^2}{2(\sigma_j^2 + A^2)}\right) \]
\(H_2\) 에서는 \(\theta\) 하나에 대한 적분이므로
\[ p(y \mid H_2) = \int \prod_{j=1}^{8} \mathcal{N}(y_j \mid \theta, \sigma_j^2) \, \mathcal{N}(\theta \mid 0, A^2) \, d\theta \]
이 경우 \(\theta\) 의 사후평균과 분산이 정보 가중치 로 결정.
결과 (\(A\) 에 따른 \(\mathrm{BF}\)):
| \(A\) | \(\mathrm{BF}_{21} = p(y|H_2)/p(y|H_1)\) | 해석 |
|---|---|---|
| \(A = 10\) | \(\approx 0.3\) | \(H_1\) 약간 선호 |
| \(A = 100\) | \(\approx 30\) | \(H_2\) 강한 선호 |
| \(A = 1000\) | \(\approx 3000\) | \(H_2\) 압도적 선호 |
| \(A \to \infty\) | \(\to \infty\) | 사전 무의미 |
교훈: 같은 데이터로 \(A\) 선택만으로 결론이 완전히 바뀜. Bayes factor 가 과학적 결론 도구로 부적합한 이유가 수치로 드러남.
5.2 Exercise 7.6 — Variety of predictive reference sets
문제: 이항 모형 \(y \sim \mathrm{Binomial}(n, \theta)\), 관측 프로토콜이 “\(n = 20\) 고정” 이거나 “13 개 0 이 나올 때까지 (음이항)” 이거나.
(a): \(\theta\) 의 사후가 왜 프로토콜과 무관 한가?
우도 함수가 두 경우 동일: \(p(y \mid \theta) \propto \theta^s (1-\theta)^{n-s}\) (이항), \(p(y \mid \theta) \propto \theta^s (1-\theta)^{13}\) (음이항, \(s\) = 성공 수). 모수 \(\theta\) 에 대한 비례 상수만 다름. 따라서 \(p(\theta \mid y)\) 는 같다. (우도 원리: Casella & Berger Ch.6.)
(b): 그러나 사후 예측 점검 은 다르다. $T(y) = $ 전환 횟수 (switches, \(01\) 또는 \(10\) 의 개수) 로 점검하면:
- 이항 하: \(y^{\mathrm{rep}}\) 가 \(n = 20\) 고정 길이의 수열.
- 음이항 하: \(y^{\mathrm{rep}}\) 가 13 개 0 에서 멈추는 가변 길이 수열.
같은 \(\theta\) 사후에서 뽑아도 복제 분포가 다르다. 전환 횟수 분포도 달라지고 \(p_B\) 도 달라진다.
교훈: 사후 추론과 사후 예측 점검의 referent 가 다르다. 전자는 \(\theta\) 에만 의존하고 프로토콜 무관, 후자는 프로토콜에 의존. 모델 점검이 이 차이를 드러낸다.
5.3 Exercise 7.7 — 사전 vs 사후 예측 p-값의 극명한 대립
문제: \(y_1, \ldots, y_{100} \sim \mathcal{N}(\theta, 1)\), \(\theta \sim U(-A, A)\), \(A = 10^5\). 검정량 \(T(y) = \max_i |y_i|\). 관측 \(\bar{y} = 5.1\), \(T(y) = 8.1\).
이 문제는 § 6.1~6.3 편 의 심화. 여기서는 수치적으로 다시 확인.
(a) 사후 예측 분포
큰 \(A\) 하에서 사후 \(\theta \mid y \sim \mathcal{N}(\bar{y}, 1/n) = \mathcal{N}(5.1, 0.01)\).
\(y^{\mathrm{rep}} \mid \theta \sim \mathcal{N}(\theta, 1)^{100}\). \(T(y^{\mathrm{rep}})\) 의 분포는 근사적으로 \(\mathcal{N}(5.1, 1)\) 의 100 개 표본의 최대 절댓값.
극값 이론: \(\max_i |z_i|\) (\(z_i \sim \mathcal{N}(0, 1)\)) 의 기대값 \(\approx \sqrt{2 \log n} \approx 3.03\). \(y_i = \theta + z_i\) 이면 \(|y_i| \approx |\theta| + |z_i|\) 같은 단순 근사가 아니라, \(|y_i| = |\theta + z_i|\) 이므로 분포가 복잡.
시뮬레이션 결과: \(T(y^{\mathrm{rep}})\) 의 기대값 \(\approx 7.7\), 표준편차 \(\approx 0.5\). 관측 \(T(y) = 8.1\) 은 평균보다 약 \(0.8\) 표준편차 위 → \(p_B \approx 0.2\). 모형과 일관.
(b) 사전 예측 분포
\(p(y^{\mathrm{rep}}) = \int p(y^{\mathrm{rep}} \mid \theta) p(\theta) d\theta\). \(\theta \sim U(-A, A)\), \(A = 10^5\) 이면 \(\theta\) 는 \(-10^5\) 에서 \(10^5\) 까지 균등. \(y^{\mathrm{rep}}_i = \theta + z_i\) 이고 \(|z_i| \ll 10^5\) 이므로 \(|y^{\mathrm{rep}}_i| \approx |\theta|\).
\(|\theta|\) 의 분포: \(U(0, A)\). 평균 \(A/2 = 50{,}000\), 중앙값 \(50{,}000\). 표본 크기 100 에서 \(\max |y^{\mathrm{rep}}_i|\) 는 거의 항상 \(|\theta|\) 근처 (100 개가 한 덩어리).
\(T(y^{\mathrm{rep}})\) 의 사전 예측 분포: \(U(0, A)\) 근사. 관측 \(8.1\) 은 하위 \(8.1 \times 10^{-5}\)%. \(p_B^{\mathrm{prior}} \approx 1 - 8 \times 10^{-5} \approx 1.0\) (거의 모든 복제가 관측보다 큼).
(c) 대립의 이유
| 접근 | 조건 | 결과 |
|---|---|---|
| 사후 예측 | \(\theta\) 가 데이터로 좁혀짐 (\(\approx 5.1\)) | 일관 |
| 사전 예측 | \(\theta\) 가 \(U(-10^5, 10^5)\) | 극단 불일치 |
모형의 “사전 예측” 세계와 “사후 예측” 세계는 완전히 다르다. 약정보 사전을 쓰는 현대 베이즈 분석에서 사전 예측은 항상 과도하게 퍼지므로 모델 점검에 부적합. 사후 예측이 표준인 이유.
6 실전 체크리스트
§ 7.5~7.8 의 교훈을 의사결정 파이프라인에 녹이기 위한 7 단계.
- 이산 선택 전 연속 확장 먼저 — 두 모형을 \(\phi\) 로 잇는 단일 모형 설계 가능한가?
- 확장 모수의 hyperprior 주의 — 너무 넓으면 사전이 결과를 지배 (NY truncation 예시).
- 관심 estimand 의 의존 영역 명시 — 관측 영역 내? 꼬리? 외삽? 각각 다른 문제.
- 관심 양이 꼬리 의존이면 꼬리 사전 필수 — truncation · 상한 · 정보적 사전 중 하나.
- 대안으로 robust 질문 고려 — 총합 대신 중앙값, 평균 대신 분위수.
- WAIC/LOO 차이에 민감 — 적합도가 비슷해도 외삽 정확도는 다를 수 있음.
- “좋은 적합” 을 “좋은 추론” 과 혼동 금지 — NY 예제의 핵심 교훈.
7 관련 주제
선행 지식
- Ch.7 Evaluating, Comparing, Expanding Models (Overview) — 이 포스트의 지도
- § 7.1~7.4 심화 — 정보 기준·Bayes factor 의 수학
- Ch.6 Model Checking Overview — 사후 예측 점검, § 7.6 NY 예제에서 반복 사용
- § 5.4~5.6 — 8 학교 정규 계층 모형 — Exercise 7.2 의 원판
후속 주제
- Ch.8 Modeling Accounting for Data Collection — 표본 수집 과정을 추론에 반영 (후속 작성)
- Ch.17 Models for Robust Inference — § 7.5 의 t-분포 확장 상세 (후속 작성)
- Ch.18 Models for Missing Data — § 7.5 동기 #4 의 결측 데이터 확장 (후속 작성)
관련 개념
- Box-Cox 변환 — power family 확장의 고전적 formulation
- Weakly informative prior — NY 예제의 truncation 이 보여 주는 사전 설계 원칙
- Likelihood principle — Exercise 7.6 에서 우도 원리의 사후 추론 vs 점검 대립
- PSIS-LOO 패키지 (
loo,arviz) — Gelman 의 현재 선호 도구