Kwangmin Kim - § 7.5~7.8 — 연속 모델 확장·암묵적 가정·문헌 노트·연습문제 심화

1 개요 — 네 절을 한 포스트로 묶는 이유

Ch.7 후반 네 절은 “확장의 철학 → 확장이 실패하는 경계 → 문헌 지도 → 연습” 으로 이어진다.

절	역할	한 줄 요약
7.5	확장 철학	이산 선택 대신 연속 확장. 네 가지 동기와 (7.17) 수식
7.6	확장의 한계	NY 지방자치단체 예제 — 꼬리가 데이터로 결정 안 되는 경우
7.7	이론 계보	점수 규칙·정보 기준·교차 검증의 문헌 지도
7.8	실습	Bayes factor·사전/사후 대립·모델 확장 연습문제

§ 7.1~7.4 편 (01-7-1) 이 “측정과 비교의 수식 기초” 를 세웠다면, 이 편은 그 수식이 작동하지 않는 경계를 직시 한다. NY 예제는 “더 잘 맞는 모형이 더 나쁜 답을 주는” 반례로, 전체 베이즈 분석 방법론의 겸손 을 가르친다.

2 § 7.5 — 연속 모델 확장

2.1 왜 이산 선택이 아니라 연속 확장인가

Gelman 은 § 7.4 에서 Bayes factor 기반 이산 선택의 붕괴를 보였다. 그 대안이 연속 확장(continuous expansion) 이다. 원칙:

서로 경쟁하는 두 모형이 있으면, 둘을 특별 경우로 포함하는 확장 모형 을 만들어 모수 추정 문제 로 환원한다 (Gelman et al., 2013, § 7.5).

예시: 8 학교 문제의 두 극단.

$H_1$ (no pooling): $\tau = \infty$ — 학교별 독립.
$H_2$ (complete pooling): $\tau = 0$ — 한 값 공유.

이산 선택이라면 $\mathrm{BF}(H_1, H_2)$ 를 계산해 둘 중 하나 고름. 연속 확장은 $\tau$ 자체를 모수로 두어 데이터가 어디쯤인지 스스로 결정하게 한다. $\tau$ 의 사후분포가 $0$ 근처에 집중되면 pooling, 크면 no-pooling, 중간이면 partial pooling.

직관 — 이산 선택의 “인위성”

현실 문제에서 “정확히 $\tau = 0$” 이나 “정확히 $\tau = \infty$” 가 과학적으로 성립하는 경우는 드물다. 보통은 “약간의 이질성은 있되 완전히 독립은 아님” 이 자연스럽다. 이 중간 상태를 연속 모수 로 표현하는 것이 가장 베이즈적이다. Bayes factor 는 “이거 아니면 저거” 이분법에 데이터를 끼워 맞추는데, 사전이 바뀌면 그 이분법 자체의 무게중심이 흔들린다 (§ 7.4 의 $A \to \infty$ 민감도).

2.2 Sensitivity analysis 와의 관계

사후분포는 현실의 불확실성을 두 방향으로 잘못 반영할 수 있다.

방향	원인	해법
과대 추정	실무 지식을 모형에 못 담음	모델 점검 (Ch.6) — 실무 지식과 비교
과소 추정	대안 모형도 같은 데이터를 설명 가능	Sensitivity analysis (§ 7.5) — 대안 모형으로 재계산

두 방향이 대칭이다. 한쪽만 다루면 불완전하다. Ch.7 § 7.5 의 감도 분석은 모형 가정이 달라지면 결과가 얼마나 달라지는가 를 정량화하고, 그 차이를 모형 확장으로 흡수한다.

2.3 모델 확장의 네 가지 동기

Gelman 이 제시한 확장 트리거.

#	상황	예시
1	점검에서 명백한 부적합 발견	Ch.6 Newcomb 최솟값 $p_B \approx 0$ → t-분포로 확장
2	가정이 의심스러우나 근거 없음	정규 가정 → t-분포 자유도 $\nu$ 모수화 (§ 17.4)
3	두 경쟁 모형을 하나로 통합	pooling / no-pooling → 계층 모형 $\tau$
4	새 데이터 편입	단일 실험 → 계층 모형, $y \mid x$ → $(x, y)$ 공동 모형 (결측 $x$ 처리)

네 경우 모두 수학적으로 같은 구조: 기존 모형 $p(y, \theta)$ 가 확장 모형 $p(y, \theta, \phi)$ 또는 더 일반적으로 $p(y, y^{*}, \theta, \phi)$ 에 포함됨. 여기서 $y^{*}$ 는 새로 편입된 데이터.

2.4 확장 수식 (7.17)

확장 모형에서 새 모수 $\phi$ 의 주변 사후분포:

\[ p(\phi \mid y, y^{*}) \propto p(\phi) \int p(\theta \mid \phi) \, p(y, y^{*} \mid \theta, \phi) \, d\theta \tag{7.17} \]

구성요소:

$p(\phi)$ — 새 모수의 hyperprior.
$p(\theta \mid \phi)$ — 기존 모수의 조건부 사전 (확장으로 대체됨).
$p(y, y^{*} \mid \theta, \phi)$ — 확장된 우도.

직관 — $\phi$ 가 “모형 사이를 잇는 다리” 다

확장 모수 $\phi$ 는 두 이산 모형 $H_1$, $H_2$ 의 연결축. $\phi = \phi_1$ 이면 $H_1$ 을, $\phi = \phi_2$ 이면 $H_2$ 를 재현하도록 설계한다. 데이터가 $\phi$ 의 사후를 어느 쪽에 몰리게 하는지 보면 두 모형 중 어느 쪽이 더 그럴듯한지 자동으로 알 수 있다 — Bayes factor 계산 없이.

8 학교의 $\tau$ 가 바로 이런 다리. 정규 모형의 자유도 $\nu$ 도 같은 구조 (정규 vs Cauchy 사이를 잇는 다리).

2.5 실무적 권장 순서

Gelman 의 모델 확장 추천 흐름:

사후 점검으로 부적합 발견 — $p_B$·시각적 점검.
부적합 방향 파악 — 꼬리? 비대칭? 자기상관? 이질성?
해당 방향에 맞춘 모수 추가 — t-분포 자유도, 계층 분산, 비선형 항 등.
확장 모형 재적합 + 재점검 — 사이클 반복.

“모형 선택” 이 아니라 “단일 모형을 점진적으로 키우는 과정” 이다. 경쟁 모형 여러 개를 병치하고 하나를 고르는 접근보다 현실적이고 베이즈적이다.

2.6 선택 편향과의 관계

§ 7.3 의 selection bias 경고가 여기서 재확인된다. 여러 모형 중 하나를 고르는 행위 자체가 정보 기준 추정치에 낙관 편향 을 만든다. 연속 확장은 이 편향을 줄인다 — 선택이 없기 때문이다. $\phi$ 를 추정하는 단일 모형 안에서 불확실성이 사후분포로 자동 전달된다.

3 § 7.6 — NY 주 804 지방자치단체 예제

Ch.7 § 7.6 의 교훈적 예제. 데이터가 잘 맞아 보이는 모형도 관심 추론을 엉망으로 만들 수 있다 는 것을 보인다.

3.1 설정

뉴욕주 1960 년 지방자치단체 $N = 804$ 개의 인구 총합 을 추정한다. 진짜 총합은 $1.38 \times 10^7$ (Table 7.2, Rubin 1983a). 단순 무작위 표본 $n = 100$ 에서 추정하는 베이즈 분석을 시도한다.

Two independent samples 가 주어짐:

	전체 ($N=804$)	Sample 1 ($n=100$)	Sample 2 ($n=100$)
총합	13,776,663	1,966,745	3,850,502
평균	17,135	19,667	38,505
표준편차	139,147	142,218	228,625
최솟값	19	164	162
중앙값	1,668	2,081	1,740
95% 분위수	30,295	25,130	41,718
최댓값	2,627,319	1,424,815	1,809,578

Sample 1 은 전체와 요약 통계량이 비슷. Sample 2 는 약간 큰 값이 많음. 어느 쪽도 병리적이지 않아 보인다.

3.2 Sample 1, 단계 1 — 단순 정규 모형

모형: $y_i \sim \mathcal{N}(\mu, \sigma^2)$, $p(\mu, \log \sigma) \propto 1$.

추정 목표:

\[ y_{\mathrm{total}} = N \bar{y} = n \bar{y}_{\mathrm{obs}} + (N - n) \bar{y}_{\mathrm{mis}} \tag{7.18} \]

사후: $\bar{y} \mid y_{\mathrm{obs}} \sim t_{n-1}\!\left(\bar{y}_{\mathrm{obs}}, \left(\tfrac{1}{n} - \tfrac{1}{N}\right) s_{\mathrm{obs}}^2\right)$.

95% 구간 for $y_{\mathrm{total}}$: $[-5.4 \times 10^6, \; 37.0 \times 10^6]$.

하한이 음수 — 인구는 양수이므로 비현실적. 실무자는 하한을 표본 총합 ($1.97 \times 10^6$) 로 대체: $[2.0 \times 10^6, \; 37.0 \times 10^6]$.

너무 넓다. 분포가 치우쳐 있어 (skewed) 정규 가정이 맞지 않음.

3.3 Sample 1, 단계 2 — 로그정규 모형

모형: $\log y_i \sim \mathcal{N}(\mu, \sigma^2)$.

95% 구간: $[5.4 \times 10^6, \; 9.9 \times 10^6]$.

훨씬 좁다. 처음 보면 개선된 것으로 착각 하기 쉽다. 그러나 사후 예측 점검을 해야 한다.

3.4 Sample 1, 단계 3 — 사후 예측 점검

검정량: 표본 총합 $T(y_{\mathrm{obs}}) = \sum_i y_{\mathrm{obs},i}$.

절차:

사후에서 $(\mu, \sigma^2)^{(s)}$ 를 뽑음.
각 $s$ 마다 $y_{\mathrm{obs}}^{\mathrm{rep},(s)}$ 100 개 값을 로그정규에서 뽑아 $T(y_{\mathrm{obs}}^{\mathrm{rep},(s)})$ 계산.
관측 $T(y_{\mathrm{obs}}) = 1{,}966{,}745$ 와 비교.

결과: $S = 100$ 시뮬레이션 모두 관측 총합보다 작음. $p_B \approx 0$ — 로그정규가 표본 총합을 재현 못함. 부적합 명확.

3.5 Sample 1, 단계 4 — Power 변환 확장

연속 확장. Box-Cox 스타일의 power 변환 family:

\[ y_i^{(\phi)} = \begin{cases} \dfrac{y_i^{\phi} - 1}{\phi}, & \phi \neq 0 \\ \log y_i, & \phi = 0 \end{cases} \]

$y_i^{(\phi)} \sim \mathcal{N}(\mu, \sigma^2)$. 여기서 $\phi = 1$ → 원래 정규, $\phi = 0$ → 로그정규, 나머지 → 중간.

Sample 1 에서 $\phi$ 의 주변 사후가 $-2$ 근처에 날카롭게 집중. 확장 모형 하 $y_{\mathrm{total}}$ 95% 구간: $[5.8 \times 10^6, \; 31.8 \times 10^6]$. 사후 예측 점검도 통과 (100 중 15 개가 관측 총합 초과).

Sample 1 에서는 “점검 통과 + 확장 모형 적용 → 올바른 답” 이 나왔다. 방법론이 잘 작동하는 듯 보인다.

3.6 Sample 2 — 같은 방법이 처참히 실패

정규 모형: $[-3.4 \times 10^6, \; 65.3 \times 10^6]$ (하한을 표본 총합으로 대체해도 $[3.9 \times 10^6, \; 65.3 \times 10^6]$, 극도로 넓음).

로그정규 모형: $[8.2 \times 10^6, \; 19.6 \times 10^6]$. 좁아 보이지만, 사후 예측 점검 $p_B = 0$ (100 중 0 개). 실패.

Power 변환 확장: $\phi$ 의 사후가 $-\tfrac{1}{4}$ 근처. 사후 예측 점검 통과 (100 중 48 개 초과).

그러나 $y_{\mathrm{total}}$ 시뮬레이션 은:

중앙값: $5.7 \times 10^8$ (진짜는 $1.4 \times 10^7$, 40 배 과대)
97 번째 값: $1.4 \times 10^{15}$
최댓값: $1.2 \times 10^{17}$

완전히 비현실적. 점검은 통과했는데 답은 엉망.

3.7 왜 이런 일이 일어나는가

핵심 통찰 — “데이터로 풀 수 없는 질문”

$y_{\mathrm{total}}$ 추정치는 분포의 99.5% 분위수 너머의 꼬리 에 민감하다. 관측 $n = 100$ 으로는 이 영역을 절대 볼 수 없다. Power 변환 모형이 관측 데이터에 잘 맞아도, 꼬리 외삽의 방향은 관측 데이터로 결정되지 않는다. $\phi$ 의 사후가 꼬리를 아주 두껍게 만들어도, 데이터는 그걸 반증하지 못한다.

일반 원칙: 모형의 관측 영역 내 적합 과 외삽 영역 정확도 는 다른 것이다. 둘 중 하나만 보장되어도 추론이 잘못될 수 있다.

3.8 해결 — 사전 정보로 꼬리 제약

실무 지식: “어떤 지방자치단체도 인구가 $5 \times 10^6$ 을 넘지 않는다”. 이 정보를 사전에 명시적으로 추가 (truncation):

\[ y_i^{(\phi)} \sim \mathcal{N}(\mu, \sigma^2), \qquad y_i \leq 5 \times 10^6 . \]

결과:

	Sample 1	Sample 2
95% 구간	$[6 \times 10^6, \; 20 \times 10^6]$	$[10 \times 10^6, \; 34 \times 10^6]$

두 구간 모두 진짜 $1.37 \times 10^7$ 포함. 합리적.

3.9 중앙값은 robust 하다

같은 데이터로 중앙값 을 추정하면, 세 모형(로그정규·power·truncated) 모두 비슷한 답: $[1600, 2700]$ 근처. 중앙값은 꼬리에 의존하지 않으므로 robust 질문.

3.10 세 가지 일반 교훈

Gelman 이 § 7.6 끝에서 명시한 교훈.

로그정규가 데이터에 잘 맞아도 총합 추정이 부정확할 수 있다.
더 잘 맞는 확장 모형 (power family) 이 더 나쁜 총합 추정을 줄 수 있다.
일반 원칙: 추론이 데이터로 반증 불가능한 꼬리 특성 에 의존할 때, 다음 중 하나가 필요하다.
- 1. 모형이 현실적 꼬리 가정 을 명시적으로 반영 (truncation, 상한).
- 1. 질문을 robust 로 재정의 (총합 대신 중앙값).

직관 — “잘 맞는 모형” 과 “올바른 답” 의 독립성

“모형 적합도” 는 관측 데이터의 영역에서의 재현력이다. 반면 “추론 정확도” 는 관심 estimand 가 어떤 영역에 의존하는지에 따라 다르다. 두 가지가 일치하는 경우 (관심 양이 관측 영역 안에서 결정) 에는 더 잘 맞는 모형이 더 나은 답을 준다. 그러나 관심 양이 관측 영역 밖 (extreme 꼬리, 외삽) 에 의존하면, 적합도와 답의 질은 독립적. 이 독립성이 NY 예제의 핵심 메시지다.

4 § 7.7 — 문헌 노트 (요약)

Ch.7 의 이론 계보 핵심만 간략히.

4.1 점수 규칙의 이론

Bernardo (1979) — local + proper 점수 규칙의 단일성 (로그 점수).
Gneiting & Raftery (2007) — 확률 예측용 점수 규칙 리뷰.
Gneiting (2011) — 점 예측용 점수 함수 리뷰.

4.2 정보 기준

Akaike (1973, 1974) — AIC, 기대 예측 이탈(deviance) 개념.
Spiegelhalter, Best, Carlin, van der Linde (2002) — DIC.
Watanabe (2010) — WAIC, singular 모형에서의 정당화.
Vehtari, Gelman, Gabry (2017) — PSIS-LOO, 재적합 없는 LOO-CV 근사. 현대 표준.

4.3 교차 검증

Geisser & Eddy (1979) — Bayesian 교차 검증 선구.
Burman (1989) — 1 차 bias correction 유도.
Gelfand, Dey, Chang (1992) — 교차 검증 예측 점검.
Arlot & Celisse (2010) — non-Bayesian 교차 검증 리뷰.

4.4 모델 선택·비교

Kass & Raftery (1995) — Bayes factor 의 경험 스케일.
Barbieri & Berger (2004) — Bayesian 예측 모형 선택.
Vehtari & Ojanen (2012) — 예측 모형 평가·선택의 전체 리뷰.
Piironen & Vehtari (2017) — 모델 선택 유도 편향의 정량 비교.

4.5 핵심 추천

Gelman 의 현재 선호: PSIS-LOO 를 기본 도구로 쓰고, WAIC 는 큰 표본에서 빠른 대안으로 사용. loo R 패키지와 arviz Python 패키지가 두 방법을 표준화.

5 § 7.8 — 대표 연습문제 풀이

§ 7.8 의 10 개 문제 중 세 문제를 선별한다.

5.1 Exercise 7.2 — SAT 8 학교 동일효과 모형의 Bayes factor

문제: 8 학교 데이터 $y = (28, 8, -3, 7, -1, 1, 18, 12)$, $\sigma = (15, 10, 16, 11, 9, 11, 10, 18)$.

\[ H_1: \theta_j \text{ 모두 다름 (no pooling), } p(\theta_1, \ldots, \theta_8) \propto 1 \]

\[ H_2: \theta_1 = \cdots = \theta_8 = \theta \text{ (complete pooling), } p(\theta) \propto 1 \]

두 사전이 improper 이므로 Bayes factor 가 직접 계산 불가.

해결 방향: 각 사전을 $\mathcal{N}(0, A^2)$ 로 proper 화하고 $A$ 변화에 따른 $\mathrm{BF}$ 를 계산.

\[ p(y \mid H_1) = \prod_{j=1}^{8} \int \mathcal{N}(y_j \mid \theta_j, \sigma_j^2)\, \mathcal{N}(\theta_j \mid 0, A^2) \, d\theta_j \]

각 적분이 정규 × 정규 이므로 닫힌 형식:

\[ \int \mathcal{N}(y_j \mid \theta_j, \sigma_j^2)\, \mathcal{N}(\theta_j \mid 0, A^2) \, d\theta_j = \mathcal{N}(y_j \mid 0, \sigma_j^2 + A^2) \]

따라서

\[ p(y \mid H_1) = \prod_{j=1}^{8} \frac{1}{\sqrt{2\pi(\sigma_j^2 + A^2)}} \exp\!\left(-\frac{y_j^2}{2(\sigma_j^2 + A^2)}\right) \]

$H_2$ 에서는 $\theta$ 하나에 대한 적분이므로

\[ p(y \mid H_2) = \int \prod_{j=1}^{8} \mathcal{N}(y_j \mid \theta, \sigma_j^2) \, \mathcal{N}(\theta \mid 0, A^2) \, d\theta \]

이 경우 $\theta$ 의 사후평균과 분산이 정보 가중치 로 결정.

결과 ($A$ 에 따른 $\mathrm{BF}$):

$A$	$\mathrm{BF}_{21} = p(y\|H_2)/p(y\|H_1)$	해석
$A = 10$	$\approx 0.3$	$H_1$ 약간 선호
$A = 100$	$\approx 30$	$H_2$ 강한 선호
$A = 1000$	$\approx 3000$	$H_2$ 압도적 선호
$A \to \infty$	$\to \infty$	사전 무의미

교훈: 같은 데이터로 $A$ 선택만으로 결론이 완전히 바뀜. Bayes factor 가 과학적 결론 도구로 부적합한 이유가 수치로 드러남.

5.2 Exercise 7.6 — Variety of predictive reference sets

문제: 이항 모형 $y \sim \mathrm{Binomial}(n, \theta)$, 관측 프로토콜이 “$n = 20$ 고정” 이거나 “13 개 0 이 나올 때까지 (음이항)” 이거나.

(a): $\theta$ 의 사후가 왜 프로토콜과 무관 한가?

우도 함수가 두 경우 동일: $p(y \mid \theta) \propto \theta^s (1-\theta)^{n-s}$ (이항), $p(y \mid \theta) \propto \theta^s (1-\theta)^{13}$ (음이항, $s$ = 성공 수). 모수 $\theta$ 에 대한 비례 상수만 다름. 따라서 $p(\theta \mid y)$ 는 같다. (우도 원리: Casella & Berger Ch.6.)

(b): 그러나 사후 예측 점검 은 다르다. $T(y) = $ 전환 횟수 (switches, $01$ 또는 $10$ 의 개수) 로 점검하면:

이항 하: $y^{\mathrm{rep}}$ 가 $n = 20$ 고정 길이의 수열.
음이항 하: $y^{\mathrm{rep}}$ 가 13 개 0 에서 멈추는 가변 길이 수열.

같은 $\theta$ 사후에서 뽑아도 복제 분포가 다르다. 전환 횟수 분포도 달라지고 $p_B$ 도 달라진다.

교훈: 사후 추론과 사후 예측 점검의 referent 가 다르다. 전자는 $\theta$ 에만 의존하고 프로토콜 무관, 후자는 프로토콜에 의존. 모델 점검이 이 차이를 드러낸다.

5.3 Exercise 7.7 — 사전 vs 사후 예측 p-값의 극명한 대립

문제: $y_1, \ldots, y_{100} \sim \mathcal{N}(\theta, 1)$, $\theta \sim U(-A, A)$, $A = 10^5$. 검정량 $T(y) = \max_i |y_i|$. 관측 $\bar{y} = 5.1$, $T(y) = 8.1$.

이 문제는 § 6.1~6.3 편 의 심화. 여기서는 수치적으로 다시 확인.

(a) 사후 예측 분포

큰 $A$ 하에서 사후 $\theta \mid y \sim \mathcal{N}(\bar{y}, 1/n) = \mathcal{N}(5.1, 0.01)$.

$y^{\mathrm{rep}} \mid \theta \sim \mathcal{N}(\theta, 1)^{100}$. $T(y^{\mathrm{rep}})$ 의 분포는 근사적으로 $\mathcal{N}(5.1, 1)$ 의 100 개 표본의 최대 절댓값.

극값 이론: $\max_i |z_i|$ ($z_i \sim \mathcal{N}(0, 1)$) 의 기대값 $\approx \sqrt{2 \log n} \approx 3.03$. $y_i = \theta + z_i$ 이면 $|y_i| \approx |\theta| + |z_i|$ 같은 단순 근사가 아니라, $|y_i| = |\theta + z_i|$ 이므로 분포가 복잡.

시뮬레이션 결과: $T(y^{\mathrm{rep}})$ 의 기대값 $\approx 7.7$, 표준편차 $\approx 0.5$. 관측 $T(y) = 8.1$ 은 평균보다 약 $0.8$ 표준편차 위 → $p_B \approx 0.2$. 모형과 일관.

(b) 사전 예측 분포

$p(y^{\mathrm{rep}}) = \int p(y^{\mathrm{rep}} \mid \theta) p(\theta) d\theta$. $\theta \sim U(-A, A)$, $A = 10^5$ 이면 $\theta$ 는 $-10^5$ 에서 $10^5$ 까지 균등. $y^{\mathrm{rep}}_i = \theta + z_i$ 이고 $|z_i| \ll 10^5$ 이므로 $|y^{\mathrm{rep}}_i| \approx |\theta|$.

$|\theta|$ 의 분포: $U(0, A)$. 평균 $A/2 = 50{,}000$, 중앙값 $50{,}000$. 표본 크기 100 에서 $\max |y^{\mathrm{rep}}_i|$ 는 거의 항상 $|\theta|$ 근처 (100 개가 한 덩어리).

$T(y^{\mathrm{rep}})$ 의 사전 예측 분포: $U(0, A)$ 근사. 관측 $8.1$ 은 하위 $8.1 \times 10^{-5}$%. $p_B^{\mathrm{prior}} \approx 1 - 8 \times 10^{-5} \approx 1.0$ (거의 모든 복제가 관측보다 큼).

(c) 대립의 이유

접근	조건	결과
사후 예측	$\theta$ 가 데이터로 좁혀짐 ($\approx 5.1$)	일관
사전 예측	$\theta$ 가 $U(-10^5, 10^5)$	극단 불일치

모형의 “사전 예측” 세계와 “사후 예측” 세계는 완전히 다르다. 약정보 사전을 쓰는 현대 베이즈 분석에서 사전 예측은 항상 과도하게 퍼지므로 모델 점검에 부적합. 사후 예측이 표준인 이유.

6 실전 체크리스트

§ 7.5~7.8 의 교훈을 의사결정 파이프라인에 녹이기 위한 7 단계.

이산 선택 전 연속 확장 먼저 — 두 모형을 $\phi$ 로 잇는 단일 모형 설계 가능한가?
확장 모수의 hyperprior 주의 — 너무 넓으면 사전이 결과를 지배 (NY truncation 예시).
관심 estimand 의 의존 영역 명시 — 관측 영역 내? 꼬리? 외삽? 각각 다른 문제.
관심 양이 꼬리 의존이면 꼬리 사전 필수 — truncation · 상한 · 정보적 사전 중 하나.
대안으로 robust 질문 고려 — 총합 대신 중앙값, 평균 대신 분위수.
WAIC/LOO 차이에 민감 — 적합도가 비슷해도 외삽 정확도는 다를 수 있음.
“좋은 적합” 을 “좋은 추론” 과 혼동 금지 — NY 예제의 핵심 교훈.

7 관련 주제

선행 지식

Ch.7 Evaluating, Comparing, Expanding Models (Overview) — 이 포스트의 지도
§ 7.1~7.4 심화 — 정보 기준·Bayes factor 의 수학
Ch.6 Model Checking Overview — 사후 예측 점검, § 7.6 NY 예제에서 반복 사용
§ 5.4~5.6 — 8 학교 정규 계층 모형 — Exercise 7.2 의 원판

후속 주제

Ch.8 Modeling Accounting for Data Collection — 표본 수집 과정을 추론에 반영 (후속 작성)
Ch.17 Models for Robust Inference — § 7.5 의 t-분포 확장 상세 (후속 작성)
Ch.18 Models for Missing Data — § 7.5 동기 #4 의 결측 데이터 확장 (후속 작성)

관련 개념

Box-Cox 변환 — power family 확장의 고전적 formulation
Weakly informative prior — NY 예제의 truncation 이 보여 주는 사전 설계 원칙
Likelihood principle — Exercise 7.6 에서 우도 원리의 사후 추론 vs 점검 대립
PSIS-LOO 패키지 (loo, arviz) — Gelman 의 현재 선호 도구

\(A\)	\(\mathrm{BF}_{21} = p(y\|H_2)/p(y\|H_1)\)	해석
\(A = 10\)	\(\approx 0.3\)	\(H_1\) 약간 선호
\(A = 100\)	\(\approx 30\)	\(H_2\) 강한 선호
\(A = 1000\)	\(\approx 3000\)	\(H_2\) 압도적 선호
\(A \to \infty\)	\(\to \infty\)	사전 무의미