1 Part I 의 언어를 실제 분석으로 — Part II 의 위치
Part I 이 “베이즈 추론의 언어와 문법” 을 확립했다면, Part II 는 그 언어로 실제 데이터 분석을 수행하는 사이클 을 정의한다. Gelman 이 Ch.1 에서 제시한 베이즈 데이터 분석의 세 단계 — (1) 모델 설정 · (2) 사후 계산 · (3) 모델 적합도 평가 — 중 3 단계가 Part II 전체의 주제 라고 봐도 된다. 다만 “적합도 평가” 는 단일 행위가 아니라 네 층의 상호 연결된 질문으로 펼쳐진다.
“베이즈 모델 하나를 만드는 것이 아니라, 모델 사이클 — 점검하고 비교하고 확장하고 그 결과로 결정까지 — 을 돌리는 것이 실무 베이즈 분석이다.”
모델이 완벽하지 않다는 전제에서 출발해, 어떻게 결함을 찾고 · 대안과 비교하고 · 데이터 수집 과정까지 모델에 반영하고 · 불확실성 하의 행동으로 이어지는지까지가 Part II 의 범위다 (Gelman et al., 2013, Ch.6~9).
Part II 의 구성은 다음과 같다.
| 장 | 핵심 질문 | 한 줄 역할 |
|---|---|---|
| Ch.6 | 모델이 맞는가? | 사후 예측 점검 (posterior predictive check) 과 민감도 분석 |
| Ch.7 | 여러 모델 중 어느 것이 나은가? | 예측 정확도·WAIC·LOO-CV·베이즈 팩터·연속적 확장 |
| Ch.8 | 데이터는 어떻게 수집됐는가? | 무시가능성 조건·표본조사·실험·관찰 연구 |
| Ch.9 | 결과로 어떤 결정을 내릴까? | 효용 함수·기대 효용 최대화·정보의 가치 |
각 장을 뒤에서 핵심 개념 → 수식 · 직관 → 대표 예제 순서로 압축 정리한다. 챕터별 상세 전개는 후속 포스트에서 다룬다.
2 Ch.6 Model Checking — “모델이 현실을 얼마나 놓쳤는가”
2.1 왜 점검이 필요한가
Part I 의 켤레 · 주변화 · 계층 모형은 모두 “모델이 맞다” 는 전제에서 계산된다. 그러나 어떤 모델도 완전히 맞을 수 없다. 중요한 질문은 “맞는가?” 가 아니라 “모델의 결함이 관심 결론에 실질적 영향을 주는가?” 다. Ch.6 은 이 질문에 답하는 두 도구를 제공한다.
- 사후 예측 점검 (posterior predictive check, PPC) — 모델이 맞다면 복제 데이터는 관측 데이터와 닮아야 한다
- 민감도 분석 (sensitivity analysis) — 합리적 대안 모델 하에서 결론이 얼마나 변하는가
2.2 사후 예측 분포 — Part I 의 재등장
Ch.1 에서 정의한 사후 예측 분포를 여기서 적극 활용한다.
\[ p(\tilde y \mid y) = \int p(\tilde y \mid \theta) \, p(\theta \mid y) \, d\theta. \]
점검 절차: \(\theta^{(s)} \sim p(\theta \mid y)\) 를 MCMC 로 \(S\) 개 추출하고, 각 \(\theta^{(s)}\) 에서 \(\tilde y^{(s)} \sim p(\tilde y \mid \theta^{(s)})\) 를 복제 데이터셋 으로 시뮬레이션. \(S\) 개의 복제 데이터와 실제 관측 \(y\) 를 비교.
2.3 검정 통계량과 사후 예측 p-값
복제 데이터와 관측 데이터의 차이를 한 숫자로 요약하려면 검정 통계량 \(T(y)\) (예: 최댓값·분산·0 의 비율)를 정의하고
\[ p_B = \Pr\!\bigl(T(\tilde y^{\rm rep}) \ge T(y) \mid y\bigr) \]
를 사후 예측 p-값 (posterior predictive p-value) 이라 한다. 극단적으로 작거나 큰 값(예: < 0.05 또는 > 0.95)은 모델이 해당 측면을 포착하지 못함을 시사한다.
직관 — 빈도주의 p-값과의 차이. 고전 p-값은 “귀무가설 하에서 이 데이터가 얼마나 희귀한가”. 사후 예측 p-값은 “적합된 모델 하에서 이 데이터가 얼마나 전형적인가”. 전자는 이분법적 기각에 쓰이고, 후자는 모델 부적합 영역의 진단 도구 다. \(p_B\) 가 0.5 근처면 모델이 해당 측면을 잘 포착한 것, 극단이면 그 특정 측면에서 모델이 실패한 것이다.
2.4 불일치 측도 (Discrepancy Measure)
검정 통계량을 파라미터 의존적으로 확장하면 \(T(y, \theta)\) 가 되고, 이를 불일치 측도 라 한다. 대표 예가 카이제곱 통계량의 베이즈 버전:
\[ T(y, \theta) = \sum_i \frac{(y_i - E[y_i \mid \theta])^2}{\mathrm{Var}(y_i \mid \theta)}. \]
MCMC 표본 \((\theta^{(s)}, \tilde y^{(s)})\) 쌍으로 \(T(y, \theta^{(s)})\) 와 \(T(\tilde y^{(s)}, \theta^{(s)})\) 를 비교. 파라미터를 같이 변화시키므로 “파라미터 불확실성을 반영한 적합도 검정” 이 된다.
2.5 그래프 기반 점검 — 권장 기본 도구
Gelman 의 실무적 조언은 p-값보다 그래프 를 우선하라는 것. 히스토그램, 산점도, 잔차 그림, Q-Q 플롯으로 복제 데이터와 관측 데이터를 시각적으로 비교하면 모델 실패의 위치 · 방향 이 드러난다. 한 숫자로 요약되는 p-값은 정보를 압축하지만 진단의 구체성을 잃는다.
2.6 대표 예제 — Newcomb 의 광속 측정
Newcomb (1882) 의 66 개 측정치에 정규 모델을 적합한 뒤 최솟값 검정 통계량 \(T(y) = \min_i y_i\) 을 본다. 관측 최솟값은 \(-44\) (이상치), 복제 데이터 최솟값의 사후 예측 분포는 대부분 \(-20\) 이상. 사후 예측 p-값이 거의 0 — 정규 모델이 꼬리를 포착하지 못함. 정규 모델을 \(t\) 분포 모델로 교체 하면 이 결함이 해소된다 (Ch.17 로버스트 추론 예고).
2.7 민감도 분석 — 사전의 영향 점검
같은 데이터에 합리적 대안 사전 을 적용해 사후 결론이 얼마나 변하는지 본다. 결론이 강하게 바뀌면 “사전에 민감한 분석” — 결론이 데이터가 아니라 분석자의 가정에 의존한다는 경고. 결론이 안정적이면 사전 선택이 결론을 좌우하지 않는다는 증거.
실무 지침: 약정보적 사전 (Part I Ch.2) 을 기본으로 하되, (1) 무정보적 사전, (2) 약간 다른 약정보적 사전, (3) 명백한 정보적 사전 셋을 돌려 결론 일관성 을 확인한다.
3 Ch.7 Evaluating, Comparing, and Expanding Models — 예측 정확도가 기준
3.1 왜 예측 정확도인가
“모델이 얼마나 좋은가” 를 측정하는 기준으로 Gelman 이 택하는 것은 표본 외(out-of-sample) 예측 정확도 다. 이유:
- 과적합에 강건 — 훈련 데이터에 맞춘 정도가 아니라 새 데이터에 대한 성능을 본다
- 정량적·비교 가능 — 두 모델을 한 숫자로 비교할 수 있다
- 이론적 기반 — 정보 이론의 로그 예측 밀도 (log predictive density) 가 자연스러운 선택
3.2 핵심 정의
관측 데이터 \(y\) 에 대해 미래 관측 \(\tilde y\) 의 예측 분포 \(p(\tilde y \mid y)\) 를 평가하는 기준:
\[ \text{elpd} = \int p_t(\tilde y) \log p(\tilde y \mid y) \, d\tilde y \]
기대 로그 점별 예측 밀도 (expected log pointwise predictive density). \(p_t\) 는 데이터 생성 분포 (미지). 모델이 \(p_t\) 에 가까울수록 elpd 가 크다.
문제는 \(p_t\) 를 모른다는 것. 추정 방법 이 세 갈래:
| 방법 | 아이디어 | 계산 비용 | 특징 |
|---|---|---|---|
| AIC | MLE 로그 가능도 − 파라미터 수 \(p\) | 저렴 | 점추정 기반, 사후 분산 무시 |
| DIC | 사후 평균 deviance + 유효 파라미터 수 \(p_D\) | 중간 | 베이즈적이나 점추정 요소 남음 |
| WAIC | 로그 점별 예측 밀도 − 유효 파라미터 수 | 중간 | 완전 베이즈, AIC·DIC 포괄 |
3.3 WAIC — Gelman 의 권장
\[ \text{WAIC} = -2\Bigl\{ \underbrace{\sum_{i=1}^n \log\!\Bigl( \tfrac{1}{S} \sum_{s=1}^S p(y_i \mid \theta^{(s)})\Bigr)}_{\text{lppd, 로그 점별 예측 밀도}} \;-\; \underbrace{\sum_{i=1}^n \mathrm{Var}_s[\log p(y_i \mid \theta^{(s)})]}_{p_{\text{WAIC}},\ \text{유효 파라미터 수}} \Bigr\}. \]
직관 — 두 항의 의미. 첫 항은 “MCMC 표본 전체에 대한 평균 예측 정확도 — 사후분포의 폭을 반영”. 둘째 항은 “파라미터 불확실성이 예측 우도에 얼마나 영향을 주는가 — 모델이 과적합할 여지”. 둘의 차이로 과적합 보정된 예측 성능 을 얻는다. AIC 의 \(p\) (파라미터 수 그대로) 를 \(p_{\rm WAIC}\) (데이터에 의해 추정된 유효 파라미터 수) 로 대체한 것이 핵심 진보.
3.4 LOO-CV — 교차검증의 베이즈 버전
Leave-one-out cross-validation:
\[ \text{elpd}_{\text{loo}} = \sum_{i=1}^n \log p(y_i \mid y_{-i}). \]
각 관측치 \(i\) 를 빼고 나머지로 적합한 뒤 그 \(i\) 의 예측 밀도를 평가. 이론적으로 가장 정직한 과적합 보정. 문제는 \(n\) 회 재적합의 계산 비용인데, Pareto Smoothed Importance Sampling (PSIS-LOO, Vehtari et al. 2017) 이 한 번의 MCMC 로 근사한다.
실무 지침: Gelman 권고는 WAIC 또는 PSIS-LOO 를 기본, DIC 는 레거시 비교용, AIC 는 비-베이즈 모델 비교에만.
3.5 베이즈 팩터 — 신중히
두 모델 \(M_1, M_2\) 의 상대 증거:
\[ \text{BF}_{12} = \frac{p(y \mid M_1)}{p(y \mid M_2)}, \qquad p(y \mid M_k) = \int p(y \mid \theta, M_k) \, p(\theta \mid M_k) \, d\theta. \]
함정: 주변 가능도 \(p(y \mid M_k)\) 는 사전분포에 극도로 민감. 약정보적 사전의 폭을 조금만 바꿔도 BF 가 수십 배 달라진다. Gelman 은 BF 를 실무 모델 비교의 기본 도구로 권장하지 않는다.
3.6 연속적 모델 확장 — 대안 접근
모델 선택 대신 모델 확장을 권장한다. 단순 모델에서 시작해 파라미터·구조를 추가 해 가며 사후분포가 추가 요소를 “사용하는지” 관찰한다. 추가 파라미터의 사후분포가 0 근처에 집중하면 데이터가 그 확장을 지지하지 않는 것, 0 에서 벗어나면 지지하는 것.
직관. 이산적 “\(M_1\) vs \(M_2\)” 결정 대신 연속적 모수 공간에서 데이터가 말하게 한다. 이 접근이 Part I Ch.5 의 계층 모형 (풀링 정도가 연속적 \(\tau\) 로 결정) 과 철학적으로 일치.
4 Ch.8 Modeling Accounting for Data Collection — “데이터는 하늘에서 떨어지지 않는다”
4.1 핵심 주장
관측 데이터 \(y\) 는 두 과정의 결과 다: (a) 근본 확률 모델 \(p(y \mid \theta)\), (b) 관측 메커니즘 \(p(I \mid y, \phi)\) (여기서 \(I\) 는 포함 지시변수). 데이터 분석이 정확하려면 양쪽 과정을 모두 모델 해야 한다. 그러나 매번 관측 메커니즘까지 명시적으로 모델할 필요는 없다 — 무시가능성 (ignorability) 이 성립하면 관측 메커니즘을 분석에서 배제할 수 있다.
4.2 무시가능성 조건
MAR (Missing At Random): 결측이 관측된 값 에만 의존하고 미관측 값에는 의존하지 않는다.
\[ p(I \mid y_{\rm obs}, y_{\rm mis}, \phi) = p(I \mid y_{\rm obs}, \phi). \]
파라미터 구별성 (distinctness): \(\theta\) 와 \(\phi\) 의 결합 사전이 독립 분해 된다.
\[ p(\theta, \phi) = p(\theta) \, p(\phi). \]
두 조건이 성립하면 관측 메커니즘을 무시하고 \(p(\theta \mid y_{\rm obs})\) 만 계산해도 정확한 사후가 나온다.
직관 — 왜 이 조건이 필요한가. MAR 이 깨지면 (즉 미관측 값이 결측 확률에 영향을 주면) 관측된 데이터만으로는 참 분포를 추정할 수 없다. 예: 암 환자 중 중증자가 더 자주 탈락하는 임상시험. 탈락 여부가 관측 안 된 중증도에 의존 → MNAR (Missing Not At Random). 이 경우 결측 메커니즘까지 모델해야 편향을 피한다.
4.3 표본 조사 — 층화·군집 표본
층화 표본에서 각 층 \(h\) 의 표본 크기 \(n_h\) 와 모집단 크기 \(N_h\) 가 다르다. 단순 평균은 편향되므로 설계 변수 (층 지시자 · 가중치) 를 공변량으로 포함 해 회귀한다. 베이즈 프레임에서는
\[ \theta_h \sim p(\theta \mid \phi), \qquad \phi \sim p(\phi) \]
형태의 계층 구조로 층 효과를 모델하면 설계가 자동 반영된다. 이것이 Ch.5 계층 모형의 실무 응용이다.
4.4 실험 설계 — 무작위 배치
무작위화 (randomization) 가 왜 인과 추론에 중요한가? 무작위 배치가 처치 배정 \(T\) 를 관측 결과 \(y\) 와 조건부 독립 으로 만들어, 교란 변수 문제를 자동 해결한다. 베이즈적으로는 “처치 배정 메커니즘이 \(\theta\) 와 독립적인 경우 결측 (대조사실, counterfactual) 이 MAR” 이라는 주장으로 표현된다.
4.5 관찰 연구 — 반사실 프레임워크
무작위 배치가 없는 관찰 연구에서는 각 단위의 가능한 결과 집합 \((y^{(0)}, y^{(1)})\) (통제 · 처치) 이 존재하지만 실제 관측은 하나뿐이다. 베이즈 프레임은 관측되지 않은 반사실을 결측 데이터 로 간주하고 다중 대체 (multiple imputation, Ch.18 예고) 로 처리한다.
SUTVA (Stable Unit Treatment Value Assumption): 한 단위의 처치가 다른 단위의 결과에 영향을 주지 않는다. 전염병·네트워크 효과·일반 균형 효과가 있는 영역에서는 이 가정이 깨진다. 경계 인식이 중요.
4.6 절단·검열 데이터
관측이 상한·하한에서 잘린 (truncated) 또는 관측 기간이 끝나 미확정 (censored) 데이터는 관측 메커니즘의 변형으로 다뤄진다. 생존 분석이 전형적 예. Ch.8 은 이들을 모두 “데이터 수집 과정을 모델에 반영” 이라는 일관된 프레임으로 통일한다.
5 Ch.9 Decision Analysis — “사후분포로 무엇을 할 것인가”
5.1 결정 문제의 4 단계
사후분포는 그 자체로 결정이 아니다. 실제 행동으로 옮기려면 효용 (utility) 을 도입해야 한다. Gelman 의 4 단계:
- 결정 공간 열거: 가능한 행동 \(d_1, d_2, \ldots\) 의 집합 정의
- 각 결정 하의 확률 분포 계산: 결과 \(y\) 의 사후 분포 \(p(y \mid d_k)\) 를 구함
- 효용 함수 정의: \(u(d_k, y)\) — 결정 \(d_k\) 와 결과 \(y\) 의 조합에 숫자 할당
- 기대 효용 최대화: \(d^* = \arg\max_k \int u(d_k, y) \, p(y \mid d_k) \, dy\)
5.2 기대 효용 최대화 — 한 줄 정리
\[ d^* = \arg\max_d E_y[u(d, y) \mid d] = \arg\max_d \int u(d, y) \, p(y \mid d) \, dy. \]
직관. “결과가 불확실하니 모든 가능한 결과에 대한 효용의 가중 평균을 최대화하자.” 이 가중 평균에서 가중치는 사후분포. 즉 결정은 추론의 연장 이다 — 사후분포를 효용으로 변환한 것.
5.3 정보의 기대 가치 (Expected Value of Information)
추가 데이터 \(\tilde y\) 를 수집할지 결정하는 문제. 정보의 기대 가치는 “추가 데이터가 없을 때의 최적 결정” 과 “추가 데이터가 있을 때의 기대 최적 결정” 의 효용 차이:
\[ \text{EVI} = E_{\tilde y \mid y}\!\left[\max_d u(d, y, \tilde y) \right] - \max_d E_{\tilde y \mid y}[u(d, y, \tilde y)]. \]
이 EVI 가 추가 데이터 수집 비용보다 크면 데이터를 수집한다. “데이터가 많을수록 좋다” 는 순진한 명제를 정량화 하는 도구.
5.4 설문 인센티브 예제 (Gelman Ch.9)
39 개 조사 실험의 메타분석으로 “얼마의 인센티브가 응답률을 얼마나 올리는가” 를 계층적 회귀로 추정. 효용 = 응답률 증가 × 설문 가치 − 인센티브 지불 비용. 최적 인센티브 금액 · 시기 · 형태를 사후분포에 기반해 선택.
핵심 교훈: “회귀 계수가 통계적으로 유의하지 않아도 결정 문제에서는 중요할 수 있다”. 유의성 기준으로 변수를 빼면 결정이 왜곡된다. 결정은 점 추정이 아니라 분포 전체를 본다.
5.5 개인 vs 제도적 결정
같은 사후분포라도 결정 주체 에 따라 최적 행동이 다르다.
- 개인 결정: 한 사례에 대한 최적 (예: 내 건강검진 받을지)
- 제도 결정: 모집단 수준 정책 (예: 국가 암 검진 프로그램 설계)
효용 함수가 달라진다 — 개인은 자기 결과만 평가, 제도는 집단 전체의 총 효용을 평가.
5.6 모델 선택도 결정 문제
“어느 모델을 쓸까” 도 결정 문제로 형식화할 수 있다. 각 모델의 예측 정확도 개선 vs 추가 데이터·복잡도 비용 — 효용 함수로 명시적 비교. Ch.7 의 WAIC 기반 모델 비교를 결정 이론적 관점 에서 다시 해석한 것.
6 Part II 의 통합 교훈
- 모델 사이클이 곧 베이즈 분석이다 — 한 번 적합하고 끝이 아니라 점검 → 확장 → 재적합 → 재점검의 순환
- 사후 예측 분포가 중심 도구 — Ch.1 의 정의가 Ch.6 에서 점검 · Ch.7 에서 비교 · Ch.9 에서 결정의 원재료로 재사용
- 데이터 수집 과정은 모델의 일부 — 무시가능성 조건을 점검하지 않으면 사후분포가 편향. “관측된 것” 과 “관측되지 않은 것” 의 대칭성이 핵심
- 결정은 추론의 연장, 점추정의 변환이 아니다 — 효용 함수로 사후분포 전체를 통합. 유의성·모델 선택 기준을 결정 비용과 분리해서는 안 됨
- 연속적 확장 > 이산적 선택 — “\(M_1\) vs \(M_2\)” 보다 “단순 모델에 파라미터 추가하며 데이터가 말하게” 가 베이즈 정신
6.1 Part III 예고
Part II 의 모든 도구 — 사후 예측 시뮬레이션, WAIC 계산, 다중 대체, 기대 효용 적분 — 는 계산 을 요구한다. Part III (Ch.10~13) 이 바로 그 계산 도구다.
| Part | 주제 | Part II 와의 연결 |
|---|---|---|
| III (Ch.10-13) | MCMC · HMC · 변분 추론 | 사후 예측 점검 · WAIC 계산의 연산 엔진 |
| IV (Ch.14-18) | 회귀 · 계층 회귀 · GLM · 결측 데이터 | Ch.8 의 관찰 연구·결측 처리를 회귀로 구현 |
| V (Ch.19-23) | 비선형·비모수 (GP, Dirichlet process) | 모델 확장 (Ch.7) 의 무한차원 버전 |
7 빈도주의 도구와의 비교 지도
| Part II 개념 | 빈도주의 대응 (C&B 등) | 관점 차이 |
|---|---|---|
| 사후 예측 점검 | 잔차 분석·적합도 검정 | 복제 데이터 생성 vs 잔차 분포 검정 |
| WAIC · LOO-CV | 부트스트랩 표준오차, AIC, CV | 사후분포 기반 vs 점추정·샘플링 기반 |
| 베이즈 팩터 | LRT · p-값 | 사전 기대 증거 vs 귀무가설 기각 |
| 무시가능성 | SCAR · MCAR 가정 | 다중 대체 vs 완전 사례 분석 |
| 효용 + 기대 효용 | 손실 함수 최적성, Wald 결정이론 | 사후 기반 명시적 적분 vs 표본분포 기반 |
공통 교훈: 두 전통 모두 “모델이 맞지 않으면 결론이 틀린다” 는 출발점은 같다. Part II 의 독특함은 사후 예측 분포를 일관된 도구로 재사용 해 점검 → 비교 → 결정을 하나의 프레임에서 처리하는 것.
8 코드 예시 — 사후 예측 점검
이항 모델에서 “제로의 비율” 검정 통계량으로 PPC 를 수행한다.
8.1 Step 1: 순수 구현
import numpy as np
from scipy.stats import binom, beta
# 관측 데이터: 20 개 그룹, 각 10 회 시행 중 성공 수
rng = np.random.default_rng(7)
n_groups, m = 20, 10
y = rng.binomial(m, 0.3, n_groups)
n_zeros_obs = np.sum(y == 0)
print(f"관측된 zero 그룹 수: {n_zeros_obs}")
# 단일 이항 모델 (pooled theta) 의 사후
a_post = 1 + y.sum()
b_post = 1 + n_groups * m - y.sum()
# 사후 예측: theta 추출 → 복제 y 생성
S = 4000
theta_draws = beta.rvs(a_post, b_post, size=S, random_state=rng)
y_rep = rng.binomial(m, theta_draws[:, None].repeat(n_groups, axis=1))
n_zeros_rep = np.sum(y_rep == 0, axis=1)
p_ppc = np.mean(n_zeros_rep >= n_zeros_obs)
print(f"사후 예측 p-값 (zero 비율): {p_ppc:.3f}")8.2 Step 2: PyMC 로 실무 구현
import pymc as pm
import numpy as np
rng = np.random.default_rng(7)
n_groups, m = 20, 10
y = rng.binomial(m, 0.3, n_groups)
with pm.Model() as model:
theta = pm.Beta("theta", alpha=1, beta=1)
obs = pm.Binomial("obs", n=m, p=theta, observed=y)
trace = pm.sample(2000, tune=1000, chains=4, progressbar=False)
ppc = pm.sample_posterior_predictive(trace, progressbar=False)
y_rep = ppc.posterior_predictive["obs"].values.reshape(-1, n_groups)
n_zeros_obs = np.sum(y == 0)
n_zeros_rep = np.sum(y_rep == 0, axis=1)
p_ppc = np.mean(n_zeros_rep >= n_zeros_obs)
print(f"PPC p-값: {p_ppc:.3f}")해석. \(p_{\rm PPC}\) 가 0.5 근처면 “제로의 비율을 모델이 잘 재현”. 0.05 미만 또는 0.95 초과면 그 측면에서 모델 실패 — 예컨대 집단 간 성공률 이질성 을 무시하고 단일 \(\theta\) 로 풀링한 것이 원인이라면, 계층 모형 (Ch.5) 으로 확장해야 한다.
9 관련 주제
선행 (Part I)
- Part I 개관 — 베이즈 추론의 언어와 문법 — 사후 예측 분포·교환가능성·계층 모형의 기초
빈도주의 관점 크로스 링크
- 구간 추정량 평가 방법 — 적합도·피복확률 관점
- 부트스트랩 표준오차 — 비모수 예측 정확도 도구
- p-값 — 사후 예측 p-값과의 개념 비교
- 손실 함수 최적성 — 기대 효용 최대화의 빈도주의 사촌
- 다중 검정 / q-값 — 결정 수준 다중성 처리
후속 (이번 포스트에서 이어지는 Gelman Ch 상세)
- Ch.6 Model Checking — 사후 예측 점검·민감도 분석 상세
- Ch.7 Evaluating, Comparing, and Expanding Models — WAIC · LOO-CV · 베이즈 팩터 상세
- Ch.8 Modeling Accounting for Data Collection — 무시가능성·표본조사·관찰 연구
- Ch.9 Decision Analysis — 효용 · 정보 가치 · 인센티브 실험
관련 개념
- 계층 모형과 혼합 — Ch.5 의 빈도주의 대응 (Part II 에서 PPC 진단 대상)
- EM 알고리즘 — 결측 데이터 처리 (Ch.8 · Ch.18 연결)
- GLM 이론 기초 — Ch.16 베이즈 GLM 으로 이어짐
10 참고 문헌
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman & Hall/CRC. Part II (pp. 139-257).
- Vehtari, A., Gelman, A., & Gabry, J. (2017). Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC. Statistics and Computing, 27, 1413-1432.
- Watanabe, S. (2010). Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. JMLR, 11, 3571-3594.
- Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581-592.