1 개요 — Part IV 네 번째 관문
Ch.14~16에서 다룬 모든 모형은 정규·binomial·Poisson 등 제한된 분포 family에 의존했다. 이들의 공통 특징:
- Thin tail: 극단값 확률이 매우 작다.
- Single outlier에 과도한 민감성: 하나의 비정상 관측이 모든 모수 추정을 흔듬.
- 분산-평균 제약: Poisson은 \(\mathrm{Var} = \mu\), binomial은 \(\mathrm{Var} = n\mu(1-\mu)\) 고정.
Ch.17 Models for Robust Inference 는 이 한계를 heavy-tail 분포 family 로 극복한다. 핵심 도구:
- \(t\) 분포 (\(t_\nu\)).
- Negative binomial.
- Beta-binomial.
- Robit 회귀 (logistic/probit의 robust 버전).
모두 scale mixture of normals (or Gammas) 표현을 공유. 이 구조가 Gibbs sampler 기반 계산을 자연스럽게 한다.
- Ch.14 — 정규 likelihood + 평균 회귀.
- Ch.15 — 정규 likelihood + 계층 구조.
- Ch.16 — 비정규 likelihood (Poisson, binomial, multinomial).
- Ch.17 — Heavy-tail likelihood (\(t\), negative binomial, beta-binomial).
각 장은 이전 장의 계산 엔진을 재사용하며 likelihood 층만 변형한다. Ch.17의 특수성: scale mixture of normals 로 표현하면 Ch.14의 기계를 그대로 사용 가능. 이것이 Gelman의 반복된 패턴 — “복잡한 분포를 단순한 분포의 조건부 mixture로 환원.”
2 Ch.17의 논리 지도
| 절 | 핵심 질문 | 주요 결과 |
|---|---|---|
| § 17.1 | Robustness란 무엇인가? | Outlier 강건성과 민감도 분석 |
| § 17.2 | 표준 모형 과분산 확장은? | \(t_\nu\)·Neg-bin·Beta-bin·robit — 모두 mixture 표현 |
| § 17.3 | 어떻게 계산하나? | Mixture auxiliary variables + Gibbs·importance resampling |
| § 17.4 | 8 schools 에 robust 적용하면? | \(\nu\) 민감도 분석 Figure 17.1·17.2 |
| § 17.5 | Robust 회귀는? | \(t\) 오차 선형 회귀·이상치 자동 downweight |
| § 17.6 | Bibliographic note | Robust 베이즈 문헌 |
| § 17.7 | Exercises | Federalist Papers·8 schools 민감도·robit 회귀 |
3 § 17.1 Aspects of Robustness — 두 측면
3.1 1. Outlier Robustness
예시 (Gelman 원문): 8 schools 의 \(y_8 = 12\) 를 가상으로 100 로 바꿨다고 하자. 정규 계층 모형의 결과:
- \(\tau\) (그룹 간 SD) 가 매우 큰 값으로 추정됨 (100이 “정상 변동”이 되려면).
- 결과적으로 모든 \(\theta_j\) 에 대한 shrinkage 거의 사라짐 — 각 \(\hat\theta_j \approx y_j\).
- \(\theta_8 \approx 100\) 으로 결론되지만, 나머지 7개 학교 추정도 덩달아 원래 값으로 돌아감.
진짜 문제:
- 이 100 이 데이터 입력 오류라면? \(\tau\) 부풀림이 허상이고 7개 학교 추정이 잘못된 방향.
- 8번째 학교가 진짜 특이 케이스라면? 나머지 7개 학교에 영향을 주면 안 됨.
Bayesian Robust 해법: 교환 가능 prior \(p(\theta_1, \dots, \theta_8)\) 을 heavy-tail family 로 교체:
\[ \theta_j \sim t_\nu(\mu, \tau^2) \quad \text{or} \quad \theta_j \sim \text{Mixture of two normals} \]
효과: \(\theta_8 = 100\) 이 “normal 분포의 extreme deviation” 이 아니라 “t 분포의 heavy tail에서 자연스러운 관측” 으로 해석. 나머지 7개의 shrinkage는 그대로 유지.
3.2 2. Sensitivity Analysis
Robust model 은 가정 민감도 진단에도 유용:
- \(\nu = \infty\): 정규 (thin tail).
- \(\nu = 7\): moderate tail.
- \(\nu = 4\): robit 기본.
- \(\nu = 1\): Cauchy (heavy tail).
\(\nu\) 를 바꾸면서 관심 추정량이 얼마나 변하는지 관찰 → 정규 가정이 결론에 얼마나 결정적인지 판단.
고전 통계학에서는 두 작업을 구분:
- Outlier detection: 이상 관측을 찾아 제거.
- Robust estimation: 이상 관측을 허용하되 추정이 덜 영향받도록.
Gelman의 Bayesian 관점: 두 작업을 통합. Heavy-tail 모형이
- 이상 관측을 “mixture의 high-variance component”로 자연 분류.
- 동시에 평균 모수 추정의 영향을 자동 축소.
통계적 언어: “\(y_8 = 100\) 은 \(\theta_8\) 에서 매우 큰 이탈” vs “\(\theta_8\) 자체가 \(t\) 분포의 극단값”. 관측을 제거하지 않고도 해석 자연스러움.
이 철학이 Ch.17의 핵심. 모든 관측은 모형 내에서 설명 가능하되, 모형이 heavy-tail을 지원해야.
4 § 17.2 Overdispersed Versions of Standard Models
4.1 \(t\) 분포 — 정규의 heavy-tail 대안
\(t_\nu(\mu, \sigma^2)\) 분포:
- \(\nu\) = degrees of freedom (자유도). 분포 형태 결정.
- \(\nu = 1\): Cauchy. 평균·분산 발산.
- \(\nu = 4\): Robit 기본. 적당히 heavy-tail.
- \(\nu = 7\): Moderate (Gelman-Jakulin weakly informative).
- \(\nu \to \infty\): Normal.
4.2 식 (17.1) — \(t\) 의 Scale Mixture 표현
\(y_i \sim t_\nu(\mu, \sigma^2)\) 는 다음과 수학적으로 동등:
\[ \begin{aligned} y_i | V_i &\sim N(\mu, V_i) \\ V_i &\sim \text{Inv-}\chi^2(\nu, \sigma^2) \end{aligned} \quad \text{(17.1)} \]
해석: 각 관측 \(y_i\) 가 고유한 분산 \(V_i\) 를 가진 정규. \(V_i\) 가 Inv-\(\chi^2\) 에서 추출. Outlier = “큰 \(V_i\) 를 가진 관측”.
\(V_i\) 고정 시 \(y_i\) 는 평범한 정규. 그러나 \(V_i\) 자체가 variable — Inv-\(\chi^2\) 에서 가끔 매우 큰 값을 뽑는다.
큰 \(V_i\) 를 뽑은 관측 → 변동성이 커서 극단값도 그럴듯함.
Marginalizing over \(V_i\):
\[ p(y_i | \mu, \sigma^2) = \int N(y_i | \mu, V_i) \cdot \text{Inv-}\chi^2(V_i | \nu, \sigma^2) \, dV_i = t_\nu(y_i | \mu, \sigma^2) \]
즉 “정규들의 variance 혼합” = \(t\) 분포. 이것이 \(t\) 의 heavy-tail의 구조적 이유.
계산 이점: \(V_i\) 를 augmented variable 로 다루면 각 단계가 정규 계산으로 환원. Gibbs sampler 자연. Ch.12 § 12.1 의 auxiliary variable 기법의 대표 사례.
4.3 Negative Binomial — Poisson의 heavy-tail
\(y_i \sim \text{NegBin}(\alpha, \beta)\) 는 Gamma-Poisson mixture:
\[ \begin{aligned} y_i | \lambda_i &\sim \text{Poisson}(\lambda_i) \\ \lambda_i &\sim \text{Gamma}(\alpha, \beta) \end{aligned} \]
분산: \(\mathrm{Var}(y) = \frac{\alpha}{\beta} \cdot \frac{\beta + 1}{\beta} = \mu + \mu^2 / \beta\) — 평균보다 항상 크다. \(\beta \to \infty\) 에서 Poisson 수렴.
응용: 사고 건수, 질병 발생, 텍스트 단어 빈도 등 고정 평균-분산 비율이 실제보다 큰 count 데이터.
4.4 Beta-Binomial — Binomial의 heavy-tail
\(y_i \sim \text{BetaBin}(m, \alpha, \beta)\) 는 Beta-Binomial mixture:
\[ \begin{aligned} y_i | \pi_i &\sim \text{Binomial}(m, \pi_i) \\ \pi_i &\sim \text{Beta}(\alpha, \beta) \end{aligned} \]
분산 배율: \(\frac{\alpha + \beta + m}{\alpha + \beta + 1}\) 배 (binomial 대비). \(m = 1\) 이면 binomial과 동일.
응용: 교육 시험 데이터 (학생마다 “정답 확률” 다름), 소비자 설문 (응답자마다 “지지 확률” 다름).
4.5 Robit — Logistic/Probit의 Robust 버전
Robit regression (Liu 2004): 잠재 변수 formulation (Ch.16 § 16.2 식 (16.3)) 에서 정규를 \(t_\nu\)로 교체:
\[ \begin{aligned} u_i &\sim t_\nu(X_i \beta, 1) \\ y_i &= \mathbb{1}[u_i > 0] \end{aligned} \]
특성:
- \(\nu \to \infty\): probit.
- \(\nu = 4\): logistic 에 매우 가까움 (기본값).
- \(\nu = 1\): Cauchy — 매우 heavy-tail.
Robustness 의미: \(y\) 는 binary라 outlier 없지만, \(X\) 에 대한 robustness — \(X_i\beta\) 가 매우 큰 값이어도 occasional misprediction 허용. 완벽 분리 (separation, Ch.16 § 16.3) 와 유사 상황에서 안정화.
4.6 비교 요약 표
| 원 모형 | Robust 대안 | Mixture 표현 | Extra 모수 |
|---|---|---|---|
| Normal | \(t_\nu\) | \(N(\mu, V_i), V_i \sim \text{Inv-}\chi^2\) | \(\nu\) |
| Poisson | Neg-bin | \(\text{Poisson}(\lambda_i), \lambda_i \sim \text{Gamma}\) | \(\beta\) |
| Binomial | Beta-bin | \(\text{Bin}(m, \pi_i), \pi_i \sim \text{Beta}\) | \(\alpha, \beta\) |
| Logistic/Probit | Robit | \(\mathbb{1}[u_i > 0], u_i \sim t_\nu\) | \(\nu\) |
4.7 Underdispersion 경고
모든 overdispersed 모형의 공통 제약: 원 모형보다 분산이 항상 크거나 같음. 데이터가 원 모형보다 덜 흩어져 있으면 (underdispersed) 이들 확장으로 포착 불가.
Underdispersion은 드물지만 발생 — 예: strongly correlated counts (이미 계층 모형 필요), censored data (Ch.8).
5 § 17.3 Posterior Inference and Computation
5.1 Mixture Formulation + Gibbs Sampler
모든 robust 모형은 scale mixture 형태:
\[ p(y | \theta) = \int p(y | \theta, V) p(V | \phi) \, dV \]
\(V\) 를 auxiliary variable로 도입하면 각 조건부가 conjugate:
- \(\theta | V, y\): 정규 회귀 (정규 likelihood \(N(\cdot, V)\)).
- \(V | \theta, y\): Inv-\(\chi^2\) (또는 해당 conjugate).
- \(\phi | V\): 해당 hyperparameter 사후.
이 3-단계 Gibbs로 robust 모형 전체를 돌릴 수 있다. Ch.12 parameter expansion 과 같은 원리.
5.2 Importance Resampling for Sensitivity Analysis
\(\nu\) 여러 값에 대해 사후를 계산하려면 처음부터 다시 샘플링하는 것은 비효율. Gelman의 제안:
- 원 정규 모형 (\(\nu = \infty\)) 사후 \(p_0(\theta | y)\) 에서 샘플 획득.
- Importance weights:
\[ w_s = \frac{p(\theta^s | \nu, y)}{p_0(\theta^s | y)} \]
- Importance resampling 으로 \(p(\theta | \nu, y)\) 근사.
장점: \(\nu\) 여러 값에 대해 한 번의 MCMC로 민감도 분석 완료. Ch.10 § 10.4 기법.
한계: \(\nu\) 가 \(\infty\) 에서 크게 멀어지면 weights 분산이 폭발. 극단 robust 모형은 직접 MCMC 필요.
5.3 Marginal Posterior of \(\phi\)
\(p(\phi | y)\) 가 sensitivity parameter의 marginal 사후:
\[ p(\phi | y) \propto p(\phi) \cdot p(y | \phi) = p(\phi) \cdot \int p(y | \theta, \phi) p(\theta | \phi) \, d\theta \]
\(p(y | \phi)\) (marginal likelihood) 는 importance sampling 또는 bridge sampling (Ch.13 § 13.10) 으로 계산.
해석: \(p(\nu | y)\) 가 날카로우면 “\(\nu\) 를 확실히 말할 수 있음” (데이터가 tail 형태를 강하게 가리킴). 평평하면 “\(\nu\) 에 대한 정보 부족” → 민감도 낮음.
6 § 17.4 Robust Inference for the Eight Schools — 재방문
6.1 Setup
Ch.5.5 정규 계층 모형:
\[ \begin{aligned} y_j &\sim N(\theta_j, \sigma_j^2) \\ \theta_j &\sim N(\mu, \tau^2) \end{aligned} \]
Robust 확장: 모집단 분포를 \(t_\nu\) 로 교체:
\[ \theta_j \sim t_\nu(\mu, \tau^2) \]
6.2 \(\nu\) 의 처리
옵션 1 — 고정 \(\nu\): \(\nu = 4\) (기본 robust choice). 데이터로부터 추정 안 함.
옵션 2 — \(\nu\) 도 추정: \(\nu\) 에 prior 부여, 데이터로부터 estimate. 그러나 \(J = 8\) 로 작아 \(\nu\) 가 매우 부정확하게 추정됨.
옵션 3 — Sensitivity analysis: 여러 \(\nu\) 값에 대해 결과 비교 (Gelman 권장).
6.3 Table 17.1 — Robust 결과
2500 posterior simulations summary. 정규 모델과 robust 모델 결과 비교:
- 각 학교 \(\theta_j\) 의 posterior 평균·SD·quantile.
- 정규 대비 robust 에서 \(\tau\) 가 약간 작게 추정됨 (이상치로부터 덜 영향).
- 각 \(\theta_j\) 의 credible interval 이 약간 변함.
6.4 Figure 17.1 — \(\nu\) 민감도 Plot
\(1/\nu\) 축으로 각 학교 \(\theta_j\) 의 posterior 평균·SD.
- \(1/\nu = 0\): 정규 (Ch.5.5 원래).
- \(1/\nu = 1\): Cauchy.
주요 관찰:
- \(\nu\) 가 변해도 posterior 평균 거의 안 변함 — 원 데이터가 이상치 없음.
- SD 도 안정적.
결론: 8 schools 데이터에서는 robustness 가 크게 중요하지 않다. 그러나 이 안정성을 정량적으로 확인 한 것이 의미.
6.5 Figure 17.2 — \(1/\nu\) 의 Posterior
\(\nu\) 를 unknown으로 두고 추정한 경우의 \(1/\nu\) 사후 히스토그램.
- 0 근처에 mass 집중 → “\(\nu\) 가 크다 (정규에 가깝다)” 는 증거.
- 데이터가 정규 가정을 대체로 지지.
이 결과가 Ch.5 원 분석의 robustness를 강화.
6.6 가상 Outlier Scenario
\(y_8 = 100\) 로 조작한 경우:
- 정규 모형: \(\tau\) 폭발, 모든 \(\theta_j \approx y_j\).
- Robust (\(\nu = 4\)): \(\tau\) 유지, 7개 학교 여전히 shrinkage, \(\theta_8\) 만 크게.
- \(1/\nu\) posterior: 0에서 멀어져 heavy-tail 증거.
이것이 Gelman이 제시하는 robust model의 실질적 가치.
7 § 17.5 Robust Regression — \(t\) 오차
7.1 모형
Ch.14 정규 선형 회귀의 오차를 \(t\) 로 교체:
\[ y_i = X_i \beta + \epsilon_i, \quad \epsilon_i \sim t_\nu(0, \sigma^2) \]
또는 scale mixture:
\[ y_i | V_i \sim N(X_i \beta, V_i), \quad V_i \sim \text{Inv-}\chi^2(\nu, \sigma^2) \]
7.2 Outlier Downweighting
\(V_i\) 가 크면 해당 관측의 precision이 작음 → 회귀에 적은 영향.
Posterior \(V_i\): outlier 관측 (\(y_i - X_i\hat\beta\) 큰) 은 큰 \(V_i\) 가 뽑힘 → 자동 downweight.
이것이 “robust regression” 의 본질: outlier 검출 없이도 outlier 영향 자동 축소.
7.3 계산 — Gibbs
- \(\beta | V, \sigma^2, y\): 가중 회귀 (weight \(1/V_i\)).
- \(\sigma^2 | \beta, V\): 해당 conjugate.
- \(V_i | \beta, \sigma^2, y_i\): Inv-\(\chi^2\) 업데이트.
Ch.14 § 14.7 GLS 의 특수 사례.
7.4 응용 예시
- 금융 수익률: Return 데이터는 정규보다 heavy-tail — \(t_{3-5}\) 가 적합.
- 측정 오차: 기기 오류로 occasional 극단값.
- 이상치 포함 임상 시험: 일부 환자의 극단적 반응.
8 Ch.17 핵심 수식 모음
| 번호 | 수식 | 의미 |
|---|---|---|
| (17.1) | \(y_i \| V_i \sim N(\mu, V_i), V_i \sim \text{Inv-}\chi^2(\nu, \sigma^2)\) | \(t\) 의 scale mixture |
| - | \(y_i \| \lambda_i \sim \text{Poisson}(\lambda_i), \lambda_i \sim \text{Gamma}\) | Neg-bin의 Gamma mixture |
| - | \(y_i \| \pi_i \sim \text{Bin}(m, \pi_i), \pi_i \sim \text{Beta}\) | Beta-binomial의 Beta mixture |
| (17.2) | \(p(\theta \| \phi, y) \propto p(\theta \| \phi) p(y \| \theta, \phi)\) | Robust 확장 모형 일반 |
| - | \(u_i \sim t_\nu(X_i\beta, 1), y_i = \mathbb{1}[u_i > 0]\) | Robit 회귀 |
9 최소 실행 예제 — Robust 계층 모형
import numpy as np
import pymc as pm
import arviz as az
rng = np.random.default_rng(42)
# 8 schools data with hypothetical outlier
y_orig = np.array([28, 8, -3, 7, -1, 1, 18, 12])
sigma = np.array([15, 10, 16, 11, 9, 11, 10, 18])
# replace y[7] with outlier 100
y = y_orig.copy()
y[7] = 100
def fit_hierarchical(y, sigma, tail="normal", nu=4):
with pm.Model():
mu = pm.Normal("mu", 0, 10)
tau = pm.HalfNormal("tau", 10)
if tail == "normal":
theta_raw = pm.Normal("theta_raw", 0, 1, shape=8)
elif tail == "t":
theta_raw = pm.StudentT("theta_raw", nu=nu, mu=0, sigma=1, shape=8)
theta = pm.Deterministic("theta", mu + tau * theta_raw)
pm.Normal("y_obs", mu=theta, sigma=sigma, observed=y)
trace = pm.sample(2000, tune=1000, target_accept=0.95, chains=4)
return trace
print("=== Normal hierarchical with outlier y[7]=100 ===")
tr_normal = fit_hierarchical(y, sigma, tail="normal")
print(az.summary(tr_normal, var_names=["mu", "tau", "theta"])
[["mean", "sd", "hdi_3%", "hdi_97%"]])
print("\n=== Robust t (nu=4) hierarchical with outlier ===")
tr_robust = fit_hierarchical(y, sigma, tail="t", nu=4)
print(az.summary(tr_robust, var_names=["mu", "tau", "theta"])
[["mean", "sd", "hdi_3%", "hdi_97%"]])예상 출력 (개념):
=== Normal: tau explodes ===
tau: mean ~ 30+, so all theta close to y
theta[0]: ~27 (originally shrunk to ~10 in Ch.5)
theta[7]: ~95 (close to 100)
=== Robust t: tau stabilized ===
tau: mean ~ 6-10 (reasonable)
theta[0-6]: proper shrinkage toward overall mean
theta[7]: ~60-70 (pulled somewhat toward others but still distant)
Robust가 outlier만 부분 허용하고 나머지 추정 구조 보존.
10 Ch.17 심화편 예고
Ch.17은 분량상 심화편을 2편 으로 분할 예정.
| 심화편 | 범위 | 주제 |
|---|---|---|
| 03-17-1 | § 17.1~17.3 | Aspects·Overdispersed models·식 (17.1) scale mixture·Gibbs·importance resampling 심화 |
| 03-17-2 | § 17.4~17.7 | 8 schools 재방문·\(t\) 오차 회귀·문헌·연습 + Ch.17 결산 |
11 Ch.17 실전 체크리스트
Robust 필요성 진단
- Posterior predictive check 에서 tail 불일치 (관측이 모형 tail보다 극단) 발견?
- 모형을 여러 번 fit 할 때 이상치에 따른 큰 변화?
- 이상치를 제거하면 결론이 크게 달라짐?
위 셋 중 하나면 robust 고려.
분포 선택
- 연속 \(y\) → \(t_\nu\).
- Count \(y\) → Negative binomial.
- Binomial \(y\) → Beta-binomial.
- Binary \(y\) (분리 위험) → Robit.
\(\nu\) 선택
- 자유도 고정: \(\nu = 4\) (기본), \(7\) (moderate), \(1\) (Cauchy, 극단).
- 자유도 추정: \(J\) 또는 \(n\) 이 충분히 크면 가능 (보통 > 50).
- Sensitivity: 여러 \(\nu\) 로 결과 비교.
계산
- Scale mixture parameterization 사용 (\(V_i\) auxiliary).
- Gibbs sampler: 정규/Gamma/Beta 단계 교대.
- HMC 에서는 non-centered + \(t\) prior 직접 사용 가능.
- Importance resampling 으로 sensitivity analysis 효율화.
검증
- \(V_i\) posterior 추출 — outlier 관측이 큰 \(V_i\) 갖는지 확인.
- 관측별 weight \(1/V_i\) 시각화.
- Posterior predictive check 로 tail fit 재검증.
해석
- “Outlier를 제거했다” 가 아니라 “heavy-tail 모형에서 자연스러운 관측” 로 해석.
- 민감도 분석 결과를 결론에 포함 (어떤 범위의 \(\nu\) 에서 결론이 안정한가).
- Robust inference가 원 결론과 유사하면 원 가정의 강건성 의 positive 증거.
12 관련 주제
선행 지식
- Part IV Overview
- Ch.14 Regression Models
- Ch.15 Hierarchical Linear Models
- Ch.16 Generalized Linear Models
- Ch.5 — 8 Schools
- Ch.12 § 12.1 — Parameter Expansion, Scale Mixture
- Ch.6 — Model Checking (Sensitivity)
후속 주제 (Ch.17 심화편)
- § 17.1~17.3 — Aspects·Overdispersed·Computation (예정)
- § 17.4~17.7 — 8 Schools·Robust Regression·연습 (예정)
후속 주제 (Part IV 다른 장)
- Ch.18 Missing Data — multiple imputation, loglinear imputation
관련 개념 (cross-category)
13 참고문헌
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.17. CRC Press.
- Liu, C. (2004). Robit Regression: A Simple Robust Alternative to Logistic and Probit Regression. In Applied Bayesian Modeling and Causal Inference.
- Lange, K. L., Little, R. J. A., & Taylor, J. M. G. (1989). Robust Statistical Modeling Using the t Distribution. JASA, 84, 881-896.
- West, M. (1984). Outlier Models and Prior Distributions in Bayesian Linear Regression. JRSS B, 46, 431-439.
- Pettitt, A. N., & Smith, A. F. M. (1985). Outliers and Influential Observations in Linear Models. In Bayesian Statistics 2.
- Albert, J. H., & Chib, S. (1993). Bayesian Analysis of Binary and Polychotomous Response Data. JASA, 88, 669-679.
- Mosteller, F., & Wallace, D. L. (1964). Inference and Disputed Authorship: The Federalist. Addison-Wesley.