Kwangmin Kim - Part IV: Regression Models — 선형에서 결측까지, 베이즈 회귀의 전 지형

1 Part I~III 과의 연결 — Part IV 의 위치

Part I 은 베이즈 언어, Part II 는 모델 사이클, Part III 은 계산 엔진을 다뤘다. Part IV 는 이 세 층 위에서 “실무에서 가장 자주 쓰는 모델 — 회귀” 의 베이즈 버전 을 조립한다.

Part IV 의 한 줄 요약

“회귀는 베이즈 모델링의 관문이다. 선형 → 계층 → GLM → 강건 → 결측 까지의 확장은 Part I 의 언어로 모델을 쓰고, Part III 의 엔진으로 돌리는 과정의 연습이다.”

선형 회귀 하나를 베이즈로 이해하면 계층적 혼합 모형·GLM·결측 대체까지 같은 문법의 변주 라는 것이 보인다 (Gelman et al., 2013, Ch.14~18).

Part IV 의 구성은 다음과 같다.

장	핵심 질문	한 줄 역할
Ch.14	선형 회귀를 베이즈로 어떻게 쓰는가	정규 선형 회귀·비정보적 사전·QR 분해
Ch.15	다수준 데이터를 어떻게 공유하는가	varying intercept/slope·ANOVA·shrinkage
Ch.16	비정규 반응변수를 어떻게 다루는가	로지스틱·포아송·과분산·MRP·잠재 변수 해석
Ch.17	이상치에 어떻게 강건해지는가	t 분포 혼합·robit·8 schools 재방문
Ch.18	결측이 있으면 어떻게 추론하는가	다중 대체·MAR·MCAR·data augmentation

각 장을 왜 필요한가 → 모델 수식 → 직관 → 계산 · 실무 연결 순서로 정리한다. 상세 구현과 예제는 후속 포스트에서 다룬다.

2 Ch.14 Introduction to Regression Models — “빈도주의 OLS 와 베이즈 회귀가 만나는 지점”

2.1 모델 설정

정규 선형 회귀 모델.

\[ y \mid \beta, \sigma^2, X \sim N(X\beta, \sigma^2 I_n) \]

\(y \in \mathbb{R}^n\), \(X \in \mathbb{R}^{n \times k}\), \(\beta \in \mathbb{R}^k\), \(\sigma^2 > 0\). 표준 비정보적 사전분포는

\[ p(\beta, \sigma^2 \mid X) \propto \sigma^{-2} \]

\(\sigma^{-2}\) 는 \(\log \sigma^2\) 에 대한 균등 분포에 해당 — scale 파라미터의 관례적 무지 표현이다.

2.2 사후분포 (켤레 구조 덕분에 닫힌 형태)

조건부 및 주변 사후분포가 해석적으로 풀린다.

\[ \beta \mid \sigma^2, y \sim N(\hat{\beta}, V_{\beta} \sigma^2), \quad \sigma^2 \mid y \sim \text{Inv-}\chi^2(n - k, \ s^2) \]

여기서 \[ \hat{\beta} = (X^\top X)^{-1} X^\top y, \quad V_{\beta} = (X^\top X)^{-1}, \quad s^2 = \frac{1}{n-k} (y - X\hat{\beta})^\top (y - X\hat{\beta}) \]

직관 — 비정보적 사전 하에서 베이즈는 OLS 와 “같은 답” 을 준다

\(\beta\) 의 최소제곱 추정량 \(\hat{\beta}\) 가 사후 평균·최빈값과 일치하고, \(\sigma^2\) 의 주변 사후 분포가 빈도주의 카이제곱 분포와 동형이다. 차이는 해석 — 빈도주의는 “추정량의 표본 분포”, 베이즈는 “모수의 사후 분포”. 같은 숫자를 다른 문장으로 읽는다.

2.3 사후 예측 분포

새 관측 \(\tilde{y} \mid \tilde{X}\) 의 예측 분포.

\[ \tilde{y} \mid y \sim t_{n-k}\!\left(\tilde{X}\hat{\beta}, \ s^2 (I + \tilde{X} V_{\beta} \tilde{X}^\top)\right) \]

두 원천의 불확실성이 합쳐진다 — \(s^2 I\) 는 표본 변동, \(s^2 \tilde{X} V_{\beta} \tilde{X}^\top\) 는 파라미터 불확실성. 빈도주의 예측 구간은 후자 부분의 해석이 모호하지만, 베이즈 예측 구간은 “새 관측의 사후 확률” 로 자연스럽게 정의된다.

2.4 정규화는 곧 사전분포다

Ridge 와 LASSO 가 베이즈 관점에서 재해석된다.

\[ \text{Ridge}: \beta_j \sim N(0, \tau^2) \quad \Longleftrightarrow \quad \hat{\beta}_{\text{ridge}} = \arg\min_{\beta} \|y - X\beta\|^2 + \lambda \|\beta\|^2 \]

\[ \text{LASSO}: \beta_j \sim \text{Laplace}(0, b) \quad \Longleftrightarrow \quad \hat{\beta}_{\text{LASSO}} = \arg\min_{\beta} \|y - X\beta\|^2 + \lambda \|\beta\|_1 \]

Laplace 의 첨도가 \(\beta_j = 0\) 주변에 밀도를 집중시키기 때문에 LASSO 가 희소성을 만든다. “정규화 강도” = “사전 정보의 양” 이 정확히 같은 양이라는 점이 베이즈 관점에서 가장 명확하다.

2.5 계산

\(k\) 가 수백 이상이면 \(X^\top X\) 의 역계산이 수치적으로 불안정하다. QR 분해 \(X = QR\) 을 써서 \(\hat{\beta} = R^{-1} Q^\top y\) 로 계산하는 것이 표준이다. \(R\) 이 상삼각이라 역치환으로 풀린다.

비정보적 사전 하에서는 사후 시뮬레이션이 Part III 의 Gibbs · MH · HMC 없이도 가능하지만, 정보적 사전 이나 비정규 오차 (Ch.17) 로 확장되는 순간 MCMC 가 필요해진다.

3 Ch.15 Hierarchical Linear Models — “부분 풀링의 예술”

3.1 왜 계층 모형인가

데이터가 그룹 구조를 가질 때 — 학교별 학생 점수, 병원별 환자 결과, 주(state) 별 투표율 — 두 극단적 선택이 문제를 일으킨다.

선택	문제
완전 풀링 (pooling): 모든 그룹이 동일 모수	그룹 간 차이 정보 손실
풀링 없음 (no pooling): 그룹별 완전 독립	표본이 적은 그룹이 극단적 추정값

부분 풀링 (partial pooling) 은 두 극단 사이를 데이터 기반으로 최적 혼합한다. Part I Ch.5 의 8 schools 가 원형이다.

3.2 기본 모델 — varying intercept

\[ y_{ij} \mid \alpha_j, \beta, \sigma^2 \sim N(\alpha_j + X_{ij}\beta, \ \sigma^2), \quad \alpha_j \mid \mu_\alpha, \tau^2 \sim N(\mu_\alpha, \tau^2) \]

\(j\) 는 그룹 인덱스, \(i\) 는 그룹 내 관측. \(\alpha_j\) (그룹별 절편) 는 \(\mu_\alpha\) 중심의 정규 분포 로 묶여 있다. 이 층이 그룹 간 정보 공유를 만든다.

직관 — 부분 풀링은 “이웃 그룹의 목소리도 듣는” 추정이다

표본이 적은 그룹의 추정값은 전체 평균 \(\mu_\alpha\) 쪽으로 수축 된다. 수축의 크기는 그룹 내 분산 \(\sigma^2\) 과 그룹 간 분산 \(\tau^2\) 의 비율로 자동 결정된다. \(\tau^2 \to 0\) 이면 완전 풀링(모두 \(\mu_\alpha\)), \(\tau^2 \to \infty\) 이면 풀링 없음(독립 추정). 베이즈는 이 균형점을 데이터가 스스로 말하게 한다 — 분석가가 풀링 강도를 임의로 고르지 않는다.

3.3 Varying slope · 2차 수준 회귀

기울기도 그룹별로 변하게 확장.

\[ \beta_j \mid \mu_\beta, \Sigma_\beta \sim N(\mu_\beta, \Sigma_\beta) \]

더 일반적으로 그룹 수준 설명변수 \(Z_j\) 가 있으면 2차 수준 회귀로 모델링.

\[ \beta_j \mid \alpha, \Sigma_\beta \sim N(Z_j \alpha, \Sigma_\beta) \]

그룹 수준에서의 변동을 그룹 수준 변수로 설명 — 학교별 평균 점수의 차이를 학교 위치·예산으로 설명하는 식.

3.4 ANOVA 는 특수 사례

\(X\) 가 그룹 지시 변수로만 구성되면 계층 회귀 ≡ ANOVA. Gelman 은 ANOVA 를 계층적 회귀의 관점에서 재해석하는 것이 해석력·확장성에서 우월 하다고 주장한다. 분산 성분 \(\sigma_\alpha^2, \sigma_\beta^2, \ldots\) 가 데이터 계층의 변동 예산 이 된다.

3.5 구현 — 재매개변수화가 핵심

Part III Ch.12 의 비중심 매개변수화 \(\alpha_j = \mu_\alpha + \tau \eta_j\) (\(\eta_j \sim N(0,1)\)) 는 \(\tau\) 가 작을 때 funnel 지형을 해소한다. Stan/PyMC 에서 계층 모형을 쓸 때 거의 항상 이 재매개변수화가 기본이다.

종단 데이터의 혼합 효과 모형 이 빈도주의 관점의 같은 구조를 다룬다 — 빈도주의 “혼합 효과” = 베이즈 “계층 선형 모형” 이 같은 수식의 두 이름이다.

4 Ch.16 Generalized Linear Models — “선형의 제약에서 벗어나기”

4.1 GLM 세 요소

GLM 이론 기초 에서 다루는 McCullagh & Nelder 의 프레임워크를 베이즈 관점에서 재조립.

선형 예측자: \(\eta = X\beta\)
링크 함수: \(g(E[y \mid X]) = \eta\)
반응 분포: 지수족 \(p(y \mid \theta)\)

베이즈는 여기에 계층 + 사전분포 + MCMC 의 세 요소를 더한다.

4.2 대표 사례

로지스틱 회귀. \(y_i \mid p_i \sim \text{Bernoulli}(p_i), \ \text{logit}(p_i) = X_i \beta\). 약정보적 사전 \(\beta_j \sim \text{Cauchy}(0, 2.5)\) 가 표준 (Gelman, 2008). 완전 분리 (complete separation) — 데이터가 한 클래스를 완벽히 나누는 경우 MLE 가 발산하지만, Cauchy 사전이 계수를 유한한 범위로 끌어당긴다.

포아송 회귀. \(y_i \mid \lambda_i \sim \text{Poisson}(\lambda_i), \ \log \lambda_i = X_i \beta\). 과분산 (분산 > 평균) 이 흔하므로 개별 관측에 정규 오차를 추가한 과분산 포아송 으로 확장한다.

\[ y_i \mid \lambda_i \sim \text{Poisson}(\lambda_i), \quad \log \lambda_i = X_i \beta + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma^2) \]

\(\epsilon_i\) 를 적분 소거하면 음이항 분포 와 유사한 marginal 이 나온다 (음이항과 과분산).

직관 — 베이즈 GLM 은 “선형 회귀 + 계층 오차” 의 리듬

빈도주의 GLM 은 IRLS (iteratively reweighted least squares) 로 푼다. 베이즈는 IRLS 단계에 의사 데이터 근사 를 도입하여 정규 선형 회귀로 변환한 뒤 Gibbs 를 돌린다. 핵심 공식 — GLM 의 사후분포도 “정규 사후분포 한 장” 으로 근사할 수 있다는 사실 (Ch.16 에서 유도).

4.3 잠재 변수 해석

프로빗 회귀는 잠재 연속 변수 의 이산화로 해석 가능하다.

\[ y_i = \mathbb{1}[z_i > 0], \quad z_i \sim N(X_i \beta, 1) \]

이 잠재 표현이 Gibbs 표본추출을 크게 단순화 — \(z_i\) 와 \(\beta\) 를 교대로 뽑으면 두 단계 모두 정규 분포다 (Albert & Chib, 1993). 프로빗이 베이즈 관점에서 로지스틱보다 계산이 단순 한 이유다.

4.4 순서형 · 다항 · 로그선형

순서형 회귀는 절단점 모델 \(c_0 < c_1 < \cdots < c_K\) 과 잠재 변수 해석으로 처리. 다항 로짓 · 프로빗은 대응되는 다변량 잠재 변수 구조로 확장. 로그선형 모델 은 분할표의 다변량 범주형 데이터를 포아송 회귀로 환산 — 반복 비례 적합법 (IPF) 으로 최빈값 계산.

4.5 MRP — 여론조사의 사후층화

Multilevel Regression with Poststratification (MRP) 는 Ch.16 의 압권. 비대표성 표본(예: 온라인 여론조사) 을 계층적 로지스틱 회귀로 모델링한 뒤, 사후 분포를 인구 구성 비율로 가중 평균 하여 모집단 수준 추정을 만든다. 2016 년 미국 대선 이후 정치 통계학의 표준 도구가 되었다.

5 Ch.17 Models for Robust Inference — “이상치에 둔감한 베이즈”

5.1 정규 모델의 취약성

8 schools 에서 한 학교의 관측값이 극단이면 정규 모집단 모델의 \(\mu, \tau\) 추정이 모두 편향된다. Part I Ch.5 의 예시에서 확장 — Ch.17 은 이 문제를 긴 꼬리 분포 로 해결한다.

5.2 t 분포 혼합 표현

\(t_\nu\) 분포는 정규의 분산 혼합 으로 쓸 수 있다.

\[ y_i \mid V_i \sim N(\mu, V_i), \quad V_i \sim \text{Inv-}\chi^2(\nu, \sigma^2) \]

\(V_i\) 를 적분 소거하면 \(y_i \mid \mu, \sigma^2, \nu \sim t_\nu(\mu, \sigma^2)\). 관측별 분산 \(V_i\) 의 확률 모형 이라는 관점이 직관적이다 — 큰 \(V_i\) 를 가진 관측이 이상치로 분류된다.

직관 — robust 는 “이상치를 제거” 하는 게 아니라 “이상치를 설명하는 모형” 이다

빈도주의 robust 는 M-추정량·Huber loss 처럼 손실함수를 수정한다. 베이즈는 오차 분포를 바꾼다. 차이가 중요한 이유는 — 베이즈에서는 이상치의 불확실성이 \(V_i\) 의 사후 분포로 명시되고, 이후 모든 추론이 일관되게 전파된다. “이상치를 빼고 분석” 이 아니라 “이상치도 모델의 일부” 로 다룬다.

5.3 Gibbs 구현

혼합 표현 덕분에 Gibbs 가 단순하다. \(V_i\) 를 샘플하면 \(y_i \mid V_i \sim N\) 이 되어 조건부가 정규-역카이제곱 켤레로 들어간다.

5.4 Robit 회귀

로지스틱·프로빗의 강건 대안. 잠재 변수 \(u_i \sim t_\nu(X_i \beta, 1)\) 로 이산화. 꼬리가 긴 \(t\) 가 극단 관측의 영향을 제한한다.

5.5 \(\nu\) 의 민감도 분석

자유도 \(\nu\) 를 고정하지 않고 사전분포를 부여하거나, 여러 \(\nu\) 값에서 추론이 어떻게 변하는지 확인하는 민감도 분석 이 권장된다. \(\nu = \infty\) 이면 정규, \(\nu = 1\) 이면 Cauchy. 데이터가 어느 쪽을 선호하는지를 사후가 말해준다.

5.6 중요도 가중치로의 효율화

정규 모델로 이미 MCMC 를 돌렸다면, 중요도 가중치 \(w_i = p_t(y_i) / p_{\text{normal}}(y_i)\) 로 기존 표본을 재사용해 robust 사후를 근사할 수 있다. 전면 재샘플링의 비용을 줄이는 실무 트릭.

6 Ch.18 Models for Missing Data — “있을 수도 있었던 값을 확률로 채운다”

6.1 결측의 세 유형

MCAR (Missing Completely At Random) — 결측 확률이 \(y\) 에 무관. MAR (Missing At Random) — 결측 확률이 관측된 \(y_{\text{obs}}\) 에는 의존, 결측된 \(y_{\text{mis}}\) 에는 무관. MNAR (Missing Not At Random) — 결측 확률이 결측값 자체에 의존.

\[ p(I \mid y, \phi) = p(I \mid y_{\text{obs}}, y_{\text{mis}}, \phi) \]

MAR ⟺ \(p(I \mid y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I \mid y_{\text{obs}}, \phi)\). MAR + 파라미터 구별성 이 만족되면 결측 메커니즘은 무시가능 (ignorable) 하다 — Part II Ch.8 의 핵심 개념과 직결된다.

6.2 다중 대체 (Multiple Imputation, MI)

결측값을 1 개로 대체하면 대체 불확실성이 사라진다. 다중 대체 는 결측값의 \(K\) 개 표본 \((y_{\text{mis}}^{(1)}, \ldots, y_{\text{mis}}^{(K)})\) 를 생성하여 각각에 대해 분석을 수행한 뒤 결합한다.

\[ T = \bar{W} + \left(1 + \frac{1}{K}\right) B \]

\(\bar{W}\): 대체 내 분산 (within-imputation)
\(B\): 대체 간 분산 (between-imputation)

직관 — 다중 대체는 “결측 때문에 얼마나 덜 확신해야 하는지” 를 정량화한다

단일 대체의 문제는 “실제로 뭐였을지 모름” 이라는 불확실성을 숨긴다는 점이다. 다중 대체의 \(K\) 개 시나리오는 “결측이 어느 쪽일 수도, 다른 쪽일 수도” 라는 대안 현실을 그려주고, 그 분산을 추론에 합산한다. 모르는 것에 비례해 신뢰 구간이 넓어진다 — 정직한 추론이다.

6.3 데이터 증대 (Data Augmentation, DA)

베이즈 관점에서 결측값 \(y_{\text{mis}}\) 는 잠재 파라미터 다. Gibbs 로 교대 추출.

I-step: \(y_{\text{mis}} \mid y_{\text{obs}}, \theta \sim p(y_{\text{mis}} \mid y_{\text{obs}}, \theta)\) — 조건부 대체
P-step: \(\theta \mid y_{\text{obs}}, y_{\text{mis}} \sim p(\theta \mid y_{\text{complete}})\) — 완전 데이터 사후

이 구조는 EM 알고리즘 의 베이즈 버전이다 — E-step 을 대체 추출로, M-step 을 사후 추출로 바꾼 것.

6.4 다변량 정규 모델에서의 결측

\(y_i = (y_{i,\text{obs}}, y_{i,\text{mis}})\) 이고 다변량 정규 \(y_i \sim N(\mu, \Sigma)\) 라면, 조건부 대체 분포가 닫힌 형태.

\[ y_{i,\text{mis}} \mid y_{i,\text{obs}}, \mu, \Sigma \sim N(\mu_{\text{mis}} + \Sigma_{\text{mis,obs}} \Sigma_{\text{obs}}^{-1}(y_{i,\text{obs}} - \mu_{\text{obs}}), \ \Sigma_{\text{mis}} - \Sigma_{\text{mis,obs}} \Sigma_{\text{obs}}^{-1} \Sigma_{\text{obs,mis}}) \]

Gibbs 가 매 반복마다 이 분포에서 추출하는 것으로 DA 가 자동 실행된다.

6.5 Monotone 패턴과 시계열

결측 패턴이 monotone 하면 (한 번 결측이면 이후 모두 결측) 순차적 회귀로 계산이 단순화된다. 여론조사 시계열 · 패널 데이터에서 흔한 구조.

7 Part V 미리보기 — 비선형 · 비모수 · 혼합

Part V 는 Ch.19~23 에서 비선형 회귀 (serial dilution, 약동학), 기저 함수 스플라인, Gaussian Process, 혼합 모형, Dirichlet Process 를 다룬다. Part IV 의 파라미터 회귀 프레임에서 함수 자체가 사전분포의 대상이 되는 비모수 베이즈 로의 확장이다.

8 빈도주의 대응과의 매핑

Part IV 장	빈도주의 대응	차이점
Ch.14 선형	OLS · Ridge · LASSO	정규화가 사전으로 해석됨, 예측 분포가 자연스러움
Ch.15 계층	Mixed Model (lme4)	분산 성분 추정이 더 안정적, shrinkage 가 자동
Ch.16 GLM	glm · statsmodels	약정보적 사전이 완전 분리 문제 해결
Ch.17 Robust	M-estimators · Huber	이상치 불확실성이 사후로 전파
Ch.18 결측	EM · MICE	다중 대체의 분산 합이 자연스럽게 도출

도구 매핑 — GLM 시리즈 는 McCullagh & Nelder 의 빈도주의 프레임워크, Part IV 는 같은 문제를 Gelman 의 베이즈 프레임워크로 푸는 것. 교차 학습이 양쪽 이해를 깊게 한다.

9 코드 예제 — 계층적 선형 회귀 (Ch.15, 8 schools 유형)

그룹별 절편이 공통 분포에서 추출되는 전형적 구조. Part III 의 HMC 엔진으로 계산한다.

9.1 Step 1: 순수 Python — 데이터 생성 + 완전/부분 풀링 비교

import math
import random
import statistics

random.seed(42)

J = 8
true_mu = 10.0
true_tau = 4.0
true_alpha = [random.gauss(true_mu, true_tau) for _ in range(J)]
n_j = [random.randint(5, 15) for _ in range(J)]

y = []
group = []
for j in range(J):
    for _ in range(n_j[j]):
        y.append(random.gauss(true_alpha[j], 2.0))
        group.append(j)

# 풀링 없음 — 그룹별 독립 추정
alpha_no_pool = []
for j in range(J):
    yj = [y[i] for i in range(len(y)) if group[i] == j]
    alpha_no_pool.append(statistics.mean(yj))

# 완전 풀링 — 모두 동일 추정
alpha_full_pool = statistics.mean(y)

# 부분 풀링 — EB 스타일: alpha_j_hat = (n_j * alpha_no_pool_j / sigma^2 + mu / tau^2) / (n_j / sigma^2 + 1 / tau^2)
sigma2 = 4.0
mu_hat = alpha_full_pool
tau2 = statistics.variance(alpha_no_pool)
alpha_partial_pool = []
for j in range(J):
    precision_data = n_j[j] / sigma2
    precision_prior = 1.0 / tau2
    alpha_hat = (precision_data * alpha_no_pool[j] + precision_prior * mu_hat) / (precision_data + precision_prior)
    alpha_partial_pool.append(alpha_hat)

print("True alpha:      ", [f"{a:.2f}" for a in true_alpha])
print("No pool:         ", [f"{a:.2f}" for a in alpha_no_pool])
print("Full pool:       ", [f"{alpha_full_pool:.2f}"] * J)
print("Partial pool:    ", [f"{a:.2f}" for a in alpha_partial_pool])

부분 풀링 추정값이 no-pool 과 full-pool 사이에 위치하는 것이 확인된다. 표본이 적은 그룹일수록 전체 평균 쪽으로 더 많이 수축된다 — shrinkage 의 가시적 확인.

9.2 Step 2: PyMC — HMC 로 완전 베이즈 추론

import numpy as np
import pymc as pm

J = 8
n_j = np.array(n_j)
y_np = np.array(y)
group_np = np.array(group)

with pm.Model() as hierarchical:
    mu = pm.Normal("mu", mu=0.0, sigma=10.0)
    tau = pm.HalfCauchy("tau", beta=5.0)
    eta = pm.Normal("eta", mu=0.0, sigma=1.0, shape=J)  # 비중심 재매개변수화
    alpha = pm.Deterministic("alpha", mu + tau * eta)
    sigma = pm.HalfCauchy("sigma", beta=5.0)
    obs = pm.Normal("obs", mu=alpha[group_np], sigma=sigma, observed=y_np)
    trace = pm.sample(2000, tune=1000, chains=4, target_accept=0.95, random_seed=42)

print(pm.summary(trace, var_names=["mu", "tau", "sigma", "alpha"]))

summary 의 r_hat ≈ 1.00, ess_bulk 가 수천 단위면 수렴 건강. eta 재매개변수화를 생략하면 \(\tau\) 가 작을 때 funnel 이 만들어져 divergences 가 쏟아진다 — Part III Ch.12 의 비중심 매개변수화가 실전에서 왜 필수인지 확인하는 체크포인트다.

10 관련 주제

베이즈 시리즈

Part I: Fundamentals of Bayesian Inference — Gelman BDA Ch.1~5
Part II: Fundamentals of Bayesian Data Analysis — Gelman BDA Ch.6~9
Part III: Advanced Computation — Gelman BDA Ch.10~13
Part V: Nonlinear and Nonparametric Models — Gelman BDA Ch.19~23 (작성 예정)

빈도주의 대응 (GLM 시리즈 — McCullagh & Nelder)

GLM 이론 기초 — 선형 예측자·링크·분포
이항 자료 모델 — 로지스틱·프로빗의 빈도주의 관점
Quasi-likelihood — 과분산 대응 빈도주의 전략
혼합 효과 연속형 모형 — 계층 회귀의 빈도주의 버전

계산 · 기초

EM 알고리즘 — Ch.18 의 데이터 증대가 EM 의 베이즈 확장
Monte Carlo Simulation · 확률 표본의 생성 — Part III 기초
베이즈 구간 · 베이즈 검정 — Part IV 사후분포의 요약 도구

후속 주제 (Chapter detail)

Ch.14 Introduction to Regression Models — 정규 선형 회귀 상세 유도
Ch.15 Hierarchical Linear Models — 8 schools · 주별 투표 예측
Ch.16 Generalized Linear Models — 로지스틱·포아송·MRP
Ch.17 Models for Robust Inference — t 분포 혼합·robit
Ch.18 Models for Missing Data — 다중 대체·MAR·DA 알고리즘

11 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Part IV (Ch.14~18).
Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge University Press.
Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y.-S. (2008). A weakly informative default prior distribution for logistic and other regression models. Annals of Applied Statistics, 2(4), 1360–1383.
Albert, J. H., & Chib, S. (1993). Bayesian analysis of binary and polychotomous response data. Journal of the American Statistical Association, 88(422), 669–679.
Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. Wiley.
Little, R. J. A., & Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd ed.). Wiley.