1 개요 — Ch.14 심화 시리즈의 마지막 편
Ch.14 심화 시리즈의 구성:
- 03-14-0 — Ch.14 Overview (전 10절 조망)
- 03-14-1 — § 14.1~14.3 (Conditional modeling + Classical regression + Incumbency causal)
- 03-14-2 — § 14.4~14.6 (Goals + X matrix + Regularization)
- 03-14-3 (본편) — § 14.7~14.10 (Unequal variances + Prior info + 문헌 + 연습)
지금까지 § 14.1~14.6 은 등분산·독립 오차 (\(\Sigma_y = \sigma^2 I\)) 와 noninformative prior 또는 regularization prior 조합을 다뤘다. 이 편에서는 두 가정을 모두 일반화한다.
- § 14.7 — 분산이 관측치마다 다르거나 서로 상관되면? GLS의 베이즈 유도와 parametric variance 모형.
- § 14.8 — 계수에 선행 지식이 있으면? “prior를 추가 데이터 점으로 코딩” 이라는 Gelman의 우아한 트릭.
- § 14.9 — Ch.14의 문헌 지도.
- § 14.10 — 연습문제 풀이 (OLS 유도 검증·prior data 트릭 증명·LASSO 1D 등).
마지막에 Ch.14 심화 시리즈 4편 결산을 배치하여 Part IV의 첫 장을 닫는다.
§ 14.7과 § 14.8은 모두 “이미 알고 있는 베이즈 선형 회귀 기계에 새 정보를 얹는 문제” 다.
- § 14.7: 분산 구조에 대한 추가 가정 → Cholesky 변환으로 등분산 문제로 환원.
- § 14.8: 모수에 대한 선행 지식 → 가상 데이터 점으로 코딩하여 가중 회귀로 환원.
두 경우 모두 Gelman의 전략은 “문제를 이미 풀어본 형태로 변환”. 이것이 베이즈 선형 모형 설계의 일관된 철학이다.
2 § 14.7 Unequal Variances and Correlations
2.1 일반 모형 — 식 (14.11)
표준 OLS 가정 중 등분산·독립 을 완화한다.
\[ y \sim N(X\beta, \Sigma_y) \quad \text{(14.11)} \]
\(\Sigma_y\) 는 \(n \times n\) symmetric positive definite. 이제 \(\sigma^2 I\) 대신 일반 공분산 행렬이다.
실무 동기:
| 상황 | \(\Sigma_y\) 구조 |
|---|---|
| 병원별 평균 (\(n_i\) 환자의 평균) | 대각, \(\Sigma_{ii} \propto 1/n_i\) |
| 시계열 데이터 | AR(1): \(\Sigma_{ij} = \sigma^2 \rho^{|i-j|}\) |
| 공간 데이터 | 거리 기반 covariance kernel |
| 가족 구성원 키 | 블록 대각 (가족 단위) |
| 두 기술자가 측정 | 기술자별 다른 분산 |
2.2 \(\Sigma_y\) Known 경우 — Cholesky 변환
03-14-1의 복습 + 완전 유도.
\(\Sigma_y = L L^T\) (Cholesky, \(L\) 상삼각). 양변에 \(L^{-1}\) 곱:
\[ L^{-1} y = L^{-1} X \beta + L^{-1} \epsilon, \quad L^{-1} \epsilon \sim N(0, I) \]
이는 변환된 ordinary linear regression. \(y^* = L^{-1} y\), \(X^* = L^{-1} X\) 에 § 14.2 결과를 적용.
GLS 추정량:
\[ \hat{\beta} = (X^{*T} X^*)^{-1} X^{*T} y^* = (X^T L^{-T} L^{-1} X)^{-1} X^T L^{-T} L^{-1} y = (X^T \Sigma_y^{-1} X)^{-1} X^T \Sigma_y^{-1} y \quad \text{(14.12)} \]
\[ V_\beta = (X^T \Sigma_y^{-1} X)^{-1} \quad \text{(14.13)} \]
\(\Sigma_y = I\) 이면 OLS 복원. GLS = weighted OLS with weight \(\Sigma_y^{-1}\).
Gauss-Markov 정리의 GLS 버전: “오차 공분산이 \(\Sigma_y\) 인 선형 모형에서 best linear unbiased estimator (BLUE) 는 \(\hat{\beta}_{\text{GLS}}\).” 즉 \(\Sigma_y^{-1}\) 을 제외한 다른 가중치를 쓰면 분산이 더 커진다.
기하학적 의미: 분산이 큰 관측치는 “noisy”하므로 정보 가치가 낮다 → 가중치를 줄인다. \(\Sigma_y^{-1}\) 의 대각 성분이 작은 행이 “덜 중요한” 관측.
상관 구조도 마찬가지. 상관된 관측치는 독립 관측치 \(n\) 개보다 적은 정보를 가진다 (“effective sample size” 가 \(n\) 보다 작음). \(\Sigma_y^{-1}\) 이 이 정보 손실을 정확히 보정한다.
2.3 Unknown \(\Sigma_y\) — 일반 논의
\(\Sigma_y\) 가 unknown이면 문제가 훨씬 복잡해진다. Uniform prior \(p(\beta | \Sigma_y) \propto 1\) 가정 시 \(\Sigma_y\) 의 주변 사후:
\[ p(\Sigma_y | y) \propto p(\Sigma_y) \cdot \frac{N(y | X\beta, \Sigma_y)}{N(\beta | \hat{\beta}, V_\beta)} \quad \text{(14.14)} \]
\(\beta = \hat{\beta}\) 를 대입하면 (LHS는 \(\beta\) 무관이므로 임의의 \(\beta\) 에서 평가 가능):
\[ p(\Sigma_y | y) \propto p(\Sigma_y) \cdot |\Sigma_y|^{-1/2} |V_\beta|^{1/2} \exp\left( -\frac{1}{2} (y - X\hat{\beta})^T \Sigma_y^{-1} (y - X\hat{\beta}) \right) \quad \text{(14.15)} \]
어려움: \(\hat{\beta}\) 와 \(V_\beta\) 자체가 \(\Sigma_y\) 에 의존. 또 \(\Sigma_y\) 의 prior를 일반 \(n \times n\) 공분산 행렬로 설정하는 것이 실무적으로 어렵다 (예: Inverse-Wishart의 scale matrix 선택).
실용적 접근: \(\Sigma_y\) 를 저차원 모수화. 아래 특수 경우들이 대표적.
2.4 특수 경우 1: 스칼라 팩터만 Unknown — 식 (14.16)~(14.19)
\[ \Sigma_y = Q_y \sigma^2 \quad \text{(14.16)} \]
\(Q_y\) (구조) 는 알려져 있고 \(\sigma^2\) (스케일) 만 unknown. 이는 “분산 비율은 아는데 절대 크기는 모른다” 상황.
예:
- 각 관측이 \(n_i\) 개 개별 관측의 평균이면 \(Q_{ii} = 1/n_i\).
- 시계열에서 \(\rho\) 가 알려져 있고 \(\sigma^2\) 만 unknown.
Noninformative prior \(p(\beta, \sigma^2) \propto \sigma^{-2}\) 에서 \(y \to Q_y^{-1/2} y\), \(X \to Q_y^{-1/2} X\) 변환하면 § 14.2의 결과를 그대로 적용:
\[ \hat{\beta} = (X^T Q_y^{-1} X)^{-1} X^T Q_y^{-1} y \quad \text{(14.17)} \]
\[ V_\beta = (X^T Q_y^{-1} X)^{-1} \quad \text{(14.18)} \]
\[ s^2 = \frac{1}{n-k} (y - X\hat{\beta})^T Q_y^{-1} (y - X\hat{\beta}) \quad \text{(14.19)} \]
사후 분포:
\[ \beta | \sigma^2, y \sim N(\hat{\beta}, V_\beta \sigma^2), \quad \sigma^2 | y \sim \text{Inv-}\chi^2(n-k, s^2) \]
즉 GLS + σ² 주변화가 그대로 이어짐.
2.5 특수 경우 2: Weighted Linear Regression
\(Q_y\) 가 대각이면 (상관 없음, 불등 분산만):
\[ \Sigma_{ii} = \sigma^2 / w_i, \quad Q_y^{-1} = \text{diag}(w_1, \dots, w_n) \]
\(w_i\) 는 “가중치”. \(w_i\) 가 크면 해당 관측이 정밀 → 회귀에서 더 영향.
직관적 전형:
- \(y_i\) 가 \(m_i\) 개 측정의 평균 → \(\Sigma_{ii} = \sigma^2 / m_i\) → \(w_i = m_i\).
- “더 많이 측정한 관측치일수록 높은 신뢰도로 회귀에 반영.”
이 경우 (14.17)은
\[ \hat{\beta} = (X^T W X)^{-1} X^T W y, \quad W = \text{diag}(w_1, \dots, w_n) \]
= Weighted Least Squares (WLS).
2.6 특수 경우 3: Parametric Variance — 식 (14.20)(14.21)
\(Q_y\) 가 알려져 있지 않지만 저차원 모수 \(\phi\) 로 표현 가능:
\[ \Sigma_{ii} = \sigma^2 \, v(w_i, \phi) \quad \text{(14.20)} \]
전형적 선택:
- \(v(w_i, \phi) = w_i^{-\phi}\): \(\phi = 0\) 이면 등분산, \(\phi = 1\) 이면 WLS, 연속 보간.
- \(v(w_i, \phi) = (1-\phi) + \phi/w_i\): 선형 보간 버전.
Prior: \(\phi \sim U[0, 1]\) (비정보).
사후:
\[ p(\beta, \sigma^2, \phi | y) \propto p(\phi) p(\beta, \sigma^2 | \phi) \prod_{i=1}^n N(y_i | X_i \beta, \sigma^2 v(w_i, \phi)) \quad \text{(14.21)} \]
전략: \(\phi\) 조건부로 WLS, 그 다음 \(\phi\) 주변화.
\(\phi\) 주변 사후 — 식 (14.22):
\[ p(\phi | y) \propto \frac{p(\phi) \cdot \sigma^{-2} \prod_i N(y_i | X_i \beta, \sigma^2 v(w_i, \phi))}{\text{Inv-}\chi^2(\sigma^2 | n-k, s^2) \cdot N(\beta | \hat{\beta}, V_\beta \sigma^2)} \]
분모의 조건부 분포들에 \((\hat{\beta}, s^2)\) 를 대입해 정리하면
\[ p(\phi | y) \propto p(\phi) \cdot |V_\beta|^{1/2} \cdot s^{-(n-k)} \quad \text{(14.22)} \]
샘플링 절차:
- \(\phi\) 그리드 \([0, 1]\) 에서 (14.22) 평가, normalize → \(p(\phi | y)\) 근사.
- \(\phi^{(s)} \sim p(\phi | y)\) inverse-CDF로 추출.
- \(\phi^{(s)}\) 조건부 \(\sigma^{2(s)} \sim \text{Inv-}\chi^2(n-k, s^2(\phi^{(s)}))\).
- \(\beta^{(s)} \sim N(\hat{\beta}(\phi^{(s)}), V_\beta(\phi^{(s)}) \sigma^{2(s)})\).
1차원 \(\phi\) 라서 그리드 방식이 실용적. 다차원이면 MCMC.
2.7 특수 경우 4: 여러 분산 컴포넌트 (Incumbency 재방문)
Gelman의 실제 incumbency 분석에서는 현직 재출마 선거 와 공석 선거에 다른 분산을 허용:
- \(I = 2\) 개 그룹, 각 그룹 크기 \(n_1, n_2\), \(\sum n_i = n\).
- \(\Sigma_y\) 는 대각, 처음 \(n_1\) 개 관측이 \(\sigma_1^2\), 다음 \(n_2\) 개가 \(\sigma_2^2\).
Noninformative prior: \(I\) 개 그룹을 \(I\) 개 독립 실험으로 취급
\[ p(\beta, \Sigma_y) \propto \prod_{i=1}^{I} \sigma_i^{-2} \]
Proper 조건: \(n_i \geq 2\) (그룹당 최소 2개 관측). 그룹에 관측이 1개뿐이면 해당 \(\sigma_i^2\) 에 informative prior 필수.
결합 사후 — 식 (14.23):
\[ p(\beta, \sigma_1^2, \dots, \sigma_I^2 | y) \propto \left( \prod_i \sigma_i^{-n_i - 2} \right) \exp\left( -\frac{1}{2} (y - X\beta)^T \Sigma_y^{-1} (y - X\beta) \right) \]
샘플링: 직접 해석적으로 쓸 수 없음. Gibbs sampler:
- \(\beta | \Sigma_y, y\): 가중 회귀 결과 (정규).
- \(\sigma_i^2 | \beta, y\): 해당 그룹 잔차 제곱합의 scaled inverse-χ².
Gelman은 EM으로 사후 mode 찾아 정규 근사 시작점으로 → Gibbs sampler 3개 체인, 100 iterations → \(\hat{R} < 1.1\) 확인.
결과:
- 현직 효과 계수 추정 자체는 거의 변하지 않음 (주된 관심사에 영향 적음).
- 예측 분포는 의미있게 개선 — 공석 선거의 불확실성이 제대로 반영.
- 추가 개선: \(\sigma_1^2, \sigma_2^2\) 에 계층적 시계열 prior (Ch.15) 를 두면 spiky 변동이 매끄러워짐.
“점 추정 정확도 자체는 거의 안 바뀌는데 왜 굳이 \(\sigma\) 를 분리?”
답: 예측 분포의 정직성. 공석 선거의 실제 변동성이 현직 선거보다 크면, 등분산 모형은 공석 선거 예측 구간을 너무 좁게 (과신) 내놓는다. 의사결정용 모형이라면 구간이 맞아야 한다.
일반 교훈: 점 추정에 영향 적은 모델 개선도 구간 예측에는 결정적일 수 있다. Gelman이 반복 강조하는 “예측 구간 정직성”의 중요성.
2.8 일반 형태 — General Variance Model
더 일반적으로:
\[ \mathbb{E}(y | X, \theta) = X\beta, \quad \log(\mathrm{Var}(y | X, \theta)) = W\phi \]
\(W\) 는 분산 모수에 대한 “design matrix” (지시변수 또는 연속 변수), \(\phi\) 는 분산 모수 벡터.
이 형태는 이분산을 공변량으로 모델링. GLM과 유사한 구조 (Ch.16)이지만 mean이 아닌 variance에 적용.
Metropolis 또는 HMC로 \((\beta, \phi)\) 사후 샘플링.
3 § 14.8 Including Numerical Prior Information
3.1 철학: Prior 정보는 암묵적으로 이미 있다
Gelman의 관찰: 회귀에 변수를 포함 여부 자체가 prior 정보다. “이 변수가 중요할 것” 이라는 판단이 없으면 데이터에 넣지 않는다.
§ 14.8은 이를 수치화 한다. 선행 연구에서 얻은 추정치를 회귀에 정식으로 포함시키는 방법.
3.2 핵심 트릭: Prior = 추가 데이터 점
정규 prior \(\beta_j \sim N(\beta_{j0}, \sigma_{\beta_j}^2)\) 의 밀도:
\[ p(\beta_j) \propto \frac{1}{\sigma_{\beta_j}} \exp\left( -\frac{(\beta_j - \beta_{j0})^2}{2 \sigma_{\beta_j}^2} \right) \]
관찰: 이 식은 “관측값 \(\beta_{j0}\), 평균 \(\beta_j\), 분산 \(\sigma_{\beta_j}^2\) 인 정규 관측 우도”와 동일 형태.
즉 prior를 가상의 추가 데이터 점으로 볼 수 있다:
- “관측값” = \(\beta_{j0}\).
- “설명변수” = \(j\)-번째만 1, 나머지 0인 \(k\)-차원 벡터.
- “분산” = \(\sigma_{\beta_j}^2\).
구현: 원 데이터 \((y, X, \Sigma_y)\) 에 이 가상 점을 마지막 행으로 추가:
\[ y_* = \begin{pmatrix} y \\ \beta_{j0} \end{pmatrix}, \quad X_* = \begin{pmatrix} X \\ e_j^T \end{pmatrix}, \quad \Sigma_* = \begin{pmatrix} \Sigma_y & 0 \\ 0 & \sigma_{\beta_j}^2 \end{pmatrix} \]
\(e_j\) 는 \(j\)-번째만 1인 \(k\)-차원 표준 기저 벡터. 그 후 \(y_*\) 를 \(X_*\) 에 가중 회귀 (known \(\Sigma_*\)).
3.3 극한 해석
Noninformative 극한 \(\sigma_{\beta_j}^2 \to \infty\): 가중치 \(1/\sigma_{\beta_j}^2 \to 0\) → 가상 점이 추론에 영향 없음. 원 회귀와 동일.
Perfect 정보 극한 \(\sigma_{\beta_j}^2 \to 0\): 가중치 \(\to \infty\) → \(\beta_j = \beta_{j0}\) 강제. 해당 계수 고정.
\(\sigma_{\beta_j}^2 = 0.01\) 정도면 “\(\beta_j\) 가 \(\beta_{j0}\) 에서 ±0.2 이내일 가능성 95%” 라는 강한 제약.
\(\sigma_{\beta_j}^2 = 100\) 이면 “\(\beta_{j0}\) 가 매우 대략적 추측” 에 해당.
실무 가이드: 선행 연구의 표준오차 제곱을 \(\sigma_{\beta_j}^2\) 에 쓴다. “이전 연구가 내놓은 증거만큼” 의 정보량.
여러 선행 연구가 있으면 meta-analysis로 통합한 뒤 쓸 수 있다. Ch.5 exchangeable 계층 모형과 자연스럽게 연결.
3.4 다차원 Prior — 식 (14.24)
\(\beta\) 전체에 대한 prior \(\beta \sim N(\beta_0, \Sigma_\beta)\). 같은 트릭을 \(k\) 차원으로 확장:
\[ y_* = \begin{pmatrix} y \\ \beta_0 \end{pmatrix}, \quad X_* = \begin{pmatrix} X \\ I_k \end{pmatrix}, \quad \Sigma_* = \begin{pmatrix} \Sigma_y & 0 \\ 0 & \Sigma_\beta \end{pmatrix} \quad \text{(14.24)} \]
즉 \(k\) 개 가상 데이터 점을 추가. 각 점이 한 성분 \(\beta_j\) 에 정보를 주고, \(\Sigma_\beta\) 의 비대각 성분이 계수 간 상관 정보.
Proper 조건: \(\Sigma_\beta^{-1}\) 의 rank가 \(k\) (모든 계수에 proper prior). 일부 성분만 정보가 있으면 해당 행만 augment.
3.5 \(\Sigma_\beta\) 의 특수 형태 — Regularization과의 연결
- \(\Sigma_\beta = \tau^2 I\), \(\beta_0 = 0\) → Ridge regression prior (§ 14.6 재현).
- \(\Sigma_\beta\) 가 Laplace scale mixture → LASSO (§ 14.6).
- \(\Sigma_\beta\) 가 데이터 기반 계층적 → Ch.15 hierarchical linear model.
결론: § 14.6 regularization은 § 14.8의 특수 사례 — prior scale \(\tau\) 를 0으로 놓고 (강한 축소) 점 prior \(\beta_0 = 0\) 으로 놓은 것.
3.6 Variance Prior — Conjugate Inverse-χ²
\(\sigma^2\) 에 대한 conjugate prior:
\[ \sigma^2 \sim \text{Inv-}\chi^2(n_0, \sigma_0^2) \]
사후는 (데이터와 합치면):
\[ \sigma^2 | y \sim \text{Inv-}\chi^2\left( n_0 + n, \frac{n_0 \sigma_0^2 + n s^2}{n_0 + n} \right) \]
해석: prior가 “\(n_0\) 개 가상 관측, sample variance \(\sigma_0^2\)”에 해당. \(n_0 = 0\) 이면 noninformative.
수식 구조: 분산 자유도와 pooled MSE가 prior와 데이터의 가중 평균. Ch.3에서 다룬 정규 conjugate 결과의 회귀 버전.
3.7 부등식 제약 (Inequality Constraints)
\(\beta_1 \geq 0\), \(\beta_2 \leq \beta_3\) 등 부등식 형태의 prior.
Gelman의 실용 접근:
- 제약 없이 사후 \((\beta, \sigma)\) 시뮬레이션.
- 제약 위배하는 draws를 버린다 (rejection).
유효성: 제약이 사후 probability mass의 작은 부분만 절단하면 효율적. 제약이 많은 질량을 자르면 “데이터가 제약과 충돌” → 모형 재검토 신호.
한계: 제약이 사후의 99%를 잘라내면 rejection 효율이 1%로 떨어짐. 이 경우 제약 영역에서 직접 샘플링 (Hamiltonian Monte Carlo with reflective bounds, slice sampler).
4 § 14.9 Bibliographic Note — 주제별 재구성
Gelman의 Ch.14 참고문헌을 주제별로 재정리.
4.1 정규 선형 회귀 (빈도주의)
- Weisberg (1985) Applied Linear Regression — 교과서.
- Neter, Kutner, Nachtsheim, Wasserman (1996) Applied Linear Statistical Models — 실무 표준.
- Fox (2002) An R and S-Plus Companion to Applied Regression — R 코드 표준.
4.2 베이지안 선형 회귀
- Zellner (1971) Introduction to Bayesian Inference in Econometrics — 베이즈 회귀의 고전.
- Box, Tiao (1973) Bayesian Inference in Statistical Analysis — normal-inverse-χ² conjugate 완전 유도.
- Gelman, Hill (2007) Data Analysis Using Regression and Multilevel Models — 실무 베이즈 회귀.
- O’Hagan, Forster (2004) Kendall’s Advanced Theory of Statistics Vol 2B — Bayesian inference 교과서.
4.3 계산 (QR, 행렬 분해)
- Gill, Murray, Wright (1981) Practical Optimization — Ch.13에서 이미 언급.
- Golub, van Loan (1983) Matrix Computations — 수치 선형대수의 바이블.
4.4 회귀 진단 (베이즈 잔차)
- Zellner (1975) — 베이즈 잔차 분석 고전.
- Chaloner, Brant (1988), Chaloner (1991) — outlier 검출의 베이즈 접근.
- Gelman, Goegebeur et al. (2000), Pardoe (2001), Pardoe, Cook (2002) — 그래픽 모델 검사.
4.5 Incumbency & 인과 추론
- Gelman, King (1990a) — 원 incumbency 연구.
- Cox, Katz (1996), Ansolabehere, Snyder (2002) — 후속 연구.
- Gelman, Huang (2008) — 계층 모형 확장.
- Rubin (1974b, 1978a) — potential outcomes framework.
- Pearl (2010) — do-calculus 관점.
4.6 Regularization (LASSO·Horseshoe)
- Tibshirani (1996) — LASSO 원 논문.
- Park, Casella (2008) — Bayesian lasso (MCMC).
- Seeger (2008) — Bayesian lasso (EP).
- Carvalho, Polson, Scott (2010) — Horseshoe prior.
- Polson, Scott (2012) — shrinkage prior 일반론.
4.7 Latent Covariance Structures
- Arminger (1998), Murray et al. (2013), Hoff, Niu (2012) — latent covariance, 차원 축소.
4.8 불등 분산 (Parametric Variance)
- Boscardin, Gelman (1996) — 대통령 선거 예측에서 parametric variance 모형.
4.9 상관 모형 — 카테고리별
- 시계열: Box, Jenkins (1976); Brillinger (1981); Pole, West, Harrison (1994).
- 공간 통계: Kunsch (1987); Cressie (1993).
- 공간-시간: Mugglin, Carlin, Gelfand (2000); Banerjee, Carlin, Gelfand (2004).
5 § 14.10 Exercises — 핵심 풀이
Ch.14의 14문제 중 이론적으로 중요한 5문제를 풀이한다.
5.1 Exercise 14.3 — (14.4) 식 유도: OLS \(\hat{\beta}\)
문제: \(\hat{\beta} = (X^T X)^{-1} X^T y\) 가 사후 분포 \(p(\beta | \sigma^2, y)\) 의 평균임을 유도하라.
풀이:
\[ p(\beta | \sigma^2, y) \propto \exp\left\{ -\frac{1}{2\sigma^2} (y - X\beta)^T (y - X\beta) \right\} \]
\(\beta\) 에 관한 2차식. 그래디언트 = 0:
\[ \nabla_\beta \left[ (y - X\beta)^T (y - X\beta) \right] = -2 X^T (y - X\beta) = 0 \]
\[ X^T X \beta = X^T y \Rightarrow \hat{\beta} = (X^T X)^{-1} X^T y \]
정규분포의 mode = mean이므로 \(\hat{\beta}\) 는 사후 평균.
5.2 Exercise 14.4 — (14.7) 식 유도: \(s^2\)
문제: \(s^2 = \frac{1}{n-k} (y - X\hat{\beta})^T (y - X\hat{\beta})\) 가 (14.6) 의 scale parameter임을 유도하라.
풀이 개요: 03-14-1의 Step 2 유도 참조. 요점:
- 사후 factorization \(p(\sigma^2|y) = p(\beta, \sigma^2|y) / p(\beta|\sigma^2, y)\).
- \(\beta = \hat{\beta}\) 대입 → 분자의 \((y - X\hat{\beta})^T(y - X\hat{\beta}) = r^T r\).
- 분모에서 \((\sigma^2)^{k/2}\) 약분 → \((\sigma^2)^{-(n-k)/2 - 1} \exp(-r^T r / (2\sigma^2))\).
- Scaled inverse-χ² 의 정의에 맞추면 \(s^2 = r^T r / (n-k)\) 가 scale.
5.3 Exercise 14.6 — 사후 Proper 조건
문제: (14.2) noninformative prior 하의 사후가 proper인 조건을 유도.
풀이: Unnormalized 사후
\[ p(\beta, \sigma^2 | y) \propto \sigma^{-(n+2)} \exp\{-(y - X\beta)^T(y - X\beta) / (2\sigma^2)\} \]
전체 적분:
\[ \int_0^\infty \int_{\mathbb{R}^k} \sigma^{-(n+2)} \exp\{-(y - X\beta)^T(y - X\beta) / (2\sigma^2)\} \, d\beta \, d\sigma^2 \]
\(\beta\) 적분: Completing the square →
\[ (y - X\beta)^T(y - X\beta) = (\beta - \hat{\beta})^T (X^T X) (\beta - \hat{\beta}) + r^T r \]
\(\int_{\mathbb{R}^k} \exp\{-(\beta - \hat{\beta})^T (X^T X) (\beta - \hat{\beta}) / (2\sigma^2)\} d\beta = (2\pi\sigma^2)^{k/2} |X^T X|^{-1/2}\) (정규 적분, \(X^T X\) invertible 가정 필요).
→ \(X^T X\) invertible ⟺ \(\mathrm{rank}(X) = k\) (조건 1).
\(\beta\) 적분 후
\[ \propto \sigma^{-(n+2)} \cdot \sigma^k \cdot \exp\{-r^T r / (2\sigma^2)\} = \sigma^{-(n-k+2)} \exp\{-r^T r / (2\sigma^2)\} \]
\(\sigma^2\) 적분: \(\int_0^\infty (\sigma^2)^{-(n-k+2)/2} \exp\{-r^T r / (2\sigma^2)\} d\sigma^2 < \infty\) ⟺ \((n-k+2)/2 > 1\) ⟺ \(n > k\) (조건 2).
결론: 사후 proper ⟺ \(n > k\) AND \(\mathrm{rank}(X) = k\).
5.4 Exercise 14.7 — \(p(\tilde{y} | \sigma, y)\) 의 정규성
문제: \(p(\tilde{y} | \sigma, y)\) 가 정규분포임을 보이라.
풀이: \(p(\tilde{y}, \beta | \sigma, y)\) 가 \((\tilde{y}, \beta)\) 에 대한 quadratic form의 지수 함수임을 보이면 충분.
\[ p(\tilde{y}, \beta | \sigma, y) = p(\tilde{y} | \beta, \sigma) \cdot p(\beta | \sigma, y) \]
\(p(\tilde{y} | \beta, \sigma) \propto \exp\{-(\tilde{y} - \tilde{X}\beta)^T(\tilde{y} - \tilde{X}\beta) / (2\sigma^2)\}\) — \((\tilde{y}, \beta)\) 의 2차형.
\(p(\beta | \sigma, y) \propto \exp\{-(\beta - \hat{\beta})^T (X^T X) (\beta - \hat{\beta}) / (2\sigma^2)\}\) — \(\beta\) 의 2차형.
합하면 여전히 \((\tilde{y}, \beta)\) 의 2차형 → 결합 정규. 정규의 조건부·주변은 정규이므로
\[ p(\tilde{y} | \sigma, y) = \int p(\tilde{y}, \beta | \sigma, y) d\beta \text{ 도 정규.} \]
평균·분산은 03-14-1에서 구한 \(\tilde{X}\hat{\beta}\) 와 \(\sigma^2 (I + \tilde{X} V_\beta \tilde{X}^T)\).
5.5 Exercise 14.8 — (14.24) 식 증명
문제: Prior \(\beta \sim N(\beta_0, \Sigma_\beta)\) 를 augmented data \((y_*, X_*, \Sigma_*)\) 로 코딩하는 것이 수학적으로 동등함을 증명.
풀이: Augmented likelihood
\[ p(y_* | \beta, \Sigma_*) = p(y | \beta, \Sigma_y) \cdot p(\beta_0 | \beta, \Sigma_\beta) \]
두 요소를 풀어쓰면
\[ = N(y | X\beta, \Sigma_y) \cdot N(\beta_0 | \beta, \Sigma_\beta) \]
두 번째 항: “관측 \(\beta_0\) 가 평균 \(\beta\), 공분산 \(\Sigma_\beta\) 인 정규에서 나옴” = “\(\beta\) 가 평균 \(\beta_0\), 공분산 \(\Sigma_\beta\) 인 정규” (대칭). 즉 \(N(\beta_0 | \beta, \Sigma_\beta) = N(\beta | \beta_0, \Sigma_\beta)\) (정규 대칭성).
따라서
\[ p(y_* | \beta, \Sigma_*) = N(y | X\beta, \Sigma_y) \cdot N(\beta | \beta_0, \Sigma_\beta) = p(y | \beta, \Sigma_y) \cdot p(\beta) \]
= 원 모형의 likelihood × prior = posterior의 분자.
Noninformative augmented prior \(p(\beta) \propto 1\) 에 augmented likelihood를 곱하면 원 posterior를 얻는다. QED.
5.6 Exercise 14.9(a)(b) — LASSO 1차원
문제 (a): LASSO prior 하 unnormalized posterior를 써라.
\[ p(\beta | y) \propto \exp\left\{ -\frac{1}{2\sigma^2} (y - X\beta)^T(y - X\beta) - \lambda \|\beta\|_1 \right\} \]
문제 (b): 1차원 \(\beta\) 의 LASSO posterior mode.
\(\hat{\beta}_{\text{OLS}} = z\) 로 놓으면 1차원 penalty:
\[ L(\beta) = \frac{1}{2\sigma^2 V_\beta} (\beta - z)^2 + \lambda |\beta| \]
\(\beta > 0\): \(L'(\beta) = (\beta - z)/(\sigma^2 V_\beta) + \lambda = 0 \Rightarrow \beta = z - \lambda \sigma^2 V_\beta\). 단, \(z > \lambda \sigma^2 V_\beta\) 에서 양수 유지.
\(\beta < 0\): \(\beta = z + \lambda \sigma^2 V_\beta\). 단, \(z < -\lambda \sigma^2 V_\beta\).
\(|z| \leq \lambda \sigma^2 V_\beta\): \(\beta = 0\).
Soft-thresholding (03-14-2 재확인):
\[ \hat{\beta}_{\text{LASSO}} = \text{sign}(z) \cdot (|z| - \lambda \sigma^2 V_\beta)_+ \]
문제 (c): 다차원에서는 “각 성분을 \(\lambda\) 만큼 끌어당기는” 것으로는 부정확. 상관 있는 \(X\) 에서는 한 \(\beta_j\) 의 이동이 다른 \(\beta_l\) 의 최적값을 바꾼다. 따라서 coordinate descent 또는 LARS 같은 반복 알고리즘이 필요.
6 Ch.14 심화 시리즈 결산
6.1 4편 논리 지도
[Ch.14 Overview] 03-14-0
↓ 10개 절 조망, 핵심 수식 모음
[§ 14.1~14.3] 03-14-1: Conditional modeling·Classical·Causal
↓ 식 (14.1)~(14.9) 완전 유도
↓ Incumbency potential outcomes
[§ 14.4~14.6] 03-14-2: Goals·X Matrix·Regularization
↓ 3대 목표·Collinearity
↓ Ridge/LASSO/Horseshoe 완전 유도
[§ 14.7~14.10] 03-14-3 (본편): Unequal Var·Prior·연습
↓ GLS·parametric variance
↓ prior as extra data 트릭
↓ Ch.14 결산
6.2 Ch.14 결산 실전 체크리스트
모형 설계 단계
- 연구 목표 (이해·예측·인과) 를 명시했는가?
- 목표에 맞는 변수 집합을 선택했는가? (인과면 post-treatment 배제)
- \(X\) matrix의 collinearity를 점검했는가? (VIF 또는 조건수)
- 비선형 관계 의심 시 변환 또는 polynomial 검토했는가?
- 상호작용 항이 필요한지 이론 근거로 판단했는가?
Prior 선택
- Noninformative prior 적용 가능한가? (\(n > k\) 조건)
- 선행 연구가 있으면 numerical prior로 포함 (§ 14.8, 식 (14.24))
- 고차원 (\(k\) 큰) 경우 regularization 적용 (§ 14.6)
- 부등식 제약은 rejection sampling으로 처리
분산 구조
- 등분산 가정이 합리적인가? 잔차 plot 절대값 확인.
- 불등 분산 의심 시: WLS, parametric variance (14.20), 또는 여러 컴포넌트 (14.23).
- 상관 구조 의심 시: 적절한 \(\Sigma_y\) 모수화 (AR, spatial kernel, 계층 모형).
계산
- \(X^T X\) 직접 inversion 피하고 QR 분해 사용.
- 고차원에서는 iterative 방법 (CG, stochastic VI) 검토.
- 수치 안정성: \(X\) 표준화 후 모델링.
검증
- OLS 점 추정과 베이즈 사후 평균 수치 일치 확인 (구현 검증).
- 잔차 plot으로 선형성·등분산 점검.
- Posterior predictive check: 이상치 비율·예측 구간 커버리지.
- 민감도 분석: prior 변경 시 결론이 robust한가?
해석
- 점 추정만 보지 말고 credible interval 보고.
- 예측 구간과 평균 response 구간 구분.
- 인과 주장 시 ignorability, confounding, mediation 명시.
- 모형의 적용 한계 (훈련 범위 밖 예측, 이상치 민감도) 를 투명하게 공개.
6.3 구현 환경 정리
| 기능 | Python | R |
|---|---|---|
| OLS + 사후 샘플링 | numpy.linalg.qr, 수동 구현 |
lm(), BayesLinear |
| Bayesian 선형 회귀 | scipy.stats, pymc, numpyro |
rstanarm::stan_glm, brms |
| Ridge | sklearn.linear_model.Ridge, pymc |
glmnet, rstanarm |
| LASSO | sklearn.linear_model.Lasso, pymc |
glmnet, monomvn::blasso |
| Horseshoe | numpyro, pymc |
rstanarm::stan_glm(prior=hs()) |
| GLS | statsmodels.gls |
nlme::gls, rstanarm |
| 계층 모형 (Ch.15) | pymc, numpyro |
brms, lme4, rstanarm |
7 Part IV 다음 편 예고
Ch.14는 여기서 끝난다. Part IV의 다음 목적지:
- Ch.15 Hierarchical Linear Models — “varying intercepts/slopes, ANOVA의 베이즈 재해석, partial pooling” → Ch.14 기본 회귀를 계층적으로 확장.
- Ch.16 Generalized Linear Models — 로지스틱·Poisson·MRP → Ch.14의 정규성 가정을 완화.
- Ch.17 Robust Inference — \(t\) 오차, 혼합 모형 → Ch.14의 이상치 문제 (incumbency Table 14.2) 의 일반 해법.
- Ch.18 Missing Data — multiple imputation, data augmentation → Ch.14의 “\(X\) 완전 관측” 가정 완화.
Part IV 전체가 Ch.14의 네 방향 확장으로 구성되어 있다. Ch.14를 베이즈로 완전히 이해하면 Part IV 나머지는 같은 문법의 변주라는 Gelman의 주장이 현실이다.
8 관련 주제
선행 지식
- Ch.14 Overview
- Ch.14 § 14.1~14.3 — Classical Regression·Causal
- Ch.14 § 14.4~14.6 — Goals·X Matrix·Regularization
- Ch.11~13 — Computation
후속 주제 (Part IV)
- Ch.15 Hierarchical Linear Models
- Ch.16 GLM
- Ch.17 Robust Inference
- Ch.18 Missing Data
관련 개념 (cross-category)
9 참고문헌
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.14 § 14.7~14.10. CRC Press.
- Zellner, A. (1971). An Introduction to Bayesian Inference in Econometrics. Wiley.
- Box, G. E. P., & Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Addison-Wesley.
- Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge.
- Boscardin, W. J., & Gelman, A. (1996). Bayesian Regression with Parametric Models for Heteroscedasticity. Advances in Econometrics, 11, 87-109.
- Golub, G. H., & van Loan, C. F. (1983). Matrix Computations. Johns Hopkins.
- Cressie, N. (1993). Statistics for Spatial Data. Wiley.
- Banerjee, S., Carlin, B. P., & Gelfand, A. E. (2004). Hierarchical Modeling and Analysis for Spatial Data. CRC Press.