Kwangmin Kim - Ch.14 § 14.7~14.10 심화 — Unequal Variances·Numerical Prior·문헌·연습 + Ch.14 결산

1 개요 — Ch.14 심화 시리즈의 마지막 편

Ch.14 심화 시리즈의 구성:

03-14-0 — Ch.14 Overview (전 10절 조망)
03-14-1 — § 14.1~14.3 (Conditional modeling + Classical regression + Incumbency causal)
03-14-2 — § 14.4~14.6 (Goals + X matrix + Regularization)
03-14-3 (본편) — § 14.7~14.10 (Unequal variances + Prior info + 문헌 + 연습)

지금까지 § 14.1~14.6 은 등분산·독립 오차 (\(\Sigma_y = \sigma^2 I\)) 와 noninformative prior 또는 regularization prior 조합을 다뤘다. 이 편에서는 두 가정을 모두 일반화한다.

§ 14.7 — 분산이 관측치마다 다르거나 서로 상관되면? GLS의 베이즈 유도와 parametric variance 모형.
§ 14.8 — 계수에 선행 지식이 있으면? “prior를 추가 데이터 점으로 코딩” 이라는 Gelman의 우아한 트릭.
§ 14.9 — Ch.14의 문헌 지도.
§ 14.10 — 연습문제 풀이 (OLS 유도 검증·prior data 트릭 증명·LASSO 1D 등).

마지막에 Ch.14 심화 시리즈 4편 결산을 배치하여 Part IV의 첫 장을 닫는다.

직관: 두 일반화의 공통점

§ 14.7과 § 14.8은 모두 “이미 알고 있는 베이즈 선형 회귀 기계에 새 정보를 얹는 문제” 다.

§ 14.7: 분산 구조에 대한 추가 가정 → Cholesky 변환으로 등분산 문제로 환원.
§ 14.8: 모수에 대한 선행 지식 → 가상 데이터 점으로 코딩하여 가중 회귀로 환원.

두 경우 모두 Gelman의 전략은 “문제를 이미 풀어본 형태로 변환”. 이것이 베이즈 선형 모형 설계의 일관된 철학이다.

2 § 14.7 Unequal Variances and Correlations

2.1 일반 모형 — 식 (14.11)

표준 OLS 가정 중 등분산·독립 을 완화한다.

\[ y \sim N(X\beta, \Sigma_y) \quad \text{(14.11)} \]

\(\Sigma_y\) 는 \(n \times n\) symmetric positive definite. 이제 \(\sigma^2 I\) 대신 일반 공분산 행렬이다.

실무 동기:

상황	\(\Sigma_y\) 구조
병원별 평균 (\(n_i\) 환자의 평균)	대각, \(\Sigma_{ii} \propto 1/n_i\)
시계열 데이터	AR(1): \(\Sigma_{ij} = \sigma^2 \rho^{\|i-j\|}\)
공간 데이터	거리 기반 covariance kernel
가족 구성원 키	블록 대각 (가족 단위)
두 기술자가 측정	기술자별 다른 분산

2.2 \(\Sigma_y\) Known 경우 — Cholesky 변환

03-14-1의 복습 + 완전 유도.

\(\Sigma_y = L L^T\) (Cholesky, \(L\) 상삼각). 양변에 \(L^{-1}\) 곱:

\[ L^{-1} y = L^{-1} X \beta + L^{-1} \epsilon, \quad L^{-1} \epsilon \sim N(0, I) \]

이는 변환된 ordinary linear regression. \(y^* = L^{-1} y\), \(X^* = L^{-1} X\) 에 § 14.2 결과를 적용.

GLS 추정량:

\[ \hat{\beta} = (X^{*T} X^*)^{-1} X^{*T} y^* = (X^T L^{-T} L^{-1} X)^{-1} X^T L^{-T} L^{-1} y = (X^T \Sigma_y^{-1} X)^{-1} X^T \Sigma_y^{-1} y \quad \text{(14.12)} \]

\[ V_\beta = (X^T \Sigma_y^{-1} X)^{-1} \quad \text{(14.13)} \]

\(\Sigma_y = I\) 이면 OLS 복원. GLS = weighted OLS with weight \(\Sigma_y^{-1}\).

직관: 왜 \(\Sigma_y^{-1}\) 가중치가 “맞는” 가중치인가

Gauss-Markov 정리의 GLS 버전: “오차 공분산이 \(\Sigma_y\) 인 선형 모형에서 best linear unbiased estimator (BLUE) 는 \(\hat{\beta}_{\text{GLS}}\).” 즉 \(\Sigma_y^{-1}\) 을 제외한 다른 가중치를 쓰면 분산이 더 커진다.

기하학적 의미: 분산이 큰 관측치는 “noisy”하므로 정보 가치가 낮다 → 가중치를 줄인다. \(\Sigma_y^{-1}\) 의 대각 성분이 작은 행이 “덜 중요한” 관측.

상관 구조도 마찬가지. 상관된 관측치는 독립 관측치 \(n\) 개보다 적은 정보를 가진다 (“effective sample size” 가 \(n\) 보다 작음). \(\Sigma_y^{-1}\) 이 이 정보 손실을 정확히 보정한다.

2.3 Unknown \(\Sigma_y\) — 일반 논의

\(\Sigma_y\) 가 unknown이면 문제가 훨씬 복잡해진다. Uniform prior \(p(\beta | \Sigma_y) \propto 1\) 가정 시 \(\Sigma_y\) 의 주변 사후:

\[ p(\Sigma_y | y) \propto p(\Sigma_y) \cdot \frac{N(y | X\beta, \Sigma_y)}{N(\beta | \hat{\beta}, V_\beta)} \quad \text{(14.14)} \]

\(\beta = \hat{\beta}\) 를 대입하면 (LHS는 \(\beta\) 무관이므로 임의의 \(\beta\) 에서 평가 가능):

\[ p(\Sigma_y | y) \propto p(\Sigma_y) \cdot |\Sigma_y|^{-1/2} |V_\beta|^{1/2} \exp\left( -\frac{1}{2} (y - X\hat{\beta})^T \Sigma_y^{-1} (y - X\hat{\beta}) \right) \quad \text{(14.15)} \]

어려움: \(\hat{\beta}\) 와 \(V_\beta\) 자체가 \(\Sigma_y\) 에 의존. 또 \(\Sigma_y\) 의 prior를 일반 \(n \times n\) 공분산 행렬로 설정하는 것이 실무적으로 어렵다 (예: Inverse-Wishart의 scale matrix 선택).

실용적 접근: \(\Sigma_y\) 를 저차원 모수화. 아래 특수 경우들이 대표적.

2.4 특수 경우 1: 스칼라 팩터만 Unknown — 식 (14.16)~(14.19)

\[ \Sigma_y = Q_y \sigma^2 \quad \text{(14.16)} \]

\(Q_y\) (구조) 는 알려져 있고 \(\sigma^2\) (스케일) 만 unknown. 이는 “분산 비율은 아는데 절대 크기는 모른다” 상황.

예:

각 관측이 \(n_i\) 개 개별 관측의 평균이면 \(Q_{ii} = 1/n_i\).
시계열에서 \(\rho\) 가 알려져 있고 \(\sigma^2\) 만 unknown.

Noninformative prior \(p(\beta, \sigma^2) \propto \sigma^{-2}\) 에서 \(y \to Q_y^{-1/2} y\), \(X \to Q_y^{-1/2} X\) 변환하면 § 14.2의 결과를 그대로 적용:

\[ \hat{\beta} = (X^T Q_y^{-1} X)^{-1} X^T Q_y^{-1} y \quad \text{(14.17)} \]

\[ V_\beta = (X^T Q_y^{-1} X)^{-1} \quad \text{(14.18)} \]

\[ s^2 = \frac{1}{n-k} (y - X\hat{\beta})^T Q_y^{-1} (y - X\hat{\beta}) \quad \text{(14.19)} \]

사후 분포:

\[ \beta | \sigma^2, y \sim N(\hat{\beta}, V_\beta \sigma^2), \quad \sigma^2 | y \sim \text{Inv-}\chi^2(n-k, s^2) \]

즉 GLS + σ² 주변화가 그대로 이어짐.

2.5 특수 경우 2: Weighted Linear Regression

\(Q_y\) 가 대각이면 (상관 없음, 불등 분산만):

\[ \Sigma_{ii} = \sigma^2 / w_i, \quad Q_y^{-1} = \text{diag}(w_1, \dots, w_n) \]

\(w_i\) 는 “가중치”. \(w_i\) 가 크면 해당 관측이 정밀 → 회귀에서 더 영향.

직관적 전형:

\(y_i\) 가 \(m_i\) 개 측정의 평균 → \(\Sigma_{ii} = \sigma^2 / m_i\) → \(w_i = m_i\).
“더 많이 측정한 관측치일수록 높은 신뢰도로 회귀에 반영.”

이 경우 (14.17)은

\[ \hat{\beta} = (X^T W X)^{-1} X^T W y, \quad W = \text{diag}(w_1, \dots, w_n) \]

= Weighted Least Squares (WLS).

2.6 특수 경우 3: Parametric Variance — 식 (14.20)(14.21)

\(Q_y\) 가 알려져 있지 않지만 저차원 모수 \(\phi\) 로 표현 가능:

\[ \Sigma_{ii} = \sigma^2 \, v(w_i, \phi) \quad \text{(14.20)} \]

전형적 선택:

\(v(w_i, \phi) = w_i^{-\phi}\): \(\phi = 0\) 이면 등분산, \(\phi = 1\) 이면 WLS, 연속 보간.
\(v(w_i, \phi) = (1-\phi) + \phi/w_i\): 선형 보간 버전.

Prior: \(\phi \sim U[0, 1]\) (비정보).

사후:

\[ p(\beta, \sigma^2, \phi | y) \propto p(\phi) p(\beta, \sigma^2 | \phi) \prod_{i=1}^n N(y_i | X_i \beta, \sigma^2 v(w_i, \phi)) \quad \text{(14.21)} \]

전략: \(\phi\) 조건부로 WLS, 그 다음 \(\phi\) 주변화.

\(\phi\) 주변 사후 — 식 (14.22):

\[ p(\phi | y) \propto \frac{p(\phi) \cdot \sigma^{-2} \prod_i N(y_i | X_i \beta, \sigma^2 v(w_i, \phi))}{\text{Inv-}\chi^2(\sigma^2 | n-k, s^2) \cdot N(\beta | \hat{\beta}, V_\beta \sigma^2)} \]

분모의 조건부 분포들에 \((\hat{\beta}, s^2)\) 를 대입해 정리하면

\[ p(\phi | y) \propto p(\phi) \cdot |V_\beta|^{1/2} \cdot s^{-(n-k)} \quad \text{(14.22)} \]

샘플링 절차:

\(\phi\) 그리드 \([0, 1]\) 에서 (14.22) 평가, normalize → \(p(\phi | y)\) 근사.
\(\phi^{(s)} \sim p(\phi | y)\) inverse-CDF로 추출.
\(\phi^{(s)}\) 조건부 \(\sigma^{2(s)} \sim \text{Inv-}\chi^2(n-k, s^2(\phi^{(s)}))\).
\(\beta^{(s)} \sim N(\hat{\beta}(\phi^{(s)}), V_\beta(\phi^{(s)}) \sigma^{2(s)})\).

1차원 \(\phi\) 라서 그리드 방식이 실용적. 다차원이면 MCMC.

2.7 특수 경우 4: 여러 분산 컴포넌트 (Incumbency 재방문)

Gelman의 실제 incumbency 분석에서는 현직 재출마 선거 와 공석 선거에 다른 분산을 허용:

\(I = 2\) 개 그룹, 각 그룹 크기 \(n_1, n_2\), \(\sum n_i = n\).
\(\Sigma_y\) 는 대각, 처음 \(n_1\) 개 관측이 \(\sigma_1^2\), 다음 \(n_2\) 개가 \(\sigma_2^2\).

Noninformative prior: \(I\) 개 그룹을 \(I\) 개 독립 실험으로 취급

\[ p(\beta, \Sigma_y) \propto \prod_{i=1}^{I} \sigma_i^{-2} \]

Proper 조건: \(n_i \geq 2\) (그룹당 최소 2개 관측). 그룹에 관측이 1개뿐이면 해당 \(\sigma_i^2\) 에 informative prior 필수.

결합 사후 — 식 (14.23):

\[ p(\beta, \sigma_1^2, \dots, \sigma_I^2 | y) \propto \left( \prod_i \sigma_i^{-n_i - 2} \right) \exp\left( -\frac{1}{2} (y - X\beta)^T \Sigma_y^{-1} (y - X\beta) \right) \]

샘플링: 직접 해석적으로 쓸 수 없음. Gibbs sampler:

\(\beta | \Sigma_y, y\): 가중 회귀 결과 (정규).
\(\sigma_i^2 | \beta, y\): 해당 그룹 잔차 제곱합의 scaled inverse-χ².

Gelman은 EM으로 사후 mode 찾아 정규 근사 시작점으로 → Gibbs sampler 3개 체인, 100 iterations → \(\hat{R} < 1.1\) 확인.

결과:

현직 효과 계수 추정 자체는 거의 변하지 않음 (주된 관심사에 영향 적음).
예측 분포는 의미있게 개선 — 공석 선거의 불확실성이 제대로 반영.
추가 개선: \(\sigma_1^2, \sigma_2^2\) 에 계층적 시계열 prior (Ch.15) 를 두면 spiky 변동이 매끄러워짐.

직관: 언제 이런 모델을 쓰는가

“점 추정 정확도 자체는 거의 안 바뀌는데 왜 굳이 \(\sigma\) 를 분리?”

답: 예측 분포의 정직성. 공석 선거의 실제 변동성이 현직 선거보다 크면, 등분산 모형은 공석 선거 예측 구간을 너무 좁게 (과신) 내놓는다. 의사결정용 모형이라면 구간이 맞아야 한다.

일반 교훈: 점 추정에 영향 적은 모델 개선도 구간 예측에는 결정적일 수 있다. Gelman이 반복 강조하는 “예측 구간 정직성”의 중요성.

2.8 일반 형태 — General Variance Model

더 일반적으로:

\[ \mathbb{E}(y | X, \theta) = X\beta, \quad \log(\mathrm{Var}(y | X, \theta)) = W\phi \]

\(W\) 는 분산 모수에 대한 “design matrix” (지시변수 또는 연속 변수), \(\phi\) 는 분산 모수 벡터.

이 형태는 이분산을 공변량으로 모델링. GLM과 유사한 구조 (Ch.16)이지만 mean이 아닌 variance에 적용.

Metropolis 또는 HMC로 \((\beta, \phi)\) 사후 샘플링.

3 § 14.8 Including Numerical Prior Information

3.1 철학: Prior 정보는 암묵적으로 이미 있다

Gelman의 관찰: 회귀에 변수를 포함 여부 자체가 prior 정보다. “이 변수가 중요할 것” 이라는 판단이 없으면 데이터에 넣지 않는다.

§ 14.8은 이를 수치화 한다. 선행 연구에서 얻은 추정치를 회귀에 정식으로 포함시키는 방법.

3.2 핵심 트릭: Prior = 추가 데이터 점

정규 prior \(\beta_j \sim N(\beta_{j0}, \sigma_{\beta_j}^2)\) 의 밀도:

\[ p(\beta_j) \propto \frac{1}{\sigma_{\beta_j}} \exp\left( -\frac{(\beta_j - \beta_{j0})^2}{2 \sigma_{\beta_j}^2} \right) \]

관찰: 이 식은 “관측값 \(\beta_{j0}\), 평균 \(\beta_j\), 분산 \(\sigma_{\beta_j}^2\) 인 정규 관측 우도”와 동일 형태.

즉 prior를 가상의 추가 데이터 점으로 볼 수 있다:

“관측값” = \(\beta_{j0}\).
“설명변수” = \(j\)-번째만 1, 나머지 0인 \(k\)-차원 벡터.
“분산” = \(\sigma_{\beta_j}^2\).

구현: 원 데이터 \((y, X, \Sigma_y)\) 에 이 가상 점을 마지막 행으로 추가:

\[ y_* = \begin{pmatrix} y \\ \beta_{j0} \end{pmatrix}, \quad X_* = \begin{pmatrix} X \\ e_j^T \end{pmatrix}, \quad \Sigma_* = \begin{pmatrix} \Sigma_y & 0 \\ 0 & \sigma_{\beta_j}^2 \end{pmatrix} \]

\(e_j\) 는 \(j\)-번째만 1인 \(k\)-차원 표준 기저 벡터. 그 후 \(y_*\) 를 \(X_*\) 에 가중 회귀 (known \(\Sigma_*\)).

3.3 극한 해석

Noninformative 극한 \(\sigma_{\beta_j}^2 \to \infty\): 가중치 \(1/\sigma_{\beta_j}^2 \to 0\) → 가상 점이 추론에 영향 없음. 원 회귀와 동일.

Perfect 정보 극한 \(\sigma_{\beta_j}^2 \to 0\): 가중치 \(\to \infty\) → \(\beta_j = \beta_{j0}\) 강제. 해당 계수 고정.

직관: “Prior scale은 정보의 양을 결정한다”

\(\sigma_{\beta_j}^2 = 0.01\) 정도면 “\(\beta_j\) 가 \(\beta_{j0}\) 에서 ±0.2 이내일 가능성 95%” 라는 강한 제약.

\(\sigma_{\beta_j}^2 = 100\) 이면 “\(\beta_{j0}\) 가 매우 대략적 추측” 에 해당.

실무 가이드: 선행 연구의 표준오차 제곱을 \(\sigma_{\beta_j}^2\) 에 쓴다. “이전 연구가 내놓은 증거만큼” 의 정보량.

여러 선행 연구가 있으면 meta-analysis로 통합한 뒤 쓸 수 있다. Ch.5 exchangeable 계층 모형과 자연스럽게 연결.

3.4 다차원 Prior — 식 (14.24)

\(\beta\) 전체에 대한 prior \(\beta \sim N(\beta_0, \Sigma_\beta)\). 같은 트릭을 \(k\) 차원으로 확장:

\[ y_* = \begin{pmatrix} y \\ \beta_0 \end{pmatrix}, \quad X_* = \begin{pmatrix} X \\ I_k \end{pmatrix}, \quad \Sigma_* = \begin{pmatrix} \Sigma_y & 0 \\ 0 & \Sigma_\beta \end{pmatrix} \quad \text{(14.24)} \]

즉 \(k\) 개 가상 데이터 점을 추가. 각 점이 한 성분 \(\beta_j\) 에 정보를 주고, \(\Sigma_\beta\) 의 비대각 성분이 계수 간 상관 정보.

Proper 조건: \(\Sigma_\beta^{-1}\) 의 rank가 \(k\) (모든 계수에 proper prior). 일부 성분만 정보가 있으면 해당 행만 augment.

3.5 \(\Sigma_\beta\) 의 특수 형태 — Regularization과의 연결

\(\Sigma_\beta = \tau^2 I\), \(\beta_0 = 0\) → Ridge regression prior (§ 14.6 재현).
\(\Sigma_\beta\) 가 Laplace scale mixture → LASSO (§ 14.6).
\(\Sigma_\beta\) 가 데이터 기반 계층적 → Ch.15 hierarchical linear model.

결론: § 14.6 regularization은 § 14.8의 특수 사례 — prior scale \(\tau\) 를 0으로 놓고 (강한 축소) 점 prior \(\beta_0 = 0\) 으로 놓은 것.

3.6 Variance Prior — Conjugate Inverse-χ²

\(\sigma^2\) 에 대한 conjugate prior:

\[ \sigma^2 \sim \text{Inv-}\chi^2(n_0, \sigma_0^2) \]

사후는 (데이터와 합치면):

\[ \sigma^2 | y \sim \text{Inv-}\chi^2\left( n_0 + n, \frac{n_0 \sigma_0^2 + n s^2}{n_0 + n} \right) \]

해석: prior가 “\(n_0\) 개 가상 관측, sample variance \(\sigma_0^2\)”에 해당. \(n_0 = 0\) 이면 noninformative.

수식 구조: 분산 자유도와 pooled MSE가 prior와 데이터의 가중 평균. Ch.3에서 다룬 정규 conjugate 결과의 회귀 버전.

3.7 부등식 제약 (Inequality Constraints)

\(\beta_1 \geq 0\), \(\beta_2 \leq \beta_3\) 등 부등식 형태의 prior.

Gelman의 실용 접근:

제약 없이 사후 \((\beta, \sigma)\) 시뮬레이션.
제약 위배하는 draws를 버린다 (rejection).

유효성: 제약이 사후 probability mass의 작은 부분만 절단하면 효율적. 제약이 많은 질량을 자르면 “데이터가 제약과 충돌” → 모형 재검토 신호.

한계: 제약이 사후의 99%를 잘라내면 rejection 효율이 1%로 떨어짐. 이 경우 제약 영역에서 직접 샘플링 (Hamiltonian Monte Carlo with reflective bounds, slice sampler).

4 § 14.9 Bibliographic Note — 주제별 재구성

Gelman의 Ch.14 참고문헌을 주제별로 재정리.

4.1 정규 선형 회귀 (빈도주의)

Weisberg (1985) Applied Linear Regression — 교과서.
Neter, Kutner, Nachtsheim, Wasserman (1996) Applied Linear Statistical Models — 실무 표준.
Fox (2002) An R and S-Plus Companion to Applied Regression — R 코드 표준.

4.2 베이지안 선형 회귀

Zellner (1971) Introduction to Bayesian Inference in Econometrics — 베이즈 회귀의 고전.
Box, Tiao (1973) Bayesian Inference in Statistical Analysis — normal-inverse-χ² conjugate 완전 유도.
Gelman, Hill (2007) Data Analysis Using Regression and Multilevel Models — 실무 베이즈 회귀.
O’Hagan, Forster (2004) Kendall’s Advanced Theory of Statistics Vol 2B — Bayesian inference 교과서.

4.3 계산 (QR, 행렬 분해)

Gill, Murray, Wright (1981) Practical Optimization — Ch.13에서 이미 언급.
Golub, van Loan (1983) Matrix Computations — 수치 선형대수의 바이블.

4.4 회귀 진단 (베이즈 잔차)

Zellner (1975) — 베이즈 잔차 분석 고전.
Chaloner, Brant (1988), Chaloner (1991) — outlier 검출의 베이즈 접근.
Gelman, Goegebeur et al. (2000), Pardoe (2001), Pardoe, Cook (2002) — 그래픽 모델 검사.

4.5 Incumbency & 인과 추론

Gelman, King (1990a) — 원 incumbency 연구.
Cox, Katz (1996), Ansolabehere, Snyder (2002) — 후속 연구.
Gelman, Huang (2008) — 계층 모형 확장.
Rubin (1974b, 1978a) — potential outcomes framework.
Pearl (2010) — do-calculus 관점.

4.6 Regularization (LASSO·Horseshoe)

Tibshirani (1996) — LASSO 원 논문.
Park, Casella (2008) — Bayesian lasso (MCMC).
Seeger (2008) — Bayesian lasso (EP).
Carvalho, Polson, Scott (2010) — Horseshoe prior.
Polson, Scott (2012) — shrinkage prior 일반론.

4.7 Latent Covariance Structures

Arminger (1998), Murray et al. (2013), Hoff, Niu (2012) — latent covariance, 차원 축소.

4.8 불등 분산 (Parametric Variance)

Boscardin, Gelman (1996) — 대통령 선거 예측에서 parametric variance 모형.

4.9 상관 모형 — 카테고리별

시계열: Box, Jenkins (1976); Brillinger (1981); Pole, West, Harrison (1994).
공간 통계: Kunsch (1987); Cressie (1993).
공간-시간: Mugglin, Carlin, Gelfand (2000); Banerjee, Carlin, Gelfand (2004).

5 § 14.10 Exercises — 핵심 풀이

Ch.14의 14문제 중 이론적으로 중요한 5문제를 풀이한다.

5.1 Exercise 14.3 — (14.4) 식 유도: OLS \(\hat{\beta}\)

문제: \(\hat{\beta} = (X^T X)^{-1} X^T y\) 가 사후 분포 \(p(\beta | \sigma^2, y)\) 의 평균임을 유도하라.

풀이:

\[ p(\beta | \sigma^2, y) \propto \exp\left\{ -\frac{1}{2\sigma^2} (y - X\beta)^T (y - X\beta) \right\} \]

\(\beta\) 에 관한 2차식. 그래디언트 = 0:

\[ \nabla_\beta \left[ (y - X\beta)^T (y - X\beta) \right] = -2 X^T (y - X\beta) = 0 \]

\[ X^T X \beta = X^T y \Rightarrow \hat{\beta} = (X^T X)^{-1} X^T y \]

정규분포의 mode = mean이므로 \(\hat{\beta}\) 는 사후 평균.

5.2 Exercise 14.4 — (14.7) 식 유도: \(s^2\)

문제: \(s^2 = \frac{1}{n-k} (y - X\hat{\beta})^T (y - X\hat{\beta})\) 가 (14.6) 의 scale parameter임을 유도하라.

풀이 개요: 03-14-1의 Step 2 유도 참조. 요점:

사후 factorization \(p(\sigma^2|y) = p(\beta, \sigma^2|y) / p(\beta|\sigma^2, y)\).
\(\beta = \hat{\beta}\) 대입 → 분자의 \((y - X\hat{\beta})^T(y - X\hat{\beta}) = r^T r\).
분모에서 \((\sigma^2)^{k/2}\) 약분 → \((\sigma^2)^{-(n-k)/2 - 1} \exp(-r^T r / (2\sigma^2))\).
Scaled inverse-χ² 의 정의에 맞추면 \(s^2 = r^T r / (n-k)\) 가 scale.

5.3 Exercise 14.6 — 사후 Proper 조건

문제: (14.2) noninformative prior 하의 사후가 proper인 조건을 유도.

풀이: Unnormalized 사후

\[ p(\beta, \sigma^2 | y) \propto \sigma^{-(n+2)} \exp\{-(y - X\beta)^T(y - X\beta) / (2\sigma^2)\} \]

전체 적분:

\[ \int_0^\infty \int_{\mathbb{R}^k} \sigma^{-(n+2)} \exp\{-(y - X\beta)^T(y - X\beta) / (2\sigma^2)\} \, d\beta \, d\sigma^2 \]

\(\beta\) 적분: Completing the square →

\[ (y - X\beta)^T(y - X\beta) = (\beta - \hat{\beta})^T (X^T X) (\beta - \hat{\beta}) + r^T r \]

\(\int_{\mathbb{R}^k} \exp\{-(\beta - \hat{\beta})^T (X^T X) (\beta - \hat{\beta}) / (2\sigma^2)\} d\beta = (2\pi\sigma^2)^{k/2} |X^T X|^{-1/2}\) (정규 적분, \(X^T X\) invertible 가정 필요).

→ \(X^T X\) invertible ⟺ \(\mathrm{rank}(X) = k\) (조건 1).

\(\beta\) 적분 후

\[ \propto \sigma^{-(n+2)} \cdot \sigma^k \cdot \exp\{-r^T r / (2\sigma^2)\} = \sigma^{-(n-k+2)} \exp\{-r^T r / (2\sigma^2)\} \]

\(\sigma^2\) 적분: \(\int_0^\infty (\sigma^2)^{-(n-k+2)/2} \exp\{-r^T r / (2\sigma^2)\} d\sigma^2 < \infty\) ⟺ \((n-k+2)/2 > 1\) ⟺ \(n > k\) (조건 2).

결론: 사후 proper ⟺ \(n > k\) AND \(\mathrm{rank}(X) = k\).

5.4 Exercise 14.7 — \(p(\tilde{y} | \sigma, y)\) 의 정규성

문제: \(p(\tilde{y} | \sigma, y)\) 가 정규분포임을 보이라.

풀이: \(p(\tilde{y}, \beta | \sigma, y)\) 가 \((\tilde{y}, \beta)\) 에 대한 quadratic form의 지수 함수임을 보이면 충분.

\[ p(\tilde{y}, \beta | \sigma, y) = p(\tilde{y} | \beta, \sigma) \cdot p(\beta | \sigma, y) \]

\(p(\tilde{y} | \beta, \sigma) \propto \exp\{-(\tilde{y} - \tilde{X}\beta)^T(\tilde{y} - \tilde{X}\beta) / (2\sigma^2)\}\) — \((\tilde{y}, \beta)\) 의 2차형.

\(p(\beta | \sigma, y) \propto \exp\{-(\beta - \hat{\beta})^T (X^T X) (\beta - \hat{\beta}) / (2\sigma^2)\}\) — \(\beta\) 의 2차형.

합하면 여전히 \((\tilde{y}, \beta)\) 의 2차형 → 결합 정규. 정규의 조건부·주변은 정규이므로

\[ p(\tilde{y} | \sigma, y) = \int p(\tilde{y}, \beta | \sigma, y) d\beta \text{ 도 정규.} \]

평균·분산은 03-14-1에서 구한 \(\tilde{X}\hat{\beta}\) 와 \(\sigma^2 (I + \tilde{X} V_\beta \tilde{X}^T)\).

5.5 Exercise 14.8 — (14.24) 식 증명

문제: Prior \(\beta \sim N(\beta_0, \Sigma_\beta)\) 를 augmented data \((y_*, X_*, \Sigma_*)\) 로 코딩하는 것이 수학적으로 동등함을 증명.

풀이: Augmented likelihood

\[ p(y_* | \beta, \Sigma_*) = p(y | \beta, \Sigma_y) \cdot p(\beta_0 | \beta, \Sigma_\beta) \]

두 요소를 풀어쓰면

\[ = N(y | X\beta, \Sigma_y) \cdot N(\beta_0 | \beta, \Sigma_\beta) \]

두 번째 항: “관측 \(\beta_0\) 가 평균 \(\beta\), 공분산 \(\Sigma_\beta\) 인 정규에서 나옴” = “\(\beta\) 가 평균 \(\beta_0\), 공분산 \(\Sigma_\beta\) 인 정규” (대칭). 즉 \(N(\beta_0 | \beta, \Sigma_\beta) = N(\beta | \beta_0, \Sigma_\beta)\) (정규 대칭성).

따라서

\[ p(y_* | \beta, \Sigma_*) = N(y | X\beta, \Sigma_y) \cdot N(\beta | \beta_0, \Sigma_\beta) = p(y | \beta, \Sigma_y) \cdot p(\beta) \]

= 원 모형의 likelihood × prior = posterior의 분자.

Noninformative augmented prior \(p(\beta) \propto 1\) 에 augmented likelihood를 곱하면 원 posterior를 얻는다. QED.

5.6 Exercise 14.9(a)(b) — LASSO 1차원

문제 (a): LASSO prior 하 unnormalized posterior를 써라.

\[ p(\beta | y) \propto \exp\left\{ -\frac{1}{2\sigma^2} (y - X\beta)^T(y - X\beta) - \lambda \|\beta\|_1 \right\} \]

문제 (b): 1차원 \(\beta\) 의 LASSO posterior mode.

\(\hat{\beta}_{\text{OLS}} = z\) 로 놓으면 1차원 penalty:

\[ L(\beta) = \frac{1}{2\sigma^2 V_\beta} (\beta - z)^2 + \lambda |\beta| \]

\(\beta > 0\): \(L'(\beta) = (\beta - z)/(\sigma^2 V_\beta) + \lambda = 0 \Rightarrow \beta = z - \lambda \sigma^2 V_\beta\). 단, \(z > \lambda \sigma^2 V_\beta\) 에서 양수 유지.

\(\beta < 0\): \(\beta = z + \lambda \sigma^2 V_\beta\). 단, \(z < -\lambda \sigma^2 V_\beta\).

\(|z| \leq \lambda \sigma^2 V_\beta\): \(\beta = 0\).

Soft-thresholding (03-14-2 재확인):

\[ \hat{\beta}_{\text{LASSO}} = \text{sign}(z) \cdot (|z| - \lambda \sigma^2 V_\beta)_+ \]

문제 (c): 다차원에서는 “각 성분을 \(\lambda\) 만큼 끌어당기는” 것으로는 부정확. 상관 있는 \(X\) 에서는 한 \(\beta_j\) 의 이동이 다른 \(\beta_l\) 의 최적값을 바꾼다. 따라서 coordinate descent 또는 LARS 같은 반복 알고리즘이 필요.

6 Ch.14 심화 시리즈 결산

6.1 4편 논리 지도

[Ch.14 Overview] 03-14-0
    ↓ 10개 절 조망, 핵심 수식 모음
[§ 14.1~14.3] 03-14-1: Conditional modeling·Classical·Causal
    ↓ 식 (14.1)~(14.9) 완전 유도
    ↓ Incumbency potential outcomes
[§ 14.4~14.6] 03-14-2: Goals·X Matrix·Regularization
    ↓ 3대 목표·Collinearity
    ↓ Ridge/LASSO/Horseshoe 완전 유도
[§ 14.7~14.10] 03-14-3 (본편): Unequal Var·Prior·연습
    ↓ GLS·parametric variance
    ↓ prior as extra data 트릭
    ↓ Ch.14 결산

6.2 Ch.14 결산 실전 체크리스트

모형 설계 단계

연구 목표 (이해·예측·인과) 를 명시했는가?
목표에 맞는 변수 집합을 선택했는가? (인과면 post-treatment 배제)
\(X\) matrix의 collinearity를 점검했는가? (VIF 또는 조건수)
비선형 관계 의심 시 변환 또는 polynomial 검토했는가?
상호작용 항이 필요한지 이론 근거로 판단했는가?

Prior 선택

Noninformative prior 적용 가능한가? (\(n > k\) 조건)
선행 연구가 있으면 numerical prior로 포함 (§ 14.8, 식 (14.24))
고차원 (\(k\) 큰) 경우 regularization 적용 (§ 14.6)
부등식 제약은 rejection sampling으로 처리

분산 구조

등분산 가정이 합리적인가? 잔차 plot 절대값 확인.
불등 분산 의심 시: WLS, parametric variance (14.20), 또는 여러 컴포넌트 (14.23).
상관 구조 의심 시: 적절한 \(\Sigma_y\) 모수화 (AR, spatial kernel, 계층 모형).

계산

\(X^T X\) 직접 inversion 피하고 QR 분해 사용.
고차원에서는 iterative 방법 (CG, stochastic VI) 검토.
수치 안정성: \(X\) 표준화 후 모델링.

검증

OLS 점 추정과 베이즈 사후 평균 수치 일치 확인 (구현 검증).
잔차 plot으로 선형성·등분산 점검.
Posterior predictive check: 이상치 비율·예측 구간 커버리지.
민감도 분석: prior 변경 시 결론이 robust한가?

해석

점 추정만 보지 말고 credible interval 보고.
예측 구간과 평균 response 구간 구분.
인과 주장 시 ignorability, confounding, mediation 명시.
모형의 적용 한계 (훈련 범위 밖 예측, 이상치 민감도) 를 투명하게 공개.

6.3 구현 환경 정리

기능	Python	R
OLS + 사후 샘플링	`numpy.linalg.qr`, 수동 구현	`lm()`, `BayesLinear`
Bayesian 선형 회귀	`scipy.stats`, `pymc`, `numpyro`	`rstanarm::stan_glm`, `brms`
Ridge	`sklearn.linear_model.Ridge`, `pymc`	`glmnet`, `rstanarm`
LASSO	`sklearn.linear_model.Lasso`, `pymc`	`glmnet`, `monomvn::blasso`
Horseshoe	`numpyro`, `pymc`	`rstanarm::stan_glm(prior=hs())`
GLS	`statsmodels.gls`	`nlme::gls`, `rstanarm`
계층 모형 (Ch.15)	`pymc`, `numpyro`	`brms`, `lme4`, `rstanarm`

7 Part IV 다음 편 예고

Ch.14는 여기서 끝난다. Part IV의 다음 목적지:

Ch.15 Hierarchical Linear Models — “varying intercepts/slopes, ANOVA의 베이즈 재해석, partial pooling” → Ch.14 기본 회귀를 계층적으로 확장.
Ch.16 Generalized Linear Models — 로지스틱·Poisson·MRP → Ch.14의 정규성 가정을 완화.
Ch.17 Robust Inference — \(t\) 오차, 혼합 모형 → Ch.14의 이상치 문제 (incumbency Table 14.2) 의 일반 해법.
Ch.18 Missing Data — multiple imputation, data augmentation → Ch.14의 “\(X\) 완전 관측” 가정 완화.

Part IV 전체가 Ch.14의 네 방향 확장으로 구성되어 있다. Ch.14를 베이즈로 완전히 이해하면 Part IV 나머지는 같은 문법의 변주라는 Gelman의 주장이 현실이다.

8 관련 주제

선행 지식

후속 주제 (Part IV)

Ch.15 Hierarchical Linear Models
Ch.16 GLM
Ch.17 Robust Inference
Ch.18 Missing Data

관련 개념 (cross-category)

9 참고문헌

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.14 § 14.7~14.10. CRC Press.
Zellner, A. (1971). An Introduction to Bayesian Inference in Econometrics. Wiley.
Box, G. E. P., & Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Addison-Wesley.
Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge.
Boscardin, W. J., & Gelman, A. (1996). Bayesian Regression with Parametric Models for Heteroscedasticity. Advances in Econometrics, 11, 87-109.
Golub, G. H., & van Loan, C. F. (1983). Matrix Computations. Johns Hopkins.
Cressie, N. (1993). Statistics for Spatial Data. Wiley.
Banerjee, S., Carlin, B. P., & Gelfand, A. E. (2004). Hierarchical Modeling and Analysis for Spatial Data. CRC Press.