1 개요 — Ch.15 심화 시리즈의 마지막 편
Ch.15 심화 시리즈 구성:
- 03-15-0 — Ch.15 Overview (9개 절 조망)
- 03-15-1 — § 15.1~15.3 (Exchangeable batches + 선거 예제 + augmented regression)
- 03-15-2 — § 15.4~15.6 (Varying slopes + Computation + ANOVA batching)
- 03-15-3 (본편) — § 15.7~15.9 (Variance hierarchies + 문헌 + 연습 + Ch.15 결산)
이 편은 Ch.15의 가장 기술적인 부분 (§ 15.7 분산 컴포넌트 계층화) 과 문헌 지도 (§ 15.8), 연습문제 풀이 (§ 15.9) 로 구성된다. 마지막에 Ch.15 심화 시리즈 4편 결산으로 Part IV의 두 번째 장을 닫는다.
Ch.15 앞 6절은 계수 \(\beta\) 자체를 계층화 — β_j ~ N(α, σ_β²).
§ 15.7은 한 층 더 올라간다: 분산 \(\sigma_k\) 자체도 계층화 — log σ_k ~ N(μ_σ, τ_σ²) (또는 유사 구조).
“계층의 계층” 이라는 점에서 개념적으로는 가장 복잡하지만, 실용적 가치는 명확하다. 여러 ANOVA factor가 있을 때 각 factor의 \(\sigma_k\) 추정이 자유도 부족이면 (df 작음), 계층화가 서로 정보를 빌려주어 안정화한다.
2 § 15.7 Hierarchical Models for Batches of Variance Components
2.1 문제 제기
§ 15.6의 ANOVA 모형
\[ y_i = \sum_{m=0}^M \beta_{j_i^m}^{(m)}, \quad \beta_j^{(m)} \sim N(0, \sigma_m^2) \]
에서 각 factor마다 \(\sigma_m^2\) 를 독립적으로 추정한다. 문제:
- Factor \(m\) 의 자유도 \((df)_m = J_m - c_m\) 이 작으면 \(\sigma_m\) 추정 매우 불안정.
- Uniform prior \(p(\sigma_m) \propto 1\) 에서는 posterior tail이 매우 길어짐.
- 여러 \(\sigma_m\) 들끼리 서로 독립이라 정보를 공유하지 못함.
해법: \(\sigma_m\) 들을 교환 가능한 배치로 묶어 상위 hyperprior 부여.
2.2 Split-Plot Latin Square 예제
Gelman의 § 15.7 예제: 5 × 5 × 2 split-plot latin square 실험.
- Full plot treatments: 5개 (A, B, C, D, E) — 라틴 방진 5 × 5 에 배치.
- Subplots: 각 full plot을 2개 subplot으로 분할 (1, 2).
- 총 50개 관측.
ANOVA factor 구조 (9개 variance components + 잔차):
| Source | \((df)_m\) |
|---|---|
| row | 4 |
| column | 4 |
| (A, B, C, D, E) | 4 |
| plot | 12 |
| (1, 2) | 1 |
| row × (1, 2) | 4 |
| column × (1, 2) | 4 |
| (A, B, C, D, E) × (1, 2) | 4 |
| plot × (1, 2) | 12 |
도전 과제: 각 \(\sigma_k\) 에 자유도가 매우 적다 (1~12). 독립 추정 시 매우 부정확.
2.3 계층 Prior — Half-Cauchy
Gelman의 권장: \(\sigma_k\) 들에 공통 half-Cauchy prior:
\[ \sigma_k \sim C^+(0, A), \quad A \sim \text{uniform} \]
- \(C^+(0, A)\) = half-Cauchy (양수 절반), scale \(A\).
- \(A\) 는 데이터로부터 추정 (hyperparameter).
전형적 ANOVA 상황의 경험 법칙:
- 대부분의 factor 는 효과가 작음 (\(\sigma_k\) 작음).
- 일부 factor 는 예외적으로 큰 효과 (\(\sigma_k\) 큼).
Half-Cauchy \(C^+(0, A)\) 의 특성:
- 0 근처 mass가 큼 → 기본적으로 축소.
- Tail이 매우 길음 (\(x \to \infty\) 에서 \(p(x) \propto 1/x^2\)) → 드문 큰 값 허용.
즉 “주로 작고 드물게 크다” 는 사전 믿음을 수학적으로 표현한다. 정규 prior는 너무 tail이 얇아서 “큰 값” 을 잘 허용 못 하고, uniform prior는 축소가 전혀 없어 noise에 흔들린다. Half-Cauchy는 둘의 장점을 결합.
Gelman (2006) “Prior Distributions for Variance Parameters in Hierarchical Models” 가 이 권장의 근거 논문.
2.4 Figure 15.5 — Superpopulation SD 비교
9개 \(\sigma_k\) 의 posterior 분포를 두 prior 하에서 비교:
| Prior | 효과 |
|---|---|
| Uniform \(p(\sigma_k) \propto 1\) | 각 \(\sigma_k\) 를 독립 추정. Tail이 매우 김 (일부 post 95% upper = 60~100). |
| Hierarchical half-Cauchy | Posterior median 거의 동일하지만 upper quantile 대폭 축소. 큰 불확실성 제거. |
Figure 15.5 판독:
- 왼쪽 (uniform): df=1 인 “(1, 2)” factor의 \(\sigma\) 95% 구간이 [0, 100+]. 쓸모없는 수준의 정보.
- 오른쪽 (half-Cauchy): 같은 factor의 95% 구간이 [0, 10] 정도. 현실적.
Shrinkage 효과:
- Median은 거의 불변 → “공식” 정답은 그대로.
- 극단값이 축소 → “overconfident high estimate” 제거.
2.5 Figure 15.6 — Finite-Population SD
§ 15.6에서 다룬 finite-population \(s_k\) (실제 계수들의 sample SD) 도 같은 비교.
결과: half-Cauchy 계층이 finite-population SD도 약간 날카롭게 만든다. 특히 df=1 factor에서 효과 크다.
Cauchy scale 추정: \(A = 1.8\), 95% CI [0.5, 5.1]. 즉 “대부분 factor의 SD는 1~3 정도” 라는 데이터 기반 추론.
2.6 언제 분산 계층화를 쓸 것인가
사용 권장:
- 여러 factor가 있고 각각의 \(\sigma_k\) 에 df 부족 → 정보 공유 필요.
- Variance parameter들이 대략 비슷한 규모일 것이라는 사전 기대 있음.
- Half-Cauchy의 “드문 큰 값 허용” 패턴이 데이터에 맞을 것 같음.
주의:
- Factor 수 \(M\) 이 3개 미만이면 계층화로 얻는 것이 적다.
- \(\sigma_k\) 들이 근본적으로 다른 scale (예: 한 factor는 log 단위, 다른 factor는 원래 단위) 이면 계층화 전에 정규화 필수.
- 도메인에서 “\(\sigma_k\) 는 매우 다르다” 는 지식이 있으면 계층화 대신 각각 informative prior 권장.
3 § 15.8 Bibliographic Note — 주제별 재구성
Gelman Ch.15의 문헌을 주제별로 재정리.
3.1 계층 선형 모형 — 이론적 기초
- Lindley, Smith (1972) — 정규 계층 선형 모형 일반 프레임 을 처음 정립한 고전 논문.
- Novick et al. (1972) — 베이즈 hierarchical regression의 초기 응용.
- Hodges (1998) — Lindley-Smith 프레임의 현대적 재해석.
- Gelman, Hill (2007) Data Analysis Using Regression and Multilevel/Hierarchical Models — 실무 중심 입문 교과서.
- Rubin (1980b) — 교육 데이터에서의 계층 회귀와 이점 논의.
3.2 Non-Bayesian Random Effects
- Henderson et al. (1959) — 선형 혼합 모형의 기초 논문.
- Robinson (1991) — BLUP (Best Linear Unbiased Prediction) 리뷰.
- Pinheiro, Bates (2000) —
nlme패키지의 기반, 최신 빈도주의 mixed models.
3.3 분산 Parameter Prior
- Leonard, Hsu (1992) — 공분산 행렬 prior의 대안.
- Yang, Berger (1994) — 비정보 prior for covariance matrices.
- Daniels, Kass (1999, 2001) — 공분산 행렬 모델링.
- Barnard, McCulloch, Meng (2000) — 공분산 행렬의 분해 prior.
- Gelman (2006) — 분산 parameter prior 일반 논의, half-Cauchy 권장의 핵심 논문.
3.4 응용 예제
- Fearn (1975) — 성장 곡선.
- Hui, Berger (1983), Strenio, Weisberg, Bryk (1983) — 종단 데이터 패턴.
- Normand, Glickman, Gatsonis (1997) — 병원 사망률.
- Braun et al. (1983) — 비즈니스 스쿨 GMAT 예제 원 논문 (§ 15.4).
- Sampson, Raudenbush, Earls (1997) — 도시 범죄 multilevel 연구.
- Cressie et al. (2009) — 생태학 계층 모형.
3.5 사회과학 Multilevel Modeling
- Raudenbush, Bryk (2002) Hierarchical Linear Models — 사회과학 multilevel의 표준서.
- Kreft, De Leeuw (1998), Snijders, Bosker (1999) — 실용 입문.
- Goldstein (1995), Longford (1993), Aitkin, Longford (1986) — 학교 효과 연구.
- Leyland, Goldstein (2001) — 공중 보건 multilevel.
3.6 계산
- Gelfand, Sahu, Carlin (1995) — Gibbs sampler에서의 선형 변환.
- Liu, Wu (1999), Gelman et al. (2008) — Parameter-expanded Gibbs sampler.
- Pinheiro, Bates — 선형 모수 적분으로 계층 모형 계산.
3.7 선거 예측 (§ 15.2 맥락)
- Gelman, King (1993) — 선거 예측 상세 논의.
- Rosenstone (1984), Hibbs (2008) — 선거 예측 전통.
- Boscardin, Gelman (1996) — § 15.2 모형의 계산·검증 원 논문.
3.8 Regression + Exchangeable Priors
- Hoerl, Kennard (1970) — Ridge regression.
- Goldstein (1976), Wahba (1978) — Ridge = exchangeable normal prior 관계.
- Leamer (1978a) — Stepwise의 암묵적 베이즈 모델.
- George, McCulloch (1993) — Spike-and-slab bimodal prior.
- Madigan, Raftery (1994) — Bayesian model averaging.
- Clyde, DeSimone, Parmigiani (1996), West (2003) — 선형 변환 기반 BMA.
- Chipman, Kolaczyk, McCulloch (1997) — Wavelet 베이즈 모델.
3.9 ANOVA 재해석 (§ 15.6 맥락)
- Gelman (2005) — “Analysis of Variance — Why It Is More Important Than Ever”. 계층 회귀로서의 ANOVA 관점.
- Plackett (1960), Yates (1967), Nelder (1977, 1994) — ANOVA 고전.
- Hodges, Sargent (2001) — Hierarchical ANOVA.
- Volfovsky, Hoff (2012) — Structured hierarchical regression.
4 § 15.9 Exercises — 핵심 풀이
Ch.15의 6문제 중 이론·실무 핵심 4문제.
4.1 Exercise 15.1 — 8 Schools as Linear Model
문제: Ch.5의 8 schools 예제를 Ch.15의 계층 선형 모형 언어로 표현하라. 알려진 \(\sigma_j^2\) 와 8개 관측치, 계수 \(\theta_j\) 로 구성하고 사후 시뮬레이션.
풀이:
Linear model form:
\[ y_j = \theta_j + \epsilon_j, \quad \epsilon_j \sim N(0, \sigma_j^2), \quad j = 1, \dots, 8 \]
Matrix form: \(y = X\theta + \epsilon\), \(X = I_8\) (identity), \(\Sigma_y = \text{diag}(\sigma_1^2, \dots, \sigma_8^2)\) (알려진 값).
Hierarchical prior:
\[ \theta_j \sim N(\mu, \tau^2), \quad j = 1, \dots, 8 \]
Hyperprior: \(\mu \sim\) uniform, \(\tau \sim\) uniform 또는 half-Cauchy.
핵심 관찰: 이는 n = J = 8 인 특수 계층 회귀. \(X = I\) 이므로 각 \(y_j\) 가 정확히 하나의 \(\theta_j\) 에 대응. Ch.5 표기와 Ch.15 표기의 동치성.
Gibbs sampler:
- \(\theta_j | y, \mu, \tau, \sigma_j^2\): 정규 (conjugate).
\[ \theta_j | \cdot \sim N\left( \frac{y_j / \sigma_j^2 + \mu / \tau^2}{1/\sigma_j^2 + 1/\tau^2}, \frac{1}{1/\sigma_j^2 + 1/\tau^2} \right) \]
- \(\mu | \theta, \tau\): 정규.
\[ \mu | \cdot \sim N(\bar\theta, \tau^2 / J) \]
\(\tau^2 | \theta, \mu\): Inv-\(\chi^2(J-1, \text{sample var of } \theta)\) (uniform prior 하).
반복.
4.2 Exercise 15.3 — Marquardt-Snee 화학 실험
문제 (15.2 표 데이터): \(y\) = acetylene 전환율, \((x_1, x_2, x_3)\) = 반응기 온도·수소/n-heptane 비율·접촉 시간. 9개 예측변수 (\(x_1, x_2, x_3, x_1 x_2, x_1 x_3, x_2 x_3, x_1^2, x_2^2, x_3^2\)) 로 2차 회귀.
데이터는 16개 관측뿐 → \(n = 16, k = 10\) (상수 포함) → collinearity 심각.
(a) Ordinary regression, uniform prior
Ch.14 표준. 9개 예측변수가 강한 collinearity (quadratic 항과 상호작용의 scale 차이) 로 추정 매우 불안정. 표준오차 큼, 계수 부호 들쭉날쭉.
(b) Mixed-effects regression
상수 계수 noninformative, 나머지 9개에 공유 prior:
\[ \beta_j \sim N(0, \sigma_\beta^2), \quad j = 2, \dots, 10 \]
\(\sigma_\beta\) 에 uniform 또는 half-Cauchy prior.
결과: Noninformative prior 하 OLS의 극단값들이 \(\sigma_\beta\) 만큼 축소 → 실무적으로 안정. Marquardt-Snee의 빈도주의 ridge와 유사하지만 \(\sigma_\beta\) 를 데이터로부터 추정해 자동 튜닝.
(c) 해석
- 와 (b) 차이는 \(\sigma_\beta\) 에 달림:
- \(\sigma_\beta\) 크면 (a) 와 비슷 (축소 약함).
- \(\sigma_\beta\) 작으면 (b) 가 모든 계수를 0 근처로 축소.
데이터가 \(\sigma_\beta \approx 1\) 정도 값을 선호 → 중간 축소. Marquardt-Snee가 “OLS 부적절” 이라 주장한 근거 (불안정, 해석 불가) 가 계층 모형에서 자연스럽게 해결.
(d) \(t_4\) Prior
\[ \beta_j \sim t_4(0, \tau^2) \]
Laplace (LASSO) 보다 부드럽고 정규보다 heavy-tail. 큰 계수를 거의 그대로 살리면서 작은 계수는 0으로 축소. Gelman의 권장 default 중 하나.
4.3 Exercise 15.4 — 8 Schools ANOVA Plot
문제: 8 schools 예제에 ANOVA 시각화 만들기. 각 학교마다 60 학생 (30 treated + 30 control) 가정.
풀이 스케치:
ANOVA structure:
| Source | df | 해석 |
|---|---|---|
| Grand mean | - | 전체 평균 |
| School (A~H) | 7 | 학교 간 차이 |
| Treatment | 1 | 전체 처치 효과 |
| School × Treatment | 7 | 학교별 처치 효과 차이 (즉 8 schools의 \(\theta_j\)) |
| Residual | 60·16 = 960 | 학생 수준 오차 |
학교 × 처치 interaction의 finite-population SD \(s\) 가 핵심 — 이것이 “학교별 처치 효과의 변동성” (= 8 schools \(\theta_j\) 의 spread).
Finite-pop vs Superpop 비교:
- \(s\): 8개 학교 효과의 실제 sample SD → 데이터로부터 잘 추정.
- \(\sigma\): 가상의 더 큰 학교 모집단의 SD → 8 개 관측으로 추정하므로 불확실.
Gelman의 교훈: “이 8개 학교의 차이” 는 finite-pop 질문. “일반 학교 모집단의 변동성” 은 superpop 질문. 데이터는 후자를 약하게 알려준다.
4.4 Exercise 15.5 — Correlation Matrix Positive Definite 조건
문제 (a): \(3 \times 3\) correlation matrix의 determinant가 각 원소의 2차 함수임을 보이라.
문제 (b): 3×3 correlation matrix의 off-diagonal이 \(\{0.4, 0.8, r\}\) 일 때 \(r\) 의 유효 범위.
문제 (c): \(d\) 차원 correlation matrix의 모든 off-diagonal이 \(r\) 로 동일할 때 positive definite 조건: \(-1/(d-1) < r < 1\).
(a) 유도:
\[ R = \begin{pmatrix} 1 & a & b \\ a & 1 & c \\ b & c & 1 \end{pmatrix} \]
\[ \det R = 1 (1 - c^2) - a(a - bc) + b(ac - b) = 1 - a^2 - b^2 - c^2 + 2abc \]
각 \(a, b, c\) 에 대해 2차 함수.
(b) 풀이: \(a = 0.4, b = 0.8, c = r\) 대입.
\[ \det R = 1 - 0.16 - 0.64 - r^2 + 2(0.4)(0.8) r = 0.2 - r^2 + 0.64 r \]
Positive definite → \(\det R > 0\):
\[ r^2 - 0.64 r - 0.2 < 0 \]
근의 공식: \(r = (0.64 \pm \sqrt{0.4096 + 0.8})/2 = (0.64 \pm 1.104)/2\).
즉 \(r \in (-0.232, 0.872)\).
(c) 풀이: Exchangeable correlation matrix
\[ R = (1 - r) I_d + r \mathbf{1} \mathbf{1}^T \]
고유값:
- \(\lambda_1 = 1 + (d-1) r\) (eigenvector \(\mathbf{1}\)).
- \(\lambda_2 = \dots = \lambda_d = 1 - r\) (\(\mathbf{1}\) 직교 벡터).
Positive definite ⟺ 모든 고유값 > 0 ⟺ \(1 - r > 0\) AND \(1 + (d-1) r > 0\).
\[ -\frac{1}{d-1} < r < 1 \]
\(d\) 개 랜덤변수가 모두 서로 \(r\) 의 상관이면, 일관된 공분산 구조가 존재해야 한다. \(r\) 이 너무 음수이면 “모두가 서로 반대 방향” 이라는 구조를 \(d\) 개 이상에서 만족 불가.
기하학적으로: \(d\) 개 단위 벡터가 서로 \(\arccos(r)\) 각도를 이루려면 \(\cos\) 각도 사이에 제약이 있다. \(d\) 가 많아질수록 “반대 방향” 이 희박해져 \(r\) 의 음수 하한이 0으로 수렴 (\(d \to \infty\)).
이 조건이 LKJ prior에서 \(R\) 의 support 를 제약하는 이유이며, Gibbs sampling 시 correlation 원소 업데이트의 boundary 조건이 된다.
5 Ch.15 심화 시리즈 결산
5.1 4편 논리 지도
[Ch.15 Overview] 03-15-0
↓ 9개 절 조망, 식 (15.1) 도입
[§ 15.1~15.3] 03-15-1: Exchangeable Batches + 선거 + Augmented
↓ 식 (15.1) varying-coefficients
↓ Intraclass correlation 동치성
↓ 선거 511 obs · non-hierarchical 실패 · 식 (15.2)
↓ 식 (15.3) 3-level augmented regression
[§ 15.4~15.6] 03-15-2: Slopes + Computation + ANOVA
↓ 식 (15.4)~(15.5) varying intercepts + slopes
↓ 식 (15.6) Scaled Inv-Wishart / LKJ
↓ Parameter expansion · Non-centered
↓ 식 (15.7)~(15.10) ANOVA batching
[§ 15.7~15.9] 03-15-3 (본편): Variance Hierarchies
↓ 9-component latin square + half-Cauchy
↓ Figure 15.5~15.6 비교
↓ 문헌 지도 + 연습 + Ch.15 결산
5.2 Ch.15 결산 실전 체크리스트
모형 설계 (01-15-0 + 01-15-1)
- 데이터에 자연 그룹화 존재하는가?
- 계수를 교환 가능 배치 로 구조화 가능한가?
- No-pooling vs complete-pooling vs partial-pooling 중 선택했는가?
- 예측변수의 변동 수준 (level 1, 2, 3) 을 파악했는가?
- 인과적 관심이면 multilevel에서 confounding 재점검.
Prior 설계 (01-15-2)
- \(\sigma_\beta\) 에 uniform, HalfNormal, HalfCauchy 중 선택 (not log-uniform).
- Varying slopes면 공분산 prior: LKJ + HalfNormal (권장) 또는 Scaled Inv-Wishart.
- 그룹 수 \(J < 5\) 면 hyperparameter 민감도 점검 필수.
- Intercept-slope 상관 \(\rho\) 를 추정 허용하는가?
계산 (01-15-2)
- 표준/non-centered parameterization 선택.
- HMC divergence 발생 시 non-centered + target_accept 상향.
- 큰 계층 모형이면 parameter expansion 검토.
- \(\hat{R} < 1.01\), ESS > 1000 확인.
여러 분산 계층화 (01-15-3)
- 여러 factor·여러 \(\sigma_k\) 가 있으면 공통 half-Cauchy hyperprior 고려.
- Factor 간 scale 차이 크면 먼저 정규화.
- Finite-pop vs superpop 질문 구분 (데이터 해석 시).
검증
- Posterior predictive check (전체·그룹별).
- Shrinkage 강도 시각화 (no-pooling vs partial-pooling 비교).
- 민감도 분석: \(\tau\) prior 변경이 결론에 영향?
- \(\hat R\), ESS, divergence 모니터링.
보고
- 모수별 credible interval + 직관 설명.
- ANOVA display로 factor 중요도 한 눈에.
- Shrinkage 정도를 시각화.
- 인과 주장·새 그룹 예측 시 가정 명시.
5.3 구현 환경
| 기능 | Python | R |
|---|---|---|
| 계층 선형 모형 기본 | pymc, numpyro |
brms, rstanarm, lme4 |
| Non-centered | Stan 수동 or pymc의 ZeroSumNormal |
brms (자동) |
| LKJ correlation | pymc.LKJCholeskyCov, numpyro |
brms::prior() |
| Half-Cauchy | HalfCauchy |
student_t(3, 0, s) |
| Split-plot ANOVA | 수동 Stan or PyMC | lme4::lmer, afex |
| MRP (선거 예측) | pymc + statsmodels |
brms::brm + survey |
6 Part IV 다음 편 예고
Ch.15 완결. Part IV 다음 장:
- Ch.16 Generalized Linear Models — 정규성 가정 완화. Logistic·Poisson 계층 모형, MRP (Multilevel Regression and Poststratification) 의 베이즈 표준, 분리 문제와 cauchy prior.
- Ch.17 Robust Inference — \(t\) 오차, robit regression, 8 schools 재방문.
- Ch.18 Missing Data — Multiple imputation, MAR, ignorability, data augmentation.
Part IV는 Ch.14 → 15 → 16 → 17 → 18 이 “likelihood 확장” 의 계단이다.
- Ch.14: 정규 likelihood + 평균 회귀.
- Ch.15: 정규 likelihood + 그룹 구조.
- Ch.16: 비정규 likelihood (Bernoulli, Poisson).
- Ch.17: robust likelihood (\(t\), 혼합).
- Ch.18: 결측 처리.
각 장이 이전 장의 엔진을 그대로 쓰면서 likelihood만 바꿈. 계층 구조는 Ch.15~18 에서 반복 등장.
7 관련 주제
선행 지식
- Ch.15 Overview
- Ch.15 § 15.1~15.3 — Exchangeable Batches·Augmented
- Ch.15 § 15.4~15.6 — Varying Slopes·Computation·ANOVA
- Ch.5 — 8 Schools Hierarchical
- Ch.13 § 13.2 — Boundary-avoiding Priors
후속 주제 (Part IV)
- Ch.16 GLM — 계층 로지스틱·Poisson·MRP
- Ch.17 Robust Inference — \(t\) 오차·robit
- Ch.18 Missing Data — multiple imputation
관련 개념 (cross-category)
8 참고문헌
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.15 § 15.7~15.9. CRC Press.
- Gelman, A. (2005). Analysis of Variance — Why It Is More Important Than Ever. Annals of Statistics, 33(1), 1-53.
- Gelman, A. (2006). Prior Distributions for Variance Parameters in Hierarchical Models. Bayesian Analysis, 1(3), 515-533.
- Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge.
- Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical Linear Models: Applications and Data Analysis Methods (2nd ed.). Sage.
- Lindley, D. V., & Smith, A. F. M. (1972). Bayes Estimates for the Linear Model. JRSS B, 34, 1-41.
- Robinson, G. K. (1991). That BLUP Is a Good Thing: The Estimation of Random Effects. Statistical Science, 6, 15-32.
- Marquardt, D. W., & Snee, R. D. (1975). Ridge Regression in Practice. American Statistician, 29, 3-20.