Kwangmin Kim - Ch.15 § 15.7~15.9 심화 — 분산 컴포넌트 계층화·문헌·연습 + Ch.15 결산

1 개요 — Ch.15 심화 시리즈의 마지막 편

Ch.15 심화 시리즈 구성:

03-15-0 — Ch.15 Overview (9개 절 조망)
03-15-1 — § 15.1~15.3 (Exchangeable batches + 선거 예제 + augmented regression)
03-15-2 — § 15.4~15.6 (Varying slopes + Computation + ANOVA batching)
03-15-3 (본편) — § 15.7~15.9 (Variance hierarchies + 문헌 + 연습 + Ch.15 결산)

이 편은 Ch.15의 가장 기술적인 부분 (§ 15.7 분산 컴포넌트 계층화) 과 문헌 지도 (§ 15.8), 연습문제 풀이 (§ 15.9) 로 구성된다. 마지막에 Ch.15 심화 시리즈 4편 결산으로 Part IV의 두 번째 장을 닫는다.

직관: § 15.7의 위치

Ch.15 앞 6절은 계수 \(\beta\) 자체를 계층화 — β_j ~ N(α, σ_β²).

§ 15.7은 한 층 더 올라간다: 분산 \(\sigma_k\) 자체도 계층화 — log σ_k ~ N(μ_σ, τ_σ²) (또는 유사 구조).

“계층의 계층” 이라는 점에서 개념적으로는 가장 복잡하지만, 실용적 가치는 명확하다. 여러 ANOVA factor가 있을 때 각 factor의 \(\sigma_k\) 추정이 자유도 부족이면 (df 작음), 계층화가 서로 정보를 빌려주어 안정화한다.

2 § 15.7 Hierarchical Models for Batches of Variance Components

2.1 문제 제기

§ 15.6의 ANOVA 모형

\[ y_i = \sum_{m=0}^M \beta_{j_i^m}^{(m)}, \quad \beta_j^{(m)} \sim N(0, \sigma_m^2) \]

에서 각 factor마다 \(\sigma_m^2\) 를 독립적으로 추정한다. 문제:

Factor \(m\) 의 자유도 \((df)_m = J_m - c_m\) 이 작으면 \(\sigma_m\) 추정 매우 불안정.
Uniform prior \(p(\sigma_m) \propto 1\) 에서는 posterior tail이 매우 길어짐.
여러 \(\sigma_m\) 들끼리 서로 독립이라 정보를 공유하지 못함.

해법: \(\sigma_m\) 들을 교환 가능한 배치로 묶어 상위 hyperprior 부여.

2.2 Split-Plot Latin Square 예제

Gelman의 § 15.7 예제: 5 × 5 × 2 split-plot latin square 실험.

Full plot treatments: 5개 (A, B, C, D, E) — 라틴 방진 5 × 5 에 배치.
Subplots: 각 full plot을 2개 subplot으로 분할 (1, 2).
총 50개 관측.

ANOVA factor 구조 (9개 variance components + 잔차):

Source	\((df)_m\)
row	4
column	4
(A, B, C, D, E)	4
plot	12
(1, 2)	1
row × (1, 2)	4
column × (1, 2)	4
(A, B, C, D, E) × (1, 2)	4
plot × (1, 2)	12

도전 과제: 각 \(\sigma_k\) 에 자유도가 매우 적다 (1~12). 독립 추정 시 매우 부정확.

2.3 계층 Prior — Half-Cauchy

Gelman의 권장: \(\sigma_k\) 들에 공통 half-Cauchy prior:

\[ \sigma_k \sim C^+(0, A), \quad A \sim \text{uniform} \]

\(C^+(0, A)\) = half-Cauchy (양수 절반), scale \(A\).
\(A\) 는 데이터로부터 추정 (hyperparameter).

직관: 왜 Half-Cauchy가 “이상적” 인가

전형적 ANOVA 상황의 경험 법칙:

대부분의 factor 는 효과가 작음 (\(\sigma_k\) 작음).
일부 factor 는 예외적으로 큰 효과 (\(\sigma_k\) 큼).

Half-Cauchy \(C^+(0, A)\) 의 특성:

0 근처 mass가 큼 → 기본적으로 축소.
Tail이 매우 길음 (\(x \to \infty\) 에서 \(p(x) \propto 1/x^2\)) → 드문 큰 값 허용.

즉 “주로 작고 드물게 크다” 는 사전 믿음을 수학적으로 표현한다. 정규 prior는 너무 tail이 얇아서 “큰 값” 을 잘 허용 못 하고, uniform prior는 축소가 전혀 없어 noise에 흔들린다. Half-Cauchy는 둘의 장점을 결합.

Gelman (2006) “Prior Distributions for Variance Parameters in Hierarchical Models” 가 이 권장의 근거 논문.

2.4 Figure 15.5 — Superpopulation SD 비교

9개 \(\sigma_k\) 의 posterior 분포를 두 prior 하에서 비교:

Prior	효과
Uniform \(p(\sigma_k) \propto 1\)	각 \(\sigma_k\) 를 독립 추정. Tail이 매우 김 (일부 post 95% upper = 60~100).
Hierarchical half-Cauchy	Posterior median 거의 동일하지만 upper quantile 대폭 축소. 큰 불확실성 제거.

Figure 15.5 판독:

왼쪽 (uniform): df=1 인 “(1, 2)” factor의 \(\sigma\) 95% 구간이 [0, 100+]. 쓸모없는 수준의 정보.
오른쪽 (half-Cauchy): 같은 factor의 95% 구간이 [0, 10] 정도. 현실적.

Shrinkage 효과:

Median은 거의 불변 → “공식” 정답은 그대로.
극단값이 축소 → “overconfident high estimate” 제거.

2.5 Figure 15.6 — Finite-Population SD

§ 15.6에서 다룬 finite-population \(s_k\) (실제 계수들의 sample SD) 도 같은 비교.

결과: half-Cauchy 계층이 finite-population SD도 약간 날카롭게 만든다. 특히 df=1 factor에서 효과 크다.

Cauchy scale 추정: \(A = 1.8\), 95% CI [0.5, 5.1]. 즉 “대부분 factor의 SD는 1~3 정도” 라는 데이터 기반 추론.

2.6 언제 분산 계층화를 쓸 것인가

사용 권장:

여러 factor가 있고 각각의 \(\sigma_k\) 에 df 부족 → 정보 공유 필요.
Variance parameter들이 대략 비슷한 규모일 것이라는 사전 기대 있음.
Half-Cauchy의 “드문 큰 값 허용” 패턴이 데이터에 맞을 것 같음.

주의:

Factor 수 \(M\) 이 3개 미만이면 계층화로 얻는 것이 적다.
\(\sigma_k\) 들이 근본적으로 다른 scale (예: 한 factor는 log 단위, 다른 factor는 원래 단위) 이면 계층화 전에 정규화 필수.
도메인에서 “\(\sigma_k\) 는 매우 다르다” 는 지식이 있으면 계층화 대신 각각 informative prior 권장.

3 § 15.8 Bibliographic Note — 주제별 재구성

Gelman Ch.15의 문헌을 주제별로 재정리.

3.1 계층 선형 모형 — 이론적 기초

Lindley, Smith (1972) — 정규 계층 선형 모형 일반 프레임 을 처음 정립한 고전 논문.
Novick et al. (1972) — 베이즈 hierarchical regression의 초기 응용.
Hodges (1998) — Lindley-Smith 프레임의 현대적 재해석.
Gelman, Hill (2007) Data Analysis Using Regression and Multilevel/Hierarchical Models — 실무 중심 입문 교과서.
Rubin (1980b) — 교육 데이터에서의 계층 회귀와 이점 논의.

3.2 Non-Bayesian Random Effects

Henderson et al. (1959) — 선형 혼합 모형의 기초 논문.
Robinson (1991) — BLUP (Best Linear Unbiased Prediction) 리뷰.
Pinheiro, Bates (2000) — nlme 패키지의 기반, 최신 빈도주의 mixed models.

3.3 분산 Parameter Prior

Leonard, Hsu (1992) — 공분산 행렬 prior의 대안.
Yang, Berger (1994) — 비정보 prior for covariance matrices.
Daniels, Kass (1999, 2001) — 공분산 행렬 모델링.
Barnard, McCulloch, Meng (2000) — 공분산 행렬의 분해 prior.
Gelman (2006) — 분산 parameter prior 일반 논의, half-Cauchy 권장의 핵심 논문.

3.4 응용 예제

Fearn (1975) — 성장 곡선.
Hui, Berger (1983), Strenio, Weisberg, Bryk (1983) — 종단 데이터 패턴.
Normand, Glickman, Gatsonis (1997) — 병원 사망률.
Braun et al. (1983) — 비즈니스 스쿨 GMAT 예제 원 논문 (§ 15.4).
Sampson, Raudenbush, Earls (1997) — 도시 범죄 multilevel 연구.
Cressie et al. (2009) — 생태학 계층 모형.

3.5 사회과학 Multilevel Modeling

Raudenbush, Bryk (2002) Hierarchical Linear Models — 사회과학 multilevel의 표준서.
Kreft, De Leeuw (1998), Snijders, Bosker (1999) — 실용 입문.
Goldstein (1995), Longford (1993), Aitkin, Longford (1986) — 학교 효과 연구.
Leyland, Goldstein (2001) — 공중 보건 multilevel.

3.6 계산

Gelfand, Sahu, Carlin (1995) — Gibbs sampler에서의 선형 변환.
Liu, Wu (1999), Gelman et al. (2008) — Parameter-expanded Gibbs sampler.
Pinheiro, Bates — 선형 모수 적분으로 계층 모형 계산.

3.7 선거 예측 (§ 15.2 맥락)

Gelman, King (1993) — 선거 예측 상세 논의.
Rosenstone (1984), Hibbs (2008) — 선거 예측 전통.
Boscardin, Gelman (1996) — § 15.2 모형의 계산·검증 원 논문.

3.8 Regression + Exchangeable Priors

Hoerl, Kennard (1970) — Ridge regression.
Goldstein (1976), Wahba (1978) — Ridge = exchangeable normal prior 관계.
Leamer (1978a) — Stepwise의 암묵적 베이즈 모델.
George, McCulloch (1993) — Spike-and-slab bimodal prior.
Madigan, Raftery (1994) — Bayesian model averaging.
Clyde, DeSimone, Parmigiani (1996), West (2003) — 선형 변환 기반 BMA.
Chipman, Kolaczyk, McCulloch (1997) — Wavelet 베이즈 모델.

3.9 ANOVA 재해석 (§ 15.6 맥락)

Gelman (2005) — “Analysis of Variance — Why It Is More Important Than Ever”. 계층 회귀로서의 ANOVA 관점.
Plackett (1960), Yates (1967), Nelder (1977, 1994) — ANOVA 고전.
Hodges, Sargent (2001) — Hierarchical ANOVA.
Volfovsky, Hoff (2012) — Structured hierarchical regression.

4 § 15.9 Exercises — 핵심 풀이

Ch.15의 6문제 중 이론·실무 핵심 4문제.

4.1 Exercise 15.1 — 8 Schools as Linear Model

문제: Ch.5의 8 schools 예제를 Ch.15의 계층 선형 모형 언어로 표현하라. 알려진 \(\sigma_j^2\) 와 8개 관측치, 계수 \(\theta_j\) 로 구성하고 사후 시뮬레이션.

풀이:

Linear model form:

\[ y_j = \theta_j + \epsilon_j, \quad \epsilon_j \sim N(0, \sigma_j^2), \quad j = 1, \dots, 8 \]

Matrix form: \(y = X\theta + \epsilon\), \(X = I_8\) (identity), \(\Sigma_y = \text{diag}(\sigma_1^2, \dots, \sigma_8^2)\) (알려진 값).

Hierarchical prior:

\[ \theta_j \sim N(\mu, \tau^2), \quad j = 1, \dots, 8 \]

Hyperprior: \(\mu \sim\) uniform, \(\tau \sim\) uniform 또는 half-Cauchy.

핵심 관찰: 이는 n = J = 8 인 특수 계층 회귀. \(X = I\) 이므로 각 \(y_j\) 가 정확히 하나의 \(\theta_j\) 에 대응. Ch.5 표기와 Ch.15 표기의 동치성.

Gibbs sampler:

\(\theta_j | y, \mu, \tau, \sigma_j^2\): 정규 (conjugate).

\[ \theta_j | \cdot \sim N\left( \frac{y_j / \sigma_j^2 + \mu / \tau^2}{1/\sigma_j^2 + 1/\tau^2}, \frac{1}{1/\sigma_j^2 + 1/\tau^2} \right) \]

\(\mu | \theta, \tau\): 정규.

\[ \mu | \cdot \sim N(\bar\theta, \tau^2 / J) \]

\(\tau^2 | \theta, \mu\): Inv-\(\chi^2(J-1, \text{sample var of } \theta)\) (uniform prior 하).
반복.

4.2 Exercise 15.3 — Marquardt-Snee 화학 실험

문제 (15.2 표 데이터): \(y\) = acetylene 전환율, \((x_1, x_2, x_3)\) = 반응기 온도·수소/n-heptane 비율·접촉 시간. 9개 예측변수 (\(x_1, x_2, x_3, x_1 x_2, x_1 x_3, x_2 x_3, x_1^2, x_2^2, x_3^2\)) 로 2차 회귀.

데이터는 16개 관측뿐 → \(n = 16, k = 10\) (상수 포함) → collinearity 심각.

(a) Ordinary regression, uniform prior

Ch.14 표준. 9개 예측변수가 강한 collinearity (quadratic 항과 상호작용의 scale 차이) 로 추정 매우 불안정. 표준오차 큼, 계수 부호 들쭉날쭉.

(b) Mixed-effects regression

상수 계수 noninformative, 나머지 9개에 공유 prior:

\[ \beta_j \sim N(0, \sigma_\beta^2), \quad j = 2, \dots, 10 \]

\(\sigma_\beta\) 에 uniform 또는 half-Cauchy prior.

결과: Noninformative prior 하 OLS의 극단값들이 \(\sigma_\beta\) 만큼 축소 → 실무적으로 안정. Marquardt-Snee의 빈도주의 ridge와 유사하지만 \(\sigma_\beta\) 를 데이터로부터 추정해 자동 튜닝.

(c) 해석

와 (b) 차이는 \(\sigma_\beta\) 에 달림:

\(\sigma_\beta\) 크면 (a) 와 비슷 (축소 약함).
\(\sigma_\beta\) 작으면 (b) 가 모든 계수를 0 근처로 축소.

데이터가 \(\sigma_\beta \approx 1\) 정도 값을 선호 → 중간 축소. Marquardt-Snee가 “OLS 부적절” 이라 주장한 근거 (불안정, 해석 불가) 가 계층 모형에서 자연스럽게 해결.

(d) \(t_4\) Prior

\[ \beta_j \sim t_4(0, \tau^2) \]

Laplace (LASSO) 보다 부드럽고 정규보다 heavy-tail. 큰 계수를 거의 그대로 살리면서 작은 계수는 0으로 축소. Gelman의 권장 default 중 하나.

4.3 Exercise 15.4 — 8 Schools ANOVA Plot

문제: 8 schools 예제에 ANOVA 시각화 만들기. 각 학교마다 60 학생 (30 treated + 30 control) 가정.

풀이 스케치:

ANOVA structure:

Source	df	해석
Grand mean	-	전체 평균
School (A~H)	7	학교 간 차이
Treatment	1	전체 처치 효과
School × Treatment	7	학교별 처치 효과 차이 (즉 8 schools의 \(\theta_j\))
Residual	60·16 = 960	학생 수준 오차

학교 × 처치 interaction의 finite-population SD \(s\) 가 핵심 — 이것이 “학교별 처치 효과의 변동성” (= 8 schools \(\theta_j\) 의 spread).

Finite-pop vs Superpop 비교:

\(s\): 8개 학교 효과의 실제 sample SD → 데이터로부터 잘 추정.
\(\sigma\): 가상의 더 큰 학교 모집단의 SD → 8 개 관측으로 추정하므로 불확실.

Gelman의 교훈: “이 8개 학교의 차이” 는 finite-pop 질문. “일반 학교 모집단의 변동성” 은 superpop 질문. 데이터는 후자를 약하게 알려준다.

4.4 Exercise 15.5 — Correlation Matrix Positive Definite 조건

문제 (a): \(3 \times 3\) correlation matrix의 determinant가 각 원소의 2차 함수임을 보이라.

문제 (b): 3×3 correlation matrix의 off-diagonal이 \(\{0.4, 0.8, r\}\) 일 때 \(r\) 의 유효 범위.

문제 (c): \(d\) 차원 correlation matrix의 모든 off-diagonal이 \(r\) 로 동일할 때 positive definite 조건: \(-1/(d-1) < r < 1\).

(a) 유도:

\[ R = \begin{pmatrix} 1 & a & b \\ a & 1 & c \\ b & c & 1 \end{pmatrix} \]

\[ \det R = 1 (1 - c^2) - a(a - bc) + b(ac - b) = 1 - a^2 - b^2 - c^2 + 2abc \]

각 \(a, b, c\) 에 대해 2차 함수.

(b) 풀이: \(a = 0.4, b = 0.8, c = r\) 대입.

\[ \det R = 1 - 0.16 - 0.64 - r^2 + 2(0.4)(0.8) r = 0.2 - r^2 + 0.64 r \]

Positive definite → \(\det R > 0\):

\[ r^2 - 0.64 r - 0.2 < 0 \]

근의 공식: \(r = (0.64 \pm \sqrt{0.4096 + 0.8})/2 = (0.64 \pm 1.104)/2\).

즉 \(r \in (-0.232, 0.872)\).

(c) 풀이: Exchangeable correlation matrix

\[ R = (1 - r) I_d + r \mathbf{1} \mathbf{1}^T \]

고유값:

\(\lambda_1 = 1 + (d-1) r\) (eigenvector \(\mathbf{1}\)).
\(\lambda_2 = \dots = \lambda_d = 1 - r\) (\(\mathbf{1}\) 직교 벡터).

Positive definite ⟺ 모든 고유값 > 0 ⟺ \(1 - r > 0\) AND \(1 + (d-1) r > 0\).

\[ -\frac{1}{d-1} < r < 1 \]

직관: 왜 \(r = -1/(d-1)\) 이 하한인가

\(d\) 개 랜덤변수가 모두 서로 \(r\) 의 상관이면, 일관된 공분산 구조가 존재해야 한다. \(r\) 이 너무 음수이면 “모두가 서로 반대 방향” 이라는 구조를 \(d\) 개 이상에서 만족 불가.

기하학적으로: \(d\) 개 단위 벡터가 서로 \(\arccos(r)\) 각도를 이루려면 \(\cos\) 각도 사이에 제약이 있다. \(d\) 가 많아질수록 “반대 방향” 이 희박해져 \(r\) 의 음수 하한이 0으로 수렴 (\(d \to \infty\)).

이 조건이 LKJ prior에서 \(R\) 의 support 를 제약하는 이유이며, Gibbs sampling 시 correlation 원소 업데이트의 boundary 조건이 된다.

5 Ch.15 심화 시리즈 결산

5.1 4편 논리 지도

[Ch.15 Overview] 03-15-0
    ↓ 9개 절 조망, 식 (15.1) 도입
[§ 15.1~15.3] 03-15-1: Exchangeable Batches + 선거 + Augmented
    ↓ 식 (15.1) varying-coefficients
    ↓ Intraclass correlation 동치성
    ↓ 선거 511 obs · non-hierarchical 실패 · 식 (15.2)
    ↓ 식 (15.3) 3-level augmented regression
[§ 15.4~15.6] 03-15-2: Slopes + Computation + ANOVA
    ↓ 식 (15.4)~(15.5) varying intercepts + slopes
    ↓ 식 (15.6) Scaled Inv-Wishart / LKJ
    ↓ Parameter expansion · Non-centered
    ↓ 식 (15.7)~(15.10) ANOVA batching
[§ 15.7~15.9] 03-15-3 (본편): Variance Hierarchies
    ↓ 9-component latin square + half-Cauchy
    ↓ Figure 15.5~15.6 비교
    ↓ 문헌 지도 + 연습 + Ch.15 결산

5.2 Ch.15 결산 실전 체크리스트

모형 설계 (01-15-0 + 01-15-1)

데이터에 자연 그룹화 존재하는가?
계수를 교환 가능 배치 로 구조화 가능한가?
No-pooling vs complete-pooling vs partial-pooling 중 선택했는가?
예측변수의 변동 수준 (level 1, 2, 3) 을 파악했는가?
인과적 관심이면 multilevel에서 confounding 재점검.

Prior 설계 (01-15-2)

\(\sigma_\beta\) 에 uniform, HalfNormal, HalfCauchy 중 선택 (not log-uniform).
Varying slopes면 공분산 prior: LKJ + HalfNormal (권장) 또는 Scaled Inv-Wishart.
그룹 수 \(J < 5\) 면 hyperparameter 민감도 점검 필수.
Intercept-slope 상관 \(\rho\) 를 추정 허용하는가?

계산 (01-15-2)

표준/non-centered parameterization 선택.
HMC divergence 발생 시 non-centered + target_accept 상향.
큰 계층 모형이면 parameter expansion 검토.
\(\hat{R} < 1.01\), ESS > 1000 확인.

여러 분산 계층화 (01-15-3)

여러 factor·여러 \(\sigma_k\) 가 있으면 공통 half-Cauchy hyperprior 고려.
Factor 간 scale 차이 크면 먼저 정규화.
Finite-pop vs superpop 질문 구분 (데이터 해석 시).

검증

Posterior predictive check (전체·그룹별).
Shrinkage 강도 시각화 (no-pooling vs partial-pooling 비교).
민감도 분석: \(\tau\) prior 변경이 결론에 영향?
\(\hat R\), ESS, divergence 모니터링.

보고

모수별 credible interval + 직관 설명.
ANOVA display로 factor 중요도 한 눈에.
Shrinkage 정도를 시각화.
인과 주장·새 그룹 예측 시 가정 명시.

5.3 구현 환경

기능	Python	R
계층 선형 모형 기본	`pymc`, `numpyro`	`brms`, `rstanarm`, `lme4`
Non-centered	Stan 수동 or `pymc`의 `ZeroSumNormal`	`brms` (자동)
LKJ correlation	`pymc.LKJCholeskyCov`, `numpyro`	`brms::prior()`
Half-Cauchy	`HalfCauchy`	`student_t(3, 0, s)`
Split-plot ANOVA	수동 Stan or PyMC	`lme4::lmer`, `afex`
MRP (선거 예측)	`pymc` + `statsmodels`	`brms::brm` + `survey`

6 Part IV 다음 편 예고

Ch.15 완결. Part IV 다음 장:

Ch.16 Generalized Linear Models — 정규성 가정 완화. Logistic·Poisson 계층 모형, MRP (Multilevel Regression and Poststratification) 의 베이즈 표준, 분리 문제와 cauchy prior.
Ch.17 Robust Inference — \(t\) 오차, robit regression, 8 schools 재방문.
Ch.18 Missing Data — Multiple imputation, MAR, ignorability, data augmentation.

Part IV는 Ch.14 → 15 → 16 → 17 → 18 이 “likelihood 확장” 의 계단이다.

Ch.14: 정규 likelihood + 평균 회귀.
Ch.15: 정규 likelihood + 그룹 구조.
Ch.16: 비정규 likelihood (Bernoulli, Poisson).
Ch.17: robust likelihood (\(t\), 혼합).
Ch.18: 결측 처리.

각 장이 이전 장의 엔진을 그대로 쓰면서 likelihood만 바꿈. 계층 구조는 Ch.15~18 에서 반복 등장.

7 관련 주제

선행 지식

후속 주제 (Part IV)

Ch.16 GLM — 계층 로지스틱·Poisson·MRP
Ch.17 Robust Inference — \(t\) 오차·robit
Ch.18 Missing Data — multiple imputation

관련 개념 (cross-category)

8 참고문헌

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.15 § 15.7~15.9. CRC Press.
Gelman, A. (2005). Analysis of Variance — Why It Is More Important Than Ever. Annals of Statistics, 33(1), 1-53.
Gelman, A. (2006). Prior Distributions for Variance Parameters in Hierarchical Models. Bayesian Analysis, 1(3), 515-533.
Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge.
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical Linear Models: Applications and Data Analysis Methods (2nd ed.). Sage.
Lindley, D. V., & Smith, A. F. M. (1972). Bayes Estimates for the Linear Model. JRSS B, 34, 1-41.
Robinson, G. K. (1991). That BLUP Is a Good Thing: The Estimation of Random Effects. Statistical Science, 6, 15-32.
Marquardt, D. W., & Snee, R. D. (1975). Ridge Regression in Practice. American Statistician, 29, 3-20.