Ch.15 § 15.1~15.3 심화 — 교환 가능 배치·대통령 선거 예측·Augmented Regression

Varying-coefficients 식 (15.1)·Intraclass correlation 동치성 완전 유도·선거 식 (15.2)·Augmented regression 식 (15.3)·1992 forecasting

Gelman BDA Ch.15의 첫 세 절을 한 편으로 다룬다. § 15.1 교환 가능한 계수 배치와 varying-coefficients 모형 \(\beta \sim N(1\alpha, \sigma_\beta^2 I)\) — no-pooling/complete-pooling/partial-pooling 세 극한, intraclass correlation 동치성 \(\rho = \sigma_\beta^2 / (\sigma^2 + \sigma_\beta^2)\) 완전 증명, mixed-effects 및 여러 세트의 varying coefficients, § 15.2 미국 대통령 선거 예측 예제 — 511 관측, 비계층 모형의 posterior predictive check 실패 (Figure 15.2), 식 (15.2) 계층 모형으로의 확장 (연도·지역-연도 indicator + 3가지 variance components), 1992 예측 시 새 파라미터 시뮬레이션, § 15.3 정규 prior를 추가 데이터로 해석 — 3-level augmented regression 식 (15.3) 완전 유도, 선거 예제에 적용 (J=75, J_*=55), 여러 동등한 모형 parameterization까지.

Statistics
Bayesian
Hierarchical-Models
Multilevel-Regression
Presidential-Forecast
저자

Kwangmin Kim

공개

2026년 04월 23일

1 개요

Ch.15 심화 시리즈의 첫 번째 편. § 15.1~15.3은 계층 회귀의 이론적 뼈대를 구성한다.

  • § 15.1 — “계수를 교환 가능한 배치로 묶는다” 는 기본 원리와 수학적 구조.
  • § 15.2 — 이 구조를 대통령 선거 예측 이라는 구체적 맥락에 적용. 비계층 모형의 실패 사례를 대조.
  • § 15.3 — 계층 prior를 Ch.14의 augmented regression 프레임으로 재해석하여 계산과 유도의 통일성 확보.
직관: 세 절의 흐름

Gelman의 구성 의도:

  1. § 15.1에서 추상 수식 (\(\beta \sim N(1\alpha, \sigma_\beta^2 I)\)) 로 계층 구조의 핵심을 정의.
  2. § 15.2에서 실제 데이터 (511개 선거구 관측) 에 대입하여 “왜 계층이 필요한가” 를 posterior predictive check로 증명.
  3. § 15.3에서 일반 프레임 (3-level + augmented regression) 으로 추상화하여 Ch.15 나머지 절의 도구상자 제공.

추상 → 구체 → 재추상 의 3단 구조. 통계 교재에서 흔히 보는 이론-예제-일반화 패턴이지만 여기서는 특히 유기적이다.

2 § 15.1 Regression Coefficients Exchangeable in Batches

2.1 출발점 — 문제 제기

Ch.14의 회귀는 \(n\) 개 관측치와 \(k\) 개 계수 \(\beta\) 의 관계를 다룬다. 그런데 실제 데이터는 종종 자연 그룹으로 묶여 있다.

  • 학생 성적 → 학생이 학급에 속함.
  • 선거구 득표 → 선거구가 에 속함.
  • 환자 결과 → 환자가 병원에 속함.

각 그룹에 고유 intercept 또는 slope을 두고 싶다. 방법은?

옵션 1 (No pooling): 각 그룹 \(j\) 에 독립 계수 \(\beta_j\), noninformative prior.

  • 문제: 그룹 \(j\) 의 관측이 적으면 \(\beta_j\)매우 불안정.
  • 극단: 그룹이 1개 관측치만 갖고 있으면 MLE undefined.

옵션 2 (Complete pooling): 모든 그룹이 같은 \(\beta\).

  • 문제: 그룹별 실제 차이를 무시.

옵션 3 (Partial pooling — 계층 모형): \(\beta_j\) 가 공통 모집단 분포에서 추출.

\[ \beta_j \sim N(\alpha, \sigma_\beta^2), \quad j = 1, \dots, J \]

  • 약한 데이터 (관측 적은 그룹) 는 \(\alpha\) (전체 평균) 으로 강하게 끌림.
  • 강한 데이터 (관측 많은 그룹) 는 거의 독립 추정.
  • \(\sigma_\beta\) 가 데이터에서 추정되어 shrinkage 강도가 자동 결정.

2.2 Varying-Coefficients 모형 — 식 (15.1)

\(\beta = (\beta_1, \dots, \beta_J)^T\) 가 교환 가능이면

\[ \beta \sim N(1 \alpha, \sigma_\beta^2 I) \quad \text{(15.1)} \]

  • \(1\) = \(J\) 차원 ones 벡터.
  • \(\alpha\) = scalar 평균 (hyperparameter).
  • \(\sigma_\beta\) = scalar 표준편차 (hyperparameter).

세 극한의 수학적 정의:

극한 해석
\(\sigma_\beta \to \infty\) No pooling \(\beta_j\) 들 독립, Ch.14 noninformative와 동치
\(\sigma_\beta = 0\) Complete pooling 모든 \(\beta_j = \alpha\), 단일 계수
\(\sigma_\beta\) 중간 Partial pooling 데이터와 전체 평균의 절충

2.3 Prior on \((\alpha, \sigma_\beta)\)

\(\alpha\) 에는 보통 uniform 또는 weakly informative. 문제는 \(\sigma_\beta\).

Gelman의 경고: \(\log \sigma_\beta\) 에 uniform은 쓰면 안 된다.

이유: \(p(\log \sigma_\beta) \propto 1 \Leftrightarrow p(\sigma_\beta) \propto 1/\sigma_\beta\). \(\sigma_\beta \to 0\) 에서 발산. Ch.5에서 본 것처럼 데이터의 likelihood가 \(\sigma_\beta = 0\) 에서 유한값이면 사후 mass 전부가 0 근처에 몰려 improper가 된다.

대안:

  • Uniform on \(\sigma_\beta\) (positive half): 간단하고 Gelman-Rubin (1996) 등 권장.
  • Half-Normal(\(0, s\)): 현대 Stan의 기본 weakly informative.
  • Half-Cauchy(\(0, s\)) (Gelman 2006): 두꺼운 꼬리, 극단값 허용.
  • Scaled Inv-\(\chi^2(\nu, s^2)\) with small \(\nu\) (e.g., 2): Gelman 교재의 언급된 옵션.
핵심: Variance prior 선택의 중요성

그룹 수 \(J\) 가 작으면 (\(J < 5\)) \(\sigma_\beta\) 가 데이터로부터 거의 추정되지 않는다. 이때 prior가 사후에 지배적 영향. 따라서:

  • \(J \geq 10\): prior 형태 민감도 적음, 대부분 선택 OK.
  • \(5 \leq J < 10\): prior 민감도 점검 필수, weakly informative 권장.
  • \(J < 5\): prior가 주된 결정자. 도메인 지식 없으면 모형이 신뢰성 부족.

Gelman의 반복적 조언: “Hierarchical model에 bottleneck은 계산이 아니라 top-level의 데이터 부족이다.”

2.4 Intraclass Correlation — 완전 유도

정리: Varying-coefficients 모형이 within-group correlation 모형과 동치임을 증명.

Varying-coefficients model:

\[ y_i = \alpha_{g(i)} + \epsilon_i, \quad \alpha_j \sim N(\mu, \sigma_\beta^2), \quad \epsilon_i \sim N(0, \sigma^2) \]

여기서 \(g(i)\) 는 관측 \(i\) 가 속한 그룹. 즉

\[ y_i = \mu + (\alpha_{g(i)} - \mu) + \epsilon_i \]

평균과 분산:

\[ \mathbb{E}(y_i) = \mu \]

\[ \mathrm{Var}(y_i) = \mathrm{Var}(\alpha_{g(i)}) + \mathrm{Var}(\epsilon_i) = \sigma_\beta^2 + \sigma^2 \equiv \eta^2 \]

공분산 (두 관측이 같은 그룹 \(j\) 에 속함):

\[ \mathrm{Cov}(y_{i_1}, y_{i_2}) = \mathrm{Cov}(\alpha_j + \epsilon_{i_1}, \alpha_j + \epsilon_{i_2}) = \mathrm{Var}(\alpha_j) + 0 + 0 + 0 = \sigma_\beta^2 \]

공분산 (서로 다른 그룹):

\[ \mathrm{Cov}(y_{i_1}, y_{i_2}) = \mathrm{Cov}(\alpha_{j_1}, \alpha_{j_2}) + 0 = 0 \]

(\(\alpha_{j_1}, \alpha_{j_2}\) 는 독립이므로).

Intraclass correlation \(\rho\) (같은 그룹 내 상관):

\[ \rho = \frac{\mathrm{Cov}(y_{i_1}, y_{i_2})}{\sqrt{\mathrm{Var}(y_{i_1}) \mathrm{Var}(y_{i_2})}} = \frac{\sigma_\beta^2}{\eta^2} = \frac{\sigma_\beta^2}{\sigma^2 + \sigma_\beta^2} \]

\[ \boxed{ \rho = \frac{\sigma_\beta^2}{\sigma^2 + \sigma_\beta^2}, \quad \eta^2 = \sigma^2 + \sigma_\beta^2 } \]

직관: 왜 이 동치성이 중요한가

두 가지 “같은 현상” 의 다른 표현:

  1. Varying coefficients (levels): “그룹마다 intercept가 다르다” → \(\sigma_\beta^2\) 만큼의 그룹 간 변동.
  2. Intraclass correlation (covariance): “같은 그룹 관측들이 서로 상관된다” → \(\rho\) 의 상관.

두 설명은 수학적으로 동등. 계수 공간에서 “random effects” 로 보든, 관측 공간에서 “correlated errors” 로 보든 같은 결과.

이 동치성의 실무 함의:

  • Cluster sampling 에서 design effect \(1 + (n_g - 1) \rho\) 는 정확히 varying-intercepts hierarchical model의 효과.
  • Repeated measures 에서 within-subject correlation 은 subject-level random intercept로 표현 가능.
  • Time series AR(1) 은 random effects 접근으로 일부 표현.

즉 “계층 모형”과 “상관 오차 모형” 은 같은 도구의 두 얼굴이다.

2.5 Mixed-Effects Model — 고전 용어와의 다리

고전 통계학 용어:

  • Fixed effects: 특정 관측 대상에 고유한 모수, 고정된 집합.
  • Random effects: 교환 가능한 모집단에서 추출된 모수.

Gelman의 베이즈 관점에서는 둘 다 random (모든 미지수는 확률변수). 구분은 prior 선택에 있다:

  • “Fixed” = noninformative prior (즉 \(\sigma_\beta = \infty\)).
  • “Random” = informative prior (즉 \(\sigma_\beta\) 유한, 데이터로 추정).

Mixed-effects 모형: 두 종류를 섞음. \(\beta = (\beta^{(F)}, \beta^{(R)})\), 전자는 fixed, 후자는 random:

\[ \beta^{(F)} \sim \text{uniform}, \quad \beta^{(R)} \sim N(0, \sigma_\beta^2 I) \]

: 학생 성적 회귀

\[ y_{ij} = \beta_0 + \beta_1 x_{ij} + u_j + \epsilon_{ij} \]

  • \(\beta_0, \beta_1\): fixed (전체 절편·기울기).
  • \(u_j \sim N(0, \sigma_u^2)\): random intercept per school.

이것이 lme4::lmer(y ~ x + (1|school)) R 표기법의 실체.

2.6 여러 세트의 Varying Coefficients

\(J\) 개 계수를 \(K\) 개 클러스터로 분할, 각 클러스터가 다른 prior:

\[ \beta_j \sim N(\alpha_{c(j)}, \sigma_{\beta, c(j)}^2), \quad c(j) \in \{1, \dots, K\} \]

예: 선거 모형에서

  • Cluster 1 = 국가 수준 계수 (\(\alpha = 0\), \(\sigma_1 = \tau_\delta\), 11개).
  • Cluster 2 = 남부 지역 계수 (\(\alpha = 0\), \(\sigma_2 = \tau_{\gamma 2}\), 11개).
  • Cluster 3 = 비남부 지역 계수 (\(\alpha = 0\), \(\sigma_3 = \tau_{\gamma 1}\), 33개).
  • Cluster 4 = 다른 예측 변수 계수 (fixed, noninformative, 20개).

이 구조가 § 15.2 선거 예제의 실체. § 15.7 ANOVA에서 더 일반적으로 다룸.

3 § 15.2 대통령 선거 예측 — 비계층 실패 + 계층 성공

3.1 데이터와 목표

  • 기간: 1948~1988 미국 대통령 선거 (11회).
  • 단위: 각 주 × 각 선거년도 = 50 × 11 = 511 관측 (DC·3당 승리 주 제외).
  • 결과 변수 \(y_{st}\): 주 \(s\), 연도 \(t\) 의 민주당 2자 득표율 비율.
  • 목표: 1992년 주별 선거 결과 사전 예측.

3.2 3단계 예측 변수 (Table 15.1)

Gelman이 사용한 예측 변수는 변동 스케일에 따라 3분류.

수준 변수 예 Unique 값 수 변동
Nationwide 9월 여론조사, GNP 성장률 11 (선거년도당 하나) 국가 수준 시간 변동
Regional 남부 indicator · (남부 × 1964) 4개 지역 지역 수준 변동
Statewide 이전 선거 득표율, 주 이데올로기 50 × 11 주 × 연도 변동
직관: 왜 3단계 구분이 문제인가

511개 관측 중 nationwide 변수는 본질적으로 11개 값만 갖는다 (선거년도당 unique). 만약 OLS로 이 변수의 계수를 추정하면:

  • 표준 오차는 “511개 관측이 독립” 가정 하에 계산됨 → 너무 작게 산출.
  • 실제로는 “11개 연도” 만큼의 정보이므로 표준 오차가 약 \(\sqrt{511/11} \approx 7\)배 커야 정직.

이것이 “nationwide 변수 추정의 over-confidence” 문제. Gelman의 표현: “When variables only vary at a higher level, the effective sample size for those coefficients is the number of higher-level units, not the total \(n\).”

계층 모형은 이 effective sample size 문제를 정직하게 해결한다.

3.3 비계층 모형의 실패 — Figure 15.2

Gelman이 먼저 시도한 것: Table 15.1의 모든 변수를 OLS로 한 번에 적합 (Ch.14 기법). 그리고 posterior predictive check:

Test 통계량:

\[ T(y, \beta) = \sqrt{\frac{1}{11} \sum_{t=1}^{11} \bar{r}_t^2} \]

여기서 \(\bar{r}_t\) 는 연도 \(t\)전국 평균 잔차.

Replication:

  1. \((\beta, \sigma) \sim\) posterior.
  2. \(y^{\text{rep}} \sim N(X\beta, \sigma^2 I)\).
  3. \(T(y^{\text{rep}}, \beta)\) 계산.

Figure 15.2 결과: 200개 시뮬레이션 점 \((T(y, \beta), T(y^{\text{rep}}, \beta))\)45도 선 아래로 크게 치우침. 즉 실제 데이터의 연도 변동이 모형 예측보다 훨씬 크다.

진단: 비계층 모형은 “같은 연도 내 주들 간 상관” 을 반영하지 못해 과신한다. 실제로는 특정 연도에 민주당이 전국적으로 강세면 모든 주가 함께 움직이는데, 모형은 이를 모른다.

3.4 계층 모형으로의 확장 — 식 (15.2)

Gelman의 해법: 연도 indicator와 지역-연도 indicator를 추가하되, 이들에 교환 가능 모집단 분포 를 부여.

\[ \begin{aligned} y_{st} &\sim N(X_{st} \beta + \gamma_{r(s), t} + \delta_t, \sigma^2) \\ \gamma_{rt} &\sim \begin{cases} N(0, \tau_{\gamma 1}^2) & \text{if } r \in \{1, 2, 3\} \; (\text{non-South}) \\ N(0, \tau_{\gamma 2}^2) & \text{if } r = 4 \; (\text{South}) \end{cases} \\ \delta_t &\sim N(0, \tau_\delta^2) \end{aligned} \quad \text{(15.2)} \]

요소 해석:

  • \(\gamma_{rt}\): 지역 \(r\), 연도 \(t\) 의 residual effect (44개: 4 지역 × 11 연도).
  • \(\delta_t\): 연도 \(t\) 의 국가 residual (11개).
  • \(\tau_{\gamma 1}, \tau_{\gamma 2}\): 비남부·남부 지역 효과의 표준편차.
  • \(\tau_\delta\): 국가 연도 효과의 표준편차.

남부를 분리한 이유: 미국 정치학에서 남부 주들이 다른 지역과 구별되는 시기별 강한 이동성 (민주당 → 공화당 전환 등). 같은 \(\tau\) 로 강제하면 남부 변동성이 다른 지역을 끌어올려 왜곡.

3가지 분산 컴포넌트 + 오차 \(\sigma\) = 총 4개 variance 모수 → 각각에 uniform hyperprior.

3.5 Prior 구조 정리

식 (15.2) 를 식 (15.1) 프레임으로 다시 쓰면:

\[ \beta_{\text{all}} = (\beta_1, \dots, \beta_{20}, \gamma_{11}, \dots, \gamma_{4, 11}, \delta_1, \dots, \delta_{11}) \in \mathbb{R}^{75} \]

\(\beta_{\text{all}} \sim N(0, \Sigma_\beta)\), 대각 공분산

\[ \Sigma_\beta = \text{diag}\Big( \underbrace{\infty, \dots, \infty}_{20 \text{개 fixed}}, \underbrace{\tau_{\gamma 1}^2, \dots}_{33 \text{개 non-South}}, \underbrace{\tau_{\gamma 2}^2, \dots}_{11 \text{개 South}}, \underbrace{\tau_\delta^2, \dots}_{11 \text{개 year}} \Big) \]

20개 \(\beta\) 는 noninformative (fixed effects), 55개는 informative prior (random effects).

3.6 1992년 예측 — 새 파라미터의 Sampling

여기서 미묘함: 1992는 학습 데이터에 없던 연도. 어떻게 예측?

문제: \(\delta_{1992}\)\(\gamma_{r, 1992}\) (4개) 는 posterior에 없다. 이 5개 새 파라미터는 어디서 얻는가?

해법: posterior predictive sampling. 각 posterior draw에서 추정된 \((\tau_\delta, \tau_{\gamma 1}, \tau_{\gamma 2})\) 를 사용해 새 파라미터를 모집단 분포에서 추출:

\[ \delta_{1992}^{(s)} \sim N(0, (\tau_\delta^{(s)})^2) \]

\[ \gamma_{r, 1992}^{(s)} \sim \begin{cases} N(0, (\tau_{\gamma 1}^{(s)})^2) & r \in \{1,2,3\} \\ N(0, (\tau_{\gamma 2}^{(s)})^2) & r = 4 \end{cases} \]

이제 1992 예측:

\[ y_{s, 1992}^{(s)} \sim N\left(X_{s, 1992} \beta^{(s)} + \gamma_{r(s), 1992}^{(s)} + \delta_{1992}^{(s)}, (\sigma^{(s)})^2\right) \]

직관: 왜 새 파라미터 시뮬레이션이 중요한가

비계층 모형에서는 “미래 연도의 국가 효과” 같은 개념이 없다. 단지 \(\beta\) 계수 + 오차 \(\epsilon\). 예측 불확실성은 \(\sigma^2\) 하나.

계층 모형은 3겹 불확실성을 전파한다:

  1. \(\beta, \tau\) 등 모수 불확실성 (posterior spread).
  2. \(\delta_{1992}, \gamma_{r, 1992}\)모집단 추출 불확실성.
  3. 관측 오차 \(\epsilon\).

두 번째 층이 바로 “새 선거년도의 국가 변동성” 을 정직하게 포함시키는 메커니즘. 비계층 모형이 놓친 부분.

1992 예측에서 이 층이 예측 구간을 현실적으로 넓게 만든다. Gelman이 Figure 6.1에서 보고한 “각 주 예측 표준오차 5~6%” 는 단순 OLS보다 넓어진 결과이다.

3.7 계층 모형의 성공 — Figure 15.3

동일한 posterior predictive check를 계층 모형에서 재수행. Figure 15.3:

  • 200개 점이 45도 선 주변에 고루 분산 → test 통계량이 posterior predictive 분포와 일치.
  • 모형이 국가 변동성을 정직하게 포착.

비교:

진단 비계층 (Fig 15.2) 계층 (Fig 15.3)
\(T(y, \beta)\) vs \(T(y^{\text{rep}}, \beta)\) 실제가 훨씬 큼 균형
결론 국가 변동성 underestimate 적절

3.8 3가지 이점 (Gelman 요약)

  1. 상관 모델링: 연도·지역 내 상관을 정식으로 포함.
  2. 연속 보간: 비계층 (\(\tau = \infty\)) 과 단순 OLS (\(\tau = 0\)) 의 합리적 절충을 데이터가 결정.
  3. 예측 정직성: 새 연도·지역 예측의 불확실성을 포함.

3.9 결과 해석 (Table 15.1 재결과)

계층 모형 적합 후:

  • Table 15.1 계수들 (nationwide + statewide) 은 거의 변하지 않음 — 주된 관심사에 영향 적음.
  • \(\tau_\delta, \tau_{\gamma 1}, \tau_{\gamma 2}\) 추정: 각각 데이터에서 추정되나 precision은 낮음 (11 연도로 variance 추정은 약함).

Gelman의 핵심 교훈: “Full Bayesian approach preserves uncertainty about hyperparameters — treating them as fixed point estimates would underestimate overall uncertainty.”

4 § 15.3 정규 Prior를 추가 데이터로 해석 — Augmented Regression

4.1 일반 3-Level 모형

\[ \begin{aligned} y | X, \beta, \Sigma_y &\sim N(X\beta, \Sigma_y) &\text{(likelihood, $n$ 데이터)} \\ \beta | X_\beta, \alpha, \Sigma_\beta &\sim N(X_\beta \alpha, \Sigma_\beta) &\text{(population, $J$ 모수)} \\ \alpha | \alpha_0, \Sigma_\alpha &\sim N(\alpha_0, \Sigma_\alpha) &\text{(hyperprior, $K$ 모수)} \end{aligned} \]

  • Level 1 (likelihood): 관측 \(y\)\(\beta\) 에 따름.
  • Level 2 (population): \(\beta\) 가 group-level 예측변수 \(X_\beta\) 와 hyperparameter \(\alpha\) 에 따름.
  • Level 3 (hyperprior): \(\alpha\) 자체도 prior.

4.2 Augmented Regression — 식 (15.3)

Gelman의 우아한 관찰: 3-level 모형 전체를 단일 가중 선형 회귀로 쓸 수 있다.

\(\gamma = (\beta, \alpha)\) 를 하나의 벡터로 묶고 (\(J + K\) 차원), augmented data:

\[ y_* = \begin{pmatrix} y \\ 0_J \\ \alpha_0 \end{pmatrix}, \quad X_* = \begin{pmatrix} X & 0 \\ I_J & -X_\beta \\ 0 & I_K \end{pmatrix}, \quad \Sigma_*^{-1} = \begin{pmatrix} \Sigma_y^{-1} & 0 & 0 \\ 0 & \Sigma_\beta^{-1} & 0 \\ 0 & 0 & \Sigma_\alpha^{-1} \end{pmatrix} \quad \text{(15.3)} \]

그러면

\[ y_* | X_*, \gamma, \Sigma_* \sim N(X_* \gamma, \Sigma_*) \]

이것이 단일 가중 선형 회귀. \(\gamma\) 에 대한 사후는 § 14.7의 weighted regression 공식으로 얻어진다.

4.3 유도 — 왜 이 구조가 맞는가

Augmented likelihood 를 풀어쓰면:

첫 번째 블록 (원 데이터):

\[ y = X\beta + \epsilon_y, \quad \epsilon_y \sim N(0, \Sigma_y) \]

이는 $y_* 의 처음 \(n\) 성분. \(X_*\) 의 처음 \(n\) 행은 \((X, 0)\)\(\gamma\) 에 곱하면 \(X\beta + 0 \cdot \alpha = X\beta\). ✓

두 번째 블록 (population distribution):

\[ 0 = I_J \beta - X_\beta \alpha + \epsilon_\beta, \quad \epsilon_\beta \sim N(0, \Sigma_\beta) \]

\(\beta - X_\beta \alpha + \epsilon_\beta = 0\), 바꿔 쓰면 \(\beta = X_\beta \alpha - \epsilon_\beta\), 즉 \(\beta \sim N(X_\beta \alpha, \Sigma_\beta)\). ✓

세 번째 블록 (hyperprior):

\[ \alpha_0 = I_K \alpha + \epsilon_\alpha, \quad \epsilon_\alpha \sim N(0, \Sigma_\alpha) \]

\(\alpha \sim N(\alpha_0, \Sigma_\alpha)\) (혹은 \(\alpha_0\) 를 “관측”하고 \(\alpha\) 를 추정). ✓

3가지 블록을 쌓으면 augmented 정규 회귀가 되며, 사후는 \(\gamma = (\beta, \alpha)\) 에 대한 조건부 정규.

직관: “Prior = 가상의 관측”

식 (15.3) 의 철학: 정규 prior는 가상의 관측과 수학적으로 동등.

  • Level 2 “\(\beta \sim N(X_\beta \alpha, \Sigma_\beta)\)” = “\(\beta\)\(X_\beta \alpha\) 근처에서 \(\sqrt{\Sigma_\beta}\) 의 정밀도로 관측한 것처럼 취급.”
  • Level 3 “\(\alpha \sim N(\alpha_0, \Sigma_\alpha)\)” = “\(\alpha\)\(\alpha_0\) 근처에서 \(\sqrt{\Sigma_\alpha}\) 의 정밀도로 관측.”

따라서 모든 prior 정보가 데이터처럼 취급. Ch.14 § 14.8의 prior-as-data 트릭이 계층 모형에서 자연스럽게 일반화된다.

이 관점의 힘:

  1. 계산 통일성: 모든 계층이 같은 regression 엔진.
  2. 해석 용이: “prior는 \(n_0\) 개 가상 데이터 값” 단위로 직관화.
  3. Noninformative 확장: 해당 행의 분산을 \(\infty\) 로 → 자동으로 해당 성분이 사라짐.

4.4 Noninformative 성분의 제거

일부 \(\beta\) 또는 \(\alpha\) 가 noninformative prior 를 가지면 (\(\sigma = \infty\)) 해당 행·열을 단순히 제거. 수학적으로 동등.

선거 예제 적용:

  • \(\beta\) 전체 \(J = 75\) 성분.
  • Fixed effects (noninformative): 20개 (Table 15.1 변수 + 상수).
  • Informative: 55개 (11 연도 + 44 지역-연도).
  • \(\alpha\) (hyperparameter): 평균이 모두 0으로 고정 → \(K_* = 0\).

결과: Augmented design은 \(n + 55\) 행 (\(511 + 55 = 566\)), \(J + K = 75 + 0 = 75\) 열.

4.5 여러 Parameterization의 동등성

Gelman의 중요한 지적: 같은 계층 모형을 여러 방식으로 쓸 수 있다.

8 Schools 예:

방식 1:

\[ y_j \sim N(\theta_j, \sigma_j^2), \quad \theta_j \sim N(\mu, \tau^2) \]

방식 2:

\[ y_j \sim N(\beta_0 + \beta_j, \sigma_j^2), \quad \beta_j \sim N(0, \tau^2) \]

두 방식은 \(\theta_j = \beta_0 + \beta_j\), \(\mu = \beta_0\)수학적 동등.

선거 예제 동등 방식:

방식 1: \(y \sim N(X\beta, \sigma^2 I)\), 70개 예측변수 + 정규 prior. 방식 2: \(y \sim N(X\beta, \sigma^2 I)\), 20개 예측변수 + 3개 독립 오차 항 (연도·지역-연도·주-연도).

구현 관점에서 방식 1은 “거대한 augmented regression”, 방식 2는 “3-way random effects ANOVA”. 다른 도구지만 같은 사후 분포.

4.6 Group-Level Covariate의 위치

Level 2에서 \(\beta | \alpha, X_\beta \sim N(X_\beta \alpha, \Sigma_\beta)\)\(X_\beta\) 는 “group-level 예측변수”. 이 변수를 어디에 넣을 수 있는가?

옵션 A: Level 2에 \(X_\beta \alpha\) 로.

\[ \beta_j = X_{\beta, j} \alpha + u_j \]

예: 학교 \(j\) 의 정책 지표를 \(X_\beta\) 에 → 학교 effect \(\beta_j\) 의 평균이 정책에 따라 결정.

옵션 B: Level 1에 통합.

\[ y_{ij} = X_{\beta, j} \alpha + u_j + \epsilon_{ij} \]

학교 정책 × 학생 변수 → 직접 likelihood 회귀에 들어감.

수학적 동등: 두 방식이 같은 사후를 준다. 선택은 해석 편의.

4.7 선거 예제의 augmented 구체 형태

\(y\) : 511 × 1, \(X\): 511 × 75 (20개 Table 15.1 변수 + 44 지역-연도 indicator + 11 연도 indicator), \(\beta\): 75 × 1.

\(\Sigma_\beta = \text{diag}(\infty \times 20, \tau_{\gamma 1}^2 \times 33, \tau_{\gamma 2}^2 \times 11, \tau_\delta^2 \times 11)\).

Noninformative 성분 (20개) 제거 후 augmented regression은

\[ y_* = \begin{pmatrix} y_{511} \\ 0_{55} \end{pmatrix}, \quad X_* = \begin{pmatrix} X_{511 \times 75} \\ [0_{55 \times 20}, I_{55}] \end{pmatrix} \]

\(\Sigma_* = \text{diag}(\sigma^2 I_{511}, \tau_{\gamma 1}^2 I_{33}, \tau_{\gamma 2}^2 I_{11}, \tau_\delta^2 I_{11})\).

\((\sigma, \tau_{\gamma 1}, \tau_{\gamma 2}, \tau_\delta)\) 조건부로 가중 회귀 → Gibbs sampler가 이 블록을 교대 업데이트.

5 Python 구현 — 선거 예제 축소판

import numpy as np
import pymc as pm
import arviz as az

rng = np.random.default_rng(42)

# simulate a reduced version of the election example
# 3 regions, 5 years, ~10 states per region → 150 obs
n_regions, n_years, n_states = 3, 5, 10
n = n_regions * n_years * n_states  # 150

# build data
states = np.arange(n)
year_idx = np.repeat(np.tile(np.arange(n_years), n_regions), n_states)
region_idx = np.repeat(np.arange(n_regions), n_years * n_states)

# nationwide + statewide predictors
n_predictors = 3
X_state = rng.standard_normal((n, n_predictors))  # state-level
X_nation = np.column_stack([np.ones(n),
                             rng.standard_normal(n_years)[year_idx],  # national poll
                             rng.standard_normal(n_years)[year_idx]])  # GNP
X = np.hstack([X_state, X_nation])

# true parameters
beta_true = np.array([0.5, -0.3, 0.4, 0.5, 0.2, -0.1])  # 6 fixed coefs
tau_delta_true = 0.15
tau_gamma_true = 0.08
sigma_true = 0.05

delta_true = rng.normal(0, tau_delta_true, n_years)
gamma_true = rng.normal(0, tau_gamma_true, (n_regions, n_years))

# simulate y
y = (X @ beta_true
     + delta_true[year_idx]
     + gamma_true[region_idx, year_idx]
     + rng.normal(0, sigma_true, n))


# hierarchical model
with pm.Model() as election_model:
    # hyperpriors on variance components (half-normal)
    tau_delta = pm.HalfNormal("tau_delta", sigma=0.5)
    tau_gamma = pm.HalfNormal("tau_gamma", sigma=0.5)
    sigma = pm.HalfNormal("sigma", sigma=0.5)

    # non-centered for delta_t (year effects)
    delta_raw = pm.Normal("delta_raw", 0, 1, shape=n_years)
    delta = pm.Deterministic("delta", tau_delta * delta_raw)

    # non-centered for gamma_rt (region x year)
    gamma_raw = pm.Normal("gamma_raw", 0, 1, shape=(n_regions, n_years))
    gamma = pm.Deterministic("gamma", tau_gamma * gamma_raw)

    # fixed effects
    beta = pm.Normal("beta", 0, 10, shape=X.shape[1])

    mu = X @ beta + delta[year_idx] + gamma[region_idx, year_idx]
    pm.Normal("y_obs", mu=mu, sigma=sigma, observed=y)

    trace = pm.sample(2000, tune=1000, target_accept=0.95, chains=4)


print(az.summary(trace, var_names=["beta", "tau_delta", "tau_gamma", "sigma"]))
print(f"\nTrue beta: {beta_true}")
print(f"True tau_delta: {tau_delta_true}, tau_gamma: {tau_gamma_true}, sigma: {sigma_true}")


# posterior predictive for a new year (like 1992 prediction)
with election_model:
    # sample new year effects from population
    pm.Normal("delta_new", 0, tau_delta)
    pm.Normal("gamma_new", 0, tau_gamma, shape=n_regions)
    # draw: predictions for new year at given X_new and region_new

예상 출력:

                 mean     sd  hdi_3%  hdi_97%  r_hat
beta[0]          0.50   0.04    0.43     0.58   1.00
beta[1]         -0.30   0.04   -0.38    -0.22   1.00
beta[2]          0.41   0.04    0.34     0.49   1.00
beta[3]          0.47   0.09    0.30     0.64   1.00
beta[4]          0.19   0.08    0.05     0.34   1.00
beta[5]         -0.11   0.08   -0.26     0.04   1.00
tau_delta        0.12   0.07    0.02     0.24   1.00
tau_gamma        0.07   0.03    0.02     0.13   1.00
sigma            0.05   0.00    0.05     0.06   1.00

True beta: [0.5, -0.3, 0.4, 0.5, 0.2, -0.1]
True tau_delta: 0.15, tau_gamma: 0.08, sigma: 0.05

결과 해석:

  • 6개 beta: 참값 근처에 정확히 수렴.
  • \(\tau_\delta = 0.12\) (참 0.15), \(\tau_\gamma = 0.07\) (참 0.08) — variance components는 덜 정확하나 credible interval이 참값 포함.
  • \(\sigma = 0.05\): 정확.
  • 모든 r_hat = 1.00: non-centered parameterization 덕분에 수렴 매우 안정.

6 § 15.1~15.3 실전 체크리스트

§ 15.1 — 교환 가능 배치

§ 15.2 — 선거 예제 교훈

§ 15.3 — Augmented Regression

7 관련 주제

선행 지식

후속 주제

관련 개념 (cross-category)

8 참고문헌

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.15 § 15.1~15.3. CRC Press.
  • Gelman, A., & King, G. (1993). Why Are American Presidential Election Campaign Polls So Variable When Votes Are So Predictable? British Journal of Political Science, 23, 409-451.
  • Boscardin, W. J., & Gelman, A. (1996). Bayesian Regression with Parametric Models for Heteroscedasticity. Advances in Econometrics, 11, 87-109.
  • Gelman, A., & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge.
  • Gelman, A. (2006). Prior Distributions for Variance Parameters in Hierarchical Models. Bayesian Analysis, 1(3), 515-533.
  • Rubin, D. B. (1981). Estimation in Parallel Randomized Experiments. Journal of Educational Statistics, 6, 377-401.

Subscribe

Enjoy this blog? Get notified of new posts by email: