1 들어가며 — 본 편의 자리
Ch.21 의 사다리:
| 편 | 주제 | 핵심 |
|---|---|---|
| Overview (04-21-0) | Ch.21 의 큰 그림 | GP 정의, kernel 가족, marginal likelihood |
| § 21.1~21.3 (04-21-1) | GP regression 의 핵심 | 식 (21.1) 유도·Birthday·Latent GP·Laplace 식 (21.3) |
| § 21.4~21.7 (본 편) | 함수·분포까지 확장 + 연습 | FDA·LGP density·식 (21.4)·식 (21.5)·9문제 풀이 |
- 개체마다 함수가 다른 데이터 (FDA) 를 GP 가 어떻게 spline 보다 자연스럽게 처리하는가?
- 회귀 함수가 아닌 분포 자체 에 비모수 사전분포를 두려면 어떻게 해야 하는가? (LGP)
- 식 (21.4) density regression 의 kernel 이 결합 입력 \((x, y)\) 에 작용하는 의미는?
- 식 (21.5) latent-variable regression 이 LGP 의 정규화 적분 부담을 어떻게 우회하는가?
- § 21.7 의 9 연습문제는 GP 의 어떤 측면을 각각 검증하는가?
2 § 21.4 Functional Data Analysis — 각 개체가 함수인 데이터
2.1 동기 — 데이터 단위가 점이 아니라 곡선
전통 회귀에서 한 개체 \(i\) 의 데이터는 \((x_i, y_i)\) — 스칼라 또는 벡터. 함수형 데이터 (functional data) 는 한 개체가 함수 자체 다.
| 분야 | 개체 | 함수 \(f_i\) |
|---|---|---|
| 의학 | 환자 | 시간 → 혈압·체중·심박수 |
| 교육 | 학생 | 학년 → 시험 점수 |
| 경제 | 국가 | 시점 → GDP·실업률 |
| 환경 | 측정소 | 시간 → 미세먼지·온도 |
| 생화학 | RT-PCR well | 사이클 → 형광 강도 |
실무에서는 함수 \(f_i\) 를 유한 측정점에서 관측: \(y_{ij} = f_i(t_{ij}) + \epsilon_{ij}\), \(t_{ij} \in \mathcal{T}\).
2.2 전통 FDA 와 GP-FDA 의 차이
전통 FDA (Ramsay-Silverman 식 spline):
- 각 \(f_i\) 를 basis 가중합으로 표현: \(f_i(t) = \sum_h c_{ih} b_h(t)\).
- 계수 \(c_{ih}\) 에 분포 부여.
- 평균 함수·주성분 (FPCA) 분석.
GP-FDA:
\[ y_{ij} \sim N\bigl(f(x_i, t_{ij}), \sigma^2\bigr), \qquad f \sim \text{GP}(m, k) \]
\(x_i\) = 개체 특성 (sex, age 등), \(t_{ij}\) = 측정 시점. 시간 차원을 입력에 추가 하여 GP 한 번에 모든 개체와 모든 시점을 동시에 처리.
전통 FDA 가 “함수 공간 위의 분포” 를 직접 다뤘다면, GP-FDA 는 더 단순한 트릭을 쓴다 — 함수 \(f(x, t)\) 의 입력에 시간을 끼워 넣는다.
\(f\) 는 \((x, t)\) 의 2 차원 또는 그 이상 의 함수. GP regression 의 기계가 그대로 작동.
장점: 별도 functional machinery 불필요. anisotropic kernel 로 \(x\) 차원과 \(t\) 차원의 smoothness 를 독립 제어. 측정 시점이 개체마다 달라도 자동 처리 (전통 FDA 는 이 경우 보간 필요).
단점: 개체 수 \(n\) + 평균 측정 횟수 \(m\) 일 때 총 \(nm\) 점이므로 \(O((nm)^3)\). 일반적으로 sparse GP 또는 separable approximation 필요.
2.3 Separable Kernel — 개체 × 시간
GP-FDA 의 일반적 kernel 형태:
\[ k\bigl((x, t), (x', t')\bigr) = \tau^2 \exp\left( -\sum_{j=1}^p \frac{(x_j - x_j')^2}{2\ell_j^2} - \frac{(t - t')^2}{2\ell_{p+1}^2} \right) \]
ARD 가 자동으로 변수 선택까지 해 준다.
Separable 형태: \(k = k_x(x, x') \cdot k_t(t, t')\). 이 경우 행렬 구조가 Kronecker product:
\[ K = K_x \otimes K_t \]
\(K_x\) 는 \(n \times n\), \(K_t\) 는 \(m \times m\). Cholesky 가 \(O(n^3 + m^3)\) 로 줄어든다 (full \(O((nm)^3)\) 대비 큰 이득).
\(k = k_x \cdot k_t\) 의 의미: 두 데이터 포인트 \((x, t)\) 와 \((x', t')\) 의 함수 값 닮음은 \(x\) 가 닮고 + \(t\) 가 닮음 의 곱.
예: 환자 trajectory 모델에서
- 환자 두 명이 비슷한 특성 (age·sex 비슷) → \(k_x\) 큼.
- 측정 시점이 비슷 → \(k_t\) 큼.
- 둘 다 만족해야 trajectory 값이 비슷.
비-separable kernel 은 표현력이 더 크지만 (예: “젊은 환자는 시간 따라 빨리 변한다” 같은 시간 × 특성 상호작용), 계산 비용이 다시 \(O((nm)^3)\).
2.4 응용 — RT-PCR 형광 곡선
PCR (polymerase chain reaction) 장비에서 각 well 마다 사이클 (\(t = 1, \ldots, 40\)) 별 형광 강도 (\(y\)) 측정. 96-well plate 면 96 개 곡선.
- \(x_i\) = 시료 농도 (log10 copy 수).
- \(t_{ij}\) = 사이클.
- \(y_{ij}\) = 형광 강도.
GP-FDA 모델:
\[ y_{ij} = f(x_i, t_{ij}) + \epsilon_{ij}, \qquad f \sim \text{GP}(0, k_{\text{aniso}}) \]
장점:
- 각 well 의 baseline·plateau·midpoint 가 자동 학습.
- well 간 정보 공유로 noisy well 의 추정 안정.
- 외삽 시 “비슷한 농도의 well” 의 패턴 차용.
Ch.5 hierarchical models 에서 그룹별 parameter 가 공통 hyperprior 를 통해 정보 공유. GP-FDA 는 그룹별 함수 가 공통 GP prior 를 통해 정보 공유.
전자: parameter 차원이 그룹 수. 후자: parameter 차원 무한 (함수).
GP-FDA = nonparametric hierarchical.
3 § 21.5 Density Estimation and Regression
3.1 동기 — 회귀 함수 너머
지금까지 GP 는 \(E[y \mid x] = \mu(x)\) 의 사전분포. 그런데 데이터의 전체 조건부 분포 \(p(y \mid x)\) 가 비모수일 수도 있다.
예: 측정 노이즈가 정규가 아니라 매우 비대칭 (heavy tail)·다봉 (multi-modal). 이런 분포를 parametric family 로 가정하지 않고 데이터로부터 학습.
두 접근:
- Logistic Gaussian Process (LGP) — § 21.5 의 주제.
- Mixture model 기반 (Dirichlet Process mixture, DPM) — Ch.23 의 주제.
3.2 LGP — 일변량 밀도 추정
Continuous logistic transformation:
\[ p(y \mid f) = \frac{e^{f(y)}}{\int e^{f(y')} dy'}, \qquad f \sim \text{GP}(m, k) \]
- Softmax (이산): \(p_k = e^{f_k} / \sum_j e^{f_j}\).
- LGP (연속): \(p(y) = e^{f(y)} / \int e^{f(y')} dy'\).
이산의 합이 연속의 적분으로. 이 변환의 두 보장:
- \(e^{f(y)} > 0\) → 음이 아닌 밀도.
- \(\int p(y) dy = 1\) → 정규화 보장.
GP 의 임의의 표본 \(f\) 가 자동으로 valid 확률 밀도 로 변환.
3.3 Mean Function \(m\) 의 역할
\(m(y)\) 를 기준 분포의 log density 로 두면 (예: \(m(y) = \log t_4(y \mid \mu_0, \sigma_0)\)), 데이터 부족 영역에서 LGP 가 \(t_4\) 분포로 회귀.
데이터 적을 때: 표준 분포가 default. 데이터 충분할 때: 데이터 패턴 적극 반영.
이는 ridge regression 의 sparsity prior 와 같은 정신 — 도메인 지식을 center 에 두고 데이터가 허락하는 만큼 이탈.
choices for \(m\):
- \(t_4\) — heavy tail 안전.
- Empirical Bayes: 데이터의 sample mean·variance 기반 정규.
- Mixture: \(\log \sum_k \pi_k N(y \mid \mu_k, \sigma_k^2)\) — 다봉 가정 시.
3.4 정규화 적분의 계산 Challenge
\(\int e^{f(y')} dy'\) 가 닫힌 형태로 안 나옴 → 근사 필수.
방법:
- 유한 grid 이산화: \(y\) 의 영역을 \(K\) 점 grid 로 → 적분이 합으로 근사.
- Finite basis representation: \(f\) 를 spline·Fourier 등 유한 basis 로 표현.
- Rejection / importance sampling: GP 표본 \(f\) 마다 정규화 상수를 sampling 으로.
전통적으로 1 번이 가장 간단. \(K = 100 \sim 200\) grid 면 일변량은 충분.
LGP 의 \(f\) 사후는 — hyperparameter 고정 시 — 단봉 (unimodal). 이는 mixture model 의 \(\theta\) 사후가 multimodal (label switching) 인 것과 큰 차이.
따라서 Laplace 또는 단순 mode finding 으로도 잘 작동. Ch.22 mixture 와 비교 시 계산 안정성에서 명백한 우위.
3.5 대안 표현 — Compactified GP
\(g_0\) = 기준 parametric density, \(G_0\) = 그 CDF. Compactified LGP:
\[ p(y) = g_0(y) \cdot \frac{e^{W(G_0(y))}}{\int e^{W(v)} dv} \]
- \(W(t)\) 는 \([0, 1]\) 에서 정의된 zero-mean GP.
- \(G_0(y) \in [0, 1]\) 로 변환.
\(y \in (-\infty, \infty)\) 에 GP prior 를 직접 두면 꼬리에서 GP 가 자유롭게 출렁 인다 → 부적절한 꼬리 추정.
CDF \(G_0\) 로 \([0, 1]\) 압축하면 꼬리는 \(g_0\) 가 결정 (smooth tail), GP 는 중앙부의 deviation 만 표현. 꼬리 안정성 향상.
3.6 Galaxies and Lakes 예제
Galaxy 데이터: 82 개 은하의 후퇴 속도. 다봉 구조 의심.
Acidity 데이터: 위스콘신 155 호수의 산성도.
저자들은 LGP \(\nu = 5/2\) Matern + Gaussian center + 꼬리 단조 감소 제약 (rejection sampling 으로). Figure 21.7 결과:
- 다봉 구조 자연 표현.
- histogram 보다 부드러우면서도 mixture 보다 유연.
- 90% 사후 구간으로 불확실성 정량화.
LGP:
- 장점: 사후 단봉, 계산 안정, 유연성 매우 높음.
- 단점: 정규화 적분 비용, 다차원 확장 어려움.
DP Mixture (Ch.23):
- 장점: clustering 해석 가능, 다차원 확장 자연.
- 단점: 사후 다봉 (label switching), MCMC 까다로움.
선택 기준: 일변량·이변량 + clustering 해석 불필요 → LGP. 다차원 + clustering 해석 필요 → DPM.
3.7 Density Regression — 식 (21.4)
조건부 밀도 \(p(y \mid x)\) 도 같은 방식으로 GP prior:
\[ p(y \mid x) = \frac{e^{f(x, y)}}{\int e^{f(x, y')} dy'}, \qquad f \sim \text{GP}(0, k) \]
Squared exponential kernel on joint \((x, y)\):
\[ k\bigl((x, y), (x', y')\bigr) = \tau^2 \exp\left( -\sum_{j=1}^p \frac{(x_j - x_j')^2}{2 \ell_j} - \frac{(y - y')^2}{2 \ell_{p+1}} \right) \quad (21.4) \]
각 \(\ell_j\) 의 hyperprior 로 ARD — 불필요한 \(x_j\) 자동 탈락.
전통 회귀: \(E[y \mid x]\) + 등분산 가정.
GLM·heteroscedastic 회귀: \(E[y \mid x]\) + \(\text{Var}[y \mid x]\).
Density regression: \(p(y \mid x)\) 의 모든 모멘트. 분포 형태가 \(x\) 에 따라 변화 (bimodal → unimodal, 좌편향 → 우편향 등) 도 표현.
응용: 의료 (환자 특성에 따라 반응 분포 형태 자체가 다름)·금융 (시장 상황별 수익률 분포).
3.8 식 (21.5) Latent-Variable Regression — Kundu-Dunson
LGP 의 정규화 적분 부담을 우회하는 영리한 대안.
\[ y_i \sim N\bigl(\mu(u_i), \sigma^2\bigr), \qquad u_i \sim U(0, 1) \quad (21.5) \]
\(u_i\) = 잠재 균등 변수. \(\mu: [0, 1] \to \mathbb{R}\) 은 GP.
확률·통계의 기본: 임의의 분포 \(f\) 의 sample 은 \(y = F^{-1}(u)\), \(u \sim U(0, 1)\) 로 생성 가능 (\(F^{-1}\) = quantile function).
식 (21.5) 는 \(\mu(u)\) 를 quantile function 의 GP 모델로 본다. 그 위에 noise \(\sigma\) 추가.
핵심 이점: 정규화 적분 없음. GP 의 표준 추론 그대로 적용. 컴팩트 입력 \([0, 1]\) 위의 1D GP — 매우 빠름.
3.9 Density Regression — 식 (21.5) 의 일반화
조건부 밀도로 확장:
\[ y_i \sim N\bigl(\mu(u_i, x_i), \sigma^2\bigr), \qquad u_i \sim U(0, 1) \]
\(\mu\) 는 \((p + 1)\) 차원 GP. ARD 로 변수 선택.
\(u_i\) = 개체 \(i\) 의 “분위수 위치”. \(u_i = 0.5\) 이면 그 분포의 중앙값.
데이터 augmentation 으로 \(u_i\) 를 갱신하면, 각 개체가 자기 분포의 어느 분위수에 있는지 자동 학습.
해석: \(u_i\) 의 사후가 한쪽 끝에 몰리면 그 개체는 outlier 후보.
4 § 21.6 Bibliographic Note — 핵심 문헌 정리
4.1 GP 이론·계산의 4 가지 정전
| 문헌 | 주제 |
|---|---|
| O’Hagan (1978) | GP regression 의 베이즈 원전 — Bayesian Numerical Analysis 시초 |
| Neal (1998) | GP regression/classification + ARD 도입 + neural network 무한 폭 한계 |
| Rasmussen & Williams (2006) | Gaussian Processes for Machine Learning — GP 의 정전 (free PDF) |
| Vanhatalo et al. (2013a) | GPstuff 패키지 + 종합 리뷰 |
4.2 효율 계산 — 6 가지 길
| 문헌 | 기법 | 비용 | 적용 |
|---|---|---|---|
| Snelson & Ghahramani (2006) | FITC inducing | \(O(nm^2)\) | 일반 |
| Titsias (2009) | Variational SGP | \(O(nm^2)\) | 일반 |
| Hensman, Fusi, Lawrence (2013) | Stochastic variational | \(O(m^3 b)\) | Big data |
| Lindgren, Rue, Lindstrom (2011) | SPDE → GMRF | \(O(n^{3/2})\) | spatial |
| Sarkka, Solin, Hartikainen (2013) | State-space (Bayesian filter) | \(O(n)\) | 1D 시계열 |
| Wilson & Nickisch (2015) | KISS-GP / SKI | \(O(n)\) | structured |
4.3 응용
- Riihimaki & Vehtari (2010) — Monotonic GP regression.
- Vanhatalo & Vehtari (2010) — Binary classification.
- Riihimaki, Jylanki, Vehtari (2013) — Multi-class.
- Tolvanen, Jylanki, Vehtari (2014) — Heteroscedastic.
- Jylanki, Vanhatalo, Vehtari (2011) — Robust regression (Student-\(t\)).
- Vehtari et al. (2016) — LOO-CV approximation.
4.4 LGP 문헌
- Leonard (1978) — LGP 도입.
- Lenk (1991, 2003) — 사후 모멘트 기반 추론.
- Tokdar (2007) — MCMC for unconditional LGP.
- Tokdar, Zhu, Ghosh (2010) — MCMC for LGP density regression.
- Riihimaki & Vehtari (2014) — 빠른 Laplace approximation.
- Tokdar & Ghosh (2007), Tokdar et al. (2010) — LGP 일관성 (consistency).
- Adams et al. (2009) — Conditioning + rejection 으로 정규화 회피.
- Kundu & Dunson (2014) — Latent-variable regression (식 21.5).
5 § 21.7 Exercises — 9문제 완전 풀이
5.1 Exercise 1 — GP Prior 표본 (Figure 21.1 재현)
문제: 일변량 \(x\) grid 에서 \(\tau, \ell\) 다양화하며 GP prior 표본 추출. 데이터 만들고 사후 평균·공분산 계산 후 사후 표본 추출.
모델: \(\mu \sim \text{GP}(0, k)\), \(k(x, x') = \tau^2 \exp(-(x-x')^2 / (2\ell^2))\).
Prior 표본 절차:
- Grid \(x_1, \ldots, x_n\) 결정 (예: \(n = 100\), \(x_i \in [-3, 3]\)).
- \(K = (k(x_i, x_j))_{ij}\).
- \(\boldsymbol\mu \sim N(0, K)\) — Cholesky \(L L^T = K + \text{jitter} \cdot I\), \(\boldsymbol\mu = L \mathbf{z}\), \(\mathbf{z} \sim N(0, I)\).
사후 절차 (관측 \((x_{\text{obs}}, y_{\text{obs}})\), \(y \mid \mu \sim N(\mu, \sigma^2)\)):
- \(E(\widetilde\mu) = K(\widetilde x, x) (K(x, x) + \sigma^2 I)^{-1} y\).
- \(\text{cov}(\widetilde\mu) = K(\widetilde x, \widetilde x) - K(\widetilde x, x)(K(x, x) + \sigma^2 I)^{-1} K(x, \widetilde x)\).
- 사후 표본도 \(E(\widetilde\mu) + L_{\text{post}} \mathbf{z}\) 로 추출.
관찰 포인트:
| (\(\tau\), \(\ell\)) | Prior 표본 모양 | Posterior 모양 |
|---|---|---|
| (0.5, 2) | 큰 진폭, 매끄러움 | 데이터 점에서 가까이 통과, 사이 매끄럽게 보간 |
| (0.25, 0.5) | 작은 진폭, 빠른 변동 | 데이터 통과하나 너무 wiggly |
| (0.5, 0.5) | 중간 진폭, 중간 변동 | 일반적으로 가장 합리적 |
5.2 Exercise 2 — NAES04 Attitude (Normal Approx GP Regression)
문제: 2004 National Annenberg Election Survey 의 게이 관련 attitude 데이터. 연령 \(x\) 의 함수로 “게이를 알고 있다고 답한 비율” 추정. Normal approximation 사용.
모델:
- \(y_a\) = 연령 \(a\) 에서 Yes 비율.
- \(n_a\) = 연령 \(a\) 의 응답자 수.
- \(y_a \mid p_a \sim \text{Binomial}(n_a, p_a)\) → 정규 근사 \(y_a/n_a \sim N(p_a, p_a(1-p_a)/n_a)\).
GP Prior: \(\text{logit}(p_a) = f(a)\), \(f \sim \text{GP}(0, k_{\text{SE}})\), \(k_{\text{SE}}(a, a') = \tau^2 \exp(-(a-a')^2 / (2\ell^2))\).
Hyperpriors: \(\tau \sim \text{half-}t_4(0, 1)\), \(\ell \sim \text{half-}t_4(0, 20)\) (연령 단위).
Joint posterior:
\[ p(f, \tau, \ell \mid y) \propto p(\tau)\, p(\ell)\, N(f \mid 0, K(\tau, \ell)) \prod_a N\bigl(y_a/n_a \mid \text{logit}^{-1}(f(a)),\ p_a(1-p_a)/n_a\bigr) \]
추론: PyMC, Stan, 또는 Laplace + CCD.
예상 결과: 청년층 (20s) 매우 높은 비율, 60+ 낮음, 중간 연령에 변곡점. GP 가 자동으로 비선형 곡선 적합.
5.3 Exercise 3 — NAES04 Binomial GP
문제: Exercise 2 와 동일한 데이터, 정규 근사 대신 binomial 우도.
모델:
\[ y_a \sim \text{Binomial}(n_a, p_a), \qquad p_a = \text{logit}^{-1}(f(a)), \qquad f \sim \text{GP}(0, k) \]
추론 차이: 우도가 비가우시안 → Laplace 근사 식 (21.3) 적용. 식 (21.3) 의 \(W\):
\[ W_{aa} = -\frac{\partial^2 \log p(y_a \mid f_a)}{\partial f_a^2} = n_a p_a (1 - p_a) \]
(Logistic regression 의 일반적 second derivative.)
Exercise 2 와의 비교: 정규 근사가 small \(n_a\) 에서 부정확. Binomial 모형이 꼬리에서 더 합리적 (특히 연령별 응답자 수가 적은 양 끝).
- Ex 2 (정규 근사): 우도가 가우시안 → 적분 소거 가능 → 식 (21.1).
- Ex 3 (Binomial): 우도가 비가우시안 → Laplace 필요 → 식 (21.3).
같은 데이터에 두 방법을 적용하면 (1) 결과가 거의 같음 — 정규 근사가 valid 한 영역, (2) 양 극단에서만 차이 — Binomial 의 꼬리 안정성. Laplace 의 정확도 검증.
5.4 Exercise 4 — Multi-Predictor Anisotropic GP
문제: NAES04 데이터, age + sex + race 세 predictor 로 확장.
모델:
\[ \text{logit}(p) = f(x_1, x_2, x_3), \qquad f \sim \text{GP}(0, k_{\text{ARD}}) \]
\[ k_{\text{ARD}}(x, x') = \tau^2 \exp\left( -\sum_{j=1}^3 \frac{(x_j - x_j')^2}{2 \ell_j^2} \right) \]
\(\ell_j\) Hyperprior: half-\(t_4(0, s_j)\), \(s_j\) = \(j\) 번째 변수의 sd.
해석 도구:
- \(\ell_j\) 사후 평균 비교: \(\ell_{\text{age}} \approx 15\), \(\ell_{\text{sex}}\) 매우 큼 → sex 효과 미미.
- Conditional plot: 각 predictor 별로 다른 변수 고정 후 \(f\) 곡선 시각화.
예상 발견: 연령 효과가 가장 강함, race 효과 중간, sex 효과 미미 (또는 race-age 상호작용).
5.5 Exercise 5 — Golf Putting Binomial GP
문제: 거리별 프로골퍼 putt 성공률. Ch.19 (4PL) 와 Ch.20 (spline) 솔루션과 비교.
모델:
\[ y_d \sim \text{Binomial}(n_d, p_d), \qquad p_d = \text{logit}^{-1}(f(d)), \qquad f \sim \text{GP}(\text{mean}_0, k) \]
Mean 함수: 도메인 지식 — 거리 0 이면 100%, 거리 ∞ 이면 0%. 따라서
\[ \text{mean}_0(d) = \text{logit}\bigl(\Phi(\alpha + \beta d)\bigr) \approx -\beta d \]
또는 Berry-Nolan 의 물리 모델을 mean 으로.
Posterior predictive checks:
- 관측 비율 vs 사후 예측 분위수 — 적합도 확인.
- Pointwise 90% intervals: 데이터에서 멀리 떨어진 거리 (very long putts) 에서 불확실성 증가.
Ch.19/20 비교:
- Ch.19 (4PL): 4 parameter, 외삽 안정, 형태 제약.
- Ch.20 (spline): \(H\) 개 basis, 유연하나 외삽 불안정.
- Ch.21 (GP): 비모수, mean 함수 활용 시 외삽 안정.
LOO-CV lppd 비교로 어느 모델이 데이터에 가장 적합한지 정량화.
5.6 Exercise 6 — Birthday 분석 재현
문제: § 21.2 의 birthday 모델을 component 단계별 추가.
절차:
- Stage 1: \(f_1\) + noise. Long-term trend 만 적합.
- Stage 2: + \(f_2\) 단기 변동. 잔차 자기상관 감소 확인.
- Stage 3: + \(f_3\) 주간. 7일 주기 잔차 사라짐.
- Stage 4: + \(f_4\) 계절. 365일 주기 잔차 사라짐.
- Stage 5: + \(f_5\) 특별일. Valentine·Halloween 잔차 사라짐.
각 단계마다 LOO-CV lppd 측정 → component 추가 효과 정량화.
확장 (Exercise 6b): day-of-year 효과가 시간 따라 강해지는 것을 모델에 명시 → quasi-periodic kernel 의 evolution 부분에 추가 length scale.
5.7 Exercise 7 — Pollster 시계열, Spline → GP 교체
문제: Exercise 20.5 (Pollster) 를 spline 대신 GP 로 적합.
Spline 버전 (Ch.20): \(H\) B-splines + shrinkage prior on \(\beta_h\).
GP 버전:
\[ \text{poll}_t = f(t) + \text{state effects} + \epsilon_t, \qquad f \sim \text{GP}(0, k_{\text{Matern 5/2}}) \]
비교 포인트:
- Spline 의 knot 선택 vs GP 의 length scale.
- 외삽 영역 (선거일 이후) 불확실성.
- 계산 시간 (\(H\) 개 계수 vs \(n \times n\) kernel).
Spline 과 GP 는 같은 함수 공간을 다른 매개변수화 로 표현한다 (Ch.21 § 21.1 의 basis 동치 관계).
차이는 (1) hyperparameter 가 무엇인지 (knot 위치 vs length scale), (2) 어느 것이 데이터에서 더 자연스럽게 학습되는지에 달려 있다.
일반적으로 smoothing 문제: GP 가 더 나음 (knot 결정 불필요). 해석 가능 부분 vs 잔여 부분 분리: Spline 이 더 나음 (각 basis 가 명시적).
5.8 Exercise 8 — Basis 가 유도하는 GP
문제: \(\mu(x) = \sum_{h=1}^k \beta_h b_h(x)\), \(b_h(x) = \exp(\psi(x - \tau_h)^2)\). \((\beta_1, \ldots, \beta_k)\) 의 prior 를 골라 \(\mu \sim \text{GP}(m, k)\) 가 되도록.
(a) Prior 선택: \(\beta \sim N(\beta_0, \Sigma_\beta)\) — 다변량 정규.
(b) 유도된 \(m, k\):
\[ m(x) = b(x)^T \beta_0, \qquad k(x, x') = b(x)^T \Sigma_\beta b(x') \]
\(b(x) = (b_1(x), \ldots, b_k(x))\).
만약 \(\Sigma_\beta = \sigma_\beta^2 I\), \(\beta_0 = 0\):
\[ m(x) = 0, \qquad k(x, x') = \sigma_\beta^2 \sum_{h=1}^k b_h(x) b_h(x') \]
(c) Squared exp 와의 차이: \(k(x, x') = \exp(-\kappa(x - x')^2)\) 는 모든 \(x\) 에 무한 basis. 위의 유도된 \(k\) 는 \(k\)-개 유한 basis → rank 가 \(k\) 로 제한.
따라서 유도된 GP 의 표본은 \(k\)-차원 함수 공간 안에 있음. 무한 basis squared exp 보다 표현력 작음.
(d) 차이 최소화: \(\psi\) 와 \(\tau_h\) 를 squared exp 의 Mercer 분해 (Hermite polynomial 가중) 와 매칭. \(\tau_h\) 를 데이터 영역에 균등 배치.
GP (무한 basis) 와 finite basis 모델 (유한 basis) 의 명시적 변환. Reduced rank 근사 (KISS-GP, sparse GP) 의 수학적 기반.
\(k\) 개 inducing point 를 두는 sparse GP 가 사실상 \(k\) basis 의 finite expansion 과 같다.
5.9 Exercise 9 — Linear 모형은 GP 인가, 비선형 표현 가능한가
문제: \(\mu(x) = \beta_1 + \beta_2 x\), \(\beta_1, \beta_2\) 에 정규 prior.
(a) GP 인가: 그렇다.
\[ \mu(x) = (1, x) \begin{pmatrix} \beta_1 \\ \beta_2 \end{pmatrix} \]
\(\beta \sim N(\beta_0, \Sigma_\beta)\) 면 \(\mu(x_1), \ldots, \mu(x_n)\) 의 결합도 정규 (다변량 정규의 affine 변환). 따라서 GP.
Mean·covariance:
\[ m(x) = \beta_{0,1} + \beta_{0,2} x, \qquad k(x, x') = \Sigma_{\beta,11} + (x + x') \Sigma_{\beta,12} + x x' \Sigma_{\beta,22} \]
(b) 비선형 표현 가능한가: 불가능.
GP 의 표본은 \(\mu(x) = \beta_1 + \beta_2 x\) 형태로 제한 — 모든 표본이 선형 함수.
GP 가 자동으로 비선형 표현력 을 주는 것이 아니다. kernel 의 rank 와 basis 가 표현력을 결정.
- \(k\) 가 finite rank → 표본 함수가 그 rank 의 함수 공간에 제한.
- Squared exp·Matern 같은 universal kernel → 무한 rank → 임의의 연속 함수 근사 가능.
선형 kernel (\(k(x, x') = c_0 + c_1 x x'\)) 은 rank 2 — 선형 함수만 표현.
따라서 비선형 표현이 목표라면 squared exp·Matern·polynomial (high degree) 사용.
6 Ch.21 시리즈 결산
6.1 시리즈 4편의 핵심
| 편 | 핵심 한 줄 |
|---|---|
| Overview | “함수 자체에 사전분포를 두면 무엇이 가능한가” |
| § 21.1~21.3 | “GP regression 의 모든 식과 비가우시안 확장” |
| § 21.4~21.7 | “FDA·밀도 자체로의 확장 + 9 연습” |
6.2 Ch.21 의 핵심 수식 통합
| 번호 | 수식 | 의미 |
|---|---|---|
| - | \(\mu \sim \text{GP}(m, k) \iff (\mu(x_i)) \sim N(\mathbf{m}, \mathbf{K})\) | GP 정의 |
| - | \(k(x, x') = \tau^2 \exp(-\|x-x'\|^2 / 2\ell^2)\) | Squared exp |
| - | \(k(x, x') = \tau^2 \exp(-\sum_j (x_j - x_j')^2 / 2\ell_j^2)\) | ARD |
| - | \(k_{\text{periodic}}(t, t') = \tau^2 \exp(-2\sin^2(\pi(t-t')/p) / \ell^2)\) | Periodic |
| - | \(E(\widetilde\mu) = K(\widetilde x, x)(K + \sigma^2 I)^{-1} y\) | 사후 평균 |
| (21.1) | \(\log p(y) = -\frac{n}{2}\log 2\pi - \frac{1}{2}\log|K + \sigma^2 I| - \frac{1}{2} y^T (K + \sigma^2 I)^{-1} y\) | Marginal lik |
| (21.2) | \(E(\widetilde f_j) = K_j(\widetilde x, x)(K + \sigma^2 I)^{-1} y\) | Component-wise |
| (21.3) | \(\log p(y) \approx \log p(y \mid \widehat f) - \frac{1}{2}\widehat f^T K^{-1} \widehat f - \frac{1}{2}\log|B|\) | Latent GP Laplace |
| - | \(p(y \mid f) = e^{f(y)} / \int e^{f(y')} dy'\) | LGP density |
| (21.4) | \(k((x,y),(x',y'))\) = SE on joint | Density regression |
| (21.5) | \(y_i \sim N(\mu(u_i), \sigma^2),\ u_i \sim U(0,1)\) | Latent-variable density |
6.3 Ch.21 의 시퀀스 — 기하급수적 확장
Ch.20 (basis)
→ 함수 표현이 $\sum \beta_h b_h(x)$
Ch.21 § 21.1 (GP regression)
→ 함수 표현이 GP, basis 무한, 가우시안 우도
Ch.21 § 21.2 (Birthday)
→ GP 들을 더하고 곱해서 큰 모델로 조합
Ch.21 § 21.3 (Latent GP)
→ 우도를 비가우시안으로 (logistic, Poisson, Weibull, log-logistic)
→ Laplace · EP · VI 가 적분 소거 대신
Ch.21 § 21.4 (FDA)
→ 입력에 시간 차원 추가 → 개체별 함수
Ch.21 § 21.5 (LGP)
→ 회귀 함수 → 분포 자체로 확장
→ continuous logistic 또는 latent-variable 로 정규화 회피
6.4 Ch.21 의 유산과 한계
유산:
- 함수 자체에 사전분포 — Bayesian nonparametric 의 첫 번째 자연 도구.
- Kernel 합·곱으로 큰 모델 빌딩.
- ARD 로 자동 변수 선택.
- 같은 framework 가 회귀·분류·생존·밀도까지 통일.
한계:
- \(O(n^3)\) — 본질적 계산 부담.
- 외삽 위험 — kernel support 밖에서 mean 함수로 회귀.
- Hyperparameter identifiability — 비슷한 적합 결과를 주는 다른 hyperparameter 조합 가능.
- Mixture-style clustering 표현 부적합 — 그 영역은 Ch.22~23 의 몫.
다음 장 예고:
- Ch.22 Mixture Models: 데이터가 여러 하위 모집단 에서 올 때.
- Ch.23 Dirichlet Process: 모집단 수가 미지.
- GP 가 함수에 사전분포를 두었듯, DP 는 분포 자체에 사전분포.
7 Ch.21 시리즈 통합 체크리스트
모델 결정
- 데이터가 \((x, y)\) 점 → § 21.1 GP regression.
- 시계열에 추세·주기·특별일 모두 → § 21.2 가법 component.
- 우도가 비가우시안 (binary, count, 생존) → § 21.3 latent GP.
- 개체마다 함수 → § 21.4 FDA.
- 분포 자체가 비모수 → § 21.5 LGP 또는 latent-variable.
Kernel 선택
- 매끄러운 함수 → squared exponential.
- 약간 거친 함수 → Matern \(\nu = 5/2\) (실무 default).
- 매우 거친 함수 → Matern \(\nu = 1/2\) (exponential).
- 주기 → periodic kernel + smooth 곱 (quasi-periodic).
- 다변량 → ARD anisotropic.
Hyperprior
- \(\tau\) — half-Cauchy / half-Normal, 출력 sd 의 1~2 배.
- \(\ell_j\) — half-\(t_4\), 입력 sd 의 0.1~1 배.
- \(\sigma\) — half-Normal.
- Mean function — zero (단순) 또는 linear (외삽 안정).
계산
- \(n < 1000\): 풀 GP + Cholesky + jitter \(10^{-6}\).
- \(1000 \leq n < 10000\): Sparse GP (inducing points / VFE).
- 1D 시계열 \(n \geq 10^4\): state-space GP.
- Spatial \(n \geq 10^4\) + 1-3D: SPDE/MRF (INLA).
- 비가우시안 우도: Laplace (default) → EP (logistic small \(p\)) → MCMC (정확도).
검증
- LOO-CV lppd 로 모델 비교.
- Posterior predictive draws 로 적합도 점검.
- ARD length scales 분석 — 큰 \(\ell_j\) = 변수 탈락.
- 사후 사진 평균 + pointwise 90% interval 시각화.
- Component-wise prediction 식 (21.2) 으로 가법 모델의 부분 확인.
- 외삽 영역에서 mean function 으로 회귀 — 신뢰 금지.
8 관련 주제
Ch.21 시리즈
선행 지식
- Ch.5 Hierarchical Models
- Ch.16 Generalized Linear Models
- Ch.20 § 20.1~20.2 — Splines·Basis Selection·Shrinkage
- Ch.13 § 13.7~13.8 — Variational Inference·EP
- Ch.4 § 4.1 — Normal Approximation (Laplace)
후속 주제
관련 개념 (cross-category)
9 참고문헌
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.21 § 21.4~21.7. CRC Press.
- Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press.
- O’Hagan, A. (1978). Curve Fitting and Optimal Design for Prediction. JRSS B, 40, 1-42.
- Neal, R. M. (1998). Regression and Classification Using Gaussian Process Priors. Bayesian Statistics, 6, 475-501.
- Vanhatalo, J., Riihimaki, J., Hartikainen, J., Jylanki, P., Tolvanen, V., & Vehtari, A. (2013a). GPstuff: Bayesian Modeling with Gaussian Processes. JMLR, 14, 1175-1179.
- Vanhatalo, J., Pietilainen, V., & Vehtari, A. (2010). Approximate Inference for Disease Mapping with Sparse Gaussian Processes. Statistics in Medicine, 29(15), 1580-1607.
- Snelson, E., & Ghahramani, Z. (2006). Sparse Gaussian Processes Using Pseudo-Inputs (FITC). NeurIPS.
- Titsias, M. (2009). Variational Learning of Inducing Variables in Sparse Gaussian Processes (VFE). AISTATS.
- Hensman, J., Fusi, N., & Lawrence, N. D. (2013). Gaussian Processes for Big Data. UAI.
- Lindgren, F., Rue, H., & Lindstrom, J. (2011). An Explicit Link between Gaussian Fields and Gaussian Markov Random Fields: The SPDE Approach. JRSS B, 73, 423-498.
- Sarkka, S., Solin, A., & Hartikainen, J. (2013). Spatiotemporal Learning via Infinite-Dimensional Bayesian Filtering and Smoothing. IEEE Signal Processing Magazine, 30(4), 51-61.
- Wilson, A. G., & Nickisch, H. (2015). Kernel Interpolation for Scalable Structured Gaussian Processes (KISS-GP). ICML.
- Leonard, T. (1978). Density Estimation, Stochastic Processes, and Prior Information. JRSS B, 40, 113-146. (LGP 도입)
- Lenk, P. J. (1991, 2003). The Logistic Normal Distribution for Bayesian, Nonparametric, Predictive Densities. JASA.
- Tokdar, S. T. (2007). Towards a Faster Implementation of Density Estimation with Logistic Gaussian Process Priors. JCGS, 16(3), 633-655.
- Tokdar, S. T., Zhu, Y., & Ghosh, J. K. (2010). Bayesian Density Regression with Logistic Gaussian Process and Subspace Projection. Bayesian Analysis, 5(2), 319-344.
- Riihimaki, J., & Vehtari, A. (2014). Laplace Approximation for Logistic Gaussian Process Density Estimation and Regression. Bayesian Analysis, 9(2), 425-448.
- Adams, R. P., Murray, I., & MacKay, D. J. C. (2009). The Gaussian Process Density Sampler. NeurIPS.
- Kundu, S., & Dunson, D. B. (2014). Latent Factor Models for Density Estimation. Biometrika, 101, 641-654.
- Vehtari, A., Mononen, T., Tolvanen, V., Sivula, T., & Winther, O. (2016). Bayesian Leave-One-Out Cross-Validation Approximations for Gaussian Latent Variable Models. JMLR, 17, 1-38.
- Henderson, R., Shimakura, S., & Gorst, D. (2002). Modeling Spatial Variation in Leukemia Survival Data. JASA, 97, 965-972.