1 이 장의 위치와 목적
Chapter 1 ~ 6 은 모든 곡선이 같은 (또는 거의 같은) 시점에서 밀집 관측 된다는 가정 하에 전개되었다. 기저 전개로 평활화하고, 평균/공분산을 추정하고, FPCA 로 차원을 축소하고, 회귀와 GLM 으로 다른 변수와 연결 — 모든 도구가 “각 곡선 자체를 잘 관측” 한다는 토대 위에 있었다.
그러나 실제 데이터, 특히 종단 의학 데이터 에서는 이 가정이 성립하지 않는다.
- 환자 1 — 주차 0, 4, 8, 12 에서 관측 (4 개 시점).
- 환자 2 — 주차 0, 4, 8, 16, 20, 28 에서 관측 (6 개 시점, 다른 시점).
- 환자 3 — 주차 0, 12, 24, 32 에서 관측 (4 개 시점).
- …
각 환자의 관측 수 \(M_n\) 이 작고 시점도 다르다. 개별 곡선을 평활화 (smoothing) 하기에는 데이터가 너무 부족 — 한 환자의 4~6 개 점만으로는 곡선의 모양을 알 수 없다.
1.1 핵심 통찰: 정보 풀링
개별 곡선 평활화를 포기하고, 모든 환자의 정보를 합쳐서 모집단 평균/공분산을 추정한다.
100 명의 환자가 각자 다른 시점에서 5 개씩 관측하면 — 합치면 500 개 관측이 시간 도메인 전체를 덮는다. 이 풀링된 데이터로 평균/공분산을 비모수 회귀 (kernel smoothing, basis spline) 로 추정. 개별 곡선은 마지막에 BLUP 으로 재구성.
1.2 직관: 모집단 ↔︎ 개체의 정보 흐름 역전
밀집 FDA 의 흐름:
개별 곡선 평활화 → 모집단 평균/공분산 → 추론
희소 FDA 의 흐름:
모집단 평균/공분산 (풀링 추정) → 개별 곡선 BLUP → 추론
방향이 정반대 — 희소 FDA 는 모집단 정보를 개체의 부족함을 메우는 데 사용.
1.3 비유: 도시 평균 강수량으로 한 동네 강수 추정
서울 시내 한 동네에 1 년에 5 일만 강수량을 측정한 데이터로는 그 동네의 연중 강수 패턴을 알 수 없다. 그러나 서울 전 지역의 강수 데이터를 합쳐 시내 평균 강수 패턴을 잘 추정 한 후, 그 패턴에 그 동네의 5 개 측정값을 맞추어 동네별 패턴을 추정 — 이 “모집단 평균에서 개체로” 의 흐름이 sparse FDA 의 핵심.
1.4 이 포스트의 흐름
7.1 도입: 희소 데이터의 정의 + 모형 (7.1) + 핵심 점근 결과 (M ~ N^{1/4} 임계값)
↓
7.2 평균 함수 추정: local polynomial / basis / RKHS 의 세 접근
↓
7.3 공분산 추정: 대각 분리, 측정 잡음 σ²(t) 처리
↓
7.4 Sparse FPCA: PACE — 조건부 기대 기반 점수 BLUP
↓
7.5 Sparse 회귀: FPCA 점수를 회귀자로 사용한 함수-on-스칼라/스칼라-on-함수/함수-on-함수
7.1 의 점근 분석 (수렴 속도의 모수적 vs 비모수적 전환) 이 가장 중요한 이론적 결과이며, 이후 절들은 그 framework 위에서 구체적 도구를 다룬다.
2 희소 데이터의 정의
2.1 모형 (식 7.1)
각 단위 \(n = 1, \ldots, N\) 가 시점 \(t_{nm} \in [0, 1]\) (\(m = 1, \ldots, M_n\)) 에서 관측될 때:
\[ Y_{nm} = Y_n(t_{nm}) = \mu(t_{nm}) + \varepsilon_n(t_{nm}) + \delta_{nm}. \]
여기서:
- \(\mu: [0, 1] \to \mathbb{R}\) — 모집단 평균 함수 (매끄러움 가정).
- \(\varepsilon_n(t)\) — 단위별 (subject-specific) 오차 곡선 — 같은 단위 내 관측들 사이 상관 유발.
- \(\delta_{nm}\) — 측정 잡음 — \(n, m\) 양쪽에서 iid.
- \(M_n\) — 단위 \(n\) 의 관측 수, \(M_n \leq M < \infty\) (유한).
- 단위들은 iid.
- 시점들의 합집합 \(\{t_{nm}\}\) 이 \([0, 1]\) 을 비교적 밀집하게 덮음.
2.2 두 잡음 항의 의미
- \(\varepsilon_n(t)\) — “환자 \(n\) 의 진짜 곡선이 모집단 평균에서 얼마나 벗어나는가” 를 표현하는 매끄러운 함수. 같은 환자의 여러 시점이 같은 \(\varepsilon_n\) 의 영향을 받으므로 시점 간 상관 발생.
- \(\delta_{nm}\) — 각 측정의 독립적 측정 오차. 시점 간 비상관, 측정마다 새로 발생.
2.3 직관: 두 잡음의 분리가 핵심
Sparse FDA 의 모든 도구는 이 두 잡음을 구별한다.
- 공분산 함수 추정 (7.3): 대각선 (\(t = s\)) 에는 \(\delta\) 의 분산이 추가되어 불연속 — 대각선 분리가 필요.
- PACE (7.4): 점수 BLUP 에서 분모에 \(\delta\) 의 분산을 추가.
- 회귀 (7.5): 추정 점수의 잡음이 두 출처에서 옴.
이는 종단 데이터의 표준 분해 — subject random effect (\(\varepsilon_n\)) + measurement error (\(\delta_{nm}\)). Mixed model 이론과 직접 연결.
2.4 비유: 디지털 카메라 vs 안개 낀 풍경
사진을 찍을 때:
- 풍경의 안개 (\(\varepsilon_n\)) — 공간적으로 연속적이며 큰 영역에 영향. 같은 사진 안의 인접 픽셀은 같은 안개의 영향.
- 카메라 센서 노이즈 (\(\delta_{nm}\)) — 각 픽셀에 독립적으로 작용. 인접 픽셀과 무관.
종단 데이터의 환자 내 상관 (\(\varepsilon_n\)) 과 측정 잡음 (\(\delta_{nm}\)) 의 차이가 정확히 이 패턴.
3 CATT 데이터 예시
3.1 임상 시험 배경
CATT (Comparison of Age-Related Macular Degeneration Treatments Trials) — 연령 관련 황반 변성 (AMD) 치료 비교 임상 시험.
- 각 환자가 4 주마다 임상 방문, 최대 27 회 (baseline 포함).
- 4 개 치료군 (Lucentis, Avastin 의 다른 투여 방식) 으로 무작위 배정.
- 주요 결과: Visual Acuity Score (VAS) — 시력 점수, 0~1 범위.
- VAS 0.5 = 20/40 시력.
- VAS < 0.1 = 법적 시각장애 (20/200).
- VAS = 0 = 시력 상실.
3.2 데이터의 희소성
- 모든 환자가 같은 시점 (주차 0, 4, 8, …) 에서 관측되도록 설계되었지만 결측 많음.
- 19% 만 완전 관측, 54% 가 1~3 개 결측.
- 즉 sparse FDA 도구가 필수.
3.3 직관: 설계는 dense, 실제는 sparse
임상 시험의 ideal 은 모든 환자가 모든 시점에서 관측되는 dense 디자인. 실제로는 환자가 진료를 빠지거나 중도 탈락하여 sparse 데이터가 된다.
이는 sparse FDA 가 실무적으로 가장 흔한 종단 데이터 시나리오 인 이유. 의도된 sparse 가 아니라 결측에 의한 sparse.
3.4 시각적 패턴
CATT 데이터를 Figure 7.1 처럼 시각화:
- 왼쪽 패널 — 모든 raw 관측을 시간에 대해 산점도. 빨간 선 = 점별 평균.
- 오른쪽 패널 — 점별 평균과 95% 점별 신뢰 구간.
시점들 합치면 도메인이 빽빽이 채워지지만, 한 환자만 보면 5~10 개 점에 불과. 이 “합집합은 dense, 개별은 sparse” 패턴이 sparse FDA 의 정의이다.
4 핵심 점근 결과: 수렴 속도의 임계값
4.1 단순 모형 (Example 7.1.2)
가장 단순한 random effects 모형:
\[ Y_{nm} = \mu(t_{nm}) + \varepsilon_n + \delta_{nm}, \]
여기서 \(\varepsilon_n\) 가 시간 무관 (subject 별 상수), \(t_{nm} \sim U(0, 1)\) iid, \(\text{Var}(\varepsilon_n) = \tau^2\), \(\text{Var}(\delta_{nm}) = \sigma^2\).
4.2 Nadaraya-Watson 평균 추정량
대역폭 \(h\) 의 kernel 추정량:
\[ \widehat{\mu}_h(t) = \frac{\sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right) Y_{nm}}{\sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right)}. \]
커널 평활 — 점 \(t\) 주위의 데이터를 가중 평균.
4.3 Bias-Variance 분해
표준 비모수 회귀 분석:
| 항 | 형태 | 직관 |
|---|---|---|
| Bias² | \(\sim h^4\) | 작은 \(h\) 일수록 bias 작음 |
| Variance | \(\sim \frac{\tau^2 + \sigma^2}{NMh} + \frac{\tau^2}{N}\) | \(h\) 가 작거나 표본이 적으면 분산 큼 |
분산의 둘째 항 \(\tau^2/N\) 은 \(h\) 무관 — subject 차원 의 변동.
4.4 최적 대역폭
Bias² 와 첫 분산 항을 같게:
\[ h^4 = \frac{1}{NMh} \implies h = (NM)^{-1/5}. \]
이 \(h\) 에서:
\[ \text{Bias}^2 \sim (NM)^{-4/5}, \quad \text{Var} \sim (NM)^{-4/5} + N^{-1}. \]
4.5 임계값 \(M \sim N^{1/4}\)
분산의 두 항 비교:
\[ (NM)^{-4/5} \text{ vs } N^{-1}. \]
전자가 작으려면 \((NM)^{4/5} > N\), 즉 \(M > N^{1/4}\).
4.6 세 가지 시나리오
| 조건 | 수렴 속도 | 의미 |
|---|---|---|
| \(M \gg N^{1/4}\) (\(M / N^{1/4} \to \infty\)) | \(N^{-1}\) (모수적) | 풍부한 관측, 마치 parametric 모형처럼 |
| \(M \sim N^{1/4}\) (\((NM)^{4/5} / N \to c > 0\)) | 임계값, 두 항 균형 | 경계 |
| \(M\) 고정 (또는 \(M / N^{1/4} \to 0\)) | \(N^{-4/5}\) (비모수적) | 표준 비모수 회귀 |
4.7 직관: \(M \sim N^{1/4}\) 이 의미하는 것
이 결과의 핵심 메시지:
단위당 관측 수 \(M\) 이 단위 수 \(N\) 의 \(1/4\) 거듭제곱보다 크면, 마치 모수적 (parametric) 모형처럼 빠른 \(N^{-1}\) 수렴 속도 를 얻는다.
\(N = 10000\) 이면 \(N^{1/4} = 10\) — 단위당 10 개 관측만 있어도 모수적 속도 달성. 이는 놀라운 결과 — sparse FDA 가 매우 효율적이라는 증거.
4.8 비유: 작은 표본의 합산 효과
각 환자가 5 개 측정만 하더라도 100 명의 환자 데이터를 합치면 500 개 측정 — 일종의 “총 정보량” 이 큰 표본과 같다. 단, 같은 환자의 측정들 사이 상관 (\(\varepsilon_n\)) 이 효과적 표본 크기를 줄이므로, 단순히 \(NM\) 이 아닌 더 복잡한 결합.
이 직관이 \(M \sim N^{1/4}\) 임계값의 본질 — 충분한 단위 다양성과 충분한 단위별 관측의 균형.
4.9 실무적 함의
단위당 관측 수가 \(N^{1/4}\) 보다 크면 sparse FDA 방법이 매우 효율적이다.
대부분의 임상 시험·종단 의학 연구에서 이 조건이 만족되므로, sparse FDA 는 표준 도구.
만약 \(M\) 이 매우 작으면 (예: \(M = 2, 3\)) 여전히 추정은 가능하지만 수렴 속도가 느려진다 — 이 경우 도메인 지식이나 강한 가정 (parametric 모형) 이 보충이 필요할 수 있다.
5 평균 함수 추정 (7.2)
세 표준 도구.
5.1 Local Polynomial Regression
각 시점 \(t\) 에서 국소 가중 다항 적합:
\[ L(\beta) = \sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right) \left(Y_{nm} - \sum_{i=0}^P \beta_i (t - t_{nm})^i\right)^2, \]
해 \(\widehat{\beta}\) 의 절편 \(\widehat{\beta}_0\) 가 \(\widehat{\mu}(t)\).
| 차수 \(P\) | 이름 | 비고 |
|---|---|---|
| 0 | Nadaraya-Watson | 국소 상수, 경계 편향 큼 |
| 1 | local linear | 표준 선택, 경계 편향 보정 |
| \(\geq 2\) | higher order | 도함수 추정 가능 |
5.2 직관: 국소 다항의 단순함
전통적 회귀가 “전체 데이터에 한 다항식” 이라면, local polynomial 은 “각 점에서 가까운 데이터에만 다항식”. 멀리 떨어진 점은 kernel 가중치로 무시.
이는 비모수 회귀의 가장 단순한 형태 — 모형의 형태를 미리 가정하지 않고 데이터의 형태를 따라간다.
5.3 Basis Function Regression
기저 전개 + LS:
\[ \mu(t) = \sum_{j=1}^J \mu_j e_j(t), \quad \widehat{\boldsymbol{\mu}} = (\mathbf{E}^T \mathbf{E})^{-1} \mathbf{E}^T \mathbf{Y}. \]
거칠기 벌점 추가:
\[ \widehat{\boldsymbol{\mu}} = (\mathbf{E}^T \mathbf{E} + \lambda \mathbf{R})^{-1} \mathbf{E}^T \mathbf{Y}. \]
이는 5.2 의 함수-on-스칼라 회귀와 같은 framework. R 의 mgcv::gam 으로 자동 적합.
5.4 Reproducing Kernel Hilbert Space (RKHS)
핵 함수 \(K(t, s)\) 가 정의하는 RKHS \(H_K\) 에서 벌점 LS:
\[ L_\lambda(\mu) = \sum_{n, m} (Y_{nm} - \mu(t_{nm}))^2 + \lambda \|\mu\|_{H_K}^2. \]
Representer Theorem (Theorem 7.2.1) 에 의해 최적해의 형태:
\[ \widehat{\mu}(t) = \sum_{n, m} \widehat{\alpha}_{nm} K(t, t_{nm}). \]
\(\widehat{\boldsymbol{\alpha}} = (\mathbf{K}^T \mathbf{K} + \lambda \mathbf{K})^{-1} \mathbf{K}^T \mathbf{Y}\).
5.5 직관: RKHS 의 강점
핵 함수 \(K\) 의 선택이 함수 공간의 매끄러움 가정 을 결정.
| 핵 | RKHS 의 함수 | 매끄러움 |
|---|---|---|
| Sobolev (m차) | \(m\) 회 미분 가능 | 부드럽지만 유한 |
| Gaussian | 무한 미분 가능 | 매우 부드럽다 |
| Exponential | 연속이지만 미분 안 될 수도 | 거친 |
| Periodic | 주기 함수 | 도메인 구조 반영 |
도메인 지식이 함수 형태를 알려주면 (예: 연주기 데이터 → periodic kernel), RKHS 가 직접 그 구조를 강제.
5.6 비유: 다양한 광학 렌즈
같은 풍경을 다른 렌즈로 보면 다른 강조점:
- 광각 렌즈 (Sobolev) — 큰 그림.
- 망원 렌즈 (Gaussian) — 매끄러운 디테일.
- 어안 렌즈 (Exponential) — 거친 변화.
- 편광 렌즈 (Periodic) — 주기 구조.
RKHS 의 핵 선택이 데이터에 맞는 “렌즈” 를 고르는 작업이다.
6 공분산 함수 추정 (7.3)
6.1 핵심 어려움: 대각 불연속
\(Y\) 의 공분산:
\[ \text{Cov}(Y(t), Y(s)) = c(t, s) + \sigma^2(t) \mathbb{1}_{t = s}, \]
여기서 \(c\) 는 \(\varepsilon\) 의 매끄러운 공분산, \(\sigma^2(t)\) 는 측정 잡음의 분산. 대각선 (\(t = s\)) 에 측정 잡음이 추가되어 불연속.
6.2 표준 절차
- 대각선 항 제외: \(m_1 \neq m_2\) 인 cross product \(\widetilde{Y}_{nm_1} \widetilde{Y}_{nm_2}\) 만 사용.
- 이변량 평활: 7.2 의 도구 (gam 등) 를 \((t_{nm_1}, t_{nm_2})\) vs \(\widetilde{Y}_{nm_1} \widetilde{Y}_{nm_2}\) 로 적용.
- 양정치 보정: 추정 표면이 양정치가 아닐 수 있으므로 음의 고유값을 0 으로 설정.
- 잡음 분산 추정: \(\widehat{\sigma}^2(t) = \widetilde{c}(t, t) - \widehat{c}(t, t)\) (대각 평활값 - 비대각 추정값).
6.3 직관: 왜 대각을 제거하는가
대각선 (\(m_1 = m_2\)) 에서:
\[ E[\widetilde{Y}_{nm}^2] = c(t_{nm}, t_{nm}) + \sigma^2(t_{nm}), \]
즉 측정 잡음의 분산이 추가됨. 이 항을 평활화에 포함시키면 추정이 위로 편향 (\(\sigma^2\) 만큼 부풀어 오름).
대각을 제외하고 비대각만 평활화 → 잡음 없는 진짜 공분산 추정. 이후 대각의 추가량으로 잡음 분산 분리 추정.
6.4 비유: 자기상관과 잡음 분리
신호 처리에서 신호의 자기상관 함수의 zero-lag 값은 신호 분산 + 잡음 분산. 시간 차 0 의 값을 따로 처리 하는 것이 신호와 잡음을 분리하는 표준 기법 — sparse FDA 의 대각 분리도 같은 원리.
7 Sparse FPCA: PACE (7.4)
7.1 동기
밀집 FDA 의 FPCA 점수:
\[ \xi_{nj} = \langle Y_n, \widehat{v}_j \rangle = \int Y_n(t) \widehat{v}_j(t) \, dt. \]
이 적분이 정의되지 않는다 — sparse 데이터에서는 \(Y_n(t)\) 가 모든 \(t\) 에서 관측되지 않음. 따라서 점수를 직접 계산 불가.
7.2 PACE: Principal Analysis by Conditional Expectation
해결: 조건부 기댓값 (BLUP) 으로 점수를 예측.
가우스 가정 하 (\(Y_n(t)\) 가 가우스 과정), 점수 \(\xi_{n1}\) 와 관측 \(\{Y_n(t_{n1}), \ldots, Y_n(t_{nM_n})\}\) 의 결합 분포가 다변량 정규. 따라서 조건부 기댓값이 최선의 선형 비편향 예측량 (BLUP):
\[ \widehat{\xi}_{nj} = \boldsymbol{\Sigma}_{12}^T \boldsymbol{\Sigma}_{22}^{-1} \mathbf{Y}_n, \]
여기서:
- \(\boldsymbol{\Sigma}_{12}\) — 점수와 관측의 공분산: \([\lambda_j v_j(t_{n1}), \ldots, \lambda_j v_j(t_{nM_n})]^T\).
- \(\boldsymbol{\Sigma}_{22}\) — 관측의 공분산 행렬: \([c(t_{nk}, t_{n\ell}) + \sigma^2(t_{nk}) \delta_{k\ell}]\).
- \(\mathbf{Y}_n\) — 관측 벡터.
7.3 직관: 조건부 기댓값이 BLUP
다변량 정규에서 한 변수를 다른 변수들로 예측하는 최선의 방법은 조건부 기댓값. 공분산 구조를 사용한 가중 평균 이며, 가우스 가정 하 BLUP.
PACE 는 이 표준 결과를 무한차원 (점수 ξ) ↔︎ 유한차원 (관측 Y) 사이의 조건부 기대 로 응용. 점수가 관측되지 않더라도 그 점수의 가장 가능성 높은 값을 추정.
7.4 곡선 재구성
추정 점수 \(\widehat{\xi}_{nj}\) 와 추정 EFPC \(\widehat{v}_j\) 로 곡선 재구성:
\[ \widehat{Y}_n(t) = \widehat{\mu}(t) + \sum_{j=1}^p \widehat{\xi}_{nj} \widehat{v}_j(t). \]
이는 sparse 관측에서 모집단 정보 (μ, v_j) 와 개체 정보 (Y_n 의 관측들) 의 결합 으로 매끄러운 곡선을 복원.
7.5 직관: 모집단의 도움 받기
5 개 점만 가진 환자의 곡선을 그 환자만의 데이터로 그릴 수 없다. 그러나 모집단의 평균 곡선과 변동 패턴 (FPC) 을 알면, 이 환자의 5 개 점이 그 패턴 안에서 어떻게 위치하는지를 추정 — 그 위치 정보로 전체 곡선을 채운다.
이는 베이지안의 사전분포 (모집단) + 우도 (개체) → 사후분포 (재구성) 와 같은 사고. PACE 는 명시적으로 가우스 사전·우도 가정 하의 BLUP.
7.6 비유: 음악의 “휘파람 → 멜로디 복원”
누군가가 노래의 5 개 음만 휘파람으로 들려준다. 그 5 개 음만으로 곡 전체를 추측할 수는 없다. 그러나 그 곡의 일반적 멜로디 패턴 (모집단 평균) 과 이 곡이 속한 장르의 변형 패턴 (FPC) 을 알면, 그 5 개 음이 어느 곡의 어디인지 추정 가능 — 그것이 PACE.
7.7 CATT 응용
CATT 데이터에 PACE 적용:
- \(\widehat{\mu}(t)\) — 시간에 따른 평균 VAS (보통 baseline 후 빠르게 상승, 그 후 안정화).
- \(\widehat{v}_j(t)\) — 환자별 변동 패턴 (전체 수준, 회복 속도 등).
- 각 환자의 \(\widehat{\xi}_{nj}\) — 그 환자의 PC 점수 → 군집화·분류·회귀에 사용 가능.
8 Sparse 함수 회귀 (7.5)
8.1 핵심 전략: FPCA → 다변량 회귀
sparse 데이터에서 함수 회귀를 직접 적합하기 어려움 (4, 5, 6 장의 도구가 dense 가정에 의존). PACE 로 점수를 추정한 후 다변량 회귀로 환원.
8.2 함수-on-스칼라 (sparse 반응)
모형: \(Y_n(t) = X_n \beta(t) + \varepsilon_n(t)\).
- 반응 \(Y_n\) 에 PACE 적용 → 점수 \(\xi_{nj}\), EFPC \(\widehat{u}_j\).
- 효과 함수 전개: \(\beta(t) \approx \sum_{j=1}^p \beta_j \widehat{u}_j(t)\).
- 점수 LS: \[ \widehat{\beta}_j = \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2}. \]
- 재구성: \(\widehat{\beta}(t) = \sum_j \widehat{\beta}_j \widehat{u}_j(t)\).
8.3 스칼라-on-함수 (sparse 회귀자)
모형: \(Y_n = \int \beta(t) X_n(t) \, dt + \varepsilon_n\).
- 회귀자 \(X_n\) 에 PACE 적용 → 점수 \(\zeta_{nj}\), EFPC \(\widehat{v}_j\).
- 효과 함수 전개: \(\beta(t) \approx \sum_j \beta_j \widehat{v}_j(t)\).
- 점수 LS: \[ \widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}. \]
- 재구성: 같은 방식.
8.4 함수-on-함수 (양쪽 sparse)
이변량 핵 \(\beta(t, s) \approx \sum_i \sum_j \beta_{ij} \widehat{u}_i(t) \widehat{v}_j(s)\). 점수 LS:
\[ \widehat{\beta}_{ij} = \frac{\sum_n \zeta_{jn} \xi_{in}}{\sum_n \zeta_{jn}^2}. \]
8.5 직관: PACE 가 sparse FDA 의 보편 도구
세 함수 회귀 형태 모두 같은 패턴.
sparse 함수 → PACE 점수 → 다변량 회귀 → 함수 모수 재구성
PACE 는 sparse 데이터를 표준 다변량 형태로 환원 하는 보편 도구. 이후의 회귀는 표준 LS.
8.6 비유: 이중 번역
영어 → 한국어 직역이 어색하면, 영어 → 일본어 → 한국어 의 이중 번역으로 자연스러움 확보. Sparse 함수 회귀도 비슷:
sparse 곡선 → PACE 점수 → 다변량 회귀 결과 → 함수로 환산
PACE 가 “중간 언어” 역할을 한다.
9 Chapter 7 의 통합 시각
9.1 한 줄 요약
Sparse FDA 는 각 단위가 소수의 불규칙 시점에서만 관측되는 종단 데이터의 분석 framework 이며, 핵심 아이디어는 “subjects 간 정보 풀링” — 개별 곡선 평활화 대신 모집단 평균/공분산을 비모수 회귀로 추정한 후 PACE 의 조건부 기댓값으로 개체 점수와 곡선을 BLUP. 단위당 관측 수 M 이 N^{1/4} 보다 크면 모수적 N^{-1} 수렴 속도를 달성하며 (Example 7.1.2), CATT 황반 변성 임상시험 데이터가 표준 응용 사례. 함수 회귀는 PACE 점수를 회귀자로 사용해 다변량 회귀로 환원한다.
9.2 Ch.4·5·6 와의 비교
| 측면 | Ch.4·5·6 (Dense) | Ch.7 (Sparse) |
|---|---|---|
| 관측 수 | \(M \to \infty\) 또는 큼 | \(M_n\) 작고 단위마다 다름 |
| 평균 추정 | 점별 표본 평균 | local polynomial / basis / RKHS 평활 |
| 공분산 추정 | 점별 표본 공분산 | 비대각만 이변량 평활 |
| FPCA 점수 | 직접 적분 \(\int Y v\) | PACE 조건부 기댓값 (BLUP) |
| 회귀 | 직접 함수 회귀 | PACE 점수 → 다변량 회귀 |
| 정보 흐름 | 개체 → 모집단 | 모집단 → 개체 |
핵심 변화: 개별 곡선 평활을 포기하고 모집단 정보로 보완. 동일한 framework (FPCA, 회귀) 이지만 도구가 sparse 에 맞게 적응.
9.3 후속 챕터와의 연결
| 챕터 | Ch.7 의 도구를 어떻게 확장하는가 |
|---|---|
| Ch.8 함수 시계열 | Sparse 시계열 데이터 (불규칙 관측 시점의 시계열) |
| Ch.9 공간 함수 | 공간 + sparse (각 공간 위치에서 sparse 관측) |
| Ch.10~11 힐베르트 공간 | RKHS 의 형식적 토대 |
| Ch.12 추론 | Sparse 추정량의 점근 분포 |
7.4 의 PACE 는 sparse FDA 의 표준 도구로, 후속 챕터들이 모두 이 위에서 작동.
9.4 실용적 요약
- 데이터 진단: 단위당 관측 수 \(M_n\) 분포. \(\bar{M} > N^{1/4}\) 인지 확인.
- 평균 추정:
mgcv::gam으로 비모수 평균 함수. - 공분산 추정: 비대각 cross product 평활 + 양정치 보정.
- PACE FPCA:
fdapace::FPCA함수 (R 패키지). - 점수 활용: 분류·회귀·시각화에 추정 점수 사용.
- 곡선 재구성: BLUP 곡선 시각화로 개체 패턴 확인.
10 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 3.0 — 함수 데이터의 수학적 프레임워크 개관
- FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개
- FDA 4.0 — 스칼라-on-함수 회귀 개관
- FDA 5.0 — 함수 반응 모형 개관
- FDA 6.0 — 함수 일반화 선형 모형 개관
후속 주제
- FDA 7.1~7.2 — 희소 FDA 도입과 평균 함수 추정
- FDA 7.3~7.4 — 공분산 추정과 PACE FPCA
- FDA 7.5 — Sparse 함수 회귀
- FDA 7.6 — Chapter 7 연습문제 풀이
- FDA Ch.8 — 함수 시계열
관련 개념
- Mixed Model 과 Random Effects — Sparse FDA 의 모형 (7.1) 의 토대
- Local Polynomial Regression — 비모수 평활의 표준
- 재생 핵 힐베르트 공간 (RKHS) — 7.2 와 6.6 의 공통 도구
- Best Linear Unbiased Predictor (BLUP) — PACE 의 통계적 토대
- Cross-validation 과 매끄러움 모수 선택 — 비모수 회귀의 표준 절차
- Bias-Variance Tradeoff — 7.1 의 점근 분석의 토대