1 이 절의 위치
| 절 | 주제 | 핵심 도구 |
|---|---|---|
| 7.5 | Sparse 함수 회귀 (3 형태) | PACE 점수 + 다변량 LS |
7.5 는 Sparse 함수 데이터의 회귀 분석 — Ch.4·5·6 의 dense 함수 회귀 도구 (pfr, pffr) 가 sparse 데이터에서 직접 작동하지 않을 때의 우회 전략. 핵심 아이디어:
PACE (7.4) 로 점수를 추정한 후 표준 다변량 회귀로 환원한다.
이 단순한 환원이 sparse 회귀의 모든 형태 — 함수-on-스칼라, 스칼라-on-함수, 함수-on-함수 — 에서 일관되게 작동하며, sparse FDA 의 회귀 분석을 가능하게 한다.
2 환원 전략의 동기
2.1 Dense 회귀 도구의 한계
Ch.4·5 의 함수 회귀 도구 (refund::pfr, refund::pffr) 는 dense 관측 가정:
- 모든 단위가 같은 시점에서 관측 (또는 거의 같은).
- 각 단위의 곡선이 직접 평활화 가능.
Sparse 데이터에서 이 가정이 깨진다:
- 단위마다 다른 시점.
- 단위당 관측 수 \(M_n\) 이 작음 (예: 5).
- 개별 곡선 평활이 매우 잡음.
2.2 PACE 의 역할
PACE (7.4) 가 sparse 데이터의 표준 환원 도구:
sparse 곡선 → PACE → 점수 ξ_n (스칼라 벡터) → 다변량 회귀 적용 가능
점수가 표준 다변량 객체이므로, 회귀의 모든 도구 (LS, GLS, ridge 등) 를 그대로 사용 가능.
2.3 직관: 차원 환원의 일관 패턴
Sparse FDA 의 모든 후속 분석 (회귀, 분류, 군집화, 시각화) 이 같은 패턴 — PACE 점수가 다변량 representation. 이 점수가 sparse 데이터와 다변량 분석의 다리 역할.
“Sparse 함수 → PACE 점수 → 표준 다변량 도구” 가 sparse FDA 의 보편 워크플로우.
2.4 비유: 통역사의 중간 언어
영어 → 한국어 직역이 어려운 경우 (어순 문제 등), 영어 → 일본어 → 한국어 의 이중 번역으로 자연스러움 확보. 일본어가 두 언어의 다리.
PACE 점수도 같은 역할 — sparse 함수와 다변량 도구 사이의 “중간 언어”. 한 번 점수로 환원되면 모든 표준 도구 사용 가능.
3 함수-on-스칼라 회귀 (sparse 반응)
3.1 모형
5.1 의 함수-on-스칼라 회귀를 sparse 반응으로:
\[ Y_n(t) = X_n \beta(t) + \varepsilon_n(t). \]
가정: \(X_n\) 은 스칼라 회귀자, \(Y_n(t)\) 가 sparse 관측. \(X_n\) 과 \(Y_n\) 은 평균 차감되어 절편 불필요.
3.2 환원 절차
- PACE 적용 — sparse 반응 \(Y_n\) 에 대해 (7.4 의 도구). 추정 EFPC \(\widehat{u}_j\) 와 점수 \(\xi_{nj}\) 획득.
- 효과 함수 전개 — \(\beta(t) \approx \sum_{j=1}^p \beta_j \widehat{u}_j(t)\).
- 점수 LS — 각 \(j\) 에 대해 단순 회귀: \[ \widehat{\beta}_j = \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2}. \]
- 재구성 — \(\widehat{\beta}(t) = \sum_{j=1}^p \widehat{\beta}_j \widehat{u}_j(t)\).
3.3 식 유도
모형의 양변에 \(\widehat{u}_k(t)\) 를 곱하고 \(t\) 에 대해 적분:
\[ \langle Y_n, \widehat{u}_k \rangle = X_n \langle \beta, \widehat{u}_k \rangle + \langle \varepsilon_n, \widehat{u}_k \rangle. \]
좌변 = \(\xi_{nk}\) (점수의 정의). 우변 첫 항 = \(X_n \beta_k\) (전개 가정). 우변 둘째 항 = \(\eta_n\) (잡음 점수).
따라서:
\[ \xi_{nk} = X_n \beta_k + \eta_n. \]
이는 단순 선형 회귀 (\(\xi\) 가 반응, \(X\) 가 회귀자, \(\beta_k\) 가 기울기). 절편 없으므로 LS 해:
\[ \widehat{\beta}_k = \frac{\sum_n X_n \xi_{nk}}{\sum_n X_n^2}. \]
3.4 직관: 점수 차원에서의 단순 회귀
Sparse 함수 회귀가 각 PC 방향에서 별도의 단순 회귀 로 분해. PC 방향이 직교하므로 다변량 회귀가 아닌 독립 단순 회귀들의 모음.
이는 5.5 의 dense FPCA 회귀와 같은 구조 — 함수의 무한차원 회귀가 PC 좌표계에서 유한 차원 회귀로 분해.
3.5 비유: 음악의 멀티트랙 믹싱
음악을 베이스·드럼·기타·보컬의 멀티트랙으로 분해 후 (PCA), 각 트랙에 별도의 EQ/볼륨 조절 (각 PC 의 단순 회귀). 트랙들이 독립적으로 처리되므로 작업이 단순.
Sparse 함수 회귀도 같은 사고 — 함수를 PC 트랙으로 분해 후 각 트랙에서 단순 회귀.
3.6 효과 함수의 재구성
\(\widehat{\beta}(t)\) 의 형태:
\[ \widehat{\beta}(t) = \sum_{j=1}^p \widehat{\beta}_j \widehat{u}_j(t) = \sum_{j=1}^p \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2} \widehat{u}_j(t). \]
이는 EFPC 기저의 가중 합 — 각 PC 방향의 회귀계수가 그 방향의 가중치.
3.7 직관: PC 방향의 효과 강도
\(\widehat{\beta}_j\) 가 큰 영역의 PC \(\widehat{u}_j(t)\) 가 효과 함수에 더 강하게 기여. 즉 \(\beta(t)\) 의 형태는 \(X\) 와 가장 강하게 연관된 PC 방향들의 결합.
이는 dense FPCA 회귀의 특성과 같다 — 데이터 변동이 큰 방향이 자동으로 회귀에 기여.
4 스칼라-on-함수 회귀 (sparse 회귀자)
4.1 모형
4 장의 스칼라-on-함수 회귀를 sparse 회귀자로:
\[ Y_n = \int_0^1 \beta(t) X_n(t) \, dt + \varepsilon_n. \]
가정: \(Y_n\) 은 스칼라 반응, \(X_n(t)\) 가 sparse 관측. 평균 차감되어 절편 불필요.
4.2 환원 절차
- PACE 적용 — sparse 회귀자 \(X_n\) 에 대해. 추정 EFPC \(\widehat{v}_j\) 와 점수 \(\zeta_{nj}\) 획득.
- 효과 함수 전개 — \(\beta(t) \approx \sum_{j=1}^p \beta_j \widehat{v}_j(t)\).
- 점수 LS — 각 \(j\) 에 대해: \[ \widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}. \]
- 재구성 — \(\widehat{\beta}(t) = \sum_{j=1}^p \widehat{\beta}_j \widehat{v}_j(t)\).
4.3 식 유도
모형 적분:
\[ \int \beta(t) X_n(t) \, dt = \int \left(\sum_j \beta_j \widehat{v}_j(t)\right) X_n(t) \, dt = \sum_j \beta_j \langle X_n, \widehat{v}_j \rangle = \sum_j \beta_j \zeta_{nj}. \]
따라서 모형:
\[ Y_n = \sum_j \beta_j \zeta_{nj} + \varepsilon_n. \]
EFPC 점수의 비상관성 \(\sum_n \zeta_{nj} \zeta_{nk} \approx 0\) (\(j \neq k\)) 으로 cross 항 자동 분리. 각 \(j\) 에 대한 단순 회귀:
\[ \widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}. \]
4.4 직관: PCR (Principal Component Regression) 의 함수 일반화
이 식은 다변량 PCR 의 함수 버전.
| 측면 | 다변량 PCR | Sparse 함수-on-스칼라 |
|---|---|---|
| 회귀자 | 다변량 \(\mathbf{X}_n\) | 함수 \(X_n(t)\) |
| 좌표계 | \(\mathbf{X}\) 의 PC | \(X(t)\) 의 EFPC (\(\widehat{v}_j\)) |
| 점수 | \(\mathbf{X}\) 의 PC 점수 | \(\zeta_{nj}\) (BLUP) |
| 회귀 | 점수 vs \(Y\) 단순 회귀 | 점수 vs \(Y\) 단순 회귀 |
차이는 단지 점수가 dense 적분 (다변량) vs PACE BLUP (sparse 함수).
4.5 비유: 직교 좌표계에서의 회귀
직교 좌표계에서는 다변량 회귀가 각 좌표축에 대한 독립 단순 회귀 로 분해 — \(\widehat{\beta}_j = \sum X_{nj} Y_n / \sum X_{nj}^2\). 비직교 좌표계에서는 행렬 역행렬이 필요.
EFPC 점수가 비상관 (즉 직교) 이므로, sparse 함수 회귀가 자동으로 직교 좌표계의 회귀 패턴 — 단순 회귀들의 모음.
4.6 절단 차원 \(p\) 의 선택
PACE 가 추정한 EFPC 의 수 \(p\) 가 회귀의 자유도. 표준 선택:
- 누적 분산 비율 (CPV) ≥ 85% 또는 95%.
- AIC/BIC — 점수 회귀의 정보 기준.
- 교차 검증 — predict 성능 기반.
\(p\) 가 작으면 underfit, 크면 overfit (특히 작은 표본에서). 균형 필요.
5 함수-on-함수 회귀 (양쪽 sparse)
5.1 모형
5 장의 함수-on-함수 회귀:
\[ Y_n(t) = \int \beta(t, s) X_n(s) \, ds + \varepsilon_n(t). \]
가정: \(X_n, Y_n\) 모두 sparse. 양쪽 평균 차감.
5.2 환원 절차
- PACE 적용 — \(X_n\) 과 \(Y_n\) 각각에 적용.
- \(X\) 의 EFPC \(\widehat{v}_j\), 점수 \(\zeta_{nj}\).
- \(Y\) 의 EFPC \(\widehat{u}_i\), 점수 \(\xi_{ni}\).
- 이변량 핵 전개 — \(\beta(t, s) \approx \sum_{i=1}^q \sum_{j=1}^p \beta_{ij} \widehat{u}_i(t) \widehat{v}_j(s)\).
- 점수 LS — 각 \((i, j)\) 에 대해: \[ \widehat{\beta}_{ij} = \frac{\sum_n \zeta_{nj} \xi_{ni}}{\sum_n \zeta_{nj}^2}. \]
- 재구성 — \[ \widehat{\beta}(t, s) = \sum_{i=1}^q \sum_{j=1}^p \widehat{\beta}_{ij} \widehat{u}_i(t) \widehat{v}_j(s). \]
5.3 식 유도
모형의 양변에 \(\widehat{u}_k(t)\) 곱하고 \(t\) 적분:
\[ \xi_{nk} = \int \widehat{u}_k(t) \int \beta(t, s) X_n(s) \, ds \, dt + \langle \varepsilon_n, \widehat{u}_k \rangle. \]
핵 전개를 대입:
\[ \int \widehat{u}_k(t) \int \left(\sum_{i, j} \beta_{ij} \widehat{u}_i(t) \widehat{v}_j(s)\right) X_n(s) \, ds \, dt = \sum_{i, j} \beta_{ij} \underbrace{\int \widehat{u}_k(t) \widehat{u}_i(t) \, dt}_{= \delta_{ki}} \underbrace{\int \widehat{v}_j(s) X_n(s) \, ds}_{= \zeta_{nj}}. \]
EFPC 의 정규직교성으로 \(i = k\) 만 살아남음:
\[ \xi_{nk} = \sum_j \beta_{kj} \zeta_{nj} + \eta_n. \]
이는 점수 차원의 다변량 회귀 — \(\xi_{nk}\) (반응) 가 \(\zeta_{n1}, \ldots, \zeta_{np}\) (회귀자) 의 선형 결합.
EFPC 점수의 비상관성으로 cross 항 분리 → 단순 회귀:
\[ \widehat{\beta}_{kj} = \frac{\sum_n \zeta_{nj} \xi_{nk}}{\sum_n \zeta_{nj}^2}. \]
5.4 직관: 양방향 PCR
함수-on-함수 sparse 회귀가 두 방향의 PCR 의 결합.
X 차원: PACE → EFPC v_j → 점수 ζ_nj
Y 차원: PACE → EFPC u_i → 점수 ξ_ni
회귀: 각 (i, j) 쌍에서 ξ_ni vs ζ_nj 의 단순 회귀 → β_ij
이는 5.5 의 dense FPCA 핵 추정과 본질적으로 같은 구조 — 단지 sparse 데이터에서 PACE 로 점수가 BLUP 추정.
5.5 비유: 두 차원의 별자리 매핑
- X 차원의 별자리 — \(X(s)\) 의 가장 두드러진 변동 패턴 (\(\widehat{v}_j\)).
- Y 차원의 별자리 — \(Y(t)\) 의 가장 두드러진 변동 패턴 (\(\widehat{u}_i\)).
- 두 별자리 사이의 매핑 — \(\beta_{ij}\) 가 X 의 \(j\) 번째 별이 Y 의 \(i\) 번째 별에 주는 영향.
각 (i, j) 쌍의 별 매핑이 단순 회귀로 결정 — 양 별자리 모두에서 변동이 큰 별들의 매핑이 가장 신뢰할 수 있다.
5.6 모수 수와 절단
이변량 핵의 자유도 = \(p \times q\). 양쪽 모두 5 개 PC 면 \(5 \times 5 = 25\) 개 모수 — 작은 표본 (\(N \sim 100\)) 에서도 적합 가능.
이는 5.3 의 dense 함수-on-함수 (텐서 곱 기저, 수백~수천 모수) 와 비교했을 때 훨씬 적은 모수 — sparse 데이터에서도 안정적 추정 가능.
5.7 직관: 데이터 기반 기저의 효율
결정적 기저 (B-spline 등) 는 데이터의 변동 구조와 무관 → 많은 모수 필요. EFPC 는 데이터의 가장 변동이 큰 방향 → 적은 모수로 효율적 표현. 특히 sparse 데이터에서 이 효율성이 결정적.
6 세 형태의 통합 시각
6.1 식의 일관성
세 sparse 회귀 모두 같은 형태의 단순 회귀 로 환원:
| 모형 | 추정 | 의미 |
|---|---|---|
| 함수-on-스칼라 | \(\widehat{\beta}_j = \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2}\) | 스칼라 회귀자 vs 반응 점수 |
| 스칼라-on-함수 | \(\widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}\) | 회귀자 점수 vs 스칼라 반응 |
| 함수-on-함수 | \(\widehat{\beta}_{ij} = \frac{\sum_n \zeta_{nj} \xi_{ni}}{\sum_n \zeta_{nj}^2}\) | 회귀자 점수 vs 반응 점수 |
모든 형태가 분자 = 두 양의 cross product 합, 분모 = 회귀자의 제곱 합. 단순 선형 회귀의 표준 형태.
6.2 직관: PACE 점수가 모든 회귀를 통합
세 sparse 함수 회귀의 일관된 환원 패턴:
Sparse 데이터 (회귀자/반응)
↓ PACE
점수 (스칼라 벡터)
↓ 단순 회귀
점수 회귀계수 (β_j 또는 β_ij)
↓ EFPC 가중 합
효과 함수 또는 핵 (β(t) 또는 β(t, s))
이 패턴이 sparse FDA 의 회귀가 dense FDA 보다 개념적으로 단순함 을 보여준다 — 모든 도구가 PACE 환원으로 통합.
6.3 비유: 모든 도구의 공통 인터페이스
USB 가 다양한 장치 (마우스·키보드·프린터·외장 메모리) 의 공통 인터페이스가 되어 컴퓨터에 연결을 단순화. PACE 점수가 sparse FDA 의 USB — 모든 sparse 함수가 같은 다변량 인터페이스로 환원되어 표준 도구 사용 가능.
7 R 구현 예시
7.1 함수-on-스칼라 (fdapace::FCReg)
library(fdapace)
# Sparse 반응 Y_n(t) — long format (Ly_response, Lt_response)
# 스칼라 회귀자 X_n
# 모두 평균 차감되어 있다고 가정
# 1. PACE 로 반응의 점수 추정
fpca_Y <- FPCA(Ly = Ly_response, Lt = Lt_response,
optns = list(methodSelectK = "FVE",
FVEthreshold = 0.95,
dataType = "Sparse"))
xi_scores <- fpca_Y$xiEst # N x p
phi_hat <- fpca_Y$phi # 시점 격자 위의 EFPC
work_grid <- fpca_Y$workGrid
# 2. 각 점수에 대해 X_n 으로 단순 회귀
beta_j <- sapply(1:ncol(xi_scores), function(j) {
sum(X * xi_scores[, j]) / sum(X^2)
})
# 3. β(t) 재구성
beta_t <- as.vector(phi_hat %*% beta_j)
plot(work_grid, beta_t, type = "l",
xlab = "t", ylab = expression(hat(beta)(t)),
main = "Sparse function-on-scalar regression")7.2 스칼라-on-함수 (fdapace::FCReg)
# Sparse 회귀자 X_n(t), 스칼라 반응 Y
# 1. PACE 로 회귀자의 점수 추정
fpca_X <- FPCA(Ly = Ly_regressor, Lt = Lt_regressor,
optns = list(methodSelectK = "FVE",
FVEthreshold = 0.95,
dataType = "Sparse"))
zeta_scores <- fpca_X$xiEst # N x p
psi_hat <- fpca_X$phi
work_grid <- fpca_X$workGrid
# 2. 각 점수에 대해 Y 로 단순 회귀
beta_j <- sapply(1:ncol(zeta_scores), function(j) {
sum(zeta_scores[, j] * Y) / sum(zeta_scores[, j]^2)
})
# 3. β(t) 재구성
beta_t <- as.vector(psi_hat %*% beta_j)
plot(work_grid, beta_t, type = "l",
xlab = "t", ylab = expression(hat(beta)(t)),
main = "Sparse scalar-on-function regression")7.3 함수-on-함수 (fdapace::FCReg)
# Sparse 회귀자 X_n(s), sparse 반응 Y_n(t)
# 1. 양쪽에 PACE 적용
fpca_X <- FPCA(Ly = Ly_X, Lt = Lt_X,
optns = list(FVEthreshold = 0.95, dataType = "Sparse"))
fpca_Y <- FPCA(Ly = Ly_Y, Lt = Lt_Y,
optns = list(FVEthreshold = 0.95, dataType = "Sparse"))
zeta_scores <- fpca_X$xiEst # N x p
xi_scores <- fpca_Y$xiEst # N x q
# 2. 각 (i, j) 쌍에서 단순 회귀
p <- ncol(zeta_scores)
q <- ncol(xi_scores)
beta_ij <- matrix(0, q, p)
for (i in 1:q) {
for (j in 1:p) {
beta_ij[i, j] <- sum(zeta_scores[, j] * xi_scores[, i]) /
sum(zeta_scores[, j]^2)
}
}
# 3. β(t, s) 재구성
psi_hat <- fpca_X$phi # M_s x p
phi_hat <- fpca_Y$phi # M_t x q
beta_ts <- phi_hat %*% beta_ij %*% t(psi_hat) # M_t x M_s
# 시각화
persp(fpca_Y$workGrid, fpca_X$workGrid, beta_ts,
theta = 30, phi = 30,
xlab = "t", ylab = "s", zlab = expression(hat(beta)(t, s)),
main = "Sparse function-on-function regression")7.4 fdapace::FCReg 직접 호출
fdapace 패키지의 FCReg 함수가 위 모든 단계를 자동 실행:
# 함수-on-함수 회귀 (가장 일반적)
result <- FCReg(vars = list(X = list(Ly = Ly_X, Lt = Lt_X),
Y = list(Ly = Ly_Y, Lt = Lt_Y)),
userBwMu = NULL, # bandwidth 자동
outGrid = seq(0, 1, length = 50))
beta_hat <- result$beta # 추정 핵 β(t, s)
plot(result)fdapace::FCReg 가 함수-on-스칼라, 스칼라-on-함수, 함수-on-함수 모두 처리. 사용자는 long format 데이터만 준비.
8 모형 진단
8.1 추정 효과 함수의 시각적 검증
- 추정 \(\widehat{\beta}(t)\) 또는 \(\widehat{\beta}(t, s)\) 시각화 — 도메인 지식과 일치하는가?
- PC 절단 수 \(p, q\) 의 민감도 — 다른 임계값으로 결과 안정성 확인.
- 점수 회귀의 잔차 — 패턴 없이 무작위인가?
- 재구성 곡선 — 일부 단위에 대해 sparse 관측값 + 재구성 곡선 비교.
- 부트스트랩 — 신뢰 구간을 위한 표준 도구.
8.2 직관: Sparse 회귀의 약점
Sparse 함수 회귀는 강력하지만 한계:
- PACE 점수 자체에 잡음 — 이 잡음이 회귀의 분산을 증가.
- EFPC 가 \(Y\) 와 무관 — \(X\) 의 변동만 반영, \(Y\) 예측에 가장 유용한 방향이 아닐 수 있음 (5.5 의 inverse problem in PCR 과 같은 한계).
- 절단 차원 \(p\) 의 자의성 — 임계값 선택이 결과에 영향.
따라서 민감도 분석과 시각적 검증이 필수. 통계적 자동화를 무비판적으로 수용하지 말 것.
8.3 보완: 부트스트랩
신뢰 구간 추정에 부트스트랩 권장:
n_boot <- 200
beta_boot <- matrix(0, n_boot, length(work_grid))
for (b in 1:n_boot) {
# Subject 단위 resample (단위 내 모든 관측 함께)
subjects_b <- sample(1:N, N, replace = TRUE)
Ly_b <- Ly[subjects_b]
Lt_b <- Lt[subjects_b]
# PACE + 회귀
result_b <- FCReg(...)
beta_boot[b, ] <- result_b$beta
}
# 95% 신뢰 구간
ci_lower <- apply(beta_boot, 2, quantile, 0.025)
ci_upper <- apply(beta_boot, 2, quantile, 0.975)8.4 직관: Subject 단위 부트스트랩의 중요성
표준 부트스트랩은 한 점씩 resample. Sparse FDA 에서는 subject 단위 resample 필수 — 단위 내 강한 상관 (\(\varepsilon_n\)) 으로 한 점씩 resample 하면 분포가 망가진다.
이는 7.2 의 subject-level CV 와 같은 원리 — sparse FDA 의 모든 resampling 절차가 subject 단위.
9 다른 sparse 회귀 도구와의 비교
9.1 refund::pfr/pffr 의 sparse 옵션
refund 패키지의 함수 회귀 도구도 sparse 데이터를 어느 정도 처리:
# pfr 의 ydata 인터페이스 (long format)
pfr_fit <- pfr(Y ~ lf(X, ...), data = data, ...)
# pffr 의 ydata 옵션
pffr_fit <- pffr(Ydummy ~ X, ydata = Y_long_format, ...)이는 mixed model framework 위에서 작동하며, 평균 차감과 매끄러움 벌점을 자동 처리.
9.2 fdapace::FCReg vs refund::pfr
| 측면 | fdapace::FCReg |
refund::pfr |
|---|---|---|
| 토대 | PACE BLUP + LS | mgcv 의 mixed model |
| 추정 | 점수 → 회귀계수 → 함수 재구성 | 직접 함수 적합 |
| 매끄러움 | EFPC 절단 | 거칠기 벌점 |
| 결측 처리 | PACE 의 BLUP 자동 | mgcv 의 결측 처리 |
| 강점 | 명확한 PC 분해, 빠름 | 일반적, GLM 확장 |
| 약점 | PACE 점수의 잡음 | 매끄러움 모수 선택의 민감성 |
두 도구는 보완적. 실무에서는 두 결과를 모두 시도하고 비교하여 견고함 확인.
9.3 직관: 두 접근의 본질적 차이
fdapace— “Sparse → 점수로 환원 → 다변량 회귀” 의 명시적 분리.refund— “Sparse 데이터를 직접 mixed model 로 처리” 의 통합 접근.
전자는 단계별로 명확하지만 PACE 잡음의 누적, 후자는 자동화되지만 내부가 블랙박스. 상황에 따라 선택.
10 통합 시각
10.1 한 줄 요약
Sparse 함수 회귀는 PACE 의 BLUP 점수를 회귀자 또는 반응으로 사용하여 표준 다변량 LS 로 환원하는 framework. 함수-on-스칼라 (β_j = Σ X_n ξ_nj / Σ X_n²), 스칼라-on-함수 (β_j = Σ ζ_nj Y_n / Σ ζ_nj²), 함수-on-함수 (β_ij = Σ ζ_jn ξ_in / Σ ζ_jn²) 세 형태가 모두 같은 단순 회귀 형태로 분해되며, 이는 EFPC 점수의 비상관성으로 cross 항이 자동 사라지기 때문이다. PACE 점수가 sparse 함수와 다변량 도구 사이의 보편 인터페이스 역할.
10.2 Ch.4·5·6 와의 비교
| 측면 | Dense 함수 회귀 (Ch.4·5·6) | Sparse 회귀 (Ch.7.5) |
|---|---|---|
| 회귀 도구 | pfr, pffr (직접 적합) |
PACE + 점수 LS |
| 함수 추정 | 거칠기 벌점 + REML | EFPC 절단 |
| 매끄러움 | 연속 (모수 \(\lambda\)) | 이산 (PC 수 \(p\)) |
| 직접성 | 직접 함수 회귀 | 점수로 환원 |
| GLM 확장 | family 인자 (Ch.6) | sparse GLM 은 별도 도구 필요 |
두 접근의 핵심 차이는 정칙화의 양식 (연속 벌점 vs 이산 절단). Sparse 데이터에서는 절단이 자연스럽다 — 데이터가 적으므로 적은 모수가 필요.
10.3 Ch.7 의 통합
Ch.7 의 흐름:
7.1: 도입 + 점근 (M ~ N^{1/4})
↓
7.2: 평균 추정 (local poly / basis / RKHS)
↓
7.3: 공분산 추정 (대각 분리)
↓
7.4: PACE FPCA (BLUP 점수)
↓
7.5: Sparse 회귀 (PACE 점수 → 다변량 LS) ← 이 포스트
↓
7.6: 연습문제
7.5 는 7.4 의 PACE 의 자연스러운 응용 — sparse FDA 의 가장 실용적 부분.
10.4 Chapter 8 너머와의 연결
| 다음 챕터 | 7.5 의 도구를 어떻게 확장하는가 |
|---|---|
| Ch.8 함수 시계열 | Sparse 시계열 데이터의 회귀 (예: 종단 전염병 예측) |
| Ch.9 공간 함수 | Sparse 공간 + 회귀 (지역별 환경 데이터) |
| Ch.12 추론 | PACE 점수의 점근 분포 |
7.5 의 환원 전략 — “Sparse → PACE 점수 → 표준 도구” — 이 sparse FDA 의 모든 응용에서 일관되게 작동.
10.5 실무 가이드
- 데이터 진단 — Long format 으로 정리, \(\bar{M} > N^{1/4}\) 확인.
- PACE FPCA —
fdapace::FPCA로 양쪽 (회귀자·반응) 의 점수 추정. - 회귀 형태 결정 — 함수-on-스칼라/스칼라-on-함수/함수-on-함수.
fdapace::FCReg또는 수동 LS — 점수 회귀 자동/수동 적합.- 시각적 검증 — 추정 효과 함수의 형태가 도메인 지식과 일치하는가.
- 민감도 분석 — PC 절단 수의 변화에 따른 결과 안정성.
- 부트스트랩 신뢰 구간 — Subject 단위 resample.
refund::pfr와 비교 — 견고함 검증.
11 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 4.0 — 스칼라-on-함수 회귀 개관
- FDA 5.0 — 함수 반응 모형 개관
- FDA 5.5~5.6 — FPCA 기반 핵 추정과 효과 없음 카이제곱 검정
- FDA 7.0 — 희소 FDA 개관
- FDA 7.1~7.2 — 희소 FDA 도입과 평균 함수 추정
- FDA 7.3~7.4 — 희소 데이터의 공분산 추정과 PACE FPCA
후속 주제
관련 개념
- PCR (Principal Component Regression) — Sparse 회귀의 다변량 원조
- BLUP (Best Linear Unbiased Predictor) — PACE 의 토대
fdapaceR 패키지 — Sparse FDA 의 표준 도구- 부트스트랩 신뢰 구간 — Sparse 회귀의 추론
- Mixed Model 과 종단 데이터 —
refund::pfr의 토대