FDA 7.5 — 희소 함수 회귀

PACE 점수를 회귀자/반응으로 사용해 sparse 데이터 회귀를 표준 다변량 LS 로 환원

Kokoszka & Reimherr (2017) Ch.7.5 의 핵심을 다룬다. Sparse 함수 데이터에서 회귀를 직접 적합하기 어려우므로 PACE 의 BLUP 점수를 회귀자 또는 반응으로 사용하여 표준 다변량 LS 로 환원하는 framework. 함수-on-스칼라 (β_j = Σ X_n ξ_nj / Σ X_n²), 스칼라-on-함수 (β_j = Σ ζ_nj Y_n / Σ ζ_nj²), 함수-on-함수 (β_ij = Σ ζ_jn ξ_in / Σ ζ_jn²) 세 형태의 추정량 도출과 PACE 가 sparse 회귀의 보편 도구임을 다룬다.

Statistics
Functional Data Analysis
저자

Kwangmin Kim

공개

2026년 05월 07일

1 이 절의 위치

이 포스트의 범위
주제 핵심 도구
7.5 Sparse 함수 회귀 (3 형태) PACE 점수 + 다변량 LS

7.5 는 Sparse 함수 데이터의 회귀 분석 — Ch.4·5·6 의 dense 함수 회귀 도구 (pfr, pffr) 가 sparse 데이터에서 직접 작동하지 않을 때의 우회 전략. 핵심 아이디어:

PACE (7.4) 로 점수를 추정한 후 표준 다변량 회귀로 환원한다.

이 단순한 환원이 sparse 회귀의 모든 형태 — 함수-on-스칼라, 스칼라-on-함수, 함수-on-함수 — 에서 일관되게 작동하며, sparse FDA 의 회귀 분석을 가능하게 한다.


2 환원 전략의 동기

2.1 Dense 회귀 도구의 한계

Ch.4·5 의 함수 회귀 도구 (refund::pfr, refund::pffr) 는 dense 관측 가정:

  • 모든 단위가 같은 시점에서 관측 (또는 거의 같은).
  • 각 단위의 곡선이 직접 평활화 가능.

Sparse 데이터에서 이 가정이 깨진다:

  • 단위마다 다른 시점.
  • 단위당 관측 수 \(M_n\) 이 작음 (예: 5).
  • 개별 곡선 평활이 매우 잡음.

2.2 PACE 의 역할

PACE (7.4) 가 sparse 데이터의 표준 환원 도구:

sparse 곡선 → PACE → 점수 ξ_n (스칼라 벡터) → 다변량 회귀 적용 가능

점수가 표준 다변량 객체이므로, 회귀의 모든 도구 (LS, GLS, ridge 등) 를 그대로 사용 가능.

2.3 직관: 차원 환원의 일관 패턴

Sparse FDA 의 모든 후속 분석 (회귀, 분류, 군집화, 시각화) 이 같은 패턴 — PACE 점수가 다변량 representation. 이 점수가 sparse 데이터와 다변량 분석의 다리 역할.

“Sparse 함수 → PACE 점수 → 표준 다변량 도구” 가 sparse FDA 의 보편 워크플로우.

2.4 비유: 통역사의 중간 언어

영어 → 한국어 직역이 어려운 경우 (어순 문제 등), 영어 → 일본어 → 한국어 의 이중 번역으로 자연스러움 확보. 일본어가 두 언어의 다리.

PACE 점수도 같은 역할 — sparse 함수와 다변량 도구 사이의 “중간 언어”. 한 번 점수로 환원되면 모든 표준 도구 사용 가능.


3 함수-on-스칼라 회귀 (sparse 반응)

3.1 모형

5.1 의 함수-on-스칼라 회귀를 sparse 반응으로:

\[ Y_n(t) = X_n \beta(t) + \varepsilon_n(t). \]

가정: \(X_n\) 은 스칼라 회귀자, \(Y_n(t)\) 가 sparse 관측. \(X_n\)\(Y_n\) 은 평균 차감되어 절편 불필요.

3.2 환원 절차

Sparse 함수-on-스칼라 회귀 알고리즘
  1. PACE 적용 — sparse 반응 \(Y_n\) 에 대해 (7.4 의 도구). 추정 EFPC \(\widehat{u}_j\) 와 점수 \(\xi_{nj}\) 획득.
  2. 효과 함수 전개\(\beta(t) \approx \sum_{j=1}^p \beta_j \widehat{u}_j(t)\).
  3. 점수 LS — 각 \(j\) 에 대해 단순 회귀: \[ \widehat{\beta}_j = \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2}. \]
  4. 재구성\(\widehat{\beta}(t) = \sum_{j=1}^p \widehat{\beta}_j \widehat{u}_j(t)\).

3.3 식 유도

모형의 양변에 \(\widehat{u}_k(t)\) 를 곱하고 \(t\) 에 대해 적분:

\[ \langle Y_n, \widehat{u}_k \rangle = X_n \langle \beta, \widehat{u}_k \rangle + \langle \varepsilon_n, \widehat{u}_k \rangle. \]

좌변 = \(\xi_{nk}\) (점수의 정의). 우변 첫 항 = \(X_n \beta_k\) (전개 가정). 우변 둘째 항 = \(\eta_n\) (잡음 점수).

따라서:

\[ \xi_{nk} = X_n \beta_k + \eta_n. \]

이는 단순 선형 회귀 (\(\xi\) 가 반응, \(X\) 가 회귀자, \(\beta_k\) 가 기울기). 절편 없으므로 LS 해:

\[ \widehat{\beta}_k = \frac{\sum_n X_n \xi_{nk}}{\sum_n X_n^2}. \]

3.4 직관: 점수 차원에서의 단순 회귀

Sparse 함수 회귀가 각 PC 방향에서 별도의 단순 회귀 로 분해. PC 방향이 직교하므로 다변량 회귀가 아닌 독립 단순 회귀들의 모음.

이는 5.5 의 dense FPCA 회귀와 같은 구조 — 함수의 무한차원 회귀가 PC 좌표계에서 유한 차원 회귀로 분해.

3.5 비유: 음악의 멀티트랙 믹싱

음악을 베이스·드럼·기타·보컬의 멀티트랙으로 분해 후 (PCA), 각 트랙에 별도의 EQ/볼륨 조절 (각 PC 의 단순 회귀). 트랙들이 독립적으로 처리되므로 작업이 단순.

Sparse 함수 회귀도 같은 사고 — 함수를 PC 트랙으로 분해 후 각 트랙에서 단순 회귀.

3.6 효과 함수의 재구성

\(\widehat{\beta}(t)\) 의 형태:

\[ \widehat{\beta}(t) = \sum_{j=1}^p \widehat{\beta}_j \widehat{u}_j(t) = \sum_{j=1}^p \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2} \widehat{u}_j(t). \]

이는 EFPC 기저의 가중 합 — 각 PC 방향의 회귀계수가 그 방향의 가중치.

3.7 직관: PC 방향의 효과 강도

\(\widehat{\beta}_j\) 가 큰 영역의 PC \(\widehat{u}_j(t)\) 가 효과 함수에 더 강하게 기여. 즉 \(\beta(t)\) 의 형태는 \(X\) 와 가장 강하게 연관된 PC 방향들의 결합.

이는 dense FPCA 회귀의 특성과 같다 — 데이터 변동이 큰 방향이 자동으로 회귀에 기여.


4 스칼라-on-함수 회귀 (sparse 회귀자)

4.1 모형

4 장의 스칼라-on-함수 회귀를 sparse 회귀자로:

\[ Y_n = \int_0^1 \beta(t) X_n(t) \, dt + \varepsilon_n. \]

가정: \(Y_n\) 은 스칼라 반응, \(X_n(t)\) 가 sparse 관측. 평균 차감되어 절편 불필요.

4.2 환원 절차

Sparse 스칼라-on-함수 회귀 알고리즘
  1. PACE 적용 — sparse 회귀자 \(X_n\) 에 대해. 추정 EFPC \(\widehat{v}_j\) 와 점수 \(\zeta_{nj}\) 획득.
  2. 효과 함수 전개\(\beta(t) \approx \sum_{j=1}^p \beta_j \widehat{v}_j(t)\).
  3. 점수 LS — 각 \(j\) 에 대해: \[ \widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}. \]
  4. 재구성\(\widehat{\beta}(t) = \sum_{j=1}^p \widehat{\beta}_j \widehat{v}_j(t)\).

4.3 식 유도

모형 적분:

\[ \int \beta(t) X_n(t) \, dt = \int \left(\sum_j \beta_j \widehat{v}_j(t)\right) X_n(t) \, dt = \sum_j \beta_j \langle X_n, \widehat{v}_j \rangle = \sum_j \beta_j \zeta_{nj}. \]

따라서 모형:

\[ Y_n = \sum_j \beta_j \zeta_{nj} + \varepsilon_n. \]

EFPC 점수의 비상관성 \(\sum_n \zeta_{nj} \zeta_{nk} \approx 0\) (\(j \neq k\)) 으로 cross 항 자동 분리. 각 \(j\) 에 대한 단순 회귀:

\[ \widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}. \]

4.4 직관: PCR (Principal Component Regression) 의 함수 일반화

이 식은 다변량 PCR 의 함수 버전.

측면 다변량 PCR Sparse 함수-on-스칼라
회귀자 다변량 \(\mathbf{X}_n\) 함수 \(X_n(t)\)
좌표계 \(\mathbf{X}\) 의 PC \(X(t)\) 의 EFPC (\(\widehat{v}_j\))
점수 \(\mathbf{X}\) 의 PC 점수 \(\zeta_{nj}\) (BLUP)
회귀 점수 vs \(Y\) 단순 회귀 점수 vs \(Y\) 단순 회귀

차이는 단지 점수가 dense 적분 (다변량) vs PACE BLUP (sparse 함수).

4.5 비유: 직교 좌표계에서의 회귀

직교 좌표계에서는 다변량 회귀가 각 좌표축에 대한 독립 단순 회귀 로 분해 — \(\widehat{\beta}_j = \sum X_{nj} Y_n / \sum X_{nj}^2\). 비직교 좌표계에서는 행렬 역행렬이 필요.

EFPC 점수가 비상관 (즉 직교) 이므로, sparse 함수 회귀가 자동으로 직교 좌표계의 회귀 패턴 — 단순 회귀들의 모음.

4.6 절단 차원 \(p\) 의 선택

PACE 가 추정한 EFPC 의 수 \(p\) 가 회귀의 자유도. 표준 선택:

  • 누적 분산 비율 (CPV) ≥ 85% 또는 95%.
  • AIC/BIC — 점수 회귀의 정보 기준.
  • 교차 검증 — predict 성능 기반.

\(p\) 가 작으면 underfit, 크면 overfit (특히 작은 표본에서). 균형 필요.


5 함수-on-함수 회귀 (양쪽 sparse)

5.1 모형

5 장의 함수-on-함수 회귀:

\[ Y_n(t) = \int \beta(t, s) X_n(s) \, ds + \varepsilon_n(t). \]

가정: \(X_n, Y_n\) 모두 sparse. 양쪽 평균 차감.

5.2 환원 절차

Sparse 함수-on-함수 회귀 알고리즘
  1. PACE 적용\(X_n\)\(Y_n\) 각각에 적용.
    • \(X\) 의 EFPC \(\widehat{v}_j\), 점수 \(\zeta_{nj}\).
    • \(Y\) 의 EFPC \(\widehat{u}_i\), 점수 \(\xi_{ni}\).
  2. 이변량 핵 전개\(\beta(t, s) \approx \sum_{i=1}^q \sum_{j=1}^p \beta_{ij} \widehat{u}_i(t) \widehat{v}_j(s)\).
  3. 점수 LS — 각 \((i, j)\) 에 대해: \[ \widehat{\beta}_{ij} = \frac{\sum_n \zeta_{nj} \xi_{ni}}{\sum_n \zeta_{nj}^2}. \]
  4. 재구성\[ \widehat{\beta}(t, s) = \sum_{i=1}^q \sum_{j=1}^p \widehat{\beta}_{ij} \widehat{u}_i(t) \widehat{v}_j(s). \]

5.3 식 유도

모형의 양변에 \(\widehat{u}_k(t)\) 곱하고 \(t\) 적분:

\[ \xi_{nk} = \int \widehat{u}_k(t) \int \beta(t, s) X_n(s) \, ds \, dt + \langle \varepsilon_n, \widehat{u}_k \rangle. \]

핵 전개를 대입:

\[ \int \widehat{u}_k(t) \int \left(\sum_{i, j} \beta_{ij} \widehat{u}_i(t) \widehat{v}_j(s)\right) X_n(s) \, ds \, dt = \sum_{i, j} \beta_{ij} \underbrace{\int \widehat{u}_k(t) \widehat{u}_i(t) \, dt}_{= \delta_{ki}} \underbrace{\int \widehat{v}_j(s) X_n(s) \, ds}_{= \zeta_{nj}}. \]

EFPC 의 정규직교성으로 \(i = k\) 만 살아남음:

\[ \xi_{nk} = \sum_j \beta_{kj} \zeta_{nj} + \eta_n. \]

이는 점수 차원의 다변량 회귀\(\xi_{nk}\) (반응) 가 \(\zeta_{n1}, \ldots, \zeta_{np}\) (회귀자) 의 선형 결합.

EFPC 점수의 비상관성으로 cross 항 분리 → 단순 회귀:

\[ \widehat{\beta}_{kj} = \frac{\sum_n \zeta_{nj} \xi_{nk}}{\sum_n \zeta_{nj}^2}. \]

5.4 직관: 양방향 PCR

함수-on-함수 sparse 회귀가 두 방향의 PCR 의 결합.

X 차원: PACE → EFPC v_j → 점수 ζ_nj
Y 차원: PACE → EFPC u_i → 점수 ξ_ni
회귀:   각 (i, j) 쌍에서 ξ_ni vs ζ_nj 의 단순 회귀 → β_ij

이는 5.5 의 dense FPCA 핵 추정과 본질적으로 같은 구조 — 단지 sparse 데이터에서 PACE 로 점수가 BLUP 추정.

5.5 비유: 두 차원의 별자리 매핑

  • X 차원의 별자리\(X(s)\) 의 가장 두드러진 변동 패턴 (\(\widehat{v}_j\)).
  • Y 차원의 별자리\(Y(t)\) 의 가장 두드러진 변동 패턴 (\(\widehat{u}_i\)).
  • 두 별자리 사이의 매핑\(\beta_{ij}\) 가 X 의 \(j\) 번째 별이 Y 의 \(i\) 번째 별에 주는 영향.

각 (i, j) 쌍의 별 매핑이 단순 회귀로 결정 — 양 별자리 모두에서 변동이 큰 별들의 매핑이 가장 신뢰할 수 있다.

5.6 모수 수와 절단

이변량 핵의 자유도 = \(p \times q\). 양쪽 모두 5 개 PC 면 \(5 \times 5 = 25\) 개 모수 — 작은 표본 (\(N \sim 100\)) 에서도 적합 가능.

이는 5.3 의 dense 함수-on-함수 (텐서 곱 기저, 수백~수천 모수) 와 비교했을 때 훨씬 적은 모수 — sparse 데이터에서도 안정적 추정 가능.

5.7 직관: 데이터 기반 기저의 효율

결정적 기저 (B-spline 등) 는 데이터의 변동 구조와 무관 → 많은 모수 필요. EFPC 는 데이터의 가장 변동이 큰 방향 → 적은 모수로 효율적 표현. 특히 sparse 데이터에서 이 효율성이 결정적.


6 세 형태의 통합 시각

6.1 식의 일관성

세 sparse 회귀 모두 같은 형태의 단순 회귀 로 환원:

모형 추정 의미
함수-on-스칼라 \(\widehat{\beta}_j = \frac{\sum_n X_n \xi_{nj}}{\sum_n X_n^2}\) 스칼라 회귀자 vs 반응 점수
스칼라-on-함수 \(\widehat{\beta}_j = \frac{\sum_n \zeta_{nj} Y_n}{\sum_n \zeta_{nj}^2}\) 회귀자 점수 vs 스칼라 반응
함수-on-함수 \(\widehat{\beta}_{ij} = \frac{\sum_n \zeta_{nj} \xi_{ni}}{\sum_n \zeta_{nj}^2}\) 회귀자 점수 vs 반응 점수

모든 형태가 분자 = 두 양의 cross product 합, 분모 = 회귀자의 제곱 합. 단순 선형 회귀의 표준 형태.

6.2 직관: PACE 점수가 모든 회귀를 통합

세 sparse 함수 회귀의 일관된 환원 패턴:

Sparse 데이터 (회귀자/반응)
    ↓ PACE
점수 (스칼라 벡터)
    ↓ 단순 회귀
점수 회귀계수 (β_j 또는 β_ij)
    ↓ EFPC 가중 합
효과 함수 또는 핵 (β(t) 또는 β(t, s))

이 패턴이 sparse FDA 의 회귀가 dense FDA 보다 개념적으로 단순함 을 보여준다 — 모든 도구가 PACE 환원으로 통합.

6.3 비유: 모든 도구의 공통 인터페이스

USB 가 다양한 장치 (마우스·키보드·프린터·외장 메모리) 의 공통 인터페이스가 되어 컴퓨터에 연결을 단순화. PACE 점수가 sparse FDA 의 USB — 모든 sparse 함수가 같은 다변량 인터페이스로 환원되어 표준 도구 사용 가능.


7 R 구현 예시

7.1 함수-on-스칼라 (fdapace::FCReg)

library(fdapace)

# Sparse 반응 Y_n(t) — long format (Ly_response, Lt_response)
# 스칼라 회귀자 X_n
# 모두 평균 차감되어 있다고 가정

# 1. PACE 로 반응의 점수 추정
fpca_Y <- FPCA(Ly = Ly_response, Lt = Lt_response,
               optns = list(methodSelectK = "FVE",
                            FVEthreshold = 0.95,
                            dataType = "Sparse"))

xi_scores <- fpca_Y$xiEst       # N x p
phi_hat <- fpca_Y$phi            # 시점 격자 위의 EFPC
work_grid <- fpca_Y$workGrid

# 2. 각 점수에 대해 X_n 으로 단순 회귀
beta_j <- sapply(1:ncol(xi_scores), function(j) {
  sum(X * xi_scores[, j]) / sum(X^2)
})

# 3. β(t) 재구성
beta_t <- as.vector(phi_hat %*% beta_j)

plot(work_grid, beta_t, type = "l",
     xlab = "t", ylab = expression(hat(beta)(t)),
     main = "Sparse function-on-scalar regression")

7.2 스칼라-on-함수 (fdapace::FCReg)

# Sparse 회귀자 X_n(t), 스칼라 반응 Y

# 1. PACE 로 회귀자의 점수 추정
fpca_X <- FPCA(Ly = Ly_regressor, Lt = Lt_regressor,
               optns = list(methodSelectK = "FVE",
                            FVEthreshold = 0.95,
                            dataType = "Sparse"))

zeta_scores <- fpca_X$xiEst     # N x p
psi_hat <- fpca_X$phi
work_grid <- fpca_X$workGrid

# 2. 각 점수에 대해 Y 로 단순 회귀
beta_j <- sapply(1:ncol(zeta_scores), function(j) {
  sum(zeta_scores[, j] * Y) / sum(zeta_scores[, j]^2)
})

# 3. β(t) 재구성
beta_t <- as.vector(psi_hat %*% beta_j)

plot(work_grid, beta_t, type = "l",
     xlab = "t", ylab = expression(hat(beta)(t)),
     main = "Sparse scalar-on-function regression")

7.3 함수-on-함수 (fdapace::FCReg)

# Sparse 회귀자 X_n(s), sparse 반응 Y_n(t)

# 1. 양쪽에 PACE 적용
fpca_X <- FPCA(Ly = Ly_X, Lt = Lt_X,
               optns = list(FVEthreshold = 0.95, dataType = "Sparse"))
fpca_Y <- FPCA(Ly = Ly_Y, Lt = Lt_Y,
               optns = list(FVEthreshold = 0.95, dataType = "Sparse"))

zeta_scores <- fpca_X$xiEst    # N x p
xi_scores <- fpca_Y$xiEst      # N x q

# 2. 각 (i, j) 쌍에서 단순 회귀
p <- ncol(zeta_scores)
q <- ncol(xi_scores)
beta_ij <- matrix(0, q, p)
for (i in 1:q) {
  for (j in 1:p) {
    beta_ij[i, j] <- sum(zeta_scores[, j] * xi_scores[, i]) /
                     sum(zeta_scores[, j]^2)
  }
}

# 3. β(t, s) 재구성
psi_hat <- fpca_X$phi    # M_s x p
phi_hat <- fpca_Y$phi    # M_t x q

beta_ts <- phi_hat %*% beta_ij %*% t(psi_hat)   # M_t x M_s

# 시각화
persp(fpca_Y$workGrid, fpca_X$workGrid, beta_ts,
      theta = 30, phi = 30,
      xlab = "t", ylab = "s", zlab = expression(hat(beta)(t, s)),
      main = "Sparse function-on-function regression")

7.4 fdapace::FCReg 직접 호출

fdapace 패키지의 FCReg 함수가 위 모든 단계를 자동 실행:

# 함수-on-함수 회귀 (가장 일반적)
result <- FCReg(vars = list(X = list(Ly = Ly_X, Lt = Lt_X),
                            Y = list(Ly = Ly_Y, Lt = Lt_Y)),
                userBwMu = NULL,    # bandwidth 자동
                outGrid = seq(0, 1, length = 50))

beta_hat <- result$beta    # 추정 핵 β(t, s)
plot(result)

fdapace::FCReg 가 함수-on-스칼라, 스칼라-on-함수, 함수-on-함수 모두 처리. 사용자는 long format 데이터만 준비.


8 모형 진단

8.1 추정 효과 함수의 시각적 검증

Sparse 회귀 후 점검
  1. 추정 \(\widehat{\beta}(t)\) 또는 \(\widehat{\beta}(t, s)\) 시각화 — 도메인 지식과 일치하는가?
  2. PC 절단 수 \(p, q\) 의 민감도 — 다른 임계값으로 결과 안정성 확인.
  3. 점수 회귀의 잔차 — 패턴 없이 무작위인가?
  4. 재구성 곡선 — 일부 단위에 대해 sparse 관측값 + 재구성 곡선 비교.
  5. 부트스트랩 — 신뢰 구간을 위한 표준 도구.

8.2 직관: Sparse 회귀의 약점

Sparse 함수 회귀는 강력하지만 한계:

  • PACE 점수 자체에 잡음 — 이 잡음이 회귀의 분산을 증가.
  • EFPC 가 \(Y\) 와 무관\(X\) 의 변동만 반영, \(Y\) 예측에 가장 유용한 방향이 아닐 수 있음 (5.5 의 inverse problem in PCR 과 같은 한계).
  • 절단 차원 \(p\) 의 자의성 — 임계값 선택이 결과에 영향.

따라서 민감도 분석과 시각적 검증이 필수. 통계적 자동화를 무비판적으로 수용하지 말 것.

8.3 보완: 부트스트랩

신뢰 구간 추정에 부트스트랩 권장:

n_boot <- 200
beta_boot <- matrix(0, n_boot, length(work_grid))

for (b in 1:n_boot) {
  # Subject 단위 resample (단위 내 모든 관측 함께)
  subjects_b <- sample(1:N, N, replace = TRUE)
  Ly_b <- Ly[subjects_b]
  Lt_b <- Lt[subjects_b]

  # PACE + 회귀
  result_b <- FCReg(...)
  beta_boot[b, ] <- result_b$beta
}

# 95% 신뢰 구간
ci_lower <- apply(beta_boot, 2, quantile, 0.025)
ci_upper <- apply(beta_boot, 2, quantile, 0.975)

8.4 직관: Subject 단위 부트스트랩의 중요성

표준 부트스트랩은 한 점씩 resample. Sparse FDA 에서는 subject 단위 resample 필수 — 단위 내 강한 상관 (\(\varepsilon_n\)) 으로 한 점씩 resample 하면 분포가 망가진다.

이는 7.2 의 subject-level CV 와 같은 원리 — sparse FDA 의 모든 resampling 절차가 subject 단위.


9 다른 sparse 회귀 도구와의 비교

9.1 refund::pfr/pffr 의 sparse 옵션

refund 패키지의 함수 회귀 도구도 sparse 데이터를 어느 정도 처리:

# pfr 의 ydata 인터페이스 (long format)
pfr_fit <- pfr(Y ~ lf(X, ...), data = data, ...)

# pffr 의 ydata 옵션
pffr_fit <- pffr(Ydummy ~ X, ydata = Y_long_format, ...)

이는 mixed model framework 위에서 작동하며, 평균 차감과 매끄러움 벌점을 자동 처리.

9.2 fdapace::FCReg vs refund::pfr

측면 fdapace::FCReg refund::pfr
토대 PACE BLUP + LS mgcv 의 mixed model
추정 점수 → 회귀계수 → 함수 재구성 직접 함수 적합
매끄러움 EFPC 절단 거칠기 벌점
결측 처리 PACE 의 BLUP 자동 mgcv 의 결측 처리
강점 명확한 PC 분해, 빠름 일반적, GLM 확장
약점 PACE 점수의 잡음 매끄러움 모수 선택의 민감성

두 도구는 보완적. 실무에서는 두 결과를 모두 시도하고 비교하여 견고함 확인.

9.3 직관: 두 접근의 본질적 차이

  • fdapace — “Sparse → 점수로 환원 → 다변량 회귀” 의 명시적 분리.
  • refund — “Sparse 데이터를 직접 mixed model 로 처리” 의 통합 접근.

전자는 단계별로 명확하지만 PACE 잡음의 누적, 후자는 자동화되지만 내부가 블랙박스. 상황에 따라 선택.


10 통합 시각

10.1 한 줄 요약

Sparse 함수 회귀는 PACE 의 BLUP 점수를 회귀자 또는 반응으로 사용하여 표준 다변량 LS 로 환원하는 framework. 함수-on-스칼라 (β_j = Σ X_n ξ_nj / Σ X_n²), 스칼라-on-함수 (β_j = Σ ζ_nj Y_n / Σ ζ_nj²), 함수-on-함수 (β_ij = Σ ζ_jn ξ_in / Σ ζ_jn²) 세 형태가 모두 같은 단순 회귀 형태로 분해되며, 이는 EFPC 점수의 비상관성으로 cross 항이 자동 사라지기 때문이다. PACE 점수가 sparse 함수와 다변량 도구 사이의 보편 인터페이스 역할.

10.2 Ch.4·5·6 와의 비교

측면 Dense 함수 회귀 (Ch.4·5·6) Sparse 회귀 (Ch.7.5)
회귀 도구 pfr, pffr (직접 적합) PACE + 점수 LS
함수 추정 거칠기 벌점 + REML EFPC 절단
매끄러움 연속 (모수 \(\lambda\)) 이산 (PC 수 \(p\))
직접성 직접 함수 회귀 점수로 환원
GLM 확장 family 인자 (Ch.6) sparse GLM 은 별도 도구 필요

두 접근의 핵심 차이는 정칙화의 양식 (연속 벌점 vs 이산 절단). Sparse 데이터에서는 절단이 자연스럽다 — 데이터가 적으므로 적은 모수가 필요.

10.3 Ch.7 의 통합

Ch.7 의 흐름:

7.1: 도입 + 점근 (M ~ N^{1/4})
    ↓
7.2: 평균 추정 (local poly / basis / RKHS)
    ↓
7.3: 공분산 추정 (대각 분리)
    ↓
7.4: PACE FPCA (BLUP 점수)
    ↓
7.5: Sparse 회귀 (PACE 점수 → 다변량 LS)  ← 이 포스트
    ↓
7.6: 연습문제

7.5 는 7.4 의 PACE 의 자연스러운 응용 — sparse FDA 의 가장 실용적 부분.

10.4 Chapter 8 너머와의 연결

다음 챕터 7.5 의 도구를 어떻게 확장하는가
Ch.8 함수 시계열 Sparse 시계열 데이터의 회귀 (예: 종단 전염병 예측)
Ch.9 공간 함수 Sparse 공간 + 회귀 (지역별 환경 데이터)
Ch.12 추론 PACE 점수의 점근 분포

7.5 의 환원 전략 — “Sparse → PACE 점수 → 표준 도구” — 이 sparse FDA 의 모든 응용에서 일관되게 작동.

10.5 실무 가이드

Sparse 회귀의 표준 워크플로우
  1. 데이터 진단 — Long format 으로 정리, \(\bar{M} > N^{1/4}\) 확인.
  2. PACE FPCAfdapace::FPCA 로 양쪽 (회귀자·반응) 의 점수 추정.
  3. 회귀 형태 결정 — 함수-on-스칼라/스칼라-on-함수/함수-on-함수.
  4. fdapace::FCReg 또는 수동 LS — 점수 회귀 자동/수동 적합.
  5. 시각적 검증 — 추정 효과 함수의 형태가 도메인 지식과 일치하는가.
  6. 민감도 분석 — PC 절단 수의 변화에 따른 결과 안정성.
  7. 부트스트랩 신뢰 구간 — Subject 단위 resample.
  8. refund::pfr 와 비교 — 견고함 검증.

11 관련 주제

선행 지식

후속 주제

관련 개념

Subscribe

Enjoy this blog? Get notified of new posts by email: