1 이 장의 위치와 목적
Chapter 1~3에서는 함수 데이터를 “기술” 하는 도구를 다뤘다. 기저 전개로 표현하고, 평균·공분산 함수로 요약하고, KL 전개로 차원을 축소했다. 이 모든 작업은 한 종류의 데이터 — 함수 표본 — 만 고려했다.
Chapter 4부터는 두 변수 사이의 관계 를 모형화한다. 가장 단순하면서 가장 자주 등장하는 형태가 스칼라-on-함수 회귀(scalar-on-function regression) 이다 — 입력이 곡선, 출력이 숫자이다.
| 회귀 형태 | 모형 | 챕터 |
|---|---|---|
| 스칼라-on-함수 | \(Y_i = \int \beta(s) X_i(s) \, ds + \varepsilon_i\) | Ch.4 |
| 함수-on-스칼라 | \(Y_i(t) = \sum_k x_{ik} \beta_k(t) + \varepsilon_i(t)\) | Ch.5 |
| 함수-on-함수 | \(Y_i(t) = \int \beta(t, s) X_i(s) \, ds + \varepsilon_i(t)\) | Ch.5 |
세 형태 모두 “함수 모수가 무한차원 객체이며, 유한 표본에서 추정해야 한다” 는 공통 과제를 가진다 (Kokoszka & Reimherr, 2017, Ch.4). Ch.4는 이 과제를 가장 단순한 환경에서 다루며, 후속 챕터에서 이 framework가 어떻게 일반화되는지를 위한 토대를 제공한다.
1.1 이 포스트의 흐름
4.1 응용 사례 — 무엇을 풀려고 하는가
↓
4.2 표준 다중 회귀 복습 — 정규방정식과 LS 해
↓
4.3 무한차원의 어려움 — 왜 단순 LS가 안 되는가
↓
4.4 기저 전개 추정 — 가장 직관적 우회로
↓
4.5 거칠기 벌점 추정 — 매끄러움을 강제하는 우회로
↓
4.6 FPCA 회귀 — KL 전개를 이용한 우회로
↓
4.7 refund 패키지 — 통합 R 구현
↓
4.8 비선형 함수 회귀 — 함수 GAM
세 추정 접근(4.4, 4.5, 4.6)은 결국 모두 “무한차원 \(\beta\) 를 유한차원으로 정칙화” 하는 서로 다른 길 이다. 핵심을 이해하면 셋 다 한 가족임이 보인다.
2 모형 정의
2.1 스칼라-on-함수 회귀 모형
\(N\) 개의 곡선-스칼라 쌍 \(\{(X_i, Y_i): i = 1, \ldots, N\}\) 에 대해 다음 모형을 가정한다:
\[ Y_i = \alpha + \int \beta(s) X_i(s) \, ds + \varepsilon_i, \quad i = 1, 2, \ldots, N. \]
여기서:
- \(X_i: [0, 1] \to \mathbb{R}\): 곡선 회귀자 (regressor)
- \(Y_i \in \mathbb{R}\): 스칼라 반응
- \(\alpha \in \mathbb{R}\): 절편
- \(\beta: [0, 1] \to \mathbb{R}\): 회귀 함수(regression function) — 추정 대상인 함수 모수
- \(\varepsilon_i\): 평균 0 잡음
설명을 단순화하기 위해 \(E[X(s)] = 0\), \(E[Y] = 0\) 으로 중심화하면 \(\alpha = 0\) 이고 모형은:
\[ Y_i = \int \beta(s) X_i(s) \, ds + \varepsilon_i. \]
2.2 다중 회귀와의 일대일 대응
| 표준 다중 회귀 | 스칼라-on-함수 회귀 |
|---|---|
| \(Y_i = \sum_{k=1}^p \beta_k x_{ik} + \varepsilon_i\) | \(Y_i = \int \beta(s) X_i(s) \, ds + \varepsilon_i\) |
| 인덱스 \(k \in \{1, \ldots, p\}\) (이산) | 인덱스 \(s \in [0, 1]\) (연속) |
| 모수 벡터 \(\boldsymbol{\beta} = (\beta_1, \ldots, \beta_p)\) | 모수 함수 \(\beta(\cdot)\) |
| 합 \(\sum_k\) | 적분 \(\int ds\) |
| 차원 \(p\) (유한) | 차원 무한 |
스칼라-on-함수 회귀는 다중 회귀의 “연속 인덱스 일반화” 이다. 그런데 이 단순한 일반화가 통계적 어려움을 폭발적으로 키운다.
2.3 \(\beta(s)\) 의 해석
\(\beta(s)\) 는 단순한 함수가 아니라 물리적·실무적 의미가 있는 객체 이다.
- \(|\beta(s)|\) 가 큰 구간 → 그 시점의 \(X(s)\) 가 \(Y\) 에 큰 영향
- \(\beta(s) > 0\) → 양의 연관 (\(X(s)\) 증가 시 \(Y\) 증가)
- \(\beta(s) < 0\) → 음의 연관
따라서 \(\widehat{\beta}(s)\) 가 단순히 정확하기만 해서는 안 된다. 해석 가능한 매끄러운 함수 이어야 한다. 이는 추정에 매끄러움 제약을 부과하는 통계적 동기이자 실무적 필요이기도 하다 (Kokoszka & Reimherr, 2017, §4.3).
3 응용 사례
3.1 가솔린 옥탄가 예측
데이터: 60개 가솔린 샘플 (gasoline in refund).
- \(X_i(t)\): 근적외선(NIR) 스펙트럼 곡선 (~400 시점)
- \(Y_i\): 옥탄가 (화학 분석으로 측정한 정확한 값)
비즈니스 동기: NIR 스펙트럼 측정은 빠르고 저렴, 화학 분석은 느리고 비쌈. 한 번 회귀 함수 \(\widehat{\beta}\) 를 추정하면 새 샘플의 스펙트럼만으로 옥탄가를 예측할 수 있다.
이는 함수 회귀의 전형적 패턴이다 — “값싸게 측정 가능한 곡선 으로 값비싼 스칼라 라벨 을 예측한다.”
3.2 Tecator 고기 샘플
데이터: 215개 고기 샘플 (tecator in fda.usc).
- \(X_i(t)\): NIR 스펙트럼 (가솔린보다 짧은 파장대)
- \(Y_i\): 지방 / 수분 / 단백질 함량 (각각 별도 회귀)
중요한 관찰: Kokoszka는 원시 스펙트럼뿐 아니라 추정된 도함수 \(X_i'(t)\) 가 더 많은 정보를 담는 경우가 있음을 보고한다. 이는 §2.1의 미분 도구가 회귀 입력으로 직접 활용될 수 있음을 시사한다.
3.3 DTI 데이터 (뇌영상)
데이터: 다발성 경화증 환자의 확산 텐서 영상.
- \(X_i(t)\): 뇌량(corpus callosum)의 부분 비등방성(FA) 트랙 프로파일
- \(Y_i\): PASAT 점수 (Paced Auditory Serial Addition Test) — 청각 정보 처리 속도와 인지 기능 측정
임상적 가치: 뇌의 미세 구조(FA 곡선)에서 인지 기능 점수를 예측할 수 있으면, 환자의 인지 저하를 영상으로 조기 감지할 수 있다.
3.4 세 사례의 공통 패턴
| 분야 | \(X(t)\) | \(Y\) | 회귀의 가치 |
|---|---|---|---|
| 분광학 (가솔린) | NIR 스펙트럼 | 옥탄가 | 빠른·저렴한 품질 측정 |
| 식품공학 (Tecator) | NIR 스펙트럼 | 지방 함량 | 비파괴 품질 분석 |
| 신경과학 (DTI) | FA 트랙 | PASAT 점수 | 영상 기반 인지 평가 |
세 사례 모두 “전체 곡선 형태로부터 한 숫자를 예측” 하는 동일한 통계 과제이다.
4 표준 다중 회귀 복습
4.1 행렬 표기와 LS 해
다중 회귀 \(Y_i = \sum_{k=1}^p \beta_k x_{ik} + \varepsilon_i\) 를 행렬로 쓰면:
\[ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}, \]
최소제곱(LS) 추정량:
\[ \widehat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}. \]
이 추정량의 좋은 성질은 다음 가정에 의존한다:
- \(\mathbf{X}^T \mathbf{X}\) 가 가역 (= \(\mathbf{X}\) 의 열들이 선형 독립).
- 표본 크기 \(N\) 이 회귀자 수 \(p\) 보다 충분히 큼.
4.2 모집단 시각의 도출
LS 추정량의 정체를 함수 일반화에 가까운 형태로 다시 보자. 모집단 회귀 \(Y = \sum_k \beta_k X_k + \varepsilon\) 에서 평균제곱오차
\[ R(\boldsymbol{\beta}) = E\left(Y - \sum_k \beta_k X_k\right)^2 \]
를 최소화하는 \(\boldsymbol{\beta}\) 는:
\[ \boldsymbol{\beta} = \mathbf{C}_X^{-1} \mathbf{C}_{XY}, \]
여기서 \(\mathbf{C}_X = E[\mathbf{X} \mathbf{X}^T]\), \(\mathbf{C}_{XY} = E[\mathbf{X} Y]\).
표본 추정량으로 바꾸면 \(\widehat{\mathbf{C}}_X = N^{-1} \mathbf{X}^T \mathbf{X}\), \(\widehat{\mathbf{C}}_{XY} = N^{-1} \mathbf{X}^T \mathbf{Y}\) 이고 결국 LS 공식으로 돌아간다.
이 형태가 함수 회귀로 자연스럽게 일반화된다 — 행렬 곱 → 적분 변환, 행렬 역 → 연산자 역.
5 식별 문제: 무한차원의 어려움
5.1 모집단 정규방정식의 함수 버전
스칼라-on-함수 회귀의 모집단 정규방정식은 (§3.3의 적분 연산자 언어로):
\[ \int c_X(t, s) \beta(s) \, ds = c_{XY}(t), \]
또는 연산자로:
\[ C_X(\beta) = c_{XY}, \quad \therefore \quad \beta = C_X^{-1}(c_{XY}). \]
이는 다변량 \(\boldsymbol{\beta} = \mathbf{C}_X^{-1} \mathbf{C}_{XY}\) 의 직접 일반화이다. 그러나 함수 버전에는 본질적 어려움 이 있다.
5.2 어려움 1: \(C_X^{-1}\) 가 존재하지 않는다
§3.3의 스펙트럼 분해에 의해:
\[ C_X(x) = \sum_{j=1}^{\infty} \lambda_j \langle x, v_j \rangle v_j. \]
만약 \(C_X^{-1}\) 가 존재한다면:
\[ C_X^{-1}(x) = \sum_{j=1}^{\infty} \frac{1}{\lambda_j} \langle x, v_j \rangle v_j. \]
그러나 \(\lambda_j \to 0\) as \(j \to \infty\) (공분산 연산자가 Hilbert-Schmidt이므로 \(\sum \lambda_j^2 < \infty\)), 따라서 \(1/\lambda_j \to \infty\). 이 합은 \(L^2\) 위에서 발산한다.
직관: 다변량에서 \(\mathbf{C}_X\) 가 가역이 아니면 다공선성이 있는 것이다 — “어떤 회귀자가 다른 회귀자의 선형 결합” 이라는 뜻이다. 함수 버전에서는 항상 다공선성이 존재 한다 — 인접 시점의 \(X(t)\) 값들이 거의 같기 때문이다.
5.3 어려움 2: 무한차원의 다공선성
표본 행렬 \(\mathbf{X}\) 의 열은 \(\mathbf{X}(t_j) = [X_1(t_j), \ldots, X_N(t_j)]^T\) — 각 시점에서의 곡선 값들이다. 인접 시점 \(t_j, t_{j+1}\) 에 대해 \(X_i(t_j) \approx X_i(t_{j+1})\) 이므로 두 열이 거의 같다.
| 다중 회귀 | 함수 회귀 |
|---|---|
| 다공선성은 우연한 문제 | 다공선성이 본질적 |
| 회귀자 제거로 해결 | 곡선의 “조각 제거” 는 의미 없음 |
| 차원 \(p\) 고정 | 차원 무한 (이산화 시 매우 큼) |
비유: 100미터 달리기에서 1초 시점과 1.001초 시점의 위치는 거의 같다. “이 둘 중 어느 것을 회귀자로 쓸지” 를 묻는 것은 무의미하다 — 둘은 본질적으로 동일 정보를 담는다. 함수 회귀의 모든 시점이 그렇다.
5.4 어려움 3: 무제약 추정의 발산
모형 \(Y_i = \int \beta(s) X_i(s) \, ds + \varepsilon_i\) 를 \(J\) 개 시점에서 이산화하면:
\[ Y_i \approx \sum_{j=1}^{J} \beta(t_j) X_i(t_j) + \varepsilon_i. \]
\(J\) 가 표본 크기 \(N\) 보다 크면 (\(J > N\)) — 함수 회귀에서는 흔한 상황 — \(\mathbf{X}^T \mathbf{X}\) 가 특이 행렬이 된다. 즉 모수가 데이터보다 많아 완벽 적합(perfect fit) 이 가능하지만, 잡음에 따라 추정값이 격렬히 변동한다.
5.5 식별 문제의 통합 해결책: 정칙화
세 어려움 모두 한 종류의 해결책을 요구한다 — 추가적 제약 조건을 부과 하여 \(\beta\) 의 가능 형태를 제한한다.
| 제약 종류 | 추정 방법 | 절 |
|---|---|---|
| \(\beta\) 는 \(K\) 개 기저 함수의 선형 결합 | 기저 전개 | §4.4 |
| \(\beta\) 는 매끄럽다 (\(\int (\beta'')^2 < \infty\)) | 거칠기 벌점 | §4.5 |
| \(\beta\) 는 \(X\) 의 주방향 위에서만 변동 | FPCA 회귀 | §4.6 |
세 접근은 표면적으로 다르지만, 본질은 같다 — \(\beta\) 의 무한차원 자유도를 유한 차원으로 줄이는 방식이 다를 뿐이다.
6 추정 접근 1: 기저 전개
6.1 핵심 아이디어
가장 직관적인 접근. \(\beta\) 를 \(K\) 개 기저 함수로 전개:
\[ \beta(t) = \sum_{k=1}^{K} c_k B_k(t). \]
이를 회귀 모형에 대입:
\[ \int \beta(t) X_i(t) \, dt = \sum_{k=1}^{K} c_k \underbrace{\int B_k(t) X_i(t) \, dt}_{x_{ik}} = \sum_{k=1}^{K} x_{ik} c_k. \]
이로써 모형이 표준 다중 회귀로 환원:
\[ Y_i = \alpha + \sum_{k=1}^{K} x_{ik} c_k + \varepsilon_i. \]
LS 추정량 \(\widehat{\mathbf{c}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}\) 로부터:
\[ \widehat{\beta}(t) = \sum_{k=1}^{K} \widehat{c}_k B_k(t). \]
6.2 직관
“무한차원 함수 \(\beta\) 를 \(K\) 차원 부분공간 위로 사영” 한 것이다. 이는 §3.1의 정규직교 기저 절단과 같은 원리이다 — Parseval 의 분산 분해를 이용해 차원을 줄인다.
6.3 비유
악기 합주에서 모든 악기를 다 들으려 하지 말고, 가장 중요한 \(K\) 개의 트랙만 선택해서 듣는 것과 같다. 어떤 악기를 선택하느냐(기저 함수)에 따라 곡의 인상이 달라진다.
6.4 장단점
장점:
- 표준 LS 도구를 그대로 사용 (해석·가설 검정 익숙).
- 신뢰 구간 도출이 용이.
- 계산 빠름.
단점:
- 결과가 기저 선택에 강하게 의존 (Fourier vs B-spline vs wavelet).
- \(K\) 선택이 자의적; 데이터 기반 선택(예: AIC, BIC)이 가능하나 결과 해석이 어려워질 수 있음.
- \(K\) 가 작으면 편향, 크면 분산 — 전형적인 편향-분산 트레이드오프.
6.5 일치성 조건
함수 회귀에서 LS 추정량이 일치(consistent)이려면 \(K = K(N) \to \infty\) 여야 하며, 기저 절단 오차 \(\sum_{k>K} c_k^2\) 가 충분히 빨리 감소해야 한다. 이는 다변량과 결정적으로 다른 점이다 — 다변량에서는 \(p\) 가 고정이지만, 함수에서는 \(K\) 도 표본 크기에 따라 늘어야 한다.
7 추정 접근 2: 거칠기 벌점
7.1 핵심 아이디어
\(K\) 를 매우 크게 (예: 시점 수와 동일) 잡되, “거친” \(\widehat{\beta}\) 에 벌점을 부과한다. 벌점화 손실:
\[ P_\lambda(\alpha, \beta) = \sum_{i=1}^{N} \left(Y_i - \alpha - \int \beta(t) X_i(t) \, dt\right)^2 + \lambda \int [(L\beta)(t)]^2 \, dt. \]
여기서 \(L\) 은 미분 연산자(보통 \(L\beta = \beta''\) — 2차 미분), \(\lambda\) 는 매끄러움 모수.
7.2 직관
§2.2의 벌점 스무딩과 같은 원리이다 — “데이터에 충실하면서도 매끄러움 유지” 의 줄다리기.
| \(\lambda\) | 효과 |
|---|---|
| \(\lambda = 0\) | 벌점 없음 → 데이터 과적합, \(\widehat{\beta}\) 매우 거침 |
| \(\lambda\) 작음 | 약한 벌점 → 약간 평활 |
| \(\lambda\) 적절 | 균형 |
| \(\lambda\) 큼 | 강한 벌점 → 과평활 (직선에 가까움) |
| \(\lambda \to \infty\) | \(L\beta = 0\) 만족하는 함수 (예: \(L = D^2\) 이면 직선) |
7.3 명시적 해
기저 전개 \(\beta = \sum c_k B_k\) 를 대입하면 닫힌 형태:
\[ \widehat{\mathbf{c}} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{R})^{-1} \mathbf{X}^T \mathbf{Y}, \]
여기서 \(\mathbf{R}_{kk'} = \int (LB_k)(t)(LB_{k'})(t) \, dt\) 는 거칠기 행렬.
7.4 Ridge 회귀와의 관계
이 형태는 다변량 ridge 회귀의 함수 버전 이다 — \((\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1}\) 에서 항등행렬 \(\mathbf{I}\) 가 거칠기 행렬 \(\mathbf{R}\) 로 바뀐 것뿐. Ridge가 “큰 계수” 에 벌점을 주듯, 거칠기 벌점은 “거친 함수” 에 벌점을 준다.
7.5 \(\lambda\) 선택
가장 흔한 방법:
- 교차 검증 (CV): \(\lambda\) 후보값마다 leave-one-out 예측 오차를 계산, 최소화. \[ S_N(\lambda) = \frac{1}{N} \sum_{i=1}^{N} (Y_i - \widehat{Y}^{(-i)}_\lambda)^2. \]
- GCV: leave-one-out을 한 번의 행렬 연산으로 근사.
- REML (mixed model framework): 함수 모수를 random effect로 보고 분산을 추정 —
refund의 기본 방법.
7.6 직관 비유
거칠기 벌점은 “고무줄에 매단 곡선” 이다. 데이터 점이 곡선을 자기 쪽으로 당기지만, 고무줄(매끄러움 제약)이 당김을 흡수하여 매끄러움을 유지한다. \(\lambda\) 가 고무줄의 장력이다.
7.7 장단점
장점:
- 결과가 \(K\) 선택에 둔감 (충분히 크게만 잡으면 됨).
- 매끄러움이 데이터로부터 자동 결정됨 (CV, REML).
- Ridge 회귀와 같은 확립된 이론 활용.
단점:
- \(\lambda\) 가 작은 잡음 방향까지 비례 축소 → 일부 정보 손실 가능.
- REML 등 추정에 mixed model 기계 필요.
- 벌점 형태(2차 미분 vs 다른 미분)가 결과에 영향.
8 추정 접근 3: FPCA 회귀
8.1 핵심 아이디어
KL 전개를 이용해 회귀자를 데이터 자체의 주방향 으로 표현:
\[ X_i(t) \approx \widehat{\mu}(t) + \sum_{j=1}^{p} \widehat{\xi}_{ij} \widehat{v}_j(t). \]
여기서 \(\widehat{v}_j\) 는 표본 공분산의 추정 EFPC, \(\widehat{\xi}_{ij}\) 는 점수.
이를 모형에 대입:
\[ \int \beta(t) X_i(t) \, dt = \int \beta(t) \widehat{\mu}(t) \, dt + \sum_{j=1}^{p} \widehat{\xi}_{ij} \underbrace{\int \beta(t) \widehat{v}_j(t) \, dt}_{\beta_j}. \]
모형이 표준 다중 회귀로 환원:
\[ Y_i = \beta_0 + \sum_{j=1}^{p} \widehat{\xi}_{ij} \beta_j + \varepsilon_i. \]
LS 추정 후:
\[ \widehat{\beta}(t) = \sum_{j=1}^{p} \widehat{\beta}_j \widehat{v}_j(t). \]
8.2 직관
“\(X\) 의 변동이 큰 방향에서만 회귀 한다.” 작은 \(\lambda_j\) 를 가진 방향(잡음에 가까움)은 자동으로 무시된다. 다공선성 문제의 자연스러운 해결책 — 무한차원 다공선성을 KL 전개로 정확히 분해해 처리한다.
8.3 비유
FPCA 회귀는 “소믈리에의 와인 평가” 이다. 와인의 모든 화학 성분(수천 개)을 다 보지 않고, “가장 두드러진 특징 \(\xi_1\) (강도), \(\xi_2\) (산도), \(\xi_3\) (탄닌)” 만 추출해 평가한다. 와인의 본질이 이 몇 개의 차원에 응축되어 있기 때문이다.
8.4 Tikhonov 정칙화와의 관계
§3.3에서 본 ridge 회귀의 함수 버전:
\[ \widehat{\beta}_\lambda(t) = \sum_{j=1}^{\infty} \frac{\langle \widehat{c}_{XY}, \widehat{v}_j \rangle}{\widehat{\lambda}_j + \lambda} \widehat{v}_j(t). \]
FPCA 회귀는 \(\lambda = 0\) + 절단 (\(p\) 항만 사용)의 특수 경우이다:
\[ \widehat{\beta}_{FPCA}(t) = \sum_{j=1}^{p} \frac{\langle \widehat{c}_{XY}, \widehat{v}_j \rangle}{\widehat{\lambda}_j} \widehat{v}_j(t). \]
따라서 거칠기 벌점(연속 정칙화)과 FPCA 회귀(이산 절단)는 연속 vs 이진 정칙화 의 두 가지 양식이다.
8.5 \(p\) 선택
FPCA 회귀의 핵심 모수는 사용할 주성분 수 \(p\) 이다. 흔히:
- 누적 분산비(CPV)가 85~95%를 처음 넘는 \(p\).
- 스크리 도표에서 고유값의 급감 지점.
- 예측 성능 기반 (CV).
8.6 장단점
장점:
- 다공선성 문제 자동 해결.
- 계산 매우 빠름 (KL 전개만 한 번 계산하면 됨).
- 작은 표본에서 안정적 (적은 모수만 추정).
단점:
- \(\widehat{v}_j\) 가 \(X\) 의 변동만 반영, \(Y\) 와의 연관은 무시 — 가장 큰 \(\lambda_j\) 를 가진 주방향이 \(Y\) 예측에 가장 중요하지 않을 수도 있음 (“inverse problem in PCR”).
- \(\widehat{v}_j\) 의 부호 불확정성으로 해석 어려움.
- \(p\) 선택의 자의성.
9 세 접근의 비교
9.1 본질적 동일성
세 접근 모두 다음 형태의 추정량을 만든다:
\[ \widehat{\beta}(t) = \sum_{j} \widehat{c}_j \phi_j(t), \]
여기서 \(\phi_j\) 는 어떤 정규직교 기저, \(\widehat{c}_j\) 는 LS로 결정된 계수. 차이는 \(\phi_j\) 의 선택과 \(j\) 의 절단 방식이다.
| 접근 | \(\phi_j\) | 정칙화 양식 |
|---|---|---|
| 기저 전개 | 결정적 기저 (Fourier, B-spline) | 절단 (\(K\) 항) |
| 거칠기 벌점 | 결정적 기저 | 연속 (벌점 \(\lambda\)) |
| FPCA 회귀 | 데이터 기반 (\(\widehat{v}_j\)) | 절단 (\(p\) 항) |
9.2 선택 가이드
| 상황 | 추천 |
|---|---|
| 도메인 지식이 매끄러움 형태를 명시 | 거칠기 벌점 (벌점 형태로 사전 지식 반영) |
| 곡선 데이터에 명확한 주성분 구조 | FPCA 회귀 (데이터 기반 효율) |
| 빠른 baseline · 익숙한 도구 선호 | 기저 전개 (가장 단순) |
| 다공선성이 매우 심한 경우 | FPCA 회귀 또는 거칠기 벌점 |
| 추론(신뢰구간·검정) 강조 | 거칠기 벌점 (mixed model 활용) |
실무에서는 흔히 세 접근을 모두 시도하고 결과를 비교한다 — refund 패키지가 이를 단순화한다.
10 추정량의 신뢰구간
10.1 함수 신뢰구간
기저 전개에서 LS 분산:
\[ \text{Var}[\widehat{\mathbf{c}}] = \sigma_\varepsilon^2 (\mathbf{X}^T \mathbf{X})^{-1}. \]
각 \(\widehat{c}_k\) 의 표준오차 \(\widehat{\sigma}_k\) 로부터 점별(pointwise) 95% 신뢰구간:
\[ \sum_{k=1}^{K} \widehat{c}_k B_k(t) \pm 1.96 \sum_{k=1}^{K} \widehat{\sigma}_k B_k(t). \]
경고: 이 신뢰구간은 탐색적 도구 이다. 정확한 신뢰 진술은 계수 \(c_k\) 에만 가능하며, 함수 형태에서는 절단 오차로 인한 편향이 추가된다 (Kokoszka & Reimherr, 2017, §4.4).
10.2 동시 신뢰 밴드
여러 시점의 신뢰구간을 동시에 만족하는 동시 신뢰 밴드(simultaneous confidence band) 는 더 까다롭다 — 점별 95% 구간을 단순 합쳐도 동시 95%가 되지 않는다 (다중 비교 문제).
Bonferroni·permutation·bootstrap 기반 동시 밴드가 Ch.12에서 다뤄진다.
11 refund 패키지 R 구현
11.1 기본 사용법
library(refund)
# Tecator 데이터: NIR 스펙트럼 -> 지방 함량
data(tecator, package = "fda.usc")
X_curves <- tecator$absorp.fdata$data # 215 x 100 (스펙트럼)
Y_fat <- tecator$y$Fat # 215 (지방 함량)
# Method 1: 거칠기 벌점 + REML (refund의 기본)
fit_pen <- pfr(Y_fat ~ lf(X_curves, k = 50, bs = "ps"))
summary(fit_pen)
# 회귀 함수 시각화
plot(fit_pen, ylab = expression(hat(beta)(t)), shade = TRUE,
main = "Penalized estimate of beta(t)")lf() 는 “linear function-on-scalar” 의 약자가 아니라 함수 회귀자를 표시하는 헬퍼이다 (pfr 가 “penalized functional regression”).
11.2 Method 2: FPCA 회귀
# refund의 fpcr 또는 직접 구현
library(fda)
# 1. EFPC 추정
basis <- create.bspline.basis(rangeval = c(0, 1), nbasis = 30)
fd_obj <- Data2fd(argvals = seq(0, 1, length.out = 100),
y = t(X_curves), basisobj = basis)
fpca_res <- pca.fd(fd_obj, nharm = 5)
# 2. 점수 추출
xi_scores <- fpca_res$scores # 215 x 5
# 3. 점수에 대한 LS 회귀
fit_fpca <- lm(Y_fat ~ xi_scores)
beta_coefs <- coef(fit_fpca)[-1] # 절편 제외
# 4. beta(t) 재구성
beta_hat <- beta_coefs %*% t(eval.fd(seq(0, 1, length.out = 100),
fpca_res$harmonics))
plot(seq(0, 1, length.out = 100), beta_hat, type = "l",
xlab = "t", ylab = expression(hat(beta)(t)),
main = "FPCA regression estimate")11.3 Method 3: 단순 기저 전개
# 30개 B-spline 기저, 벌점 없음
fit_basis <- pfr(Y_fat ~ lf(X_curves, k = 30, bs = "ps", sp = 0))
plot(fit_basis, main = "Basis expansion (no penalty)")sp = 0 으로 매끄러움 모수를 0 (벌점 없음)으로 두면 순수 기저 전개 추정과 같다.
11.4 세 추정량 비교
# 한 그림에 세 추정량 겹쳐 그리기
par(mfrow = c(1, 1))
plot(fit_pen, main = "Comparison of three estimators",
ylim = c(-50, 50))
plot(fit_basis, add = TRUE, col = "red", lty = 2)
# FPCA 결과는 별도 그림 (refund 객체가 아니므로)예상 패턴: 거칠기 벌점은 매끄러운 곡선, 기저 전개(벌점 0)는 거친 곡선, FPCA는 매끄럽지만 다른 형태일 수 있다 (v_j 가 \(X\) 의 변동만 반영하므로).
12 비선형 함수 회귀
12.1 동기
선형 모형 \(Y = \int \beta(s) X(s) \, ds\) 가 모든 관계를 포착하지 못할 수 있다. 예를 들어 \(X(s)\) 의 어떤 비선형 변환(\(\log\), \(X^2\), \(\max(X(s), 0)\) 등)이 \(Y\) 와 관련될 수 있다.
12.2 함수형 일반화 가법 모형
비선형 확장 (Ch.4.8):
\[ Y_i = \alpha + \int F(X_i(s), s) \, ds + \varepsilon_i, \]
여기서 \(F(\cdot, s)\) 는 각 시점 \(s\) 에서의 비선형 함수.
refund 의 af() (additive function) 헬퍼가 이를 구현한다:
12.3 단일 인덱스 모형
대안적 비선형 형태:
\[ Y_i = g\left(\int \beta(s) X_i(s) \, ds\right) + \varepsilon_i, \]
여기서 \(g\) 는 미지의 비선형 함수. 선형 결합 후 비선형 변환만 허용 — 선형의 일반화이지만 해석 가능성을 일부 유지.
12.4 비선형 vs 선형 선택
선형으로 충분한 경우:
- 적합도가 좋고 잔차에 패턴 없음.
- 해석 가능성이 중요 (\(\beta(s)\) 가 직접 임상·물리 의미).
비선형이 필요한 경우:
- 잔차에 명백한 비선형 패턴.
- 도메인 지식이 비선형성을 시사 (예: 임계값 효과, 포화 현상).
13 정리: Chapter 4의 통합 시각
13.1 한 줄 요약
스칼라-on-함수 회귀의 모든 추정 접근은 무한차원 회귀 함수 \(\beta\) 를 유한차원으로 정칙화하는 서로 다른 길이며, 그 핵심 도구는 §3 에서 정의된 적분 연산자와 KL 전개이다.
13.2 Chapter 3과의 연결
Ch.3에서 정의된 모든 객체가 Ch.4에서 등장한다.
| Ch.3 객체 | Ch.4에서의 역할 |
|---|---|
| \(L^2\) 공간 | \(\beta \in L^2\) 의 거처 |
| 내적 \(\int \beta X\) | 회귀의 핵심 적분 |
| Cauchy-Schwarz | 적합값 유한성 보장 |
| 정규직교 기저 | 기저 전개 추정의 도구 |
| KL 전개 | FPCA 회귀의 토대 |
| 공분산 연산자 \(C_X\) | 정규방정식의 좌변 |
| 스펙트럼 분해 | \(C_X^{-1}\) 부재 분석 |
| Hilbert-Schmidt | 기준 작동 조건 |
13.3 다음 챕터
- Ch.5 (함수 반응 모형): 출력도 함수인 경우. 회귀 계수가 함수 또는 이변량 함수.
- Ch.6 (함수 GLM): 비정규 반응(이진·카운트)에 대한 함수 회귀. 링크 함수 추가.
- Ch.7 (희소 FDA): 곡선이 불규칙·희소 시점에서만 관측되는 경우.
- Ch.12 (추론): 신뢰 밴드, 평균·계수 함수 검정.
이후 챕터들 모두 Ch.4의 framework — 함수 모수 + 적분 연산자 + 정칙화 — 위에서 전개된다.
14 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 1.1~1.2 — 기저 전개와 표본 통계량
- FDA 2.0 — 탐색적 FDA 심화 개관
- FDA 3.0 — 함수 데이터의 수학적 프레임워크 개관
- FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개
- FDA 3.3 — 선형 변환과 공분산 연산자
후속 주제
- FDA 4.1~4.2 — 응용 사례와 표준 다중 회귀 복습
- FDA 4.3~4.4 — 함수 회귀의 어려움과 기저 전개 추정
- FDA 4.5~4.6 — 거칠기 벌점 추정과 FPCA 회귀
- FDA 4.7~4.8 — refund 패키지와 비선형 함수 회귀
- FDA 5.0 — 함수 반응 모형 개관
관련 개념
- Ridge 회귀와 정칙화 — Tikhonov 정칙화의 ML 사례
- PCA 회귀 (PCR) — 다변량 PCR의 함수 일반화
- 부분 최소제곱 (PLS) — FPCA 회귀의 대안
- B-spline 기저 — 거칠기 벌점에서 흔히 사용