Kwangmin Kim - FDA 7.1~7.2 — 희소 FDA 도입과 평균 함수 추정

1 두 절의 역할

이 포스트의 범위

절	주제	핵심 도구
7.1	희소 FDA 도입 + 점근 분석	Nadarya-Watson 평활, bias-variance, \(M \sim N^{1/4}\) 임계값
7.2	평균 함수 추정 3 도구	Local polynomial, basis function (gam), RKHS (Representer theorem)

7.1 은 Sparse FDA 의 모형 (식 7.1) 과 가장 단순한 random effects 환경에서 kernel 평활의 점근 행동 을 분석. 이 분석에서 도출되는 임계값 \(M \sim N^{1/4}\) 가 Sparse FDA 가 언제 효율적인지를 결정 — Ch.7 전체에서 가장 깊은 이론적 결과.

7.2 는 7.1 의 단순 Nadarya-Watson 을 일반화한 세 표준 평균 추정 도구. Local polynomial (국소 가중 LS), Basis function (벌점 LS), RKHS (representer theorem 으로 자동 닫힌 해) — 각각 다른 매끄러움 가정과 계산 비용을 가진다.

두 절을 합치면 이론(7.1) → 실무 도구(7.2) 의 자연스러운 흐름이 완성된다.

2 희소 함수 데이터의 정의

2.1 모형 식 (7.1)

Sparse FDA 의 표준 모형

각 단위 \(n = 1, \ldots, N\) 가 시점 \(t_{nm} \in [0, 1]\) (\(m = 1, \ldots, M_n\)) 에서 관측될 때:

\[ Y_{nm} = Y_n(t_{nm}) = \mu(t_{nm}) + \varepsilon_n(t_{nm}) + \delta_{nm}. \]

\(\mu\) — 매끄러운 모집단 평균 함수.
\(\varepsilon_n(t)\) — 단위 특이적 오차 곡선 (subject random effect).
\(\delta_{nm}\) — iid 측정 잡음.
\(M_n \leq M < \infty\) (단위당 관측 수 유한).
단위들은 iid, 시점 \(\{t_{nm}\}\) 합집합이 \([0, 1]\) 을 비교적 밀집하게 덮음.

2.2 두 잡음의 분리

잡음	의미	시점 간 상관	단위 간 상관
\(\varepsilon_n(t)\)	subject random effect	O (같은 단위 내)	X
\(\delta_{nm}\)	측정 잡음	X	X

\(\varepsilon_n\) 이 단위 내 시점 간 상관 의 원인 — Sparse FDA 의 도구가 dense FDA 와 다른 핵심 이유.

2.3 직관: 두 잡음이 분리된 모형이 의미하는 것

\(\varepsilon_n(t)\) 는 환자 \(n\) 의 진짜 곡선이 모집단 평균에서 얼마나 벗어나는지를 표현. 이는 재구성하고자 하는 신호 — Sparse FPCA (PACE) 의 추정 목표.

\(\delta_{nm}\) 은 측정 도구의 잡음 — 무작위적이고 제거 가능한 부분.

이 분해가 정확히 mixed model 의 random effect + measurement error 구조이며, sparse FDA 가 mixed model 의 함수 일반화 임을 보여준다.

3 단순 random effects 모형 (Example 7.1.2)

3.1 가장 단순한 환경

이론 분석을 위해 모형을 단순화:

\[ Y_{nm} = \mu(t_{nm}) + \varepsilon_n + \delta_{nm}, \]

여기서:

\(t_{nm} \sim U(0, 1)\) iid.
\(\varepsilon_n\) — 시간 무관 (subject 별 상수), 평균 0, 분산 \(\tau^2\).
\(\delta_{nm}\) — iid, 평균 0, 분산 \(\sigma^2\).
세 수열 \(\{t_{nm}\}, \{\varepsilon_n\}, \{\delta_{nm}\}\) 모두 독립.
각 단위가 정확히 \(M\) 개 관측 (\(M_n \equiv M\)).

이는 block design 의 random effects 모형 — 종단 데이터의 가장 단순 버전. Subject 별 오차가 시간에 따라 변하지 않는 (즉 \(\varepsilon_n(t) \equiv \varepsilon_n\)) 단순 random intercept.

3.2 직관: 왜 이 단순 모형부터인가

Sparse FDA 의 점근 분석은 일반적으로 복잡 — \(\varepsilon_n(t)\) 가 시간 의존이면 분석이 매우 어렵다. 시간 무관 \(\varepsilon_n\) 으로 단순화하면 가장 깨끗한 형태의 분석 가능 — 이 환경에서의 결과가 일반 sparse FDA 에서도 본질적으로 유효 (단지 더 일반적인 결과의 limit case).

3.3 비유: 물리학의 마찰 없는 모형

뉴턴 역학을 처음 배울 때 마찰을 무시하고 분석. 일반 환경에서도 같은 원리가 작동함을 보장한 후 마찰을 추가하는 표준 패턴. Example 7.1.2 도 같은 정신 — 단순 모형에서 명확한 결과 후 더 일반적 모형으로.

4 Nadaraya-Watson 추정량

4.1 정의

목표: \(\mu(t)\) 추정. 국소 가중 평균 으로 \(t\) 주위의 데이터 합산:

\[ \widehat{\mu}_h(t) = \frac{\sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right) Y_{nm}}{\sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right)}. \]

여기서 \(K\) 는 커널 함수, \(h\) 는 대역폭 (bandwidth).

4.2 가장 단순한 커널: 박스 커널

\[ K(x) = \begin{cases} 1 & \text{if } |x| \leq 1 \\ 0 & \text{otherwise} \end{cases}. \]

이 경우 \(\widehat{\mu}_h(t)\) = “\(t \pm h\) 안의 모든 \(Y_{nm}\) 의 단순 평균”.

4.3 직관: 평활의 지역성

대역폭 \(h\) 가 가까운 데이터에만 무게를 둠 — 멀리 떨어진 데이터는 무시. 국소적 데이터로 국소적 추정.

작은 \(h\)	큰 \(h\)
적은 점만 평균	많은 점 평균
분산 큼	분산 작음
Bias 작음	Bias 큼
거친 추정	매끈한 추정

전형적 bias-variance tradeoff.

5 Bias 분석

5.1 조건부 기댓값 (식 7.2)

\(\{t_{nm}\}\) 을 조건부로 두고 \(\widehat{\mu}_h(t)\) 의 기댓값 (Problem 7.1):

\[ E[\widehat{\mu}_h(t) \mid \{t_{nm}\}] \approx (2h)^{-1} \int_{t-h}^{t+h} \mu(x) \, dx. \]

직관: 평균은 \(t\) 주위 구간의 \(\mu\) 의 평균값.

5.2 Bias 의 양

진짜 값 \(\mu(t)\) 와 기댓값의 차:

\[ \text{Bias} = \mu(t) - (2h)^{-1} \int_{t-h}^{t+h} \mu(x) \, dx. \]

5.3 Taylor 전개로 Bias 평가 (식 7.3, Problem 7.2)

\(F(h) = \int_{t-h}^{t+h} \mu(x) \, dx\) 를 \(h = 0\) 주위로 Taylor 전개. \(F(0) = 0\), \(F'(h) = \mu(t+h) + \mu(t-h)\) 이므로 \(F'(0) = 2\mu(t)\). \(F''(h) = \mu'(t+h) - \mu'(t-h)\) 이므로 \(F''(0) = 0\). \(F'''(0) = 2\mu''(t)\).

따라서:

\[ F(h) = 2\mu(t) h + 0 \cdot h^2 + \frac{2\mu''(t)}{6} h^3 + O(h^5) = 2\mu(t) h + O(h^3). \]

만약 \(\mu''\) 가 유계이면 \(|F(h) - 2\mu(t) h| \leq C h^3\) — 즉:

\[ \left| \mu(t) - \frac{F(h)}{2h} \right| = \left| \frac{2\mu(t) h - F(h)}{2h} \right| \leq \frac{C h^3}{2h} = C' h^2. \]

Bias 가 \(h^2\) 의 속도로 0 으로 수렴.

5.4 직관: 왜 \(h^2\) 인가

Taylor 전개에서 \(h^2\) 항 (즉 \(F''(0) h^2 / 2\)) 이 자동으로 0 (홀함수 적분) 이므로 다음 항이 \(h^3\). 적분의 정규화 \(1/(2h)\) 로 \(h^2\) 가 남는다.

이는 대칭 커널 (또는 박스) 의 표준 결과 — 평활화 추정량의 bias 는 도함수의 차수에 의존.

가정	Bias 차수
\(\mu\) 연속	\(h\)
\(\mu\) 한 번 미분 가능	\(h\)
\(\mu\) 두 번 미분 가능	\(h^2\)
\(\mu\) 네 번 미분 가능 + 고차 커널	\(h^4\)

본문에서 가정한 “두 번 미분 가능” 이 표준 — \(h^2\) 속도가 자연스러운 기준.

5.5 비유: 작은 동네의 대표값

작은 동네 \([t-h, t+h]\) 의 평균 인구 밀도가 그 동네 중심의 진짜 인구 밀도와 얼마나 다른가? 동네가 작을수록 (작은 \(h\)) 평균이 중심값에 가까워진다 — 평균과 중심의 차이는 동네 크기 (\(h\)) 의 거듭제곱으로 줄어든다.

6 Variance 분석

6.1 분산 식 (식 7.4~7.5)

조건부 분산:

\[ \text{Var}[\widehat{\mu}_h(t) \mid \{t_{nm}\}] = \frac{\sum_n \text{Var}\left[\sum_m K\left(\frac{t - t_{nm}}{h}\right)(\varepsilon_n + \delta_{nm}) \mid \{t_{nm}\}\right]}{\left(\sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right)\right)^2}. \]

6.2 분자의 분석 (Problem 7.3)

각 단위 \(n\) 의 분산:

\[ \text{Var}\left[\sum_m K\left(\frac{t - t_{nm}}{h}\right)(\varepsilon_n + \delta_{nm})\right] \approx M h (\tau^2 + \sigma^2) + M^2 h^2 \tau^2. \]

두 항의 의미:

\(M h (\tau^2 + \sigma^2)\) — 측정 잡음 + 단위 잡음의 점별 분산. 박스 커널 안에 평균 \(M h\) 개의 점이 있음.
\(M^2 h^2 \tau^2\) — 단위 내 cross product 항 (같은 \(\varepsilon_n\) 가 여러 시점에 작용).

6.3 분모의 분석

\(\sum_n \sum_m K \approx N \cdot M h \cdot 2\) (커널 안의 점 수 × 단위 수).

분모 제곱: \(\propto N^2 M^2 h^2\).

6.4 점근 분산

분자 (총 \(N\) 개 단위에 대해 합) ÷ 분모:

\[ \text{Var} \approx \frac{N M h (\tau^2 + \sigma^2) + N M^2 h^2 \tau^2}{N^2 M^2 h^2} = \frac{\tau^2 + \sigma^2}{N M h} + \frac{\tau^2}{N}. \]

6.5 직관: 두 분산 항의 의미

첫 항 \(\frac{\tau^2 + \sigma^2}{NMh}\) — 표준 비모수 회귀의 분산. \(NMh\) = 커널 안의 평균 점 수 가 클수록 분산 작음.
둘째 항 \(\frac{\tau^2}{N}\) — \(h\) 와 무관. Subject 차원의 변동 — 모집단의 단위 다양성에서 오는 노이즈.

둘째 항이 핵심 — dense FDA 와의 결정적 차이. 일반적인 비모수 회귀에서는 모든 데이터가 독립이라 둘째 항이 없지만, sparse FDA 에서는 단위 내 상관 (\(\varepsilon_n\)) 으로 인해 자동 등장.

6.6 비유: 두 가지 잡음의 누적

신호 처리에서 측정 잡음과 환경 잡음을 같이 처리. 측정 잡음 (첫 항) 은 측정 횟수를 늘리면 줄어들지만, 환경 잡음 (둘째 항) 은 측정 횟수와 무관 — 환경 자체를 바꿔야 줄어든다.

Sparse FDA 의 두 분산 항도 같은 패턴 — \(h\) 를 줄이거나 (smoother 를 정밀하게) \(M\) 을 늘려도 (단위당 측정 늘리면) 첫 항만 줄고, 둘째 항은 단위 수 \(N\) 만 늘려야 줄어든다.

7 최적 대역폭과 임계값

7.1 Bias-Variance 균형

MSE 최소화 = (Bias)² + Variance 최소화.

Bias² \(\sim h^4\), Var 의 첫 항 \(\sim 1/(NMh)\). 두 항의 균형:

\[ h^4 = \frac{1}{NMh} \implies h^5 = \frac{1}{NM} \implies h = (NM)^{-1/5}. \]

(Variance 의 둘째 항 \(\tau^2/N\) 은 \(h\) 무관이므로 균형에 들어가지 않음.)

7.2 최적 \(h\) 에서의 MSE

\(h = (NM)^{-1/5}\) 대입:

\[ \text{Bias}^2 = C h^4 = C(NM)^{-4/5}, \]

\[ \text{Var} = \frac{\tau^2 + \sigma^2}{NM \cdot (NM)^{-1/5}} + \frac{\tau^2}{N} = \frac{(\tau^2 + \sigma^2) (NM)^{-4/5} \cdot \text{const}}{1} + \frac{\tau^2}{N}, \]

\[ \text{MSE} \sim (NM)^{-4/5} + \frac{1}{N}. \]

7.3 임계값의 도출

두 항 비교: \((NM)^{-4/5}\) vs \(N^{-1}\).

전자가 작으려면:

\[ (NM)^{-4/5} \leq N^{-1} \iff (NM)^{4/5} \geq N \iff M^{4/5} \geq N^{1/5} \iff M \geq N^{1/4}. \]

따라서 임계값 \(M \sim N^{1/4}\).

7.4 세 시나리오

수렴 속도의 세 영역

조건	MSE 속도	의미
\(M / N^{1/4} \to \infty\)	\(N^{-1}\) (모수적)	풍부한 단위별 관측, parametric rate
\(M / N^{1/4} \to c > 0\)	임계값, 두 항 균형	경계
\(M\) 고정	\(N^{-4/5}\) (비모수적)	표준 비모수 속도

7.5 직관: \(M \sim N^{1/4}\) 의 놀라움

이 결과의 가장 놀라운 메시지:

단위당 관측 수 \(M\) 이 \(N^{1/4}\) 보다 크면 모수적 (parametric) 수렴 속도 \(N^{-1}\).

\(N = 10000\) 이면 \(N^{1/4} = 10\). 단위당 10 개 관측만 있어도 마치 모수적 모형처럼 빠른 수렴.

이는 sparse FDA 가 매우 효율적이라는 강력한 증거 — 종단 의학 데이터의 대부분이 이 조건을 만족하므로 sparse 방법이 표준 도구.

7.6 직관: 왜 모수적 속도가 가능한가

비모수 회귀는 일반적으로 \(N^{-4/5}\) 같은 느린 속도. 그러나 sparse FDA 에서는:

모집단의 평균 함수 는 모든 단위가 공유 (한 함수 추정).
단위 차 변동 (\(\varepsilon_n\)) 은 단위 수에 비례하여 정확히 추정.

따라서 충분한 단위와 충분한 단위별 관측이 있으면, 마치 유한 차원 모수 모형 처럼 동작 — 평균 함수의 한정된 자유도 + 단위 수에 비례하는 정보.

7.7 비유: 다국가 인구조사 vs 한 도시 조사

한 도시의 인구 분포만 조사하면 비모수적 (도시별 패턴이 다양). 그러나 100 개국의 인구 조사를 합치면 글로벌 인구 평균 추정은 매우 정확 (모수적 속도) — 각 국가의 작은 표본이 합쳐져 거대한 정보가 된다.

Sparse FDA 의 \(M \sim N^{1/4}\) 임계값도 같은 직관 — 단위 다양성과 단위별 관측의 균형 이 효율성을 결정.

7.8 실무 규칙

\(M \to \infty\) 그리고 \(M / N^{1/4} \to 0\) 가 sparse 방법론이 적절한 비공식 규칙.

대부분의 임상 시험·종단 연구에서 이 조건이 만족되므로 sparse FDA 가 표준 선택.

8 평균 함수 추정 (7.2)

7.1 의 단순 Nadarya-Watson 을 일반화한 세 표준 도구.

9 Local Polynomial Regression

9.1 동기

Nadarya-Watson 은 각 점 \(t\) 에서 국소 상수 적합 — 경계 영역 (\(t = 0, 1\) 부근) 에서 큰 bias. 국소 다항식 적합으로 이를 보완.

9.2 가중 LS 손실

차수 \(P\) 의 국소 다항식 (식 7.8):

\[ L(\boldsymbol{\beta}) = \sum_n \sum_m K\left(\frac{t - t_{nm}}{h}\right) \left(Y_{nm} - \sum_{i=0}^P \beta_i (t - t_{nm})^i\right)^2. \]

해 \(\widehat{\boldsymbol{\beta}}\) 의 절편 \(\widehat{\beta}_0 = \widehat{\mu}(t)\).

9.3 차수의 효과

\(P\)	이름	비고
0	Nadarya-Watson	국소 상수, 경계 편향 큼
1	local linear	표준 선택, 경계 편향 보정
2	local quadratic	곡률 추정 가능
\(\geq 2\)	higher order	도함수 추정 (Problem 7.16)

9.4 직관: 국소 다항식이 경계 편향을 줄이는 이유

경계 (\(t = 0\) 근처) 에서 데이터가 한쪽 (오른쪽) 에만 있다. 국소 상수 (NW) 는 이 비대칭을 그대로 반영하여 편향. 국소 선형 은 데이터 분포의 기울기까지 적합하므로, 한쪽 분포에서도 정확한 외삽.

이것이 실무에서 local linear (\(P = 1\)) 가 표준 선택 인 이유 — 약간의 추가 비용으로 경계 편향 해결.

9.5 행렬 형태와 닫힌 해 (식 7.9)

다음 정의:

\[ \mathbf{Y} = (Y_{11}, Y_{12}, \ldots, Y_{NM_N})^T, \]

\[ \mathbf{Z} = \begin{pmatrix} 1 & (t_{11} - t) & \cdots & (t_{11} - t)^P \\ 1 & (t_{12} - t) & \cdots & (t_{12} - t)^P \\ \vdots & \vdots & & \vdots \\ 1 & (t_{NM_N} - t) & \cdots & (t_{NM_N} - t)^P \end{pmatrix}, \]

\[ \mathbf{K}_h = \text{diag}\left(K\left(\frac{t_{11} - t}{h}\right), \ldots, K\left(\frac{t_{NM_N} - t}{h}\right)\right). \]

손실은 가중 LS 형태:

\[ L(\boldsymbol{\beta}) = (\mathbf{Y} - \mathbf{Z}\boldsymbol{\beta})^T \mathbf{K}_h (\mathbf{Y} - \mathbf{Z}\boldsymbol{\beta}). \]

해:

\[ \widehat{\boldsymbol{\beta}} = (\mathbf{Z}^T \mathbf{K}_h \mathbf{Z})^{-1} \mathbf{Z}^T \mathbf{K}_h \mathbf{Y}. \]

9.6 직관: 표준 가중 LS 의 함수 일반화

표준 가중 LS \(\widehat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{Y}\) 와 같은 형태. 차이는 각 \(t\) 에서 가중 행렬 \(\mathbf{W} = \mathbf{K}_h\) 가 다름 — 그 점 주위의 데이터에 더 큰 가중치.

따라서 모든 \(t\) 에서 같은 데이터로 적합 (가중치만 변경). 계산은 비싸지만 (\(N M_N\) 데이터 × 모든 평가 시점), 알고리즘은 표준 LS 의 반복.

9.7 커널 함수의 종류

흔한 커널 함수

Gaussian: \(K(x) = (2\pi)^{-1/2} e^{-x^2/2}\) — 매끄럽지만 무한 지원.
Epanechnikov: \(K(x) = \frac{3}{4}(1 - x^2) \mathbb{1}_{|x| \leq 1}\) — 유한 지원 + 효율적.
Uniform (박스): \(K(x) = \frac{1}{2} \mathbb{1}_{|x| \leq 1}\) — 가장 단순.

대칭 커널 (\(\int x K(x) \, dx = 0\)) 이 표준. 2 차 커널 = 첫 비영 적률이 2 차. 4 차 커널 = \(\int x K = \int x^2 K = \int x^3 K = 0\) 이고 \(\int x^4 K \neq 0\) — 음의 가중치를 포함하여 bias 더 줄임.

9.8 Bandwidth 선택: Cross-Validation

표준 방법: \(k\)-fold CV. 단, sparse FDA 에서는 subject 단위로 분할.

Sparse FDA 의 CV 주의 사항

전통적 CV: “한 점씩 빼고” (leave-one-out point). Sparse FDA CV: “한 단위씩 빼고” (leave-one-out subject).

이유: 단위 내 강한 상관 (\(\varepsilon_n\)). 같은 단위의 다른 점으로 그 단위의 한 점을 예측하면, 상관성으로 인해 매우 쉬워져 bandwidth 가 너무 작게 (under-smooth) 선택된다.

9.9 CV 의 under-smoothing 경향

CV 가 일반적으로 약간 작은 \(h\) 를 선택하는 경향 — bias 보다 prediction error 를 우선시. 시각적 검증 으로 결과를 확인하고, 필요하면 \(h\) 를 조금 키운다.

9.10 직관: 시각화는 마지막 검증

자동 알고리즘 (CV, REML 등) 이 표준 도구이지만, 함수 추정의 시각적 평가가 항상 마지막 단계. 통계적 기준이 만든 추정이 도메인 지식과 모순 (예: 너무 진동하거나 너무 평탄함) 이면 모수 조정.

이는 sparse FDA 의 모든 도구에 일관된 패턴 — 자동 + 시각적 검증 의 균형.

10 Basis Function Regression

10.1 모형

평균 함수를 \(J\) 개 기저로 전개:

\[ \mu(t) = \sum_{j=1}^J \mu_j e_j(t) = \boldsymbol{\mu}^T \mathbf{e}(t). \]

LS 손실:

\[ L(\boldsymbol{\mu}) = \sum_n \sum_m (Y_{nm} - \boldsymbol{\mu}^T \mathbf{e}(t_{nm}))^2. \]

10.2 행렬 형태

\[ \mathbf{Y} \in \mathbb{R}^{\sum_n M_n}, \quad \mathbf{E} = \begin{pmatrix} \mathbf{e}(t_{11})^T \\ \vdots \\ \mathbf{e}(t_{NM_N})^T \end{pmatrix}. \]

해:

\[ \widehat{\boldsymbol{\mu}} = (\mathbf{E}^T \mathbf{E})^{-1} \mathbf{E}^T \mathbf{Y}. \]

10.3 거칠기 벌점

\(J\) 가 크면 과적합 위험. 거칠기 벌점:

\[ L_\lambda(\boldsymbol{\mu}) = (\mathbf{Y} - \mathbf{E}\boldsymbol{\mu})^T (\mathbf{Y} - \mathbf{E}\boldsymbol{\mu}) + \lambda \boldsymbol{\mu}^T \mathbf{R} \boldsymbol{\mu}. \]

해:

\[ \widehat{\boldsymbol{\mu}} = (\mathbf{E}^T \mathbf{E} + \lambda \mathbf{R})^{-1} \mathbf{E}^T \mathbf{Y}. \]

이는 5.2 의 함수-on-스칼라 회귀 + 거칠기 벌점과 같은 framework.

10.4 직관: Basis 가 Local Polynomial 보다 유리한 점

모수의 수가 작음 (\(J\) 개, 보통 30 ~ 50). Local polynomial 은 각 평가 시점에서 새로 적합.
닫힌 형태 표현 — 추정 후 임의 시점의 추정값 계산 빠름.
REML/GCV 자동 매끄러움 선택 — mgcv::gam 의 표준.

10.5 직관: Local Polynomial 보다 불리한 점

벌점 형태 의존 — 거칠기 벌점이 자연스럽지 않은 경우 (예: 불연속 함수) 부적절.
기저 선택의 자의성 — B-spline vs Fourier vs P-spline 등.

실무에서는 두 도구를 모두 시도하고 결과를 비교하는 것이 좋다.

11 RKHS 접근

11.1 동기

Local polynomial 과 basis 는 함수 공간의 매끄러움 가정 이 명시적이지 않다. RKHS 는 핵 함수 \(K\) 가 정의하는 함수 공간 에서 작업 — 매끄러움 가정이 핵에 직접 인코딩.

11.2 핵 함수의 정의

Reproducing Kernel 의 조건

함수 \(K: [0, 1] \times [0, 1] \to \mathbb{R}\) 이 재생 핵 (reproducing kernel) 이려면:

양정치: 임의의 점 \(t_1, \ldots, t_n\) 에 대해 \(\{K(t_i, t_j)\}\) 행렬이 양정치.
대칭: \(K(t, s) = K(s, t)\).
제곱적분: \(\iint K(t, s)^2 \, dt \, ds < \infty\).

11.3 RKHS 의 구성

집합 \(A_K = \{f: f(t) = \sum_{j=1}^J \alpha_j K(t, s_j), J < \infty, s_j \in [0, 1], \alpha_j \in \mathbb{R}\}\) — 핵의 유한 선형 결합.

핵의 스펙트럼 분해 \(K(t, s) = \sum_{i} \lambda_i v_i(t) v_i(s)\) (\(v_i\) 는 정규직교 기저, \(\lambda_i\) 는 고유값) 로 내적 정의:

\[ \langle f, g \rangle_{H_K} = \sum_{i=1}^\infty \frac{\int f(t) v_i(t) \, dt \int g(s) v_i(s) \, ds}{\lambda_i}. \]

이 내적의 노름:

\[ \|f\|_{H_K}^2 = \sum_{j, k=1}^J \alpha_j \alpha_k K(s_j, s_k). \]

(Problem 7.6)

\(A_K\) 를 노름 완비화한 것이 RKHS \(H_K\).

11.4 직관: 노름의 의미

\(\|f\|_{H_K}\) 가 작은 \(f\) = “핵 \(K\) 의 매끄러움 구조와 일관된 함수”. 큰 \(f\) = “핵의 매끄러움 구조에 어긋나는 함수”.

따라서 RKHS 노름이 자연스러운 매끄러움 페널티 의 역할 — 노름이 큰 함수를 벌점함으로써 핵에 따른 매끄러움을 강제.

11.5 비유: 자기장의 일관성

자석 주위에 쇳가루를 뿌리면 자기장 선을 따라 정렬. 자기장과 일치하는 패턴이 안정 (낮은 에너지), 자기장과 어긋나는 패턴은 불안정 (높은 에너지).

RKHS 노름은 “함수가 핵의 (자기장 같은) 매끄러움 구조와 얼마나 일치하는지” 의 척도 — 일치하면 노름 작음, 어긋나면 노름 큼.

11.6 Representer Theorem (Theorem 7.2.1)

Representer Theorem

\(H_K\) 가 RKHS, \(K_t(s) := K(t, s)\) 일 때, 모든 \(x \in H_K\) 와 \(t \in [0, 1]\) 에 대해:

\[ x(t) = \langle x, K_t \rangle_{H_K}. \]

11.7 직관: 점 평가가 내적

\(L^2\) 에서는 점 평가가 정의되지 않을 수 있다 (측도 0 의 점에서 함수값이 임의). RKHS 에서는 점 평가가 자연스러운 연속 선형 범함수 — Riesz 표현에 의해 어떤 함수 \(K_t\) 와의 내적으로 표현.

이 성질이 RKHS 의 이름 (“재생” — 점에서 평가하는 핵) 의 유래.

11.8 평균 추정의 RKHS 형태

벌점 LS:

\[ L_\lambda(\mu) = \sum_n \sum_m (Y_{nm} - \mu(t_{nm}))^2 + \lambda \|\mu\|_{H_K}^2. \]

Representer theorem 에 의해 최적해의 형태 (Problem 7.12):

\[ \widehat{\mu}(t) = \sum_n \sum_m \widehat{\alpha}_{nm} K(t, t_{nm}). \]

행렬 표기 (\(\boldsymbol{\alpha} = \{\alpha_{nm}\}\), \(\mathbf{K} = \{K(t_{nm}, t_{n'm'})\}\)):

\[ L_\lambda(\boldsymbol{\alpha}) = (\mathbf{Y} - \mathbf{K}\boldsymbol{\alpha})^T (\mathbf{Y} - \mathbf{K}\boldsymbol{\alpha}) + \lambda \boldsymbol{\alpha}^T \mathbf{K} \boldsymbol{\alpha}. \]

해:

\[ \widehat{\boldsymbol{\alpha}} = (\mathbf{K}^T \mathbf{K} + \lambda \mathbf{K})^{-1} \mathbf{K}^T \mathbf{Y}. \]

11.9 직관: RKHS = 자동 기저 선택

Basis function 회귀에서 사용자가 기저를 선택. RKHS 에서는 데이터의 위치가 자동으로 기저 (\(K_{t_{nm}}\) 들). 핵 \(K\) 만 결정하면 됨.

이는 RKHS 의 우아함 — 사용자의 부담이 핵 선택 한 가지로 줄어들고, 매끄러움 가정이 핵에 자동 인코딩.

11.10 세 표준 핵 (예시 7.2.1~7.2.3)

RKHS 핵의 세 예시

핵	정의	RKHS 의 함수 매끄러움
Sobolev (\(m\) 차)	명시적 형태 복잡	\(m\) 회 미분 가능, \(L^2\) 도함수
Gaussian	\(K(s, s') = e^{-\sigma\|s-s'\|^2}\)	무한 미분 가능
Exponential	\(K(s, s') = e^{-\sigma\|s-s'\|}\)	연속이지만 미분 안 될 수도

11.11 매끄러움의 스펙트럼

Exponential — 가장 거친 (\(s\) 와 \(s'\) 의 차에 정비례하는 지수). 함수가 연속이지만 미분 가능성 보장 안 됨.
Sobolev — 중간. \(m\) 차까지 미분 가능 (지정 가능).
Gaussian — 가장 매끄러운 (제곱 차이의 지수). 함수가 무한 미분 가능.

11.12 직관: 핵의 매끄러움이 RKHS 의 매끄러움

핵 \(K(s, s')\) 가 \(s = s'\) 에서 얼마나 매끈한지가 그 RKHS 의 함수의 매끄러움을 결정.

\(K = e^{-\sigma|s-s'|}\): \(|s-s'|\) 의 첫 미분이 부호 함수 — 미분 가능성 약함.
\(K = e^{-\sigma|s-s'|^2}\): \(|s-s'|^2\) 가 무한 미분 가능 — 미분 가능성 강함.

이 패턴이 가우시안 과정 이론과 직접 연결 — 가우스 과정의 sample path 의 매끄러움이 그 공분산 함수의 대각 매끄러움에 의해 결정 (Karhunen 1947).

11.13 비유: 도구의 정밀도

가구를 만들 때 거친 톱 vs 정밀 끌.

Exponential 핵 = 거친 톱 — 빠르지만 거친 결과.
Gaussian 핵 = 정밀 끌 — 매우 매끈한 결과.

도구는 작업의 본성에 맞아야 한다 — 거친 데이터에 매끄러운 핵 적용은 over-smoothing, 매끄러운 데이터에 거친 핵 적용은 under-smoothing.

12 R 구현

12.1 Local Polynomial: loess

# Nadarya-Watson (P = 0): stats::ksmooth
# Local linear (P = 1): stats::lowess
# General P: stats::loess

library(stats)

# CATT 데이터에서 loess 적합
loess_fit <- loess(Y ~ T, data = catt_data,
                   span = 0.5,    # bandwidth (단위: 데이터 비율)
                   degree = 1)    # local linear

# 시점 격자에서 예측
t_grid <- seq(0, 100, length.out = 200)
mu_hat <- predict(loess_fit, newdata = data.frame(T = t_grid))

12.2 Bandwidth CV (subject-level)

library(stats)

# 2-fold CV (subject 단위 분할)
set.seed(2016)
n_fit <- floor(n_subjects / 2)
fit_subjects <- sample(1:n_subjects, n_fit)

# Subject id 기준으로 데이터 분할
fit_data <- catt_data[catt_data$subject_id %in% fit_subjects, ]
test_data <- catt_data[!(catt_data$subject_id %in% fit_subjects), ]

# Bandwidth 후보
spans <- 0.2 * 10^seq(0, 2, length = 10)
mse <- numeric(length(spans))
for (i in seq_along(spans)) {
  fit <- loess(Y ~ T, data = fit_data, span = spans[i], degree = 1)
  pred <- predict(fit, newdata = test_data)
  mse[i] <- mean((pred - test_data$Y)^2, na.rm = TRUE)
}

best_span <- spans[which.min(mse)]
final_fit <- loess(Y ~ T, data = catt_data, span = best_span, degree = 1)

12.3 Basis Function: mgcv::gam

library(mgcv)

# Spline 기저 + 거칠기 벌점, REML 매끄러움 선택
gam_fit <- gam(Y ~ s(T, k = 30), data = catt_data, method = "REML")

# Bandwidth (sp 모수) 수동 지정도 가능
gam_fit_manual <- gam(Y ~ s(T, sp = 1e-2), data = catt_data)

# 시각화
plot(gam_fit, shade = TRUE,
     xlab = "Week", ylab = "Visual Acuity")

12.4 RKHS: 사용자 구현 필요

# Gaussian kernel
gaussian_kernel <- function(t, s, sigma = 1) {
  exp(-sigma * (t - s)^2)
}

# 모든 단위·시점의 핵 행렬
times <- catt_data$T
N <- length(times)
K <- outer(times, times, FUN = gaussian_kernel)

# RKHS 추정 (벌점 모수 lambda)
lambda <- 0.1
alpha_hat <- solve(K %*% K + lambda * K, K %*% catt_data$Y)

# 새 시점 t_new 에서 추정값
t_new <- seq(0, 100, length = 200)
K_new <- outer(t_new, times, FUN = gaussian_kernel)
mu_hat <- K_new %*% alpha_hat

plot(t_new, mu_hat, type = "l",
     xlab = "Week", ylab = "Visual Acuity",
     main = "RKHS estimate (Gaussian kernel)")

12.5 CATT 데이터 결과 해석

세 도구 모두 비슷한 패턴:

빠른 초기 상승 — Baseline 후 첫 몇 주에 VAS 급증 (치료 효과 시작).
이후 안정화 — 약 20~40 주 부근에서 plateau (치료 효과 포화).

차이는 매끄러움의 정도 — Gaussian 핵 RKHS 가 가장 매끄럽고, loess 는 약간 더 거친 경향.

12.6 모형 진단

평균 추정 후 점검

시각적 형태 — 도메인 지식과 일치하는가?
신뢰 구간 — gam 의 자동 신뢰 밴드가 합리적인가?
잔차 분포 — 패턴 없이 무작위인가?
과적합 의심 — 너무 진동하면 매끄러움 모수 키우기.
과평탄 의심 — 너무 직선이면 매끄러움 모수 줄이기.

13 두 절의 통합 시각

13.1 한 줄 요약

Sparse FDA 의 점근 분석은 Nadarya-Watson 평활의 bias-variance 분해 — Bias² ~ h^4, Var ~ (NMh)^{-1} + N^{-1} — 에서 출발하여 최적 h = (NM)^{-1/5} 와 임계값 M ~ N^{1/4} 를 도출한다. 이 임계값에서 모수적 N^{-1} vs 비모수적 N^{-4/5} 수렴 속도가 전환되며, 단위당 10 개 관측 (N = 10000 일 때) 만으로도 모수적 속도 달성이 가능하다. 평균 함수 추정의 세 표준 도구 — Local polynomial (가중 LS, 경계 편향 보정), Basis function (벌점 LS, mgcv::gam 자동화), RKHS (Representer theorem 으로 핵의 자연 기저 + 매끄러움 인코딩) — 가 보완적으로 사용되며, sparse FDA 의 CV 는 반드시 subject 단위로 수행한다.

13.2 Ch.7 후속 절과의 연결

후속 절	7.1~7.2 의 도구를 어떻게 활용하는가
7.3 공분산 추정	7.2 의 도구를 이변량으로 확장 (gam 의 tensor product spline 등)
7.4 Sparse FPCA (PACE)	7.2 추정된 평균과 7.3 의 공분산을 BLUP 의 입력으로
7.5 Sparse 회귀	7.4 의 PACE 점수를 회귀자로 사용
Ch.8 함수 시계열	7.1 의 점근 분석을 시간 종속 데이터로 확장

7.1 의 점근 분석이 sparse FDA 의 이론적 토대 — 후속 모든 도구가 이 framework 위에서 작동.

13.3 실무 가이드

Sparse FDA 평균 추정의 실무 워크플로우

데이터 진단 — 단위당 관측 수 \(\bar{M}\) 와 \(N^{1/4}\) 비교. \(\bar{M} > N^{1/4}\) 면 sparse 방법이 효율적.
세 도구 시도 — loess, gam, RKHS 모두 시도하여 결과 비교.
Bandwidth 선택 — Subject-level CV 또는 REML.
시각적 검증 — 추정된 평균이 도메인 지식과 일치하는지 확인.
모수 조정 — CV 가 under-smooth 면 \(h\) 를 약간 키움.

14 관련 주제

선행 지식

FDA 1.0 — 개요
FDA 2.1~2.2 — 미분과 벌점 스무딩
FDA 5.1~5.2 — 함수-on-스칼라 회귀 — 거칠기 벌점의 표준 framework
FDA 6.6 — 무한차원 밀도의 한계 — RKHS 와 측도의 연결
FDA 6.7 Problem 6.6 — RKHS 와 Cameron-Martin
FDA 7.0 — 희소 FDA 개관

후속 주제

관련 개념

Nadaraya-Watson 추정량 — 비모수 회귀의 표준
Bias-Variance Tradeoff — 7.1 의 점근 분석의 토대
Cross-validation — Bandwidth 선택
재생 핵 힐베르트 공간 (RKHS) — 7.2 의 RKHS 도구
Mixed Model 과 Random Effects — 모형 (7.1) 의 토대
Local Polynomial Regression — 7.2 의 표준
Spline 회귀와 mgcv::gam — Basis function 회귀의 R 구현