Kwangmin Kim - FDA 3.0 — 함수 데이터의 수학적 프레임워크 개관

1 이 장의 위치와 목적

Chapter 1과 Chapter 2에서는 “어떻게 함수를 다루는가”를 도구의 관점에서 살폈다. 이산 관측을 기저 전개로 함수로 만들고, 평균·공분산·EFPC로 요약하고, 미분·벌점 스무딩·정렬로 탐색했다. 이는 모두 계산 가능한 절차 였다.

그러나 통계학의 본질은 단순한 계산이 아니라 추론 이다. 표본에서 모집단을 말하려면 “관측이 어떤 공간의 원소이고, 그 위에 어떤 거리·확률 구조가 깔려 있는가” 를 명확히 해야 한다. 스칼라 통계학에서 관측은 실수 \(\mathbb{R}\) 의 원소이고, 다변량 통계학에서는 \(\mathbb{R}^d\) 의 벡터이다. FDA에서는 관측이 무한차원의 함수 이므로, 이 무대가 무엇인지 정의하지 않으면 가설검정·신뢰구간·점근이론 같은 추론 도구가 발붙일 곳이 없다.

Chapter 3이 답하는 질문은 단순하다 — “FDA의 관측 공간은 무엇인가, 그리고 그 위에 어떤 통계량이 자연스럽게 정의되는가?”

절	핵심 질문	다변량 유사체
3.1	함수가 사는 공간은?	\(\mathbb{R}^d\)
3.2	함수의 평균·공분산·주성분은?	평균 벡터·공분산 행렬·주성분
3.3	함수를 어떻게 “변환”하는가?	행렬 곱셈

Kokoszka & Reimherr (2017) Ch.3은 “이후 장에서 사용할 표기와 개념을 한 곳에 정리하는 것” 을 목표로 한다. 후속 챕터(회귀, 시계열, 공간 FDA)는 모두 이 장의 언어 위에서 전개된다. 더 엄밀한 전개는 Ch.10-11에 미루며, 이 장은 직관적 골격 만 제시한다 (Kokoszka & Reimherr, 2017, Ch.3).

2 L² 공간: 함수의 자연스러운 거처

2.1 왜 굳이 “공간” 을 정의해야 하는가

스칼라 데이터의 예측오차 \(|\hat{y} - y|\) 는 자명하다 — 두 실수의 차의 절댓값이다. 벡터 데이터의 예측오차 \(\|\hat{\mathbf{y}} - \mathbf{y}\|\) 도 자명하다 — 유클리드 거리이다. 그러나 두 함수 \(\hat{f}\) 와 \(f\) 의 “거리” 는 정의되어야 비로소 의미를 갖는다. 거리가 정의되지 않으면 “추정량이 참값에 가깝다” 라는 문장 자체가 성립하지 않는다.

FDA의 첫 수학적 결정은 함수의 거리를 어떻게 정의할 것인가이다. Kokoszka는 가장 단순하면서도 풍부한 구조를 제공하는 제곱적분 가능 함수의 공간 \(L^2\) 를 선택한다.

2.2 정의

표기를 단순화하기 위해 모든 함수가 단위 구간 \([0, 1]\) 에서 정의된다고 하자. 일반 구간 \([a, b]\) 의 경우는 \(u = (t - a)/(b - a)\) 로 환산하면 된다.

정의: 제곱적분 가능 함수와 \(L^2\) 공간

함수 \(f\) 가 다음을 만족하면 제곱적분 가능(square integrable) 하다고 한다:

\[ \int f^2(t) \, dt = \int_0^1 \{f(t)\}^2 \, dt < \infty. \]

모든 제곱적분 가능 함수의 집합을 \(L^2\) 로 표기한다.

직관적으로 \(\int f^2 \, dt\) 는 함수의 “에너지(energy)” 또는 “총 분산” 을 측정한다. 이 적분이 발산하면(예: \(f(t) = 1/t\) on \((0, 1]\)) 함수가 너무 격렬하게 행동하는 것이고, 통계적으로 다루기 까다로워진다. \(L^2\) 는 이런 병리적 함수를 배제한 “통계적으로 문명화된” 함수들의 모임이다.

2.3 \(L^2\) 가 벡터 공간이라는 사실의 위력

\(f, g \in L^2\) 이면 \(af + bg \in L^2\) 이다. 즉 함수의 선형 결합이 다시 함수이고, 이는 점별 정의로:

\[ (af + bg)(t) = af(t) + bg(t). \]

왜 이게 중요한가: 이 성질이 없다면 “회귀 잔차 \(y - X\beta\)” 같은 표현이 의미를 잃는다. 회귀는 본질적으로 “데이터에서 적합값을 빼는” 연산인데, 그 결과가 같은 공간에 머무르지 않으면 잔차의 분포·성질을 논할 수 없다.

2.4 내적: 두 함수가 “얼마나 같은 방향” 인가

\(L^2\) 가 단순한 벡터 공간을 넘어 풍부한 기하 구조를 갖는 이유는 내적(inner product) 때문이다:

\[ \langle f, g \rangle = \int f(t) g(t) \, dt. \]

이는 유한차원 벡터의 점곱 \(\langle \mathbf{x}, \mathbf{y} \rangle = \sum_j x_j y_j\) 의 직접적인 연속 버전이다. 합 \(\sum\) 이 적분 \(\int\) 으로, 인덱스 \(j\) 가 연속 변수 \(t\) 로 바뀐 것뿐이다.

비유: 두 벡터의 점곱은 “같은 방향으로 얼마나 함께 가는가” 를 잰다. 두 함수의 내적은 “두 곡선이 같은 시점에 같은 부호로 얼마나 함께 움직이는가” 를 잰다. \(f\) 와 \(g\) 가 모든 \(t\) 에서 동시에 양수이면 \(\langle f, g \rangle\) 는 크고, 한쪽이 양수일 때 다른 쪽이 음수이면 음수가 된다. 한쪽이 양·음을 골고루 섞어 다른 쪽과 무관하게 움직이면 적분이 상쇄되어 0 에 가깝다.

2.5 직교성과 노름

내적으로부터 두 핵심 개념이 자연스럽게 따라 나온다:

직교(orthogonal): \(\langle f, g \rangle = 0\) 인 두 함수는 “수직” 이다. 통계적으로는 “한 방향의 변동이 다른 방향의 변동과 무관” 함을 뜻한다.
노름(norm): \(\|f\| = \sqrt{\langle f, f \rangle} = \left(\int f^2(t) \, dt\right)^{1/2}\) 는 함수의 “길이” 또는 “크기” 이다.

이로부터 함수 간 거리(distance) 가 정의된다:

\[ d(f, g) = \|f - g\| = \left(\int (f(t) - g(t))^2 \, dt\right)^{1/2}. \]

이 거리가 바로 FDA에서 추정량이 참값에 가까운지를 측정하는 척도이다. “\(\hat{f}\) 가 \(f\) 의 일치 추정량(consistent estimator)” 이라는 문장은 정확히 \(\|\hat{f} - f\| \to 0\) 을 의미한다.

2.6 Cauchy-Schwarz 부등식

내적과 노름은 다음 부등식으로 연결된다:

\[ \left| \int f(t) g(t) \, dt \right| = |\langle f, g \rangle| \leq \|f\| \cdot \|g\|. \]

왜 이 부등식이 핵심인가: 두 함수의 “공동 작용(co-action)” 이 각자의 크기 곱을 결코 넘을 수 없다는 보장이다. 이는 다음 장의 함수 회귀에서 적분 \(\int \beta(t) X(t) dt\) 가 발산하지 않음을 보장하는 핵심 도구이다. 또한 분산-공분산 부등식 \(|\text{Cov}(X, Y)| \leq \sqrt{\text{Var}(X) \text{Var}(Y)}\) 의 함수 공간 일반화이다.

직관적으로는 “내적이 두 벡터의 길이 곱보다 클 수 없다” 는 유클리드 기하의 사실의 함수 버전이다 — 두 함수의 코사인 유사도가 \(\pm 1\) 을 넘을 수 없다는 뜻이다.

2.7 기저(basis)와 정규직교 기저

함수 \(\{e_1, e_2, e_3, \ldots\}\) 가 \(L^2\) 의 기저 라는 것은, 모든 \(f \in L^2\) 가 다음과 같이 유일하게 전개됨을 뜻한다:

\[ f(t) = \sum_{j=1}^{\infty} a_j e_j(t). \]

추가로 \(\langle e_j, e_{j'} \rangle = 0\) ( \(j \neq j'\) )이고 \(\|e_j\| = 1\) 이면 정규직교 기저(orthonormal basis) 라 한다.

기저	정규직교 여부	사용 상황
삼각함수 (Fourier)	정규직교	주기적 데이터
B-spline	비정규직교	비주기적·국소 변동
Wavelet	정규직교 (대부분)	불연속·다중해상도

정규직교 기저의 위력: 삼각함수처럼 \(\langle e_j, e_{j'} \rangle = 0\) 이 성립하면 계수가 단순한 내적으로 주어진다:

\[ a_j = \langle f, e_j \rangle. \]

그리고 다음 Parseval 등식 이 성립한다:

\[ \int f^2(t) \, dt = \|f\|^2 = \sum_{j=1}^{\infty} \langle f, e_j \rangle^2. \]

해석: 함수의 총 에너지(노름의 제곱)가 각 기저 방향으로의 사영 제곱의 합과 같다. 유한차원에서는 이것이 피타고라스 정리 \(\|\mathbf{x}\|^2 = \sum_j x_j^2\) 이다. 함수 버전도 본질이 같다 — “함수를 직교 방향으로 분해하면, 각 방향의 기여가 깔끔히 더해진다.”

비정규직교 기저(B-spline)에서도 전개는 가능하지만 계수 계산이 행렬 역연산을 요구한다 (Ch.1 참조). 정규직교가 아닌 점이 표현력의 결함은 아니지만 계산을 복잡하게 만든다.

3 확률 함수: 함수 데이터의 “랜덤 변수”

3.1 무엇이 “랜덤” 인가

스칼라 통계학에서 “여대생 키 표본” 을 분석할 때, 각 관측 \(x_i\) 는 실수이고, 추론을 위해 이를 어떤 분포(예: 정규)에서의 실현 \(X_i\) 로 본다. 모수 \(\mu, \sigma^2\) 의 추정·검정·신뢰구간이 모두 이 확률 모형 위에서 정의된다.

FDA에서도 동일한 사고가 필요하다. 54명의 성장 곡선 \(x_1, \ldots, x_{54}\) 는 이미 함수이지만, 모집단 수준의 추론을 하려면 각 \(x_i\) 를 확률 함수(random function) \(X_i\) 의 실현으로 본다. “\(i\) 번째 여성이 표본에 뽑히기 전, 그녀의 성장 곡선이 어떤 모양일지 확률적으로 결정된다” 는 관점이다.

3.2 확률 함수의 형식적 정의

확률 변수가 “확률 공간 \(\Omega\) 에서 실수로 가는 가측 함수” 이듯, 확률 함수는 확률 공간 \(\Omega\) 에서 함수 공간 \(L^2\) 로 가는 사상 이다.

각 표본점 \(\omega \in \Omega\) 에 대해 \(X(\omega)\) 는 결정적 함수이고, \(X(\omega)(t)\) 는 실수이다. 모든 실현 \(X(\omega)\) 가 \(L^2\) 의 원소라고 가정한다:

\[ \|X(\omega)\|^2 = \int \{X(\omega)(t)\}^2 \, dt < \infty \quad \text{for all } \omega \in \Omega. \]

추가로 다음을 만족하면 \(X\) 가 제곱적분 가능 확률 함수 라 한다:

\[ E\|X\|^2 < \infty. \]

두 가지 “제곱적분” 의 구분

결정적 함수의 제곱적분: \(\int f^2(t) \, dt < \infty\) — 구간 \([0,1]\) 에 대한 적분
확률 함수의 제곱적분: \(E\|X\|^2 < \infty\) — 확률 공간에 대한 기댓값

후자는 “확률 함수의 분산이 유한하다” 와 본질적으로 같다. 이 가정 하에서 평균 함수와 공분산 함수가 \(L^2\) 의 적절한 공간에 존재한다.

3.3 모평균 함수와 모공분산 함수

표본 평균 함수 \(\widehat{\mu}(t) = N^{-1} \sum_i x_i(t)\) 와 표본 공분산 함수 \(\widehat{c}(t, s)\) 는 Ch.1에서 보았다. 이제 이들이 추정하려는 모집단 모수 가 있다:

\[ \mu(t) = E X(t), \]

\[ c(t, s) = E[(X(t) - \mu(t))(X(s) - \mu(s))]. \]

다변량 통계	FDA
평균 벡터 \(\boldsymbol{\mu} = (\mu_1, \ldots, \mu_d)\)	평균 함수 \(\mu(t)\)
공분산 행렬 \(\Sigma_{ij} = \text{Cov}(X_i, X_j)\)	공분산 함수 \(c(t, s)\)
인덱스 \(i, j \in \{1, \ldots, d\}\)	인덱스 \(t, s \in [0, 1]\)

직관적으로 \(c(t, s)\) 는 “시점 \(t\) 와 시점 \(s\) 의 곡선 값이 함께 얼마나 흔들리는가” 이다. \(c(t, t)\) 는 시점 \(t\) 에서의 분산이고, \(c(t, s)\) ( \(t \neq s\) ) 는 두 시점 간 공변이다. 다변량 공분산 행렬과 동일한 직관이지만, 인덱스가 연속이라 이변량 함수 형태가 된다.

3.4 Karhunen-Loève 전개: 함수 주성분의 본질

이제 FDA의 가장 중요한 정리에 도달한다. 모든 제곱적분 가능 확률 함수 \(X\) 는 다음과 같이 표현된다:

정리: Karhunen-Loève 전개

\[ X(t) = \mu(t) + \sum_{j=1}^{\infty} \xi_j v_j(t). \]

여기서:

\(v_j(t)\): 고유함수(eigenfunctions) — 공분산 함수 \(c\) 의 적분 방정식 \(\int c(t, s) v(s) \, ds = \lambda v(t)\) 의 해
\(\lambda_j\): 고유값(eigenvalues) — \(\lambda_1 \geq \lambda_2 \geq \cdots \geq 0\)
\(\xi_j\): 점수(scores) — \(\xi_j = \langle X - \mu, v_j \rangle = \int (X(t) - \mu(t)) v_j(t) \, dt\)

점수의 성질:

\[ E\xi_j = 0, \quad E\xi_j^2 = \lambda_j, \quad \text{Cov}(\xi_j, \xi_k) = 0 \text{ for } j \neq k. \]

그리고 분산 분해:

\[ E\|X - \mu\|^2 = \sum_{j=1}^{\infty} \lambda_j. \]

3.5 KL 전개를 어떻게 읽는가

이 식은 함수 데이터 분석에서 가장 강력한 도구이지만, 처음 보면 추상적이다. 한 줄씩 읽어 본다.

\(\mu(t)\): 곡선 군의 “중심” — 평균적 모양.
\(v_j(t)\): 변동의 “주방향” — 곡선이 평균에서 얼마나·어떻게 벗어나는지의 패턴. 첫 번째 \(v_1\) 은 가장 큰 변동을 설명하는 함수, \(v_2\) 는 그다음, ⋯
\(\xi_j\): 개체별 “그 방향으로 얼마나 갔는가” — 곡선 \(X\) 의 \(v_j\) 방향 성분. 평균 0, 분산 \(\lambda_j\) 의 확률 변수.
\(\lambda_j\): \(j\) 번째 방향의 분산. 분산이 클수록 그 방향의 변동이 데이터를 더 많이 설명한다.

비유: KL 전개는 “악기의 합주(orchestra)” 에 비유할 수 있다. \(\mu(t)\) 는 모든 연주에 공통인 “베이스 멜로디”, \(v_j(t)\) 는 개별 악기의 음색(timbre), \(\xi_j\) 는 “이번 연주에서 그 악기가 얼마나 크게 들렸는가” 의 볼륨이다. 어떤 곡(곡선) 이든 결국 베이스 + 가중합으로 표현된다. 가장 큰 \(\lambda_j\) 를 가진 악기 몇 개만 들어도 곡의 정체성은 충분히 드러난다.

3.6 다변량 PCA와의 일대일 대응

다변량 PCA	KL 전개 (FPCA)
공분산 행렬 \(\Sigma\)	공분산 함수 \(c(t, s)\)
고유벡터 \(\mathbf{v}_j\)	고유함수 \(v_j(t)\)
고유값 \(\lambda_j\)	고유값 \(\lambda_j\)
주성분 점수 \(\langle \mathbf{x}, \mathbf{v}_j \rangle\)	점수 \(\langle X, v_j \rangle\)
\(\mathbf{x} = \boldsymbol{\mu} + \sum_j \xi_j \mathbf{v}_j\)	\(X(t) = \mu(t) + \sum_j \xi_j v_j(t)\)

KL 전개는 다변량 PCA의 자연스러운 무한차원 확장이다. 본질은 같다: “공분산 구조의 고유 분해가 데이터의 가장 효율적인 표현을 준다.”

최적성: KL 전개의 \(v_j\) 는 평균제곱오차 의미에서 최적이다. 첫 \(K\) 개 항으로 잘라낸 \(\sum_{j=1}^K \xi_j v_j(t)\) 는, \(K\) 차원으로 \(X - \mu\) 를 근사하는 모든 표현 중 평균제곱오차가 최소이다. 이것이 FPCA가 “차원 축소(dimension reduction)” 의 황금 표준인 이유이다 — 응용에서 2~3개의 PC만으로 90% 이상의 변동을 설명하는 경우가 흔하다.

3.7 예: 브라운 운동의 명시적 KL 전개

이론을 가장 잘 이해하는 방법은 닫힌 형태의 예를 보는 것이다. 단위 구간 \([0, 1]\) 위의 브라운 운동(Brownian motion) \(W = \{W(t)\}\) 에 대해:

\[ \mu(t) = E W(t) = 0, \]

\[ c(t, s) = \text{Cov}(W(t), W(s)) = \min(t, s). \]

이 공분산 함수의 고유 방정식은 닫힌 형태로 풀린다:

\[ \lambda_j = \frac{1}{(j - 1/2)^2 \pi^2}, \quad v_j(t) = \sqrt{2} \sin\!\left((j - 1/2) \pi t\right). \]

따라서:

\[ W(t) = \sum_{j=1}^{\infty} \frac{Z_j}{(j - 1/2) \pi} \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \]

여기서 \(Z_j\) 는 독립인 표준정규 변수이다 (Kokoszka & Reimherr, 2017, Example 3.2.1).

해석:

고유값이 \(j^{-2}\) 속도로 감소: 첫 몇 개의 정현파(sine) 성분이 변동의 대부분을 차지한다.
분산 분해 \(E \int_0^1 W^2(t) \, dt = \int_0^1 t \, dt = 1/2 = \sum_j \lambda_j\).
무한 합을 유한 항( \(j = 1, \ldots, K\) )에서 자르면 매끄러운 브라운 운동 근사가 된다 — 계산 효율적인 시뮬레이션 방법.

library(fda)

# 닫힌 형태 KL 전개로 브라운 운동 근사
set.seed(1)
K <- 50              # 절단 항 수
N <- 5               # 표본 함수 수
tgrid <- seq(0, 1, length.out = 500)

# 고유값과 고유함수
lambda <- 1 / ((seq_len(K) - 0.5)^2 * pi^2)
V <- sapply(seq_len(K), function(j) sqrt(2) * sin((j - 0.5) * pi * tgrid))

# 점수 생성: xi_j ~ N(0, lambda_j)
Z <- matrix(rnorm(K * N), nrow = K, ncol = N)
xi <- sweep(Z, 1, sqrt(lambda), `*`)

# 곡선 재구성: W(t) = sum_j xi_j v_j(t)
W <- V %*% xi   # 500 x 5

matplot(tgrid, W, type = "l", lty = 1,
        xlab = "t", ylab = "W(t)",
        main = paste0("Brownian motion via KL truncation (K=", K, ")"))
abline(h = 0, lty = 2, col = "grey")

이 코드의 핵심 관찰: 브라운 운동을 보통 random walk 누적으로 시뮬레이션하지만, KL 전개는 직접 정현파 합으로 생성한다. \(K\) 가 클수록 진짜 브라운 운동의 거친 경로에 가까워지고, 작으면 매끄러운 근사가 된다. 이것이 KL 전개의 실용적 가치 — 차원 축소가 곧 계산 가속 이다.

3.8 가우스 확률 함수

확률 변수의 가우스성을 일반화하는 자연스러운 방법은 KL 전개를 통하는 것이다.

정의: 가우스 확률 함수

확률 함수 \(X\) 가 가우스(Gaussian) 라는 것은 KL 전개의 점수 \(\xi_j\) 가 모두 가우스 확률 변수임을 뜻한다. 동치적으로, 임의의 \(u \in L^2\) 에 대해 \(\langle X, u \rangle\) 가 가우스이다.

브라운 운동은 이 정의의 대표적 예이다. 가우스 확률 함수는 평균 함수 \(\mu\) 와 공분산 함수 \(c\) 만으로 분포가 완전히 결정되며, 함수 버전의 정규 검정·신뢰구간이 자연스럽게 정의된다 (Ch.11 상세).

4 선형 변환: 함수에서 함수로, 함수에서 스칼라로

4.1 회귀의 본질은 선형 변환

스칼라 회귀 \(y_i - \mu_Y = \beta(x_i - \mu_X) + \varepsilon_i\) 는 본질적으로 “\(x\) 를 \(\beta\) 배로 늘려 \(y\) 의 변동을 설명” 하는 선형 변환이다. 다변량 회귀 \(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\) 는 행렬 곱셈으로 일반화된다.

FDA에서는 회귀가 다양한 모양으로 등장한다:

함수 \(\to\) 스칼라: \(Y_i = \int \beta(t) X_i(t) \, dt + \varepsilon_i\) (Ch.4)
스칼라 \(\to\) 함수: \(Y_i(t) = \alpha(t) + x_i \beta(t) + \varepsilon_i(t)\) (Ch.5)
함수 \(\to\) 함수: \(Y_i(t) = \alpha(t) + \int \psi(t, s) X_i(s) \, ds + \varepsilon_i(t)\) (Ch.5)

이들은 모두 선형 변환(linear operator) 의 특수한 경우이다. Chapter 3은 후속 회귀 챕터를 위해 이 일반 개념의 골격만 제시한다.

4.2 정의

벡터 공간 \(\mathcal{V}_1, \mathcal{V}_2\) 사이의 사상 \(L: \mathcal{V}_1 \to \mathcal{V}_2\) 가 임의의 \(x, y \in \mathcal{V}_1\) 과 임의의 스칼라 \(a, b\) 에 대해

\[ L(ax + by) = a L(x) + b L(y) \]

를 만족하면 선형(linear) 이라 한다. 통계에서 흔히 “연산자(operator)” 라고도 부른다.

예: \(L((x_1, x_2)) = 2x_1 + 3x_2\) 는 선형이지만, \(G((x_1, x_2)) = x_1 x_2\) 는 비선형이다.

4.3 FDA에서 가장 흔한 두 형태

함수 공간을 도메인·치역으로 갖는 선형 변환 중 두 종류가 압도적으로 자주 쓰인다:

두 종류의 적분 연산자

함수 \(\to\) 스칼라: \[ L_1(x) = \int \psi(t) x(t) \, dt \]

함수 \(\to\) 함수: \[ L_2(x)(t) = \int \psi(t, s) x(s) \, ds \]

여기서 \(\psi\) 를 각 연산자의 핵(kernel) 이라 한다.

이 두 형태의 의미:

\(L_1\) 은 “함수에 가중치 \(\psi(t)\) 를 곱해 적분하여 하나의 숫자로 요약” 한다. 스칼라-on-함수 회귀의 코어이며, 적분 자체가 “곡선을 한 숫자로 압축” 하는 선형 작업이다.
\(L_2\) 는 “함수를 또 다른 함수로 변환” 한다. 핵 \(\psi(t, s)\) 는 “입력 \(s\) 에서 출력 \(t\) 로의 영향” 을 결정한다 — 이변량 함수가 핵심 모수가 된다.

비유: \(L_1\) 은 책 한 권의 내용을 한 줄로 요약하는 사람이고, \(L_2\) 는 책을 영화로 각색하는 감독이다. \(L_1\) 은 정보를 “압축” 하고, \(L_2\) 는 “재표현” 한다.

4.4 유한성 조건과 Hilbert-Schmidt 연산자

핵의 적분이 발산하면 연산자가 \(L^2\) 위에서 잘 정의되지 않는다. \(L_1\) 의 결과 \(L_1(x)\) 가 유한한 실수가 되려면 \(\int \psi^2(t) \, dt < \infty\) 여야 한다. \(L_2\) 가 \(L^2\) 함수를 다시 \(L^2\) 함수로 보내려면:

\[ \int\!\!\int \psi^2(t, s) \, dt \, ds < \infty. \]

이 조건을 만족하는 \(L_2\) 를 Hilbert-Schmidt 연산자 라 한다.

왜 이 조건이 필요한가: 유한차원 회귀에서는 행렬이 자동으로 유한 항을 가지므로 발산 걱정이 없다. 그러나 무한차원에서는 핵 자체가 함수이므로 “충분히 빨리 0으로 감소” 하지 않으면 적분이 폭발한다. Hilbert-Schmidt 조건은 함수 회귀의 추정량이 의미를 가지기 위한 가장 약한 자연 조건이다.

4.5 공분산 연산자: KL 전개의 통합 언어

§3.2의 공분산 함수 \(c(t, s)\) 는 사실 공분산 연산자(covariance operator) 의 핵으로 볼 수 있다:

\[ C(x)(t) = \int c(t, s) x(s) \, ds. \]

이 연산자는 함수를 함수로 보내는 \(L_2\) 형식의 적분 연산자이다. 그리고 §3.2의 고유함수 \(v_j\) 는 정확히 이 \(C\) 의 고유원소이다:

\[ C(v_j) = \lambda_j v_j. \]

이로써 KL 전개를 다음 한 줄로 정리할 수 있다:

정리: 공분산 연산자의 스펙트럼 분해

\[ C(x) = \sum_{j=1}^{\infty} \lambda_j \langle x, v_j \rangle v_j. \]

4.6 무엇이 “스펙트럼 분해” 인가

이 식은 다변량 공분산 행렬의 고유분해 \(\Sigma = \sum_j \lambda_j \mathbf{v}_j \mathbf{v}_j^T\) 의 정확한 함수 버전이다. 다변량에서는 행렬을 대각화하면 분석이 단순해진다(주축으로 회전). 함수 공간에서도 동일한 효과 — \(C\) 의 고유 방향을 사용하면 모든 변동이 직교로 분해되고, 각 방향은 독립적으로 다룰 수 있다.

유한차원	함수 공간
공분산 행렬 \(\Sigma\)	공분산 연산자 \(C\)
\(\Sigma \mathbf{v}_j = \lambda_j \mathbf{v}_j\)	\(C(v_j) = \lambda_j v_j\)
\(\Sigma = \sum_j \lambda_j \mathbf{v}_j \mathbf{v}_j^T\)	\(C(x) = \sum_j \lambda_j \langle x, v_j \rangle v_j\)
Cholesky / 고유분해	스펙트럼 분해

왜 중요한가: 후속 챕터에서 함수 회귀의 추정 방정식, 함수 시계열의 자기회귀 연산자 추정, 신뢰구간 도출 모두 이 스펙트럼 분해를 통해 명시적인 닫힌 형태로 표현된다. KL 전개는 단순한 차원 축소 도구가 아니라, 함수 공간에서 모든 추론을 대각화하는 마스터 키 이다.

5 세 절을 잇는 흐름

3.1, 3.2, 3.3을 따로 읽으면 별개의 수학적 항목들 같지만, 실제로는 한 줄기로 흐른다.

3.1 L² 공간을 무대로 정한다
    ↓ (내적·노름·기저로 기하 구조 부여)
3.2 그 무대 위에 확률 함수와 평균·공분산을 정의한다
    ↓ (공분산 함수의 고유 분해가 KL 전개)
3.3 공분산 함수를 연산자로 보면 KL = 스펙트럼 분해
    ↓
이후 챕터: 모든 함수 회귀·시계열·검정이 이 골격 위에서 전개됨

5.1 응용 분야로의 연결

분야	\(L^2\) 의 역할	공분산 연산자의 역할
의료기기 (RT-PCR 곡선)	증폭 곡선의 집합	곡선 변동 패턴 추출 (FPC)
금융 (BOA 일중 수익률)	일별 누적 수익률 곡선	일중 변동의 주방향 식별
뇌영상 (DTI FA 트랙)	뇌량 위 함수	환자군 간 이상 패턴 비교
기후 (연간 강수 곡선)	365일 강수 함수	지역별 계절 패턴 분류

이 모든 응용에서 공통 절차는 같다: 곡선을 \(L^2\) 의 원소로 본다 → 공분산 함수를 추정한다 → KL 전개로 차원을 축소한다 → 점수 \(\xi_j\) 를 회귀·분류·검정의 입력으로 사용한다.

6 다음 장 미리보기

Ch.4부터는 이 추상적 골격이 실제 데이터 분석으로 변환된다.

Ch.4 (스칼라-on-함수 회귀): \(L_1\) 적분 연산자를 활용해 곡선으로 스칼라를 예측한다. 가솔린 옥탄가, 인지 점수 예측이 등장한다.
Ch.5 (함수 반응 모형): \(L_2\) 적분 연산자로 함수를 함수로 회귀한다. 자동차 대시보드 설계의 팔 각도 예측이 사례이다.
Ch.6 (함수 GLM): 비정규 반응(이진·카운트)에 대한 선형 변환을 링크 함수로 일반화한다. DTI 데이터의 다발성 경화증 분류가 등장한다.

이후 모든 회귀 챕터에서 “기저 전개로 무한차원 모수 \(\beta(t)\) 를 표현 → 벌점화로 정칙화 → 추정량의 점근 성질 분석” 의 패턴이 반복된다. 이 패턴의 모든 구성 요소는 Chapter 3에서 정의된 언어 — \(L^2\), 내적, 공분산 연산자, KL 전개 — 위에서 전개된다.

7 관련 주제

선행 지식

후속 주제

관련 개념

확률 분포 — 유한차원 분포의 함수 일반화
PCA의 수학적 기초 — 다변량 PCA가 KL 전개의 유한차원 사례
Hilbert 공간 입문 — Ch.10의 엄밀한 전개와 연결