Kwangmin Kim - FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개

1 이 포스트의 위치와 흐름

Chapter 3 개관(./3-0-mathematical-framework.qmd)에서 FDA 추론의 무대가 \(L^2\) 공간임을 보았다. 이 포스트는 그 무대의 기하 구조(§3.1)와, 그 위에 살아 움직이는 확률 함수(§3.2)를 상세히 다룬다.

§3.1 함수의 거처 (정적 구조)
    ↓ 내적·노름·기저로 기하 부여
함수 공간 위의 거리·각도·정사영이 정의된다
    ↓
§3.2 그 무대 위의 랜덤성 (동적 구조)
    ↓ 확률 함수, 평균 함수, 공분산 함수
공분산 함수의 고유 분해 = Karhunen-Loève 전개
    ↓
KL 전개가 이후 모든 함수 추론의 골격이 된다

§3.1의 모든 개념(특히 내적과 직교성)은 §3.2의 KL 전개에서 정확하게 동일한 형태로 재등장한다. 두 절은 분리된 주제가 아니라 하나의 이야기의 두 단계 이다.

2 L² 공간의 정의

2.1 왜 “공간” 을 따져야 하는가

스칼라 통계학에서 “추정량 \(\hat{\theta}\) 가 \(\theta\) 에 가깝다” 는 단순히 \(|\hat{\theta} - \theta|\) 가 작다는 뜻이다. 다변량 통계학에서는 유클리드 거리 \(\|\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}\|\) 가 작다는 뜻이다. FDA에서도 같은 문장을 쓰려면, 두 함수의 “거리” 가 정의되어야 한다.

핵심 쟁점: 두 함수가 가깝다는 것이 무엇을 의미하는가?

가능성 1: 모든 \(t\) 에서 \(|\hat{f}(t) - f(t)|\) 가 작다 (균등 거리, \(L^\infty\))
가능성 2: \(\int |\hat{f}(t) - f(t)| \, dt\) 가 작다 ( \(L^1\) )
가능성 3: \(\int (\hat{f}(t) - f(t))^2 \, dt\) 가 작다 ( \(L^2\) )
가능성 4: 도함수까지 가깝다 (Sobolev 공간)

각 선택은 서로 다른 “가까움” 을 정의하며, 그에 따라 추정량의 일치성·분포가 달라진다. Kokoszka는 가장 자연스럽고 풍부한 구조를 가진 \(L^2\) 를 표준으로 선택한다.

2.2 왜 \(L^2\) 가 표준인가

\(L^2\) 가 압도적으로 자주 쓰이는 이유는 다음 세 가지이다:

내적이 정의된다: \(\langle f, g \rangle = \int f g \, dt\). 내적은 직교성·정사영·각도를 정의해 주는 가장 강력한 도구이다.
유한차원과의 자연스러운 일대일 대응: 합 \(\sum_j\) 가 적분 \(\int dt\) 로 바뀌면 모든 유클리드 기하 공식이 그대로 작동한다.
분산과의 직접 연결: \(E\|X - \mu\|^2 = E \int (X(t) - \mu(t))^2 \, dt\) 는 곡선의 “총 분산” 과 정확히 일치한다.

다른 공간은 모두 이 세 성질 중 일부를 잃는다. \(L^1\) 은 내적이 없고, \(L^\infty\) 는 내적이 없으며, Sobolev는 정의가 더 무겁다.

2.3 정의

표기 단순화를 위해 모든 함수가 단위 구간 \([0, 1]\) 에서 정의된다고 하자. 일반 구간은 \(u = (t - a)/(b - a)\) 로 환산하면 된다.

정의: 제곱적분 가능 함수

함수 \(f\) 가 다음을 만족하면 제곱적분 가능(square integrable) 하다고 한다:

\[ \int f^2(t) \, dt = \int_0^1 \{f(t)\}^2 \, dt < \infty. \]

모든 제곱적분 가능 함수의 집합을 \(L^2\) 또는 \(L^2[0, 1]\) 로 표기한다.

2.4 제곱적분 조건의 의미

\(\int f^2\) 가 발산하면 함수가 “너무 격렬하게” 행동한다. 예를 들어:

\(f(t) = 1/t\) 는 \(L^2[0, 1]\) 에 속하지 않는다 — \(\int_0^1 1/t^2 \, dt = \infty\).
\(f(t) = 1/\sqrt{t}\) 는 \(L^2\) 에 속한다 — \(\int_0^1 1/t \, dt\) 도 발산하나 \(\int_0^1 dt = 1 < \infty\). 잠깐, 다시: \(\int_0^1 (1/\sqrt{t})^2 \, dt = \int_0^1 1/t \, dt = \infty\) 이므로 \(L^2\) 에 속하지 않는다.
\(f(t) = t^{-1/4}\) 는 \(L^2\) 에 속한다 — \(\int_0^1 t^{-1/2} \, dt = 2 < \infty\).

비유: \(L^2\) 는 “유한한 에너지(energy)” 를 가진 신호의 집합이다. 신호처리에서 신호의 총 에너지는 \(\int |s(t)|^2 \, dt\) 로 정의되는데, 이것이 발산하면 시스템이 처리할 수 없다. \(L^2\) 는 “물리적으로 실현 가능한” 신호의 자연스러운 후보 공간이다.

2.5 \(L^2\) 의 벡터 공간 구조

\(f, g \in L^2\) 이면 \(af + bg \in L^2\) 가 성립한다. 즉 함수의 선형 결합이 다시 함수이고, 점별 정의로:

\[ (af + bg)(t) = af(t) + bg(t). \]

왜 이게 비자명한가: 두 함수가 각자 \(L^2\) 에 속한다고 해서 그 합이 \(L^2\) 에 속하는 것은 자명하지 않다. 그러나 부등식 \((f + g)^2 \leq 2(f^2 + g^2)\) 로부터 \(\int (f+g)^2 \leq 2\int f^2 + 2\int g^2 < \infty\) 가 따라 나온다. 즉 \(L^2\) 는 덧셈에 대해 닫혀 있다.

이 “닫힘성(closure)” 이 통계적으로 중요한 이유: 회귀 잔차 \(y - \hat{y}\), 차분 \(\hat{X} - X\) 가 모두 같은 공간에 머문다. 추정량과 참값이 다른 공간에 있다면 거리·분산을 정의할 수 없다.

2.6 측도론적 주의

엄밀한 의미로는 \(L^2\) 의 원소는 함수가 아니라 “거의 모든 점에서 같은 함수의 동치류(equivalence class)” 이다. 측도가 0인 집합 위에서 다른 두 함수는 동일한 \(L^2\) 원소이다. 통계적 분석에서는 이 구별이 거의 영향을 주지 않으며, 본 포스트도 이 측도론적 미묘함을 무시한다 (Kokoszka & Reimherr, 2017, Ch.3).

3 내적과 기하 구조

3.1 내적의 정의

\(L^2\) 의 핵심 자산은 내적(inner product) 의 존재이다:

\[ \langle f, g \rangle = \int f(t) g(t) \, dt. \]

이는 유한차원 점곱 \(\langle \mathbf{x}, \mathbf{y} \rangle = \sum_{j=1}^d x_j y_j\) 의 직접 연속 버전이다. 변환 규칙은 단순:

유한차원	함수 공간
합 \(\sum_{j=1}^d\)	적분 \(\int_0^1 dt\)
인덱스 \(j \in \{1, \ldots, d\}\)	인덱스 \(t \in [0, 1]\)
좌표 \(x_j\)	함수값 \(x(t)\)
\(\langle \mathbf{x}, \mathbf{y} \rangle = \sum_j x_j y_j\)	\(\langle f, g \rangle = \int f(t) g(t) \, dt\)

이 단순한 대응 덕분에, 유한차원 선형대수에서 익숙한 거의 모든 정리가 \(L^2\) 에서도 성립한다.

3.2 내적의 직관

두 벡터의 점곱 \(\mathbf{x} \cdot \mathbf{y} = \|\mathbf{x}\| \|\mathbf{y}\| \cos\theta\) 는 “두 벡터가 같은 방향으로 얼마나 함께 가는가” 를 측정한다. 두 함수의 내적도 같은 의미이다 — 다만 “같은 방향” 이 “같은 시점에 같은 부호” 로 번역된다.

구체적 사례:

\(f(t) = g(t) = \sin(2\pi t)\): \(\langle f, g \rangle = \int_0^1 \sin^2(2\pi t) \, dt = 1/2 > 0\) — 완전히 같은 방향.
\(f(t) = \sin(2\pi t)\), \(g(t) = -\sin(2\pi t)\): \(\langle f, g \rangle = -1/2 < 0\) — 완전 반대 방향.
\(f(t) = \sin(2\pi t)\), \(g(t) = \cos(2\pi t)\): \(\langle f, g \rangle = \int_0^1 \sin(2\pi t) \cos(2\pi t) \, dt = 0\) — 직교.

마지막 예의 직관: \(\sin\) 과 \(\cos\) 는 위상이 정확히 90도 차이가 나므로, 한쪽이 양수일 때 다른 쪽이 50% 확률로 양수, 50% 확률로 음수가 되어 적분이 상쇄된다. 이는 다변량에서 \(\mathbf{x} \cdot \mathbf{y} = 0\) 인 두 직교 벡터의 함수 버전이다.

3.3 노름과 거리

내적으로부터 함수의 “크기” 와 “거리” 가 자연스럽게 따라 나온다.

노름과 거리

함수 \(f\) 의 노름 (또는 길이):

\[ \|f\| = \sqrt{\langle f, f \rangle} = \left(\int f^2(t) \, dt\right)^{1/2}. \]

두 함수 \(f, g\) 사이의 거리:

\[ d(f, g) = \|f - g\| = \left(\int (f(t) - g(t))^2 \, dt\right)^{1/2}. \]

이 거리는 \(L^2\) 노름 또는 통계학에서 흔히 “평균제곱오차의 제곱근” 이라 불린다. 회귀의 RMSE를 함수로 일반화한 것이다.

왜 이 거리가 자연스러운가: 만약 우리가 추정량 \(\hat{f}\) 가 참값 \(f\) 와 가까운지 판단한다면, “모든 \(t\) 에서 좀 가깝지만 한두 점에서 크게 차이” 가 나는 경우는 별로 신경 쓰이지 않는다. 반대로 “전반적으로 차이가 작지만 시스템적으로 한쪽으로 치우침” 이 더 위험하다. \(L^2\) 거리는 후자의 문제를 정확히 포착한다 — 작은 차이의 누적이 큰 차이가 된다.

3.4 Cauchy-Schwarz 부등식

내적과 노름은 가장 중요한 부등식으로 연결된다.

정리: Cauchy-Schwarz 부등식

모든 \(f, g \in L^2\) 에 대해:

\[ \left| \int f(t) g(t) \, dt \right| = |\langle f, g \rangle| \leq \|f\| \cdot \|g\|. \]

등호는 \(f\) 와 \(g\) 가 비례할 때(평행할 때) 성립한다.

증명 스케치: 임의의 실수 \(\alpha\) 에 대해 \(\|f - \alpha g\|^2 \geq 0\) 이므로

\[ \|f\|^2 - 2\alpha \langle f, g \rangle + \alpha^2 \|g\|^2 \geq 0 \]

이 모든 \(\alpha\) 에서 성립하려면 판별식이 0 이하여야 한다:

\[ 4\langle f, g \rangle^2 - 4\|f\|^2 \|g\|^2 \leq 0 \quad \Rightarrow \quad |\langle f, g \rangle| \leq \|f\| \|g\|. \]

3.5 Cauchy-Schwarz 가 왜 중요한가

Cauchy-Schwarz는 단순한 부등식이 아니라 \(L^2\) 위의 모든 통계 공식이 발산하지 않음을 보장하는 안전망 이다. 구체적 응용:

함수 회귀의 적합값이 유한: 회귀 모형 \(Y = \int \beta(t) X(t) \, dt\) 에서 적합값이 잘 정의되려면 \(|\langle \beta, X \rangle| < \infty\) 가 필요한데, \(\beta, X \in L^2\) 이면 자동으로 성립한다.
공분산-분산 부등식: 다변량의 \(|\text{Cov}(X, Y)| \leq \sqrt{\text{Var}(X) \text{Var}(Y)}\) 의 함수 버전이다.
상관계수 정의: \(\text{Corr}(f, g) = \langle f, g \rangle / (\|f\| \|g\|)\) 가 항상 \([-1, 1]\) 에 들어간다.

비유하자면: Cauchy-Schwarz는 “두 벡터의 코사인은 항상 \([-1, 1]\) 에 있다” 라는 유클리드 사실의 함수 버전이다. 이 단순한 보장이 없다면 함수 통계학의 거의 모든 정의가 무너진다.

3.6 삼각 부등식

내적 공간에서는 삼각 부등식도 성립한다:

\[ \|f + g\| \leq \|f\| + \|g\|. \]

이는 Cauchy-Schwarz로부터 따라 나온다:

\[ \|f + g\|^2 = \|f\|^2 + 2\langle f, g \rangle + \|g\|^2 \leq \|f\|^2 + 2\|f\|\|g\| + \|g\|^2 = (\|f\| + \|g\|)^2. \]

의미: “직접 가는 길이 돌아가는 길보다 짧다” 는 자명한 사실이 함수 거리에서도 성립한다. 통계적으로는 \(\|\hat{f} - f\| \leq \|\hat{f} - \tilde{f}\| + \|\tilde{f} - f\|\) 같은 분해가 자유롭게 사용된다는 뜻이다.

4 기저와 정규직교 기저

4.1 기저의 정의

함수 \(\{e_1, e_2, e_3, \ldots\}\) 가 \(L^2\) 의 기저(basis) 라는 것은, 모든 \(f \in L^2\) 가 다음과 같이 유일하게 전개됨을 뜻한다:

\[ f(t) = \sum_{j=1}^{\infty} a_j e_j(t). \]

수렴은 \(L^2\) 노름의 의미이다 — 부분합 \(f_K = \sum_{j=1}^K a_j e_j\) 에 대해 \(\|f - f_K\| \to 0\) as \(K \to \infty\).

4.2 정규직교 기저

추가로 다음이 성립하면 정규직교 기저(orthonormal basis) 라 한다:

직교성: \(\langle e_j, e_{j'} \rangle = 0\) for \(j \neq j'\)
단위 노름: \(\|e_j\| = 1\) for all \(j\)

기저	정규직교 여부	구성
삼각함수 (Fourier)	정규직교	\(1, \sqrt{2}\cos(2\pi k t), \sqrt{2}\sin(2\pi k t)\)
Legendre 다항식	정규직교	다항식의 직교화
Haar wavelet	정규직교	단계 함수
B-spline	비정규직교	부드러운 다항식 조각
단항식 \(1, t, t^2, \ldots\)	비정규직교	다항식

4.3 정규직교 기저의 위력: 계수의 명시적 공식

비정규직교 기저로 \(f = \sum_j a_j e_j\) 를 표현할 때, 계수 \(a_j\) 를 구하려면 행렬 방정식 \(\mathbf{G} \mathbf{a} = \mathbf{b}\) ( \(\mathbf{G}_{ij} = \langle e_i, e_j \rangle\) )를 풀어야 한다.

정규직교 기저에서는 이 작업이 사라진다. 양변에 \(e_k\) 를 내적하면:

\[ \langle f, e_k \rangle = \left\langle \sum_j a_j e_j, e_k \right\rangle = \sum_j a_j \langle e_j, e_k \rangle = a_k \cdot 1 = a_k. \]

즉:

\[ a_j = \langle f, e_j \rangle = \int f(t) e_j(t) \, dt. \]

해석: 정규직교 기저에서 \(j\) 번째 좌표는 단순히 “\(f\) 와 \(e_j\) 의 내적” 이다. 이는 유한차원에서 표준 기저 \(\mathbf{e}_j\) 에 대해 \(x_j = \langle \mathbf{x}, \mathbf{e}_j \rangle\) 가 성립하는 것과 동일하다.

4.4 정사영(orthogonal projection)으로서의 절단

처음 \(K\) 개 항으로 자른 부분합 \(f_K = \sum_{j=1}^K \langle f, e_j \rangle e_j\) 는 \(K\) 차원 부분공간 \(\text{span}\{e_1, \ldots, e_K\}\) 위로의 정사영 이다. 수학적으로:

\[ f_K = \arg\min_{g \in \text{span}\{e_1, \ldots, e_K\}} \|f - g\|^2. \]

왜 이게 중요한가: \(K\) 차원 표현 중에서 \(L^2\) 거리 의미로 \(f\) 에 가장 가까운 것이 정사영이다. 이는 차원 축소의 황금률이다 — 정규직교 기저의 첫 \(K\) 항을 쓰는 것이 “최선의 \(K\) 차원 근사” 이다.

4.5 Parseval 등식

정규직교 기저에서는 다음이 성립한다.

정리: Parseval 등식

\(\{e_j\}\) 가 \(L^2\) 의 정규직교 기저이면, 모든 \(f \in L^2\) 에 대해:

\[ \int f^2(t) \, dt = \|f\|^2 = \sum_{j=1}^{\infty} \langle f, e_j \rangle^2 = \sum_{j=1}^{\infty} a_j^2. \]

이는 유한차원 피타고라스 정리 \(\|\mathbf{x}\|^2 = \sum_j x_j^2\) 의 정확한 함수 버전이다.

4.6 Parseval 등식의 직관

함수의 “총 에너지” 가 각 기저 방향의 “성분 에너지” 의 합으로 분해된다. 직교 방향들은 서로 간섭하지 않으므로, 각 방향의 기여를 단순 합산할 수 있다.

비유: 음악에서 한 곡의 총 음량은 각 악기 트랙 음량의 (제곱) 합이다 (서로 위상이 직교한다고 가정). 어떤 악기를 더 키우거나 줄여도 다른 악기에 영향을 주지 않는다.

4.7 Parseval 등식의 응용: 차원 축소의 오차 분석

Parseval 등식은 절단 오차를 정량화한다. \(f_K = \sum_{j=1}^K a_j e_j\) 로 자르면:

\[ \|f - f_K\|^2 = \sum_{j=K+1}^{\infty} a_j^2. \]

즉 절단 오차 제곱은 “버린 계수의 제곱합” 이다. 계수가 빠르게 감소하는 함수는 적은 항으로도 잘 근사된다.

이는 FPCA(함수 주성분 분석)의 핵심 원리이다 — 고유값 \(\lambda_j\) 가 빠르게 감소하면, 첫 몇 개의 주성분만으로 변동의 대부분을 설명할 수 있다.

4.8 B-spline은 왜 비정규직교인가

B-spline 기저 \(B_1, \ldots, B_M\) 은 다음 두 이유로 직교가 아니다:

국소 지지(local support): 각 \(B_m\) 은 좁은 구간에서만 0이 아니다.
인접 함수의 중첩: 인접한 \(B_m\) 과 \(B_{m+1}\) 의 지지 구간이 겹치므로 \(\langle B_m, B_{m+1} \rangle \neq 0\).

대신 B-spline은 국소성(locality) 이라는 다른 장점을 가진다. 한 점의 변화가 인접 몇 개 계수에만 영향을 주므로, 국소 패턴(끊어지는 변화, 빠른 전이)을 효율적으로 표현한다. Fourier는 매끄러운 주기 함수에는 효율적이지만 국소 변화에 약하다.

실용적 결론: 매끄러운 주기 신호 → Fourier (정규직교, 빠른 계수 감소). 국소 변동이 중요한 곡선 → B-spline (비정규직교지만 국소 표현력 우수). 정규직교 여부는 상황에 맞게 선택할 문제이지, 절대적 우열이 아니다.

4.9 R 코드: 정규직교성 검증

library(fda)

# 100개 시점
tgrid <- seq(0, 1, length.out = 100)

# Fourier 기저 (5개)
fbasis <- create.fourier.basis(c(0, 1), nbasis = 5)
F_eval <- eval.basis(tgrid, fbasis)

# B-spline 기저 (5개, order 4 = cubic)
bbasis <- create.bspline.basis(c(0, 1), nbasis = 5, norder = 4)
B_eval <- eval.basis(tgrid, bbasis)

# 그람 행렬 G_ij = <e_i, e_j> 계산 (사다리꼴 적분)
gram_matrix <- function(E_mat, tgrid) {
  dt <- diff(tgrid)
  inner <- t(E_mat) %*% diag(c(dt[1]/2, dt + c(dt[-1], 0)/2)) %*% E_mat
  inner
}

G_F <- gram_matrix(F_eval, tgrid)
G_B <- gram_matrix(B_eval, tgrid)

cat("Fourier Gram matrix (정규직교라면 단위행렬):\n")
print(round(G_F, 3))

cat("\nB-spline Gram matrix (비정규직교, 비대각 원소 존재):\n")
print(round(G_B, 3))

예상 출력: Fourier의 그람 행렬은 거의 단위행렬에 가까운 대각 행렬, B-spline의 그람 행렬은 명확한 비대각 원소(인접 기저 간 양의 내적)를 보인다. 이 비대각 원소가 B-spline 계수 추정 시 행렬 역연산을 강제하는 이유이다.

4.10 정규직교 vs 비정규직교의 통계적 함의

측면	정규직교 (Fourier)	비정규직교 (B-spline)
계수 계산	\(a_j = \langle f, e_j \rangle\) 직접	\(\mathbf{a} = \mathbf{G}^{-1} \mathbf{b}\) 행렬 역연산
절단 오차	Parseval로 명시적	추가 분석 필요
국소 표현력	약함	강함
매끄러움 통제	주파수 절단	거칠기 벌점
적용 예	기후·금융·주기 신호	성장 곡선·RT-PCR

대부분의 실제 데이터는 두 종류의 기저를 혼용한다 — Fourier로 주기 성분을, B-spline으로 국소 변동을 분리한다.

5 확률 함수: 함수 데이터의 무작위성

5.1 통계 추론의 출발점

스칼라 통계학을 짧게 복습하면: 키 표본 \(x_1, \ldots, x_N\) 을 분석할 때, 추론을 위해 이를 확률 변수 \(X_1, \ldots, X_N\) 의 실현(realization)으로 본다. 흔히 \(X_i\) 는 평균 \(\mu\), 분산 \(\sigma^2\) 의 정규 분포를 따른다고 가정한다. 추정·신뢰구간·검정은 모두 이 확률 모형 위에서 정의된다.

핵심은 “관측은 결정적이지만, 그 배경에 확률 변수가 있다” 는 관점의 전환이다. \(x_i\) 는 단순히 숫자 한 개가 아니라, “어떤 분포에서 뽑힌 한 표본” 이다.

5.2 확률 함수의 직관

FDA에서도 같은 사고가 필요하다. 54명의 성장 곡선 \(x_1, \ldots, x_{54}\) 는 이미 함수이지만, 모집단 추론을 위해 각 \(x_i\) 를 확률 함수 \(X_i\) 의 실현 으로 본다.

비유: “어떤 여성이 무작위로 선택되기 전, 그녀의 성장 곡선이 무엇이 될지는 미정이다. 선택되는 순간 한 곡선이 결정된다.” 이때 \(X_i\) 는 “선택 전” 의 확률적 객체이고, \(x_i\) 는 “선택 후” 의 결정적 곡선이다.

이 관점이 없으면 다음 문장이 의미를 잃는다:

“성장 곡선의 평균이 통계적으로 유의미하게 시간에 따라 증가한다”
“이 곡선의 95% 신뢰 밴드는 ⋯”
“두 그룹의 곡선 분포가 같다는 귀무가설을 검정한다”

이 모든 문장은 곡선을 확률 함수의 실현으로 보아야만 의미를 가진다.

5.3 형식적 정의

정의: 확률 함수

확률 공간 \((\Omega, \mathcal{F}, P)\) 가 주어졌을 때, 확률 함수(random function) \(X\) 는 \(\Omega\) 에서 \(L^2\) 로 가는 사상이다:

\[ X: \Omega \to L^2. \]

각 \(\omega \in \Omega\) 에 대해 \(X(\omega)\) 는 \(L^2\) 의 결정적 함수이고, \(X(\omega)(t)\) 는 시점 \(t\) 에서의 함수값(실수)이다.

여기서 두 종류의 변수가 등장한다:

\(\omega\): 확률 공간의 표본점 — “어떤 우연이 일어났는가”
\(t\): 함수의 정의역 — “어떤 시점을 보는가”

\(X(\omega)\) 를 고정하면 \(t\) 에 따른 곡선이 나오고, \(X(\cdot)(t)\) 를 고정하면 \(\omega\) 에 따른 시점 \(t\) 에서의 확률 변수가 나온다.

5.4 제곱적분 가능 확률 함수

모든 실현이 \(L^2\) 에 속한다는 것은:

\[ \|X(\omega)\|^2 = \int \{X(\omega)(t)\}^2 \, dt < \infty \quad \text{for all } \omega \in \Omega. \]

이는 각 곡선이 유한 에너지를 가진다는 뜻이다. 그러나 이것만으로는 통계 추론에 부족하다 — “확률 함수의 평균 에너지” 도 유한해야 한다:

\[ E\|X\|^2 = E \int X^2(t) \, dt = \int E X^2(t) \, dt < \infty. \]

이 조건을 만족하는 확률 함수를 제곱적분 가능 확률 함수 라 한다.

두 가지 “제곱적분” 의 구분

종류	적분 영역	의미
결정적 함수의 제곱적분	시간 \(t\)	한 곡선의 에너지
확률 함수의 제곱적분	확률 공간 \(\Omega\)	곡선의 평균 에너지 (= 분산 + 평균²)

후자는 스칼라 분포의 “유한 분산 가정 \(E X^2 < \infty\)” 의 함수 버전이다.

5.5 Fubini 정리에 의한 적분 교환

위 식에서 \(E\) 와 \(\int\) 의 교환이 자유롭게 일어난 이유는 Fubini 정리 덕분이다. \(X^2(\omega, t) \geq 0\) 이므로, 누적 측도가 유한하면 어느 순서로 적분해도 같은 값이 나온다. 이는 “곡선별로 평균을 낸 후 시점별 적분” 과 “시점별로 평균을 낸 후 시간 적분” 이 같다는 뜻이다.

5.6 모평균 함수와 모공분산 함수

이제 표본 통계량의 모집단 모수를 정의할 수 있다.

정의: 모평균 함수와 모공분산 함수

\[ \mu(t) = E X(t), \]

\[ c(t, s) = E[(X(t) - \mu(t))(X(s) - \mu(s))]. \]

\(\mu(t)\) 는 시점 \(t\) 에서의 곡선 값들의 (확률적) 평균이고, \(c(t, s)\) 는 시점 \(t\) 와 \(s\) 에서의 곡선 값들의 공변이다.

5.7 다변량과의 일대일 대응

다변량 통계	FDA
평균 벡터 \(\boldsymbol{\mu}_j = E X_j\)	평균 함수 \(\mu(t) = E X(t)\)
공분산 행렬 \(\Sigma_{ij} = \text{Cov}(X_i, X_j)\)	공분산 함수 \(c(t, s) = \text{Cov}(X(t), X(s))\)
인덱스 \(j \in \{1, \ldots, d\}\) (이산)	인덱스 \(t \in [0, 1]\) (연속)
행렬 (유한 \(\times\) 유한)	이변량 함수 (연속 \(\times\) 연속)

5.8 공분산 함수의 성질

\(c(t, s)\) 는 다음 성질을 가진다:

대칭성: \(c(t, s) = c(s, t)\) (정의에서 자명).
양정치성(positive semidefinite): 임의의 함수 \(\phi\) 에 대해 \(\int\!\int c(t, s) \phi(t) \phi(s) \, dt \, ds \geq 0\).
대각선이 분산: \(c(t, t) = \text{Var}(X(t)) \geq 0\).

이는 다변량 공분산 행렬의 성질을 그대로 복사한 것이다. 양정치성은 \(X(t)\) 의 어떤 선형 결합도 음의 분산을 가질 수 없다는 뜻이며, 이로부터 공분산 함수의 고유값이 모두 비음이라는 사실이 따라 나온다.

5.9 표본 통계량 vs 모집단 모수

Chapter 1에서 본 표본 통계량과 모집단 모수의 관계를 명확히 한다:

모집단 모수	표본 추정량
\(\mu(t) = E X(t)\)	\(\widehat{\mu}(t) = N^{-1} \sum_i x_i(t)\)
\(c(t, s) = E[(X(t)-\mu(t))(X(s)-\mu(s))]\)	\(\widehat{c}(t, s) = N^{-1} \sum_i (x_i(t) - \widehat{\mu}(t))(x_i(s) - \widehat{\mu}(s))\)

이후 챕터(Ch.12)에서 표본 추정량이 모집단 모수에 일치(consistent)하고 점근적으로 정규임을 증명한다. 그 모든 증명의 출발점은 위의 모수 정의이다.

6 Karhunen-Loève 전개

6.1 정리의 진술

이제 FDA의 가장 중요한 정리에 도달한다.

정리: Karhunen-Loève 전개

제곱적분 가능 확률 함수 \(X\) 는 다음과 같이 전개된다:

\[ X(t) = \mu(t) + \sum_{j=1}^{\infty} \xi_j v_j(t). \]

여기서:

\(v_j\) 는 공분산 함수 \(c\) 의 고유함수(eigenfunctions): \(\int c(t, s) v_j(s) \, ds = \lambda_j v_j(t)\).
\(\lambda_j\) 는 고유값(eigenvalues): \(\lambda_1 \geq \lambda_2 \geq \cdots \geq 0\).
\(\xi_j\) 는 점수(scores): \(\xi_j = \langle X - \mu, v_j \rangle = \int (X(t) - \mu(t)) v_j(t) \, dt\).

수렴은 \(L^2\) 의미이다 (\(E \|X - \mu - \sum_{j=1}^K \xi_j v_j\|^2 \to 0\) as \(K \to \infty\)).

6.2 점수의 핵심 성질

\(\xi_j\) 는 단순한 보조 변수가 아니라, 분포 정보 전체를 담은 확률 변수이다.

점수 성질

평균 0: \(E \xi_j = 0\).
분산 = 고유값: \(E \xi_j^2 = \lambda_j\).
상호 비상관: \(\text{Cov}(\xi_j, \xi_k) = 0\) for \(j \neq k\).

증명 스케치:

평균 0: \(E \xi_j = E \int (X(t) - \mu(t)) v_j(t) \, dt = \int E[X(t) - \mu(t)] v_j(t) \, dt = 0\) (Fubini + \(E X = \mu\)).

분산 = \(\lambda_j\):

\[ \begin{aligned} E \xi_j^2 &= E \int\!\int (X(t) - \mu(t))(X(s) - \mu(s)) v_j(t) v_j(s) \, dt \, ds \\ &= \int\!\int c(t, s) v_j(t) v_j(s) \, dt \, ds \\ &= \int v_j(t) \left[\int c(t, s) v_j(s) \, ds\right] dt \\ &= \int v_j(t) \cdot \lambda_j v_j(t) \, dt = \lambda_j \|v_j\|^2 = \lambda_j. \end{aligned} \]

마지막 등식은 \(\|v_j\| = 1\) (정규화)을 사용했다.

비상관성: 비슷한 계산으로 \(\text{Cov}(\xi_j, \xi_k) = \lambda_k \langle v_j, v_k \rangle = 0\) ( \(j \neq k\) ).

6.3 분산 분해

위 성질로부터:

\[ E \|X - \mu\|^2 = E \int (X(t) - \mu(t))^2 \, dt = \sum_{j=1}^{\infty} \lambda_j. \]

증명 스케치: \(X - \mu = \sum_j \xi_j v_j\) 와 Parseval 등식으로:

\[ \|X - \mu\|^2 = \sum_j \xi_j^2. \]

양변에 기댓값:

\[ E \|X - \mu\|^2 = \sum_j E \xi_j^2 = \sum_j \lambda_j. \]

6.4 KL 전개의 의미: 분산 분해

이 식의 해석: 곡선의 총 분산이 \(\sum_j \lambda_j\) 이고, 각 \(\lambda_j\) 는 \(j\) 번째 주방향 \(v_j\) 의 변동 크기이다.

다변량 PCA	FPCA (KL)
\(\Sigma = \sum_j \lambda_j \mathbf{v}_j \mathbf{v}_j^T\)	\(C(x) = \sum_j \lambda_j \langle x, v_j \rangle v_j\)
\(\text{tr}(\Sigma) = \sum_j \lambda_j\)	\(E\\|X-\mu\\|^2 = \sum_j \lambda_j\)
누적 분산비 \(\sum_{k=1}^K \lambda_k / \sum_j \lambda_j\)	동일
점수 \(\xi_j = \mathbf{v}_j^T (\mathbf{X} - \boldsymbol{\mu})\)	점수 \(\xi_j = \langle X - \mu, v_j \rangle\)

6.5 KL 전개를 어떻게 읽는가

세 구성 요소를 한 번 더 정리한다.

\(\mu(t)\): 곡선군의 “중심” — 평균적 모양. 이를 빼면 변동만 남는다.
\(v_j(t)\): 변동의 “주방향” — “곡선이 평균에서 벗어나는 가장 흔한 방식”.
\(\xi_j\): 개체별 “그 방향으로 얼마나 갔는가” — 무작위 변동의 좌표.
\(\lambda_j\): 그 방향의 변동 크기. 큰 \(\lambda\) 일수록 데이터에 더 자주 등장하는 변동 패턴.

악기 합주 비유:

\(\mu(t)\) — 모든 연주에 공통인 베이스 멜로디.
\(v_j(t)\) — 각 악기 트랙의 음색(timbre): 바이올린 트랙, 비올라 트랙, ⋯
\(\xi_j\) — 이번 연주에서 그 악기가 얼마나 크게 들렸는지의 볼륨.
\(\lambda_j\) — 평균적으로 그 악기가 얼마나 큰 비중을 차지하는지.

어떤 곡(곡선)이든 \(\mu\) 위에 무수한 악기(주성분)의 가중합으로 표현된다. 가장 큰 \(\lambda_j\) 를 가진 악기 몇 개만 들어도 곡의 정체성은 충분히 드러난다. 이것이 차원 축소의 본질이다.

6.6 차원 축소의 최적성

KL 전개는 단순한 표현이 아니라 최적 표현 이다.

정리: KL 전개의 최적성

평균 \(\mu\) 가 알려졌을 때, \(K\) 차원 표현 \(X(t) \approx \mu(t) + \sum_{j=1}^K \alpha_j(X) \phi_j(t)\) 중에서 평균제곱오차

\[ E \left\| X - \mu - \sum_{j=1}^K \alpha_j(X) \phi_j \right\|^2 \]

를 최소화하는 정규직교 함수 \(\{\phi_j\}\) 와 점수 \(\{\alpha_j\}\) 는 정확히 KL 전개의 첫 \(K\) 항이다.

해석: “공분산의 고유함수보다 더 좋은 \(K\) 차원 기저는 없다.” 이는 다변량 PCA가 분산을 가장 많이 설명하는 직교 방향을 준다는 사실의 함수 버전이다.

6.7 누적 분산 설명률

실무에서는 다음 비율을 사용한다:

\[ \text{CPV}(K) = \frac{\sum_{j=1}^{K} \lambda_j}{\sum_{j=1}^{\infty} \lambda_j}. \]

CPV(누적 분산 비율, Cumulative Proportion of Variance)가 85% 또는 90%를 처음 넘는 \(K\) 를 선택하는 것이 일반적이다 (Kokoszka & Reimherr, 2017, Ch.12). 다른 방법으로는 스크리 도표(scree plot)에서 고유값의 급감 지점을 찾는 시각적 판단이 있다.

7 예: 브라운 운동의 명시적 KL 전개

7.1 브라운 운동의 정의

이론을 가장 명확히 보는 방법은 닫힌 형태의 예를 보는 것이다. 단위 구간 \([0, 1]\) 위의 브라운 운동(Brownian motion) 또는 Wiener 과정 \(W = \{W(t), t \in [0, 1]\}\) 는 다음 성질을 가진 가우스 확률 함수이다:

\(W(0) = 0\).
독립 증분: \(W(t_2) - W(t_1)\) 와 \(W(t_4) - W(t_3)\) 가 \(0 \leq t_1 < t_2 \leq t_3 < t_4\) 일 때 독립.
정규 증분: \(W(t) - W(s) \sim N(0, t - s)\) for \(s < t\).
연속 경로 (a.s.).

평균과 공분산:

\[ \mu(t) = E W(t) = 0, \]

\[ c(t, s) = \text{Cov}(W(t), W(s)) = \min(t, s). \]

7.2 공분산 \(\min(t, s)\) 의 직관

두 시점 \(t < s\) 에서 \(W(t)\) 와 \(W(s)\) 의 공변은 정확히 \(t\) 이다. 왜?

\[ W(s) = W(t) + [W(s) - W(t)] \]

이고, \(W(t)\) 와 \(W(s) - W(t)\) 가 독립이며 \(W(t) \sim N(0, t)\) 이므로:

\[ \text{Cov}(W(t), W(s)) = \text{Cov}(W(t), W(t)) + \text{Cov}(W(t), W(s) - W(t)) = t + 0 = t = \min(t, s). \]

비유: “지금까지 함께 걸어온 시간이 길수록 두 시점의 위치가 비슷하다.” 시점 \(s\) 의 위치는 \(t\) 까지의 위치에 그 후의 독립 증분이 더해진 것이다.

7.3 KL 전개의 닫힌 형태

공분산 \(c(t, s) = \min(t, s)\) 의 고유 방정식:

\[ \int_0^1 \min(t, s) v(s) \, ds = \lambda v(t). \]

이 적분 방정식은 닫힌 형태로 풀린다 (적분을 두 구간으로 분리한 후 미분하면 ODE \(-v''(t) = \lambda^{-1} v(t)\) + 경계 조건 \(v(0) = 0, v'(1) = 0\) 의 Sturm-Liouville 문제). 해:

\[ \lambda_j = \frac{1}{(j - 1/2)^2 \pi^2}, \quad v_j(t) = \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \quad j = 1, 2, \ldots \]

따라서 KL 전개:

\[ W(t) = \sum_{j=1}^{\infty} \xi_j \cdot \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \]

여기서 \(\xi_j \sim N(0, \lambda_j)\) 가 독립이다. 표준화하여:

\[ W(t) = \sum_{j=1}^{\infty} \frac{Z_j}{(j - 1/2) \pi} \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \]

여기서 \(Z_j\) 는 i.i.d. \(N(0, 1)\) (Kokoszka & Reimherr, 2017, Example 3.2.1).

7.4 분산 분해의 검증

이 결과로부터 분산 분해 식을 검증할 수 있다:

\[ E \int_0^1 W^2(t) \, dt = \int_0^1 E[W^2(t)] \, dt = \int_0^1 t \, dt = \frac{1}{2}. \]

KL 전개로부터:

\[ \sum_{j=1}^{\infty} \lambda_j = \sum_{j=1}^{\infty} \frac{1}{(j - 1/2)^2 \pi^2} = \frac{1}{\pi^2} \cdot \frac{\pi^2}{2} = \frac{1}{2}. \]

(두 번째 등식은 \(\sum_{j=1}^{\infty} 1/(j - 1/2)^2 = \pi^2/2\) 라는 알려진 합)

두 결과가 일치한다 — KL 전개의 분산 분해가 정확히 들어맞음을 보여준다.

7.5 브라운 운동의 차원 축소 가능성

고유값이 \(j^{-2}\) 속도로 감소하므로 차원 축소가 효과적이다:

\(K\)	누적 분산 설명률 (CPV)
1	81%
2	90%
5	96%
10	98%
20	99%

직관: 처음 한두 개의 정현파가 브라운 운동 변동의 대부분을 설명한다. 이는 브라운 운동의 거친 경로가 저주파 성분의 저노이즈 혼합 으로 잘 근사됨을 의미한다.

7.6 R 코드: KL 전개로 브라운 운동 시뮬레이션

set.seed(42)

# 차원 K 와 표본 수 N
K <- 50
N <- 5
tgrid <- seq(0, 1, length.out = 500)

# 고유값과 고유함수
j_vec <- seq_len(K)
lambda <- 1 / ((j_vec - 0.5)^2 * pi^2)
V <- sapply(j_vec, function(j) sqrt(2) * sin((j - 0.5) * pi * tgrid))
# V 는 500 x K 행렬: 각 열이 v_j(t)

# 점수 생성: xi_j ~ N(0, lambda_j) 독립
Z <- matrix(rnorm(K * N), nrow = K, ncol = N)
xi <- sweep(Z, 1, sqrt(lambda), `*`)

# 곡선 재구성: W(t) = sum_j xi_j v_j(t)
W <- V %*% xi   # 500 x N

# 시각화: KL 절단
matplot(tgrid, W, type = "l", lty = 1, col = 1:N,
        xlab = "t", ylab = "W(t)",
        main = paste0("Brownian motion via KL truncation (K=", K, ")"))
abline(h = 0, lty = 2, col = "grey")

# 비교: 누적 random walk 시뮬레이션
W_rw <- matrix(0, nrow = 500, ncol = N)
for (i in seq_len(N)) {
  inc <- rnorm(499, mean = 0, sd = sqrt(diff(tgrid)[1]))
  W_rw[, i] <- c(0, cumsum(inc))
}

matplot(tgrid, W_rw, type = "l", lty = 1, col = 1:N,
        xlab = "t", ylab = "W(t)",
        main = "Brownian motion via random walk")

핵심 관찰:

KL 절단(K=50)으로 생성한 곡선은 매끄럽지만 거시적 모양이 진짜 브라운 운동과 유사하다.
누적 random walk는 “톱니 모양” 의 거친 경로를 보인다 — 이것이 진짜 브라운 운동의 모습이다 (a.s. 비미분).
\(K\) 가 작을수록 KL 근사가 매끄러워지고, \(K \to \infty\) 에서 진짜 브라운 운동에 수렴.

7.7 시뮬레이션 방법의 비교

방법	매끄러움	계산 비용	비고
누적 random walk	거침 (실제 W와 유사)	\(O(N)\)	미분 불가능 경로 재현
KL 절단 (K 항)	매끄러움 (절단 인공물)	\(O(NK)\)	미분 가능 근사
정확한 KL (K → ∞)	거친 진짜 W	무한	이론적 한계

실용적 함의: 브라운 운동을 시각적으로 재현해야 한다면 random walk가 자연스럽다. 그러나 미분 가능한 매끄러운 근사가 필요하면(예: 함수 회귀 시뮬레이션) KL 절단이 적합하다. 둘은 같은 확률 함수의 다른 표현이지만, 응용에 따라 선택이 달라진다.

8 가우스 확률 함수

8.1 정의

KL 전개를 통해 가우스 확률 함수의 자연스러운 정의를 얻는다.

정의: 가우스 확률 함수

확률 함수 \(X\) 의 KL 전개 \(X(t) = \mu(t) + \sum_j \xi_j v_j(t)\) 의 점수 \(\xi_j\) 가 모두 가우스 확률 변수이면 \(X\) 를 가우스 확률 함수(Gaussian random function) 라 한다.

8.2 동치 정의

가우스 확률 함수에 대한 동치 정의가 있다.

\[ X \text{는 가우스} \iff \forall u \in L^2, \; \langle X, u \rangle \text{는 가우스 확률 변수}. \]

즉 “어떤 방향으로 사영해도 가우스” 라는 성질이다. 이는 다변량 가우스 분포의 정의 — “임의의 선형 결합이 정규” — 의 직접 일반화이다.

8.3 동치 증명 스케치

\((\Rightarrow)\) KL 전개 \(X = \mu + \sum_j \xi_j v_j\) 와 임의의 \(u\) 에 대해:

\[ \langle X, u \rangle = \langle \mu, u \rangle + \sum_j \xi_j \langle v_j, u \rangle. \]

\(\xi_j\) 가 독립 가우스이고 \(\langle v_j, u \rangle\) 는 결정적 상수이므로, 합이 가우스이다. (수렴은 \(L^2\) 의미로 보장됨)

\((\Leftarrow)\) \(u = v_j\) 로 놓으면 \(\langle X, v_j \rangle = \mu_j + \xi_j\) 가 가우스, 따라서 \(\xi_j\) 도 가우스.

8.4 가우스 확률 함수의 분포 결정

가우스 확률 함수는 \(\mu\) 와 \(c\) 만으로 분포가 완전히 결정된다. 이는 다변량 가우스가 평균 벡터와 공분산 행렬만으로 결정되는 것과 동일한 성질이다.

의미: 가우스 가정을 두면 추정 문제가 단순해진다 — 평균 함수와 공분산 함수만 추정하면 모든 추론이 가능하다. 이는 함수 회귀, 함수 ANOVA, 신뢰 밴드 구축에서 널리 사용되는 가정이다.

8.5 가우스 vs 비가우스: 통계적 함의

가정	추론 도구	응용 사례
가우스	\(t\)-검정·F-검정의 함수 버전	정규 잡음 환경 (신호처리, 일부 생체 신호)
비가우스	bootstrap, permutation	금융 수익률 (heavy tail), 카운트 데이터

브라운 운동은 가우스이고, 자기회귀 함수 시계열의 잔차도 흔히 가우스로 가정된다. 그러나 모든 실제 데이터가 가우스인 것은 아니다 — 금융 수익률 곡선은 heavy tail이 명백하므로, 가우스 가정 없이 bootstrap 기반 추론이 더 적절하다.

9 응용 분야로의 연결

9.1 KL 전개가 어떻게 쓰이는가

이론을 마무리하고 실제 분야에서 KL 전개가 어떻게 사용되는지 정리한다.

분야	\(\mu(t)\)	\(v_j(t)\) 의 의미	\(\xi_j\) 의 의미
RT-PCR 증폭 곡선	평균적 증폭 패턴	변동의 주방향 (예: 전반적 증폭 수준 / 증폭 속도)	개별 샘플의 특성 점수
금융 일중 수익률	평균 일별 수익률 곡선	변동성 패턴 (예: 개장 직후 변동 / 폐장 전 변동)	그 날의 시장 특성
뇌영상 (DTI FA)	뇌량 평균 FA 곡선	환자군 변동 패턴	개별 환자의 특이성
기후 연간 강수	평균 강수 패턴	지역별 변동 패턴 (예: 우기 시점 차이)	그 해/그 지역의 특성
성장 곡선	평균 성장 패턴	사춘기 패턴, 최종 키	개별 아동의 특성

이 모든 응용에서 절차는 동일하다:

곡선을 \(L^2\) 의 원소로 본다.
표본에서 \(\widehat{\mu}, \widehat{c}\) 를 추정한다.
\(\widehat{c}\) 의 고유 분해로 \(\widehat{v}_j, \widehat{\lambda}_j\) 를 얻는다.
점수 \(\widehat{\xi}_j = \langle x_i - \widehat{\mu}, \widehat{v}_j \rangle\) 를 계산한다.
이 점수를 회귀·분류·검정의 입력으로 사용한다.

9.2 차원 축소의 실용성

대부분의 실제 데이터에서 첫 \(K = 2 \sim 5\) 개의 주성분이 변동의 80~95%를 설명한다. 이는 KL 전개의 가장 강력한 실용적 가치이다.

예: RT-PCR 증폭 곡선 1000개를 분석할 때, 각 곡선이 45개 사이클에서 측정된다면 원본 데이터는 \(1000 \times 45\). KL 절단 \(K = 3\) 이면 \(1000 \times 3\) 으로 축소되며, 이 3개의 점수만으로 정상/비정상 분류, 회귀, 시각화가 가능하다.

이는 단순한 차원 축소를 넘어 해석 가능한 차원 축소 이다. 점수 \(\xi_1\) 이 “전반적 증폭 강도”, \(\xi_2\) 가 “증폭 속도” 같은 물리적 의미를 갖는 경우가 많기 때문이다.

10 정리

이 포스트는 Kokoszka Ch.3의 §3.1과 §3.2를 다음 두 단계로 통합했다.

§3.1: 함수의 거처 (\(L^2\) 공간)

제곱적분 가능 함수의 집합 \(L^2\) 가 함수 추론의 자연스러운 무대.
내적 \(\langle f, g \rangle = \int f g \, dt\) 가 직교성·노름·거리·각도를 정의.
Cauchy-Schwarz 부등식이 모든 \(L^2\) 공식의 발산 방지 보장.
정규직교 기저(Fourier)는 계수 계산이 단순, 비정규직교 기저(B-spline)는 국소성 우수.
Parseval 등식이 함수의 총 에너지를 직교 방향 성분의 합으로 분해.

§3.2: 무대 위의 무작위성 (확률 함수와 KL 전개)

확률 함수는 \(\Omega \to L^2\) 의 사상; 곡선의 무작위성을 모형화.
모평균 함수 \(\mu(t)\) 와 모공분산 함수 \(c(t, s)\) 가 핵심 모수.
KL 전개 \(X = \mu + \sum_j \xi_j v_j\) 가 곡선을 평균 + 직교 변동 성분으로 분해.
점수 \(\xi_j\) 는 평균 0, 분산 \(\lambda_j\), 상호 비상관.
분산 분해 \(E \|X - \mu\|^2 = \sum_j \lambda_j\).
브라운 운동의 닫힌 형태 KL 전개가 이론을 구체적으로 보여줌.
가우스 확률 함수는 \(\mu\) 와 \(c\) 만으로 분포 완전 결정.

이 두 절은 분리된 주제가 아니라 하나의 연속된 이야기이다. \(L^2\) 의 정규직교 기저 개념이 KL 전개의 고유함수로 직접 일반화되며, Parseval 등식이 KL 전개의 분산 분해로 그대로 등장한다. 다음 포스트에서 §3.3 (선형 변환과 공분산 연산자)을 통해 이 흐름이 어떻게 후속 회귀·시계열 챕터로 이어지는지 살펴본다.

11 관련 주제

선행 지식

후속 주제

관련 개념

확률 분포 — 유한차원 분포의 함수 일반화
PCA의 수학적 기초 — 다변량 PCA가 KL 전개의 유한차원 사례
Hilbert 공간 입문 — Ch.10의 엄밀한 전개와 연결
정규직교 기저와 Fourier 급수 — 정규직교성의 일반론