1 이 포스트의 위치와 흐름
Chapter 3 개관(./3-0-mathematical-framework.qmd)에서 FDA 추론의 무대가 \(L^2\) 공간임을 보았다. 이 포스트는 그 무대의 기하 구조(§3.1)와, 그 위에 살아 움직이는 확률 함수(§3.2)를 상세히 다룬다.
§3.1 함수의 거처 (정적 구조)
↓ 내적·노름·기저로 기하 부여
함수 공간 위의 거리·각도·정사영이 정의된다
↓
§3.2 그 무대 위의 랜덤성 (동적 구조)
↓ 확률 함수, 평균 함수, 공분산 함수
공분산 함수의 고유 분해 = Karhunen-Loève 전개
↓
KL 전개가 이후 모든 함수 추론의 골격이 된다
§3.1의 모든 개념(특히 내적과 직교성)은 §3.2의 KL 전개에서 정확하게 동일한 형태로 재등장한다. 두 절은 분리된 주제가 아니라 하나의 이야기의 두 단계 이다.
2 L² 공간의 정의
2.1 왜 “공간” 을 따져야 하는가
스칼라 통계학에서 “추정량 \(\hat{\theta}\) 가 \(\theta\) 에 가깝다” 는 단순히 \(|\hat{\theta} - \theta|\) 가 작다는 뜻이다. 다변량 통계학에서는 유클리드 거리 \(\|\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}\|\) 가 작다는 뜻이다. FDA에서도 같은 문장을 쓰려면, 두 함수의 “거리” 가 정의되어야 한다.
핵심 쟁점: 두 함수가 가깝다는 것이 무엇을 의미하는가?
- 가능성 1: 모든 \(t\) 에서 \(|\hat{f}(t) - f(t)|\) 가 작다 (균등 거리, \(L^\infty\))
- 가능성 2: \(\int |\hat{f}(t) - f(t)| \, dt\) 가 작다 ( \(L^1\) )
- 가능성 3: \(\int (\hat{f}(t) - f(t))^2 \, dt\) 가 작다 ( \(L^2\) )
- 가능성 4: 도함수까지 가깝다 (Sobolev 공간)
각 선택은 서로 다른 “가까움” 을 정의하며, 그에 따라 추정량의 일치성·분포가 달라진다. Kokoszka는 가장 자연스럽고 풍부한 구조를 가진 \(L^2\) 를 표준으로 선택한다.
2.2 왜 \(L^2\) 가 표준인가
\(L^2\) 가 압도적으로 자주 쓰이는 이유는 다음 세 가지이다:
- 내적이 정의된다: \(\langle f, g \rangle = \int f g \, dt\). 내적은 직교성·정사영·각도를 정의해 주는 가장 강력한 도구이다.
- 유한차원과의 자연스러운 일대일 대응: 합 \(\sum_j\) 가 적분 \(\int dt\) 로 바뀌면 모든 유클리드 기하 공식이 그대로 작동한다.
- 분산과의 직접 연결: \(E\|X - \mu\|^2 = E \int (X(t) - \mu(t))^2 \, dt\) 는 곡선의 “총 분산” 과 정확히 일치한다.
다른 공간은 모두 이 세 성질 중 일부를 잃는다. \(L^1\) 은 내적이 없고, \(L^\infty\) 는 내적이 없으며, Sobolev는 정의가 더 무겁다.
2.3 정의
표기 단순화를 위해 모든 함수가 단위 구간 \([0, 1]\) 에서 정의된다고 하자. 일반 구간은 \(u = (t - a)/(b - a)\) 로 환산하면 된다.
함수 \(f\) 가 다음을 만족하면 제곱적분 가능(square integrable) 하다고 한다:
\[ \int f^2(t) \, dt = \int_0^1 \{f(t)\}^2 \, dt < \infty. \]
모든 제곱적분 가능 함수의 집합을 \(L^2\) 또는 \(L^2[0, 1]\) 로 표기한다.
2.4 제곱적분 조건의 의미
\(\int f^2\) 가 발산하면 함수가 “너무 격렬하게” 행동한다. 예를 들어:
- \(f(t) = 1/t\) 는 \(L^2[0, 1]\) 에 속하지 않는다 — \(\int_0^1 1/t^2 \, dt = \infty\).
- \(f(t) = 1/\sqrt{t}\) 는 \(L^2\) 에 속한다 — \(\int_0^1 1/t \, dt\) 도 발산하나 \(\int_0^1 dt = 1 < \infty\). 잠깐, 다시: \(\int_0^1 (1/\sqrt{t})^2 \, dt = \int_0^1 1/t \, dt = \infty\) 이므로 \(L^2\) 에 속하지 않는다.
- \(f(t) = t^{-1/4}\) 는 \(L^2\) 에 속한다 — \(\int_0^1 t^{-1/2} \, dt = 2 < \infty\).
비유: \(L^2\) 는 “유한한 에너지(energy)” 를 가진 신호의 집합이다. 신호처리에서 신호의 총 에너지는 \(\int |s(t)|^2 \, dt\) 로 정의되는데, 이것이 발산하면 시스템이 처리할 수 없다. \(L^2\) 는 “물리적으로 실현 가능한” 신호의 자연스러운 후보 공간이다.
2.5 \(L^2\) 의 벡터 공간 구조
\(f, g \in L^2\) 이면 \(af + bg \in L^2\) 가 성립한다. 즉 함수의 선형 결합이 다시 함수이고, 점별 정의로:
\[ (af + bg)(t) = af(t) + bg(t). \]
왜 이게 비자명한가: 두 함수가 각자 \(L^2\) 에 속한다고 해서 그 합이 \(L^2\) 에 속하는 것은 자명하지 않다. 그러나 부등식 \((f + g)^2 \leq 2(f^2 + g^2)\) 로부터 \(\int (f+g)^2 \leq 2\int f^2 + 2\int g^2 < \infty\) 가 따라 나온다. 즉 \(L^2\) 는 덧셈에 대해 닫혀 있다.
이 “닫힘성(closure)” 이 통계적으로 중요한 이유: 회귀 잔차 \(y - \hat{y}\), 차분 \(\hat{X} - X\) 가 모두 같은 공간에 머문다. 추정량과 참값이 다른 공간에 있다면 거리·분산을 정의할 수 없다.
2.6 측도론적 주의
엄밀한 의미로는 \(L^2\) 의 원소는 함수가 아니라 “거의 모든 점에서 같은 함수의 동치류(equivalence class)” 이다. 측도가 0인 집합 위에서 다른 두 함수는 동일한 \(L^2\) 원소이다. 통계적 분석에서는 이 구별이 거의 영향을 주지 않으며, 본 포스트도 이 측도론적 미묘함을 무시한다 (Kokoszka & Reimherr, 2017, Ch.3).
3 내적과 기하 구조
3.1 내적의 정의
\(L^2\) 의 핵심 자산은 내적(inner product) 의 존재이다:
\[ \langle f, g \rangle = \int f(t) g(t) \, dt. \]
이는 유한차원 점곱 \(\langle \mathbf{x}, \mathbf{y} \rangle = \sum_{j=1}^d x_j y_j\) 의 직접 연속 버전이다. 변환 규칙은 단순:
| 유한차원 | 함수 공간 |
|---|---|
| 합 \(\sum_{j=1}^d\) | 적분 \(\int_0^1 dt\) |
| 인덱스 \(j \in \{1, \ldots, d\}\) | 인덱스 \(t \in [0, 1]\) |
| 좌표 \(x_j\) | 함수값 \(x(t)\) |
| \(\langle \mathbf{x}, \mathbf{y} \rangle = \sum_j x_j y_j\) | \(\langle f, g \rangle = \int f(t) g(t) \, dt\) |
이 단순한 대응 덕분에, 유한차원 선형대수에서 익숙한 거의 모든 정리가 \(L^2\) 에서도 성립한다.
3.2 내적의 직관
두 벡터의 점곱 \(\mathbf{x} \cdot \mathbf{y} = \|\mathbf{x}\| \|\mathbf{y}\| \cos\theta\) 는 “두 벡터가 같은 방향으로 얼마나 함께 가는가” 를 측정한다. 두 함수의 내적도 같은 의미이다 — 다만 “같은 방향” 이 “같은 시점에 같은 부호” 로 번역된다.
구체적 사례:
- \(f(t) = g(t) = \sin(2\pi t)\): \(\langle f, g \rangle = \int_0^1 \sin^2(2\pi t) \, dt = 1/2 > 0\) — 완전히 같은 방향.
- \(f(t) = \sin(2\pi t)\), \(g(t) = -\sin(2\pi t)\): \(\langle f, g \rangle = -1/2 < 0\) — 완전 반대 방향.
- \(f(t) = \sin(2\pi t)\), \(g(t) = \cos(2\pi t)\): \(\langle f, g \rangle = \int_0^1 \sin(2\pi t) \cos(2\pi t) \, dt = 0\) — 직교.
마지막 예의 직관: \(\sin\) 과 \(\cos\) 는 위상이 정확히 90도 차이가 나므로, 한쪽이 양수일 때 다른 쪽이 50% 확률로 양수, 50% 확률로 음수가 되어 적분이 상쇄된다. 이는 다변량에서 \(\mathbf{x} \cdot \mathbf{y} = 0\) 인 두 직교 벡터의 함수 버전이다.
3.3 노름과 거리
내적으로부터 함수의 “크기” 와 “거리” 가 자연스럽게 따라 나온다.
함수 \(f\) 의 노름 (또는 길이):
\[ \|f\| = \sqrt{\langle f, f \rangle} = \left(\int f^2(t) \, dt\right)^{1/2}. \]
두 함수 \(f, g\) 사이의 거리:
\[ d(f, g) = \|f - g\| = \left(\int (f(t) - g(t))^2 \, dt\right)^{1/2}. \]
이 거리는 \(L^2\) 노름 또는 통계학에서 흔히 “평균제곱오차의 제곱근” 이라 불린다. 회귀의 RMSE를 함수로 일반화한 것이다.
왜 이 거리가 자연스러운가: 만약 우리가 추정량 \(\hat{f}\) 가 참값 \(f\) 와 가까운지 판단한다면, “모든 \(t\) 에서 좀 가깝지만 한두 점에서 크게 차이” 가 나는 경우는 별로 신경 쓰이지 않는다. 반대로 “전반적으로 차이가 작지만 시스템적으로 한쪽으로 치우침” 이 더 위험하다. \(L^2\) 거리는 후자의 문제를 정확히 포착한다 — 작은 차이의 누적이 큰 차이가 된다.
3.4 Cauchy-Schwarz 부등식
내적과 노름은 가장 중요한 부등식으로 연결된다.
모든 \(f, g \in L^2\) 에 대해:
\[ \left| \int f(t) g(t) \, dt \right| = |\langle f, g \rangle| \leq \|f\| \cdot \|g\|. \]
등호는 \(f\) 와 \(g\) 가 비례할 때(평행할 때) 성립한다.
증명 스케치: 임의의 실수 \(\alpha\) 에 대해 \(\|f - \alpha g\|^2 \geq 0\) 이므로
\[ \|f\|^2 - 2\alpha \langle f, g \rangle + \alpha^2 \|g\|^2 \geq 0 \]
이 모든 \(\alpha\) 에서 성립하려면 판별식이 0 이하여야 한다:
\[ 4\langle f, g \rangle^2 - 4\|f\|^2 \|g\|^2 \leq 0 \quad \Rightarrow \quad |\langle f, g \rangle| \leq \|f\| \|g\|. \]
3.5 Cauchy-Schwarz 가 왜 중요한가
Cauchy-Schwarz는 단순한 부등식이 아니라 \(L^2\) 위의 모든 통계 공식이 발산하지 않음을 보장하는 안전망 이다. 구체적 응용:
- 함수 회귀의 적합값이 유한: 회귀 모형 \(Y = \int \beta(t) X(t) \, dt\) 에서 적합값이 잘 정의되려면 \(|\langle \beta, X \rangle| < \infty\) 가 필요한데, \(\beta, X \in L^2\) 이면 자동으로 성립한다.
- 공분산-분산 부등식: 다변량의 \(|\text{Cov}(X, Y)| \leq \sqrt{\text{Var}(X) \text{Var}(Y)}\) 의 함수 버전이다.
- 상관계수 정의: \(\text{Corr}(f, g) = \langle f, g \rangle / (\|f\| \|g\|)\) 가 항상 \([-1, 1]\) 에 들어간다.
비유하자면: Cauchy-Schwarz는 “두 벡터의 코사인은 항상 \([-1, 1]\) 에 있다” 라는 유클리드 사실의 함수 버전이다. 이 단순한 보장이 없다면 함수 통계학의 거의 모든 정의가 무너진다.
3.6 삼각 부등식
내적 공간에서는 삼각 부등식도 성립한다:
\[ \|f + g\| \leq \|f\| + \|g\|. \]
이는 Cauchy-Schwarz로부터 따라 나온다:
\[ \|f + g\|^2 = \|f\|^2 + 2\langle f, g \rangle + \|g\|^2 \leq \|f\|^2 + 2\|f\|\|g\| + \|g\|^2 = (\|f\| + \|g\|)^2. \]
의미: “직접 가는 길이 돌아가는 길보다 짧다” 는 자명한 사실이 함수 거리에서도 성립한다. 통계적으로는 \(\|\hat{f} - f\| \leq \|\hat{f} - \tilde{f}\| + \|\tilde{f} - f\|\) 같은 분해가 자유롭게 사용된다는 뜻이다.
4 기저와 정규직교 기저
4.1 기저의 정의
함수 \(\{e_1, e_2, e_3, \ldots\}\) 가 \(L^2\) 의 기저(basis) 라는 것은, 모든 \(f \in L^2\) 가 다음과 같이 유일하게 전개됨을 뜻한다:
\[ f(t) = \sum_{j=1}^{\infty} a_j e_j(t). \]
수렴은 \(L^2\) 노름의 의미이다 — 부분합 \(f_K = \sum_{j=1}^K a_j e_j\) 에 대해 \(\|f - f_K\| \to 0\) as \(K \to \infty\).
4.2 정규직교 기저
추가로 다음이 성립하면 정규직교 기저(orthonormal basis) 라 한다:
- 직교성: \(\langle e_j, e_{j'} \rangle = 0\) for \(j \neq j'\)
- 단위 노름: \(\|e_j\| = 1\) for all \(j\)
| 기저 | 정규직교 여부 | 구성 |
|---|---|---|
| 삼각함수 (Fourier) | 정규직교 | \(1, \sqrt{2}\cos(2\pi k t), \sqrt{2}\sin(2\pi k t)\) |
| Legendre 다항식 | 정규직교 | 다항식의 직교화 |
| Haar wavelet | 정규직교 | 단계 함수 |
| B-spline | 비정규직교 | 부드러운 다항식 조각 |
| 단항식 \(1, t, t^2, \ldots\) | 비정규직교 | 다항식 |
4.3 정규직교 기저의 위력: 계수의 명시적 공식
비정규직교 기저로 \(f = \sum_j a_j e_j\) 를 표현할 때, 계수 \(a_j\) 를 구하려면 행렬 방정식 \(\mathbf{G} \mathbf{a} = \mathbf{b}\) ( \(\mathbf{G}_{ij} = \langle e_i, e_j \rangle\) )를 풀어야 한다.
정규직교 기저에서는 이 작업이 사라진다. 양변에 \(e_k\) 를 내적하면:
\[ \langle f, e_k \rangle = \left\langle \sum_j a_j e_j, e_k \right\rangle = \sum_j a_j \langle e_j, e_k \rangle = a_k \cdot 1 = a_k. \]
즉:
\[ a_j = \langle f, e_j \rangle = \int f(t) e_j(t) \, dt. \]
해석: 정규직교 기저에서 \(j\) 번째 좌표는 단순히 “\(f\) 와 \(e_j\) 의 내적” 이다. 이는 유한차원에서 표준 기저 \(\mathbf{e}_j\) 에 대해 \(x_j = \langle \mathbf{x}, \mathbf{e}_j \rangle\) 가 성립하는 것과 동일하다.
4.4 정사영(orthogonal projection)으로서의 절단
처음 \(K\) 개 항으로 자른 부분합 \(f_K = \sum_{j=1}^K \langle f, e_j \rangle e_j\) 는 \(K\) 차원 부분공간 \(\text{span}\{e_1, \ldots, e_K\}\) 위로의 정사영 이다. 수학적으로:
\[ f_K = \arg\min_{g \in \text{span}\{e_1, \ldots, e_K\}} \|f - g\|^2. \]
왜 이게 중요한가: \(K\) 차원 표현 중에서 \(L^2\) 거리 의미로 \(f\) 에 가장 가까운 것이 정사영이다. 이는 차원 축소의 황금률이다 — 정규직교 기저의 첫 \(K\) 항을 쓰는 것이 “최선의 \(K\) 차원 근사” 이다.
4.5 Parseval 등식
정규직교 기저에서는 다음이 성립한다.
\(\{e_j\}\) 가 \(L^2\) 의 정규직교 기저이면, 모든 \(f \in L^2\) 에 대해:
\[ \int f^2(t) \, dt = \|f\|^2 = \sum_{j=1}^{\infty} \langle f, e_j \rangle^2 = \sum_{j=1}^{\infty} a_j^2. \]
이는 유한차원 피타고라스 정리 \(\|\mathbf{x}\|^2 = \sum_j x_j^2\) 의 정확한 함수 버전이다.
4.6 Parseval 등식의 직관
함수의 “총 에너지” 가 각 기저 방향의 “성분 에너지” 의 합으로 분해된다. 직교 방향들은 서로 간섭하지 않으므로, 각 방향의 기여를 단순 합산할 수 있다.
비유: 음악에서 한 곡의 총 음량은 각 악기 트랙 음량의 (제곱) 합이다 (서로 위상이 직교한다고 가정). 어떤 악기를 더 키우거나 줄여도 다른 악기에 영향을 주지 않는다.
4.7 Parseval 등식의 응용: 차원 축소의 오차 분석
Parseval 등식은 절단 오차를 정량화한다. \(f_K = \sum_{j=1}^K a_j e_j\) 로 자르면:
\[ \|f - f_K\|^2 = \sum_{j=K+1}^{\infty} a_j^2. \]
즉 절단 오차 제곱은 “버린 계수의 제곱합” 이다. 계수가 빠르게 감소하는 함수는 적은 항으로도 잘 근사된다.
이는 FPCA(함수 주성분 분석)의 핵심 원리이다 — 고유값 \(\lambda_j\) 가 빠르게 감소하면, 첫 몇 개의 주성분만으로 변동의 대부분을 설명할 수 있다.
4.8 B-spline은 왜 비정규직교인가
B-spline 기저 \(B_1, \ldots, B_M\) 은 다음 두 이유로 직교가 아니다:
- 국소 지지(local support): 각 \(B_m\) 은 좁은 구간에서만 0이 아니다.
- 인접 함수의 중첩: 인접한 \(B_m\) 과 \(B_{m+1}\) 의 지지 구간이 겹치므로 \(\langle B_m, B_{m+1} \rangle \neq 0\).
대신 B-spline은 국소성(locality) 이라는 다른 장점을 가진다. 한 점의 변화가 인접 몇 개 계수에만 영향을 주므로, 국소 패턴(끊어지는 변화, 빠른 전이)을 효율적으로 표현한다. Fourier는 매끄러운 주기 함수에는 효율적이지만 국소 변화에 약하다.
실용적 결론: 매끄러운 주기 신호 → Fourier (정규직교, 빠른 계수 감소). 국소 변동이 중요한 곡선 → B-spline (비정규직교지만 국소 표현력 우수). 정규직교 여부는 상황에 맞게 선택할 문제이지, 절대적 우열이 아니다.
4.9 R 코드: 정규직교성 검증
library(fda)
# 100개 시점
tgrid <- seq(0, 1, length.out = 100)
# Fourier 기저 (5개)
fbasis <- create.fourier.basis(c(0, 1), nbasis = 5)
F_eval <- eval.basis(tgrid, fbasis)
# B-spline 기저 (5개, order 4 = cubic)
bbasis <- create.bspline.basis(c(0, 1), nbasis = 5, norder = 4)
B_eval <- eval.basis(tgrid, bbasis)
# 그람 행렬 G_ij = <e_i, e_j> 계산 (사다리꼴 적분)
gram_matrix <- function(E_mat, tgrid) {
dt <- diff(tgrid)
inner <- t(E_mat) %*% diag(c(dt[1]/2, dt + c(dt[-1], 0)/2)) %*% E_mat
inner
}
G_F <- gram_matrix(F_eval, tgrid)
G_B <- gram_matrix(B_eval, tgrid)
cat("Fourier Gram matrix (정규직교라면 단위행렬):\n")
print(round(G_F, 3))
cat("\nB-spline Gram matrix (비정규직교, 비대각 원소 존재):\n")
print(round(G_B, 3))예상 출력: Fourier의 그람 행렬은 거의 단위행렬에 가까운 대각 행렬, B-spline의 그람 행렬은 명확한 비대각 원소(인접 기저 간 양의 내적)를 보인다. 이 비대각 원소가 B-spline 계수 추정 시 행렬 역연산을 강제하는 이유이다.
4.10 정규직교 vs 비정규직교의 통계적 함의
| 측면 | 정규직교 (Fourier) | 비정규직교 (B-spline) |
|---|---|---|
| 계수 계산 | \(a_j = \langle f, e_j \rangle\) 직접 | \(\mathbf{a} = \mathbf{G}^{-1} \mathbf{b}\) 행렬 역연산 |
| 절단 오차 | Parseval로 명시적 | 추가 분석 필요 |
| 국소 표현력 | 약함 | 강함 |
| 매끄러움 통제 | 주파수 절단 | 거칠기 벌점 |
| 적용 예 | 기후·금융·주기 신호 | 성장 곡선·RT-PCR |
대부분의 실제 데이터는 두 종류의 기저를 혼용한다 — Fourier로 주기 성분을, B-spline으로 국소 변동을 분리한다.
5 확률 함수: 함수 데이터의 무작위성
5.1 통계 추론의 출발점
스칼라 통계학을 짧게 복습하면: 키 표본 \(x_1, \ldots, x_N\) 을 분석할 때, 추론을 위해 이를 확률 변수 \(X_1, \ldots, X_N\) 의 실현(realization)으로 본다. 흔히 \(X_i\) 는 평균 \(\mu\), 분산 \(\sigma^2\) 의 정규 분포를 따른다고 가정한다. 추정·신뢰구간·검정은 모두 이 확률 모형 위에서 정의된다.
핵심은 “관측은 결정적이지만, 그 배경에 확률 변수가 있다” 는 관점의 전환이다. \(x_i\) 는 단순히 숫자 한 개가 아니라, “어떤 분포에서 뽑힌 한 표본” 이다.
5.2 확률 함수의 직관
FDA에서도 같은 사고가 필요하다. 54명의 성장 곡선 \(x_1, \ldots, x_{54}\) 는 이미 함수이지만, 모집단 추론을 위해 각 \(x_i\) 를 확률 함수 \(X_i\) 의 실현 으로 본다.
비유: “어떤 여성이 무작위로 선택되기 전, 그녀의 성장 곡선이 무엇이 될지는 미정이다. 선택되는 순간 한 곡선이 결정된다.” 이때 \(X_i\) 는 “선택 전” 의 확률적 객체이고, \(x_i\) 는 “선택 후” 의 결정적 곡선이다.
이 관점이 없으면 다음 문장이 의미를 잃는다:
- “성장 곡선의 평균이 통계적으로 유의미하게 시간에 따라 증가한다”
- “이 곡선의 95% 신뢰 밴드는 ⋯”
- “두 그룹의 곡선 분포가 같다는 귀무가설을 검정한다”
이 모든 문장은 곡선을 확률 함수의 실현으로 보아야만 의미를 가진다.
5.3 형식적 정의
확률 공간 \((\Omega, \mathcal{F}, P)\) 가 주어졌을 때, 확률 함수(random function) \(X\) 는 \(\Omega\) 에서 \(L^2\) 로 가는 사상이다:
\[ X: \Omega \to L^2. \]
각 \(\omega \in \Omega\) 에 대해 \(X(\omega)\) 는 \(L^2\) 의 결정적 함수이고, \(X(\omega)(t)\) 는 시점 \(t\) 에서의 함수값(실수)이다.
여기서 두 종류의 변수가 등장한다:
- \(\omega\): 확률 공간의 표본점 — “어떤 우연이 일어났는가”
- \(t\): 함수의 정의역 — “어떤 시점을 보는가”
\(X(\omega)\) 를 고정하면 \(t\) 에 따른 곡선이 나오고, \(X(\cdot)(t)\) 를 고정하면 \(\omega\) 에 따른 시점 \(t\) 에서의 확률 변수가 나온다.
5.4 제곱적분 가능 확률 함수
모든 실현이 \(L^2\) 에 속한다는 것은:
\[ \|X(\omega)\|^2 = \int \{X(\omega)(t)\}^2 \, dt < \infty \quad \text{for all } \omega \in \Omega. \]
이는 각 곡선이 유한 에너지를 가진다는 뜻이다. 그러나 이것만으로는 통계 추론에 부족하다 — “확률 함수의 평균 에너지” 도 유한해야 한다:
\[ E\|X\|^2 = E \int X^2(t) \, dt = \int E X^2(t) \, dt < \infty. \]
이 조건을 만족하는 확률 함수를 제곱적분 가능 확률 함수 라 한다.
| 종류 | 적분 영역 | 의미 |
|---|---|---|
| 결정적 함수의 제곱적분 | 시간 \(t\) | 한 곡선의 에너지 |
| 확률 함수의 제곱적분 | 확률 공간 \(\Omega\) | 곡선의 평균 에너지 (= 분산 + 평균²) |
후자는 스칼라 분포의 “유한 분산 가정 \(E X^2 < \infty\)” 의 함수 버전이다.
5.5 Fubini 정리에 의한 적분 교환
위 식에서 \(E\) 와 \(\int\) 의 교환이 자유롭게 일어난 이유는 Fubini 정리 덕분이다. \(X^2(\omega, t) \geq 0\) 이므로, 누적 측도가 유한하면 어느 순서로 적분해도 같은 값이 나온다. 이는 “곡선별로 평균을 낸 후 시점별 적분” 과 “시점별로 평균을 낸 후 시간 적분” 이 같다는 뜻이다.
5.6 모평균 함수와 모공분산 함수
이제 표본 통계량의 모집단 모수를 정의할 수 있다.
\[ \mu(t) = E X(t), \]
\[ c(t, s) = E[(X(t) - \mu(t))(X(s) - \mu(s))]. \]
\(\mu(t)\) 는 시점 \(t\) 에서의 곡선 값들의 (확률적) 평균이고, \(c(t, s)\) 는 시점 \(t\) 와 \(s\) 에서의 곡선 값들의 공변이다.
5.7 다변량과의 일대일 대응
| 다변량 통계 | FDA |
|---|---|
| 평균 벡터 \(\boldsymbol{\mu}_j = E X_j\) | 평균 함수 \(\mu(t) = E X(t)\) |
| 공분산 행렬 \(\Sigma_{ij} = \text{Cov}(X_i, X_j)\) | 공분산 함수 \(c(t, s) = \text{Cov}(X(t), X(s))\) |
| 인덱스 \(j \in \{1, \ldots, d\}\) (이산) | 인덱스 \(t \in [0, 1]\) (연속) |
| 행렬 (유한 \(\times\) 유한) | 이변량 함수 (연속 \(\times\) 연속) |
5.8 공분산 함수의 성질
\(c(t, s)\) 는 다음 성질을 가진다:
- 대칭성: \(c(t, s) = c(s, t)\) (정의에서 자명).
- 양정치성(positive semidefinite): 임의의 함수 \(\phi\) 에 대해 \(\int\!\int c(t, s) \phi(t) \phi(s) \, dt \, ds \geq 0\).
- 대각선이 분산: \(c(t, t) = \text{Var}(X(t)) \geq 0\).
이는 다변량 공분산 행렬의 성질을 그대로 복사한 것이다. 양정치성은 \(X(t)\) 의 어떤 선형 결합도 음의 분산을 가질 수 없다는 뜻이며, 이로부터 공분산 함수의 고유값이 모두 비음이라는 사실이 따라 나온다.
5.9 표본 통계량 vs 모집단 모수
Chapter 1에서 본 표본 통계량과 모집단 모수의 관계를 명확히 한다:
| 모집단 모수 | 표본 추정량 |
|---|---|
| \(\mu(t) = E X(t)\) | \(\widehat{\mu}(t) = N^{-1} \sum_i x_i(t)\) |
| \(c(t, s) = E[(X(t)-\mu(t))(X(s)-\mu(s))]\) | \(\widehat{c}(t, s) = N^{-1} \sum_i (x_i(t) - \widehat{\mu}(t))(x_i(s) - \widehat{\mu}(s))\) |
이후 챕터(Ch.12)에서 표본 추정량이 모집단 모수에 일치(consistent)하고 점근적으로 정규임을 증명한다. 그 모든 증명의 출발점은 위의 모수 정의이다.
6 Karhunen-Loève 전개
6.1 정리의 진술
이제 FDA의 가장 중요한 정리에 도달한다.
제곱적분 가능 확률 함수 \(X\) 는 다음과 같이 전개된다:
\[ X(t) = \mu(t) + \sum_{j=1}^{\infty} \xi_j v_j(t). \]
여기서:
- \(v_j\) 는 공분산 함수 \(c\) 의 고유함수(eigenfunctions): \(\int c(t, s) v_j(s) \, ds = \lambda_j v_j(t)\).
- \(\lambda_j\) 는 고유값(eigenvalues): \(\lambda_1 \geq \lambda_2 \geq \cdots \geq 0\).
- \(\xi_j\) 는 점수(scores): \(\xi_j = \langle X - \mu, v_j \rangle = \int (X(t) - \mu(t)) v_j(t) \, dt\).
수렴은 \(L^2\) 의미이다 (\(E \|X - \mu - \sum_{j=1}^K \xi_j v_j\|^2 \to 0\) as \(K \to \infty\)).
6.2 점수의 핵심 성질
\(\xi_j\) 는 단순한 보조 변수가 아니라, 분포 정보 전체를 담은 확률 변수이다.
- 평균 0: \(E \xi_j = 0\).
- 분산 = 고유값: \(E \xi_j^2 = \lambda_j\).
- 상호 비상관: \(\text{Cov}(\xi_j, \xi_k) = 0\) for \(j \neq k\).
증명 스케치:
평균 0: \(E \xi_j = E \int (X(t) - \mu(t)) v_j(t) \, dt = \int E[X(t) - \mu(t)] v_j(t) \, dt = 0\) (Fubini + \(E X = \mu\)).
분산 = \(\lambda_j\):
\[ \begin{aligned} E \xi_j^2 &= E \int\!\int (X(t) - \mu(t))(X(s) - \mu(s)) v_j(t) v_j(s) \, dt \, ds \\ &= \int\!\int c(t, s) v_j(t) v_j(s) \, dt \, ds \\ &= \int v_j(t) \left[\int c(t, s) v_j(s) \, ds\right] dt \\ &= \int v_j(t) \cdot \lambda_j v_j(t) \, dt = \lambda_j \|v_j\|^2 = \lambda_j. \end{aligned} \]
마지막 등식은 \(\|v_j\| = 1\) (정규화)을 사용했다.
비상관성: 비슷한 계산으로 \(\text{Cov}(\xi_j, \xi_k) = \lambda_k \langle v_j, v_k \rangle = 0\) ( \(j \neq k\) ).
6.3 분산 분해
위 성질로부터:
\[ E \|X - \mu\|^2 = E \int (X(t) - \mu(t))^2 \, dt = \sum_{j=1}^{\infty} \lambda_j. \]
증명 스케치: \(X - \mu = \sum_j \xi_j v_j\) 와 Parseval 등식으로:
\[ \|X - \mu\|^2 = \sum_j \xi_j^2. \]
양변에 기댓값:
\[ E \|X - \mu\|^2 = \sum_j E \xi_j^2 = \sum_j \lambda_j. \]
6.4 KL 전개의 의미: 분산 분해
이 식의 해석: 곡선의 총 분산이 \(\sum_j \lambda_j\) 이고, 각 \(\lambda_j\) 는 \(j\) 번째 주방향 \(v_j\) 의 변동 크기이다.
| 다변량 PCA | FPCA (KL) |
|---|---|
| \(\Sigma = \sum_j \lambda_j \mathbf{v}_j \mathbf{v}_j^T\) | \(C(x) = \sum_j \lambda_j \langle x, v_j \rangle v_j\) |
| \(\text{tr}(\Sigma) = \sum_j \lambda_j\) | \(E\|X-\mu\|^2 = \sum_j \lambda_j\) |
| 누적 분산비 \(\sum_{k=1}^K \lambda_k / \sum_j \lambda_j\) | 동일 |
| 점수 \(\xi_j = \mathbf{v}_j^T (\mathbf{X} - \boldsymbol{\mu})\) | 점수 \(\xi_j = \langle X - \mu, v_j \rangle\) |
6.5 KL 전개를 어떻게 읽는가
세 구성 요소를 한 번 더 정리한다.
- \(\mu(t)\): 곡선군의 “중심” — 평균적 모양. 이를 빼면 변동만 남는다.
- \(v_j(t)\): 변동의 “주방향” — “곡선이 평균에서 벗어나는 가장 흔한 방식”.
- \(\xi_j\): 개체별 “그 방향으로 얼마나 갔는가” — 무작위 변동의 좌표.
- \(\lambda_j\): 그 방향의 변동 크기. 큰 \(\lambda\) 일수록 데이터에 더 자주 등장하는 변동 패턴.
악기 합주 비유:
- \(\mu(t)\) — 모든 연주에 공통인 베이스 멜로디.
- \(v_j(t)\) — 각 악기 트랙의 음색(timbre): 바이올린 트랙, 비올라 트랙, ⋯
- \(\xi_j\) — 이번 연주에서 그 악기가 얼마나 크게 들렸는지의 볼륨.
- \(\lambda_j\) — 평균적으로 그 악기가 얼마나 큰 비중을 차지하는지.
어떤 곡(곡선)이든 \(\mu\) 위에 무수한 악기(주성분)의 가중합으로 표현된다. 가장 큰 \(\lambda_j\) 를 가진 악기 몇 개만 들어도 곡의 정체성은 충분히 드러난다. 이것이 차원 축소의 본질이다.
6.6 차원 축소의 최적성
KL 전개는 단순한 표현이 아니라 최적 표현 이다.
평균 \(\mu\) 가 알려졌을 때, \(K\) 차원 표현 \(X(t) \approx \mu(t) + \sum_{j=1}^K \alpha_j(X) \phi_j(t)\) 중에서 평균제곱오차
\[ E \left\| X - \mu - \sum_{j=1}^K \alpha_j(X) \phi_j \right\|^2 \]
를 최소화하는 정규직교 함수 \(\{\phi_j\}\) 와 점수 \(\{\alpha_j\}\) 는 정확히 KL 전개의 첫 \(K\) 항이다.
해석: “공분산의 고유함수보다 더 좋은 \(K\) 차원 기저는 없다.” 이는 다변량 PCA가 분산을 가장 많이 설명하는 직교 방향을 준다는 사실의 함수 버전이다.
6.7 누적 분산 설명률
실무에서는 다음 비율을 사용한다:
\[ \text{CPV}(K) = \frac{\sum_{j=1}^{K} \lambda_j}{\sum_{j=1}^{\infty} \lambda_j}. \]
CPV(누적 분산 비율, Cumulative Proportion of Variance)가 85% 또는 90%를 처음 넘는 \(K\) 를 선택하는 것이 일반적이다 (Kokoszka & Reimherr, 2017, Ch.12). 다른 방법으로는 스크리 도표(scree plot)에서 고유값의 급감 지점을 찾는 시각적 판단이 있다.
7 예: 브라운 운동의 명시적 KL 전개
7.1 브라운 운동의 정의
이론을 가장 명확히 보는 방법은 닫힌 형태의 예를 보는 것이다. 단위 구간 \([0, 1]\) 위의 브라운 운동(Brownian motion) 또는 Wiener 과정 \(W = \{W(t), t \in [0, 1]\}\) 는 다음 성질을 가진 가우스 확률 함수이다:
- \(W(0) = 0\).
- 독립 증분: \(W(t_2) - W(t_1)\) 와 \(W(t_4) - W(t_3)\) 가 \(0 \leq t_1 < t_2 \leq t_3 < t_4\) 일 때 독립.
- 정규 증분: \(W(t) - W(s) \sim N(0, t - s)\) for \(s < t\).
- 연속 경로 (a.s.).
평균과 공분산:
\[ \mu(t) = E W(t) = 0, \]
\[ c(t, s) = \text{Cov}(W(t), W(s)) = \min(t, s). \]
7.2 공분산 \(\min(t, s)\) 의 직관
두 시점 \(t < s\) 에서 \(W(t)\) 와 \(W(s)\) 의 공변은 정확히 \(t\) 이다. 왜?
\[ W(s) = W(t) + [W(s) - W(t)] \]
이고, \(W(t)\) 와 \(W(s) - W(t)\) 가 독립이며 \(W(t) \sim N(0, t)\) 이므로:
\[ \text{Cov}(W(t), W(s)) = \text{Cov}(W(t), W(t)) + \text{Cov}(W(t), W(s) - W(t)) = t + 0 = t = \min(t, s). \]
비유: “지금까지 함께 걸어온 시간이 길수록 두 시점의 위치가 비슷하다.” 시점 \(s\) 의 위치는 \(t\) 까지의 위치에 그 후의 독립 증분이 더해진 것이다.
7.3 KL 전개의 닫힌 형태
공분산 \(c(t, s) = \min(t, s)\) 의 고유 방정식:
\[ \int_0^1 \min(t, s) v(s) \, ds = \lambda v(t). \]
이 적분 방정식은 닫힌 형태로 풀린다 (적분을 두 구간으로 분리한 후 미분하면 ODE \(-v''(t) = \lambda^{-1} v(t)\) + 경계 조건 \(v(0) = 0, v'(1) = 0\) 의 Sturm-Liouville 문제). 해:
\[ \lambda_j = \frac{1}{(j - 1/2)^2 \pi^2}, \quad v_j(t) = \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \quad j = 1, 2, \ldots \]
따라서 KL 전개:
\[ W(t) = \sum_{j=1}^{\infty} \xi_j \cdot \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \]
여기서 \(\xi_j \sim N(0, \lambda_j)\) 가 독립이다. 표준화하여:
\[ W(t) = \sum_{j=1}^{\infty} \frac{Z_j}{(j - 1/2) \pi} \sqrt{2} \sin\!\left((j - 1/2) \pi t\right), \]
여기서 \(Z_j\) 는 i.i.d. \(N(0, 1)\) (Kokoszka & Reimherr, 2017, Example 3.2.1).
7.4 분산 분해의 검증
이 결과로부터 분산 분해 식을 검증할 수 있다:
\[ E \int_0^1 W^2(t) \, dt = \int_0^1 E[W^2(t)] \, dt = \int_0^1 t \, dt = \frac{1}{2}. \]
KL 전개로부터:
\[ \sum_{j=1}^{\infty} \lambda_j = \sum_{j=1}^{\infty} \frac{1}{(j - 1/2)^2 \pi^2} = \frac{1}{\pi^2} \cdot \frac{\pi^2}{2} = \frac{1}{2}. \]
(두 번째 등식은 \(\sum_{j=1}^{\infty} 1/(j - 1/2)^2 = \pi^2/2\) 라는 알려진 합)
두 결과가 일치한다 — KL 전개의 분산 분해가 정확히 들어맞음을 보여준다.
7.5 브라운 운동의 차원 축소 가능성
고유값이 \(j^{-2}\) 속도로 감소하므로 차원 축소가 효과적이다:
| \(K\) | 누적 분산 설명률 (CPV) |
|---|---|
| 1 | 81% |
| 2 | 90% |
| 5 | 96% |
| 10 | 98% |
| 20 | 99% |
직관: 처음 한두 개의 정현파가 브라운 운동 변동의 대부분을 설명한다. 이는 브라운 운동의 거친 경로가 저주파 성분의 저노이즈 혼합 으로 잘 근사됨을 의미한다.
7.6 R 코드: KL 전개로 브라운 운동 시뮬레이션
set.seed(42)
# 차원 K 와 표본 수 N
K <- 50
N <- 5
tgrid <- seq(0, 1, length.out = 500)
# 고유값과 고유함수
j_vec <- seq_len(K)
lambda <- 1 / ((j_vec - 0.5)^2 * pi^2)
V <- sapply(j_vec, function(j) sqrt(2) * sin((j - 0.5) * pi * tgrid))
# V 는 500 x K 행렬: 각 열이 v_j(t)
# 점수 생성: xi_j ~ N(0, lambda_j) 독립
Z <- matrix(rnorm(K * N), nrow = K, ncol = N)
xi <- sweep(Z, 1, sqrt(lambda), `*`)
# 곡선 재구성: W(t) = sum_j xi_j v_j(t)
W <- V %*% xi # 500 x N
# 시각화: KL 절단
matplot(tgrid, W, type = "l", lty = 1, col = 1:N,
xlab = "t", ylab = "W(t)",
main = paste0("Brownian motion via KL truncation (K=", K, ")"))
abline(h = 0, lty = 2, col = "grey")
# 비교: 누적 random walk 시뮬레이션
W_rw <- matrix(0, nrow = 500, ncol = N)
for (i in seq_len(N)) {
inc <- rnorm(499, mean = 0, sd = sqrt(diff(tgrid)[1]))
W_rw[, i] <- c(0, cumsum(inc))
}
matplot(tgrid, W_rw, type = "l", lty = 1, col = 1:N,
xlab = "t", ylab = "W(t)",
main = "Brownian motion via random walk")핵심 관찰:
- KL 절단(K=50)으로 생성한 곡선은 매끄럽지만 거시적 모양이 진짜 브라운 운동과 유사하다.
- 누적 random walk는 “톱니 모양” 의 거친 경로를 보인다 — 이것이 진짜 브라운 운동의 모습이다 (a.s. 비미분).
- \(K\) 가 작을수록 KL 근사가 매끄러워지고, \(K \to \infty\) 에서 진짜 브라운 운동에 수렴.
7.7 시뮬레이션 방법의 비교
| 방법 | 매끄러움 | 계산 비용 | 비고 |
|---|---|---|---|
| 누적 random walk | 거침 (실제 W와 유사) | \(O(N)\) | 미분 불가능 경로 재현 |
| KL 절단 (K 항) | 매끄러움 (절단 인공물) | \(O(NK)\) | 미분 가능 근사 |
| 정확한 KL (K → ∞) | 거친 진짜 W | 무한 | 이론적 한계 |
실용적 함의: 브라운 운동을 시각적으로 재현해야 한다면 random walk가 자연스럽다. 그러나 미분 가능한 매끄러운 근사가 필요하면(예: 함수 회귀 시뮬레이션) KL 절단이 적합하다. 둘은 같은 확률 함수의 다른 표현이지만, 응용에 따라 선택이 달라진다.
8 가우스 확률 함수
8.1 정의
KL 전개를 통해 가우스 확률 함수의 자연스러운 정의를 얻는다.
확률 함수 \(X\) 의 KL 전개 \(X(t) = \mu(t) + \sum_j \xi_j v_j(t)\) 의 점수 \(\xi_j\) 가 모두 가우스 확률 변수이면 \(X\) 를 가우스 확률 함수(Gaussian random function) 라 한다.
8.2 동치 정의
가우스 확률 함수에 대한 동치 정의가 있다.
\[ X \text{는 가우스} \iff \forall u \in L^2, \; \langle X, u \rangle \text{는 가우스 확률 변수}. \]
즉 “어떤 방향으로 사영해도 가우스” 라는 성질이다. 이는 다변량 가우스 분포의 정의 — “임의의 선형 결합이 정규” — 의 직접 일반화이다.
8.3 동치 증명 스케치
\((\Rightarrow)\) KL 전개 \(X = \mu + \sum_j \xi_j v_j\) 와 임의의 \(u\) 에 대해:
\[ \langle X, u \rangle = \langle \mu, u \rangle + \sum_j \xi_j \langle v_j, u \rangle. \]
\(\xi_j\) 가 독립 가우스이고 \(\langle v_j, u \rangle\) 는 결정적 상수이므로, 합이 가우스이다. (수렴은 \(L^2\) 의미로 보장됨)
\((\Leftarrow)\) \(u = v_j\) 로 놓으면 \(\langle X, v_j \rangle = \mu_j + \xi_j\) 가 가우스, 따라서 \(\xi_j\) 도 가우스.
8.4 가우스 확률 함수의 분포 결정
가우스 확률 함수는 \(\mu\) 와 \(c\) 만으로 분포가 완전히 결정된다. 이는 다변량 가우스가 평균 벡터와 공분산 행렬만으로 결정되는 것과 동일한 성질이다.
의미: 가우스 가정을 두면 추정 문제가 단순해진다 — 평균 함수와 공분산 함수만 추정하면 모든 추론이 가능하다. 이는 함수 회귀, 함수 ANOVA, 신뢰 밴드 구축에서 널리 사용되는 가정이다.
8.5 가우스 vs 비가우스: 통계적 함의
| 가정 | 추론 도구 | 응용 사례 |
|---|---|---|
| 가우스 | \(t\)-검정·F-검정의 함수 버전 | 정규 잡음 환경 (신호처리, 일부 생체 신호) |
| 비가우스 | bootstrap, permutation | 금융 수익률 (heavy tail), 카운트 데이터 |
브라운 운동은 가우스이고, 자기회귀 함수 시계열의 잔차도 흔히 가우스로 가정된다. 그러나 모든 실제 데이터가 가우스인 것은 아니다 — 금융 수익률 곡선은 heavy tail이 명백하므로, 가우스 가정 없이 bootstrap 기반 추론이 더 적절하다.
9 응용 분야로의 연결
9.1 KL 전개가 어떻게 쓰이는가
이론을 마무리하고 실제 분야에서 KL 전개가 어떻게 사용되는지 정리한다.
| 분야 | \(\mu(t)\) | \(v_j(t)\) 의 의미 | \(\xi_j\) 의 의미 |
|---|---|---|---|
| RT-PCR 증폭 곡선 | 평균적 증폭 패턴 | 변동의 주방향 (예: 전반적 증폭 수준 / 증폭 속도) | 개별 샘플의 특성 점수 |
| 금융 일중 수익률 | 평균 일별 수익률 곡선 | 변동성 패턴 (예: 개장 직후 변동 / 폐장 전 변동) | 그 날의 시장 특성 |
| 뇌영상 (DTI FA) | 뇌량 평균 FA 곡선 | 환자군 변동 패턴 | 개별 환자의 특이성 |
| 기후 연간 강수 | 평균 강수 패턴 | 지역별 변동 패턴 (예: 우기 시점 차이) | 그 해/그 지역의 특성 |
| 성장 곡선 | 평균 성장 패턴 | 사춘기 패턴, 최종 키 | 개별 아동의 특성 |
이 모든 응용에서 절차는 동일하다:
- 곡선을 \(L^2\) 의 원소로 본다.
- 표본에서 \(\widehat{\mu}, \widehat{c}\) 를 추정한다.
- \(\widehat{c}\) 의 고유 분해로 \(\widehat{v}_j, \widehat{\lambda}_j\) 를 얻는다.
- 점수 \(\widehat{\xi}_j = \langle x_i - \widehat{\mu}, \widehat{v}_j \rangle\) 를 계산한다.
- 이 점수를 회귀·분류·검정의 입력으로 사용한다.
9.2 차원 축소의 실용성
대부분의 실제 데이터에서 첫 \(K = 2 \sim 5\) 개의 주성분이 변동의 80~95%를 설명한다. 이는 KL 전개의 가장 강력한 실용적 가치이다.
예: RT-PCR 증폭 곡선 1000개를 분석할 때, 각 곡선이 45개 사이클에서 측정된다면 원본 데이터는 \(1000 \times 45\). KL 절단 \(K = 3\) 이면 \(1000 \times 3\) 으로 축소되며, 이 3개의 점수만으로 정상/비정상 분류, 회귀, 시각화가 가능하다.
이는 단순한 차원 축소를 넘어 해석 가능한 차원 축소 이다. 점수 \(\xi_1\) 이 “전반적 증폭 강도”, \(\xi_2\) 가 “증폭 속도” 같은 물리적 의미를 갖는 경우가 많기 때문이다.
10 정리
이 포스트는 Kokoszka Ch.3의 §3.1과 §3.2를 다음 두 단계로 통합했다.
§3.1: 함수의 거처 (\(L^2\) 공간)
- 제곱적분 가능 함수의 집합 \(L^2\) 가 함수 추론의 자연스러운 무대.
- 내적 \(\langle f, g \rangle = \int f g \, dt\) 가 직교성·노름·거리·각도를 정의.
- Cauchy-Schwarz 부등식이 모든 \(L^2\) 공식의 발산 방지 보장.
- 정규직교 기저(Fourier)는 계수 계산이 단순, 비정규직교 기저(B-spline)는 국소성 우수.
- Parseval 등식이 함수의 총 에너지를 직교 방향 성분의 합으로 분해.
§3.2: 무대 위의 무작위성 (확률 함수와 KL 전개)
- 확률 함수는 \(\Omega \to L^2\) 의 사상; 곡선의 무작위성을 모형화.
- 모평균 함수 \(\mu(t)\) 와 모공분산 함수 \(c(t, s)\) 가 핵심 모수.
- KL 전개 \(X = \mu + \sum_j \xi_j v_j\) 가 곡선을 평균 + 직교 변동 성분으로 분해.
- 점수 \(\xi_j\) 는 평균 0, 분산 \(\lambda_j\), 상호 비상관.
- 분산 분해 \(E \|X - \mu\|^2 = \sum_j \lambda_j\).
- 브라운 운동의 닫힌 형태 KL 전개가 이론을 구체적으로 보여줌.
- 가우스 확률 함수는 \(\mu\) 와 \(c\) 만으로 분포 완전 결정.
이 두 절은 분리된 주제가 아니라 하나의 연속된 이야기이다. \(L^2\) 의 정규직교 기저 개념이 KL 전개의 고유함수로 직접 일반화되며, Parseval 등식이 KL 전개의 분산 분해로 그대로 등장한다. 다음 포스트에서 §3.3 (선형 변환과 공분산 연산자)을 통해 이 흐름이 어떻게 후속 회귀·시계열 챕터로 이어지는지 살펴본다.
11 관련 주제
선행 지식
후속 주제
관련 개념
- 확률 분포 — 유한차원 분포의 함수 일반화
- PCA의 수학적 기초 — 다변량 PCA가 KL 전개의 유한차원 사례
- Hilbert 공간 입문 — Ch.10의 엄밀한 전개와 연결
- 정규직교 기저와 Fourier 급수 — 정규직교성의 일반론