Kwangmin Kim - Ch.12.1~12.2 — 표본 평균·공분산·EFPC의 일치성 (Consistency of Sample Estimators)

1 12장의 가정 — iid in \(L^2\)

가정 12.0.1 (Kokoszka & Reimherr, 2017)

함수 \(X_1, X_2, \dots, X_N\) 은 \(L^2\) 에서 iid 이며, 각 \(X_i\) 는 제곱적분 가능 (\(\mathbb{E}\|X\|^2 < \infty\)) 한 동일 분포 \(X\) 의 복제다.

이 가정의 함의는 다변량 iid 가정과 거의 동일하지만, 두 가지 추가 디테일이 있다.

완전 관측 (completely observed): 곡선이 충분히 조밀한 격자에서 관측되어 함수 객체로 변환 가능하다고 가정한다. 이는 Ch.7 의 희소 함수 데이터 (sparse FDA) 와의 분기점이다 — 희소 데이터에서는 본 장의 모수적 속도 \(N^{-1/2}\) 가 깨지고 비모수적 속도가 등장한다.
\(L^2\) 가 임의의 분리 가능한 Hilbert 공간으로 일반화 가능: 본문은 \(L^2\) 로 서술하지만 모든 결과는 분리 가능 Hilbert 공간으로 동일하게 확장된다 (Ch.10 의 추상화 효과).

직관: “유한차원 다변량 통계학에서 표본 평균·표본 공분산이 잘 작동하는 모든 정리가 무한차원에서도 가정만 정확히 하면 살아남는다” — 12장은 그 살아남는 방식을 증명한다.

2 모집단 모수와 표본 추정량의 정의

정의: 모집단 모수 4 가지

함수 \(X \in L^2\) 의 분포가 \(\mathbb{E}\|X\|^2 < \infty\) 일 때:

\[ \mu(t) = \mathbb{E}[X(t)] \qquad \text{(평균 함수)} \]

\[ c(t, s) = \mathbb{E}\big[(X(t) - \mu(t))(X(s) - \mu(s))\big] \qquad \text{(공분산 함수)} \]

\[ \mathcal{C} = \mathbb{E}\big[(X-\mu) \otimes (X-\mu)\big] \qquad \text{(공분산 텐서)} \]

\[ C(\cdot) = \mathbb{E}\big[\langle X-\mu, \cdot\rangle (X-\mu)\big] \qquad \text{(공분산 연산자)} \]

이 4 가지가 모두 같은 정보를 다른 형식으로 담는다. 다변량에서 공분산 행렬 \(\Sigma\) 하나만 다루던 것이 함수에서는 (1) 핵 함수 \(c(t,s)\), (2) 텐서 \(\mathcal{C}\), (3) 연산자 \(C\) 의 세 가지 표기로 나뉘는데, 이는 표기의 잉여가 아니라 각 표기가 어떤 증명에 가장 자연스러운지가 다르기 때문이다.

표기	자연스러운 맥락
핵 함수 \(c(t,s)\)	적분 표현·점별 추정·시각화 (\(t,s\) 평면에서 히트맵)
텐서 \(\mathcal{C} = \mathbb{E}[(X-\mu) \otimes (X-\mu)]\)	\(\mathcal{H} \otimes \mathcal{H}\) 노름 계산 (Theorem 12.1.4 증명)
연산자 \(C: \mathcal{H} \to \mathcal{H}\)	고유분해·EFPC 정의·스펙트럼 정리

세 표기의 동등성은 Ch.10.5 의 텐서 곱 정리와 (10.10) 식 \(\|\mathcal{C}\|_{\mathcal{H}\otimes\mathcal{H}} = \|C\|_S\) 가 보장한다.

정의: 표본 추정량

표본 평균: \[ \hat\mu(t) = \frac{1}{N}\sum_{n=1}^N X_n(t). \]

표본 공분산 함수: \[ \hat c(t,s) = \frac{1}{N}\sum_{n=1}^N (X_n(t) - \hat\mu(t))(X_n(s) - \hat\mu(s)). \]

표본 공분산 연산자: \[ \hat C(x) = \frac{1}{N}\sum_{n=1}^N \langle X_n - \hat\mu,\, x\rangle (X_n - \hat\mu), \quad x \in L^2. \]

\(N\) 정규화 vs \(N-1\) 정규화: Ch.1 에서는 비편향성을 위해 \(N-1\) 로 나누었지만 12장은 점근 결과에 집중하므로 \(N\) 으로 나눈다. 점근적으로는 \(N \to \infty\) 일 때 둘이 같은 결과를 준다 — 다변량에서 \(S = \frac{1}{N-1}\sum (x_i - \bar x)(x_i - \bar x)^\top\) 와 \(\frac{1}{N}\sum \cdots\) 의 차이가 \(N^{-1}\) 로 사라지는 것과 동일하다.

2.1 핵심 관찰 — 표본 공분산 연산자의 차원 한계

\(\hat C\) 는 \(X_1, \dots, X_N\) 에 의해 생성된 \(L^2\) 의 유한차원 부분공간 으로만 사상된다. 즉, 무한차원 모수 \(C\) 를 유한 표본으로 추정하면 결과는 항상 유한차원 사영이다.

직관: “\(N\) 개 곡선만 가지고 무한히 많은 방향의 공분산을 다 알 수는 없다 — 우리가 회복할 수 있는 건 그 \(N\) 개 곡선이 펼치는 부분공간 안에서만 정의되는 정보다.” 그래서 EFPC 도 첫 \(\min(p, N)\) 개까지만 의미가 있고, 그 이상은 표본 잡음이다.

이 한계는 점근적으로 사라진다 — \(N \to \infty\) 면 부분공간이 \(L^2\) 전체를 채우게 된다.

3 12.1 — 표본 평균의 일치성

3.1 Lemma 12.1.1 — iid 함수의 직교성

Lemma 12.1.1

\(X_1, X_2 \in L^2\) 가 독립이고 제곱적분 가능하며 \(\mathbb{E}X_1 = 0\) 이면 \[ \mathbb{E}\big[\langle X_1, X_2\rangle\big] = 0. \]

직관: 두 독립 평균 \(0\) 함수의 내적 기댓값이 \(0\) 이라는 것 — 다변량에서 “두 독립 평균 \(0\) 벡터 \(\mathbf{x}_1, \mathbf{x}_2\) 의 \(\mathbb{E}[\mathbf{x}_1^\top \mathbf{x}_2] = 0\)” 의 함수 버전이다. 증명도 본질적으로 동일하다 — Fubini 로 적분과 기댓값을 교환한 뒤 독립성에서 \(\mathbb{E}[X_1(t) X_2(t)] = \mathbb{E}X_1(t) \cdot \mathbb{E}X_2(t) = 0\) 을 쓴다.

이 lemma 가 Theorem 12.1.1 에서 표본 평균의 분산 분해 시 cross term 을 \(0\) 으로 만드는 핵심 도구다.

3.2 Theorem 12.1.1 — 표본 평균의 비편향·\(L^2\) 일치성

Theorem 12.1.1

가정 12.0.1 하에서:

\[ \mathbb{E}\hat\mu = \mu, \qquad \mathbb{E}\|\hat\mu - \mu\|^2 = O(N^{-1}). \]

증명 핵심 단계:

비편향성: 점별로 \(\mathbb{E}X_n(t) = \mu(t)\) 이므로 \(\mathbb{E}\hat\mu(t) = \mu(t)\). \(L^2\) 에서 \(\mathbb{E}\hat\mu = \mu\).
\(L^2\) 평균제곱 분해: \[ \mathbb{E}\|\hat\mu - \mu\|^2 = N^{-2} \sum_{n,m=1}^N \mathbb{E}\big[\langle X_n - \mu, X_m - \mu\rangle\big]. \]
Lemma 12.1.1 적용: \(n \ne m\) 일 때 \(X_n - \mu, X_m - \mu\) 가 독립이고 평균 \(0\) 이므로 cross term 은 \(0\). 따라서 \[ \mathbb{E}\|\hat\mu - \mu\|^2 = N^{-2} \sum_{n=1}^N \mathbb{E}\|X_n - \mu\|^2 = N^{-1}\,\mathbb{E}\|X - \mu\|^2. \]

직관: “한 표본의 분산 (\(\mathbb{E}\|X-\mu\|^2\)) 이 유한하기만 하면, \(N\) 개 표본 평균의 분산은 정확히 \(1/N\) 로 줄어든다” — 다변량 표본 평균의 \(\mathrm{Var}(\bar{\mathbf{X}}) = \Sigma / N\) 을 함수 노름에서 본 것이다.

점별 vs \(L^2\) 비교: 점별 일치성은 “각 \(t\) 마다 \(\mathbb{E}|\hat\mu(t) - \mu(t)|^2 = O(N^{-1})\)” 를 의미하지만, \(L^2\) 일치성은 “전 구간 적분 \(\int (\hat\mu(t) - \mu(t))^2 dt\) 의 기댓값이 \(O(N^{-1})\)” 라는 더 강한 결과다 — 곡선이 어느 시점에서 동시에 잘 추정된다는 보장이다.

이 결과는 다변량과 동일한 모수적 수렴 속도 \(N^{-1/2}\) (\(\sqrt{\mathbb{E}\|\hat\mu - \mu\|^2} = O(N^{-1/2})\)) 를 함수에서도 가능하게 한다. 비모수 회귀가 차원의 저주로 \(N^{-2/(4+d)}\) 같은 느린 속도를 가지는 것과 대조적이다 — 함수 표본 평균이 “왜 그렇게 빠르게 수렴할 수 있는가” 의 답은 각 \(X_i\) 가 같은 무한차원 모집단에서 iid 라는 점이다.

이후 12장은 평균을 \(0\) 으로 가정하고 진행한다 — 일반적인 경우는 \(X_n - \hat\mu\) 로 대체해도 점근적으로 같은 결과를 준다.

4 12.1 — 표본 공분산 연산자의 HS 노름 수렴

가정 \(\mu = 0\) 하에서 추정량은 단순화된다:

\[ \hat c(t,s) = \frac{1}{N}\sum_{n=1}^N X_n(t) X_n(s), \qquad \hat C(x) = \frac{1}{N}\sum_{n=1}^N \langle X_n, x\rangle X_n. \]

\(\hat C\) 는 가중 합이 \(N^{-1}\) 로 같은 형태인 공분산 연산자이므로 (Definition 11.2.2 에서 \(X\) 가 \(X_1,\dots,X_N\) 을 확률 \(N^{-1}\) 로 취한다고 보면 됨) 거의 확실히 Hilbert-Schmidt 연산자 이고, \(\hat c(t,s) \in L^2([0,1] \times [0,1])\) 다.

4.1 Theorem 12.1.2 — HS 노름의 유한성

Theorem 12.1.2

\(\mathbb{E}\|X\|^4 < \infty\), \(\mathbb{E}X = 0\), 가정 12.0.1 하에서: \[ \mathbb{E}\|\hat C\|_S^2 \le \mathbb{E}\|X\|^4. \]

증명 핵심 — Parseval + Cauchy-Schwarz:

HS 노름 정의 (10.9): \(\mathbb{E}\|\hat C\|_S^2 = \sum_{i=1}^\infty \mathbb{E}\langle \hat C(e_i), \hat C(e_i)\rangle\) (\(\{e_i\}\): 정규직교 기저).
\(\hat C\) 표현 대입: \[ \mathbb{E}\|\hat C\|_S^2 = N^{-2} \sum_{n,m=1}^N \sum_{i=1}^\infty \mathbb{E}\big[\langle X_n, e_i\rangle \langle X_m, e_i\rangle \langle X_n, X_m\rangle\big]. \]
Parseval 등식 (10.8) \(\sum_i \langle X_n, e_i\rangle \langle X_m, e_i\rangle = \langle X_n, X_m\rangle\) 적용: \[ \sum_{i=1}^\infty \mathbb{E}\big[\cdots\big] = \mathbb{E}\langle X_n, X_m\rangle^2. \]
Cauchy-Schwarz 두 번: \[ \mathbb{E}\langle X_n, X_m\rangle^2 \le \mathbb{E}\big[\|X_n\|^2 \|X_m\|^2\big] \le (\mathbb{E}\|X_n\|^4)^{1/2}(\mathbb{E}\|X_m\|^4)^{1/2} = \mathbb{E}\|X\|^4. \]
이중 합 \(N^{-2} \sum_{n,m=1}^N \mathbb{E}\|X\|^4 = \mathbb{E}\|X\|^4\).

\(\mathbb{E}\|X\|^4 < \infty\) 조건의 의미: 곡선의 총 변동성이 두꺼운 꼬리 (heavy tail) 를 갖지 않음을 보장한다. 다변량에서 표본 공분산 행렬의 일치성이 \(\mathbb{E}\|\mathbf{X}\|^4 < \infty\) 를 요구하는 것과 동일한 구조다 — 이 조건이 깨지면 (예: 어떤 곡선이 매우 큰 \(L^2\) 노름을 가질 확률이 작지만 \(0\) 이 아니면) 공분산 추정이 불안정해진다.

4.2 Theorem 12.1.3 — 텐서 노름과 HS 노름의 동등성

Theorem 12.1.3

\(x, y \in \mathcal{H}\) 일 때: \[ \|x \otimes y\|_{\mathcal{H} \otimes \mathcal{H}} = \|\langle y, \cdot\rangle x\|_S. \]

의미: 텐서 곱 표현 \(x \otimes y\) (\(\mathcal{H} \otimes \mathcal{H}\) 의 원소) 와 rank-1 연산자 \(\langle y, \cdot\rangle x\) (\(\mathcal{H} \to \mathcal{H}\)) 의 노름이 정확히 일치한다. 이는 두 공간 (\(\mathcal{H} \otimes \mathcal{H}\) 와 HS 연산자 공간) 의 동형성을 노름 보존으로 보장한다.

왜 중요한가: Theorem 12.1.4 의 증명에서 공분산 연산자의 차이 \(\hat C - C\) 를 텐서 표현 \((X \otimes X - C)\) 로 옮겨 다루면 \(\mathcal{H} \otimes \mathcal{H}\) 노름 계산이 단순해진다. 직관적으로는 “rank-1 연산자의 HS 노름이 두 벡터의 노름 곱이다” — 이는 정사각 행렬의 Frobenius 노름이 outer product 의 차원 합과 무관하게 두 벡터 노름의 곱인 것과 같은 구조다.

4.3 Theorem 12.1.4 — 표본 공분산 연산자의 일치성

Theorem 12.1.4

\(\mathbb{E}\|X\|^4 < \infty\), \(\mathbb{E}X = 0\), 가정 12.0.1 하에서: \[ \mathbb{E}\|\hat C - C\|_S^2 \le N^{-1}\,\mathbb{E}\|X\|^4. \]

증명 핵심 — 텐서 표현 + iid cross term 소거:

Theorem 12.1.3 으로 노름 변환: \[ \mathbb{E}\|\hat C - C\|_S^2 = \mathbb{E}\|\hat C - C\|_{\mathcal{H} \otimes \mathcal{H}}^2. \]
\(\hat C = N^{-1}\sum X_n \otimes X_n\), \(C = \mathbb{E}[X \otimes X]\) 이므로 \(\hat C - C = N^{-1}\sum (X_n \otimes X_n - C)\). 노름 제곱 전개: \[ \mathbb{E}\|\hat C - C\|^2 = N^{-2} \sum_{n,m} \mathbb{E}\langle X_n \otimes X_n - C,\, X_m \otimes X_m - C\rangle. \]
iid 가정으로 cross term (\(n \ne m\)) 소거: \(X_n \otimes X_n - C\) 와 \(X_m \otimes X_m - C\) 가 독립이고 각각 평균 \(0\) 이므로 내적 기댓값 \(= 0\).
대각 항만 남음: \[ \mathbb{E}\|\hat C - C\|^2 = N^{-1}\mathbb{E}\langle X \otimes X - C, X \otimes X - C\rangle = N^{-1}\big(\mathbb{E}\|X\|^4 - \|C\|_S^2\big) \le N^{-1}\mathbb{E}\|X\|^4. \]

해석: 핵 함수 \(c(t,s)\) 전체가 \(L^2(T \times T)\) 에서 \(N^{-1/2}\) 속도로 수렴한다. 즉, \[ \mathbb{E} \int\!\int (\hat c(t,s) - c(t,s))^2\, dt\, ds = O(N^{-1}). \] RT-PCR 직관: “두 시점 \(t, s\) 에서의 형광 강도 사이 공분산 — 즉 곡선이 어떻게 같이 변동하는가의 패턴 — 을 \(N\) 개 곡선만 있어도 \(N^{-1/2}\) 속도로 추정할 수 있다.” 이 결과는 함수 GLM·FPCA 회귀·신뢰 대역의 토대가 된다.

5 12.2 — 추정 함수 주성분 (EFPC) 의 일치성

5.1 EFPC 정의의 본질적 모호성 — 부호 문제

함수 주성분 (FPC) \(v_j\) 는 공분산 연산자 \(C\) 의 정규직교 고유함수로 정의된다 (\(C(v_j) = \lambda_j v_j\)). 그런데 \(v_j\) 가 고유함수면 \(-v_j\) 도 같은 고유값에 대응하는 고유함수다 — 부호가 결정되지 않는다.

이 모호성은 추정에서 본질적 문제를 만든다. 데이터로 계산된 추정 EFPC \(\hat v_j\) 가 매번 부호가 뒤집힐 수 있어서, \(\|\hat v_j - v_j\|\) 그대로 거리를 재면 부호 차이만큼 큰 오류가 누적된다.

부호 보정의 트릭

부호 보정 계수 \(\hat c_j\) 를 다음과 같이 정의한다:

\[ \hat c_j = \mathrm{sign}(\langle \hat v_j, v_j\rangle). \]

이 보정 후의 거리 \(\|\hat c_j \hat v_j - v_j\|\) 만 일치성을 논한다.

문제: \(\hat c_j\) 는 데이터에서 계산할 수 없다 (참 \(v_j\) 를 모르기 때문). 따라서 통계량은 \(\hat c_j\) 에 의존하지 않도록 설계해야 한다 — 예를 들어 \(\hat\xi_j^2\) (제곱) 형태는 부호와 무관하므로 안전하다.

직관: “추정된 고유 방향의 부호가 매번 뒤집힐 수 있다는 사실을 인정하고, 그 부호와 무관한 통계량 (분산, 점수 제곱, 사영 거리 등) 만 의미를 가진다.” 다변량 PCA 에서 고유벡터의 부호 모호성을 처리하는 것과 정확히 같은 구조다.

5.2 고유값 단순성 가정 — 직교성과 일치성의 토대

조건 (10.11)

\(\lambda_1 > \lambda_2 > \cdots > \lambda_p > \lambda_{p+1} \ge 0\).

이 가정이 왜 필요한가:

단순 고유값: 각 \(\lambda_j\) 가 1 차원 고유부분공간을 가진다 — \(v_j\) 가 부호 외에는 유일하게 결정된다.
중복 고유값의 문제: \(\lambda_2 = \lambda_3\) 이면 그 고유값에 대응하는 고유함수는 \(v_2, v_3\) 가 펼치는 2 차원 부분공간 안에서만 결정 (어떤 정규직교 기저든 가능). 이 경우 개별 \(\hat v_j\) 의 일치성은 깨지고, 부분공간 (projection) 의 일치성만 보장된다.

다변량 PCA 와의 대비: 다변량에서 \(\Sigma\) 의 단순 고유값 가정은 PCA 의 첫 \(p\) 개 주성분이 유일하게 결정됨을 보장한다. 함수 PCA 도 동일한 구조 — 단순성이 깨지면 직교성이 깨지고, 본 정리의 결론이 성립하지 않는다.

실무에서는 첫 \(p\) 개까지만 단순성을 가정하면 첫 \(p\) 개 EFPC 의 일치성만 보장되고, \(p+1\) 번째부터는 잡음 영역으로 취급한다.

5.3 EFPC 의 정의식 (12.2)

정의: 추정 함수 주성분

\(\hat\lambda_j\) 와 \(\hat v_j\) 는 다음 식의 해다: \[ \int \hat c(t, s)\, \hat v_j(s)\, ds = \hat\lambda_j\, \hat v_j(t), \quad j = 1, 2, \dots, N. \]

이는 표본 공분산 연산자 \(\hat C\) 의 고유분해 와 동일하다: \[ \hat C(\hat v_j) = \hat\lambda_j \hat v_j. \]

다변량에서 표본 공분산 행렬 \(S\) 의 고유분해를 통해 PCA 를 얻는 것과 정확히 같은 구조 — 행렬을 적분 핵 (또는 연산자) 으로 바꾸기만 하면 된다.

5.4 Theorem 12.2.1 — EFPC 와 고유값의 \(N^{-1/2}\) 평균제곱 일치성

Theorem 12.2.1

\(\mathbb{E}\|X\|^4 < \infty\), 가정 12.0.1, 조건 (10.11) 하에서, \(1 \le j \le p\) 일 때:

\[ \limsup_{N \to \infty} N\,\mathbb{E}\|\hat v_j - v_j\|^2 < \infty, \] \[ \limsup_{N \to \infty} N\,\mathbb{E}|\hat\lambda_j - \lambda_j|^2 < \infty. \] (여기서 \(\hat v_j\) 는 부호 보정된 \(\hat c_j \hat v_j\) 를 의미한다.)

의미: \(\|\hat v_j - v_j\| = O_P(N^{-1/2})\), \(|\hat\lambda_j - \lambda_j| = O_P(N^{-1/2})\). 모수적 수렴 속도 \(N^{-1/2}\) 가 함수 데이터에서도 그대로 살아남는다.

증명: Section 12.7 에서 연산자 섭동 이론 (operator perturbation theory) 으로 다룬다. 핵심 아이디어는 \(\hat C - C\) 의 HS 노름 일치성 (Theorem 12.1.4) 을 고유분해 해석에 옮기는 것 — Davis-Kahan 정리의 함수 버전이다.

가정 (10.11) 이 깨지면: 첫 \(p\) 까지가 아니라 모든 \(j \ge 1\) 에 대해 \(\lambda_j > \lambda_{j+1} > 0\) 이 성립하면 모든 \(j\) 에 대해 (12.3) 이 성립한다. 그렇지 않으면 \(\hat v_k\) 의 방향이 \(v_k\) 에 가깝지 않을 수 있다 — Johnstone & Lu (2009) 에서 이런 사례를 다룬다.

시계열 확장: \(X_i\) 가 정상 함수 시계열이고 의존성이 충분히 빠르게 감소하면 (weakly dependent) 동일한 결과가 성립한다 (Horváth & Kokoszka, 2012, Section 16.2). 이는 Ch.8.5~8.6 의 LRCF (장기 공분산 함수) 결과와 정합된다 — iid 가정이 깨져도 \(N^{-1/2}\) 속도가 살아남는다.

모수적 vs 비모수적 속도 비교:

추정 문제	수렴 속도	이유
함수 표본 평균·공분산·EFPC (이 글)	\(O(N^{-1/2})\)	iid 가정 + 같은 무한차원 모집단
단일 곡선 점별 비모수 추정 (예: KS)	\(O(N^{-2/5})\)	차원의 저주
희소 함수 데이터 (Ch.7, \(M = O(1)\))	\(O(N^{-2/5})\)	곡선당 정보 부족
희소 함수 데이터 (\(M \gg N^{1/4}\))	\(O(N^{-1/2})\)	정보 충분 — Ch.7 의 임계값

이 표가 함수 데이터 추론의 기본 지도다 — 12장은 가장 좋은 시나리오 (완전 관측 + iid) 를 다룬다.

5.5 EFPC 의 두 가지 해석

해석 1 — 모집단 모수의 추정

가정 12.0.1 + (10.11) 하에서 \(\hat v_j\) 는 모집단 FPC \(v_j\) 의 일치 추정량이다.

해석 2 — 데이터 적응적 최적 직교 기저

분포 가정 없이도 \(\hat v_j\) 는 다음 의미에서 표본 데이터의 최적 표현을 준다.

\(x_1, \dots, x_N\) 에 대해, 정규직교 \(u_1, \dots, u_p\) 가 \[ \widehat S^2 = \sum_{i=1}^N \big\| x_i - \sum_{k=1}^p \langle x_i, u_k\rangle u_k \big\|^2 \] 을 최소화하면, \(u_k = \hat v_k\) (부호 제외).

해석 2 의 증명 핵심 (\(p = 1\) 케이스):

\(\|u\| = 1\) 인 \(u\) 에 대해 \[ \sum_{i=1}^N \|x_i - \langle x_i, u\rangle u\|^2 = \sum_{i=1}^N \|x_i\|^2 - \sum_{i=1}^N \langle x_i, u\rangle^2. \] 첫 항은 \(u\) 와 무관하므로 두 번째 항을 최대화 하는 \(u\) 를 찾는 문제다. 그런데 \[ \sum_{i=1}^N \langle x_i, u\rangle^2 = \langle \hat C(u), u\rangle. \] Theorem 10.4.5 에 의해 \(\langle \hat C(u), u\rangle\) 의 최댓값은 첫 고유값 \(\hat\lambda_1\) 이고, 그 최댓값을 달성하는 \(u\) 는 첫 EFPC \(\hat v_1\) 이다. 일반 \(p\) 의 경우도 동일한 논리로 첫 \(p\) 개 EFPC 가 \(\hat S^2\) 의 최소화를 보장한다.

왜 두 해석이 모두 중요한가:

해석 1 은 추론 (검정·신뢰 대역) 의 토대 — Ch.12.3~12.6 의 비대칭 분포·신뢰 대역 모두 EFPC 일치성에 의존.
해석 2 는 차원 축소 도구로서 EFPC — 분포 가정이 없어도 작동. FPCA 회귀, 분류, 군집 등 대부분의 응용은 해석 2 에 의존.

다변량 PCA 도 같은 이중성을 갖는다: 모집단 PCA (분포 가정) vs 표본 PCA (데이터 적응적 최적 사영). 함수 PCA 는 그 이중성을 무한차원에서 그대로 이어받는다.

5.6 표본 분산 분해

중심화된 \(x_1, \dots, x_N\) (\(\bar x_N = 0\)) 에 대해 표본 분산은 EFPC 방향의 분산 합으로 분해된다:

\[ \frac{1}{N}\sum_{i=1}^N \|x_i\|^2 = \sum_{j=1}^N \hat\lambda_j. \quad (12.4) \]

유도 핵심: \(\mathrm{span}\{x_1, \dots, x_N\} = \mathrm{span}\{\hat v_1, \dots, \hat v_N\}\) 이므로 \(x_i = \sum_j \langle x_i, \hat v_j\rangle \hat v_j\). 따라서 \[ \sum_i \|x_i\|^2 = \sum_i \sum_j \langle x_i, \hat v_j\rangle^2 = \sum_j \big(\sum_i \langle x_i, \hat v_j\rangle^2\big) = N \sum_j \hat\lambda_j. \]

의미: \(\hat v_j\) 방향의 표본 분산은 \(\hat\lambda_j\). 즉 \(\hat v_j\) 가 설명하는 표본 분산의 비율은 \(\hat\lambda_j / \sum_k \hat\lambda_k\) 다.

이는 모집단 분해 (\(\mathbb{E}X = 0\) 가정 하에서) \[ \mathbb{E}\|X\|^2 = \sum_{j=1}^\infty \lambda_j \] 의 표본 버전이다 — 모집단 식과 형식적으로 동일하지만 무한합이 유한합 (\(\sum_{j=1}^N\)) 으로 줄어든다는 점만 다르다.

5.7 누적 분산 비율 (CPV)

분산 분해 결과를 차원 결정에 활용한다: \[ \mathrm{CPV}(p) = \frac{\sum_{k=1}^p \hat\lambda_k}{\sum_{k=1}^N \hat\lambda_k}. \]

실무 규칙: CPV(p) \(\ge 0.85\) 또는 \(0.90\) 이 되는 가장 작은 \(p\).

직관: “총 분산 중 첫 \(p\) 개 EFPC 가 \(85\%\) 이상을 설명할 정도면, 나머지 차원은 잡음으로 무시해도 분석에 큰 영향이 없다” — 다변량 PCA 의 누적 설명 분산과 동일한 논리.

CPV 와 스크리 도표의 자세한 비교는 Ch.12 overview 글의 차원 결정 섹션을 참조한다.

6 핵심 정리 표

결과	정리	노름	수렴 속도	핵심 가정
표본 평균 비편향	12.1.1	—	—	\(\mathbb{E}\\|X\\|^2 < \infty\)
표본 평균 \(L^2\) 일치	12.1.1	\(L^2\)	\(O(N^{-1/2})\)	동일
공분산 연산자 HS 유한성	12.1.2	HS	—	\(\mathbb{E}\\|X\\|^4 < \infty\)
공분산 연산자 일치	12.1.4	HS	\(O(N^{-1/2})\)	동일
EFPC \(\hat v_j \to v_j\) (부호 보정)	12.2.1	\(L^2\)	\(O_P(N^{-1/2})\)	위 + (10.11)
고유값 \(\hat\lambda_j \to \lambda_j\)	12.2.1	절댓값	\(O_P(N^{-1/2})\)	동일
EFPC = 표본 최적 직교 기저	분포 가정 X	—	—	데이터만
표본 분산 = \(\sum \hat\lambda_j\)	(12.4)	—	—	중심화

한 문장 요약: 함수 데이터의 평균·공분산·고유분해 추정은 다변량과 동일한 모수적 속도 \(N^{-1/2}\) 로 작동한다. 단, 노름 (HS), 부호 (보정), 고유값 단순성 의 세 가지 디테일을 정확히 다루어야 한다.

7 R 코드 — 시뮬레이션을 통한 일치성 직접 확인

7.1 Step 1: 함수 모집단 시뮬레이션 (Karhunen-Loève 표현)

# 5 개 EFPC 와 고유값 lambda_j = 1/j^2 인 가우스 함수 모집단
generate_curves <- function(N, T_grid, K = 5) {
  lambda <- 1 / (1:K)^2
  Phi <- sapply(1:K, function(j) sqrt(2) * sin(j * pi * T_grid))
  mu <- T_grid * (1 - T_grid)

  # 점수 ~ N(0, lambda_j) iid → KL 표현
  scores <- sapply(lambda, function(l) rnorm(N, sd = sqrt(l)))
  X <- matrix(rep(mu, each = N), nrow = N) + scores %*% t(Phi)

  list(X = X, mu = mu, Phi = Phi, lambda = lambda)
}

T_grid <- seq(0, 1, length.out = 100)
sim_template <- generate_curves(N = 1, T_grid)
mu_true <- sim_template$mu
Phi_true <- sim_template$Phi
lambda_true <- sim_template$lambda

7.2 Step 2: 표본 평균의 \(L^2\) 일치성 (Theorem 12.1.1) 검증

N_grid <- c(50, 100, 200, 500, 1000, 2000)
n_rep <- 200

mse_mean <- sapply(N_grid, function(N) {
  mse <- replicate(n_rep, {
    X <- generate_curves(N, T_grid)$X
    mu_hat <- colMeans(X)
    sum((mu_hat - mu_true)^2) * (T_grid[2] - T_grid[1])  # L^2 노름 제곱 근사
  })
  mean(mse)
})

# 이론 예측: O(N^-1) — log-log 기울기 -1
plot(log10(N_grid), log10(mse_mean), type = "b", pch = 19,
     xlab = expression(log[10](N)), ylab = expression(log[10](MSE)),
     main = "Theorem 12.1.1: 표본 평균 L^2 일치성 (기울기 -1)")
fit <- lm(log10(mse_mean) ~ log10(N_grid))
abline(fit, col = "red", lty = 2)
cat(sprintf("기울기 = %.3f (이론값 -1)\n", coef(fit)[2]))

해석: 회귀 기울기가 \(-1\) 에 가까우면 \(\mathbb{E}\|\hat\mu - \mu\|^2 \propto N^{-1}\) 이 확인된다.

7.3 Step 3: 공분산 연산자의 HS 일치성 (Theorem 12.1.4) 검증

# True covariance 함수 c(t,s) = sum lambda_j v_j(t) v_j(s)
c_true <- Phi_true %*% diag(lambda_true) %*% t(Phi_true)

mse_cov <- sapply(N_grid, function(N) {
  mse <- replicate(n_rep, {
    X <- generate_curves(N, T_grid)$X
    X_centered <- scale(X, center = TRUE, scale = FALSE)
    c_hat <- crossprod(X_centered) / N
    sum((c_hat - c_true)^2) * (T_grid[2] - T_grid[1])^2  # HS 노름 = c 의 L^2 노름 제곱
  })
  mean(mse)
})

plot(log10(N_grid), log10(mse_cov), type = "b", pch = 19,
     xlab = expression(log[10](N)), ylab = expression(log[10](HS-MSE)),
     main = "Theorem 12.1.4: 공분산 연산자 HS 일치성 (기울기 -1)")
fit2 <- lm(log10(mse_cov) ~ log10(N_grid))
abline(fit2, col = "red", lty = 2)
cat(sprintf("기울기 = %.3f (이론값 -1)\n", coef(fit2)[2]))

7.4 Step 4: EFPC 부호 보정과 일치성 (Theorem 12.2.1) 검증

N <- 1000
sim <- generate_curves(N, T_grid)
X_centered <- scale(sim$X, center = TRUE, scale = FALSE)
c_hat <- crossprod(X_centered) / N

ev <- eigen(c_hat, symmetric = TRUE)
v_hat_raw <- ev$vectors
lambda_hat <- ev$values * (T_grid[2] - T_grid[1])  # 이산 → 연속 보정

# 부호 보정 — 첫 5 개 EFPC
v_hat <- sapply(1:5, function(j) {
  c_j <- sign(sum(v_hat_raw[, j] * Phi_true[, j]))
  c_j * v_hat_raw[, j] / sqrt(T_grid[2] - T_grid[1])  # L^2 정규화
})

# 추정 vs 진실 비교 (첫 3 개)
matplot(T_grid, Phi_true[, 1:3], type = "l", lty = 1, lwd = 2,
        col = c("red", "blue", "darkgreen"), ylab = "v_j(t)",
        main = "True (실선) vs Estimated (점선) EFPC")
matlines(T_grid, v_hat[, 1:3], lty = 2, lwd = 2,
         col = c("red", "blue", "darkgreen"))

cat("고유값 비교 (첫 5 개):\n")
print(data.frame(true = lambda_true, hat = lambda_hat[1:5],
                 abs_err = abs(lambda_hat[1:5] - lambda_true)))

해석: - 부호 보정 후 추정 EFPC 가 진실 EFPC 와 시각적으로 거의 일치한다. - 고유값 추정 오차가 \(N = 1000\) 에서 \(0.01 \sim 0.05\) 수준 — \(N^{-1/2} \approx 0.03\) 와 일치. - 부호 보정 없이 \(\hat v_j\) 와 \(v_j\) 를 비교하면 (예: 보정 라인 제거) 일부 EFPC 의 부호가 뒤집혀 그래프가 정반대로 그려진다 — 부호 모호성의 직접 시연.

7.5 Step 5: 표본 분산 분해 (12.4) 와 CPV 검증

# 표본 분산 = sum lambda_hat
total_sample_var <- mean(rowSums(X_centered^2)) * (T_grid[2] - T_grid[1])
sum_lambda_hat <- sum(lambda_hat)
cat(sprintf("(1/N) Σ ||x_i||^2 = %.4f\n", total_sample_var))
cat(sprintf("Σ lambda_hat_j     = %.4f\n", sum_lambda_hat))
cat(sprintf("(상대 오차: %.4f%%)\n",
            100 * abs(total_sample_var - sum_lambda_hat) / total_sample_var))

# CPV
cpv <- cumsum(lambda_hat) / sum(lambda_hat)
plot(1:10, cpv[1:10], type = "b", pch = 19,
     xlab = "p", ylab = "CPV(p)",
     main = "누적 분산 비율 (CPV) — 임계 0.85, 0.90")
abline(h = c(0.85, 0.90), lty = 2, col = c("orange", "red"))
cat(sprintf("CPV(p) >= 0.85 인 가장 작은 p: %d\n", which(cpv >= 0.85)[1]))
cat(sprintf("CPV(p) >= 0.90 인 가장 작은 p: %d\n", which(cpv >= 0.90)[1]))

해석: \(\sum \hat\lambda_j\) 와 표본 분산의 일치는 (12.4) 의 직접 검증이다. CPV 그래프에서 첫 3~4 개 EFPC 가 \(90\%\) 이상의 분산을 설명하면, \(p = 3 \sim 4\) 가 적절한 차원이다.

8 응용 분야

분야	12.1~12.2 결과의 직접 활용
임상시험 longitudinal	환자별 곡선의 평균·공분산 추정 → 그룹 간 비교 (Ch.12.4 검정의 토대)
금융 (BOA)	일중 평균 수익률·공분산 패턴 추정 (Ch.12.6 적용)
RT-PCR 진단	정상/비정상 곡선의 평균 곡선 + EFPC 분류 (Ch.7 PACE 와 보완)
DTI/fMRI	부분 비등방성 곡선의 그룹 평균 추정 + 다중 비교 (Ch.12.5 동시 신뢰 대역의 토대)
환경 (기온 곡선)	지역별 일별 기온 곡선의 EFPC 분해 → 공간 함수 데이터 (Ch.9) 와 연결

특히 RT-PCR 응용에서: - 정상 곡선 N 개의 평균 추정 → 진단 기준선 - 공분산 연산자 + EFPC → 형광 신호의 주요 변동 패턴 (예: 증폭 시작 시점, 플래토 형태) - 부호 보정의 실무적 의미: 동일 분석을 다른 데이터셋에서 반복할 때 EFPC 그림의 부호가 일관되도록 보정 단계가 필요하다.

9 관련 주제

선행 지식

본 글의 대상 (Ch.12.1~12.2 본문)

Ch.12 — 확률 표본으로부터의 추론 개관: 표본 평균·EFPC·신뢰 대역·BOA 적용 — Ch.12 전체의 한 호흡 정리

후속 주제 (Ch.12 의 나머지 절)

12.3 점근 정규성과 함수 CLT
12.4~12.5 평균 함수 검정과 동시 신뢰 대역
12.6 BOA 누적 수익률 적용 (Ch.1 시작점의 종착)

시계열 확장

8.5~8.6 — 장기 공분산 함수 (LRCF) 와 정상성 검정 — iid 가정이 깨질 때의 확장
Horváth & Kokoszka (2012) Section 16.2 — weakly dependent 함수 시계열에서 (12.3) 가 살아남는 조건

10 참고문헌

Kokoszka, P., & Reimherr, M. (2017). Introduction to Functional Data Analysis, Sections 12.1, 12.2. Chapman & Hall/CRC.
Bosq, D. (2000). Linear Processes in Function Spaces — 일치성 증명의 표준 참조.
Hsing, T., & Eubank, R. (2015). Theoretical Foundations of Functional Data Analysis — 수학적 심화.
Horváth, L., & Kokoszka, P. (2012). Inference for Functional Data with Applications — 시계열 확장.
Johnstone, I. M., & Lu, A. Y. (2009). On Consistency and Sparsity for Principal Components Analysis in High Dimensions — 단순성 가정이 깨지는 사례.