Kwangmin Kim - FDA 11.1~11.2 — 거리 공간의 확률 원소와 Hilbert 공간의 기댓값·공분산

1 이 절의 위치와 목적

Ch.10 이 Hilbert 공간 + 연산자 라는 결정적 framework 를 정착시켰다면, 11.1~11.2 는 그 위에 확률 을 올린다.

두 절의 역할

11.1: 함수 공간을 일반적인 거리 공간으로 추상화하여, 그 안에서 “수렴” 의 세 종류 (약/분포/확률) 를 정의한다. Slutsky·연속 사상 정리로 점근 통계의 자동 변환 도구를 갖춘다.
11.2: 수렴이 정의되었으니 이제 모수 — 기댓값과 공분산 — 가 함수 공간에 잘 정의됨을 보인다. 공분산 연산자가 symmetric + nonnegative-definite + nuclear 의 3 조건과 동치임을 증명한다.

1.1 왜 이 두 절이 함께 묶이는가

함수 데이터의 표본 평균 일치성 (\(\bar{X}_N \to \mu\)) 을 진술하려면:

\(X_i\) 가 어느 공간의 가측 사상 — 확률 원소 (11.1).
\(\to\) 의 의미가 정의됨 — 수렴 모드 (11.1).
\(\mu = E X\) 가 그 공간 안에 실제 존재 — 약적분 (11.2).
분산 감소율을 따지려면 공분산 연산자가 잘 정의됨 — 공분산 연산자 특성화 (11.2).

이 4 단계가 모든 함수 추론의 출발점 — 11.1·11.2 가 정확히 1~4 를 차례로 정착시킨다.

1.2 비유: 무대 → 배우 → 행동 양식

Ch.10 = 무대 (Hilbert 공간). 11.1 = 배우 정의 (어떤 함수가 확률 함수가 되는가, 어떻게 다른 배우와 가까워지는가). 11.2 = 배우의 무게중심과 형태 (기댓값, 공분산).

배우가 무대 위에 서야 비로소 연극 (Ch.12 의 표본 추론) 이 시작된다.

1.3 학습 목표

이 포스트를 마치면 독자는:

확률 원소 의 정의와 Borel σ-대수의 역할.
약수렴·분포수렴·확률수렴 의 정의와 함의 관계.
Slutsky 정리·연속 사상 정리 의 구체적 응용.
약적분 가능성 과 기댓값 \(E X\) 의 존재 보장.
공분산 연산자의 적분 핵 표현 및 3 조건 (symmetric, nonneg, nuclear) 특성화.

이 5 개가 Ch.12 (표본 추론), Ch.7 (PACE), Ch.8 (FAR(1)) 의 점근 결과를 읽고 증명할 수 있는 최소 도구.

2 거리 공간의 확률 원소 (11.1)

2.1 측정 가능 사상의 정의

Random Element (Definition)

확률 공간 \((\Omega, \mathfrak{O}, P)\) 와 거리 공간 \(\mathcal{S}\) 가 주어졌다. 사상 \(X: \Omega \to \mathcal{S}\) 가 임의의 Borel 집합 \(A \in \mathfrak{S}\) (즉 \(\mathcal{S}\) 의 Borel σ-대수) 에 대해

\[ X^{-1}(A) \in \mathfrak{O} \]

를 만족하면, \(X\) 를 \(\mathcal{S}\) 에서의 확률 원소 라 한다.

\(\mathcal{S} = \mathbb{R}\) 이면 random variable.
\(\mathcal{S} = \mathbb{R}^k\) 이면 random vector.
\(\mathcal{S}\) 가 함수 공간이면 random function.

2.2 직관: 측정 가능성 = “확률을 잴 수 있다”

\(X^{-1}(A)\) 가 \(\mathfrak{O}\) 에 속한다 = \(X(\omega) \in A\) 라는 사건이 확률을 정의할 수 있는 사건.

수학적으로는: 어떤 영역 \(A\) 가 정해지면 그 영역으로 매핑되는 \(\omega\) 들의 집합이 확률 측도 \(P\) 의 정의역에 속해야 한다.

2.3 비유: 카메라 셔터의 합법적 영역

\(\Omega\) 가 모든 가능한 자연 상태들의 집합 (무대 뒤편), \(X\) 가 그 상태를 \(\mathcal{S}\) 안의 한 점으로 사상하는 카메라.

카메라가 측정 가능 ⟺ “\(\mathcal{S}\) 안의 어떤 합법적 영역 (Borel 집합) 으로 찍히는 자연 상태들의 집합” 이 항상 \(P\) 로 잴 수 있는 사건. 측정 불가능한 사상 = 카메라가 “합법적 영역” 자체를 정의할 수 없는 고장난 도구.

2.4 분포 (Distribution) 의 정의

확률 원소 \(X\) 가 주어지면, \(\mathcal{S}\) 위에 자연스러운 측도 \(\mu\) 가 정의된다:

\[ \mu(A) = P(X^{-1}(A)) = P(\omega \in \Omega : X(\omega) \in A) = P(X \in A). \]

\(\mu\) 를 \(X\) 의 분포 라 한다. 이로써 \(\Omega\) 의 추상적 사건이 \(\mathcal{S}\) 의 직관적 영역의 확률로 변환된다.

2.5 비유: 사진의 가중 분포

\(\mu(A)\) = “\(\mathcal{S}\) 안의 영역 \(A\) 에서 카메라가 찍는 빈도”. 즉 \(\mu\) 가 \(\mathcal{S}\) 위의 가중치 분포 — 어디가 “자주” 찍히고 어디가 “드물게” 찍히는지.

수렴 정의는 모두 이 측도 \(\mu\) 의 변화로 표현된다.

2.6 거리 공간의 가정: separable

이 절 전체에서 \(\mathcal{S}\) 가 separable metric space 라 가정 — \(\mathcal{S}\) 안에 가산 (countable) 인 dense subset 이 존재.

직관: \(L^2[0, 1]\) 가 separable (예: 다항식이 dense, 다항식 자체는 가산이 아니나 유리 계수 다항식은 가산 + dense). 함수 공간 대부분이 separable.

Separable 이 왜 필요한가

Theorem 11.1.1 (약수렴의 등가 조건) 의 증명에서 “유한 cover + 가산 근사” 의 측도론 기법이 사용. Separable 이 아닌 공간에서는 그 기법이 통하지 않아 약수렴의 정의가 깨진다 (Billingsley 1968 Ch.1).

3 약수렴 (Weak Convergence)

3.1 정의 11.1.1

Weak Convergence (Definition 11.1.1)

확률 측도 \(\mu_n, \mu\) 가 separable 거리 공간 \(\mathcal{S}\) 위에 정의되었을 때:

\[ \mu_n \xrightarrow{w} \mu \iff \int_{\mathcal{S}} f \, d\mu_n \to \int_{\mathcal{S}} f \, d\mu, \quad \forall f \in C_b(\mathcal{S}) \]

여기서 \(C_b(\mathcal{S})\) 는 \(\mathcal{S}\) 위 유계 연속 실함수의 집합.

3.2 직관: “모든 매끄러운 가격표” 에 대한 평균이 가까워진다

스칼라 분포수렴은 CDF \(F_n(t) \to F(t)\) (연속점에서) 로 정의. 다차원·함수 공간에서는 CDF 라는 개념이 없거나 다루기 어렵다.

대신 모든 유계 연속 함수에 대한 적분이 수렴 한다는 등가 정의를 채택. 이것이 거리 공간 일반에 자연스럽게 일반화된다.

3.3 비유: 도자기 가게의 매상 비교

가게 A 와 B 가 각각 분포 \(\mu_n\) 과 \(\mu\) 의 도자기를 진열. 어떤 가격 함수 \(f\) (유계 연속) 든 “A 의 기대 매상 \(\int f \, d\mu_n\) 이 B 의 기대 매상 \(\int f \, d\mu\) 로 가까워진다” 면 → 두 가게의 진열 분포 자체가 가까워진 것.

가격표마다 일일이 비교할 필요 없이 “모든 매끄러운 가격표 에 대한 매상이 동시에 가까워진다” 는 한 조건이 분포의 근접성을 결정.

3.4 Theorem 11.1.1 — 약수렴의 등가 조건

두 등가 조건

다음 두 조건은 동치 (Billingsley 1968):

Continuous test functions: 임의의 유계 연속 \(f\) 에 대해 \(\int f d\mu_n \to \int f d\mu\).
Continuity sets: 임의의 \(\mu\)-continuity set \(A\) (즉 \(\mu(\partial A) = 0\)) 에 대해 \(\mu_n(A) \to \mu(A)\).

3.5 직관: 경계가 두꺼우면 확률이 점프할 수 있다

\(\mu(\partial A) = 0\) 조건이 핵심. 만약 분포 \(\mu\) 가 경계 \(\partial A\) 에 양의 질량 (mass) 을 두면, \(\mu_n\) 은 그 경계에 mass 를 안 가질 수도 있어 \(\mu_n(A)\) 가 \(\mu(A)\) 로 수렴하지 않을 수 있다.

스칼라 예시: \(X_n \equiv 1/n \to 0\) 이고 \(A = (-\infty, 0]\) 일 때, \(\mu_n(A) = 0\) 이지만 \(\mu(A) = 1\). \(A\) 의 경계 \(\{0\}\) 가 \(\mu\) 의 atom — continuity set 이 아니므로 약수렴이 \(A\) 에서 깨짐.

이 미묘함이 함수 공간에서도 그대로 — 약수렴은 “경계가 얇은 영역” 에서만 점별 수렴을 보장.

3.6 Theorem 11.1.1 의 시뮬레이션 직관

# 스칼라 약수렴 시뮬레이션
set.seed(1)
N <- 1000
xn <- 1/seq_len(50)             # X_n = 1/n
samples <- list()
for (n in seq_len(50)) {
  samples[[n]] <- rep(xn[n], N) + 1e-9*rnorm(N)  # near-degenerate
}
# A = (-inf, 0]: continuity set 이 아님 → 약수렴 깨짐
sapply(samples, function(s) mean(s <= 0))   # 모두 0 (μ_n(A) = 0)
# 그러나 μ(A) = 1 (X = 0 의 분포에서 A 가 전체 mass)
# A = (-inf, 0.5]: continuity set → 모두 1 (수렴 정상)
sapply(samples, function(s) mean(s <= 0.5)) # 1로 수렴

위 코드가 보여주는 바: continuity set 의 선택이 약수렴 진단에 결정적.

4 분포수렴과 확률수렴

4.1 두 모드의 정의

Definition 11.1.2 — Convergence in Distribution

\(X_n \xrightarrow{d} X\) ⟺ \(X_n\) 의 분포 \(\mu_n\) 이 \(X\) 의 분포 \(\mu\) 로 약수렴.

등가 조건 (Theorem 11.1.1 (b)): \(P(X_n \in A) \to P(X \in A)\), 임의의 \(\mu\)-continuity set \(A\).

Definition 11.1.3 — Convergence in Probability

\(X_n \xrightarrow{P} X\) ⟺ 임의의 \(\epsilon > 0\) 에 대해

\[ P(d(X_n, X) > \epsilon) \to 0. \]

4.2 두 수렴의 차이

항목	\(X_n \xrightarrow{P} X\)	\(X_n \xrightarrow{d} X\)
표본 공간	\(X_n, X\) 가 같은 \(\Omega\) 에 정의 (필수)	다른 표본 공간 가능
비교 대상	같은 \(\omega\) 의 \(X_n(\omega)\) vs \(X(\omega)\)	분포 \(\mu_n\) vs \(\mu\)
함의	\(X_n \xrightarrow{P} X \Rightarrow X_n \xrightarrow{d} X\)	역은 일반적으로 거짓

4.3 직관: 같은 사람의 키 vs 두 도시의 평균 키

확률수렴: 같은 사람을 시간에 따라 측정. \(X_n(\omega)\) 과 \(X(\omega)\) 가 동일 표본 (같은 \(\omega\)) 에서 가까워진다.
분포수렴: 두 도시 (또는 두 시점) 의 평균 키 분포 자체가 가까워진다. 같은 사람이라는 개념이 없음.

함수 데이터에서: - \(\sqrt{N}(\bar{X}_N - \mu) \xrightarrow{d} Z\) (가우스 함수) — 분포수렴, \(\bar{X}_N\) 과 \(Z\) 는 다른 객체. - \(\bar{X}_N \xrightarrow{P} \mu\) — 확률수렴, 같은 표본 평균이 모평균으로 가까워짐.

4.4 비유: 두 모드를 구분하지 않으면 생기는 함정

뉴스에서 “한국 평균 키가 일본 평균 키로 수렴한다” (분포수렴) 와 “내 키가 형의 키로 수렴한다” (확률수렴) 는 의미가 전혀 다르다. 함수 데이터의 점근 결과를 읽을 때 두 모드를 혼동하면 결론이 뒤집힌다.

5 점근 통계의 4 개 무기

5.1 Theorem 11.1.2

Theorem 11.1.2 — 약화된 거리의 분포 보존

\(X_n \xrightarrow{d} X\) 이고 \(d(X_n, Y_n) \xrightarrow{P} 0\) 이면 \(Y_n \xrightarrow{d} X\).

특수 케이스: \(X_n = X\) 두면 — 확률수렴이 분포수렴을 imply.

5.2 직관: “거의 같은” 것은 분포수렴을 공유

\(Y_n\) 이 \(X_n\) 과 거리가 0 으로 확률수렴하면 — 두 수열이 사실상 같은 분포 한계를 갖는다.

함수 데이터 응용: 추정량 \(\hat{X}_N\) 이 분포수렴하고, 그 추정량을 약간 수정한 \(\tilde{X}_N\) 이 거리 0 으로 수렴하면, \(\tilde{X}_N\) 도 같은 분포 한계.

5.3 Theorem 11.1.3 — 절단 기법

무한차원 분포수렴의 표준 증명 도구

각 \(u\) 에 대해 \(X_n(u) \xrightarrow{d} X(u)\), \(X(u) \xrightarrow{d} X\) (\(u \to \infty\)). 그리고

\[ \lim_{u \to \infty} \limsup_{n \to \infty} P(d(X_n(u), X_n) > \epsilon) = 0 \]

이 만족되면 \(X_n \xrightarrow{d} X\).

5.4 직관: 유한차원 절단 + 잔차 통제

함수 (무한차원) 의 분포수렴을 직접 증명하기 어렵다. 대신:

\(u\) 차원으로 절단한 \(X_n(u)\) 가 분포수렴 (유한차원 — 쉬움).
절단 차원 \(u\) 가 커지면 \(X(u)\) 가 \(X\) 로 수렴 (KL 절단 등).
잔차 (절단 후 남은 부분) 가 sup 의 의미에서 작아짐.

이 세 단계가 함수 공간의 모든 CLT 증명의 표준 ankle. Bosq (2000) 의 Hilbert CLT, Hörmann-Kokoszka (2010) 의 weak dependence CLT 모두 이 절단 기법.

5.5 Theorem 11.1.4 — 연속 사상 정리

Continuous Mapping Theorem

\(h: \mathcal{S} \to \mathcal{S}'\) 의 불연속 점 집합 \(D_h\) 가 \(P(X \in D_h) = 0\) 만족. \(X_n \xrightarrow{d} X\) 이면

\[ h(X_n) \xrightarrow{d} h(X). \]

5.6 직관: 연속 변환은 분포수렴을 보존

핵심: 연속성 이 분포의 한계를 변환에 안전하게 통과시킨다.

함수 데이터 응용: - \(\bar{X}_N \xrightarrow{d} Z\) ⟹ \(\|\bar{X}_N\|^2 \xrightarrow{d} \|Z\|^2 = \sum \lambda_j N_j^2\). - \(\bar{X}_N \xrightarrow{d} Z\) ⟹ 임의의 매끄러운 통계량 \(T(\bar{X}_N) \xrightarrow{d} T(Z)\).

비유: 함수 → 함수 의 매끄러운 변환은 분포수렴이라는 “흐름” 을 깨뜨리지 않는다 — 신뢰 대역, 가설 검정, 부분 통계량 모두 자동 보존.

5.7 Theorem 11.1.5 — Slutsky’s Theorem

Slutsky’s Theorem

\(X_n \xrightarrow{d} X\) 이고 \(Y_n \xrightarrow{P} a\) (\(a\) 는 \(\mathcal{S}\) 의 한 점) 이면

\[ (X_n, Y_n) \xrightarrow{d} (X, a) \in \mathcal{S} \times \mathcal{S}. \]

5.8 스칼라에서의 결과 (Problem 11.1)

다음이 Slutsky + 연속 사상 으로 자동 도출:

\(X_n \xrightarrow{d} X\), \(Y_n \xrightarrow{P} a\) ⟹ \(X_n + Y_n \xrightarrow{d} X + a\), \(Y_n X_n \xrightarrow{d} a X\).
\(X_n \xrightarrow{d} X\), \(Y_n \xrightarrow{P} a \neq 0\) ⟹ \(X_n / Y_n \xrightarrow{d} X / a\).

5.9 직관: “확률수렴하는 잡음은 분포수렴 결과에 영향 없다”

\(Y_n\) 이 상수 \(a\) 로 확률수렴하면, \(X_n\) 의 분포수렴 결과에 \(Y_n\) 을 결합해도 분포수렴이 보존된다. 핵심: \(Y_n\) 의 변동성이 점진적으로 0 → \(X_n\) 의 분포 변동성만 살아남음.

5.10 비유: 정밀 저울과 흔들리는 받침

저울에 무언가를 올릴 때 받침이 흔들리지 않으면 (확률수렴) 측정값의 분포가 안정. 받침이 점점 안정 (\(Y_n \xrightarrow{P} a\)) 되면 측정값 분포 (\(X_n\)) 의 한계 분포도 그대로 살아남는다.

5.11 Slutsky 의 핵심 응용: t 통계량의 점근 분포

스칼라 t 통계량:

\[ T_N = \frac{\sqrt{N}(\bar{X}_N - \mu)}{S_N} \]

여기서: - 분자 \(\sqrt{N}(\bar{X}_N - \mu) \xrightarrow{d} Z \sim N(0, \sigma^2)\) (CLT). - 분모 \(S_N \xrightarrow{P} \sigma\) (LLN + 연속 사상).

Slutsky → \(T_N \xrightarrow{d} Z / \sigma \sim N(0, 1)\).

함수 t 통계량도 같은 패턴. 이 한 정리가 t·F·Wald·LR 모든 검정의 점근 정규성을 보장 — 모든 점근 통계의 톱니바퀴.

5.12 4 개 무기의 종합 표

4 개 무기의 역할

정리	입력	출력	역할
11.1.2	\(X_n \xrightarrow{d} X\), \(d(X_n, Y_n) \xrightarrow{P} 0\)	\(Y_n \xrightarrow{d} X\)	약화된 거리 처리
11.1.3	절단 + 잔차 통제	무한차원 분포수렴	함수 CLT 의 표준 증명
11.1.4	\(X_n \xrightarrow{d} X\), \(h\) 연속	\(h(X_n) \xrightarrow{d} h(X)\)	통계량 변환
11.1.5	\(X_n \xrightarrow{d} X\), \(Y_n \xrightarrow{P} a\)	\((X_n, Y_n) \xrightarrow{d} (X, a)\)	t 통계량·Wald 검정

이 4 개가 갖춰지면 모든 점근 결과를 다른 점근 결과로 자동 변환 가능.

6 Hilbert 공간의 적분 가능성 (11.2)

이제 \(\mathcal{S}\) 가 Hilbert 공간 \(\mathcal{H}\) 라고 가정. 즉 random function 이 \(\mathcal{H}\) 값을 가짐.

6.1 두 적분 가능성

Definition 11.2.1 — Strong vs Weak Integrability

확률 함수 \(X: \Omega \to \mathcal{H}\):

Strongly integrable: \(E \|X\| < \infty\).
Weakly integrable: 임의의 \(y \in \mathcal{H}\) 에 대해 \(E |\langle X, y \rangle| < \infty\) 이고, 다음을 만족하는 유일한 \(e \in \mathcal{H}\) 존재:

\[ E[\langle X, y \rangle] = \langle e, y \rangle, \quad \forall y \in \mathcal{H}. \tag{11.1} \]

이 \(e\) 를 기댓값 이라 부르고 \(E X := e\) 로 표기.

6.2 Strong ⇒ Weak (Problem 11.6)

\(E \|X\| < \infty\) ⟹ Cauchy-Schwarz 에 의해 \(E |\langle X, y \rangle| \leq \|y\| E\|X\| < \infty\) → weakly integrable.

역은 일반적으로 거짓 — weak integrable 이지만 \(E\|X\| = \infty\) 인 예가 있음 (Banach 공간에서 흔함).

6.3 직관: 왜 약적분이 자연스러운가

스칼라 기댓값 = \(\sum X(\omega) P(d\omega)\). 함수 기댓값을 같은 방식으로 정의하려면 “함수 + 가중치 + 합 = 함수” 라는 무한차원 합 정의가 필요 — 매끄럽지 않다.

대신 각 방향 \(y\) 로 사영한 후 그 위에서 스칼라 기댓값을 취하는 우회 — \(E\langle X, y \rangle\). 이 결과가 어떤 함수 \(e\) 의 사영이라면, 그 \(e\) 를 기댓값으로 정의 — 이것이 약적분.

6.4 비유: 입체 무게중심을 평면 그림자로 결정

3D 입체의 무게중심을 직접 계산하지 않고 각 평면으로의 그림자 무게중심 을 모두 모으면 자동으로 입체의 무게중심이 결정된다 (Riesz 표현). 약적분이 정확히 이 사고를 무한차원으로 일반화.

6.5 Riesz 표현 정리와의 연결

Theorem 10.2.3 (Riesz): Hilbert 공간 위 임의의 연속 선형 범함수 \(L\) 이 \(L(y) = \langle e, y \rangle\) 형태 — 유일한 \(e\) 존재.

Definition 11.2.1 의 약적분이 정확히 이 기계 적용:

\(L(y) := E[\langle X, y \rangle]\) 가 \(\mathcal{H}\) 위 연속 선형 범함수임을 확인.
Riesz → 유일한 \(e \in \mathcal{H}\) 존재, \(L(y) = \langle e, y \rangle\).
그 \(e\) 가 곧 \(E X\).

Riesz = 약적분의 자동 보장 장치 — Hilbert 구조가 있으면 기댓값이 공짜로 따라온다.

6.6 Example 11.2.1 — \(L^2\) 에서의 기댓값 명시 형태

\(\mathcal{H} = L^2\) 인 경우

\(X(\omega, t)\) 가 \(L^2[0, 1]\) 값 random function 이고

\[ E\Bigl\{\int X^2(t) \, dt\Bigr\}^{1/2} < \infty \]

이면 \(X\) 는 strongly integrable. 이때 기댓값 \(e = E X\) 가 다음 형태:

\[ e(t) = E[X(t)], \quad \text{a.e. } t \in [0, 1]. \]

6.7 증명 스케치 (Cauchy-Schwarz + Fubini)

\(E \|X\| < \infty\) + Cauchy-Schwarz → \(E \int |X(t) y(t)| dt < \infty\) → Fubini 로 \(E\) 와 \(\int\) 의 순서 교환:

\[ E \int X(t) y(t) \, dt = \int E[X(t)] y(t) \, dt = \int e(t) y(t) \, dt. \]

\(y\) 가 임의이므로 \(e(t) = E[X(t)]\) a.e. — 함수 기댓값이 점별 기댓값과 일치.

6.8 직관: \(L^2\) 에서는 점별 정의로 환원

추상적으로 정의된 \(E X\) 가 \(L^2\) 의 경우 단순히 “각 점 \(t\) 에서의 스칼라 기댓값을 모은 함수” 와 같다 — 가장 친숙한 형태로 환원.

6.9 비유: 모든 실험자가 \(t = 0.5\) 에서 측정한 값의 평균

기온 곡선을 100 일 측정. 정오 (\(t = 0.5\)) 의 기온 평균은 단순한 산술 평균. 12 시 → 12 시 30 분 → … 모든 시각의 평균이 모이면 평균 곡선 — 그 곡선이 곧 \(E X\).

이 등가성이 함수 데이터의 표본 평균 추정량 \(\bar{X}_N(t) = N^{-1} \sum X_i(t)\) 의 점별 정의를 정당화.

6.10 Theorem 11.2.1 — 기댓값의 두 핵심 성질

Theorem 11.2.1

\(X\) 가 적분 가능이면:

(a) Contraction: \(\|E X\| \leq E \|X\|\).

(b) Linear Operator Commutativity: 임의의 유계 선형 연산자 \(L\) 에 대해

\[ E[L(X)] = L(E X). \]

6.11 Contraction 의 증명

\(e = E X\) 로 두면:

\[ |\langle e, y \rangle| = |E\langle X, y \rangle| \leq E |\langle X, y \rangle| \leq \|y\| E \|X\|. \]

\(y = e\) 대입 → \(\|e\|^2 \leq \|e\| E \|X\|\) → \(\|e\| \leq E \|X\|\).

6.12 직관: 평균이 극단을 부드럽게 한다

표본의 노름 평균 \(E\|X\|\) 가 평균의 노름 \(\|E X\|\) 보다 작지 않다 — 즉 평균을 취하면 노름이 작아질 뿐. 분산이 있으면 더 작아짐 (Jensen 의 부등식의 함수 버전).

6.13 비유: 평균 위치와 평균 거리

지점 100 개의 지구 중심으로부터 평균 거리 = \(E\|X\|\). 100 개 지점의 평균 위치의 거리 = \(\|E X\|\). 평균 위치는 항상 더 가까움 (지점들이 분산되어 있으면 평균은 더 안쪽).

6.14 Commutativity 의 증명

\(e' = L(e)\) 와 \(e' = E[L(X)]\) 가 같음을 보이려면 임의의 \(y \in \mathcal{H}\) 에 대해:

\[ \langle L(e), y \rangle = \langle e, L^*(y) \rangle = E\langle X, L^*(y) \rangle = E\langle L(X), y \rangle = \langle e', y \rangle. \]

수반 연산자 \(L^*\) (Definition 10.3.1) 의 정의를 통과해 자동으로 도출.

6.15 직관: 선형 연산자는 기댓값과 자유롭게 순서 교환

함수 회귀의 추정량이 \(\hat{\beta} = L(X_1, \ldots, X_N)\) 형태 (\(L\) 이 선형) 이면 → \(E \hat{\beta} = L(\mu_1, \ldots, \mu_N)\). 즉 추정량의 기댓값 = 모수의 기댓값 이 자동 성립.

이 한 줄이 함수 회귀, FPCA, 적분 변환의 모든 unbiasedness 증명의 출발점.

7 공분산 연산자 (11.2)

7.1 Definition 11.2.2

Covariance Operator

\(X\) 가 square integrable (\(E\|X\|^2 < \infty\)) 이면, 공분산 연산자 \(C: \mathcal{H} \to \mathcal{H}\):

\[ C(y) = E\bigl[\langle X - E X, y \rangle (X - E X)\bigr], \quad y \in \mathcal{H}. \]

표기를 단순화하기 위해 보통 \(E X = 0\) 으로 가정 → \(C(y) = E[\langle X, y \rangle X]\).

7.2 다변량과의 일치

\(\mathcal{H} = \mathbb{R}\) 이면: \(C(y) = E[X y X] = \mathrm{Var}[X] \cdot y\) → 분산.

\(\mathcal{H} = \mathbb{R}^d\) 이면: \(C\) 가 공분산 행렬 \(\Sigma\) 와 동일 (Problem 11.7).

7.3 \(L^2\) 에서의 적분 핵 형태

\(\mathcal{H} = L^2\) 의 경우

\(y \in L^2\) 에 대해:

\[ C(y)(t) = E\Bigl[\Bigl(\int X(s) y(s) \, ds\Bigr) X(t)\Bigr] = \int c(t, s) y(s) \, ds, \tag{11.2} \]

여기서 공분산 함수:

\[ c(t, s) = E[X(t) X(s)], \quad s, t \in [0, 1]. \tag{11.3} \]

7.4 직관: 두 표현의 등가성

연산자 표현 \(C: L^2 \to L^2\): 추상적·일반적 — 임의 Hilbert 공간에 적용.
함수 표현 \(c(t, s)\): 구체적·시각화 가능 — 히트맵, 등고선 등으로 그릴 수 있음.

FDA 실무에서는 함수 표현 이 더 자주 사용. 그러나 이론적 증명 에서는 연산자 표현이 단순 (텐서 공간 \(\mathcal{S}\) 의 원소로 다루기 편함).

7.5 비유: 자동차의 엔진 vs 부품 도면

연산자 표현 = 자동차 엔진 자체 — 작동 원리를 이해하는 데 핵심. 함수 표현 = 부품 도면 — 시각화·디자인·진단에 편리. 둘은 같은 자동차의 다른 표현.

7.6 코드: BOA 수익률 데이터의 공분산 함수 시각화

# 가상의 분 단위 누적 로그수익률 데이터
library(fda)
N <- 100
T <- 50
times <- seq(0, 1, length.out = T)
# 브라운 운동 시뮬레이션 (Wiener 처럼 작동)
X <- matrix(0, N, T)
for (i in seq_len(N)) {
  X[i, ] <- cumsum(rnorm(T, sd = 1/sqrt(T)))
}
# 평균 함수
mu_hat <- colMeans(X)
# 공분산 함수 c(t, s) = E[(X(t) - mu(t))(X(s) - mu(s))]
X_centered <- sweep(X, 2, mu_hat)
c_hat <- (t(X_centered) %*% X_centered) / N
# 시각화
filled.contour(times, times, c_hat,
               main = "Estimated covariance function c(t,s)",
               xlab = "t", ylab = "s")

c_hat 의 대각선 부분이 분산, 비대각선이 두 시점 간 동시 변동. 브라운 운동의 경우 \(c(t, s) = \min(t, s)\) 형태가 이론값.

8 공분산 연산자의 특성화 (Theorem 11.2.2)

8.1 정리의 진술

Theorem 11.2.2 — 3 조건 특성화

\(C: \mathcal{H} \to \mathcal{H}\) 가 어떤 square integrable \(X\) 의 공분산 연산자 ⟺ 다음 3 조건 동시 만족:

Symmetric: \(\langle C(y), z \rangle = \langle y, C(z) \rangle\), \(\forall y, z \in \mathcal{H}\).
Nonnegative-definite: \(\langle C(y), y \rangle \geq 0\), \(\forall y \in \mathcal{H}\).
Nuclear (Trace class): \(C\) 의 고유값들이 \(\sum_{j=1}^\infty \lambda_j < \infty\) 만족.

8.2 Symmetric 의 증명 (Eq. 11.4)

\(E X = 0\) 가정. 정의에서:

\[ \langle C(y), z \rangle = \langle E[\langle X, y \rangle X], z \rangle = E\langle \langle X, y \rangle X, z \rangle = E[\langle X, y \rangle \langle X, z \rangle]. \tag{11.4} \]

이 표현이 \(y\) 와 \(z\) 에 대해 대칭 → \(\langle C(y), z \rangle = \langle y, C(z) \rangle\).

8.3 직관: 두 방향의 동시 변동은 순서 무관

\(\langle C(y), z \rangle = E[\langle X, y \rangle \langle X, z \rangle]\) — “\(X\) 가 \(y\) 방향과 \(z\) 방향에서 동시에 얼마나 흔들리는가” 의 기댓값. 두 방향을 바꿔도 같은 양 — 자명한 대칭성.

비유: 두 사람의 키 곱 평균은 누가 먼저 측정되어도 같다 — 곱셈의 가환성.

8.4 Nonnegative-Definite 의 증명

\(\langle C(y), y \rangle = E[\langle X, y \rangle^2] \geq 0\) — 제곱의 기댓값은 항상 비음.

8.5 직관: 분산은 비음

\(\langle X, y \rangle\) 가 \(X\) 의 \(y\) 방향 성분 (스칼라 random variable). 그 성분의 분산이 곧 \(\langle C(y), y \rangle\) — 분산은 항상 비음. 자명.

8.6 Nuclear 의 증명 (Parseval 활용)

스펙트럼 정리 (Theorem 10.4.5) 에서 \(C\) 의 고유함수 \(v_j\), 고유값 \(\lambda_j \geq 0\) 가 정규직교 기저를 형성. (11.4) 적용:

\[ E[\langle X, v_j \rangle^2] = \langle C(v_j), v_j \rangle = \langle \lambda_j v_j, v_j \rangle = \lambda_j. \]

Parseval 등식 (10.4) → \(\sum_{j=1}^\infty \langle X, v_j \rangle^2 = \|X\|^2\). 기댓값 + Fubini:

\[ \sum_{j=1}^\infty \lambda_j = E\sum_{j=1}^\infty \langle X, v_j \rangle^2 = E\|X\|^2 < \infty. \]

8.7 직관: 무한차원 = 빠른 감소

함수가 \(L^2\) 에 들어가려면 (\(E\|X\|^2 < \infty\)) 모든 EFPC 방향의 분산 (\(\lambda_j\)) 의 합이 유한해야 한다. 즉 고유값이 빠르게 감소 — 큰 \(j\) 에서 \(\lambda_j \to 0\).

8.8 비유: 음악의 푸리에 분해

소리 신호를 주파수로 분해 → 각 주파수의 에너지가 \(\lambda_j\). 신호가 유한 에너지를 가지려면 (\(E\|X\|^2 < \infty\)) 모든 주파수 에너지의 합이 유한해야 한다. 즉 고주파 에너지는 빠르게 감소 — 자연스러운 신호의 보편 성질.

8.9 Nuclear vs Hilbert-Schmidt — 두 클래스의 차이

Nuclear ⊂ Hilbert-Schmidt

\(\sum |\lambda_j| < \infty\) → Nuclear (= trace class). \(\sum \lambda_j^2 < \infty\) → Hilbert-Schmidt (Section 10.3).

공분산 연산자는 nuclear 이므로 자동으로 HS 이기도 하다 (Theorem 11.2.2 의 본문 이후 언급).

8.10 직관: nuclear 가 더 강한 조건

\(\sum \lambda_j^2 < \infty\) ⟸ \(\sum |\lambda_j| < \infty\) (각 \(\lambda_j \leq 1\) 인 경우 자명). nuclear 는 HS 보다 고유값 감소가 더 빨라야 한다.

이 차이가 FDA 의 추정 수렴 속도에 영향: 표본 공분산 \(\hat{C}\) 와 모공분산 \(C\) 의 거리를 잴 때 HS 노름 사용 (Ch.12) — HS 거리에서의 수렴이 자연스러움.

8.11 Theorem 11.2.2 의 역방향

3 조건 ⟹ 어떤 \(X\) 의 공분산 연산자: 직접 증명 어려움. 대신 특성 범함수 \(\varphi(y) = \exp\{-\langle C(y), y \rangle / 2\}\) 가 어떤 가우스 함수의 특성 범함수임을 보이는 우회 (11.3 절에서 사용).

이 부분이 Bochner 정리 (Hilbert 공간 일반화 = Minlos-Sazonov 정리) 의 응용 — 측도론의 깊이가 필요해 본 절에서는 생략 (Laha & Roghatgi 1979 Section 7.6.2 참조).

9 절 종합과 연결

9.1 11.1 → 11.2 의 흐름

거리 공간의 확률 원소 (11.1) — 측정 가능, 약수렴, 4 개 무기
     ↓
Hilbert 공간 (11.2) — 약적분, 기댓값 EX 의 존재 (Riesz)
     ↓
공분산 연산자 정의 — 적분 핵 형태, 다변량과의 일치
     ↓
3 조건 특성화 — symmetric + nonneg + nuclear (∑λ_j < ∞)

9.2 응용으로의 연결

이 두 절의 도구가 모든 후속 chapter 의 기초 가 된다:

11.3 절: 가우스 함수의 정의 → 공분산 연산자 사용. 특성 범함수 \(\exp\{i\langle\mu, y\rangle - \tfrac{1}{2}\langle C(y), y\rangle\}\) 가 정확히 11.2 의 \(C\).
11.4 절: KL 전개의 최적성 → 11.2 의 nuclear 조건 필수 (∑λ_j 유한).
Ch.12 절: 표본 평균·공분산의 일치성 증명 → 11.2.1 의 contraction + commutativity 직접 사용.
Ch.7 절: PACE 의 점근 분포 → 11.1 의 Slutsky + 연속 사상.
Ch.8 절: FAR(1) 의 추정량 분포 → 11.1 의 Theorem 11.1.3 절단 기법.

9.3 핵심 점검표

이 포스트를 마치면 답할 수 있어야 할 질문

함수 \(X: \Omega \to L^2[0, 1]\) 가 random function 이려면 어떤 조건이 필요한가? → 임의 Borel 집합 \(A \subset L^2\) 에 대해 \(X^{-1}(A) \in \mathfrak{O}\).
\(\bar{X}_N \xrightarrow{P} \mu\) 와 \(\bar{X}_N \xrightarrow{d} \mu\) 의 차이는? → 전자는 같은 표본 점별 거리, 후자는 분포의 약수렴.
t 통계량의 점근 정규성을 어떻게 도출하는가? → CLT (분자) + LLN (분모) + Slutsky.
함수 \(X\) 의 기댓값 \(E X\) 가 \(L^2\) 에 존재하려면? → strongly integrable (\(E\|X\| < \infty\)) → Riesz → 자동.
공분산 연산자가 만족하는 3 조건은? → symmetric + nonneg + nuclear.
nuclear 와 Hilbert-Schmidt 의 차이는? → \(\sum \lambda_j\) 유한 vs \(\sum \lambda_j^2\) 유한. nuclear ⊂ HS.

이 6 개 질문의 답이 모두 나오면 11.1·11.2 의 핵심을 이해한 것 — Ch.12 의 표본 추론, Ch.7 의 PACE, Ch.8 의 FAR(1) 점근 결과로 자연스럽게 진입.

10 참고문헌

Kokoszka, P., & Reimherr, M. (2017). Introduction to Functional Data Analysis. Chapman & Hall/CRC. Sections 11.1, 11.2 (pp.233-239).
Billingsley, P. (1968). Convergence of Probability Measures. Wiley. — 약수렴 이론, Theorem 11.1.1·11.1.3.
Bosq, D. (2000). Linear Processes in Function Spaces. Springer. — Hilbert 공간 CLT, Theorem 11.2.2 의 역방향.
Laha, R. G., & Roghatgi, V. K. (1979). Probability Theory. Wiley. — Theorem 11.2.2 의 Minlos-Sazonov 정리 (Section 7.6.2).
Rudin, W. (1987). Real and Complex Analysis. McGraw-Hill. — 측도론, σ-대수, 가측 사상.
Kallenberg, O. (1997). Foundations of Modern Probability. Springer. — 측도론 기초.