FDA 12.6~12.7 — 동시 신뢰 대역과 차원 결정 (CPV·스크리)

함수 CLT 의 응용 — Karhunen-Loève 시뮬레이션 신뢰 대역과 EFPC 절단 차원의 결정 기준

Kokoszka & Reimherr (2017) Ch.12.6~12.7 의 핵심을 다룬다. 12.6 의 동시 신뢰 대역 — 함수 CLT (Theorem 12.4.1) 와 KL 전개 (Ch.10.4) 의 결합으로 평균 함수 \(\mu(t)\) 의 모든 \(t\) 에 대한 동시 추정 (\(P(\mu(t) \in \text{band} \forall t) \geq 1 - \alpha\)). 점별 신뢰 구간 (\(t\) 별 독립적 처리) vs 동시 신뢰 대역 (Bonferroni 와 다른, 함수 구조 활용) 의 차이, KL 기반 시뮬레이션 알고리즘 (가우스 함수 \(G = \sum \sqrt{\lambda_j} Z_j v_j\) 의 sup-norm 분포), Hyndman-Shang 방식 vs 직접 KL 시뮬레이션. 12.7 의 차원 결정 — Cumulative Percentage of Variance (CPV) 기준 (\(\sum_{j \leq p} \lambda_j / \sum_j \lambda_j \geq 0.85\)~0.95), 스크리 plot 의 elbow 시각적 판단, Information Criteria (AIC, BIC 적응) 의 함수 버전. EFPC 절단의 bias-variance trade-off — \(p\) 가 작으면 bias, \(p\) 가 크면 variance + 추정 오차 누적. 이 두 절이 평균 함수 추론의 마지막 도구 — Section 12.8 의 BOA 응용에서 직접 활용.

Statistics
Functional Data Analysis
저자

Kwangmin Kim

공개

2026년 05월 07일

1 이 절의 위치

Sections 12.6 + 12.7 의 역할

Ch.12.1~12.4 가 표본 평균과 EFPC 의 일관성 + 함수 CLT 정착, Ch.12.5 가 가설 검정 (\(T_N \sim \chi^2_p\)) 의 정착. Ch.12.6 + 12.7 은 추정의 마지막 두 도구 — (1) 평균 함수 \(\mu\) 의 동시 신뢰 대역, (2) EFPC 절단 차원 \(p\) 의 결정. 두 도구가 결합하여 Section 12.8 의 BOA 응용에서 직접 활용.

Ch.12.6 + 12.7 의 위치
    ↓
12.4 함수 CLT + KL 전개 (Ch.10.4)
       ↓
12.6 동시 신뢰 대역 — 가우스 함수 sup-norm 시뮬레이션
12.7 차원 결정 — CPV·스크리·정보 기준
       ↓
12.8 BOA 응용 — 두 도구의 통합 활용

핵심 메시지: Ch.12.6 의 동시 신뢰 대역이 함수 CLT + KL 전개의 직접 응용 — 가우스 함수의 sup-norm 분포를 KL 시뮬레이션으로 계산. Ch.12.7 의 차원 결정이 CPV·스크리·정보 기준 — 추정의 bias-variance trade-off 의 실용적 처리. 두 도구 모두 Section 12.8 의 BOA 응용에서 직접 사용.

1.1 두 절을 함께 다루는 이유

Sections 12.6 와 12.7 의 통합

Section 12.6 (신뢰 대역) 과 Section 12.7 (차원 결정) 이 상호의존:

  • 신뢰 대역 시뮬레이션 → 차원 \(p\) 가 필요 (\(G = \sum_{j=1}^p \sqrt{\lambda_j} Z_j v_j\)).
  • 차원 결정 → 신뢰 대역의 폭과 직접 연결 (\(p\) 가 크면 더 많은 모드 → 더 큰 sup-norm).

따라서 두 절을 분리하면 chain 의 의미 모호 — 통합 처리.

1.2 비유: 음악의 표준 측정

음악 신호의 분석:

  • 12.6 신뢰 대역 = “이 신호가 어디까지 변할 수 있는가” — 동시 측정.
  • 12.7 차원 결정 = “몇 개의 주파수로 표현할 것인가” — 모드 선택.

두 결정이 함께 — 신호의 representation 과 그 정확도를 동시 정함.


2 Section 12.6.1: 점별 vs 동시 신뢰 대역

2.1 점별 신뢰 구간 (Pointwise CI)

점별 95% CI

각 시점 \(t_0\) 에서 \(\mu(t_0)\) 의 신뢰 구간:

\[ \bar{X}_N(t_0) \pm 1.96 \cdot \sqrt{\widehat{\text{Var}}(\bar{X}_N(t_0))}. \]

\(t_0\) 마다 독립적\(P(\mu(t_0) \in \text{CI}) \geq 0.95\).

2.2 직관: 각 시점의 separate 처리

점별 CI = “한 시점만 고려한 신뢰 구간”. 다른 시점들과의 동시 보장 없음.

2.3 점별 CI 의 한계

동시 보장 부재

점별 95% CI 를 모든 \(t\) 에 대해 그리면:

  • \(t_0\) 에 대해 5% 의 미커버 확률.
  • \(T\) 개 시점이면 미커버 확률이 누적 → 전체 곡선의 동시 커버는 훨씬 < 95%.

Bonferroni 보정 가능 (\(1 - \alpha/T\) 의 점별 CI) 그러나 너무 보수적 — 시점이 많으면 폭이 매우 큼.

2.4 직관: 동시 보장의 필요

함수 데이터에서는 “모든 \(t\) 에 대해 \(\mu(t)\) 가 어디 있는가” 가 자연스러운 질문 → 동시 신뢰 대역 필요.

2.5 비유: 농구 선수의 평균 슛 위치

각 슛 위치의 평균 (점별) vs 모든 위치에 대한 동시 (전체 코트) — 후자가 선수의 본질 패턴.

함수 데이터에서도 동시가 본질.

2.6 동시 신뢰 대역의 정의

Simultaneous Confidence Band

레벨 \(1 - \alpha\) 의 동시 신뢰 대역 \([L_-(t), L_+(t)]\):

\[ \boxed{ P(L_-(t) \leq \mu(t) \leq L_+(t) \quad \forall t \in [0, T]) \geq 1 - \alpha. } \]

모든 \(t\) 에 동시 — 점별보다 strict 한 조건.

2.7 직관: Bonferroni 보다 효율적

Bonferroni 가 모든 시점을 독립처럼 처리 — 함수의 부드러움 (인접 시점이 강한 상관) 무시. 함수 CLT + KL 활용한 시뮬레이션은 함수 구조를 활용 → 더 narrow 한 대역.

2.8 비유: 두 가지 보호막

  • Bonferroni: 모든 방향에 같은 두께 — 보수적.
  • KL 시뮬레이션: 데이터의 변동 방향에 따라 적응적 — 효율적.

같은 보호 수준이지만 후자가 더 실용적.


3 Section 12.6.2: 함수 CLT 와 KL 의 결합

3.1 함수 CLT 의 응용

함수 CLT (Theorem 12.4.1):

\[ \sqrt{N}(\bar{X}_N - \mu) \overset{d}{\to} G, \]

\(G \sim N(0, C)\) — 평균 0, 공분산 연산자 \(C\) 의 가우스 함수.

3.2 신뢰 대역의 형태

\[ P(\sup_t |\sqrt{N}(\bar{X}_N(t) - \mu(t))| \leq c) \to P(\sup_t |G(t)| \leq c). \]

따라서 \(1 - \alpha\) 동시 신뢰 대역:

\[ \bar{X}_N(t) \pm \frac{q_\alpha}{\sqrt{N}}, \quad q_\alpha = \text{quantile}_{1-\alpha}\left( \sup_t |G(t)| \right). \]

3.3 직관: sup-norm 분포의 활용

핵심 통계량 = 가우스 함수의 sup-norm 분포. 이 분포를 알면 신뢰 대역 폭 결정.

문제: \(\sup_t |G(t)|\) 의 분포가 닫힌 형태 없음 → 시뮬레이션 필요.

3.4 KL 표현으로 시뮬레이션

KL 기반 시뮬레이션

가우스 함수 \(G\) 의 KL 전개 (Ch.10.4 의 Theorem 10.4.3):

\[ G(t) = \sum_{j=1}^\infty \sqrt{\lambda_j} Z_j v_j(t), \quad Z_j \overset{iid}{\sim} N(0, 1). \]

\(p\) 절단 (CPV 기준 — Section 12.7):

\[ G_p(t) = \sum_{j=1}^p \sqrt{\widehat{\lambda}_j} Z_j \widehat{v}_j(t). \]

표본 EFPC + 표본 고유값 사용. 유한차원 분포 → 직접 시뮬레이션 가능.

3.5 직관: 무한차원의 유한차원 환원

가우스 함수 = 무한차원 분포 → 직접 시뮬레이션 불가능. KL 전개 + 절단 → \(p\) 차원 정규분포 → 표준 도구로 시뮬레이션.

이는 Ch.10.4 의 KL 전개의 직접 응용 — 이론적 결과가 알고리즘.

3.6 비유: 무한 음악의 디지털 표현

무한 음악 (continuous wave) = 무한차원. 표본화 (sampling, \(\sim 44.1\) kHz) + Fourier 모드 절단 → 디지털 (CD/MP3).

같은 사고: 가우스 함수 → KL 모드 절단 → 시뮬레이션.


4 Section 12.6.3: 시뮬레이션 알고리즘

4.1 알고리즘

KL 기반 신뢰 대역 알고리즘
입력: 데이터 X_1, ..., X_N (각 곡선)
       유의 수준 alpha (예: 0.05)
       차원 p (Section 12.7 로 결정)

1. 표본 평균: x_bar(t) = mean of X_n(t)
2. 표본 공분산: c_hat(t, s) = sample cov
3. 고유값 분해: c_hat = sum lambda_hat_j v_hat_j v_hat_j (j = 1, ..., p)
4. 반복 b = 1, ..., B (B = 1000 ~ 10000):
   a) Z_1, ..., Z_p ~ N(0, 1) iid 생성
   b) G_b(t) = sum sqrt(lambda_hat_j) * Z_j * v_hat_j(t)  [j = 1..p]
   c) M_b = sup_t |G_b(t)|
5. q_alpha = quantile_{1-alpha} of {M_b}
6. 신뢰 대역: x_bar(t) +/- q_alpha / sqrt(N)

출력: 동시 신뢰 대역 \([\bar{X}_N(t) - q_\alpha/\sqrt{N}, \bar{X}_N(t) + q_\alpha/\sqrt{N}]\).

4.2 직관: 알고리즘의 단계

  1. 이론적 결과 — 가우스 함수 \(G\).
  2. 유한차원 환원 — KL 절단 \(G_p\).
  3. 시뮬레이션\(G_p\) 의 sup-norm 분포의 표본.
  4. 분위 추정 — empirical quantile 로 \(q_\alpha\).
  5. 대역 구성\(\bar{X}_N \pm q_\alpha/\sqrt{N}\).

4.3 균일 폭 vs 시점별 폭

두 가지 신뢰 대역

균일 폭:

\[ [\bar{X}_N(t) - q_\alpha/\sqrt{N}, \bar{X}_N(t) + q_\alpha/\sqrt{N}]. \]

모든 \(t\) 에 같은 폭. 단순.

시점별 폭:

\[ [\bar{X}_N(t) - q_\alpha(t)/\sqrt{N}, \bar{X}_N(t) + q_\alpha(t)/\sqrt{N}], \]

\(q_\alpha(t)\) = 점별 분산 보정. 각 \(t\) 의 변동에 적응 → 더 narrow.

시뮬레이션 변형:

\[ M_b = \sup_t \frac{|G_b(t)|}{\sqrt{c(t, t)}}, \]

표준화된 sup-norm 사용.

4.4 직관: 적응적 vs 균일

균일 폭 = “모든 시점이 같은 변동” 가정. 시점별 폭 = “변동이 큰 시점은 더 큰 폭” — 더 정확하지만 계산 복잡.

4.5 Hyndman-Shang 방식 (대안)

Functional Bootstrap

부트스트랩 기반 신뢰 대역:

1. 곡선 X_1, ..., X_N 에서 N 개 복원 추출 → X*_1, ..., X*_N
2. x_bar*(t) = mean of X*_n
3. M*_b = sup_t |x_bar*(t) - x_bar(t)|
4. q*_alpha = quantile_{1-alpha} of {M*_b}
5. 신뢰 대역: x_bar(t) +/- q*_alpha

장점: KL 모형 가정 불필요 — non-parametric. 단점: 큰 표본에서만 작동, 계산 비용 큼.

4.6 직관: 두 방식의 trade-off

  • KL 시뮬레이션: 모형 의존, 빠름, \(p\) 결정 필요.
  • 부트스트랩: 모형 자유, 느림, 큰 \(N\) 필요.

실전에서: 표본이 작으면 KL, 크면 부트스트랩.

4.7 비유: 처방전 vs 일반의약품

  • KL = 처방전 (모형에 맞춤, 정밀, 처방 필요).
  • 부트스트랩 = 일반의약품 (어디서나 작동, 덜 정밀).

상황에 따라 적절한 도구 선택.


5 Section 12.7.1: 차원 결정의 동기

5.1 EFPC 절단의 trade-off

\(p\) 의 영향

Mercer 분해 + EFPC 절단:

\[ \widehat{X}_p(t) = \mu(t) + \sum_{j=1}^p \xi_j v_j(t). \]

  • \(p\) 가 작음: 큰 bias (더 많은 변동 손실), 작은 variance (적은 추정 모수).
  • \(p\) 가 큼: 작은 bias, 큰 variance (많은 추정 + 작은 \(\widehat{\lambda}_j\) 의 불안정).

Bias-variance trade-off — 적절한 \(p\) 선택 중요.

5.2 직관: 너무 적게 vs 너무 많이

너무 적은 모드 (예: \(p = 1\)) → 데이터의 미세 패턴 손실. 너무 많은 모드 (예: \(p = N\)) → 잡음 모형화 + 계산 비용.

최적 \(p\) = “본질 신호 모두 포함, 잡음 차단”.

5.3 비유: 사진의 해상도

  • 너무 낮은 해상도 (50 px) → 사람 얼굴도 인식 불가능.
  • 너무 높은 해상도 (10000 px) → 파일 크기 폭발 + 노이즈.
  • 최적 (예: 1080p) → 본질 정보 + 효율.

EFPC 차원 결정도 같은 사고.


6 Section 12.7.2: CPV 기준

6.1 Cumulative Percentage of Variance

CPV 정의

\[ \boxed{ \text{CPV}_p = \frac{\sum_{j=1}^p \widehat{\lambda}_j}{\sum_{j=1}^M \widehat{\lambda}_j}, } \]

\(M\) = 전체 EFPC 수 (이산화 시 데이터 차원).

해석: 처음 \(p\) 개 EFPC 가 전체 변동의 몇 % 를 설명하는가.

6.2 결정 기준

표준 CPV 임계값
  • CPV ≥ 0.80 — 대략 80% 변동 설명, 빠른 분석.
  • CPV ≥ 0.85 — 표준 (FPCA 기본 설정).
  • CPV ≥ 0.90 — 보수적, 더 많은 모드.
  • CPV ≥ 0.95 — 엄격 (예: BOA 응용).
  • CPV ≥ 0.99 — 매우 엄격, 잡음 포함 위험.

기준 선택은 응용 목적과 데이터 특성:

  • 시각화 → 0.80~0.85.
  • 회귀 분석 → 0.90.
  • 추론·신뢰 대역 → 0.95.
  • 정밀 예측 → 0.95~0.99.

6.3 직관: 누적 변동의 의미

CPV\(_p\) = 0.95 → “EFPC\(_1\) 부터 EFPC\(_p\) 까지가 표본 변동의 95%”. 나머지 5% 가 (a) 작은 모드 + (b) 잡음.

6.4 응용 예시: BOA (Section 12.8)

전형적 결과:

  • \(\widehat{\lambda}_1 = 0.7\) → CPV\(_1 = 0.7\).
  • \(\widehat{\lambda}_1 + \widehat{\lambda}_2 = 0.85\) → CPV\(_2 = 0.85\).
  • CPV\(_3 = 0.92\).
  • CPV\(_4 = 0.96\)\(p = 4\) (CPV ≥ 0.95 기준).

6.5 한계: CPV 의 임의성

CPV 의 약점
  • 임계값 임의 — 0.85 vs 0.95 의 선택 정당화 어려움.
  • bias-variance 미고려 — 추정 오차의 정량화 없음.
  • 모형 무관 — 회귀나 검정의 목적에 무관한 결정.

대안: 정보 기준 (AIC, BIC), 교차검증.

6.6 직관: CPV 가 첫 도구

CPV 가 가장 단순하고 빠름 → 첫 시도. 정교한 분석에서는 다른 기준과 결합.


7 Section 12.7.3: 스크리 plot 의 elbow

7.1 정의

Scree Plot

가로축: \(j\) (EFPC 인덱스). 세로축: \(\widehat{\lambda}_j\) (또는 \(\log \widehat{\lambda}_j\)).

Elbow = 그래프의 “팔꿈치” 지점 — 급격한 감소 후 평탄화.

7.2 직관: 신호 vs 잡음의 분리

진정한 신호의 EFPC = 큰 \(\widehat{\lambda}_j\). 잡음의 EFPC = 작고 비슷한 \(\widehat{\lambda}_j\).

스크리 plot 의 elbow = “신호와 잡음의 경계” — elbow 이전이 신호, 이후가 잡음.

7.3 시각적 판단

λ_j

|
|  *
|  |
|  *
|  |
|  *
|  |
|  *
|  |
|  *.....
|        ......
|              ...........
|_________________________
   1  2  3  4  5  6  7  8  ...  j

  ^^^^^^ elbow at j = 4

\(j = 4\) 에서 elbow → \(p = 4\) 선택.

7.4 비유: 산의 등성마루

가파른 등성에서 평탄한 산마루로 transition — 그 지점이 “정상 근처” — 같은 사고.

7.5 한계와 개선

스크리의 약점
  • 주관적 — elbow 의 판단이 사람마다 다를 수 있음.
  • 자동화 어려움 — 알고리즘 명확하지 않음.
  • 명확한 elbow 없는 경우 — 점진적 감소.

개선: parallel analysis, broken stick 모형.

7.6 Parallel Analysis (자동화)

Parallel Analysis
  1. 표본 데이터에서 \(\widehat{\lambda}_j\) 추출.
  2. 같은 크기의 random 데이터 (잡음만) 에서 \(\widehat{\lambda}_j^{rand}\) 추출 (시뮬레이션 또는 부트스트랩).
  3. 선택: \(\widehat{\lambda}_j > \widehat{\lambda}_j^{rand}\) 의 마지막 \(j\).

자동화된 elbow 판단.

7.7 직관: 잡음 baseline 과의 비교

Random 데이터의 \(\widehat{\lambda}_j\) = “잡음만의 변동”. 표본의 \(\widehat{\lambda}_j\) 가 이를 초과하면 “신호”.

이 비교가 elbow 의 자동 판단.


8 Section 12.7.4: 정보 기준 (AIC, BIC)

8.1 다변량 PCA 의 IC

IC 의 일반 형태

\[ \text{IC}(p) = -2 \log L(p) + \text{penalty}(p). \]

  • AIC: penalty = \(2p\).
  • BIC: penalty = \(p \log N\).

최소화하는 \(p\) 선택.

8.2 함수 데이터로의 적응

함수 IC

가능도 모형 (가우스 함수 가정):

\[ \text{IC}(p) = N \log\left( \frac{\text{RSS}(p)}{N \cdot M} \right) + \text{penalty}(p), \]

\(\text{RSS}(p) = \sum_{n=1}^N \|X_n - \widehat{X}_{n, p}\|^2\)\(p\) 차원 절단의 잔차 제곱합.

또는 \(L^2\) 기반:

\[ \text{IC}(p) = \log\left( \sum_{j > p} \widehat{\lambda}_j \right) + \text{penalty}(p) / N. \]

8.3 직관: 적합 vs 복잡도의 균형

  • 잘 맞춤 (\(p\) 가 큼) → RSS 감소 → IC 의 첫 항 감소.
  • 복잡도 → penalty 증가.

균형점이 최적 \(p\).

8.4 BIC vs AIC 비교

  • BIC: penalty 가 \(\log N\) — 큰 \(N\) 에서 더 보수적 (\(p\) 가 작음).
  • AIC: penalty 가 상수 — 큰 모형 선호 (\(p\) 가 큼).

응용: 추론 (작은 \(p\)) → BIC, 예측 (큰 \(p\)) → AIC.

8.5 비유: 채용 결정

  • 적합 정도” (인재 능력) — 잘 맞춤.
  • 비용” (월급) — 복잡도.

균형이 최적 채용 — 같은 사고가 모형 선택.


9 Section 12.7.5: 교차검증 (CV)

9.1 함수 CV

Leave-One-Curve-Out CV
For p = 1, 2, ..., p_max:
  CV(p) = 0
  For n = 1, ..., N:
    1. X_(-n) = {X_1, ..., X_(n-1), X_(n+1), ..., X_N} 사용
    2. EFPC 추정: {ŵ_j^{(-n)}}, {λ̂_j^{(-n)}}
    3. X_n 의 p 절단 예측: X̂_n^{(p, -n)}
    4. CV(p) += ||X_n - X̂_n^{(p, -n)}||^2
  CV(p) /= N

p* = argmin CV(p)

최소 예측 오차\(p\) 선택.

9.2 직관: 예측 정확도 기반

CV 가 “다른 곡선을 얼마나 잘 예측하는가” 측정 → 외부 검증.

장점: 모형 가정 적음, 직관적. 단점: 계산 비용 (\(N\) 번 추정), \(N\) 이 작으면 불안정.

9.3 K-fold CV (속도 개선)

\(N\) 이 크면 K-fold (예: 10-fold) 사용 — \(N/K\) 번만 추정.

9.4 직관: CV 의 보편성

CV 는 거의 모든 모형 선택 문제에서 사용 가능 → 표준 도구.

9.5 비유: 시험과 모의고사

  • 모의고사 (CV) = “실제 시험 (외부 데이터) 에서 얼마나 잘 할까” 측정.
  • IC = 책 안의 자체 평가 — 책 의존적.

CV 가 더 일반적이지만 비용 큼.


10 Section 12.7.6: 응용에 따른 선택

10.1 추론 (가설 검정·신뢰 대역)

추론에 적합한 \(p\)
  • CPV ≥ 0.85~0.95 — 변동의 대부분 포함.
  • 너무 큰 \(p\) 피하기\(\widehat{\lambda}_j\) 가 작으면 \(\widehat{\lambda}_j^{-1}\) 가 폭발 → 검정 통계량 불안정.
  • 검정의 효율 vs power — 너무 작은 \(p\) 면 important alternative 를 놓침.

10.2 예측 (회귀·분류)

예측에 적합한 \(p\)
  • CV 기반 — 외부 검증의 직접 측정.
  • AIC — 큰 \(p\) 선호 (예측 정확도 우선).
  • CPV ≥ 0.95 — 보수적 baseline.

10.3 시각화·탐색

탐색에 적합한 \(p\)
  • CPV ≥ 0.80 — 처음 \(p\) 개 EFPC 의 시각적 해석.
  • 스크리 elbow — 자연스러운 그룹화.
  • 2~4 개 EFPC — 시각화에 충분.

10.4 직관: 목적 의존성

차원 결정에 유일한 정답 없음 — 응용 목적이 결정. 여러 기준의 결합 (CPV + 스크리 + CV) 이 robust.


11 Section 12.6 + 12.7 의 통합: BOA 응용 사례

11.1 Section 12.8 의 연결

BOA 응용에서 두 도구의 활용
1. 표본 평균 x_bar(t) (Section 12.1)
2. 표본 공분산 → EFPC (Section 12.2~12.3)
3. ★ 차원 결정 (Section 12.7) → p = 4 (CPV ≥ 0.95)
4. ★ 신뢰 대역 시뮬레이션 (Section 12.6):
   - 각 b: G_b = sum (j=1..4) sqrt(λ̂_j) Z_j v̂_j
   - q_0.05 = 95-percentile of sup |G_b|
   - 대역: x_bar +/- q_0.05 / sqrt(N)
5. 가설 검정 (Section 12.5):
   T_N = N * sum(j=1..4) <x_bar, v̂_j>^2 / λ̂_j

\(p = 4\) 가 신뢰 대역 시뮬레이션과 검정 통계량 모두에서 직접 사용.

11.2 결과 비교: \(p\) 의 영향

\(p\) 가 결과에 미치는 영향 (BOA 시뮬레이션)
\(p\) CPV 신뢰 대역 폭 검정 \(T_N\) p-value
2 0.85 \(0.0006\) 12.0 0.002
4 0.96 \(0.0008\) 15.2 0.004
6 0.99 \(0.0011\) 17.5 0.008
10 1.00 \(0.0018\) 28.1 0.001
  • \(p\) 증가 → 신뢰 대역 폭 증가 (더 많은 모드 포함).
  • \(p\) 증가 → \(T_N\) 증가 (더 많은 항 합).
  • p-value 는 trade-off — 큰 \(T_N\) vs 큰 df.
  • \(p = 4\) (CPV = 0.96) 가 표준 선택 — 결과의 안정성.

11.3 직관: Robustness 의 검증

차원 결정의 타당성 검증: 여러 \(p\) 에서 분석 → 결과가 일관 → robust. 큰 변화 → \(p\) 가 중요한 영향, 신중한 선택 필요.


12 핵심 정리와 요약

12.1 한 줄 요약

Ch.12.6 의 동시 신뢰 대역이 함수 CLT (Theorem 12.4.1) 와 KL 전개 (Ch.10.4) 의 결합으로 평균 함수 \(\mu(t)\) 의 모든 \(t\) 에 대한 동시 추정 (\(P(\mu \in \text{band} \forall t) \geq 1 - \alpha\)) — 점별 CI 와 다른 함수 구조 활용, KL 시뮬레이션 알고리즘 (\(G_p = \sum_{j=1}^p \sqrt{\widehat{\lambda}_j} Z_j \widehat{v}_j\) 의 sup-norm 분포의 empirical quantile \(q_\alpha\) 로 대역 폭 \(q_\alpha/\sqrt{N}\) 결정), Hyndman-Shang 부트스트랩 대안. Ch.12.7 의 차원 결정이 EFPC 절단의 bias-variance trade-off 의 실용적 처리 — Cumulative Percentage of Variance (CPV ≥ 0.85~0.95), 스크리 plot 의 elbow (parallel analysis 자동화 가능), 정보 기준 (AIC·BIC), 교차검증 (leave-one-curve-out). 응용 목적 의존 — 추론은 CPV 0.95 + IC, 예측은 CV, 탐색은 CPV 0.80. 두 도구가 결합하여 Section 12.8 의 BOA 응용에서 \(p = 4\) 결정 + 95% 동시 신뢰 대역 + 카이제곱 검정의 직접 활용.

12.2 학습 가이드

단계별 학습
  1. 점별 vs 동시 — 함수 데이터의 자연스러운 추정 단위.
  2. 함수 CLT + KL — 신뢰 대역의 이론적 토대.
  3. 시뮬레이션 알고리즘 — KL 절단으로 sup-norm 분포 계산.
  4. 균일 vs 시점별 — 두 신뢰 대역 형태.
  5. 부트스트랩 대안 — 모형 자유 신뢰 대역.
  6. CPV 기준 — 가장 단순한 차원 결정.
  7. 스크리 + parallel — 시각적·자동화 elbow 판단.
  8. IC + CV — 응용 목적 기반 선택.
  9. BOA 응용 매핑 — 모든 도구의 실전 활용.

12.3 Ch.12 의 구조

12.1: 표본 평균의 L²-일관성
12.2: 표본 공분산의 HS 일관성
12.3: EFPC 와 추정 고유값의 수렴
12.4: 함수 CLT
12.5: 평균 함수에 대한 가설 검정
12.6: 동시 신뢰 대역  ← 이 포스트
12.7: 차원 결정 (CPV, 스크리)  ← 이 포스트
12.8: BOA 응용 — 모든 도구의 통합

12.6 + 12.7 이 추론의 마지막 두 도구 — 12.8 응용의 직접 입력.


13 관련 주제

선행 지식

후속 주제

관련 개념

참고문헌

  • Kokoszka, P., & Reimherr, M. (2017). Introduction to Functional Data Analysis, Ch.12.6~12.7. Chapman & Hall/CRC.
  • Horváth, L., & Kokoszka, P. (2012). Inference for Functional Data with Applications. Springer. — 더 깊은 이론.
  • Ramsay, J. O., & Silverman, B. W. (2005). Functional Data Analysis (2nd ed.). Springer. — FPCA 차원 결정의 표준 참고.

Subscribe

Enjoy this blog? Get notified of new posts by email: