FDA 8.5~8.6 — 장기 공분산 함수 (LRCF) 와 정상성 검정

종속 데이터의 표본 평균 분산 σ(t,s) = Σ γ_h(t,s) + Brownian bridge 기반 정상성 검정

Kokoszka & Reimherr (2017) Ch.8.5~8.6 의 핵심을 다룬다. 스칼라 LRV σ² = Σ γ_h 의 함수 일반화 — 장기 공분산 함수 (LRCF) σ(t, s) = Σ γ_h(t, s) 의 정의·CLT · 추정 (식 8.16) · lag window K · bandwidth q. 종속 데이터 추론의 표준 도구 (8.5). 이어서 정상성 검정 — partial sum process U_N(x) = S_N(x) - x S_N(1) 의 점근 분포가 Brownian bridge 의 가중 적분 T = Σ λ_j ∫B_j²(x) dx 로 수렴, pivotal 버전 T_N⁰(d) 의 임계값 표 8.1 까지. R 패키지 ftsa::T_stationary 의 구현 (8.6).

Statistics
Functional Data Analysis
저자

Kwangmin Kim

공개

2026년 05월 07일

1 두 절의 역할

이 포스트의 범위
주제 핵심 도구
8.5 장기 공분산 함수 (LRCF) \(\sigma(t, s) = \sum_h \gamma_h(t, s)\), lag window 추정 (8.16)
8.6 정상성 검정 Partial sum + Brownian bridge, \(T_N\) 과 pivotal \(T_N^0(d)\)

8.5 는 종속 데이터 추론의 표준 도구 — Long-Run Covariance Function (LRCF). iid 의 경우 표본 평균의 분산이 \(\sigma^2/N\) 이지만, 정상 시계열에서는 모든 lag 의 자기공분산의 합 \(\sigma^2 = \sum_h \gamma_h\) 가 들어간다 (LRV). 함수 시계열에서는 이 LRV 의 자연스러운 일반화 — LRCF \(\sigma(t, s) = \sum_h \gamma_h(t, s)\) — 가 모든 추론의 표준오차와 신뢰 한계의 토대.

8.6 은 함수 시계열의 정상성 가정 검증 — Ch.8 의 모든 도구가 정상성에 의존하므로 분석의 첫 단계가 정상성 검정. Partial sum process 의 점근 분포가 Brownian bridge 라는 무한차원 가우스 과정이며, 가중 적분 \(\sum \lambda_j \int B_j^2(x) dx\) 가 검정 통계량의 극한 분포. Pivotal 버전\(\widehat{\lambda}_j\) 로 정규화하여 데이터 무관 분포 확보 → Table 8.1 의 임계값 직접 사용.

두 절의 흐름: LRCF (8.5) 가 정상성 검정 (8.6) 의 입력 — 점근 분포의 \(\lambda_j\) 가 LRCF 의 고유값.


2 스칼라 LRV (Long-Run Variance)

2.1 동기: 종속 데이터의 표본 평균 분산

iid 표본 \(X_1, \ldots, X_N\) (\(E X_i = \mu\), \(\text{Var}[X_i] = \sigma^2\)) 의 표본 평균:

\[ \text{Var}[\bar{X}_N] = N^{-2} \sum_n \text{Var}[X_n] = N^{-1} \sigma^2. \]

종속 데이터에서는 이 식이 틀림 — cross 항이 추가됨:

\[ \text{Var}[\bar{X}_N] = N^{-2} \text{Var}\left[\sum_n X_n\right] = N^{-2} \sum_{n, m=1}^N \text{Cov}(X_n, X_m). \]

2.2 정상성 사용

\(\text{Cov}(X_n, X_m)\)\(h = n - m\) 에만 의존:

\[ \text{Var}[\bar{X}_N] = N^{-2} \sum_{h = -(N-1)}^{N-1} (N - |h|) \gamma_h = N^{-1} \sum_{h=-(N-1)}^{N-1} \left(1 - \frac{|h|}{N}\right) \gamma_h. \]

2.3 점근

\(\sum |\gamma_h| < \infty\) 가정 하 \(N \to \infty\):

\[ \boxed{ \lim_{N \to \infty} N \cdot \text{Var}[\bar{X}_N] = \sum_{h = -\infty}^\infty \gamma_h := \sigma^2. } \]

이를 장기 분산 (Long-Run Variance, LRV) 라 한다.

2.4 직관: 모든 lag 의 누적 효과

iid 의 경우 \(\gamma_h = 0\) for \(h \neq 0\) → LRV = \(\gamma_0 = \sigma^2\). 표준 결과로 환원.

종속 시계열에서:

  • 양의 자기상관 (\(\gamma_h > 0\) for \(h > 0\)): LRV > \(\gamma_0\) — 분산 증가.
  • 음의 자기상관: LRV < \(\gamma_0\) — 분산 감소.
  • 모든 lag 의 합 이 분산을 결정.

2.5 비유: 노 젓는 사람들의 동기화

여러 사람이 노를 함께 저을 때:

  • 동기화 (양의 자기상관) — 모두 같은 방향. 합산 힘이 큼 (\(\gamma_h > 0\)).
  • 무동기 (iid) — 무작위 방향. 합산이 평균.
  • 반동기 (음의 자기상관) — 서로 상쇄. 합산 힘 작음.

표본 평균의 분산도 같은 패턴 — 자기상관이 표본의 “유효 정보량” 을 변경.

2.6 CLT

\(\sum |\gamma_h| < \infty\) + 추가 약 종속 조건 하:

\[ \sqrt{N}(\bar{X}_N - \mu) \xrightarrow{d} N(0, \sigma^2), \]

\(\sigma^2 = \sum \gamma_h\)LRV 가 점근 분산 (식 8.9).

2.7 직관: iid CLT 의 확장

iid CLT: \(\sqrt{N}(\bar{X}_N - \mu) \to N(0, \gamma_0)\) — lag-0 분산. 정상 종속 CLT: \(\sqrt{N}(\bar{X}_N - \mu) \to N(0, \sum \gamma_h)\)lag 0 + 모든 cross lag 합.

신뢰 구간:

\[ \bar{X}_N \pm z_{1-\alpha/2} N^{-1/2} \widehat{\sigma}, \]

\(\widehat{\sigma}\)LRV 추정량 — 표본 분산이 아님. 이 차이가 종속 데이터의 추론에서 결정적.

2.8 비유: 흔들리는 카메라의 노출 시간

장노출 사진을 찍을 때 카메라 흔들림이 있으면 노출 시간을 짧게 해야 한다. 흔들림이 없으면 (iid) 더 길게 해도 됨.

종속 데이터의 추론도 같은 사고 — “유효 표본 크기” 가 줄어드므로 신뢰 구간이 더 넓다 (LRV 가 \(\gamma_0\) 보다 큼).


3 LRV 의 추정

3.1 표본 LRV: 잘못된 후보

자연스러운 후보: \(\widehat{\sigma}^2 = \sum_{h=-(N-1)}^{N-1} (1 - |h|/N) \widehat{\gamma}_h\). 그러나 큰 \(|h|\)\(\widehat{\gamma}_h\) 가 매우 잡음.

3.2 표준 추정량 (식 8.10)

Lag window \(K\)bandwidth \(q\) 를 사용한 truncated estimator:

\[ \widehat{\sigma}^2(K, q) = \sum_{h = -(N-1)}^{N-1} K\left(\frac{h}{q}\right) \widehat{\gamma}_h. \]

3.3 Lag window 의 조건

Lag window \(K\) 의 표준 조건
  • \(K(0) = 1\) — lag 0 의 자기공분산을 그대로 사용.
  • \(K(-x) = K(x)\) — 대칭.
  • \(K(x) = 0\) if \(|x| > 1\) — 큰 lag 자동 제외.
  • 추가로 매끄러움 (점근 결과를 위해).

3.4 Bartlett window

가장 흔한 선택:

\[ K(x) = 1 - |x|, \quad |x| \leq 1. \]

3.5 직관: Bartlett window 가 자연스러운 이유

\(N \cdot \text{Var}[\bar{X}_N]\) 의 정확 식:

\[ N \cdot \text{Var}[\bar{X}_N] = \sum_h (1 - |h|/N) \gamma_h. \]

이 형태에서 \(1 - |h|/N\)자연스러운 가중치 — 큰 \(h\) 가 자동으로 작게 가중. Bartlett window 가 정확히 이 형태 (단, \(N\) 대신 사용자 선택 \(q\)).

다른 흔한 windows:

  • Parzen — 더 매끄러운 형태.
  • Tukey-Hanning — 코사인 기반.
  • Quadratic spectral — 점근적으로 최적이지만 계산 복잡.

3.6 Bandwidth \(q\) 선택

Bandwidth \(q\) 의 균형
작은 \(q\) \(q\)
적은 lag 만 사용 많은 lag 사용
안정적 (작은 분산) 변동성 큼
진짜 LRV 의 일부만 추정 (편향) 더 완전한 추정

규칙: \(q / N \to 0\) 그리고 \(q \to \infty\).

자동 선택: Newey-West (1994), Andrews (1991) 등의 데이터 적응적 방법.

3.7 직관: 메아리의 누적 길이

극장의 메아리를 측정할 때:

  • 짧은 측정 시간 (작은 \(q\)) — 강한 메아리만 측정. 안정적.
  • 긴 측정 시간 (큰 \(q\)) — 약한 메아리까지. 더 완전하지만 잡음과 구별 어려움.

Bandwidth 선택의 균형은 신호의 강도와 잡음의 균형 — 신호가 빨리 감쇠하면 짧은 \(q\) 충분, 느리면 긴 \(q\) 필요.


4 함수 시계열의 정상성 (Definition 8.5.1)

4.1 정의

함수 시계열 모형의 정상성

함수 시계열 모형 \(\{X_n: n \in \mathbb{Z}\}\)정상 이면:

\[ \mu(t) = E X_n(t) \quad \text{과} \quad \gamma_h(t, s) = \text{Cov}(X_n(t), X_{n+h}(s)), \quad h \in \mathbb{Z} \]

\(n\) 에 의존하지 않는다.

4.2 함수 자기공분산의 비대칭성

스칼라 시계열에서 \(\gamma_{-h} = \gamma_h\) 였던 대칭성이 함수에서는 다르게 나타남:

\[ \gamma_{-h}(t, s) = \text{Cov}(X_n(t), X_{n-h}(s)) = \text{Cov}(X_{n-h}(s), X_n(t)) = \gamma_h(s, t). \]

\(\gamma_{-h}(t, s) = \gamma_h(s, t)\)인자 순서가 바뀜, 단순 대칭이 아님.

4.3 직관: 함수의 두 시간 인덱스

스칼라에서는 \(\gamma_h\) 가 단일 숫자, 부호 변경에서 단순 대칭.

함수에서는 \(\gamma_h(t, s)\) 가 두 시간 인덱스의 함수:

  • \(t\)현 시점 곡선의 도메인 위치 (예: 오늘 새벽).
  • \(s\)lag-h 시점 곡선의 도메인 위치 (예: 어제 저녁).

\(\gamma_{-h}\) 의 경우 위 두 역할이 swap → \(\gamma_h\) 의 인자도 swap.

4.4 Lag-0 의 특수성

\(\gamma_0(t, s) = \text{Cov}(X_n(t), X_n(s)) = c(t, s)\)보통의 공분산 함수 (Ch.3).

iid 함수 데이터의 경우 \(\gamma_h = 0\) for \(h \neq 0\) → LRCF = \(\gamma_0 = c\). iid 결과로 환원.


5 함수 LRCF (식 8.12)

5.1 정의

장기 공분산 함수 (LRCF)

정상 함수 시계열의 LRCF:

\[ \sigma(t, s) = \sum_{h = -\infty}^\infty \gamma_h(t, s) = \gamma_0(t, s) + 2 \sum_{h=1}^\infty \frac{\gamma_h(t, s) + \gamma_h(s, t)}{2}. \]

수렴 조건:

\[ \sum_{h = -\infty}^\infty \iint \gamma_h^2(t, s) \, dt \, ds < \infty. \]

5.2 표본 평균 곡선의 분산 (식 8.14)

스칼라 결과의 함수 일반화:

\[ N \cdot \text{Cov}(\bar{X}_N(t), \bar{X}_N(s)) = \sum_{h=-(N-1)}^{N-1} \left(1 - \frac{|h|}{N}\right) \gamma_h(t, s) \to \sigma(t, s). \]

5.3 함수 CLT (식 8.15)

\[ \sqrt{N}(\bar{X}_N - \mu) \xrightarrow{d} Z, \]

\(Z\)\(E Z(t) = 0\), \(\text{Cov}(Z(t), Z(s)) = \sigma(t, s)\) 인 가우스 random function.

5.4 직관: 함수 CLT 의 공분산이 LRCF

iid 함수 데이터의 CLT (Ch.3): \(\sqrt{N}(\bar{X}_N - \mu) \to Z\) where \(Z\) 의 공분산 = \(c\) (lag-0).

종속 함수 시계열의 CLT: 같은 형태이지만 \(Z\) 의 공분산이 LRCF \(\sigma\) — lag 0 + 모든 cross lag 합.

이 점근 결과가 함수 시계열의 모든 추론의 토대 — 평균 함수 검정, 신뢰 밴드, 변화점 검정 등 모두 LRCF 를 사용.

5.5 비유: 시계열 “잡음” 의 함수 일반화

스칼라 시계열에서 “잡음의 강도” = LRV (자기상관까지 포함한 분산).

함수 시계열에서 “잡음의 강도” = LRCF — 자기상관까지 포함한 공분산 표면. 두 시간 인덱스의 함수이므로 잡음의 시간별 강도와 대각 외 의존성 모두 표현.


6 LRCF 의 추정 (식 8.16)

6.1 표본 추정량

스칼라 LRV 추정의 자연스러운 일반화:

\[ \widehat{\sigma}(t, s) = \sum_{h=-(N-1)}^{N-1} K\left(\frac{h}{q}\right) \widehat{\gamma}_h(t, s), \]

또는 비대칭성 분리 형태:

\[ \widehat{\sigma}(t, s) = \widehat{\gamma}_0(t, s) + \sum_{h=1}^{N-1} K\left(\frac{h}{q}\right) \{\widehat{\gamma}_h(t, s) + \widehat{\gamma}_h(s, t)\}. \]

표본 자기공분산:

\[ \widehat{\gamma}_h(t, s) = \frac{1}{N} \sum_{j=1}^{N-h} (X_j(t) - \bar{X}_N(t))(X_{j+h}(s) - \bar{X}_N(s)). \]

6.2 일치성

적절한 조건 (lag window 의 매끄러움, 함수 시계열의 약 종속성, \(q \to \infty\)\(q/N \to 0\)) 하:

\[ \iint \{\widehat{\sigma}(t, s) - \sigma(t, s)\}^2 \, dt \, ds \xrightarrow{P} 0. \]

\(L^2(\mathcal{T} \times \mathcal{T})\) 노름에서 일치.

6.3 직관: 두 차원 추정의 본성

LRCF 추정은:

  • \(h\) 차원 (lag): lag window \(K\) 와 bandwidth \(q\) 로 절단 — 스칼라 LRV 와 같은 패턴.
  • \((t, s)\) 차원: 표본 자기공분산이 자동으로 함수 표면 — 별도 평활 없이도 직접 추정.

함수 데이터에서 \((t, s)\) 차원의 표본 추정이 자연스럽게 함수가 되는 이유 — 각 \(X_n\) 이 평활화된 함수 객체이므로 cross product 도 자동 함수.

6.4 비유: 두 종류의 잡음 누적

빌딩의 진동 측정:

  • 시간 lag (h): 어제·오늘·그제의 진동의 누적 — 메아리 효과.
  • 층별 위치 (t, s): 빌딩의 한 층의 진동이 다른 층에 어떻게 전달되는가.

LRCF 는 두 차원의 누적을 동시에 표현 — 시간 메아리 × 공간 (도메인) 의존성.

6.5 추가 가정

스칼라 케이스와 같이 단순 정상성 + 합산 조건만으로는 점근 결과 (8.14, 8.15) 부족 — 약 종속성 (예: \(\alpha\)-mixing) 추가 필요. 자세한 내용은 8.9 참조 (Hörmann & Kokoszka 2010 등).


7 정상성 검정의 동기 (8.6)

7.1 Ch.8 의 모든 도구가 정상성에 의존

  • FAR(1) 추정 (8.2) — 정상 모형 가정.
  • Hyndman-Ullah 예측 (8.3) — 시간 무관 평균 가정.
  • 다변량 예측 (8.4) — 정상 점수 시계열.
  • LRCF (8.5) — 정상성에서만 정의.

따라서 분석의 첫 단계는 정상성 검정.

7.2 검정 문제

\[ H_0: X_i(t) = \mu(t) + \eta_i(t), \]

\(\{\eta_i\}\) 가 strictly stationary, \(\mu\) 시간 무관.

대립 가설은 다양 — 변화점, random walk, 추세 등.

7.3 두 표준 대립 가설

정상성의 두 형태 위반

Change point (\(H_{A, 1}\)):

\[ X_i(t) = \mu(t) + \delta(t) \mathbb{1}\{i > k^*\} + \eta_i(t). \]

특정 시점 \(k^*\) 이후 평균이 \(\mu(t) + \delta(t)\) 로 변경.

Random walk (\(H_{A, 2}\)):

\[ X_i(t) = \mu(t) + \sum_{\ell=1}^i u_\ell(t), \]

\(\{u_\ell\}\) 가 정상. 누적적 비정상.

7.4 직관: 두 비정상의 본성

  • Change point갑작스러운 점프. 구조적 변화.
  • Random walk점진적 표류 (drift). 누적되는 변동.

이 두 형태가 가장 흔한 비정상 패턴이며, 검정의 검정력이 이들을 잘 검출하도록 설계.

7.5 비유: 두 종류의 비정상

  • Change point = 회사의 인수합병 — 갑작스럽게 평균 매출이 변경.
  • Random walk = 인플레이션의 누적 — 매년 조금씩 가격이 표류, 장기적으로 큰 차이.

두 패턴이 시계열 데이터에서 흔하게 발생, 검정이 이들을 검출.


8 IBM 가격 곡선의 예시

8.1 두 종류의 함수 시계열

함수 시계열의 각 곡선이 연속 시간 비정상 과정의 한 실현, 곡선 수열은 정상 또는 비정상.

8.2 IBM 의 일별 가격 곡선

Figure 8.8 의 시각화:

  • 일별 가격 곡선 \(X_i(t)\) (\(t\) = 분, \(i\) = 일자) — 각 곡선 자체가 비정상 (Brownian motion 같은 random walk). 곡선 수열도 비정상 — 일별 추세 (예: 5일 연속 상승).
  • 누적 일중 수익률 (cumulative intraday returns) — 각 일의 곡선을 정규화 (시작값 0). 각 곡선은 여전히 random walk 같지만, 곡선 수열은 정상 — 정규화로 추세 제거.

8.3 직관: 정규화로 정상화

가격은 시간에 따라 추세 (random walk) — 비정상. 수익률 = 가격 차분 / 가격 = 정상화된 변량.

이는 시계열 분석의 표준 전처리 — 차분이나 normalize 로 비정상 데이터를 정상으로 환원. 함수 시계열에도 같은 원리 적용.

8.4 비유: 영화의 정규화

서로 다른 영화의 길이가 다르면 직접 비교 어려움. 모든 영화를 시간 0~1 로 정규화하면 비교 가능. 가격 곡선의 일별 정규화도 같은 사고 — 각 곡선의 절대 수준 차이를 제거 하여 패턴만 비교.


9 Partial Sum Process

9.1 정의

검정 통계량의 토대:

\[ S_N(x, t) = N^{-1/2} \sum_{i=1}^{[Nx]} X_i(t), \quad 0 \leq x \leq 1. \]

여기서 \([y]\)\(y\) 의 정수부.

\(x\)\(0\) 부터 \(1\) 까지 변할 때 \(S_N(x, t)\)곡선 수열의 누적 평균 같은 객체. 격자 점에서:

\[ S_N(k/N, t) = N^{-1/2} \sum_{i=1}^k X_i(t). \]

9.2 CUSUM 형태: \(U_N\)

\[ U_N(x) = S_N(x) - x S_N(1). \]

9.3 직관: 평균이 사라지는 마법

\(H_0\)\(X_i = \mu + \eta_i\):

\[ S_N(x) = N^{-1/2} \sum_{i=1}^{[Nx]} (\mu + \eta_i) = N^{-1/2} [Nx] \mu + N^{-1/2} \sum_{i=1}^{[Nx]} \eta_i \approx N^{1/2} x \mu + (\text{잡음 합}). \]

\(x S_N(1) \approx x \cdot (N^{1/2} \mu + N^{-1/2} \sum_i \eta_i) = N^{1/2} x \mu + x N^{-1/2} \sum_i \eta_i\).

차감:

\[ U_N(x) = N^{-1/2} \left\{ \sum_{i=1}^{[Nx]} \eta_i - x \sum_{i=1}^N \eta_i \right\} \quad (\text{식 8.17}). \]

\(\mu\) 가 자동 상쇄 — 미지의 평균에 무관.

9.4 비유: CUSUM 의 표준 사고

품질 관리에서 누적 합 차트 (CUSUM) — 평균이 일정하면 누적 합이 직선 형태, 변화점이 있으면 꺾임. CUSUM 의 표준 형태가 “누적 합 - 평균 직선”.

함수 시계열의 \(U_N\) 도 같은 사고 — \(\sum \eta_i\) 의 누적이 평균 0 의 백색 잡음 누적이면 \(U_N\) 이 작은 값, 비정상이면 큰 값.

9.5 대립 가설 하의 행동

Change point \(H_{A, 1}\):

\[ U_N(k^*/N) \approx (\text{H_0 형태}) + \frac{k^*(N - k^*)}{N^{3/2}} \delta. \]

추가 항 — \(N^{1/2}\) 차수의 비정상 신호. \(N \to \infty\) 일 때 발산.

Random walk \(H_{A, 2}\): 비슷한 추가 항 (랜덤이지만 발산하는 누적).

9.6 직관: 검정의 발산 메커니즘

\(H_0\) 하: \(U_N\) 이 유한 분포 (Brownian bridge 형태) 로 수렴. \(H_A\) 하: 추가 비정상 신호로 \(U_N\) 이 무한대로 발산.

이 차이가 검정의 검정력 — \(H_A\) 가 참이면 통계량이 임계값을 초과할 확률이 1 로 수렴.


10 검정 통계량 \(T_N\) (Monte Carlo 형태)

10.1 정의

\[ \widehat{T}_N = \int_0^1 \|U_N(x)\|^2 \, dx = \int_0^1 \left\{\int U_N^2(x, t) \, dt\right\} dx. \]

모든 \(x\) 에서 \(U_N\) 의 함수 노름의 적분 — 큰 \(\|U_N\|\) 가 비정상의 증거.

10.2 점근 분포

\(H_0\)\(\widehat{T}_N \xrightarrow{d} T\), where:

\[ T = \sum_{j=1}^\infty \lambda_j \int_0^1 B_j^2(x) \, dx, \]

  • \(\{B_j\}\): 독립 Brownian bridges (스칼라 가우스 과정, \(B_j(0) = B_j(1) = 0\)).
  • \(\{\lambda_j\}\): \(\eta_i\) 의 LRCF \(\sigma_\eta(t, s)\) 의 고유값.

10.3 직관: Brownian Bridge 의 등장

표본 평균 \(\bar{X}_N\) 의 점근 분포가 가우스 random function (식 8.15). 부분 합 - 직선 형태의 \(U_N\) 은 가우스 random function 의 bridge 버전 — 양 끝이 0 으로 묶인 형태.

이는 스칼라 시계열에서 Brownian motion 과 Brownian bridge 의 관계와 같음:

  • Brownian motion \(W(t)\) — 스칼라 가우스 과정.
  • Brownian bridge \(B(t) = W(t) - tW(1)\) — 양 끝이 0 으로 묶인 버전.

함수 시계열의 \(U_N\) 가 정확히 bridge 형태.

10.4 비유: 강물의 시작과 끝

강의 시작점과 끝점의 수위가 정해져 있다고 하자 (예: 둘 다 해수면). 그 사이의 수위는 자유롭게 변동. 양 끝이 묶인 자유 변동 = bridge 형태.

\(U_N\) 도 같은 구조 — \(U_N(0) = 0\), \(U_N(1) = 0\) (정의에 의해), 그 사이에서 자유 변동.

10.5 Monte Carlo 근사

\(T\) 의 분포가 미지의 \(\lambda_j\)\(\int B_j^2\) 같은 random variable 에 의존 — 닫힌 형태 분포 없음.

10.6 두 단계 근사

\(T\) 의 분포 근사
  1. 이론적 \(T\) → 표본 \(T^*\): \[ T^* = \sum_{j=1}^D \widehat{\lambda}_j I_j^*, \] \(\widehat{\lambda}_j\) 는 표본 LRCF 의 고유값, \(I_j^*\)\(\int_0^1 B_j^2(x) dx\) 의 시뮬레이션.

  2. \(T^*\) 의 반복 시뮬레이션 (\(R = 10^4\) 번) 으로 경험 분포 → P-value 계산.

10.7 직관: 두 단계 근사의 의미

  • 첫 단계 — 무한합을 유한합으로 절단 (\(D\) 차원), 미지 \(\lambda_j\) 를 추정 \(\widehat{\lambda}_j\) 로 대체.
  • 둘째 단계 — 시뮬레이션으로 분위수 추정.

두 단계 모두 추정 잡음을 도입하지만, 큰 \(N\)\(R\) 에서 정확.


11 Pivotal 통계량 \(T_N^0(d)\)

11.1 동기

Monte Carlo 형태는 각 데이터셋마다 시뮬레이션 필요. 더 편리한 방법은 데이터 무관 임계값 사용.

11.2 통계량 정의

Pivotal 검정 통계량

\[ \widehat{T}_N^0(d) = \sum_{j=1}^d \widehat{\lambda}_j^{-1} \int_0^1 \langle U_N(x, \cdot), \widehat{\varphi}_j \rangle^2 \, dx. \]

\(\widehat{\lambda}_j\) 로 정규화하여 표준화.

11.3 점근 분포

\(H_0\)\(\widehat{T}_N^0(d) \xrightarrow{d} T^0(d)\):

\[ T^0(d) = \sum_{j=1}^d \int_0^1 B_j^2(x) \, dx. \]

\(\lambda_j\) 가 자동으로 사라짐 — 데이터 무관 분포.

11.4 직관: Pivotal 의 의미

통계학 일반에서 pivotal quantity = 분포가 미지 모수에 무관한 양.

  • 비-pivotal: \(\bar{X}_N\) — 분포가 \(\sigma\) 에 의존.
  • Pivotal: \((\bar{X}_N - \mu) / s\) — 분포가 표준 정규 (Student-t).

\(T_N^0(d)\) 의 pivotality 가 임계값을 한 번 계산하면 모든 데이터셋에 사용 가능 의 우아한 결과.

11.5 Table 8.1 의 임계값

\(T^0(d)\) 의 임계값 (일부)
\(d\) 10% 5% 1%
1 0.345 0.461 0.740
2 0.607 0.749 1.072
3 0.843 1.001 1.352
5 1.280 1.469 1.867
10 2.289 2.527 3.034

(시뮬레이션 기반, \(N = 1000\), \(10^5\) replications.)

검정: $_N^0(d) > $ 임계값 → \(H_0\) 기각.

11.6 \(d\) 의 균형

차원 \(d\) 선택의 균형
작은 \(d\) \(d\)
적은 PC 만 사용 많은 PC 사용
첫 차원의 비정상만 검출 모든 차원 검출 가능
분모에 큰 \(\lambda_j\) → 안정 작은 \(\widehat{\lambda}_j\) → 변동성

표준 규칙: CPV 85% 가 처음 넘는 \(d\). 보통 한 자리 수.

11.7 직관: 비정상이 PC 차원에 어떻게 분포?

비정상 신호 \(\delta(t)\) 가 PC 의 첫 몇 차원에 집중되면 작은 \(d\) 로 충분. 후순위 PC 에 분산되면 큰 \(d\) 필요.

대부분의 실무 비정상 (장기 추세, 계절성) 은 첫 1~3 PC 에 집중 — 작은 \(d\) 가 효율적.


12 R 구현

12.1 기본 사용법

library(ftsa)

# pm_10_GR_sqrt: 함수 시계열 객체 (Section 8.4)
result <- T_stationary(pm_10_GR_sqrt$y)

# 출력:
# Monte Carlo test of stationarity of a functional time series
# null hypothesis: the series is stationary
# p-value = 0.082
# N (number of functions) = 182
# number of MC replications = 1000

P-value 8.2% → 10% 수준에서 정상 가정 가까이 (경계). 큰 표본이 있으면 계절 효과로 비정상 발견 가능.

12.2 Pivotal 검정

result_pivotal <- T_stationary(pm_10_GR_sqrt$y,
                               J = 100,           # I_j^* 근사 차원
                               MC_rep = 5000,     # 반복
                               h = 20,            # LRCF bandwidth
                               pivotal = TRUE)    # pivotal 통계량 사용

# 출력: p-value = 0.1188

12.3 인자 해설

인자 의미
J \(\int B^2\) 시뮬레이션의 절단 차원 (기본 500)
MC_rep Monte Carlo 반복 수
h LRCF 추정의 lag window bandwidth
pivotal TRUE/FALSE — 두 통계량 선택
cumulative_var \(d\) 선택의 CPV 임계값 (기본 90%)

12.4 직관: 두 통계량의 선택

상황 권장
표준 분석 pivotal = FALSE (기본) — Monte Carlo
빠른 분석 pivotal = TRUE + Table 임계값
작은 표본 pivotal = FALSE (Monte Carlo 가 더 안정)
큰 표본 둘 다 비슷, 선호도에 따라

기본 Monte Carlo 가 보통 더 견고. Pivotal 은 빠르고 임계값 표 사용 가능.


13 두 절의 통합 시각

13.1 한 줄 요약

**장기 공분산 함수 (LRCF) σ(t, s) = Σ γ_h(t, s) 가 종속 함수 시계열의 표본 평균 분산을 결정 — N · Cov(X̄_N(t), X̄_N(s)) → σ(t, s), 함수 CLT √N(X̄_N - μ) → Z 의 점근 공분산. 추정 (식 8.16) 은 lag window K 와 bandwidth q 의 절단으로. 정상성 검정은 partial sum process U_N(x) = S_N(x) - x S_N(1) 가 H_0 하 Brownian bridge 형태로 수렴 → T_N = ∫‖U_N‖² 의 점근 분포 T = Σ λ_j ∫B_j²(x)dx. Pivotal 버전 T_N⁰(d) 가 데이터 무관 분포 → Table 8.1 임계값 직접 사용. R 패키지 ftsa::T_stationary 가 표준 구현.**

13.2 Ch.8 전반부 (8.1~8.4) 와의 비교

측면 8.1~8.4 8.5~8.6
목표 모형 적합 + 예측 추론 + 가정 검증
도구 FAR(1), Hyndman-Ullah, VAR LRCF, partial sum, Brownian bridge
토대 KL 분해 + 시계열 모형 점근 분포 + 절단
R pca.fd, ftsa::fdm, farforecast ftsa::T_stationary

8.5~8.6 가 분석의 첫 단계 (정상성 검증) + 마지막 단계 (추론). 8.1~8.4 가 중간의 모형 적합·예측.

13.3 Ch.8 후속 절과의 연결

후속 절 8.5~8.6 의 도구를 어떻게 활용하는가
8.7 R 구현 FAR(1) 시뮬레이션 + LRCF 진단
8.8 존재 조건 FAR(1) 의 정상성 토대 (Theorem 8.8.1)
8.9 참고문헌 LRCF 와 정상성 검정의 후속 발전

8.5~8.6 의 추론 framework 가 Ch.8 의 모든 분석의 통계적 기초.

13.4 실용 워크플로우

함수 시계열 분석의 통합 워크플로우
  1. 데이터 시각화 — 시간 추세, 계절성 확인.
  2. 정상성 검정 (ftsa::T_stationary) — 8.6.
  3. 비정상이면 변환 — 차분, log, normalize.
  4. 재검정 — 정상성 확인.
  5. 모형 적합 — FAR(1) (8.2) 또는 Hyndman-Ullah (8.3).
  6. 예측 (8.3 또는 8.4).
  7. LRCF 추정 (8.5) — 신뢰 한계 계산.
  8. 잔차 진단 — 백색 잡음 검정.

14 관련 주제

선행 지식

후속 주제

관련 개념

Subscribe

Enjoy this blog? Get notified of new posts by email: