1 두 절의 역할
| 절 | 주제 | 핵심 도구 |
|---|---|---|
| 8.5 | 장기 공분산 함수 (LRCF) | \(\sigma(t, s) = \sum_h \gamma_h(t, s)\), lag window 추정 (8.16) |
| 8.6 | 정상성 검정 | Partial sum + Brownian bridge, \(T_N\) 과 pivotal \(T_N^0(d)\) |
8.5 는 종속 데이터 추론의 표준 도구 — Long-Run Covariance Function (LRCF). iid 의 경우 표본 평균의 분산이 \(\sigma^2/N\) 이지만, 정상 시계열에서는 모든 lag 의 자기공분산의 합 \(\sigma^2 = \sum_h \gamma_h\) 가 들어간다 (LRV). 함수 시계열에서는 이 LRV 의 자연스러운 일반화 — LRCF \(\sigma(t, s) = \sum_h \gamma_h(t, s)\) — 가 모든 추론의 표준오차와 신뢰 한계의 토대.
8.6 은 함수 시계열의 정상성 가정 검증 — Ch.8 의 모든 도구가 정상성에 의존하므로 분석의 첫 단계가 정상성 검정. Partial sum process 의 점근 분포가 Brownian bridge 라는 무한차원 가우스 과정이며, 가중 적분 \(\sum \lambda_j \int B_j^2(x) dx\) 가 검정 통계량의 극한 분포. Pivotal 버전 은 \(\widehat{\lambda}_j\) 로 정규화하여 데이터 무관 분포 확보 → Table 8.1 의 임계값 직접 사용.
두 절의 흐름: LRCF (8.5) 가 정상성 검정 (8.6) 의 입력 — 점근 분포의 \(\lambda_j\) 가 LRCF 의 고유값.
2 스칼라 LRV (Long-Run Variance)
2.1 동기: 종속 데이터의 표본 평균 분산
iid 표본 \(X_1, \ldots, X_N\) (\(E X_i = \mu\), \(\text{Var}[X_i] = \sigma^2\)) 의 표본 평균:
\[ \text{Var}[\bar{X}_N] = N^{-2} \sum_n \text{Var}[X_n] = N^{-1} \sigma^2. \]
종속 데이터에서는 이 식이 틀림 — cross 항이 추가됨:
\[ \text{Var}[\bar{X}_N] = N^{-2} \text{Var}\left[\sum_n X_n\right] = N^{-2} \sum_{n, m=1}^N \text{Cov}(X_n, X_m). \]
2.2 정상성 사용
\(\text{Cov}(X_n, X_m)\) 이 \(h = n - m\) 에만 의존:
\[ \text{Var}[\bar{X}_N] = N^{-2} \sum_{h = -(N-1)}^{N-1} (N - |h|) \gamma_h = N^{-1} \sum_{h=-(N-1)}^{N-1} \left(1 - \frac{|h|}{N}\right) \gamma_h. \]
2.3 점근
\(\sum |\gamma_h| < \infty\) 가정 하 \(N \to \infty\):
\[ \boxed{ \lim_{N \to \infty} N \cdot \text{Var}[\bar{X}_N] = \sum_{h = -\infty}^\infty \gamma_h := \sigma^2. } \]
이를 장기 분산 (Long-Run Variance, LRV) 라 한다.
2.4 직관: 모든 lag 의 누적 효과
iid 의 경우 \(\gamma_h = 0\) for \(h \neq 0\) → LRV = \(\gamma_0 = \sigma^2\). 표준 결과로 환원.
종속 시계열에서:
- 양의 자기상관 (\(\gamma_h > 0\) for \(h > 0\)): LRV > \(\gamma_0\) — 분산 증가.
- 음의 자기상관: LRV < \(\gamma_0\) — 분산 감소.
- 모든 lag 의 합 이 분산을 결정.
2.5 비유: 노 젓는 사람들의 동기화
여러 사람이 노를 함께 저을 때:
- 동기화 (양의 자기상관) — 모두 같은 방향. 합산 힘이 큼 (\(\gamma_h > 0\)).
- 무동기 (iid) — 무작위 방향. 합산이 평균.
- 반동기 (음의 자기상관) — 서로 상쇄. 합산 힘 작음.
표본 평균의 분산도 같은 패턴 — 자기상관이 표본의 “유효 정보량” 을 변경.
2.6 CLT
\(\sum |\gamma_h| < \infty\) + 추가 약 종속 조건 하:
\[ \sqrt{N}(\bar{X}_N - \mu) \xrightarrow{d} N(0, \sigma^2), \]
\(\sigma^2 = \sum \gamma_h\) — LRV 가 점근 분산 (식 8.9).
2.7 직관: iid CLT 의 확장
iid CLT: \(\sqrt{N}(\bar{X}_N - \mu) \to N(0, \gamma_0)\) — lag-0 분산. 정상 종속 CLT: \(\sqrt{N}(\bar{X}_N - \mu) \to N(0, \sum \gamma_h)\) — lag 0 + 모든 cross lag 합.
신뢰 구간:
\[ \bar{X}_N \pm z_{1-\alpha/2} N^{-1/2} \widehat{\sigma}, \]
\(\widehat{\sigma}\) 가 LRV 추정량 — 표본 분산이 아님. 이 차이가 종속 데이터의 추론에서 결정적.
2.8 비유: 흔들리는 카메라의 노출 시간
장노출 사진을 찍을 때 카메라 흔들림이 있으면 노출 시간을 짧게 해야 한다. 흔들림이 없으면 (iid) 더 길게 해도 됨.
종속 데이터의 추론도 같은 사고 — “유효 표본 크기” 가 줄어드므로 신뢰 구간이 더 넓다 (LRV 가 \(\gamma_0\) 보다 큼).
3 LRV 의 추정
3.1 표본 LRV: 잘못된 후보
자연스러운 후보: \(\widehat{\sigma}^2 = \sum_{h=-(N-1)}^{N-1} (1 - |h|/N) \widehat{\gamma}_h\). 그러나 큰 \(|h|\) 의 \(\widehat{\gamma}_h\) 가 매우 잡음.
3.2 표준 추정량 (식 8.10)
Lag window \(K\) 와 bandwidth \(q\) 를 사용한 truncated estimator:
\[ \widehat{\sigma}^2(K, q) = \sum_{h = -(N-1)}^{N-1} K\left(\frac{h}{q}\right) \widehat{\gamma}_h. \]
3.3 Lag window 의 조건
- \(K(0) = 1\) — lag 0 의 자기공분산을 그대로 사용.
- \(K(-x) = K(x)\) — 대칭.
- \(K(x) = 0\) if \(|x| > 1\) — 큰 lag 자동 제외.
- 추가로 매끄러움 (점근 결과를 위해).
3.4 Bartlett window
가장 흔한 선택:
\[ K(x) = 1 - |x|, \quad |x| \leq 1. \]
3.5 직관: Bartlett window 가 자연스러운 이유
\(N \cdot \text{Var}[\bar{X}_N]\) 의 정확 식:
\[ N \cdot \text{Var}[\bar{X}_N] = \sum_h (1 - |h|/N) \gamma_h. \]
이 형태에서 \(1 - |h|/N\) 이 자연스러운 가중치 — 큰 \(h\) 가 자동으로 작게 가중. Bartlett window 가 정확히 이 형태 (단, \(N\) 대신 사용자 선택 \(q\)).
다른 흔한 windows:
- Parzen — 더 매끄러운 형태.
- Tukey-Hanning — 코사인 기반.
- Quadratic spectral — 점근적으로 최적이지만 계산 복잡.
3.6 Bandwidth \(q\) 선택
| 작은 \(q\) | 큰 \(q\) |
|---|---|
| 적은 lag 만 사용 | 많은 lag 사용 |
| 안정적 (작은 분산) | 변동성 큼 |
| 진짜 LRV 의 일부만 추정 (편향) | 더 완전한 추정 |
규칙: \(q / N \to 0\) 그리고 \(q \to \infty\).
자동 선택: Newey-West (1994), Andrews (1991) 등의 데이터 적응적 방법.
3.7 직관: 메아리의 누적 길이
극장의 메아리를 측정할 때:
- 짧은 측정 시간 (작은 \(q\)) — 강한 메아리만 측정. 안정적.
- 긴 측정 시간 (큰 \(q\)) — 약한 메아리까지. 더 완전하지만 잡음과 구별 어려움.
Bandwidth 선택의 균형은 신호의 강도와 잡음의 균형 — 신호가 빨리 감쇠하면 짧은 \(q\) 충분, 느리면 긴 \(q\) 필요.
4 함수 시계열의 정상성 (Definition 8.5.1)
4.1 정의
함수 시계열 모형 \(\{X_n: n \in \mathbb{Z}\}\) 가 정상 이면:
\[ \mu(t) = E X_n(t) \quad \text{과} \quad \gamma_h(t, s) = \text{Cov}(X_n(t), X_{n+h}(s)), \quad h \in \mathbb{Z} \]
가 \(n\) 에 의존하지 않는다.
4.2 함수 자기공분산의 비대칭성
스칼라 시계열에서 \(\gamma_{-h} = \gamma_h\) 였던 대칭성이 함수에서는 다르게 나타남:
\[ \gamma_{-h}(t, s) = \text{Cov}(X_n(t), X_{n-h}(s)) = \text{Cov}(X_{n-h}(s), X_n(t)) = \gamma_h(s, t). \]
즉 \(\gamma_{-h}(t, s) = \gamma_h(s, t)\) — 인자 순서가 바뀜, 단순 대칭이 아님.
4.3 직관: 함수의 두 시간 인덱스
스칼라에서는 \(\gamma_h\) 가 단일 숫자, 부호 변경에서 단순 대칭.
함수에서는 \(\gamma_h(t, s)\) 가 두 시간 인덱스의 함수:
- \(t\) — 현 시점 곡선의 도메인 위치 (예: 오늘 새벽).
- \(s\) — lag-h 시점 곡선의 도메인 위치 (예: 어제 저녁).
\(\gamma_{-h}\) 의 경우 위 두 역할이 swap → \(\gamma_h\) 의 인자도 swap.
4.4 Lag-0 의 특수성
\(\gamma_0(t, s) = \text{Cov}(X_n(t), X_n(s)) = c(t, s)\) — 보통의 공분산 함수 (Ch.3).
iid 함수 데이터의 경우 \(\gamma_h = 0\) for \(h \neq 0\) → LRCF = \(\gamma_0 = c\). iid 결과로 환원.
5 함수 LRCF (식 8.12)
5.1 정의
정상 함수 시계열의 LRCF:
\[ \sigma(t, s) = \sum_{h = -\infty}^\infty \gamma_h(t, s) = \gamma_0(t, s) + 2 \sum_{h=1}^\infty \frac{\gamma_h(t, s) + \gamma_h(s, t)}{2}. \]
수렴 조건:
\[ \sum_{h = -\infty}^\infty \iint \gamma_h^2(t, s) \, dt \, ds < \infty. \]
5.2 표본 평균 곡선의 분산 (식 8.14)
스칼라 결과의 함수 일반화:
\[ N \cdot \text{Cov}(\bar{X}_N(t), \bar{X}_N(s)) = \sum_{h=-(N-1)}^{N-1} \left(1 - \frac{|h|}{N}\right) \gamma_h(t, s) \to \sigma(t, s). \]
5.3 함수 CLT (식 8.15)
\[ \sqrt{N}(\bar{X}_N - \mu) \xrightarrow{d} Z, \]
\(Z\) 는 \(E Z(t) = 0\), \(\text{Cov}(Z(t), Z(s)) = \sigma(t, s)\) 인 가우스 random function.
5.4 직관: 함수 CLT 의 공분산이 LRCF
iid 함수 데이터의 CLT (Ch.3): \(\sqrt{N}(\bar{X}_N - \mu) \to Z\) where \(Z\) 의 공분산 = \(c\) (lag-0).
종속 함수 시계열의 CLT: 같은 형태이지만 \(Z\) 의 공분산이 LRCF \(\sigma\) — lag 0 + 모든 cross lag 합.
이 점근 결과가 함수 시계열의 모든 추론의 토대 — 평균 함수 검정, 신뢰 밴드, 변화점 검정 등 모두 LRCF 를 사용.
5.5 비유: 시계열 “잡음” 의 함수 일반화
스칼라 시계열에서 “잡음의 강도” = LRV (자기상관까지 포함한 분산).
함수 시계열에서 “잡음의 강도” = LRCF — 자기상관까지 포함한 공분산 표면. 두 시간 인덱스의 함수이므로 잡음의 시간별 강도와 대각 외 의존성 모두 표현.
6 LRCF 의 추정 (식 8.16)
6.1 표본 추정량
스칼라 LRV 추정의 자연스러운 일반화:
\[ \widehat{\sigma}(t, s) = \sum_{h=-(N-1)}^{N-1} K\left(\frac{h}{q}\right) \widehat{\gamma}_h(t, s), \]
또는 비대칭성 분리 형태:
\[ \widehat{\sigma}(t, s) = \widehat{\gamma}_0(t, s) + \sum_{h=1}^{N-1} K\left(\frac{h}{q}\right) \{\widehat{\gamma}_h(t, s) + \widehat{\gamma}_h(s, t)\}. \]
표본 자기공분산:
\[ \widehat{\gamma}_h(t, s) = \frac{1}{N} \sum_{j=1}^{N-h} (X_j(t) - \bar{X}_N(t))(X_{j+h}(s) - \bar{X}_N(s)). \]
6.2 일치성
적절한 조건 (lag window 의 매끄러움, 함수 시계열의 약 종속성, \(q \to \infty\) 와 \(q/N \to 0\)) 하:
\[ \iint \{\widehat{\sigma}(t, s) - \sigma(t, s)\}^2 \, dt \, ds \xrightarrow{P} 0. \]
즉 \(L^2(\mathcal{T} \times \mathcal{T})\) 노름에서 일치.
6.3 직관: 두 차원 추정의 본성
LRCF 추정은:
- \(h\) 차원 (lag): lag window \(K\) 와 bandwidth \(q\) 로 절단 — 스칼라 LRV 와 같은 패턴.
- \((t, s)\) 차원: 표본 자기공분산이 자동으로 함수 표면 — 별도 평활 없이도 직접 추정.
함수 데이터에서 \((t, s)\) 차원의 표본 추정이 자연스럽게 함수가 되는 이유 — 각 \(X_n\) 이 평활화된 함수 객체이므로 cross product 도 자동 함수.
6.4 비유: 두 종류의 잡음 누적
빌딩의 진동 측정:
- 시간 lag (h): 어제·오늘·그제의 진동의 누적 — 메아리 효과.
- 층별 위치 (t, s): 빌딩의 한 층의 진동이 다른 층에 어떻게 전달되는가.
LRCF 는 두 차원의 누적을 동시에 표현 — 시간 메아리 × 공간 (도메인) 의존성.
6.5 추가 가정
스칼라 케이스와 같이 단순 정상성 + 합산 조건만으로는 점근 결과 (8.14, 8.15) 부족 — 약 종속성 (예: \(\alpha\)-mixing) 추가 필요. 자세한 내용은 8.9 참조 (Hörmann & Kokoszka 2010 등).
7 정상성 검정의 동기 (8.6)
7.1 Ch.8 의 모든 도구가 정상성에 의존
- FAR(1) 추정 (8.2) — 정상 모형 가정.
- Hyndman-Ullah 예측 (8.3) — 시간 무관 평균 가정.
- 다변량 예측 (8.4) — 정상 점수 시계열.
- LRCF (8.5) — 정상성에서만 정의.
따라서 분석의 첫 단계는 정상성 검정.
7.2 검정 문제
\[ H_0: X_i(t) = \mu(t) + \eta_i(t), \]
\(\{\eta_i\}\) 가 strictly stationary, \(\mu\) 시간 무관.
대립 가설은 다양 — 변화점, random walk, 추세 등.
7.3 두 표준 대립 가설
Change point (\(H_{A, 1}\)):
\[ X_i(t) = \mu(t) + \delta(t) \mathbb{1}\{i > k^*\} + \eta_i(t). \]
특정 시점 \(k^*\) 이후 평균이 \(\mu(t) + \delta(t)\) 로 변경.
Random walk (\(H_{A, 2}\)):
\[ X_i(t) = \mu(t) + \sum_{\ell=1}^i u_\ell(t), \]
\(\{u_\ell\}\) 가 정상. 누적적 비정상.
7.4 직관: 두 비정상의 본성
- Change point — 갑작스러운 점프. 구조적 변화.
- Random walk — 점진적 표류 (drift). 누적되는 변동.
이 두 형태가 가장 흔한 비정상 패턴이며, 검정의 검정력이 이들을 잘 검출하도록 설계.
7.5 비유: 두 종류의 비정상
- Change point = 회사의 인수합병 — 갑작스럽게 평균 매출이 변경.
- Random walk = 인플레이션의 누적 — 매년 조금씩 가격이 표류, 장기적으로 큰 차이.
두 패턴이 시계열 데이터에서 흔하게 발생, 검정이 이들을 검출.
8 IBM 가격 곡선의 예시
8.1 두 종류의 함수 시계열
함수 시계열의 각 곡선이 연속 시간 비정상 과정의 한 실현, 곡선 수열은 정상 또는 비정상.
8.2 IBM 의 일별 가격 곡선
Figure 8.8 의 시각화:
- 일별 가격 곡선 \(X_i(t)\) (\(t\) = 분, \(i\) = 일자) — 각 곡선 자체가 비정상 (Brownian motion 같은 random walk). 곡선 수열도 비정상 — 일별 추세 (예: 5일 연속 상승).
- 누적 일중 수익률 (cumulative intraday returns) — 각 일의 곡선을 정규화 (시작값 0). 각 곡선은 여전히 random walk 같지만, 곡선 수열은 정상 — 정규화로 추세 제거.
8.3 직관: 정규화로 정상화
가격은 시간에 따라 추세 (random walk) — 비정상. 수익률 = 가격 차분 / 가격 = 정상화된 변량.
이는 시계열 분석의 표준 전처리 — 차분이나 normalize 로 비정상 데이터를 정상으로 환원. 함수 시계열에도 같은 원리 적용.
8.4 비유: 영화의 정규화
서로 다른 영화의 길이가 다르면 직접 비교 어려움. 모든 영화를 시간 0~1 로 정규화하면 비교 가능. 가격 곡선의 일별 정규화도 같은 사고 — 각 곡선의 절대 수준 차이를 제거 하여 패턴만 비교.
9 Partial Sum Process
9.1 정의
검정 통계량의 토대:
\[ S_N(x, t) = N^{-1/2} \sum_{i=1}^{[Nx]} X_i(t), \quad 0 \leq x \leq 1. \]
여기서 \([y]\) 는 \(y\) 의 정수부.
\(x\) 가 \(0\) 부터 \(1\) 까지 변할 때 \(S_N(x, t)\) 는 곡선 수열의 누적 평균 같은 객체. 격자 점에서:
\[ S_N(k/N, t) = N^{-1/2} \sum_{i=1}^k X_i(t). \]
9.2 CUSUM 형태: \(U_N\)
\[ U_N(x) = S_N(x) - x S_N(1). \]
9.3 직관: 평균이 사라지는 마법
\(H_0\) 하 \(X_i = \mu + \eta_i\):
\[ S_N(x) = N^{-1/2} \sum_{i=1}^{[Nx]} (\mu + \eta_i) = N^{-1/2} [Nx] \mu + N^{-1/2} \sum_{i=1}^{[Nx]} \eta_i \approx N^{1/2} x \mu + (\text{잡음 합}). \]
\(x S_N(1) \approx x \cdot (N^{1/2} \mu + N^{-1/2} \sum_i \eta_i) = N^{1/2} x \mu + x N^{-1/2} \sum_i \eta_i\).
차감:
\[ U_N(x) = N^{-1/2} \left\{ \sum_{i=1}^{[Nx]} \eta_i - x \sum_{i=1}^N \eta_i \right\} \quad (\text{식 8.17}). \]
\(\mu\) 가 자동 상쇄 — 미지의 평균에 무관.
9.4 비유: CUSUM 의 표준 사고
품질 관리에서 누적 합 차트 (CUSUM) — 평균이 일정하면 누적 합이 직선 형태, 변화점이 있으면 꺾임. CUSUM 의 표준 형태가 “누적 합 - 평균 직선”.
함수 시계열의 \(U_N\) 도 같은 사고 — \(\sum \eta_i\) 의 누적이 평균 0 의 백색 잡음 누적이면 \(U_N\) 이 작은 값, 비정상이면 큰 값.
9.5 대립 가설 하의 행동
Change point \(H_{A, 1}\):
\[ U_N(k^*/N) \approx (\text{H_0 형태}) + \frac{k^*(N - k^*)}{N^{3/2}} \delta. \]
추가 항 — \(N^{1/2}\) 차수의 비정상 신호. \(N \to \infty\) 일 때 발산.
Random walk \(H_{A, 2}\): 비슷한 추가 항 (랜덤이지만 발산하는 누적).
9.6 직관: 검정의 발산 메커니즘
\(H_0\) 하: \(U_N\) 이 유한 분포 (Brownian bridge 형태) 로 수렴. \(H_A\) 하: 추가 비정상 신호로 \(U_N\) 이 무한대로 발산.
이 차이가 검정의 검정력 — \(H_A\) 가 참이면 통계량이 임계값을 초과할 확률이 1 로 수렴.
10 검정 통계량 \(T_N\) (Monte Carlo 형태)
10.1 정의
\[ \widehat{T}_N = \int_0^1 \|U_N(x)\|^2 \, dx = \int_0^1 \left\{\int U_N^2(x, t) \, dt\right\} dx. \]
모든 \(x\) 에서 \(U_N\) 의 함수 노름의 적분 — 큰 \(\|U_N\|\) 가 비정상의 증거.
10.2 점근 분포
\(H_0\) 하 \(\widehat{T}_N \xrightarrow{d} T\), where:
\[ T = \sum_{j=1}^\infty \lambda_j \int_0^1 B_j^2(x) \, dx, \]
- \(\{B_j\}\): 독립 Brownian bridges (스칼라 가우스 과정, \(B_j(0) = B_j(1) = 0\)).
- \(\{\lambda_j\}\): \(\eta_i\) 의 LRCF \(\sigma_\eta(t, s)\) 의 고유값.
10.3 직관: Brownian Bridge 의 등장
표본 평균 \(\bar{X}_N\) 의 점근 분포가 가우스 random function (식 8.15). 부분 합 - 직선 형태의 \(U_N\) 은 가우스 random function 의 bridge 버전 — 양 끝이 0 으로 묶인 형태.
이는 스칼라 시계열에서 Brownian motion 과 Brownian bridge 의 관계와 같음:
- Brownian motion \(W(t)\) — 스칼라 가우스 과정.
- Brownian bridge \(B(t) = W(t) - tW(1)\) — 양 끝이 0 으로 묶인 버전.
함수 시계열의 \(U_N\) 가 정확히 bridge 형태.
10.4 비유: 강물의 시작과 끝
강의 시작점과 끝점의 수위가 정해져 있다고 하자 (예: 둘 다 해수면). 그 사이의 수위는 자유롭게 변동. 양 끝이 묶인 자유 변동 = bridge 형태.
\(U_N\) 도 같은 구조 — \(U_N(0) = 0\), \(U_N(1) = 0\) (정의에 의해), 그 사이에서 자유 변동.
10.5 Monte Carlo 근사
\(T\) 의 분포가 미지의 \(\lambda_j\) 와 \(\int B_j^2\) 같은 random variable 에 의존 — 닫힌 형태 분포 없음.
10.6 두 단계 근사
이론적 \(T\) → 표본 \(T^*\): \[ T^* = \sum_{j=1}^D \widehat{\lambda}_j I_j^*, \] \(\widehat{\lambda}_j\) 는 표본 LRCF 의 고유값, \(I_j^*\) 는 \(\int_0^1 B_j^2(x) dx\) 의 시뮬레이션.
\(T^*\) 의 반복 시뮬레이션 (\(R = 10^4\) 번) 으로 경험 분포 → P-value 계산.
10.7 직관: 두 단계 근사의 의미
- 첫 단계 — 무한합을 유한합으로 절단 (\(D\) 차원), 미지 \(\lambda_j\) 를 추정 \(\widehat{\lambda}_j\) 로 대체.
- 둘째 단계 — 시뮬레이션으로 분위수 추정.
두 단계 모두 추정 잡음을 도입하지만, 큰 \(N\) 과 \(R\) 에서 정확.
11 Pivotal 통계량 \(T_N^0(d)\)
11.1 동기
Monte Carlo 형태는 각 데이터셋마다 시뮬레이션 필요. 더 편리한 방법은 데이터 무관 임계값 사용.
11.2 통계량 정의
\[ \widehat{T}_N^0(d) = \sum_{j=1}^d \widehat{\lambda}_j^{-1} \int_0^1 \langle U_N(x, \cdot), \widehat{\varphi}_j \rangle^2 \, dx. \]
각 \(\widehat{\lambda}_j\) 로 정규화하여 표준화.
11.3 점근 분포
\(H_0\) 하 \(\widehat{T}_N^0(d) \xrightarrow{d} T^0(d)\):
\[ T^0(d) = \sum_{j=1}^d \int_0^1 B_j^2(x) \, dx. \]
\(\lambda_j\) 가 자동으로 사라짐 — 데이터 무관 분포.
11.4 직관: Pivotal 의 의미
통계학 일반에서 pivotal quantity = 분포가 미지 모수에 무관한 양.
- 비-pivotal: \(\bar{X}_N\) — 분포가 \(\sigma\) 에 의존.
- Pivotal: \((\bar{X}_N - \mu) / s\) — 분포가 표준 정규 (Student-t).
\(T_N^0(d)\) 의 pivotality 가 임계값을 한 번 계산하면 모든 데이터셋에 사용 가능 의 우아한 결과.
11.5 Table 8.1 의 임계값
| \(d\) | 10% | 5% | 1% |
|---|---|---|---|
| 1 | 0.345 | 0.461 | 0.740 |
| 2 | 0.607 | 0.749 | 1.072 |
| 3 | 0.843 | 1.001 | 1.352 |
| 5 | 1.280 | 1.469 | 1.867 |
| 10 | 2.289 | 2.527 | 3.034 |
(시뮬레이션 기반, \(N = 1000\), \(10^5\) replications.)
검정: $_N^0(d) > $ 임계값 → \(H_0\) 기각.
11.6 \(d\) 의 균형
| 작은 \(d\) | 큰 \(d\) |
|---|---|
| 적은 PC 만 사용 | 많은 PC 사용 |
| 첫 차원의 비정상만 검출 | 모든 차원 검출 가능 |
| 분모에 큰 \(\lambda_j\) → 안정 | 작은 \(\widehat{\lambda}_j\) → 변동성 |
표준 규칙: CPV 85% 가 처음 넘는 \(d\). 보통 한 자리 수.
11.7 직관: 비정상이 PC 차원에 어떻게 분포?
비정상 신호 \(\delta(t)\) 가 PC 의 첫 몇 차원에 집중되면 작은 \(d\) 로 충분. 후순위 PC 에 분산되면 큰 \(d\) 필요.
대부분의 실무 비정상 (장기 추세, 계절성) 은 첫 1~3 PC 에 집중 — 작은 \(d\) 가 효율적.
12 R 구현
12.1 기본 사용법
library(ftsa)
# pm_10_GR_sqrt: 함수 시계열 객체 (Section 8.4)
result <- T_stationary(pm_10_GR_sqrt$y)
# 출력:
# Monte Carlo test of stationarity of a functional time series
# null hypothesis: the series is stationary
# p-value = 0.082
# N (number of functions) = 182
# number of MC replications = 1000P-value 8.2% → 10% 수준에서 정상 가정 가까이 (경계). 큰 표본이 있으면 계절 효과로 비정상 발견 가능.
12.2 Pivotal 검정
12.3 인자 해설
| 인자 | 의미 |
|---|---|
J |
\(\int B^2\) 시뮬레이션의 절단 차원 (기본 500) |
MC_rep |
Monte Carlo 반복 수 |
h |
LRCF 추정의 lag window bandwidth |
pivotal |
TRUE/FALSE — 두 통계량 선택 |
cumulative_var |
\(d\) 선택의 CPV 임계값 (기본 90%) |
12.4 직관: 두 통계량의 선택
| 상황 | 권장 |
|---|---|
| 표준 분석 | pivotal = FALSE (기본) — Monte Carlo |
| 빠른 분석 | pivotal = TRUE + Table 임계값 |
| 작은 표본 | pivotal = FALSE (Monte Carlo 가 더 안정) |
| 큰 표본 | 둘 다 비슷, 선호도에 따라 |
기본 Monte Carlo 가 보통 더 견고. Pivotal 은 빠르고 임계값 표 사용 가능.
13 두 절의 통합 시각
13.1 한 줄 요약
**장기 공분산 함수 (LRCF) σ(t, s) = Σ γ_h(t, s) 가 종속 함수 시계열의 표본 평균 분산을 결정 — N · Cov(X̄_N(t), X̄_N(s)) → σ(t, s), 함수 CLT √N(X̄_N - μ) → Z 의 점근 공분산. 추정 (식 8.16) 은 lag window K 와 bandwidth q 의 절단으로. 정상성 검정은 partial sum process U_N(x) = S_N(x) - x S_N(1) 가 H_0 하 Brownian bridge 형태로 수렴 → T_N = ∫‖U_N‖² 의 점근 분포 T = Σ λ_j ∫B_j²(x)dx. Pivotal 버전 T_N⁰(d) 가 데이터 무관 분포 → Table 8.1 임계값 직접 사용. R 패키지 ftsa::T_stationary 가 표준 구현.**
13.2 Ch.8 전반부 (8.1~8.4) 와의 비교
| 측면 | 8.1~8.4 | 8.5~8.6 |
|---|---|---|
| 목표 | 모형 적합 + 예측 | 추론 + 가정 검증 |
| 도구 | FAR(1), Hyndman-Ullah, VAR | LRCF, partial sum, Brownian bridge |
| 토대 | KL 분해 + 시계열 모형 | 점근 분포 + 절단 |
| R | pca.fd, ftsa::fdm, farforecast |
ftsa::T_stationary |
8.5~8.6 가 분석의 첫 단계 (정상성 검증) + 마지막 단계 (추론). 8.1~8.4 가 중간의 모형 적합·예측.
13.3 Ch.8 후속 절과의 연결
| 후속 절 | 8.5~8.6 의 도구를 어떻게 활용하는가 |
|---|---|
| 8.7 R 구현 | FAR(1) 시뮬레이션 + LRCF 진단 |
| 8.8 존재 조건 | FAR(1) 의 정상성 토대 (Theorem 8.8.1) |
| 8.9 참고문헌 | LRCF 와 정상성 검정의 후속 발전 |
8.5~8.6 의 추론 framework 가 Ch.8 의 모든 분석의 통계적 기초.
13.4 실용 워크플로우
- 데이터 시각화 — 시간 추세, 계절성 확인.
- 정상성 검정 (
ftsa::T_stationary) — 8.6. - 비정상이면 변환 — 차분, log, normalize.
- 재검정 — 정상성 확인.
- 모형 적합 — FAR(1) (8.2) 또는 Hyndman-Ullah (8.3).
- 예측 (8.3 또는 8.4).
- LRCF 추정 (8.5) — 신뢰 한계 계산.
- 잔차 진단 — 백색 잡음 검정.
14 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개
- FDA 8.0 — 함수 시계열 (FTS) 개관
- FDA 8.1~8.2 — 시계열 기초와 FAR(1) 함수 자기회귀 모형
- FDA 8.3~8.4 — Hyndman-Ullah 와 다변량 함수 시계열 예측
- 스칼라 시계열의 LRV
후속 주제
관련 개념
- Brownian Bridge — 8.6 의 점근 분포
- Brownian Motion — Bridge 의 base
- Long-Run Variance (LRV) 와 Newey-West 추정량 — 스칼라 원조
- CUSUM 검정 — 8.6 의 사고
- HAC (Heteroskedasticity and Autocorrelation Consistent) 표준오차 — LRV 의 응용
ftsaR 패키지 — FTS 분석의 표준 도구- Pivotal Quantity — 8.6 의 pivotal 통계량