1 두 절의 역할
| 절 | 주제 | 핵심 도구 |
|---|---|---|
| 8.3 | Hyndman-Ullah 예측 | KL 절단 + 단변량 점수 시계열 ARIMA |
| 8.4 | 다변량 함수 시계열 예측 | 점수 벡터의 VAR 모형 |
8.3 은 Hyndman-Ullah 예측 방법 — FAR(1) 모형의 강한 가정 (정상성, 명확한 자기상관 구조) 없이 자동 적용 가능한 함수 시계열 예측의 표준 도구. 핵심 아이디어: KL 절단으로 함수를 \(J\) 차원 점수 시계열로 환원 후 각 점수를 따로 단변량 시계열 예측. 미국 사망률 곡선 예측의 표준 방법으로 actuarial science 에서 발전.
8.4 는 Hyndman-Ullah 의 자연스러운 일반화 — 점수 시계열을 벡터 로 묶어 다변량 시계열 예측 (VAR 등) 적용. PC 점수 사이 cross-covariance 를 활용하여 더 효율적. R 패키지 ftsa::farforecast 가 표준 구현.
두 절을 합쳐 보면 FAR(1) 의 강한 가정 없이도 함수 시계열 예측이 가능 한 실용적 framework 가 완성된다.
2 Hyndman-Ullah 의 동기
2.1 FAR(1) 의 한계
8.2 에서 본 FAR(1) 모형 \(X_n = \Phi(X_{n-1}) + \varepsilon_n\) 의 추정·예측은 강력하지만:
- 정상성 강한 가정 — 평균 함수가 시간 무관, 자기공분산 구조가 일정.
- lag-1 의존성 만 모형화 — lag-2 이상의 의존성은 별도 FAR(p) 가 필요하지만 추정이 어려움.
- Pseudo-inverse \(C_p^+\) 의 잡음 — 작은 \(\widehat{\lambda}_j\) 가 추정량의 변동성 증가.
2.2 더 일반적인 접근의 필요
함수 시계열의 자기상관 구조에 강한 모형을 가정하지 않고도 예측할 수 있는가?
Hyndman-Ullah 의 답: 차원 축소 + 단변량 시계열 도구.
2.3 직관: 함수의 “어려움” 을 단변량으로 환원
함수 시계열 예측의 본질적 어려움은 무한차원. 차원 축소 (KL 절단) 후 표준 단변량 시계열 도구 (ARIMA, exponential smoothing 등) 가 자동 적용 가능.
이는 통계학의 보편적 패턴 — 어려운 문제를 쉬운 문제들의 모음으로 환원.
2.4 비유: 오케스트라의 분리 녹음
오케스트라의 미래 연주를 예측하려면:
- 각 악기 (PC) 별로 분리 — 바이올린·첼로·트럼펫 등.
- 각 악기의 미래 음 예측 — 표준 단음 예측 도구.
- 합성 — 모든 악기 예측의 합산.
오케스트라 전체 (함수 시계열) 의 직접 예측보다 각 악기 (PC) 의 예측의 합 이 더 간단하고 안정적.
3 Hyndman-Ullah 알고리즘
3.1 KL 절단 표현
\(N\) 개의 함수 시계열 관측 \(X_1, X_2, \ldots, X_N\) 에 대해:
\[ X_n^{(J)}(t) = \widehat{\mu}(t) + \sum_{j=1}^J \widehat{\xi}_{n, j} \widehat{v}_j(t). \]
- \(\widehat{\mu}(t) = N^{-1} \sum_n X_n(t)\) — 표본 평균 함수.
- \(\widehat{v}_j\) — 추정 EFPC.
- \(\widehat{\xi}_{n, j} = \langle X_n - \widehat{\mu}, \widehat{v}_j \rangle\) — PC 점수.
- \(J\) — 절단 차원.
3.2 절단 차원 \(J\) 선택
누적 분산 비율 (CPV) — 첫 \(J\) 개 PC 가 전체 분산의 90~95% 를 설명하도록.
잔차 분석 — 잔차 곡선 \[ e_n^{(J)} = X_n - X_n^{(J)} \] 가 함수 백색 잡음 이어야 한다.
3.3 잔차 진단
잔차가 함수 백색 잡음이려면 — 자기상관이 없어야. 두 진단:
- Portmanteau 검정 — Horváth & Kokoszka (2012) Ch.7 의 함수 시계열 white noise 검정.
- 시각적 진단 — 시험 함수 \(u\) 와의 사영 \(\langle e_n^{(J)}, u \rangle\) 의 단변량 시계열을 만들어 ACF 시각화.
ACF 가 신뢰 한계 안에 있으면 — 잔차가 백색 잡음, \(J\) 적절. ACF 에 유의 한 자기상관이 남아 있으면 — \(J\) 너무 작음, 더 많은 PC 필요.
3.4 직관: 두 기준의 의미
- CPV — “얼마나 많은 분산을 설명하는가” — 회귀 결정계수 \(R^2\) 의 함수 버전.
- 잔차 분석 — “예측에 필요한 정보를 모두 추출했는가” — 모형 선택의 표준 기준.
예측 맥락에서는 잔차 분석이 더 중요. CPV 가 높아도 잔차에 자기상관이 남아 있으면 그 정보를 예측에 활용하지 못함.
3.5 단변량 점수 시계열 예측
각 \(j = 1, 2, \ldots, J\) 에 대해:
- 단변량 시계열 \(\widehat{\xi}_{1, j}, \widehat{\xi}_{2, j}, \ldots, \widehat{\xi}_{N, j}\) 형성.
- 단변량 예측 (ARIMA, exponential smoothing, ETS 등) 으로 미래 값 \(\widehat{\xi}_{N+h | N, j}\) 예측.
자동화된 모형 선택 — AIC 기반 ARIMA 차수 선택 (auto.arima 등) — 으로 사용자 개입 최소.
3.6 함수 예측 재구성 (식 8.6)
\[ \boxed{ X_{N+h | N}^{(J)}(t) = \widehat{\mu}(t) + \sum_{j=1}^J \widehat{\xi}_{N+h | N, j} \widehat{v}_j(t). } \]
3.7 직관: 평균 + 변동의 합성
예측의 두 요소:
- \(\widehat{\mu}(t)\) — 시간 무관 평균 (Hyndman-Ullah 의 가정).
- \(\sum_j \widehat{\xi}_{N+h | N, j} \widehat{v}_j(t)\) — 미래 변동의 추정.
만약 평균이 시간에 따라 변하면 (추세) — 별도로 \(\widehat{\mu}(t)\) 의 동역학을 모형화 후 예측에 반영.
3.8 비유: 멀티트랙 음악의 미래 예측
5 트랙으로 분해된 음악:
- 트랙 1 (가장 강한 패턴) — 보컬 멜로디. 단변량 시계열 예측.
- 트랙 2 — 베이스. 단변량 예측.
- 트랙 3 — 드럼. 단변량 예측.
- …
- 합성 — 모든 트랙 예측의 합산이 미래 음악.
각 트랙이 독립적으로 처리되므로 작업이 단순. 단점: 트랙 사이 의존성을 무시 (8.4 가 이를 일반화).
4 응용: 미국 사망률 곡선 예측
4.1 데이터 배경
Human Mortality Database 에서 미국 1950~2010 의 연간 사망률 곡선:
- \(D_n(t)\) — 연도 \(n\), 나이 \(t\) 의 사망 수.
- \(P_n(t)\) — 연도 \(n\), 나이 \(t\) 의 인구.
- \(m_n(t) = D_n(t) / P_n(t)\) — 사망률 (비율).
작업 변수: 로그 사망률 \(\ln m_n(t)\) — 분산 안정화 + 매끄러운 곡선.
4.2 직관: 왜 로그 변환인가
사망률은:
- 어린 나이 (\(t < 20\)): 매우 작음 (\(m_n \sim 10^{-4}\)).
- 노인 (\(t > 80\)): 큼 (\(m_n \sim 10^{-1}\)).
세 자릿수 이상의 차이 — 직접 모형화하면 큰 값이 추정을 지배. 로그 변환 으로 모든 나이 영역에서 비슷한 척도. 또한 회귀의 가법성 가정이 자연스러워짐.
4.3 평활화
원시 곡선 \(\ln m_n(t)\) 가 양 끝 (어린 나이, 노인) 에서 잡음 큼. 평활화 단계 로 매끄러운 함수 객체 \(X_n\) 형성.
4.4 Hyndman-Ullah 적합
library(RCurl); library(demography); library(MortalitySmooth)
# 데이터 다운로드
usa <- hmd.mx("USA", "username", "password", "USA")
usa1950 <- extract.years(usa, years = 1950:2010)
# 평활
smus <- smooth.demogdata(usa1950)
# Hyndman-Ullah 모형 적합 (J = 3)
fdm.male <- fdm(smus, series = "male", order = 3)
# 30 년 예측
forecast.fdm.male <- forecast.fdm(fdm.male, h = 30)
# 시각화
plot(forecast.fdm.male, plot.type = "component") # PC 별 분해
plot(forecast.fdm.male) # 함수 예측4.5 결과 해석
- PC1 점수의 명확한 하향 추세 — 의학 발전으로 전반적 사망률 감소.
- 첫 EFPC \(\widehat{v}_1(t)\) 가 양수 — 모든 나이에서 사망률 감소가 일관.
- \(\widehat{v}_1(t)\) 의 봉우리 — 5~15 세, 50~70 세에서 가장 강한 감소.
- PC2, PC3 — 신뢰 한계가 0 을 포함, 명확한 추세 없음.
미래 예측: 점진적 사망률 감소 가 모든 나이에서 일어나며, 특히 5~15 세와 50~70 세에서 두드러짐.
4.6 직관: 의학 발전의 함수적 해석
PC1 의 봉우리:
- 5~15 세 — 어린이 백신, 영양 개선, 사고 예방의 효과.
- 50~70 세 — 만성질환 (심장병, 암) 의 의학 진보.
이는 함수 PCA 가 도메인 지식과 일관된 변동 모드 추출 의 좋은 예시. 단순한 단변량 분석으로는 이런 나이별 패턴을 명확히 보지 못함.
4.7 비유: 인구 동역학의 영화
각 연도의 사망률 곡선이 한 프레임. Hyndman-Ullah 가 “이 영화의 다음 장면 예측” — 의학 발전의 추세를 첫 PC 가 자동으로 잡고, 그 추세를 미래로 외삽.
이 직관이 actuarial science (생명보험·연금 설계) 에서 사망률 예측의 표준 도구로 채택된 이유.
4.8 평균 함수의 역할
Hyndman-Ullah 가정: \(\widehat{\mu}(t)\) 가 시간 무관. 미국 사망률에서는:
- 평균 함수 = 1950~2010 의 평균 사망률 곡선.
- 미래 예측 = 같은 평균 + 변동 (PC1 하향 추세).
만약 평균이 시간에 따라 명확히 변하면 (예: 1900~2010 같은 긴 기간) — 평균 자체를 별도로 예측 후 변동에 더해야 함.
5 다변량 함수 시계열 예측
5.1 Hyndman-Ullah 의 한계
각 PC 점수를 독립적으로 예측 → 점수 사이 cross-covariance 정보를 잃음.
PC 점수의 시간 cross-covariance: \(\text{Cov}(\widehat{\xi}_{n, j}, \widehat{\xi}_{m, k})\) for \(k \neq j\), \(n \neq m\).
EFPC 의 직교성으로 같은 시점 (\(n = m\)) 에서는 0 — 그러나 다른 시점 사이는 0 이 아닐 수 있음. 이 정보를 활용하면 더 정확한 예측 가능.
5.2 다변량 알고리즘
차원 선택 + 점수 벡터 형성: \[ \boldsymbol{\Xi}_n^{(J)} = (\widehat{\xi}_{n, 1}, \widehat{\xi}_{n, 2}, \ldots, \widehat{\xi}_{n, J})^T. \]
다변량 시계열 예측 — VAR (Vector Autoregression) 등으로 \(\widehat{\boldsymbol{\Xi}}_{N+h | N}^{(J)}\) 예측.
함수 예측 재구성 — 식 (8.6).
5.3 Hyndman-Ullah 와의 관계
Hyndman-Ullah 는 다변량 방법의 특수 경우 — 점수 사이 의존성을 무시하고 각 PC 별로 독립 예측.
다변량 방법이 일반적으로 더 강력하지만:
- 추정 모수 수가 많음 — VAR(1) 의 모수 = \(J^2\) (vs Hyndman-Ullah 의 \(J\)).
- 표본이 충분히 커야 추정 안정.
5.4 직관: 정보 활용 vs 추정 안정성의 균형
| 측면 | Hyndman-Ullah | 다변량 (VAR) |
|---|---|---|
| 사용 정보 | 각 PC 의 자체 시계열 | 모든 PC 의 vec 시계열 + cross |
| 추정 모수 | \(J\) 모형 × 적은 모수 | \(J \times J\) 행렬 |
| 표본 요구 | 작은 \(N\) 도 가능 | 큰 \(N\) 필요 |
| 정확성 | Cross-covariance 무시 | Cross-covariance 활용 |
작은 표본에서는 Hyndman-Ullah 가 더 견고. 큰 표본 + 강한 cross-covariance 가 있으면 다변량이 더 좋음. 데이터 크기와 cross-covariance 강도에 따라 선택.
5.5 비유: 합주 vs 솔로
- 솔로 연주 (Hyndman-Ullah) — 각 악기가 따로 연주. 단순하지만 합주 효과 없음.
- 합주 연주 (다변량) — 악기들이 서로의 음에 맞춰 조정. 더 풍부하지만 합주 연습 (충분한 데이터) 필요.
함수 시계열 예측의 두 방법도 같은 트레이드오프.
5.6 VAR 모형의 구체화
VAR(\(q\)) 모형:
\[ \boldsymbol{\Xi}_n = \boldsymbol{c} + \mathbf{A}_1 \boldsymbol{\Xi}_{n-1} + \mathbf{A}_2 \boldsymbol{\Xi}_{n-2} + \cdots + \mathbf{A}_q \boldsymbol{\Xi}_{n-q} + \boldsymbol{\eta}_n, \]
여기서:
- \(\boldsymbol{c} \in \mathbb{R}^J\) — 절편.
- \(\mathbf{A}_k \in \mathbb{R}^{J \times J}\) — 자기회귀 계수 행렬 (\(q\) 개).
- \(\boldsymbol{\eta}_n\) — 다변량 백색 잡음.
대각 \(\mathbf{A}_1, \ldots, \mathbf{A}_q\) = Hyndman-Ullah (각 PC 가 자기 자신만 예측). 일반 \(\mathbf{A}_k\) = cross-covariance 활용.
5.7 직관: 행렬 \(\mathbf{A}_1\) 의 (i, j) 성분
\(\mathbf{A}_1[i, j]\) = “전 시점의 PC \(j\) 점수가 현 시점의 PC \(i\) 점수에 주는 영향”.
- 대각 성분 (\(i = j\)) = 자기 PC 의 자기상관.
- 비대각 성분 (\(i \neq j\)) = 다른 PC 의 영향 (Hyndman-Ullah 가 무시하는 부분).
VAR 의 자기회귀 차수 \(q\) 와 행렬 \(\mathbf{A}_k\) 가 모두 자동 추정 (AIC 등).
5.8 ftsa::farforecast 의 내부
함수 이름의 “far” 는 FAR(1) 이 아니라 “functional autoregressive” — VAR 기반 예측이라는 의미. 내부 구현:
- 입력 함수 시계열에 KL 분해.
- 점수 벡터에 VAR 적합 (
vars패키지의VAR함수). - VAR 예측 → 식 (8.6) 으로 함수 재구성.
사용자는 함수 시계열 객체만 입력 하면 모든 단계가 자동.
6 응용: 호주 그라츠 pm10 오염
6.1 데이터 배경
오스트리아 그라츠의 대기 오염 측정:
- 기간: 2010-10-01 ~ 2011-03-31.
- 빈도: 30 분마다 측정.
- 각 일자가 한 곡선 — 시간별 pm10 농도 (\(t \in [0, 24]\) 시간).
총 약 182 개 일별 곡선의 함수 시계열.
6.2 분산 안정화: 제곱근 변환
pm10 농도가 분포가 치우침 (큰 농도가 큰 분산). 제곱근 변환 으로 분산 안정화 — 회귀·예측의 표준 전처리.
6.3 직관: 분산 안정화의 의미
오염 농도가 평균 \(\mu\) 일 때 분산이 약 \(\mu\) 에 비례 (포아송 분포 같은 카운트 데이터 패턴). 제곱근 변환의 분산 ≈ 일정 (델타 방법).
이는 GLM 의 분산 안정화 변환과 같은 원리 — 모형의 등분산 가정을 만족시키는 변환.
6.4 ftsa::farforecast 적합
require(ftsa); require(vars)
x <- seq(0, 23.5, by = 0.5) # 30 분 격자
# 30 일 예측 (다변량)
multi_forecast_sqrt_pm10 <- farforecast(ftsm(pm_10_GR_sqrt), h = 30, PI = FALSE)
# 시각화
plot(multi_forecast_sqrt_pm10, ylim = c(5.2, 7.5),
xlab = "Hour", ylab = "Square root of pm10", lw = 2)
# 한 단계 예측 추가
oneStep_forecast_sqrt_pm10 <- farforecast(ftsm(pm_10_GR_sqrt), h = 1)
lines(oneStep_forecast_sqrt_pm10, lwd = 3, lty = 3)6.5 결과 해석
- 예측 곡선이 평균 함수로 수렴 — 정상 시계열의 표준 행동.
- 단기 예측 (1 일 후) 이 더 정확.
- 장기 예측 (30 일 후) — 평균에 가까워지며 정보량 감소.
- 시간대별 패턴 — 출퇴근 시간대 (07:00, 18:00) 의 오염 피크 가 평균 곡선에 반영.
6.6 직관: 정상 시계열 예측의 평균 수렴
정상 시계열의 일반 결과:
장기 예측은 표본 평균으로 수렴 — 미래로 갈수록 현재 정보의 영향이 감소, 평균이 최선의 추정.
이는 AR(1) \(\widehat{X}_{N+h} = \widehat{\mu} + \widehat{\varphi}^h (X_N - \widehat{\mu})\) 에서 \(h \to \infty\) 일 때 \(\widehat{\varphi}^h \to 0\) (\(|\widehat{\varphi}| < 1\)) 으로 \(\widehat{\mu}\) 로 수렴하는 패턴과 같음.
함수 시계열에서도 동일 — VAR 의 안정성 조건 하 장기 예측이 평균 함수로 수렴.
6.7 비유: 날씨 예보의 신뢰도 감소
내일의 날씨 예보 — 매우 정확. 1 주일 후 — 덜 정확. 1 달 후 — 계절 평균에 가까움 (예: “5 월의 평균 기온”).
함수 시계열 예측도 같은 패턴 — 단기는 현재 상태가 결정, 장기는 모집단 평균이 지배.
6.8 한 단계 예측의 가치
farforecast(..., h = 1) 의 한 단계 예측이 가장 정확 — 현재 정보를 최대 활용. 실시간 모니터링·경보 시스템에 가장 유용.
다단계 예측은 계획 수립 (계절 단위 정책 결정) 에 유용하지만 신뢰 한계가 큼.
7 두 방법의 비교
7.1 정량적 비교
| 시나리오 | 권장 |
|---|---|
| 작은 표본 (\(N < 100\)) | Hyndman-Ullah |
| 큰 표본 (\(N > 500\)) + 강한 PC 결합 | 다변량 (farforecast) |
| 자동화 + 견고 | Hyndman-Ullah |
| 최대 정확도 (계산 가능) | 다변량 |
| PC 점수의 ACF 가 단순 | Hyndman-Ullah 충분 |
| PC 점수 사이 명확한 lead-lag | 다변량 |
7.2 진단: 어느 방법이 적절한가
- 점수 cross-correlation 확인 — 거의 0 이면 Hyndman-Ullah 충분.
- 두 방법 모두 적합 후 hold-out 예측 정확도 비교.
- Bootstrap 으로 신뢰 한계 비교 — 다변량이 더 좁은 한계면 그 방법 우수.
7.3 비유: 도구 선택의 균형
손목시계 vs 스마트워치:
- 손목시계 (Hyndman-Ullah) — 단순하고 견고. 시간만 알면 충분.
- 스마트워치 (다변량) — 더 많은 기능. 그러나 배터리·복잡성 비용.
도구의 복잡성을 작업의 요구에 맞춰야 한다. 단변량으로 충분한 단순한 시계열에 다변량 적용은 over-engineering.
8 두 절의 통합 시각
8.1 한 줄 요약
**Hyndman-Ullah 예측은 KL 절단 X_n^(J)(t) = μ̂(t) + Σ ξ̂_{n,j} v̂j(t) 후 각 점수 시계열 ξ̂{·, j} 를 단변량 ARIMA 로 따로 예측 → 식 (8.6) 으로 함수 재구성. FAR(1) 의 강한 가정 없이 자동 적용 가능. 다변량 예측은 점수 벡터 Ξ_n^(J) 의 VAR 모형으로 PC 사이 cross-covariance 활용 → 일반적으로 더 정확하지만 추정 모수 많음. 미국 사망률 (Hyndman-Ullah) 과 호주 pm10 오염 (다변량) 이 표준 응용 사례. 정상 시계열의 장기 예측은 평균 함수로 수렴한다.**
8.2 Ch.8 전반부 (8.1~8.2) 와의 비교
| 측면 | 8.1~8.2 (FAR(1)) | 8.3~8.4 (예측) |
|---|---|---|
| 모형 | \(X_n = \Phi(X_{n-1}) + \varepsilon_n\) | KL 절단 후 점수 시계열 |
| 예측 | \(\widehat{\Phi}(X_N)\) | 단변량/다변량 시계열 도구 |
| 가정 | 정상 + lag-1 의존성 | 정상만 (다양한 의존성 자동 처리) |
| 일반성 | 강한 모형 가정 | 더 일반적 |
| R | pca.fd + 수동 |
ftsa::fdm, ftsa::farforecast |
8.3~8.4 가 8.1~8.2 의 강한 가정을 완화한 더 실용적 도구.
8.3 Ch.8 후속 절과의 연결
| 후속 절 | 8.3~8.4 의 도구를 어떻게 활용하는가 |
|---|---|
| 8.5 LRCF | 예측 신뢰 한계 계산에 LRCF 사용 |
| 8.6 정상성 검정 | 예측 전 정상성 검증 (필수) |
| 8.7 R 구현 | ftsa 와 fda 패키지의 통합 사용 |
| 8.8 존재 조건 | FAR(1) 모형의 수학적 토대 |
8.3~8.4 의 예측 framework 가 Ch.8 의 가장 실용적 부분 — 함수 시계열 분석의 표준 first step.
8.4 실용 워크플로우
- 데이터 시각화 — 시간 추세, 계절성, 점프 확인.
- 정상성 검증 —
ftsa::T_stationary(8.6). - 비정상이면 변환 — 차분, log, normalize.
ftsa::ftsm으로 KL 분해 — 평균·EFPC·점수 추출.- 잔차 분석 — Portmanteau 검정 또는 ACF 시각화.
- Hyndman-Ullah 예측 (
forecast.fdm) 또는 다변량 예측 (farforecast). - 시각화 — 미래 곡선 + 신뢰 한계.
- 모형 비교 — 두 방법의 hold-out 정확도 비교.
9 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개 — KL 절단의 토대
- FDA 8.0 — 함수 시계열 (FTS) 개관
- FDA 8.1~8.2 — 시계열 기초와 FAR(1) 함수 자기회귀 모형
- 스칼라 ARIMA 시계열
후속 주제
관련 개념
- Vector Autoregression (VAR) — 8.4 의 핵심 도구
- ARIMA 모형과 자동 차수 선택 (
auto.arima) — 8.3 의 단변량 예측 - Portmanteau 검정 (Ljung-Box) — 잔차 진단
ftsaR 패키지 — FTS 예측의 표준 도구demographyR 패키지 — 사망률 데이터 + 함수 모형- Hyndman-Ullah 방법의 원논문 — Hyndman & Ullah (2007)