1 이 절의 위치
Ch.12.1~12.7 의 표본 평균 일관성, 공분산 연산자 추정, EFPC 수렴, 함수 CLT, 가설 검정, 신뢰 대역 등 모든 추론 도구를 정착. Ch.12.8 의 BOA 응용은 이 모든 도구를 한 데이터셋에 통합 적용 하는 case study — Ch.12 (그리고 사실상 Ch.3~12 전체) 의 마무리.
Ch.12.8 의 위치
↓
모든 추론 도구의 실전 응용
이론 → 코드 → 결과 → 경제적 해석
Ch.3 의 framework 부터 시작한 12 장의 종착점
핵심 메시지: BOA 주식의 분 단위 누적 일중 수익률 곡선 \(X_n(t)\) 에 Ch.12 의 모든 도구 — 표본 평균·EFPC·CLT·신뢰 대역·가설 검정 — 를 통합 응용. 결과: 평균이 통계적으로 0 에서 다름 (drift 존재) 그러나 경제적으로 매우 작음 — FDA 의 실전 가치와 한계를 모두 보여주는 표준 case study.
1.1 이 응용이 중요한 이유
Ch.12.1~12.7 가 각 도구의 이론적 정착 — 분리된 결과들의 모음. Ch.12.8 의 BOA 응용은:
- 통합 — 모든 도구가 한 데이터에서 어떻게 작동하는지.
- 실전 — 코드 작성, 결과 해석, 경제적 함의.
- 한계 인식 — 통계적 유의성 vs 경제적 유의성의 차이.
- 확장 동기 — 일별 독립 가정의 한계 → Ch.8 의 함수 시계열 모형.
한 데이터셋이 이론과 실전의 다리.
1.2 학습 효과
- BOA 응용을 따라 가면서 Ch.3~12 의 모든 결과의 실전 의미 가 명확해진다.
- R 코드의 표준 패턴 (refund + fda 패키지) 을 학습.
- 결과 해석의 정확한 어휘 (statistical vs economic significance) 정착.
- 함수 시계열 (Ch.8) 로의 자연스러운 확장 동기.
2 Section 12.8.1: 데이터 구조
2.1 BOA 누적 일중 수익률 곡선
거래일 \(n\), 일중 시각 \(t \in [0, T]\) (시장 개장에서 \(t\) 분 후), 가격 \(P_n(t)\):
\[ \boxed{ X_n(t) = \log P_n(t) - \log P_n(0). } \]
- \(X_n(0) = 0\) — 모든 곡선이 원점에서 출발.
- \(X_n(T)\) = 일중 총 수익률.
- \(X_n(t)\) = 0 에서 \(t\) 까지의 누적 수익률.
2.2 직관: 누적 수익률의 의미
각 거래일 = 한 곡선. \(X_n(t)\) = “개장부터 \(t\) 분까지 누적된 수익”. \(t\) 가 클수록 더 많은 변동 누적 가능.
기술적 정의 (로그 수익률): \(\log P(t) - \log P(0) = \log(P(t)/P(0)) \approx (P(t) - P(0))/P(0)\) (작은 변화에 대해).
2.3 비유: 마라톤의 누적 거리
마라톤에서 한 시점의 누적 거리 = 0 에서 시작 → 일정 시점에 정해진 위치. 각 주자 (= 각 거래일) 가 다른 패턴 — 누적 거리 곡선이 함수.
BOA 의 누적 수익률 곡선 = “그 날의 가격 변동 마라톤” 의 누적 거리.
2.4 데이터 사양
- 자산: Bank of America (BOA) 주식.
- 샘플링 빈도: 분 단위 가격 — 1 분에 한 번.
- 기간: 2013 년 (252 거래일).
- 일중 길이: \(T = 6.5\) 시간 = \(390\) 분 (미국 주식 시장 개장).
- 표본 크기: \(N = 252\) 곡선.
- 각 곡선 점 수: \(390\) 개 (분당).
총 데이터: \(252 \times 390 = 98,280\) 개의 (날, 시각, 가격) 관측치.
2.5 직관: 함수 데이터의 자연스러운 형태
이런 데이터의 자연스러운 표현이 곡선:
- 다변량 시점: \(X_n = (X_n(t_1), \ldots, X_n(t_{390}))\) — 390 차원 벡터. 시간 순서 무시, 매우 고차원.
- 함수: \(X_n: [0, T] \to \mathbb{R}\) — 시간 구조 + 부드러움 활용. 저차원 표현 가능 (EFPC 절단 후 \(p = 3\)~\(5\)).
함수 표현이 더 자연스러움 — 시간 구조가 본질.
2.6 비유: 사진 vs 동영상
- 다변량: 한 시점의 사진 모음 — 시간 순서 정보 잃음.
- 함수: 동영상 — 시간 흐름이 본질 정보.
BOA 데이터가 동영상 — 함수 표현이 옳음.
2.7 가정과 한계
Ch.12 의 추론 framework 은 곡선 \(\{X_n\}\) 가 i.i.d. 가정. 즉 거래일이 서로 독립.
현실: 주식의 자기상관 (특히 변동성) 는 작지만 0 이 아님. 이 가정은 근사.
대안: 함수 시계열 (Ch.8) — FAR(1) 모형으로 일별 의존성 명시.
12.8 절은 Ch.12 framework 의 가정 하에 분석, 한계는 결과 해석에서 인식.
2.8 직관: 가정의 의미
i.i.d. 가정 = “어제와 오늘의 곡선이 통계적으로 독립” — 단순화 가정. 첫 분석에서는 합리적이고 결과가 깨끗.
이후 Ch.8 의 도구 (FAR(1)) 로 의존성을 모형화하면 더 정확.
3 Section 12.8.2: 분석 단계 1 — 표본 평균 함수
3.1 정의
\[ \bar{X}_N(t) = \frac{1}{N} \sum_{n=1}^N X_n(t). \]
각 시점 \(t\) 에서 \(N\) 개 곡선의 산술 평균.
3.2 직관: 평균 일중 패턴
\(\bar{X}_N(t)\) = “표본 기간의 평균 일중 누적 수익률 패턴” — 일별 변동을 평균화하여 추출한 본질 패턴.
예시 결과 (BOA 2013):
- \(\bar{X}_N(0) = 0\) (정의).
- \(\bar{X}_N(390) \approx 0.0005\) (일중 약 0.05% 평균 수익률).
- 곡선이 거의 일직선 — drift 가 시간에 비례.
3.3 Section 12.1 의 일관성
표본 평균의 \(L^2\)-일관성 (Theorem 12.1.1):
\[ \|\bar{X}_N - \mu\|_{L^2} \overset{P}{\to} 0 \quad \text{as } N \to \infty. \]
표본 평균이 모집단 평균 함수에 수렴 → \(\bar{X}_N\) 이 \(\mu\) 의 일관 추정량.
3.4 직관: 함수 LLN
큰 수의 법칙의 함수 일반화. 다변량의 \(\bar{\mathbf{X}}_N \to \boldsymbol{\mu}\) 와 같은 사고, 차원만 무한.
3.5 비유: 일정 기간의 일중 패턴 추출
매일 다르게 변동하지만, 1 년치를 평균화하면 일중 trend 가 나타남 — “평균적으로 어떻게 변동하는가”.
마치 1 년치 일출 시각의 평균이 정확한 천문학적 패턴을 보여주는 것과 같은 사고.
4 Section 12.8.3: 분석 단계 2 — 표본 공분산 + EFPC
4.1 표본 공분산 함수
\[ \widehat{c}(t, s) = \frac{1}{N - 1} \sum_{n=1}^N (X_n(t) - \bar{X}_N(t))(X_n(s) - \bar{X}_N(s)). \]
이변량 함수 — 두 시점 \(t, s\) 의 공분산.
4.2 Section 12.2 의 HS 일관성
표본 공분산 연산자 \(\widehat{C}_N\) 의 HS 노름 일관성 (Theorem 12.2.1):
\[ \|\widehat{C}_N - C\|_{\mathcal{S}} \overset{P}{\to} 0. \]
핵의 \(L^2\) 노름 수렴 — 더 강한 노름 (sup 노름) 도 같은 결과 (Mercer 정리의 균등 수렴).
4.3 직관: 공분산의 안정 추정
\(N = 252\) → 표본 공분산이 모집단 공분산에 수렴. EFPC 추정의 토대.
4.4 EFPC 추출 (Mercer 분해의 표본 추정)
\(\widehat{c}(t, s)\) 의 정규직교 고유함수 + 고유값:
\[ \widehat{c}(t, s) = \sum_{j=1}^\infty \widehat{\lambda}_j \widehat{v}_j(t) \widehat{v}_j(s), \]
\(\widehat{\lambda}_1 \geq \widehat{\lambda}_2 \geq \cdots \geq 0\), \(\widehat{v}_j\) 가 정규직교.
4.5 차원 결정 (Section 12.7 의 CPV)
\[ \text{CPV}_p = \frac{\sum_{j=1}^p \widehat{\lambda}_j}{\sum_{j=1}^\infty \widehat{\lambda}_j}. \]
기준: CPV ≥ 0.95 → \(p\) 결정.
BOA 결과 (전형적):
- CPV\(_1 \approx 0.7\) — 첫 EFPC 가 변동의 70%.
- CPV\(_2 \approx 0.85\).
- CPV\(_3 \approx 0.92\).
- CPV\(_4 \approx 0.96\) → \(p = 4\) 선택.
소수 EFPC 로 변동의 대부분 설명 — FDA 의 차원 축소 가치.
4.6 직관: EFPC 의 형태 해석
전형적인 EFPC 형태:
- \(\widehat{v}_1\): 거의 일정 — “전체 수준” (overall level) 모드. 일중 전반적 상승/하락.
- \(\widehat{v}_2\): 단조 증가/감소 — “trend” 모드. 오전 vs 오후의 대조.
- \(\widehat{v}_3\): 한 번 진동 (sin 모양) — “midday” 모드. 정오의 변동.
- \(\widehat{v}_4\): 두 번 진동 — 더 세밀한 패턴.
각 모드가 일중 변동의 한 측면 — Fourier 분석과 유사한 직관.
4.7 비유: 음악의 주파수 분해
음악 = 기본 주파수 + 배음들. EFPC = “\(X_n\) 의 기본 모드” + “고차 모드” — 같은 사고의 적분 변환 (Mercer).
첫 모드 \(\widehat{v}_1\) 가 가장 큰 분산 → 가장 강한 음.
5 Section 12.8.4: 분석 단계 3 — 함수 CLT 와 신뢰 대역
5.1 함수 CLT (Theorem 12.4.1)
\(\{X_n\}\) i.i.d. with mean \(\mu\), covariance operator \(C\). 그러면:
\[ \sqrt{N} (\bar{X}_N - \mu) \overset{d}{\to} G, \]
\(G\) 가 평균 0, 공분산 연산자 \(C\) 의 가우스 함수 (\(G \sim N(0, C)\)).
다변량 CLT 의 함수 일반화.
5.2 직관: 다변량 CLT 의 함수 버전
다변량: \(\sqrt{N}(\bar{\mathbf{X}}_N - \boldsymbol{\mu}) \to N(0, \Sigma)\). 함수: 같은 형식, \(\boldsymbol{\mu} \to \mu(t)\), \(\Sigma \to C\).
5.3 Karhunen-Loève 표현
\(G\) 의 KL 전개:
\[ G(t) = \sum_{j=1}^\infty \sqrt{\lambda_j} Z_j v_j(t), \quad Z_j \overset{iid}{\sim} N(0, 1). \]
이 표현이 신뢰 대역 시뮬레이션의 토대.
5.4 동시 신뢰 대역 구성 (Section 12.6)
레벨 \(1 - \alpha\) 의 동시 신뢰 대역 \([\bar{X}_N(t) - L_\alpha(t), \bar{X}_N(t) + L_\alpha(t)]\) s.t.:
\[ P(\mu(t) \in \text{band} \forall t) \geq 1 - \alpha. \]
모든 \(t\) 에 대해 동시에 — 점별 신뢰 구간보다 더 strict.
5.5 시뮬레이션 알고리즘
1. EFPC 추출: {ŵ_j}, {λ̂_j}, j = 1, ..., p (p ≈ 4)
2. 반복 B 회 (B = 1000 정도):
a) Z_1, ..., Z_p ~ N(0, 1) iid 생성
b) G_b(t) = Σ √λ̂_j Z_j ŵ_j(t)
c) M_b = sup_t |G_b(t)|
3. M_b 의 (1-α) 분위 = q_α
4. L_α(t) = q_α / √N (균일한 폭)
또는 L_α(t) = q_α(t) / √N (시점별 폭)
5.6 직관: KL 시뮬레이션의 가치
가우스 함수의 직접 시뮬레이션은 무한차원 — 불가능. KL 표현으로 유한차원 (\(p\) 개) 정규분포의 합으로 환원 → 직접 시뮬레이션 가능.
이는 Ch.10.4 의 KL 전개의 직접 응용 — 이론적 결과가 알고리즘.
5.7 비유: 무한 음악의 디지털 표현
무한 음악 (continuous wave) → 유한 sampling (Fourier mode 합) → 디지털 재생. 같은 사고로 가우스 함수 → 유한 EFPC 합 → 시뮬레이션.
5.8 BOA 결과 (전형적)
- 95% 동시 신뢰 대역의 폭: \(L_{0.05}(t) \approx 0.0008\) (0.08%).
- 표본 평균 \(\bar{X}_N(390) \approx 0.0005\) — 신뢰 대역 안에 0 포함됨.
해석: 평균 함수가 정확히 0 인지 신뢰 대역만으로는 결정 불가 → 가설 검정 필요.
6 Section 12.8.5: 분석 단계 4 — 가설 검정
6.1 검정 문제
\(\mathbf{H}_0\): \(\mu(t) = 0 \quad \forall t\) — 평균 함수가 항등 0. \(\mathbf{H}_1\): \(\mu \not\equiv 0\) — drift 존재.
경제적 해석:
- \(H_0\): 일중 평균 수익률이 0 — 시장이 “공정” (예상 수익 0).
- \(H_1\): drift 존재 — 일중 시간이 흘러 평균적으로 가격 변화.
6.2 Section 12.5 의 카이제곱 검정 통계량
\[ T_N = N \sum_{j=1}^p \frac{\langle \bar{X}_N, \widehat{v}_j \rangle^2}{\widehat{\lambda}_j}. \]
\(H_0\) 하에서 \(T_N \overset{d}{\to} \chi^2_p\).
기각: \(T_N > \chi^2_{p, 1-\alpha}\) (예: \(\chi^2_{4, 0.95} \approx 9.49\)).
6.3 도출 직관
함수 CLT + EFPC 분해:
\[ \sqrt{N} \bar{X}_N \overset{d}{\to} G = \sum_j \sqrt{\lambda_j} Z_j v_j. \]
EFPC 좌표:
\[ \sqrt{N} \langle \bar{X}_N, \widehat{v}_j \rangle \overset{d}{\to} \sqrt{\widehat{\lambda}_j} Z_j. \]
표준화:
\[ \frac{\sqrt{N} \langle \bar{X}_N, \widehat{v}_j \rangle}{\sqrt{\widehat{\lambda}_j}} \overset{d}{\to} Z_j \sim N(0, 1). \]
제곱합:
\[ \sum_{j=1}^p \frac{N \langle \bar{X}_N, \widehat{v}_j \rangle^2}{\widehat{\lambda}_j} \overset{d}{\to} \sum_{j=1}^p Z_j^2 \sim \chi^2_p. \]
\(\blacksquare\)
6.4 직관: 표준 PCA 회귀의 함수 일반화
다변량: \(T = N \bar{\mathbf{X}}^T \widehat{\Sigma}^{-1} \bar{\mathbf{X}} \sim \chi^2_p\) (Hotelling \(T^2\)).
함수: 같은 형식, EFPC 좌표에서 — \(\widehat{\Sigma}\) 의 역 = \(\widehat{\lambda}_j^{-1}\) (대각화).
EFPC 가 자동으로 공분산을 대각화 → 검정이 단순 카이제곱.
6.5 BOA 결과
- \(p = 4\), \(T_N \approx 15.2\).
- \(\chi^2_{4, 0.95} = 9.49\) → \(T_N > 9.49\) → \(H_0\) 기각.
- p-value \(\approx 0.004\).
결론: 평균 함수가 통계적으로 0 에서 다름 — drift 존재.
6.6 직관: 통계적 vs 경제적 유의성
- 통계적: \(T_N\) 가 chi-square 분포의 꼬리 → drift 존재 확신.
- 경제적: 일중 평균 수익률 \(\approx 0.05\%\) — 매우 작음. 거래 비용 (commission, bid-ask spread) 보다 작아 거래 전략으로 활용 불가.
6.7 비유: 통계와 경제의 거리
체중계로 0.1 g 의 차이를 통계적으로 감지 가능 (정밀 저울) — 그러나 0.1 g 가 건강에 유의한가? 별개의 질문.
같은 사고: 통계적 유의성 ≠ 실용적/경제적 유의성. 두 종류의 유의성을 구분 하는 것이 응용 통계의 핵심.
6.8 추가 검정
다른 가설:
- \(H_0: \mu(t) = ct\) (선형 drift) — 동일한 framework 으로 검정 가능.
- 두 표본 검정 (\(\mu_1 = \mu_2\)): Section 12.5 의 확장.
- 공분산 검정 (\(C_1 = C_2\)): Section 12.5 의 두 표본 버전.
7 Section 12.8.6: 함수 시계열로의 확장
7.1 일별 독립의 한계
Ch.12 의 framework: 일별 곡선 i.i.d.
현실: 변동성 (volatility clustering) 와 미세 자기상관 존재. 어제의 곡선이 오늘에 영향.
영향: 검정 통계량 \(T_N\) 의 분포가 약간 변화 — i.i.d. 가정 하에서 “약간 over-coverage” 또는 “under-coverage” 가능.
7.2 Section 12.7 의 함수 시계열 확장
\[ X_n(t) = \mu(t) + \int \varphi(t, s)(X_{n-1}(s) - \mu(s)) ds + \epsilon_n(t). \]
\(\varphi(t, s)\) = 자기회귀 핵 — 어제 → 오늘의 영향.
이 모형 하에서:
- 표본 평균 일관성: 여전히 성립 (단, 분산 보정 필요).
- 신뢰 대역: 자기상관 보정된 long-run covariance (LRCF, Section 8.5) 사용.
- 가설 검정: \(T_N\) 의 분포가 LRCF 기반 chi-square.
7.3 직관: LRCF 의 의미
자기상관이 있을 때 표본 평균의 분산:
\[ \text{Var}(\bar{X}_N) \approx \frac{1}{N} \sum_{h = -\infty}^{\infty} c_h, \]
\(c_h\) 가 lag \(h\) 의 자기공분산 함수. 이것이 LRCF.
i.i.d. 가정: \(c_h = 0\) for \(h \neq 0\) → \(\text{Var}(\bar{X}_N) \approx c_0 / N\) (단순). 시계열: 모든 \(c_h\) 가 누적 → 더 큰 분산.
올바른 분산 사용 → 더 정확한 신뢰 대역과 검정.
7.4 BOA 의 LRCF 보정
- LRCF 노름 / 단순 공분산 노름 \(\approx 1.2\) — 자기상관이 분산을 20% 증가.
- 신뢰 대역 폭 20% 증가.
- 검정 통계량 약간 감소 (그러나 여전히 유의).
결론: i.i.d. 결과가 거의 정확 — BOA 의 일별 자기상관이 작음.
7.5 직관: 두 단계 분석의 가치
- i.i.d. 가정 하 분석 (Ch.12.8 의 표준) — 깨끗한 결과.
- 시계열 보정 (Ch.8 의 LRCF) — 더 정확한 분포.
대부분의 결과가 robust → 1 단계로 시작, 필요시 2 단계로.
이는 통계적 분석의 표준 패턴 — 단순 모형 → 검증 → 정교화.
8 Section 12.8.7: R 코드 예시
8.1 데이터 준비
8.2 단계 1: 표본 평균과 plot
8.3 단계 2: 표본 공분산과 EFPC
#| label: efpc-extraction
# 공분산 행렬
Cov <- cov(X) # M x M
# 고유값 분해
eig <- eigen(Cov, symmetric = TRUE)
lambda_hat <- eig$values
v_hat <- eig$vectors # M x M, 열이 EFPC
# CPV 계산
cpv <- cumsum(lambda_hat) / sum(lambda_hat)
p <- which(cpv >= 0.95)[1] # 95% 기준
cat("Selected p =", p, "\n")
# 처음 4 개 EFPC plot
matplot(t, v_hat[, 1:4], type = "l", lty = 1,
col = c("black", "red", "blue", "green"),
xlab = "Time of day", ylab = "Eigenfunction value",
main = "First 4 EFPCs of BOA")
legend("topright", legend = paste0("v", 1:4),
col = c("black", "red", "blue", "green"), lty = 1)8.4 단계 3: 동시 신뢰 대역
#| label: confidence-band
B <- 1000
sup_norms <- numeric(B)
for (b in 1:B) {
Z <- rnorm(p)
G <- v_hat[, 1:p] %*% (sqrt(lambda_hat[1:p]) * Z)
sup_norms[b] <- max(abs(G))
}
q_alpha <- quantile(sup_norms, 0.95)
band_width <- q_alpha / sqrt(N)
# Plot
plot(t, xbar, type = "l", lwd = 2, col = "blue", ylim = range(xbar) + c(-1, 1) * band_width,
xlab = "Time of day", ylab = "Cumulative log return",
main = "BOA Mean with 95% Simultaneous Confidence Band")
lines(t, xbar - band_width, lty = 2, col = "red")
lines(t, xbar + band_width, lty = 2, col = "red")
abline(h = 0, lty = 3, col = "gray")8.5 단계 4: 가설 검정
#| label: hypothesis-test
# EFPC 좌표 of mean
mean_coords <- t(v_hat[, 1:p]) %*% xbar # p x 1
# 검정 통계량
T_N <- N * sum(mean_coords^2 / lambda_hat[1:p])
# Chi-square test
crit <- qchisq(0.95, df = p)
p_value <- 1 - pchisq(T_N, df = p)
cat("Test statistic T_N =", round(T_N, 2), "\n")
cat("Chi-square critical value (df =", p, ") =", round(crit, 2), "\n")
cat("p-value =", format(p_value, digits = 3), "\n")
cat("Decision:", ifelse(T_N > crit, "Reject H_0 (drift exists)", "Fail to reject H_0"), "\n")8.6 직관: 코드의 단계별 매핑
각 단계가 Ch.12 의 절과 직접 매핑:
- 단계 1 → Section 12.1 (표본 평균 일관성).
- 단계 2 → Sections 12.2~12.3, 12.7 (공분산, EFPC, 차원 결정).
- 단계 3 → Sections 12.4, 12.6 (CLT, 신뢰 대역).
- 단계 4 → Section 12.5 (가설 검정).
한 데이터셋, 모든 도구.
9 Section 12.8.8: 결과 해석과 경제적 함의
9.1 통계적 결과 정리
| 항목 | 결과 |
|---|---|
| \(\bar{X}_N(390)\) | \(\approx 0.0005\) (0.05%) |
| 95% 신뢰 대역 폭 | \(\approx 0.0008\) |
| 차원 \(p\) (CPV ≥ 0.95) | 3~5 |
| 검정 통계량 \(T_N\) | \(\approx 15\) |
| Chi-square critical \(\chi^2_{4, 0.95}\) | \(\approx 9.49\) |
| p-value | \(\approx 0.004\) |
| 결론 | \(H_0: \mu \equiv 0\) 기각, drift 존재 |
9.2 경제적 해석
- 통계적: drift 가 0 에서 다름 (\(p < 0.01\)).
- 경제적: 일중 0.05% 수익률 — 거래 비용 이하.
- 0.05% × 252 거래일 × 1 회/일 = 12.6% 연간 (회전율 100%).
- 거래 비용 \(\approx 0.1\%\) (commission + spread) → 차감 후 \(-12.6\%\) 손실.
결론: drift 가 존재하지만 거래 전략으로 활용 불가능.
9.3 직관: 시장 효율성과의 일관성
시장 효율성 가설 (Efficient Market Hypothesis) 의 약형:
가격이 모든 정보를 반영 → 거래 비용 차감 후 초과 수익 0.
BOA 결과가 이와 일관 — 통계적 drift 가 경제적으로 활용 불가능 → 시장이 효율적.
9.4 비유: 상한선과 게임 이론
도박장에서 매 게임 1% 의 평균 손실 (house edge). 통계적으로 0 에서 다름. 경제적 의미: 도박을 하면 장기적으로 손실.
같은 사고: 작은 통계적 효과가 경제적으로 큰 의미 (또는 그 반대) 일 수 있음 — 두 분석을 모두 수행.
9.5 응용 분야의 일반화
같은 framework 이 다양한 함수 데이터에 적용:
| 분야 | 함수 데이터 | 평균 함수 검정 의미 |
|---|---|---|
| 금융 | 일중 가격 곡선 | 가격 drift 검정 |
| 의료 | 환자 모니터링 (HR 곡선) | 정상 vs 이상 패턴 |
| 환경 | 일중 기온 곡선 | 계절성 변화 검정 |
| 생물학 | 성장 곡선 (height vs age) | 평균 성장 패턴 |
| 신경과학 | EEG/fMRI 곡선 | 자극 응답 검정 |
한 framework, 다양한 응용.
10 Section 12.8.9: Ch.3~12 의 통합 (전체 책의 종합)
10.1 사용된 도구 목록
| 챕터 | 결과 | BOA 응용에서의 역할 |
|---|---|---|
| Ch.3 | \(L^2\) 공간, 확률 함수 | 곡선 \(X_n\) 의 framework |
| Ch.3 | KL 전개 | EFPC 의 이론적 토대 |
| Ch.3 | 공분산 연산자 | \(C\) 의 정의 |
| Ch.10.1~10.2 | Hilbert 공간, 사영 | 모든 분석의 토대 |
| Ch.10.3 | HS 연산자 | 공분산이 자동 HS |
| Ch.10.4 | 스펙트럼 정리 + Mercer | EFPC 분해의 이론 |
| Ch.10.4 | KL 전개 | 신뢰 대역 시뮬레이션 |
| Ch.11 | 가우스 함수 + CLT | 함수 CLT (Theorem 12.4.1) |
| Ch.12.1 | 표본 평균 일관성 | \(\bar{X}_N \to \mu\) |
| Ch.12.2 | 공분산 일관성 | \(\widehat{C}_N \to C\) |
| Ch.12.3 | EFPC 수렴 | \(\widehat{v}_j \to v_j\) |
| Ch.12.4 | 함수 CLT | 점근 분포 |
| Ch.12.5 | 가설 검정 | \(T_N \sim \chi^2_p\) |
| Ch.12.6 | 신뢰 대역 | KL 시뮬레이션 |
| Ch.12.7 | 차원 결정 | CPV 기준 \(p\) |
| Ch.8 | 함수 시계열 | i.i.d. 가정의 확장 |
거의 모든 도구가 한 응용에서 활용.
10.2 직관: 응용이 framework 을 정당화
이론은 응용 없이 의미 없음. BOA 응용이 Ch.3~12 의 모든 도구가 실제로 작동하고 의미 있는 결과 산출 함을 보임.
10.3 비유: 오케스트라의 합주
각 악기 (= 각 도구) 가 따로 연주 가능하지만, 합주 (= BOA 응용) 가 진정한 음악 — 모든 부분이 통합되어 의미 형성.
10.4 Ch.12 의 마무리
Ch.12.8 이 Ch.12 (그리고 사실상 책 전체) 의 마무리 — Ch.13 이후는 확장 주제 (함수 시계열, 공간 함수, 의존 데이터 등).
기본 framework: Ch.3~12 → 응용 패러다임의 정착.
11 핵심 정리와 요약
11.1 한 줄 요약
Ch.12.8 의 BOA 응용은 Bank of America 주식의 분 단위 누적 일중 수익률 곡선 (\(N\) = 252 거래일, 각 곡선 390 분) 에 Ch.12 의 모든 추론 도구를 통합 적용 — 표본 평균 함수 \(\bar{X}_N\) 과 일관성 (Section 12.1), 표본 공분산의 HS 일관성 (12.2), EFPC 추출과 차원 결정 (CPV ≥ 0.95 → \(p \approx 4\), Section 12.7), 함수 CLT (12.4) 와 KL 기반 동시 신뢰 대역 (12.6), 카이제곱 검정 통계량 \(T_N = N \sum \langle \bar{X}_N, \widehat{v}_j \rangle^2 / \widehat{\lambda}_j \sim \chi^2_p\) (12.5) — 으로 \(H_0: \mu \equiv 0\) 검정. 결과: \(T_N \approx 15\), \(p\)-value \(\approx 0.004\) → 통계적으로 drift 존재, 그러나 일중 0.05% 수익률은 거래 비용 이하 → 경제적으로 활용 불가** (시장 효율성 가설과 일관). 한 데이터셋이 Ch.3~12 의 모든 도구를 통합하는 case study, 통계적 vs 경제적 유의성의 구분, 함수 시계열 (Ch.8) 로의 자연스러운 확장 동기 — 책 전체의 종합.**
11.2 학습 가이드
- 데이터 구조 인식 — \(X_n(t) = \log P_n(t) - \log P_n(0)\), \(N\) = 252, \(T = 390\).
- 단계 1: 표본 평균 — \(\bar{X}_N(t)\) plot, 일관성 (Section 12.1).
- 단계 2: EFPC 추출 — 공분산 → 고유값 분해 → CPV → \(p\).
- 단계 3: 신뢰 대역 — KL 시뮬레이션 (Sections 12.4 + 12.6).
- 단계 4: 가설 검정 — \(T_N\) 계산, chi-square 비교.
- 결과 해석 — 통계적 vs 경제적 유의성.
- 확장 — 함수 시계열 (Ch.8) 의 LRCF 보정.
- 통합 인식 — Ch.3~12 의 모든 도구가 한 응용에서 활용.
11.3 Ch.12 의 구조
12.1: 표본 평균의 L²-일관성
12.2: 표본 공분산의 HS 일관성
12.3: EFPC 와 추정 고유값의 수렴
12.4: 함수 CLT
12.5: 평균 함수에 대한 가설 검정
12.6: 동시 신뢰 대역
12.7: 차원 결정 (CPV, 스크리)
12.8: BOA 응용 — 모든 도구의 통합 ← 이 포스트
11.4 책 전체의 통합
Part I (Ch.1~2): 탐색적 FDA (basis, smoothing)
Part II (Ch.3): 수학적 framework (L², KL)
Part III (Ch.4~7): 회귀 모형 (scalar/function-on-function, GLM, sparse)
Part IV (Ch.8~9): 의존 데이터 (시계열, 공간)
Part V (Ch.10~11): Hilbert 공간 + 확률 함수 (이론적 토대)
Part VI (Ch.12): 추론 (응용) ← BOA 의 통합
12 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 1.3~1.4 — 주성분 함수(EFPC)와 BOA 주식 수익률 — BOA 데이터의 첫 등장
- FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개
- FDA 3.3 — 선형 변환과 공분산 연산자
- FDA 5.5~5.6 — FPCA 기반 핵 추정과 효과 없음 카이제곱 검정
- FDA 8.1~8.2 — 시계열 기초와 FAR(1) — 함수 시계열 확장
- FDA 8.5~8.6 — 장기 공분산 함수 (LRCF) — 자기상관 보정
- FDA Ch.10 — 힐베르트 공간 이론 개관
- FDA 10.3~10.4 — 선형 연산자, Hilbert-Schmidt, 스펙트럼 정리, Mercer
- FDA Ch.11 — 확률 함수와 가우스 과정 — 함수 CLT 의 토대
- FDA Ch.12 — 추론 개관
관련 개념
- Hotelling \(T^2\) 통계량 — 다변량 평균 검정의 함수 일반화
- Bootstrap for functional data — 신뢰 대역의 대안
- Efficient Market Hypothesis — 경제학의 표준 framework
- Volatility clustering — 일별 자기상관의 원천
- refund R 패키지 — 함수 회귀 + 추론 표준 도구
- fda R 패키지 — FDA 의 표준 도구
참고문헌
- Kokoszka, P., & Reimherr, M. (2017). Introduction to Functional Data Analysis, Ch.12.8. Chapman & Hall/CRC.
- Horváth, L., & Kokoszka, P. (2012). Inference for Functional Data with Applications. Springer. — 더 깊은 추론 이론.
- Hyndman, R. J., & Ullah, M. S. (2007). Robust forecasting of mortality and fertility rates: A functional data approach. CSDA, 51, 4942-4956.