FDA 12.8 — BOA 주식의 누적 일중 수익률 평균 함수 추론

Kokoszka Ch.12.1~12.7 의 모든 도구를 한 데이터셋에 — 표본 평균·EFPC·CLT·신뢰 대역·검정의 통합 응용

Kokoszka & Reimherr (2017) Ch.12.8 의 핵심을 다룬다. Bank of America (BOA) 주식의 분 단위 누적 로그 수익률 곡선 \(X_n(t) = \log P_n(t) - \log P_n(0)\) 에 Ch.12 의 모든 추론 도구를 통합 응용. 데이터 구조 — 거래일 \(n\), 일중 시각 \(t \in [0, T]\) (T = 6.5h = 390 min), 표본 \(N\) = 252 거래일 (1 년). 분석 단계 — (1) 표본 평균 함수 \(\bar{X}_N(t)\) 의 plot 과 일관성 검증, (2) 표본 공분산 연산자 + EFPC 추출 (CPV 95% → \(p \approx 3\)~5), (3) 함수 CLT (Theorem 12.4.1) 의 직접 응용으로 동시 신뢰 대역 구성 (Karhunen-Loève 기반 시뮬레이션), (4) 가설 검정 \(H_0: \mu(t) \equiv 0\) (no drift) — Section 12.5 의 카이제곱 검정 통계량 \(\sum_{j=1}^p N \langle \bar{X}, \widehat{v}_j \rangle^2 / \widehat{\lambda}_j\)\(\chi^2_p\) 분포. 결과 해석 — 평균이 0 에서 통계적으로 다름 (drift 존재), 그러나 경제적으로는 매우 작음 (실효 거래 비용 이하). 함수 시계열로의 확장 — 일별 \(X_n\) 이 독립 가정 vs FAR(1) 모형 (Ch.8.2) 의 적용. 이 한 응용이 Ch.3~12 의 거의 모든 도구를 통합하는 표준 case study.

Statistics
Functional Data Analysis
저자

Kwangmin Kim

공개

2026년 05월 07일

1 이 절의 위치

Section 12.8 의 역할

Ch.12.1~12.7 의 표본 평균 일관성, 공분산 연산자 추정, EFPC 수렴, 함수 CLT, 가설 검정, 신뢰 대역 등 모든 추론 도구를 정착. Ch.12.8 의 BOA 응용은 이 모든 도구를 한 데이터셋에 통합 적용 하는 case study — Ch.12 (그리고 사실상 Ch.3~12 전체) 의 마무리.

Ch.12.8 의 위치
    ↓
모든 추론 도구의 실전 응용
이론 → 코드 → 결과 → 경제적 해석
Ch.3 의 framework 부터 시작한 12 장의 종착점

핵심 메시지: BOA 주식의 분 단위 누적 일중 수익률 곡선 \(X_n(t)\) 에 Ch.12 의 모든 도구 — 표본 평균·EFPC·CLT·신뢰 대역·가설 검정 — 를 통합 응용. 결과: 평균이 통계적으로 0 에서 다름 (drift 존재) 그러나 경제적으로 매우 작음 — FDA 의 실전 가치와 한계를 모두 보여주는 표준 case study.

1.1 이 응용이 중요한 이유

통합 case study 의 가치

Ch.12.1~12.7 가 각 도구의 이론적 정착 — 분리된 결과들의 모음. Ch.12.8 의 BOA 응용은:

  • 통합 — 모든 도구가 한 데이터에서 어떻게 작동하는지.
  • 실전 — 코드 작성, 결과 해석, 경제적 함의.
  • 한계 인식 — 통계적 유의성 vs 경제적 유의성의 차이.
  • 확장 동기 — 일별 독립 가정의 한계 → Ch.8 의 함수 시계열 모형.

한 데이터셋이 이론과 실전의 다리.

1.2 학습 효과

  • BOA 응용을 따라 가면서 Ch.3~12 의 모든 결과의 실전 의미 가 명확해진다.
  • R 코드의 표준 패턴 (refund + fda 패키지) 을 학습.
  • 결과 해석의 정확한 어휘 (statistical vs economic significance) 정착.
  • 함수 시계열 (Ch.8) 로의 자연스러운 확장 동기.

2 Section 12.8.1: 데이터 구조

2.1 BOA 누적 일중 수익률 곡선

정의 — Cumulative Intraday Log Return

거래일 \(n\), 일중 시각 \(t \in [0, T]\) (시장 개장에서 \(t\) 분 후), 가격 \(P_n(t)\):

\[ \boxed{ X_n(t) = \log P_n(t) - \log P_n(0). } \]

  • \(X_n(0) = 0\) — 모든 곡선이 원점에서 출발.
  • \(X_n(T)\) = 일중 총 수익률.
  • \(X_n(t)\) = 0 에서 \(t\) 까지의 누적 수익률.

2.2 직관: 누적 수익률의 의미

각 거래일 = 한 곡선. \(X_n(t)\) = “개장부터 \(t\) 분까지 누적된 수익”. \(t\) 가 클수록 더 많은 변동 누적 가능.

기술적 정의 (로그 수익률): \(\log P(t) - \log P(0) = \log(P(t)/P(0)) \approx (P(t) - P(0))/P(0)\) (작은 변화에 대해).

2.3 비유: 마라톤의 누적 거리

마라톤에서 한 시점의 누적 거리 = 0 에서 시작 → 일정 시점에 정해진 위치. 각 주자 (= 각 거래일) 가 다른 패턴 — 누적 거리 곡선이 함수.

BOA 의 누적 수익률 곡선 = “그 날의 가격 변동 마라톤” 의 누적 거리.

2.4 데이터 사양

BOA 데이터셋
  • 자산: Bank of America (BOA) 주식.
  • 샘플링 빈도: 분 단위 가격 — 1 분에 한 번.
  • 기간: 2013 년 (252 거래일).
  • 일중 길이: \(T = 6.5\) 시간 = \(390\) 분 (미국 주식 시장 개장).
  • 표본 크기: \(N = 252\) 곡선.
  • 각 곡선 점 수: \(390\) 개 (분당).

총 데이터: \(252 \times 390 = 98,280\) 개의 (날, 시각, 가격) 관측치.

2.5 직관: 함수 데이터의 자연스러운 형태

이런 데이터의 자연스러운 표현이 곡선:

  • 다변량 시점: \(X_n = (X_n(t_1), \ldots, X_n(t_{390}))\) — 390 차원 벡터. 시간 순서 무시, 매우 고차원.
  • 함수: \(X_n: [0, T] \to \mathbb{R}\) — 시간 구조 + 부드러움 활용. 저차원 표현 가능 (EFPC 절단 후 \(p = 3\)~\(5\)).

함수 표현이 더 자연스러움 — 시간 구조가 본질.

2.6 비유: 사진 vs 동영상

  • 다변량: 한 시점의 사진 모음 — 시간 순서 정보 잃음.
  • 함수: 동영상 — 시간 흐름이 본질 정보.

BOA 데이터가 동영상 — 함수 표현이 옳음.

2.7 가정과 한계

일별 독립 가정

Ch.12 의 추론 framework 은 곡선 \(\{X_n\}\) 가 i.i.d. 가정. 즉 거래일이 서로 독립.

현실: 주식의 자기상관 (특히 변동성) 는 작지만 0 이 아님. 이 가정은 근사.

대안: 함수 시계열 (Ch.8) — FAR(1) 모형으로 일별 의존성 명시.

12.8 절은 Ch.12 framework 의 가정 하에 분석, 한계는 결과 해석에서 인식.

2.8 직관: 가정의 의미

i.i.d. 가정 = “어제와 오늘의 곡선이 통계적으로 독립” — 단순화 가정. 첫 분석에서는 합리적이고 결과가 깨끗.

이후 Ch.8 의 도구 (FAR(1)) 로 의존성을 모형화하면 더 정확.


3 Section 12.8.2: 분석 단계 1 — 표본 평균 함수

3.1 정의

표본 평균

\[ \bar{X}_N(t) = \frac{1}{N} \sum_{n=1}^N X_n(t). \]

각 시점 \(t\) 에서 \(N\) 개 곡선의 산술 평균.

3.2 직관: 평균 일중 패턴

\(\bar{X}_N(t)\) = “표본 기간의 평균 일중 누적 수익률 패턴” — 일별 변동을 평균화하여 추출한 본질 패턴.

예시 결과 (BOA 2013):

  • \(\bar{X}_N(0) = 0\) (정의).
  • \(\bar{X}_N(390) \approx 0.0005\) (일중 약 0.05% 평균 수익률).
  • 곡선이 거의 일직선 — drift 가 시간에 비례.

3.3 Section 12.1 의 일관성

표본 평균의 \(L^2\)-일관성 (Theorem 12.1.1):

\[ \|\bar{X}_N - \mu\|_{L^2} \overset{P}{\to} 0 \quad \text{as } N \to \infty. \]

표본 평균이 모집단 평균 함수에 수렴 → \(\bar{X}_N\)\(\mu\) 의 일관 추정량.

3.4 직관: 함수 LLN

큰 수의 법칙의 함수 일반화. 다변량의 \(\bar{\mathbf{X}}_N \to \boldsymbol{\mu}\) 와 같은 사고, 차원만 무한.

3.5 비유: 일정 기간의 일중 패턴 추출

매일 다르게 변동하지만, 1 년치를 평균화하면 일중 trend 가 나타남 — “평균적으로 어떻게 변동하는가”.

마치 1 년치 일출 시각의 평균이 정확한 천문학적 패턴을 보여주는 것과 같은 사고.


4 Section 12.8.3: 분석 단계 2 — 표본 공분산 + EFPC

4.1 표본 공분산 함수

정의

\[ \widehat{c}(t, s) = \frac{1}{N - 1} \sum_{n=1}^N (X_n(t) - \bar{X}_N(t))(X_n(s) - \bar{X}_N(s)). \]

이변량 함수 — 두 시점 \(t, s\) 의 공분산.

4.2 Section 12.2 의 HS 일관성

표본 공분산 연산자 \(\widehat{C}_N\) 의 HS 노름 일관성 (Theorem 12.2.1):

\[ \|\widehat{C}_N - C\|_{\mathcal{S}} \overset{P}{\to} 0. \]

핵의 \(L^2\) 노름 수렴 — 더 강한 노름 (sup 노름) 도 같은 결과 (Mercer 정리의 균등 수렴).

4.3 직관: 공분산의 안정 추정

\(N = 252\) → 표본 공분산이 모집단 공분산에 수렴. EFPC 추정의 토대.

4.4 EFPC 추출 (Mercer 분해의 표본 추정)

\(\widehat{c}(t, s)\) 의 정규직교 고유함수 + 고유값:

\[ \widehat{c}(t, s) = \sum_{j=1}^\infty \widehat{\lambda}_j \widehat{v}_j(t) \widehat{v}_j(s), \]

\(\widehat{\lambda}_1 \geq \widehat{\lambda}_2 \geq \cdots \geq 0\), \(\widehat{v}_j\) 가 정규직교.

4.5 차원 결정 (Section 12.7 의 CPV)

Cumulative Percentage of Variance (CPV)

\[ \text{CPV}_p = \frac{\sum_{j=1}^p \widehat{\lambda}_j}{\sum_{j=1}^\infty \widehat{\lambda}_j}. \]

기준: CPV ≥ 0.95 → \(p\) 결정.

BOA 결과 (전형적):

  • CPV\(_1 \approx 0.7\) — 첫 EFPC 가 변동의 70%.
  • CPV\(_2 \approx 0.85\).
  • CPV\(_3 \approx 0.92\).
  • CPV\(_4 \approx 0.96\)\(p = 4\) 선택.

소수 EFPC 로 변동의 대부분 설명 — FDA 의 차원 축소 가치.

4.6 직관: EFPC 의 형태 해석

전형적인 EFPC 형태:

  • \(\widehat{v}_1\): 거의 일정 — “전체 수준” (overall level) 모드. 일중 전반적 상승/하락.
  • \(\widehat{v}_2\): 단조 증가/감소 — “trend” 모드. 오전 vs 오후의 대조.
  • \(\widehat{v}_3\): 한 번 진동 (sin 모양) — “midday” 모드. 정오의 변동.
  • \(\widehat{v}_4\): 두 번 진동 — 더 세밀한 패턴.

각 모드가 일중 변동의 한 측면 — Fourier 분석과 유사한 직관.

4.7 비유: 음악의 주파수 분해

음악 = 기본 주파수 + 배음들. EFPC = “\(X_n\) 의 기본 모드” + “고차 모드” — 같은 사고의 적분 변환 (Mercer).

첫 모드 \(\widehat{v}_1\) 가 가장 큰 분산 → 가장 강한 음.


5 Section 12.8.4: 분석 단계 3 — 함수 CLT 와 신뢰 대역

5.1 함수 CLT (Theorem 12.4.1)

Hilbert Space CLT

\(\{X_n\}\) i.i.d. with mean \(\mu\), covariance operator \(C\). 그러면:

\[ \sqrt{N} (\bar{X}_N - \mu) \overset{d}{\to} G, \]

\(G\) 가 평균 0, 공분산 연산자 \(C\) 의 가우스 함수 (\(G \sim N(0, C)\)).

다변량 CLT 의 함수 일반화.

5.2 직관: 다변량 CLT 의 함수 버전

다변량: \(\sqrt{N}(\bar{\mathbf{X}}_N - \boldsymbol{\mu}) \to N(0, \Sigma)\). 함수: 같은 형식, \(\boldsymbol{\mu} \to \mu(t)\), \(\Sigma \to C\).

5.3 Karhunen-Loève 표현

\(G\) 의 KL 전개:

\[ G(t) = \sum_{j=1}^\infty \sqrt{\lambda_j} Z_j v_j(t), \quad Z_j \overset{iid}{\sim} N(0, 1). \]

이 표현이 신뢰 대역 시뮬레이션의 토대.

5.4 동시 신뢰 대역 구성 (Section 12.6)

Simultaneous Confidence Band

레벨 \(1 - \alpha\) 의 동시 신뢰 대역 \([\bar{X}_N(t) - L_\alpha(t), \bar{X}_N(t) + L_\alpha(t)]\) s.t.:

\[ P(\mu(t) \in \text{band} \forall t) \geq 1 - \alpha. \]

모든 \(t\) 에 대해 동시에 — 점별 신뢰 구간보다 더 strict.

5.5 시뮬레이션 알고리즘

1. EFPC 추출: {ŵ_j}, {λ̂_j}, j = 1, ..., p (p ≈ 4)
2. 반복 B 회 (B = 1000 정도):
   a) Z_1, ..., Z_p ~ N(0, 1) iid 생성
   b) G_b(t) = Σ √λ̂_j Z_j ŵ_j(t)
   c) M_b = sup_t |G_b(t)|
3. M_b 의 (1-α) 분위 = q_α
4. L_α(t) = q_α / √N (균일한 폭)
   또는 L_α(t) = q_α(t) / √N (시점별 폭)

5.6 직관: KL 시뮬레이션의 가치

가우스 함수의 직접 시뮬레이션은 무한차원 — 불가능. KL 표현으로 유한차원 (\(p\) 개) 정규분포의 합으로 환원 → 직접 시뮬레이션 가능.

이는 Ch.10.4 의 KL 전개의 직접 응용 — 이론적 결과가 알고리즘.

5.7 비유: 무한 음악의 디지털 표현

무한 음악 (continuous wave) → 유한 sampling (Fourier mode 합) → 디지털 재생. 같은 사고로 가우스 함수 → 유한 EFPC 합 → 시뮬레이션.

5.8 BOA 결과 (전형적)

  • 95% 동시 신뢰 대역의 폭: \(L_{0.05}(t) \approx 0.0008\) (0.08%).
  • 표본 평균 \(\bar{X}_N(390) \approx 0.0005\)신뢰 대역 안에 0 포함됨.

해석: 평균 함수가 정확히 0 인지 신뢰 대역만으로는 결정 불가 → 가설 검정 필요.


6 Section 12.8.5: 분석 단계 4 — 가설 검정

6.1 검정 문제

\(H_0: \mu \equiv 0\)

\(\mathbf{H}_0\): \(\mu(t) = 0 \quad \forall t\) — 평균 함수가 항등 0. \(\mathbf{H}_1\): \(\mu \not\equiv 0\) — drift 존재.

경제적 해석:

  • \(H_0\): 일중 평균 수익률이 0 — 시장이 “공정” (예상 수익 0).
  • \(H_1\): drift 존재 — 일중 시간이 흘러 평균적으로 가격 변화.

6.2 Section 12.5 의 카이제곱 검정 통계량

Test Statistic

\[ T_N = N \sum_{j=1}^p \frac{\langle \bar{X}_N, \widehat{v}_j \rangle^2}{\widehat{\lambda}_j}. \]

\(H_0\) 하에서 \(T_N \overset{d}{\to} \chi^2_p\).

기각: \(T_N > \chi^2_{p, 1-\alpha}\) (예: \(\chi^2_{4, 0.95} \approx 9.49\)).

6.3 도출 직관

함수 CLT + EFPC 분해:

\[ \sqrt{N} \bar{X}_N \overset{d}{\to} G = \sum_j \sqrt{\lambda_j} Z_j v_j. \]

EFPC 좌표:

\[ \sqrt{N} \langle \bar{X}_N, \widehat{v}_j \rangle \overset{d}{\to} \sqrt{\widehat{\lambda}_j} Z_j. \]

표준화:

\[ \frac{\sqrt{N} \langle \bar{X}_N, \widehat{v}_j \rangle}{\sqrt{\widehat{\lambda}_j}} \overset{d}{\to} Z_j \sim N(0, 1). \]

제곱합:

\[ \sum_{j=1}^p \frac{N \langle \bar{X}_N, \widehat{v}_j \rangle^2}{\widehat{\lambda}_j} \overset{d}{\to} \sum_{j=1}^p Z_j^2 \sim \chi^2_p. \]

\(\blacksquare\)

6.4 직관: 표준 PCA 회귀의 함수 일반화

다변량: \(T = N \bar{\mathbf{X}}^T \widehat{\Sigma}^{-1} \bar{\mathbf{X}} \sim \chi^2_p\) (Hotelling \(T^2\)).

함수: 같은 형식, EFPC 좌표에서 — \(\widehat{\Sigma}\) 의 역 = \(\widehat{\lambda}_j^{-1}\) (대각화).

EFPC 가 자동으로 공분산을 대각화 → 검정이 단순 카이제곱.

6.5 BOA 결과

전형적 결과
  • \(p = 4\), \(T_N \approx 15.2\).
  • \(\chi^2_{4, 0.95} = 9.49\)\(T_N > 9.49\)\(H_0\) 기각.
  • p-value \(\approx 0.004\).

결론: 평균 함수가 통계적으로 0 에서 다름 — drift 존재.

6.6 직관: 통계적 vs 경제적 유의성

  • 통계적: \(T_N\) 가 chi-square 분포의 꼬리 → drift 존재 확신.
  • 경제적: 일중 평균 수익률 \(\approx 0.05\%\) — 매우 작음. 거래 비용 (commission, bid-ask spread) 보다 작아 거래 전략으로 활용 불가.

6.7 비유: 통계와 경제의 거리

체중계로 0.1 g 의 차이를 통계적으로 감지 가능 (정밀 저울) — 그러나 0.1 g 가 건강에 유의한가? 별개의 질문.

같은 사고: 통계적 유의성 ≠ 실용적/경제적 유의성. 두 종류의 유의성을 구분 하는 것이 응용 통계의 핵심.

6.8 추가 검정

다른 가설:

  • \(H_0: \mu(t) = ct\) (선형 drift) — 동일한 framework 으로 검정 가능.
  • 두 표본 검정 (\(\mu_1 = \mu_2\)): Section 12.5 의 확장.
  • 공분산 검정 (\(C_1 = C_2\)): Section 12.5 의 두 표본 버전.

7 Section 12.8.6: 함수 시계열로의 확장

7.1 일별 독립의 한계

i.i.d. 가정의 한계

Ch.12 의 framework: 일별 곡선 i.i.d.

현실: 변동성 (volatility clustering) 와 미세 자기상관 존재. 어제의 곡선이 오늘에 영향.

영향: 검정 통계량 \(T_N\) 의 분포가 약간 변화 — i.i.d. 가정 하에서 “약간 over-coverage” 또는 “under-coverage” 가능.

7.2 Section 12.7 의 함수 시계열 확장

FAR(1) 모형 (Ch.8.2)

\[ X_n(t) = \mu(t) + \int \varphi(t, s)(X_{n-1}(s) - \mu(s)) ds + \epsilon_n(t). \]

\(\varphi(t, s)\) = 자기회귀 핵 — 어제 → 오늘의 영향.

이 모형 하에서:

  • 표본 평균 일관성: 여전히 성립 (단, 분산 보정 필요).
  • 신뢰 대역: 자기상관 보정된 long-run covariance (LRCF, Section 8.5) 사용.
  • 가설 검정: \(T_N\) 의 분포가 LRCF 기반 chi-square.

7.3 직관: LRCF 의 의미

자기상관이 있을 때 표본 평균의 분산:

\[ \text{Var}(\bar{X}_N) \approx \frac{1}{N} \sum_{h = -\infty}^{\infty} c_h, \]

\(c_h\) 가 lag \(h\) 의 자기공분산 함수. 이것이 LRCF.

i.i.d. 가정: \(c_h = 0\) for \(h \neq 0\)\(\text{Var}(\bar{X}_N) \approx c_0 / N\) (단순). 시계열: 모든 \(c_h\) 가 누적 → 더 큰 분산.

올바른 분산 사용 → 더 정확한 신뢰 대역과 검정.

7.4 BOA 의 LRCF 보정

보정 결과 (전형적)
  • LRCF 노름 / 단순 공분산 노름 \(\approx 1.2\) — 자기상관이 분산을 20% 증가.
  • 신뢰 대역 폭 20% 증가.
  • 검정 통계량 약간 감소 (그러나 여전히 유의).

결론: i.i.d. 결과가 거의 정확 — BOA 의 일별 자기상관이 작음.

7.5 직관: 두 단계 분석의 가치

  1. i.i.d. 가정 하 분석 (Ch.12.8 의 표준) — 깨끗한 결과.
  2. 시계열 보정 (Ch.8 의 LRCF) — 더 정확한 분포.

대부분의 결과가 robust → 1 단계로 시작, 필요시 2 단계로.

이는 통계적 분석의 표준 패턴 — 단순 모형 → 검증 → 정교화.


8 Section 12.8.7: R 코드 예시

8.1 데이터 준비

#| label: data-prep
library(refund)
library(fda)

# BOA 데이터 (refund 패키지의 예시 데이터로 대체 가능)
data(BOA, package = "refund")  # 가상의 데이터 이름
X <- BOA$cumret  # N x M 행렬, N = 252 거래일, M = 390 분
N <- nrow(X)
M <- ncol(X)
t <- seq(0, 6.5, length.out = M)  # 0 ~ 6.5 시간

8.2 단계 1: 표본 평균과 plot

#| label: sample-mean
xbar <- colMeans(X)
plot(t, xbar, type = "l", lwd = 2, col = "blue",
     xlab = "Time of day (hours)",
     ylab = "Mean cumulative log return",
     main = "BOA Sample Mean Function")
abline(h = 0, lty = 2, col = "gray")

8.3 단계 2: 표본 공분산과 EFPC

#| label: efpc-extraction
# 공분산 행렬
Cov <- cov(X)  # M x M

# 고유값 분해
eig <- eigen(Cov, symmetric = TRUE)
lambda_hat <- eig$values
v_hat <- eig$vectors  # M x M, 열이 EFPC

# CPV 계산
cpv <- cumsum(lambda_hat) / sum(lambda_hat)
p <- which(cpv >= 0.95)[1]  # 95% 기준
cat("Selected p =", p, "\n")

# 처음 4 개 EFPC plot
matplot(t, v_hat[, 1:4], type = "l", lty = 1,
        col = c("black", "red", "blue", "green"),
        xlab = "Time of day", ylab = "Eigenfunction value",
        main = "First 4 EFPCs of BOA")
legend("topright", legend = paste0("v", 1:4),
       col = c("black", "red", "blue", "green"), lty = 1)

8.4 단계 3: 동시 신뢰 대역

#| label: confidence-band
B <- 1000
sup_norms <- numeric(B)

for (b in 1:B) {
  Z <- rnorm(p)
  G <- v_hat[, 1:p] %*% (sqrt(lambda_hat[1:p]) * Z)
  sup_norms[b] <- max(abs(G))
}

q_alpha <- quantile(sup_norms, 0.95)
band_width <- q_alpha / sqrt(N)

# Plot
plot(t, xbar, type = "l", lwd = 2, col = "blue", ylim = range(xbar) + c(-1, 1) * band_width,
     xlab = "Time of day", ylab = "Cumulative log return",
     main = "BOA Mean with 95% Simultaneous Confidence Band")
lines(t, xbar - band_width, lty = 2, col = "red")
lines(t, xbar + band_width, lty = 2, col = "red")
abline(h = 0, lty = 3, col = "gray")

8.5 단계 4: 가설 검정

#| label: hypothesis-test
# EFPC 좌표 of mean
mean_coords <- t(v_hat[, 1:p]) %*% xbar  # p x 1

# 검정 통계량
T_N <- N * sum(mean_coords^2 / lambda_hat[1:p])

# Chi-square test
crit <- qchisq(0.95, df = p)
p_value <- 1 - pchisq(T_N, df = p)

cat("Test statistic T_N =", round(T_N, 2), "\n")
cat("Chi-square critical value (df =", p, ") =", round(crit, 2), "\n")
cat("p-value =", format(p_value, digits = 3), "\n")
cat("Decision:", ifelse(T_N > crit, "Reject H_0 (drift exists)", "Fail to reject H_0"), "\n")

8.6 직관: 코드의 단계별 매핑

각 단계가 Ch.12 의 절과 직접 매핑:

  • 단계 1 → Section 12.1 (표본 평균 일관성).
  • 단계 2 → Sections 12.2~12.3, 12.7 (공분산, EFPC, 차원 결정).
  • 단계 3 → Sections 12.4, 12.6 (CLT, 신뢰 대역).
  • 단계 4 → Section 12.5 (가설 검정).

한 데이터셋, 모든 도구.


9 Section 12.8.8: 결과 해석과 경제적 함의

9.1 통계적 결과 정리

핵심 결과 정리
항목 결과
\(\bar{X}_N(390)\) \(\approx 0.0005\) (0.05%)
95% 신뢰 대역 폭 \(\approx 0.0008\)
차원 \(p\) (CPV ≥ 0.95) 3~5
검정 통계량 \(T_N\) \(\approx 15\)
Chi-square critical \(\chi^2_{4, 0.95}\) \(\approx 9.49\)
p-value \(\approx 0.004\)
결론 \(H_0: \mu \equiv 0\) 기각, drift 존재

9.2 경제적 해석

통계적 vs 경제적 유의성
  • 통계적: drift 가 0 에서 다름 (\(p < 0.01\)).
  • 경제적: 일중 0.05% 수익률 — 거래 비용 이하.
    • 0.05% × 252 거래일 × 1 회/일 = 12.6% 연간 (회전율 100%).
    • 거래 비용 \(\approx 0.1\%\) (commission + spread) → 차감 후 \(-12.6\%\) 손실.

결론: drift 가 존재하지만 거래 전략으로 활용 불가능.

9.3 직관: 시장 효율성과의 일관성

시장 효율성 가설 (Efficient Market Hypothesis) 의 약형:

가격이 모든 정보를 반영 → 거래 비용 차감 후 초과 수익 0.

BOA 결과가 이와 일관 — 통계적 drift 가 경제적으로 활용 불가능 → 시장이 효율적.

9.4 비유: 상한선과 게임 이론

도박장에서 매 게임 1% 의 평균 손실 (house edge). 통계적으로 0 에서 다름. 경제적 의미: 도박을 하면 장기적으로 손실.

같은 사고: 작은 통계적 효과가 경제적으로 큰 의미 (또는 그 반대) 일 수 있음 — 두 분석을 모두 수행.

9.5 응용 분야의 일반화

다른 분야 응용

같은 framework 이 다양한 함수 데이터에 적용:

분야 함수 데이터 평균 함수 검정 의미
금융 일중 가격 곡선 가격 drift 검정
의료 환자 모니터링 (HR 곡선) 정상 vs 이상 패턴
환경 일중 기온 곡선 계절성 변화 검정
생물학 성장 곡선 (height vs age) 평균 성장 패턴
신경과학 EEG/fMRI 곡선 자극 응답 검정

한 framework, 다양한 응용.


10 Section 12.8.9: Ch.3~12 의 통합 (전체 책의 종합)

10.1 사용된 도구 목록

BOA 응용에 사용된 Ch.3~12 의 모든 결과
챕터 결과 BOA 응용에서의 역할
Ch.3 \(L^2\) 공간, 확률 함수 곡선 \(X_n\) 의 framework
Ch.3 KL 전개 EFPC 의 이론적 토대
Ch.3 공분산 연산자 \(C\) 의 정의
Ch.10.1~10.2 Hilbert 공간, 사영 모든 분석의 토대
Ch.10.3 HS 연산자 공분산이 자동 HS
Ch.10.4 스펙트럼 정리 + Mercer EFPC 분해의 이론
Ch.10.4 KL 전개 신뢰 대역 시뮬레이션
Ch.11 가우스 함수 + CLT 함수 CLT (Theorem 12.4.1)
Ch.12.1 표본 평균 일관성 \(\bar{X}_N \to \mu\)
Ch.12.2 공분산 일관성 \(\widehat{C}_N \to C\)
Ch.12.3 EFPC 수렴 \(\widehat{v}_j \to v_j\)
Ch.12.4 함수 CLT 점근 분포
Ch.12.5 가설 검정 \(T_N \sim \chi^2_p\)
Ch.12.6 신뢰 대역 KL 시뮬레이션
Ch.12.7 차원 결정 CPV 기준 \(p\)
Ch.8 함수 시계열 i.i.d. 가정의 확장

거의 모든 도구가 한 응용에서 활용.

10.2 직관: 응용이 framework 을 정당화

이론은 응용 없이 의미 없음. BOA 응용이 Ch.3~12 의 모든 도구가 실제로 작동하고 의미 있는 결과 산출 함을 보임.

10.3 비유: 오케스트라의 합주

각 악기 (= 각 도구) 가 따로 연주 가능하지만, 합주 (= BOA 응용) 가 진정한 음악 — 모든 부분이 통합되어 의미 형성.

10.4 Ch.12 의 마무리

Ch.12.8 이 Ch.12 (그리고 사실상 책 전체) 의 마무리 — Ch.13 이후는 확장 주제 (함수 시계열, 공간 함수, 의존 데이터 등).

기본 framework: Ch.3~12 → 응용 패러다임의 정착.


11 핵심 정리와 요약

11.1 한 줄 요약

Ch.12.8 의 BOA 응용은 Bank of America 주식의 분 단위 누적 일중 수익률 곡선 (\(N\) = 252 거래일, 각 곡선 390 분) 에 Ch.12 의 모든 추론 도구를 통합 적용 — 표본 평균 함수 \(\bar{X}_N\) 과 일관성 (Section 12.1), 표본 공분산의 HS 일관성 (12.2), EFPC 추출과 차원 결정 (CPV ≥ 0.95 → \(p \approx 4\), Section 12.7), 함수 CLT (12.4) 와 KL 기반 동시 신뢰 대역 (12.6), 카이제곱 검정 통계량 \(T_N = N \sum \langle \bar{X}_N, \widehat{v}_j \rangle^2 / \widehat{\lambda}_j \sim \chi^2_p\) (12.5) — 으로 \(H_0: \mu \equiv 0\) 검정. 결과: \(T_N \approx 15\), \(p\)-value \(\approx 0.004\)통계적으로 drift 존재, 그러나 일중 0.05% 수익률은 거래 비용 이하 → 경제적으로 활용 불가** (시장 효율성 가설과 일관). 한 데이터셋이 Ch.3~12 의 모든 도구를 통합하는 case study, 통계적 vs 경제적 유의성의 구분, 함수 시계열 (Ch.8) 로의 자연스러운 확장 동기 — 책 전체의 종합.**

11.2 학습 가이드

단계별 학습
  1. 데이터 구조 인식\(X_n(t) = \log P_n(t) - \log P_n(0)\), \(N\) = 252, \(T = 390\).
  2. 단계 1: 표본 평균\(\bar{X}_N(t)\) plot, 일관성 (Section 12.1).
  3. 단계 2: EFPC 추출 — 공분산 → 고유값 분해 → CPV → \(p\).
  4. 단계 3: 신뢰 대역 — KL 시뮬레이션 (Sections 12.4 + 12.6).
  5. 단계 4: 가설 검정\(T_N\) 계산, chi-square 비교.
  6. 결과 해석 — 통계적 vs 경제적 유의성.
  7. 확장 — 함수 시계열 (Ch.8) 의 LRCF 보정.
  8. 통합 인식 — Ch.3~12 의 모든 도구가 한 응용에서 활용.

11.3 Ch.12 의 구조

12.1: 표본 평균의 L²-일관성
12.2: 표본 공분산의 HS 일관성
12.3: EFPC 와 추정 고유값의 수렴
12.4: 함수 CLT
12.5: 평균 함수에 대한 가설 검정
12.6: 동시 신뢰 대역
12.7: 차원 결정 (CPV, 스크리)
12.8: BOA 응용 — 모든 도구의 통합  ← 이 포스트

11.4 책 전체의 통합

Part I (Ch.1~2): 탐색적 FDA (basis, smoothing)
Part II (Ch.3): 수학적 framework (L², KL)
Part III (Ch.4~7): 회귀 모형 (scalar/function-on-function, GLM, sparse)
Part IV (Ch.8~9): 의존 데이터 (시계열, 공간)
Part V (Ch.10~11): Hilbert 공간 + 확률 함수 (이론적 토대)
Part VI (Ch.12): 추론 (응용)  ← BOA 의 통합

12 관련 주제

선행 지식

관련 개념

참고문헌

  • Kokoszka, P., & Reimherr, M. (2017). Introduction to Functional Data Analysis, Ch.12.8. Chapman & Hall/CRC.
  • Horváth, L., & Kokoszka, P. (2012). Inference for Functional Data with Applications. Springer. — 더 깊은 추론 이론.
  • Hyndman, R. J., & Ullah, M. S. (2007). Robust forecasting of mortality and fertility rates: A functional data approach. CSDA, 51, 4942-4956.

Subscribe

Enjoy this blog? Get notified of new posts by email: