Functional Data Analysis

FDA Learning Roadmap for RT-PCR Applications

Statistics
Functional Data Analysis
Time Series
저자

Kwangmin Kim

공개

2025년 11월 15일

0.0.1 Kokoszka & Reimherr (2017) — Introduction to FDA

0.0.2 Introduction and Representation

0.0.3 Descriptive Statistics

0.0.4 Functional Principal Component Analysis

0.0.5 Curve Registration

0.1 Core Methods

0.1.1 Functional Regression - Basics

0.1.2 Functional Regression - Advanced

0.1.3 Multivariate Functional Data

0.1.4 Hypothesis Testing

0.2 Advanced Topics

0.2.1 Classification and Clustering

0.2.2 Sparse and Longitudinal Data

0.2.3 Time Series and Dynamics

0.2.4 Advanced Topics and Extensions

0.3 Supplementary Topics

0.3.1 Computational Methods

0.3.2 Software and Tools

0.3.3 Applications (Optional)

0.4 연구 분야 기획

0.4.1 최종 목표

RT-PCR 증폭 곡선 분석을 위한 FDA 핵심 개념 습득 및 실전 적용 능력 확보

  1. 이론 40% + 구현 60%: 매 주제마다 R/Python 구현 필수
  2. RT-PCR 중심: 추상적 이론보다 실제 응용 위주
  3. 점진적 심화: 기초 → 중급 → 고급 → 응용 순서 엄수

0.5 주차별 시간 배분

  • Month 1: 기초 개념 및 탐색적 분석 (56시간)
  • Month 2: 핵심 방법론 (FPCA, Registration) (56시간)
  • Month 3: 고급 주제 및 RT-PCR 프로젝트 (56시간)

1 Month 1: 기초 개념 및 탐색적 분석

1.1 Week 1: FDA 개념 및 데이터 표현 (14시간)

1.1.1 함수형 데이터의 정의와 특성

  • 2025-11-18, 함수형 데이터란 무엇인가
    • 이산 측정값 vs 연속 함수의 차이
    • FDA가 필요한 이유: RT-PCR 곡선이 함수인 이유
    • 실습: 45개 사이클 RFU 데이터를 함수로 시각화
  • 2025-11-19, 함수형 데이터의 표현 방법
    • 기저 함수(Basis Functions): B-spline, Fourier, Wavelets
    • 평활화(Smoothing): 거칠기 페널티(Roughness Penalty)
    • 실습: RT-PCR 곡선을 B-spline으로 스무딩 (fda 패키지)

1.1.2 탐색적 함수형 데이터 분석

  • 2025-11-20, 함수형 평균과 분산
    • 점별(pointwise) 평균 함수: \(\bar{X}(t) = E[X(t)]\)
    • 공분산 함수: \(Cov(X(s), X(t))\)
    • 실습: 100개 RT-PCR 곡선의 평균 곡선 및 공분산 히트맵
  • 2025-11-21, 함수형 박스플롯과 이상치 탐지
    • 함수적 깊이(Functional Depth): Band Depth, Modified Band Depth
    • Sun & Genton (2011) 방법론
    • 실습: RT-PCR 곡선 중 이상치 자동 탐지

1.1.3 주간 프로젝트 (6시간)

  • 2025-11-22~23, RT-PCR 데이터 탐색적 분석 리포트
    • 실제 RT-PCR 데이터셋 로드 및 전처리
    • 스무딩 파라미터 선택 (GCV, Cross-validation)
    • 평균 곡선, 신뢰 밴드, 이상치 시각화
    • 정상 vs 비정상 곡선 육안 비교

핵심 참고문헌: - Ramsay & Silverman (2005), Functional Data Analysis, Chapter 1-3 - fda R 패키지 튜토리얼

1.2 Week 2: 함수형 회귀 분석 기초 (14시간)

1.2.1 함수-스칼라 회귀

  • 2025-11-25, Functional Linear Model 이론
    • 스칼라 반응 변수, 함수 예측 변수: \(Y = \int X(t)\beta(t)dt + \epsilon\)
    • 회귀 계수 함수 \(\beta(t)\) 의 추정
    • 실습: RT-PCR 곡선으로 초기 농도(log scale) 예측
  • 2025-11-26, 회귀 계수 함수의 해석
    • \(\beta(t)\) 의 의미: 어느 사이클이 정량에 중요한가?
    • 신뢰 구간 및 유의성 검정
    • 실습: 증폭 효율이 다른 그룹 간 \(\beta(t)\) 비교

1.2.2 스칼라-함수 회귀 및 함수-함수 회귀

1.2.3 주간 프로젝트 (6시간)

  • 2025-11-29~30, 증폭 효율 프로파일링 파일럿
    • RT-PCR 곡선 → 초기 농도 회귀 모델 구축
    • 기존 \(C_T\) 기반 선형 회귀와 성능 비교 (\(R^2\), RMSE)
    • \(\beta(t)\) 시각화 및 해석: 어느 사이클이 중요한가?

핵심 참고문헌: - Reiss et al. (2017), Methods for Scalar-on-Function Regression - refund R 패키지 (Regression with Functional Data)

1.3 Week 3: 곡선 정렬 (Curve Registration) (14시간)

1.3.1 Registration의 필요성과 개념

  • 2025-12-02, Phase Variation vs Amplitude Variation
    • 왜 곡선을 정렬해야 하는가?
    • RT-PCR에서의 의미: 증폭 시작 시점 차이 vs 증폭량 차이
    • 실습: 인위적으로 shift된 곡선의 평균 문제 시연
  • 2025-12-03, Landmark Registration
    • 특징점 기반 정렬 (예: inflection point, maximum derivative)
    • 시간 왜곡 함수(Time Warping Function) \(h(t)\)
    • 실습: RT-PCR 곡선의 변곡점을 정렬

1.3.2 Continuous Registration

  • 2025-12-04, Continuous Registration 이론
    • Fisher-Rao metric, Square-Root Velocity Function (SRVF)
    • 최적 정렬 문제: \(\min \int [X_i(h_i(t)) - \mu(t)]^2 dt\)
    • 실습: fdasrvf 패키지로 자동 정렬
  • 2025-12-05, Registration 후 분석 전략
    • 정렬된 곡선의 평균 vs 원본 곡선의 평균
    • Phase variation과 Amplitude variation 분리 분석
    • 실습: 복제 실험 곡선 정렬 후 통합

1.3.3 주간 프로젝트 (6시간)

  • 2025-12-06~07, 기술적 복제 곡선 통합 프로젝트
    • 3-5개 복제 RT-PCR 곡선 정렬
    • Phase variation (피펫팅 오차) vs Amplitude variation (억제제) 정량화
    • 정렬 전/후 \(C_T\) 표준편차 비교

핵심 참고문헌: - Marron et al. (2015), Functional Data Analysis of Amplitude and Phase Variation - Tucker et al. (2013), Generative Models for Functional Data using Phase and Amplitude Separation

1.4 Week 4: 함수 주성분 분석 (FPCA) 기초 (14시간)

1.4.1 FPCA 이론

  • 2025-12-09, FPCA의 수학적 기초
    • Karhunen-Loève 전개: \(X(t) = \mu(t) + \sum_{k=1}^{\infty} \xi_k \phi_k(t)\)
    • 고유함수 \(\phi_k(t)\) 와 주성분 점수 \(\xi_k\)
    • 분산 설명률: \(\lambda_k / \sum \lambda_k\)
    • 실습: 장난감 데이터로 FPCA 직관 이해
  • 2025-12-10, FPCA 계산 방법
    • 공분산 연산자의 고유값 분해
    • 수치적 구현: pca.fd() 함수
    • 실습: RT-PCR 곡선에 FPCA 적용, scree plot

1.4.2 FPCA 해석 및 활용

  • 2025-12-11, 주성분의 해석
    • PC1: 전체 증폭 수준
    • PC2: 증폭 속도
    • PC3: 후기 플래토 형태
    • 실습: 각 PC에 \(\pm 2\sigma\) 변동 시각화
  • 2025-12-12, FPCA 기반 분류 및 회귀
    • 주성분 점수를 특징으로 사용: \(\xi_1, \xi_2, ..., \xi_K\)
    • Logistic regression, Random Forest 결합
    • 실습: 정상/비정상 RT-PCR 곡선 분류

1.4.3 주간 프로젝트 (6시간)

  • 2025-12-13~14, RT-PCR 곡선 자동 분류 시스템
    • 300개 곡선 (정상 200, 비정상 100)에 FPCA 적용
    • 상위 3-5개 PC 점수로 분류 모델 학습
    • ROC curve, Confusion matrix로 성능 평가
    • 어떤 PC가 정상/비정상 구분에 기여하는지 해석

핵심 참고문헌: - Ramsay & Silverman (2005), Chapter 7-8 - Yao et al. (2005), Functional Data Analysis for Sparse Longitudinal Data

2 Month 2: 핵심 방법론 심화

2.1 Week 5: 다변량 FPCA 및 공통 주성분 (14시간)

2.1.1 다변량 함수형 데이터

  • 2025-12-16, Multivariate Functional Data 개념
    • \(p\) 개 채널의 동시 관측: \(\mathbf{X}(t) = [X_1(t), ..., X_p(t)]^T\)
    • RT-PCR 멀티플렉스: 5개 파장대 곡선
    • 실습: 2채널 동시 시각화
  • 2025-12-17, Multivariate FPCA (MFPCA)
    • 교차 공분산 함수: \(Cov(X_i(s), X_j(t))\)
    • 공통 고유함수와 채널별 로딩
    • 실습: MFPCA 패키지 사용

2.1.2 형광 간섭 분석 응용

2.1.3 주간 프로젝트 (6시간)

핵심 참고문헌: - Happ & Greven (2018), Multivariate Functional Principal Component Analysis - Kayano & Konishi (2009), Sparse Functional Principal Component Analysis

2.2 Week 6: 함수형 회귀 심화 및 변수 선택 (14시간)

2.2.1 정규화 및 변수 선택

2.2.2 비선형 함수 회귀

  • 2025-12-26, Functional Generalized Additive Models (FGAM)
    • 비선형 함수-스칼라 관계
    • Smooth 함수의 합: \(Y = \sum_j s_j(\int X(t)\beta_j(t)dt)\)
    • 실습: RT-PCR 곡선의 비선형 효과 모델링
  • 2025-12-27, Functional Random Forest
    • FPCA 점수를 특징으로 Random Forest 학습
    • 변수 중요도: 어느 PC가 가장 중요한가?
    • 실습: randomForest + FPCA 결합

2.2.3 주간 프로젝트 (6시간)

  • 2025-12-28~29, 증폭 효율 예측 모델 고도화
    • 비선형 효과 고려한 함수 회귀
    • 변수 선택으로 핵심 사이클 구간 식별
    • 교차 검증으로 일반화 성능 평가

핵심 참고문헌: - Goldsmith et al. (2011), Penalized Functional Regression - Scheipl et al. (2015), Functional Additive Mixed Models

2.3 Week 7: 함수형 시계열 및 동적 예측 (14시간)

2.3.1 함수형 시계열 분석

  • 2025-12-30, Functional Time Series 개념
    • 함수의 시간적 의존성: \(X_t(s)\)
    • RT-PCR 응용: 사이클 진행 중 실시간 예측
    • 실습: 부분 곡선 시각화
  • 2025-12-31, Functional Autoregression (FAR)
    • FAR(1) 모델: \(X_t(s) = \int \Psi(s,u)X_{t-1}(u)du + \epsilon_t(s)\)
    • 실습: 사이클 1-20 → 사이클 21-45 예측

2.3.2 실시간 모니터링 응용

  • 2026-01-02, 동적 함수 주성분 분석
    • 사이클이 진행됨에 따라 업데이트되는 FPCA
    • 온라인 이상치 탐지
    • 실습: 사이클 15, 20, 25에서의 PC 점수 추적
  • 2026-01-03, 조기 실패 예측 알고리즘
    • 부분 곡선으로 최종 성공/실패 예측
    • Logistic regression with partial functional predictors
    • 실습: 사이클 20에서 최종 결과 예측 정확도

2.3.3 주간 프로젝트 (6시간)

핵심 참고문헌: - Hörmann & Kokoszka (2010), Weakly Dependent Functional Data - Aue et al. (2015), Prediction in Functional Linear Regression

2.4 Week 8: 함수형 ANOVA 및 검정 (14시간)

2.4.1 함수형 데이터의 검정

  • 2026-01-06, Pointwise vs Global Testing
    • 점별 검정의 다중 비교 문제
    • 전역(Global) 검정: 곡선 전체가 다른가?
    • 실습: 두 그룹 RT-PCR 곡선 비교
  • 2026-01-07, Functional ANOVA
    • \(F\)-통계량의 함수형 확장
    • Permutation test for functional data
    • 실습: 억제제 유/무 그룹 간 곡선 차이 검정

2.4.2 비모수적 검정

  • 2026-01-09, Bootstrap for Functional Data
    • 함수형 데이터의 resampling
    • 신뢰 구간 및 검정 통계량 추정
    • 실습: 평균 함수의 bootstrap 신뢰 밴드
  • 2026-01-10, Two-Sample Tests
    • Hotelling’s \(T^2\) 검정의 함수형 버전
    • L2 distance 기반 검정
    • 실습: 정상 vs 억제 샘플 곡선 비교

2.4.3 주간 프로젝트 (6시간)

  • 2026-01-11~12, 억제제 영향 정량화 연구
    • 다양한 억제제 농도별 RT-PCR 곡선 수집
    • Functional ANOVA로 농도 효과 검정
    • 억제 패턴의 시각적 특성 추출 및 라이브러리 구축

핵심 참고문헌: - Zhang (2013), Hypothesis Testing in Functional Linear Models - Cuevas et al. (2004), An ANOVA Test for Functional Data

3 Month 3: 고급 주제 및 응용 프로젝트

3.1 Week 9: 고급 FPCA 및 희소 함수형 데이터 (14시간)

3.1.1 Sparse Functional Data

  • 2026-01-13, Sparse & Irregular Observations
    • 모든 시점에서 관측되지 않은 경우
    • PACE (Principal Analysis by Conditional Expectation) 방법
    • 실습: fdapace 패키지 사용
  • 2026-01-14, Sparse FPCA Applications
    • RT-PCR 결측 사이클 처리
    • 실습: 일부 사이클 누락된 곡선 복원

3.1.2 함수형 군집 분석

3.1.3 주간 프로젝트 (6시간)

  • 2026-01-18~19, 비정형 곡선 자동 분류 시스템
    • 500개 RT-PCR 곡선 (정상, 지연, 플랫, 이중 증폭 등)
    • 비지도 학습으로 자연스러운 그룹 발견
    • 각 클러스터의 특성 해석 및 라벨링

핵심 참고문헌: - Yao et al. (2005), Functional Data Analysis for Sparse Longitudinal Data - Jacques & Preda (2014), Model-based Clustering for Multivariate Functional Data

3.2 Week 10: 딥러닝과 FDA 결합 (선택적) (14시간)

3.2.1 Functional Neural Networks

3.2.2 대안: 베이지안 FDA (딥러닝 대신 선택 가능)

3.2.3 주간 프로젝트 (6시간)

  • 2026-01-23~24, 고급 분류 모델 벤치마크
    • FPCA + Logistic vs CNN vs Functional Random Forest
    • 성능, 해석 가능성, 계산 비용 비교
    • 실전 배포 관점에서 최적 방법 선택

핵심 참고문헌: - Wang et al. (2016), Functional Data Analysis - Rahman et al. (2019), Deep Learning for Time Series Classification

3.3 Week 11: 통합 프로젝트 I - 증폭 효율 프로파일링 (14시간)

3.3.1 프로젝트 설계 및 데이터 수집

3.3.2 분석 파이프라인 구축

  • 2026-01-28~29, 증폭 효율 함수 추정
    • 사이클별 증폭률 계산 및 스무딩
    • FPCA로 효율 패턴 분류
    • 효율 보정된 정량 알고리즘 구현

3.3.3 성능 평가 및 검증

  • 2026-01-30~31, 기존 방법과 비교 분석
    • \(C_T\) 기반 vs FDA 기반 정량 정확도
    • CV (변동계수) 감소율 계산
    • 통계적 유의성 검정

3.3.4 결과 정리 및 해석

  • 2026-02-01~02, 분석 리포트 작성
    • 주요 발견 사항 정리
    • 시각화: 효율 프로파일, 보정 효과
    • 한계점 및 향후 연구 방향

3.4 Week 12: 통합 프로젝트 II - 다중 복제 메타 분석 (14시간)

3.4.1 프로젝트 설계

3.4.2 곡선 정렬 및 통합

3.4.3 품질 스코어 시스템 개발

  • 2026-02-06~07, Replication Quality Score
    • 함수적 일치도 측정 알고리즘
    • 0-100점 스코어링 시스템
    • 임계값 설정 (재실험 기준)

3.4.4 최종 결과 및 발표 자료

4 보충 자료 및 도구

4.1 필수 소프트웨어 및 패키지

4.1.1 R 패키지

  • fda: 기본 FDA 기능
  • refund: 함수형 회귀
  • fdapace: Sparse functional data
  • fdasrvf: Registration
  • funHDDC: 함수형 군집화
  • MFPCA: 다변량 FPCA

4.1.2 Python 패키지

  • scikit-fda: FDA in Python
  • sktime: 시계열 및 함수형 데이터
  • PyTorch/Keras: 딥러닝 (선택적)

4.2 핵심 참고 도서

  1. Ramsay & Silverman (2005), Functional Data Analysis (2nd ed.)
    • FDA의 바이블, 이론과 응용 모두 포괄
  2. Kokoszka & Reimherr (2017), Introduction to Functional Data Analysis
    • 현대적 관점, 실습 중심
  3. Hsing & Eubank (2015), Theoretical Foundations of Functional Data Analysis
    • 수학적 엄밀성 (선택적 심화)

4.3 온라인 자료

5 학습 점검 체크리스트

5.1 Month 1 종료 시점

5.2 Month 2 종료 시점

5.3 Month 3 종료 시점

6 성공을 위한 Tips

6.1 이론과 실습의 균형

  • 매일 1시간 이론 학습 → 1시간 코딩 실습
  • 이론만 보지 말고 반드시 손으로 구현

6.2 점진적 난이도 상승

  • 처음부터 완벽하게 이해하려 하지 말 것
  • 개념의 80%만 이해하고 다음으로 진행
  • 나중에 돌아와서 깊이 있게 재학습

6.3 실제 데이터 중심

  • 가능한 한 빨리 실제 RT-PCR 데이터 확보
  • 모든 이론을 RT-PCR 맥락에서 재해석
  • “이게 우리 문제에 왜 필요한가?” 항상 자문

6.4 커뮤니티 활용

  • R-help, Cross Validated (Stack Exchange) 적극 활용
  • FDA 관련 논문의 코드 저장소 탐색
  • 막히면 24시간 이상 혼자 고민하지 말고 질문

6.5 문서화 습관

  • 모든 분석을 Quarto/R Markdown으로 기록
  • 나중에 블로그 포스트로 변환 가능
  • “미래의 나”를 위한 설명 작성

3개월 후, RT-PCR FDA 전문가가 되어 있을 것이다! ```

Subscribe

Enjoy this blog? Get notified of new posts by email: