1 ML for Longitudinal Data — Overview

1.1 왜 ML인가: 통계 모델의 한계

상황	통계 모델의 한계	ML 대안
비선형 교호작용 다수	LMM은 선형 가정	Random Forest, XGBoost
수백 개의 공변량	자유도 부족, 다중공선성	Lasso, Elastic Net
생존 시간 + 비선형	Cox는 비례 위험 가정	Random Survival Forest
관측 안 된 상태 전환	모델 명세 어려움	HMM
예측 정확도가 최우선	해석보다 성능	Gradient Boosting

1.2 이 시리즈의 파일들

파일	주제	핵심
21 — RSF	Random Survival Forest	비선형 생존 분석, C-index, VIMP
22 — XGBoost	XGBoost + 시간 피처 공학	Lag/Rolling 피처, 데이터 누출 방지
23 — HMM	Hidden Markov Model	잠재 상태 전환, 이탈 직전 상태 감지
24 — 정규화	Lasso/Elastic Net/glmmLasso	고차원 변수 선택 + 랜덤 효과

1.3 4가지 기법의 위치

종단 데이터에서 ML이 필요한 상황
│
├── 예측 목표가 "이벤트까지 시간" (생존)
│   └── Random Survival Forest (21) ← Cox의 비선형 대안
│
├── 예측 목표가 "다음 시점 이탈/전환"
│   └── XGBoost + 시간 피처 공학 (22) ← 테이블 변환 후 Gradient Boosting
│
├── "관측 불가능한 상태"를 발견하고 싶다
│   └── Hidden Markov Model (23) ← 잠재 상태 전환 학습
│
└── 공변량이 수백~수천 개
    └── Lasso / glmmLasso (24) ← 변수 선택 + 정규화

1.4 통계 모델 vs ML: 종단 데이터 선택 기준

기준	통계 모델 (LMM/GLMM)	ML
해석	높음 (계수, 신뢰구간)	낮음 (블랙박스)
비선형	제한적 (GAMM으로 보완)	자연스럽게 처리
고차원	어려움	Lasso/RF로 처리
인과 추론	적합	부적합 (예측만)
불확실성 정량화	자연스럽게 제공	별도 작업 필요
소표본	강함 (구조 가정으로 보완)	약함
예측 성능	보통	높음
결측치	LMM은 자연스럽게 처리	별도 처리 필요

실무 권장:

인과 추론 / 효과 추정 / 신뢰구간 필요 → 통계 모델 (LMM, GLMM)
예측 정확도 최우선 / 비선형 복잡한 관계 → ML (XGBoost, RSF)
탐색적 분석 / 변수 중요도 → ML 먼저, 통계 모델로 검증

다음: 13-mixed-model-dl-longitudinal.qmd — DL for Longitudinal Data