1 ML for Longitudinal Data — Overview
1.1 왜 ML인가: 통계 모델의 한계
| 상황 | 통계 모델의 한계 | ML 대안 |
|---|---|---|
| 비선형 교호작용 다수 | LMM은 선형 가정 | Random Forest, XGBoost |
| 수백 개의 공변량 | 자유도 부족, 다중공선성 | Lasso, Elastic Net |
| 생존 시간 + 비선형 | Cox는 비례 위험 가정 | Random Survival Forest |
| 관측 안 된 상태 전환 | 모델 명세 어려움 | HMM |
| 예측 정확도가 최우선 | 해석보다 성능 | Gradient Boosting |
1.2 이 시리즈의 파일들
| 파일 | 주제 | 핵심 |
|---|---|---|
| 21 — RSF | Random Survival Forest | 비선형 생존 분석, C-index, VIMP |
| 22 — XGBoost | XGBoost + 시간 피처 공학 | Lag/Rolling 피처, 데이터 누출 방지 |
| 23 — HMM | Hidden Markov Model | 잠재 상태 전환, 이탈 직전 상태 감지 |
| 24 — 정규화 | Lasso/Elastic Net/glmmLasso | 고차원 변수 선택 + 랜덤 효과 |
1.3 4가지 기법의 위치
종단 데이터에서 ML이 필요한 상황
│
├── 예측 목표가 "이벤트까지 시간" (생존)
│ └── Random Survival Forest (21) ← Cox의 비선형 대안
│
├── 예측 목표가 "다음 시점 이탈/전환"
│ └── XGBoost + 시간 피처 공학 (22) ← 테이블 변환 후 Gradient Boosting
│
├── "관측 불가능한 상태"를 발견하고 싶다
│ └── Hidden Markov Model (23) ← 잠재 상태 전환 학습
│
└── 공변량이 수백~수천 개
└── Lasso / glmmLasso (24) ← 변수 선택 + 정규화
1.4 통계 모델 vs ML: 종단 데이터 선택 기준
| 기준 | 통계 모델 (LMM/GLMM) | ML |
|---|---|---|
| 해석 | 높음 (계수, 신뢰구간) | 낮음 (블랙박스) |
| 비선형 | 제한적 (GAMM으로 보완) | 자연스럽게 처리 |
| 고차원 | 어려움 | Lasso/RF로 처리 |
| 인과 추론 | 적합 | 부적합 (예측만) |
| 불확실성 정량화 | 자연스럽게 제공 | 별도 작업 필요 |
| 소표본 | 강함 (구조 가정으로 보완) | 약함 |
| 예측 성능 | 보통 | 높음 |
| 결측치 | LMM은 자연스럽게 처리 | 별도 처리 필요 |
실무 권장:
인과 추론 / 효과 추정 / 신뢰구간 필요 → 통계 모델 (LMM, GLMM)
예측 정확도 최우선 / 비선형 복잡한 관계 → ML (XGBoost, RSF)
탐색적 분석 / 변수 중요도 → ML 먼저, 통계 모델로 검증
다음: 13-mixed-model-dl-longitudinal.qmd — DL for Longitudinal Data