ML for Longitudinal Data — Overview

종단 데이터에 적용 가능한 머신러닝 기법 개관

종단 데이터에 적용 가능한 머신러닝 기법의 전체 그림을 제시한다. Random Survival Forest, XGBoost + 시간 피처 공학, Hidden Markov Model, Lasso/Elastic Net의 위치와 역할을 요약하고, 통계 모델과의 선택 기준을 정리한다. 각 기법의 상세는 개별 파일(21~24번)에서 다룬다.

Statistics
Machine Learning
저자

Kwangmin Kim

공개

2026년 03월 08일

1 ML for Longitudinal Data — Overview

1.1 왜 ML인가: 통계 모델의 한계

상황 통계 모델의 한계 ML 대안
비선형 교호작용 다수 LMM은 선형 가정 Random Forest, XGBoost
수백 개의 공변량 자유도 부족, 다중공선성 Lasso, Elastic Net
생존 시간 + 비선형 Cox는 비례 위험 가정 Random Survival Forest
관측 안 된 상태 전환 모델 명세 어려움 HMM
예측 정확도가 최우선 해석보다 성능 Gradient Boosting

1.2 이 시리즈의 파일들

파일 주제 핵심
21 — RSF Random Survival Forest 비선형 생존 분석, C-index, VIMP
22 — XGBoost XGBoost + 시간 피처 공학 Lag/Rolling 피처, 데이터 누출 방지
23 — HMM Hidden Markov Model 잠재 상태 전환, 이탈 직전 상태 감지
24 — 정규화 Lasso/Elastic Net/glmmLasso 고차원 변수 선택 + 랜덤 효과

1.3 4가지 기법의 위치

종단 데이터에서 ML이 필요한 상황
│
├── 예측 목표가 "이벤트까지 시간" (생존)
│   └── Random Survival Forest (21) ← Cox의 비선형 대안
│
├── 예측 목표가 "다음 시점 이탈/전환"
│   └── XGBoost + 시간 피처 공학 (22) ← 테이블 변환 후 Gradient Boosting
│
├── "관측 불가능한 상태"를 발견하고 싶다
│   └── Hidden Markov Model (23) ← 잠재 상태 전환 학습
│
└── 공변량이 수백~수천 개
    └── Lasso / glmmLasso (24) ← 변수 선택 + 정규화

1.4 통계 모델 vs ML: 종단 데이터 선택 기준

기준 통계 모델 (LMM/GLMM) ML
해석 높음 (계수, 신뢰구간) 낮음 (블랙박스)
비선형 제한적 (GAMM으로 보완) 자연스럽게 처리
고차원 어려움 Lasso/RF로 처리
인과 추론 적합 부적합 (예측만)
불확실성 정량화 자연스럽게 제공 별도 작업 필요
소표본 강함 (구조 가정으로 보완) 약함
예측 성능 보통 높음
결측치 LMM은 자연스럽게 처리 별도 처리 필요

실무 권장:

인과 추론 / 효과 추정 / 신뢰구간 필요 → 통계 모델 (LMM, GLMM)
예측 정확도 최우선 / 비선형 복잡한 관계 → ML (XGBoost, RSF)
탐색적 분석 / 변수 중요도 → ML 먼저, 통계 모델로 검증

다음: 13-mixed-model-dl-longitudinal.qmd — DL for Longitudinal Data

Subscribe

Enjoy this blog? Get notified of new posts by email: