1 종단 데이터 분석 기법 비교
1.1 전체 기법 한눈에 보기
| 기법 | 결과 변수 | 시간 효과 | 개인 효과 | 관심 추정 |
|---|---|---|---|---|
| LMM | 연속형 | 선형 | 랜덤 절편/기울기 | Conditional β |
| GLMM | 이진/카운트/감마 | 선형 | 랜덤 절편/기울기 | Conditional β |
| GEE | 이진/카운트/연속 | 선형 | Working Corr | Marginal β |
| GAMM | 연속형 | 비선형 Spline | 랜덤 절편/궤적 | Smooth + β |
| FDA | 함수 또는 스칼라 | 함수 전체 | FPC Score | β(t) 함수 |
1.2 결정 트리
반복 측정 / 종단 / 군집 데이터
│
├── 결과 변수가 연속형 (정규분포)?
│ │
│ ├── 시간 효과가 선형?
│ │ └── YES → LMM (01~04)
│ │
│ └── 시간 효과가 비선형?
│ ├── 궤적 형태 자체가 관심사 → FDA (10)
│ └── 공변량 효과가 비선형 → GAMM (09)
│
├── 결과 변수가 이진 (0/1)?
│ ├── 개인 효과가 관심 / 예측 목적 → GLMM Binary (06)
│ └── 집단 평균 효과 / 정책 목적 → GEE (08)
│
├── 결과 변수가 카운트?
│ ├── 개인 효과가 관심 → GLMM Count (07)
│ │ ├── 과산포 없음 → Poisson GLMM
│ │ └── 과산포 있음 → NB GLMM
│ └── 집단 평균 효과 → GEE (08)
│
└── 결과 변수 자체가 함수?
└── FDA / Functional Regression (10)
1.3 시나리오별 선택 예시
1.3.1 시나리오 1: AI Agent 개인화 A/B 테스트
“500명 사용자를 8주간 추적. 5주차부터 개인화 적용. 만족도(1~5) 변화를 측정.”
고려 사항: - 같은 사용자를 반복 측정 → 독립성 위반 → Mixed Model 필요 - 결과 변수: 연속형 → LMM 우선 검토 - 시간 효과가 선형인지 확인 필요
권장 순서: 1. LMM Random Intercept (기본) 2. LRT로 Random Slope 필요성 확인 3. 시간 효과 비선형 여부 → 선형이면 LMM 확정, 비선형이면 GAMM
적용 파일: 01~04, 비선형이면 09
1.3.2 시나리오 2: 프리미엄 전환율 분석
“개인화 전략이 월별 프리미엄 전환 여부(0/1)에 미치는 효과. 고객 반복 측정.”
고려 사항: - 이진 결과 → GLMM 또는 GEE - “이 고객에게 얼마나?” vs “전체적으로 얼마나?”
| 질문 | 선택 |
|---|---|
| 개인화가 특정 사용자의 전환 오즈를 얼마나 높이는가? | GLMM (06) |
| 서비스 전체에 개인화 도입 시 전환율이 몇 %p 오르는가? | GEE (08) |
1.3.3 시나리오 3: 세션당 턴 수 분석
“개인화가 사용자 참여도(세션당 대화 턴 수)에 미치는 효과.”
- 카운트 데이터
- 반복 측정
- → GLMM Poisson (07), 과산포 시 NB
1.3.4 시나리오 4: 학생 성취도 종단 연구
“초등 1~6학년 성적 궤적을 추적. 교수법(새 방법 vs 기존)의 효과.”
- 계층 구조: 학생 → 학급 → 학교
- 연속형 결과
- 학년별 성장이 선형인지 불확실
- 3수준 LMM (학생, 학급, 학교 랜덤 효과)
- 성장 궤적이 비선형 → GAMM
- 궤적 형태 자체 비교 → FDA
1.3.5 시나리오 5: 생리 신호 (초당 측정)
“스트레스 개입 전후 심박수 변화 (1시간 × 60 = 3,600 시점).”
- 매우 촘촘한 측정
- 함수 형태 자체가 관심사 (최대 심박수 시점, 회복 속도)
- → FDA (10)
1.4 실무 코드: 기법 선택 후 빠른 시작
1.4.1 LMM (기본)
1.4.2 GLMM Binary
1.4.3 GLMM Count
1.4.4 GEE
1.4.5 GAMM
1.4.6 FDA
library(fda)
basis <- create.bspline.basis(c(0, T), nbasis=K)
fd_par <- fdPar(basis, 2, lambda=lambda_opt)
fd_obj <- smooth.basis(time_pts, Y_matrix, fd_par)$fd
fpca_res <- pca.fd(fd_obj, nharm=3)1.5 공통 워크플로우
모든 기법에 공통적으로 적용되는 분석 순서:
1. 탐색적 분석
- 개인별 궤적 시각화
- 그룹별 평균 비교
- 분산 구조 확인
2. 기법 선택 (위 결정 트리)
3. Null Model (아무 예측 변수 없음)
- ICC 계산 (LMM/GLMM)
- 랜덤 효과 필요 여부 확인
4. Fixed Effects 구조 결정
- ML 기반 LRT 또는 AIC 비교
- 이론 기반 변수 선택
5. Random Effects 구조 결정
- REML 기반 LRT
- Random Slope 필요 여부
6. 최종 모델 적합 (REML)
- 진단 (잔차, 과산포, 이상치)
- 결과 보고
7. 해석
- Fixed Effects: β, OR, RR, EDF
- Random Effects: σ²_u, ICC
- 예측: 개인별 또는 집단 평균
1.6 소프트웨어 정리
| 기법 | R 패키지 | Python 패키지 |
|---|---|---|
| LMM | lme4, nlme | statsmodels.mixedlm |
| GLMM (binary) | lme4::glmer | 제한적 (rpy2 사용 권장) |
| GLMM (count) | lme4, glmmTMB | 제한적 |
| GEE | geepack, gee | statsmodels.GEE |
| GAMM | mgcv::gamm | pygam (GAMM 미지원) |
| FDA | fda, refund | scikit-fda |
1.7 파일 시리즈 요약
| 파일 | 기법 | 핵심 함수 |
|---|---|---|
01-mixed-model-intro.qmd |
LMM 개념 | ICC, Fixed/Random |
02-mixed-model-structure.qmd |
LMM 구조 | RI, RS, 공분산 |
03-mixed-model-estimation.qmd |
LMM 추정 | ML, REML, LRT, AIC |
04-mixed-model-practice.qmd |
LMM 실무 | end-to-end |
05-mixed-model-glmm-intro.qmd |
GLMM 개요 | Family, Link |
06-mixed-model-glmm-binary.qmd |
GLMM 이진 | glmer, binomial |
07-mixed-model-glmm-count.qmd |
GLMM 카운트 | Poisson, NB, ZIP |
08-mixed-model-gee-intro.qmd |
GEE | geeglm, GEE |
09-mixed-model-gam-intro.qmd |
GAMM | mgcv, s() |
10-mixed-model-functional-intro.qmd |
FDA | fda, FPCA |
11-mixed-model-comparison.qmd |
비교 가이드 | 이 파일 |