1 종단 데이터 분석 기법 비교

1.1 전체 기법 한눈에 보기

기법	결과 변수	시간 효과	개인 효과	관심 추정
LMM	연속형	선형	랜덤 절편/기울기	Conditional β
GLMM	이진/카운트/감마	선형	랜덤 절편/기울기	Conditional β
GEE	이진/카운트/연속	선형	Working Corr	Marginal β
GAMM	연속형	비선형 Spline	랜덤 절편/궤적	Smooth + β
FDA	함수 또는 스칼라	함수 전체	FPC Score	β(t) 함수

1.2 결정 트리

반복 측정 / 종단 / 군집 데이터
│
├── 결과 변수가 연속형 (정규분포)?
│   │
│   ├── 시간 효과가 선형?
│   │   └── YES → LMM (01~04)
│   │
│   └── 시간 효과가 비선형?
│       ├── 궤적 형태 자체가 관심사 → FDA (10)
│       └── 공변량 효과가 비선형   → GAMM (09)
│
├── 결과 변수가 이진 (0/1)?
│   ├── 개인 효과가 관심 / 예측 목적 → GLMM Binary (06)
│   └── 집단 평균 효과 / 정책 목적  → GEE (08)
│
├── 결과 변수가 카운트?
│   ├── 개인 효과가 관심              → GLMM Count (07)
│   │   ├── 과산포 없음               → Poisson GLMM
│   │   └── 과산포 있음               → NB GLMM
│   └── 집단 평균 효과               → GEE (08)
│
└── 결과 변수 자체가 함수?
    └── FDA / Functional Regression (10)

1.3 시나리오별 선택 예시

1.3.1 시나리오 1: AI Agent 개인화 A/B 테스트

“500명 사용자를 8주간 추적. 5주차부터 개인화 적용. 만족도(1~5) 변화를 측정.”

고려 사항: - 같은 사용자를 반복 측정 → 독립성 위반 → Mixed Model 필요 - 결과 변수: 연속형 → LMM 우선 검토 - 시간 효과가 선형인지 확인 필요

권장 순서: 1. LMM Random Intercept (기본) 2. LRT로 Random Slope 필요성 확인 3. 시간 효과 비선형 여부 → 선형이면 LMM 확정, 비선형이면 GAMM

적용 파일: 01~04, 비선형이면 09

1.3.2 시나리오 2: 프리미엄 전환율 분석

“개인화 전략이 월별 프리미엄 전환 여부(0/1)에 미치는 효과. 고객 반복 측정.”

고려 사항: - 이진 결과 → GLMM 또는 GEE - “이 고객에게 얼마나?” vs “전체적으로 얼마나?”

질문	선택
개인화가 특정 사용자의 전환 오즈를 얼마나 높이는가?	GLMM (06)
서비스 전체에 개인화 도입 시 전환율이 몇 %p 오르는가?	GEE (08)

1.3.3 시나리오 3: 세션당 턴 수 분석

“개인화가 사용자 참여도(세션당 대화 턴 수)에 미치는 효과.”

카운트 데이터
반복 측정
→ GLMM Poisson (07), 과산포 시 NB

1.3.4 시나리오 4: 학생 성취도 종단 연구

“초등 1~6학년 성적 궤적을 추적. 교수법(새 방법 vs 기존)의 효과.”

계층 구조: 학생 → 학급 → 학교
연속형 결과
학년별 성장이 선형인지 불확실

3수준 LMM (학생, 학급, 학교 랜덤 효과)
성장 궤적이 비선형 → GAMM
궤적 형태 자체 비교 → FDA

1.3.5 시나리오 5: 생리 신호 (초당 측정)

“스트레스 개입 전후 심박수 변화 (1시간 × 60 = 3,600 시점).”

매우 촘촘한 측정
함수 형태 자체가 관심사 (최대 심박수 시점, 회복 속도)
→ FDA (10)

1.4 실무 코드: 기법 선택 후 빠른 시작

1.4.1 LMM (기본)

library(lme4)
m <- lmer(Y ~ X + time + (1 | id), data=df)

import statsmodels.formula.api as smf
m = smf.mixedlm("Y ~ X + time", data=df, groups=df["id"]).fit()

1.4.2 GLMM Binary

m <- glmer(Y ~ X + time + (1 | id), data=df, family=binomial)

1.4.3 GLMM Count

m <- glmer(Y ~ X + time + (1 | id), data=df, family=poisson)
# 과산포 시:
library(glmmTMB)
m <- glmmTMB(Y ~ X + time + (1|id), data=df, family=nbinom2)

1.4.4 GEE

library(geepack)
m <- geeglm(Y ~ X + time, data=df, id=id, family=binomial, corstr="exchangeable")

import statsmodels.api as sm
m = sm.GEE(y, X, groups=df["id"], family=sm.families.Binomial(),
           cov_struct=sm.cov_struct.Exchangeable()).fit()

1.4.5 GAMM

library(mgcv)
m <- gamm(Y ~ s(time) + X, random=list(id=~1), data=df, method="REML")

1.4.6 FDA

library(fda)
basis <- create.bspline.basis(c(0, T), nbasis=K)
fd_par <- fdPar(basis, 2, lambda=lambda_opt)
fd_obj <- smooth.basis(time_pts, Y_matrix, fd_par)$fd
fpca_res <- pca.fd(fd_obj, nharm=3)

1.5 공통 워크플로우

모든 기법에 공통적으로 적용되는 분석 순서:

1. 탐색적 분석
   - 개인별 궤적 시각화
   - 그룹별 평균 비교
   - 분산 구조 확인

2. 기법 선택 (위 결정 트리)

3. Null Model (아무 예측 변수 없음)
   - ICC 계산 (LMM/GLMM)
   - 랜덤 효과 필요 여부 확인

4. Fixed Effects 구조 결정
   - ML 기반 LRT 또는 AIC 비교
   - 이론 기반 변수 선택

5. Random Effects 구조 결정
   - REML 기반 LRT
   - Random Slope 필요 여부

6. 최종 모델 적합 (REML)
   - 진단 (잔차, 과산포, 이상치)
   - 결과 보고

7. 해석
   - Fixed Effects: β, OR, RR, EDF
   - Random Effects: σ²_u, ICC
   - 예측: 개인별 또는 집단 평균

1.6 소프트웨어 정리

기법	R 패키지	Python 패키지
LMM	lme4, nlme	statsmodels.mixedlm
GLMM (binary)	lme4::glmer	제한적 (rpy2 사용 권장)
GLMM (count)	lme4, glmmTMB	제한적
GEE	geepack, gee	statsmodels.GEE
GAMM	mgcv::gamm	pygam (GAMM 미지원)
FDA	fda, refund	scikit-fda

1.7 파일 시리즈 요약

파일	기법	핵심 함수
`01-mixed-model-intro.qmd`	LMM 개념	ICC, Fixed/Random
`02-mixed-model-structure.qmd`	LMM 구조	RI, RS, 공분산
`03-mixed-model-estimation.qmd`	LMM 추정	ML, REML, LRT, AIC
`04-mixed-model-practice.qmd`	LMM 실무	end-to-end
`05-mixed-model-glmm-intro.qmd`	GLMM 개요	Family, Link
`06-mixed-model-glmm-binary.qmd`	GLMM 이진	glmer, binomial
`07-mixed-model-glmm-count.qmd`	GLMM 카운트	Poisson, NB, ZIP
`08-mixed-model-gee-intro.qmd`	GEE	geeglm, GEE
`09-mixed-model-gam-intro.qmd`	GAMM	mgcv, s()
`10-mixed-model-functional-intro.qmd`	FDA	fda, FPCA
`11-mixed-model-comparison.qmd`	비교 가이드	이 파일