1 들어가며 — Ch.8 의 위치와 GEE 의 자리
Hedeker 책의 4 가지 종단 데이터 분석 패러다임:
| Chapter | 모형 | 의존성 표현 | 분포 가정 | 적용 반응 |
|---|---|---|---|---|
| Ch.4-5 | MRM | 랜덤 효과 (\(\upsilon_i\)) | 완전 (full likelihood) | 정규 |
| Ch.6 | CPM | 직접 (\(\Sigma_i\) 명세) | 완전 (full likelihood) | 정규 |
| Ch.7 | MRM + AC | 랜덤 효과 + AC 오차 | 완전 (full likelihood) | 정규 |
| Ch.8 | GEE | 작동 상관 (\(R_i\)) | 부분 (quasi-likelihood) | 정규·이항·카운트 |
GEE 가 가지는 본질적 차이:
- 부분 분포 명세 — marginal 분포만, joint 안 다룸.
- 비정규 반응 자연 처리 — 이항, 카운트, 순서형까지.
- 분산-공분산 nuisance — 회귀 계수에 집중.
- 작동 상관 잘못돼도 일치 — robust 성질.
“GEE = GLM (Ch.8.2) + 작동 상관 행렬 \(R_i\) (Ch.8.3) + Sandwich 추정 (Ch.8.4). marginal, quasi-likelihood, MCAR — 세 키워드로 정의된다.”
이 한 줄을 식과 직관으로 풀어내는 것이 본 overview 의 목표.
본 overview 의 5 절 구성:
- § 8.1 Introduction — GEE 의 동기와 GLM 와의 관계.
- § 8.2 GLM 복습 — 선형 예측자, 연결 함수, 분산 함수, quasi-likelihood.
- § 8.3 GEE Models — GLM + 작동 상관, 5 가지 형태.
- § 8.4 GEE Estimation — IRLS + Sandwich (robust) 추정량.
- § 8.5 Example — Gruder 흡연 절제 예시.
2 § 8.1 — GEE 의 위치
2.1 역사적 맥락
1980 년대 — MRM·CPM 가 정규 데이터의 종단 분석에 자리잡는 동시에, 비정규 반응 (이항·카운트·순서형) 의 종단 분석 이 시급한 과제였다.
GLM (Generalized Linear Models, Nelder & Wedderburn 1972) 가 비정규 반응의 회귀 분석을 통합했지만 — 독립 관측 가정 이라 종단 데이터에 직접 적용 불가.
Liang & Zeger (1986), Zeger & Liang (1986), Zeger et al. (1988) 의 GEE 가 이 빈자리를 채웠다 — GLM 을 상관 데이터로 확장.
2.2 GEE 의 4 가지 핵심 특징
1. Marginal Model:
GEE 는 응답 벡터 \(y_i\) 의 결합 분포 (joint distribution) 를 명세하지 않는다. 각 시점의 marginal 분포만 다룸.
“marginal 이란 평균 모형이 공변량에만 의존, 랜덤 효과나 이전 응답에 의존 안 함” (Fitzmaurice et al. 2004).
2. Quasi-Likelihood:
전체 우도 (full likelihood) 를 모르더라도 평균 함수와 분산 함수만 알면 회귀 계수 추정 가능 (Wedderburn 1974).
3. Working Correlation:
\(R_i(a)\) — “작동” (working) 상관 행렬. 분석자가 가정한 형태이며, 잘못 명세돼도 회귀 계수의 일치 추정 (consistency) 보장.
4. Sandwich Estimator:
Robust SE — 작동 상관이 진짜 상관과 다르더라도 SE 가 일치 추정 (Royall 1986). GEE 의 가장 매력적 성질.
2.3 GEE 의 약점 — MCAR 가정
| 모형 | 결측 가정 | 의미 |
|---|---|---|
| MRM (Ch.4-5) | MAR (Missing at Random) | 결측이 관측 데이터에만 의존, 미관측 응답에 무관 |
| MRM-AC (Ch.7) | MAR | (full likelihood 기반이므로) |
| CPM (Ch.6) | MAR | (full likelihood 기반) |
| GEE (Ch.8) | MCAR (Missing Completely at Random) | 결측이 관측·미관측 모두 독립 |
→ GEE 는 결측 가정이 더 엄격. 임상 시험에서 dropout 패턴이 환자 상태에 의존하면 (MAR 만 성립) GEE 추정이 편향.
자세한 결측 분석은 Hedeker Ch.14 참조 (미작성 sub-post).
2.4 GEE1 vs GEE2
GEE1 (Liang & Zeger 1986):
- 회귀 모수 \(\beta\) 와 association 모수 \(a\) 의 추정 방정식이 분리.
- \(\beta\) 와 \(a\) 가 직교 (orthogonal) 가정.
- 표준 통계 소프트웨어 (R
geepack, SASPROC GENMOD) 의 default.
GEE2 (확장 — Hardin & Hilbe 2003):
- \(\beta\) 와 \(a\) 의 추정 방정식이 결합 (직교 가정 X).
- 더 효율적이지만 계산 비용 증가, 소프트웨어 제한.
본 overview 는 GEE1 만 다룬다.
3 § 8.2 — GLM 복습
GEE 를 이해하려면 먼저 GLM 의 3 가지 명세를 정리해야 한다.
3.1 GLM 의 3 가지 명세
1. 선형 예측자 (Linear Predictor):
\[ \eta_i = x_i^\top \beta \tag{8.1} \]
- \(x_i\): 공변량 벡터.
- \(\beta\): 고정 회귀 모수.
2. 연결 함수 (Link Function):
\[ g(\mu_i) = \eta_i, \quad \mu_i = E[y_i] \tag{8.2} \]
연결 함수 \(g(\cdot)\) 가 평균 \(\mu_i\) 를 선형 예측자 \(\eta_i\) 로 변환.
3. 분산 함수 (Variance Function):
\[ V(y_i) = \phi v(\mu_i) \tag{8.7} \]
- \(v(\mu_i)\): 평균에 의존하는 알려진 함수.
- \(\phi\): scale parameter (알려지거나 추정).
3.2 반응 분포별 GLM 형태
| 반응 | 연결 함수 \(g(\mu)\) | 평균 \(\mu\) | 분산 함수 \(v(\mu)\) | \(\phi\) |
|---|---|---|---|---|
| 정규 | identity: \(\mu\) | \(x^\top\beta\) | 1 | \(\sigma^2\) |
| 이항 | logit: \(\log\frac{\mu}{1-\mu}\) | \(\frac{e^{x^\top\beta}}{1+e^{x^\top\beta}}\) | \(\mu(1-\mu)\) | 1 (보통) |
| 카운트 | log: \(\log\mu\) | \(e^{x^\top\beta}\) | \(\mu\) | 1 (Poisson) |
다른 GLM 가족 (감마, 역가우시안, 로그정규 등) 도 같은 framework.
3.3 GLM 의 추정 방정식 (식 8.10)
GLM 의 회귀 계수 \(\beta\) 는 다음 방정식을 푼다:
\[ U(\beta) = \sum_{i=1}^N \left(\frac{\partial \mu_i}{\partial \beta}\right)^\top V(y_i)^{-1} (y_i - \mu_i) = 0 \tag{8.10} \]
각 항의 의미:
- \(\partial \mu_i / \partial \beta\): 평균이 \(\beta\) 에 어떻게 의존하는지 (gradient).
- \(V(y_i)^{-1}\): 분산의 역수 (가중치 — 정확한 관측에 더 큰 가중).
- \(y_i - \mu_i\): 잔차 (관측 - 예측).
→ “잔차에 가중치를 곱한 합이 0 이 되는 \(\beta\) 를 찾는다.” 가중 잔차의 잔차 제곱합 최소화의 일반화.
식 (8.10) 에 대입:
\[ U(\beta) = \sum x_i (y_i - x_i^\top\beta) = 0 \tag{8.11} \]
즉 정규 방정식 (normal equations) — OLS 의 표준 형태.
→ GLM 의 추정 방정식 (8.10) 이 OLS 의 일반화. 비정규 반응까지 같은 framework.
3.4 Quasi-Likelihood — 부분 분포로 충분
식 (8.10) 은 평균과 분산만 사용. 완전 분포 \(f(y \mid \theta)\) 가 필요 없다.
→ “Quasi-likelihood” — 평균 함수 + 분산 함수만 명세하면 \(\beta\) 추정 가능.
이 통찰이 GEE 의 토대 — GEE 는 quasi-likelihood 를 종단 데이터로 확장.
의미:
- 분포 misspecification 에 robust.
- 과대분산 (overdispersion) 처리: \(\phi\) 만 조정 — 분포 자체 변경 불필요.
- 비정규 반응의 종단 분석에서 결합 분포 (multivariate Bernoulli, multivariate Poisson) 의 어려움 회피.
4 § 8.3 — GEE 모형
4.1 GEE 의 4 가지 명세 = GLM 의 3 가지 + 작동 상관
GLM 의 3 가지 + 작동 상관 행렬 \(R_i\) 추가:
1. 선형 예측자:
\[ \eta_{ij} = x_{ij}^\top \beta \tag{8.12} \]
(시점 \(j\) 에 대한 표기 추가.)
2. 연결 함수:
\[ g(\mu_{ij}) = \eta_{ij} \tag{8.13} \]
3. 분산 함수:
\[ V(y_{ij}) = \phi v(\mu_{ij}) \tag{8.14} \]
4. 작동 상관 행렬 (추가):
\[ R_i(a) = \text{Corr}(y_i) \]
- \(n \times n\) 상관 행렬.
- \(a\): association parameter 벡터 (작동 상관 형태에 따라 모수 수 다름).
- 각 피험자에서 같은 \(R\) 사용 (시점이 다르면 부분 행렬 추출).
- “작동” (working) — 분석자가 가정한 형태, 진짜 상관과 같을 필요 없음.
4.2 Robust 성질 — 작동 상관이 잘못돼도 일치 추정
핵심 정리:
작동 상관 \(R_i(a)\) 가 잘못 명세돼도 (true correlation 과 다르더라도), GEE 는 회귀 계수 \(\beta\) 의 일치 (consistent) + 점근 정규 추정.
이게 가능한 이유: GEE 의 추정 방정식 (식 8.17) 이 평균 함수 만에 의존, 정확한 상관 구조에 무관.
효율성 (efficiency) 손실: 작동 상관이 잘못되면 \(\hat\beta\) 의 분산이 최적값보다 큼 → 검정력 (statistical power) 감소. 단 표본 클수록 효율 손실 작음.
실무 권고: 관측 상관과 비슷한 작동 상관 선택 → 효율성 향상. 단 잘못된 선택해도 회귀 계수 점추정은 강건.
4.3 5 가지 작동 상관 형태 (§ 8.3.1)
| 형태 | \(R_i(a)\) | 모수 수 | CPM 대응 |
|---|---|---|---|
| Independence | \(I\) | 0 | \(\sigma^2 I\) |
| Exchangeable | 모두 \(\rho\) | 1 | CS |
| AR(1) | \(\rho^{|j-j'|}\) | 1 | AR(1) |
| m-dependent | lag \(\leq m\) 만 비영 | \(m\) | Toeplitz(s-order) |
| Unspecified (Unstructured) | 모든 \(\rho_{jj'}\) 자유 | \(n(n-1)/2\) | UN |
GEE 의 작동 상관과 CPM 의 5 구조 가 거의 일치 — 차이는 모수 추정 방법 (full ML vs quasi-likelihood) 과 분포 가정 (정규 vs 다양).
1. Independence (\(R_i = I\)):
- 종단 데이터에 보통 비현실적 (시점들 독립 가정).
- 단 시변 공변량 (time-varying covariates) 분석에는 일부 장점 (Pepe & Anderson 1994).
2. Exchangeable (\(\rho\) 동일):
- 모든 lag 의 상관 동일.
- random intercept MRM 또는 CS-CPM 와 같은 가정.
- 클러스터 데이터에 자연 (시점 간 위계 없음).
3. AR(1) (\(\rho^{|j-j'|}\)):
- 등간격 종단의 표준.
- lag 따라 지수 감쇠.
- 1 모수로 절약적.
4. m-dependent (Toeplitz 일종):
- lag \(\leq m\) 까지 비영, 그 이상 0.
- m=1: lag-1 만 (MA(1)-like).
- m=n-1: 완전 Toeplitz.
5. Unspecified (Unstructured):
- 모든 lag 자유.
- 시점 적고 표본 클 때 가장 유연.
- 모수 폭발 (\(n=10 \to 45\) 모수).
5 § 8.4 — GEE 추정 + Sandwich 추정량
5.1 작동 분산-공분산 (식 8.15)
작동 상관 \(R_i(a)\) 와 GLM 의 분산 함수 \(v(\mu_{ij})\) 를 결합한 분산-공분산 행렬:
\[ V_i(a) = \phi A_i^{1/2} R_i(a) A_i^{1/2} \tag{8.15} \]
- \(A_i\): \(n \times n\) 대각 행렬, \(j\) 번째 대각 원소가 \(v(\mu_{ij})\).
- \(A_i^{1/2}\): 대각 원소의 제곱근.
- \(\phi\): scale.
특수 경우 — 정규 + 동질 분산:
\[ V_i(a) = \phi R_i(a) \tag{8.16} \]
(Park 1993 — 시점별 이질 분산 확장.)
\(V_i\) 는 두 부분으로 분해:
- 분산 부분 (\(A_i\)): 시점별 marginal 분산 — GLM 의 분산 함수 따라.
- 상관 부분 (\(R_i\)): 시점 간 상관 — 작동 상관.
이항 반응 (\(v(\mu) = \mu(1-\mu)\)) 의 경우 \(A_i^{1/2}\) 가 \(\sqrt{\mu_{ij}(1-\mu_{ij})}\) 로 시점에 따라 변동. 분산 자체는 반응 분포가 결정, 상관만 작동 상관 가정.
5.2 추정 방정식 (식 8.17)
\[ \sum_{i=1}^N D_i^\top [V_i(\hat a)]^{-1} (y_i - \mu_i) = 0 \tag{8.17} \]
- \(D_i = \partial \mu_i / \partial \beta\): \(n \times p\) Jacobian.
- \(\hat a\): association parameters 의 일치 추정값.
- 형태: GLM 의 (8.10) 의 직접 일반화 (\(V\) 가 \(V_i\) 로 확장).
5.3 IRLS — 반복 가중 최소자승
GEE 추정은 두 단계 반복:
1 단계: \(\hat a, \hat\phi\) 고정 → IRLS 로 \(\hat\beta\) 갱신.
정규 + identity link 의 경우 (식 8.19):
\[ \hat\beta = \left[\sum X_i^\top R_i^{-1} X_i\right]^{-1} \left[\sum X_i^\top R_i^{-1} y_i\right] \]
→ Weighted Least Squares (WLS) 의 형태. 가중치가 \(R_i^{-1}\).
2 단계: \(\hat\beta\) 고정 → Pearson 잔차로 \(\hat a, \hat\phi\) 갱신.
\[ r_{ij} = \frac{y_{ij} - \hat\mu_{ij}}{\sqrt{[V_i(\hat a)]_{jj}}} \tag{8.20} \]
이 잔차의 곱 (\(r_{ij} r_{ij'}\)) 으로 \(a\) 추정.
수렴까지 1 ↔︎ 2 반복.
5.4 Sandwich 추정량 — Robust SE
수렴 후 \(\hat\beta\) 의 분산-공분산은 두 형태로 계산.
1. Naive (Model-Based) — 작동 상관이 진짜 상관과 같다고 가정:
\[ V_{\text{naive}}(\hat\beta) = \left[\sum_i D_i^\top \hat V_i^{-1} D_i\right]^{-1} \tag{8.21} \]
2. Robust (Sandwich) — 작동 상관 잘못돼도 일치:
\[ V_{\text{robust}}(\hat\beta) = M_0^{-1} M_1 M_0^{-1} \tag{8.22} \]
여기서:
\[ M_0 = \sum_i D_i^\top \hat V_i^{-1} D_i \]
\[ M_1 = \sum_i D_i^\top \hat V_i^{-1} (y_i - \hat\mu_i)(y_i - \hat\mu_i)^\top \hat V_i^{-1} D_i \]
식 (8.22) 의 형태:
\[ \underbrace{M_0^{-1}}_{\text{빵 (위)}} \, \underbrace{M_1}_{\text{속재료}} \, \underbrace{M_0^{-1}}_{\text{빵 (아래)}} \]
- 빵 (\(M_0^{-1}\)): 작동 상관 기반 분산 (model-based). 같은 형태가 위·아래.
- 속재료 (\(M_1\)): 잔차 기반 empirical 분산. 진짜 상관 구조의 정보.
왜 sandwich 가 robust 한가:
- 작동 상관이 진짜 상관과 같으면: \(M_1 = M_0\) → \(V_{\text{robust}} = M_0^{-1} = V_{\text{naive}}\).
- 작동 상관이 다르면: \(M_1\) 이 잔차의 진짜 분산 정보 흡수 → \(V_{\text{robust}}\) 가 \(V_{\text{naive}}\) 와 달라지지만 일치 추정.
실용 권고: GEE 분석에서 항상 robust SE 보고. naive SE 는 작동 상관 이 정확할 때만 정확, 일반적으로 불확실.
Royall (1986) 가 sandwich 형태를 일반화.
5.5 SE 두 형태의 차이가 진단 도구
두 SE 가 비슷하면 → 작동 상관이 진짜 상관과 비슷. 두 SE 가 크게 다르면 → 작동 상관 misspecification → 다른 작동 상관 시도 권장.
실무 진단: Robust SE 는 항상 보고, naive SE 와의 차이로 작동 상관 적합도 평가.
6 § 8.5 — Gruder 흡연 절제 예시
6.1 데이터 (Gruder et al. 1993)
- 표본: 489 명, 4 그룹 무작위 배정.
- 그룹:
- Control: 자기 도움 매뉴얼 + TV 프로그램만.
- No-show: 그룹 회의에 배정됐지만 실제 출석 안 함.
- tx1: 토론 그룹 회의 출석.
- tx2: 사회적 지지 그룹 회의 출석 (확장 형태).
- 반응: 흡연 상태 — 0 (흡연), 1 (절제). 이항 반응.
- 시점: 4 회 — 프로그램 종료 직후 (T1), 6 개월 (T2), 12 개월 (T3), 24 개월 (T4).
→ 이항 반응 + 4 시점 + 군집 (그룹) — 표준 GEE 적용 시나리오.
6.2 Helmert Contrasts — 그룹 효과 분해
| Group | \(H_1\) | \(H_2\) | \(H_3\) |
|---|---|---|---|
| Control | -1 | 0 | 0 |
| No-show | 1/3 | -1 | 0 |
| tx1 | 1/3 | 1/2 | -1 |
| tx2 | 1/3 | 1/2 | 1 |
각 contrast 의 의미:
- \(H_1\): 무작위 배정 (그룹 vs control) 효과 — 실험적 비교.
- \(H_2\): 출석 효과 (no-show vs 출석한 tx1/tx2) — 준실험적.
- \(H_3\): 처치 유형 (tx1 vs tx2) — 준실험적.
\(H_2, H_3\) 가 준실험적인 이유: 출석 여부와 처치 유형 모두 무작위 배정이 아니라 자기-선택 (self-selection). 자기 효능감 (self-efficacy) 같은 confounder 가능성.
6.3 작동 상관 선택
Gruder 데이터의 관측 상관 행렬을 보면:
- 시점들이 비슷한 상관 (0.3~0.5 범위) 인데 lag 따라 단조 감소 안 함.
- Exchangeable 부적합 (상관이 일정하지 않음).
- AR(1) 부적합 (lag 따라 지수 감쇠 안 함).
- m-dependent 부적합 (같은 lag 의 상관이 시점에 따라 변동).
→ Unspecified (Unstructured) 가 가장 합리적 선택. 4 시점이라 모수 수 (\(4 \times 3 / 2 = 6\)) 도 부담 적음.
“GEE 가 misspecification 에 robust 라도, 효율성 손실을 줄이려면 관측 상관과 비슷한 작동 상관 선택.”
(Hedeker §8.5 본문)
실무 절차:
- 관측 상관 행렬 계산 (시점 쌍별 Pearson 또는 polychoric).
- 패턴 식별: 단조 감소? 같음? 비단조?
- 패턴에 맞는 작동 상관 선택.
- Robust SE 와 naive SE 비교 — 큰 차이는 misspecification 신호.
6.4 일반적 결과 패턴 (Gruder 데이터)
Gruder et al. (1993) 분석에서:
- \(H_1\) (실험적): 무작위 배정의 효과 — 일부 시점에서 유의 (그룹 처치 군이 control 보다 절제율 높음).
- \(H_2\) (준실험적): 출석의 효과 — 매우 유의. 출석한 사람들이 no-show 보다 절제율 훨씬 높음.
- \(H_3\) (준실험적): 처치 유형 (tx1 vs tx2) — 유의 안 함. 두 처치 유형 차이 없음.
임상 결론: 그룹 회의 자체보다 출석 행동 이 더 큰 효과 — 자기 효능감 confounder 의심 (Hedeker §8.5 의 해석).
GEE 분석은 모집단 평균 (population-averaged) 효과 — “전체 환자에게 처치를 적용하면 평균 절제율이 얼마나 늘어나는가?” 의 답.
7 GEE vs MRM/CPM/GLMM — 본질적 차이
7.1 4 패러다임의 통합 비교
| 항목 | MRM (Ch.4-5) | CPM (Ch.6) | MRM-AC (Ch.7) | GEE (Ch.8) |
|---|---|---|---|---|
| 분포 | 정규 | 정규 | 정규 | 정규·이항·카운트 |
| 추정 | ML/REML | ML/REML | ML/REML | Quasi-likelihood |
| 의존성 표현 | 랜덤 효과 | 직접 | 둘 다 | 작동 상관 |
| 결측 가정 | MAR | MAR | MAR | MCAR |
| 효과 | Subject-specific | Marginal | Subject-specific | Population-averaged |
| BLUP (개인별) | O | X | O | X |
| Robust SE | (full ML 신뢰) | (full ML 신뢰) | (full ML 신뢰) | O (sandwich) |
7.2 Population-Averaged vs Subject-Specific
GEE (Population-Averaged, marginal):
“전체 모집단에 처치를 적용하면 평균적으로 결과가 얼마나 변하는가?”
MRM/GLMM (Subject-Specific, conditional):
“같은 사람이 처치를 받으면 결과가 얼마나 변하는가?”
정규 반응에서는 두 효과가 같다 (선형 함수의 평균과 평균의 함수가 일치).
비정규 반응 (이항·카운트) 에서는 다르다 — 비축소성 (non-collapsibility):
\[ \beta_{\text{marginal}} \approx \frac{\beta_{\text{cond}}}{\sqrt{1 + c^2 \sigma_\upsilon^2}} \]
(이항 GLMM, \(c = 16\sqrt 3 / (15\pi) \approx 0.588\), Hedeker Ch.9)
→ 같은 데이터, 같은 처치 효과인데 모형에 따라 다른 회귀 계수. 어느 것이 “맞는가” 가 아니라 다른 질문에 다른 답.
mm-08 — GEE 개요 가 이 차이를 비즈니스 예시 (개인화 추천 효과) 로 자세히 풀이.
핵심: 상관 데이터에 GLM 직접 적용하면 SE 부정확 → GEE 가 작동 상관 + sandwich 로 해결.
8 검정 절차 — Wald, Score
Wald 검정:
\[ W = \hat\beta_j^2 / \widehat{\text{Var}}(\hat\beta_j) \]
귀무가설 \(\beta_j = 0\) 하에서 \(\chi^2_1\) 분포. Robust SE 사용 권장.
Generalized Wald:
다중 모수 동시 검정:
\[ W = \hat\beta^\top [\widehat{\text{Var}}(\hat\beta)]^{-1} \hat\beta \sim \chi^2_p \]
Score 검정:
추정 방정식 \(U(\beta_0)\) 의 분포 사용. nested 모형 비교에 사용 가능.
LR 검정 부재: GEE 는 quasi-likelihood 라 진짜 우도가 없음 → LR 검정 부적절. 대신 generalized Wald 또는 score 검정.
9 코드 예시
9.1 R geepack
library(geepack)
# Gruder 흡연 절제 같은 종단 이항 데이터
fit_gee <- geeglm(
smoking_status ~ time + group + group:time,
data = df,
id = subject, # 군집화 변수
family = binomial, # 이항 GLM
corstr = "unstructured" # 작동 상관
)
# 결과
summary(fit_gee)
# Output 에 robust SE 표시 (default)
# 작동 상관 5 가지
# corstr = "independence"
# corstr = "exchangeable"
# corstr = "ar1"
# corstr = "unstructured"
# corstr = "userdefined" (custom)
# QIC (Quasi-likelihood under Independence Criterion) — 모형 비교
QIC(fit_gee)LR 검정 부재 → 모형 비교에 QIC (Pan 2001) 사용.
\[ \text{QIC} = -2 Q(\hat\beta_R; \hat\beta_I) + 2 \text{tr}(\Omega_I^{-1} V_R) \]
(자세한 정의는 Pan 2001 참조.)
QIC 가 작은 모형 선호. 작동 상관 비교 + 변수 선택에 모두 사용.
9.2 Python statsmodels
import statsmodels.api as sm
from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import Exchangeable, Autoregressive, Independence
# 작동 상관 객체 생성
cov_struct = Exchangeable()
# 또는: Autoregressive(), Independence(), ...
# GEE 적합
fit_gee = GEE.from_formula(
"smoking_status ~ time + group + group:time",
groups="subject",
data=df,
cov_struct=cov_struct,
family=sm.families.Binomial(),
).fit()
print(fit_gee.summary())
# Robust SE 가 default9.3 작동 상관 비교
import pandas as pd
def compare_working_correlations(df, formula, groups, family):
"""5 가지 작동 상관 적합 결과 비교"""
structures = {
"Independence": Independence(),
"Exchangeable": Exchangeable(),
"Autoregressive": Autoregressive(),
# 등등
}
results = []
for name, cs in structures.items():
fit = GEE.from_formula(formula, groups=groups, data=df,
cov_struct=cs, family=family).fit()
results.append({
"Working Correlation": name,
"QIC": fit.qic()[0],
"Beta_treatment": fit.params["treatment"],
"SE_robust": fit.bse["treatment"],
"p_value": fit.pvalues["treatment"],
})
return pd.DataFrame(results)10 핵심 정리
- GEE 의 자리: GLM 의 종단 데이터 확장. Liang & Zeger (1986). Marginal model.
- 3 + 1 명세: GLM 의 linear predictor + link + variance + 작동 상관 \(R_i\).
- Quasi-likelihood: 평균과 분산 함수만, 완전 분포 불필요. 비정규 반응까지 자연 처리.
- 5 작동 상관: Independence, Exchangeable, AR(1), m-dependent, Unspecified — CPM 의 5 구조와 거의 일치.
- Robust 성질: 작동 상관 잘못돼도 회귀 계수 일치 추정. 효율성만 손실.
- 추정: IRLS — \(\beta\) 와 \(a\) 의 반복 갱신.
- Sandwich SE (식 8.22): \(V = M_0^{-1} M_1 M_0^{-1}\). 작동 상관 misspecification 일치 추정 — Royall (1986).
- MCAR 가정: MRM/CPM (MAR) 보다 엄격. dropout 패턴이 환자 상태에 의존하면 GEE 편향.
- Population-averaged: 모집단 평균 효과. GLMM 의 subject-specific 과 비축소성 (non-collapsibility).
- 검정: Wald, generalized Wald, score 검정. LR 부재 → QIC 로 모형 비교.
GEE 의 핵심 가치: 비정규 반응의 종단 분석 + 분산-공분산 nuisance 처리 + sandwich robust SE. 회귀 계수 추정에 집중하고 의존성 모형화의 부담을 최소화.
| 절 | 내용 | 핵심 식 |
|---|---|---|
| § 8.1 | Introduction — GEE 의 자리 | — |
| § 8.2 | GLM 복습 | (8.1)-(8.10) |
| § 8.3 | GEE 모형 + 작동 상관 5 종 | (8.12)-(8.14) |
| § 8.4 | GEE 추정 + Sandwich | (8.17), (8.21), (8.22) |
| § 8.5 | Gruder 흡연 절제 예시 | — |
11 다음 단계
| 주제 | 내용 | 위치 |
|---|---|---|
| § 8.5 Gruder 사례 sub-post | 분석 결과 정밀 재현 + Helmert contrasts 임상 해석 | 작성 예정 (08-1-mrm-gee-gruder.qmd) |
| Ch.9 GLMM 이항 | 비정규 반응의 subject-specific 모형 | 미작성 (mm-06 참조) |
| Ch.10 GLMM 순서형 | 비례 오즈 + 랜덤 효과 | 미작성 |
12 관련 주제
선행 지식
- Ch.4-5 — MRM 시리즈 — full-likelihood MRM
- Ch.6 — CPM — 분산-공분산 직접 모형화
- Ch.7 — MRM with AC errors — full likelihood + AC
관련
- mm-08 GEE 개요 — Marginal vs Conditional 직관·비즈니스 예시
- mm-05 GLMM 개요 — subject-specific 모형
- mm-06 GLMM 이진 결과 — 이항 반응 GLMM
- mm-07 GLMM 카운트 — Poisson·NB GLMM
후속 주제
- § 8.5 Gruder 분석 sub-post (작성 예정)
- Ch.9 GLMM 이항 — population-averaged 와 비교
- Ch.10 GLMM 순서형
- Ch.11 GLMM 명목형
- Ch.12 GLMM 카운트
교재
- Hedeker, D. & Gibbons, R. D. (2006). Longitudinal Data Analysis, Wiley, Ch.8 (pp. 131-146)
- Liang, K.-Y. & Zeger, S. L. (1986). “Longitudinal data analysis using generalized linear models”, Biometrika 73, 13-22 — GEE 원전
- Zeger, S. L. & Liang, K.-Y. (1986). “Longitudinal data analysis for discrete and continuous outcomes”, Biometrics 42, 121-130
- Zeger, S. L., Liang, K.-Y. & Albert, P. S. (1988). “Models for longitudinal data: a generalized estimating equation approach”, Biometrics 44, 1049-1060
- Royall, R. M. (1986). “Model robust confidence intervals using maximum likelihood estimators”, International Statistical Review 54, 221-226 — Sandwich estimator
- Wedderburn, R. W. M. (1974). “Quasi-likelihood functions, generalized linear models, and the Gauss-Newton method”, Biometrika 61, 439-447 — Quasi-likelihood
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), Chapman & Hall — GLM 표준 reference
- Diggle, P. J., Heagerty, P., Liang, K.-Y. & Zeger, S. L. (2002). Analysis of Longitudinal Data (2nd ed.), Oxford
- Hardin, J. W. & Hilbe, J. M. (2003). Generalized Estimating Equations, Chapman & Hall — GEE1, GEE2 등 자세한 reference
- Fitzmaurice, G. M. et al. (2004). Applied Longitudinal Analysis, Wiley — marginal model 정의
- Pan, W. (2001). “Akaike’s information criterion in generalized estimating equations”, Biometrics 57, 120-125 — QIC
- Gruder, C. L. et al. (1993). “Effects of social support and relapse prevention training as adjuncts to a televised smoking-cessation intervention”, Journal of Consulting and Clinical Psychology 61, 113-120 — 흡연 절제 데이터 출처