1 들어가며 — Ch.8 의 위치와 GEE 의 자리

Hedeker 책의 4 가지 종단 데이터 분석 패러다임:

Chapter	모형	의존성 표현	분포 가정	적용 반응
Ch.4-5	MRM	랜덤 효과 (\(\upsilon_i\))	완전 (full likelihood)	정규
Ch.6	CPM	직접 (\(\Sigma_i\) 명세)	완전 (full likelihood)	정규
Ch.7	MRM + AC	랜덤 효과 + AC 오차	완전 (full likelihood)	정규
Ch.8	GEE	작동 상관 (\(R_i\))	부분 (quasi-likelihood)	정규·이항·카운트

GEE 가 가지는 본질적 차이:

부분 분포 명세 — marginal 분포만, joint 안 다룸.
비정규 반응 자연 처리 — 이항, 카운트, 순서형까지.
분산-공분산 nuisance — 회귀 계수에 집중.
작동 상관 잘못돼도 일치 — robust 성질.

한 줄 요약

“GEE = GLM (Ch.8.2) + 작동 상관 행렬 \(R_i\) (Ch.8.3) + Sandwich 추정 (Ch.8.4). marginal, quasi-likelihood, MCAR — 세 키워드로 정의된다.”

이 한 줄을 식과 직관으로 풀어내는 것이 본 overview 의 목표.

본 overview 의 5 절 구성:

§ 8.1 Introduction — GEE 의 동기와 GLM 와의 관계.
§ 8.2 GLM 복습 — 선형 예측자, 연결 함수, 분산 함수, quasi-likelihood.
§ 8.3 GEE Models — GLM + 작동 상관, 5 가지 형태.
§ 8.4 GEE Estimation — IRLS + Sandwich (robust) 추정량.
§ 8.5 Example — Gruder 흡연 절제 예시.

2 § 8.1 — GEE 의 위치

2.1 역사적 맥락

Liang & Zeger (1986) 의 출발점

1980 년대 — MRM·CPM 가 정규 데이터의 종단 분석에 자리잡는 동시에, 비정규 반응 (이항·카운트·순서형) 의 종단 분석 이 시급한 과제였다.

GLM (Generalized Linear Models, Nelder & Wedderburn 1972) 가 비정규 반응의 회귀 분석을 통합했지만 — 독립 관측 가정 이라 종단 데이터에 직접 적용 불가.

Liang & Zeger (1986), Zeger & Liang (1986), Zeger et al. (1988) 의 GEE 가 이 빈자리를 채웠다 — GLM 을 상관 데이터로 확장.

2.2 GEE 의 4 가지 핵심 특징

Marginal Model + Quasi-Likelihood + Working Correlation + Robust SE

1. Marginal Model:

GEE 는 응답 벡터 \(y_i\) 의 결합 분포 (joint distribution) 를 명세하지 않는다. 각 시점의 marginal 분포만 다룸.

“marginal 이란 평균 모형이 공변량에만 의존, 랜덤 효과나 이전 응답에 의존 안 함” (Fitzmaurice et al. 2004).

2. Quasi-Likelihood:

전체 우도 (full likelihood) 를 모르더라도 평균 함수와 분산 함수만 알면 회귀 계수 추정 가능 (Wedderburn 1974).

3. Working Correlation:

\(R_i(a)\) — “작동” (working) 상관 행렬. 분석자가 가정한 형태이며, 잘못 명세돼도 회귀 계수의 일치 추정 (consistency) 보장.

4. Sandwich Estimator:

Robust SE — 작동 상관이 진짜 상관과 다르더라도 SE 가 일치 추정 (Royall 1986). GEE 의 가장 매력적 성질.

2.3 GEE 의 약점 — MCAR 가정

결측 메커니즘 가정의 차이

모형	결측 가정	의미
MRM (Ch.4-5)	MAR (Missing at Random)	결측이 관측 데이터에만 의존, 미관측 응답에 무관
MRM-AC (Ch.7)	MAR	(full likelihood 기반이므로)
CPM (Ch.6)	MAR	(full likelihood 기반)
GEE (Ch.8)	MCAR (Missing Completely at Random)	결측이 관측·미관측 모두 독립

→ GEE 는 결측 가정이 더 엄격. 임상 시험에서 dropout 패턴이 환자 상태에 의존하면 (MAR 만 성립) GEE 추정이 편향.

자세한 결측 분석은 Hedeker Ch.14 참조 (미작성 sub-post).

2.4 GEE1 vs GEE2

두 GEE 변종

GEE1 (Liang & Zeger 1986):

회귀 모수 \(\beta\) 와 association 모수 \(a\) 의 추정 방정식이 분리.
\(\beta\) 와 \(a\) 가 직교 (orthogonal) 가정.
표준 통계 소프트웨어 (R geepack, SAS PROC GENMOD) 의 default.

GEE2 (확장 — Hardin & Hilbe 2003):

\(\beta\) 와 \(a\) 의 추정 방정식이 결합 (직교 가정 X).
더 효율적이지만 계산 비용 증가, 소프트웨어 제한.

본 overview 는 GEE1 만 다룬다.

3 § 8.2 — GLM 복습

GEE 를 이해하려면 먼저 GLM 의 3 가지 명세를 정리해야 한다.

3.1 GLM 의 3 가지 명세

GLM Specifications (식 8.1, 8.2, 8.7)

1. 선형 예측자 (Linear Predictor):

\[ \eta_i = x_i^\top \beta \tag{8.1} \]

\(x_i\): 공변량 벡터.
\(\beta\): 고정 회귀 모수.

2. 연결 함수 (Link Function):

\[ g(\mu_i) = \eta_i, \quad \mu_i = E[y_i] \tag{8.2} \]

연결 함수 \(g(\cdot)\) 가 평균 \(\mu_i\) 를 선형 예측자 \(\eta_i\) 로 변환.

3. 분산 함수 (Variance Function):

\[ V(y_i) = \phi v(\mu_i) \tag{8.7} \]

\(v(\mu_i)\): 평균에 의존하는 알려진 함수.
\(\phi\): scale parameter (알려지거나 추정).

3.2 반응 분포별 GLM 형태

정규·이항·카운트 GLM

반응	연결 함수 \(g(\mu)\)	평균 \(\mu\)	분산 함수 \(v(\mu)\)	\(\phi\)
정규	identity: \(\mu\)	\(x^\top\beta\)	1	\(\sigma^2\)
이항	logit: \(\log\frac{\mu}{1-\mu}\)	\(\frac{e^{x^\top\beta}}{1+e^{x^\top\beta}}\)	\(\mu(1-\mu)\)	1 (보통)
카운트	log: \(\log\mu\)	\(e^{x^\top\beta}\)	\(\mu\)	1 (Poisson)

다른 GLM 가족 (감마, 역가우시안, 로그정규 등) 도 같은 framework.

3.3 GLM 의 추정 방정식 (식 8.10)

\(\beta\) 추정의 일반 형태

GLM 의 회귀 계수 \(\beta\) 는 다음 방정식을 푼다:

\[ U(\beta) = \sum_{i=1}^N \left(\frac{\partial \mu_i}{\partial \beta}\right)^\top V(y_i)^{-1} (y_i - \mu_i) = 0 \tag{8.10} \]

각 항의 의미:

\(\partial \mu_i / \partial \beta\): 평균이 \(\beta\) 에 어떻게 의존하는지 (gradient).
\(V(y_i)^{-1}\): 분산의 역수 (가중치 — 정확한 관측에 더 큰 가중).
\(y_i - \mu_i\): 잔차 (관측 - 예측).

→ “잔차에 가중치를 곱한 합이 0 이 되는 \(\beta\) 를 찾는다.” 가중 잔차의 잔차 제곱합 최소화의 일반화.

다중 회귀 (\(\mu_i = x_i^\top \beta\), \(V(y_i) = \sigma^2\)) 의 특수 경우

식 (8.10) 에 대입:

\[ U(\beta) = \sum x_i (y_i - x_i^\top\beta) = 0 \tag{8.11} \]

즉 정규 방정식 (normal equations) — OLS 의 표준 형태.

→ GLM 의 추정 방정식 (8.10) 이 OLS 의 일반화. 비정규 반응까지 같은 framework.

3.4 Quasi-Likelihood — 부분 분포로 충분

Wedderburn (1974) 의 핵심 통찰

식 (8.10) 은 평균과 분산만 사용. 완전 분포 \(f(y \mid \theta)\) 가 필요 없다.

→ “Quasi-likelihood” — 평균 함수 + 분산 함수만 명세하면 \(\beta\) 추정 가능.

이 통찰이 GEE 의 토대 — GEE 는 quasi-likelihood 를 종단 데이터로 확장.

의미:

분포 misspecification 에 robust.
과대분산 (overdispersion) 처리: \(\phi\) 만 조정 — 분포 자체 변경 불필요.
비정규 반응의 종단 분석에서 결합 분포 (multivariate Bernoulli, multivariate Poisson) 의 어려움 회피.

4 § 8.3 — GEE 모형

4.1 GEE 의 4 가지 명세 = GLM 의 3 가지 + 작동 상관

GEE Specifications (식 8.12-8.14, +R)

GLM 의 3 가지 + 작동 상관 행렬 \(R_i\) 추가:

1. 선형 예측자:

\[ \eta_{ij} = x_{ij}^\top \beta \tag{8.12} \]

(시점 \(j\) 에 대한 표기 추가.)

2. 연결 함수:

\[ g(\mu_{ij}) = \eta_{ij} \tag{8.13} \]

3. 분산 함수:

\[ V(y_{ij}) = \phi v(\mu_{ij}) \tag{8.14} \]

4. 작동 상관 행렬 (추가):

\[ R_i(a) = \text{Corr}(y_i) \]

\(n \times n\) 상관 행렬.
\(a\): association parameter 벡터 (작동 상관 형태에 따라 모수 수 다름).
각 피험자에서 같은 \(R\) 사용 (시점이 다르면 부분 행렬 추출).
“작동” (working) — 분석자가 가정한 형태, 진짜 상관과 같을 필요 없음.

4.2 Robust 성질 — 작동 상관이 잘못돼도 일치 추정

GEE 의 가장 매력적 성질

핵심 정리:

작동 상관 \(R_i(a)\) 가 잘못 명세돼도 (true correlation 과 다르더라도), GEE 는 회귀 계수 \(\beta\) 의 일치 (consistent) + 점근 정규 추정.

이게 가능한 이유: GEE 의 추정 방정식 (식 8.17) 이 평균 함수 만에 의존, 정확한 상관 구조에 무관.

효율성 (efficiency) 손실: 작동 상관이 잘못되면 \(\hat\beta\) 의 분산이 최적값보다 큼 → 검정력 (statistical power) 감소. 단 표본 클수록 효율 손실 작음.

실무 권고: 관측 상관과 비슷한 작동 상관 선택 → 효율성 향상. 단 잘못된 선택해도 회귀 계수 점추정은 강건.

4.3 5 가지 작동 상관 형태 (§ 8.3.1)

Working Correlation Forms

형태	\(R_i(a)\)	모수 수	CPM 대응
Independence	\(I\)	0	\(\sigma^2 I\)
Exchangeable	모두 \(\rho\)	1	CS
AR(1)	\(\rho^{\|j-j'\|}\)	1	AR(1)
m-dependent	lag \(\leq m\) 만 비영	\(m\)	Toeplitz(s-order)
Unspecified (Unstructured)	모든 \(\rho_{jj'}\) 자유	\(n(n-1)/2\)	UN

GEE 의 작동 상관과 CPM 의 5 구조 가 거의 일치 — 차이는 모수 추정 방법 (full ML vs quasi-likelihood) 과 분포 가정 (정규 vs 다양).

5 작동 상관의 직관

1. Independence (\(R_i = I\)):

종단 데이터에 보통 비현실적 (시점들 독립 가정).
단 시변 공변량 (time-varying covariates) 분석에는 일부 장점 (Pepe & Anderson 1994).

2. Exchangeable (\(\rho\) 동일):

모든 lag 의 상관 동일.
random intercept MRM 또는 CS-CPM 와 같은 가정.
클러스터 데이터에 자연 (시점 간 위계 없음).

3. AR(1) (\(\rho^{|j-j'|}\)):

등간격 종단의 표준.
lag 따라 지수 감쇠.
1 모수로 절약적.

4. m-dependent (Toeplitz 일종):

lag \(\leq m\) 까지 비영, 그 이상 0.
m=1: lag-1 만 (MA(1)-like).
m=n-1: 완전 Toeplitz.

5. Unspecified (Unstructured):

모든 lag 자유.
시점 적고 표본 클 때 가장 유연.
모수 폭발 (\(n=10 \to 45\) 모수).

5 § 8.4 — GEE 추정 + Sandwich 추정량

5.1 작동 분산-공분산 (식 8.15)

\(V_i = \phi A_i^{1/2} R_i(a) A_i^{1/2}\) (식 8.15)

작동 상관 \(R_i(a)\) 와 GLM 의 분산 함수 \(v(\mu_{ij})\) 를 결합한 분산-공분산 행렬:

\[ V_i(a) = \phi A_i^{1/2} R_i(a) A_i^{1/2} \tag{8.15} \]

\(A_i\): \(n \times n\) 대각 행렬, \(j\) 번째 대각 원소가 \(v(\mu_{ij})\).
\(A_i^{1/2}\): 대각 원소의 제곱근.
\(\phi\): scale.

특수 경우 — 정규 + 동질 분산:

\[ V_i(a) = \phi R_i(a) \tag{8.16} \]

(Park 1993 — 시점별 이질 분산 확장.)

직관 — 분산 함수 + 상관 행렬의 결합

\(V_i\) 는 두 부분으로 분해:

분산 부분 (\(A_i\)): 시점별 marginal 분산 — GLM 의 분산 함수 따라.
상관 부분 (\(R_i\)): 시점 간 상관 — 작동 상관.

이항 반응 (\(v(\mu) = \mu(1-\mu)\)) 의 경우 \(A_i^{1/2}\) 가 \(\sqrt{\mu_{ij}(1-\mu_{ij})}\) 로 시점에 따라 변동. 분산 자체는 반응 분포가 결정, 상관만 작동 상관 가정.

5.2 추정 방정식 (식 8.17)

GEE 추정 방정식

\[ \sum_{i=1}^N D_i^\top [V_i(\hat a)]^{-1} (y_i - \mu_i) = 0 \tag{8.17} \]

\(D_i = \partial \mu_i / \partial \beta\): \(n \times p\) Jacobian.
\(\hat a\): association parameters 의 일치 추정값.
형태: GLM 의 (8.10) 의 직접 일반화 (\(V\) 가 \(V_i\) 로 확장).

5.3 IRLS — 반복 가중 최소자승

추정 절차 (Iteratively Reweighted Least Squares)

GEE 추정은 두 단계 반복:

1 단계: \(\hat a, \hat\phi\) 고정 → IRLS 로 \(\hat\beta\) 갱신.

정규 + identity link 의 경우 (식 8.19):

\[ \hat\beta = \left[\sum X_i^\top R_i^{-1} X_i\right]^{-1} \left[\sum X_i^\top R_i^{-1} y_i\right] \]

→ Weighted Least Squares (WLS) 의 형태. 가중치가 \(R_i^{-1}\).

2 단계: \(\hat\beta\) 고정 → Pearson 잔차로 \(\hat a, \hat\phi\) 갱신.

\[ r_{ij} = \frac{y_{ij} - \hat\mu_{ij}}{\sqrt{[V_i(\hat a)]_{jj}}} \tag{8.20} \]

이 잔차의 곱 (\(r_{ij} r_{ij'}\)) 으로 \(a\) 추정.

수렴까지 1 ↔︎ 2 반복.

5.4 Sandwich 추정량 — Robust SE

두 가지 분산-공분산 추정 (식 8.21, 8.22)

수렴 후 \(\hat\beta\) 의 분산-공분산은 두 형태로 계산.

1. Naive (Model-Based) — 작동 상관이 진짜 상관과 같다고 가정:

\[ V_{\text{naive}}(\hat\beta) = \left[\sum_i D_i^\top \hat V_i^{-1} D_i\right]^{-1} \tag{8.21} \]

2. Robust (Sandwich) — 작동 상관 잘못돼도 일치:

\[ V_{\text{robust}}(\hat\beta) = M_0^{-1} M_1 M_0^{-1} \tag{8.22} \]

여기서:

\[ M_0 = \sum_i D_i^\top \hat V_i^{-1} D_i \]

\[ M_1 = \sum_i D_i^\top \hat V_i^{-1} (y_i - \hat\mu_i)(y_i - \hat\mu_i)^\top \hat V_i^{-1} D_i \]

“Sandwich” 의 직관

식 (8.22) 의 형태:

\[ \underbrace{M_0^{-1}}_{\text{빵 (위)}} \, \underbrace{M_1}_{\text{속재료}} \, \underbrace{M_0^{-1}}_{\text{빵 (아래)}} \]

빵 (\(M_0^{-1}\)): 작동 상관 기반 분산 (model-based). 같은 형태가 위·아래.
속재료 (\(M_1\)): 잔차 기반 empirical 분산. 진짜 상관 구조의 정보.

왜 sandwich 가 robust 한가:

작동 상관이 진짜 상관과 같으면: \(M_1 = M_0\) → \(V_{\text{robust}} = M_0^{-1} = V_{\text{naive}}\).
작동 상관이 다르면: \(M_1\) 이 잔차의 진짜 분산 정보 흡수 → \(V_{\text{robust}}\) 가 \(V_{\text{naive}}\) 와 달라지지만 일치 추정.

실용 권고: GEE 분석에서 항상 robust SE 보고. naive SE 는 작동 상관 이 정확할 때만 정확, 일반적으로 불확실.

Royall (1986) 가 sandwich 형태를 일반화.

5.5 SE 두 형태의 차이가 진단 도구

\(V_{\text{naive}}\) vs \(V_{\text{robust}}\) 의 비교

두 SE 가 비슷하면 → 작동 상관이 진짜 상관과 비슷. 두 SE 가 크게 다르면 → 작동 상관 misspecification → 다른 작동 상관 시도 권장.

실무 진단: Robust SE 는 항상 보고, naive SE 와의 차이로 작동 상관 적합도 평가.

6 § 8.5 — Gruder 흡연 절제 예시

6.1 데이터 (Gruder et al. 1993)

Smoking-Cessation 무작위 시험

표본: 489 명, 4 그룹 무작위 배정.
그룹:
- Control: 자기 도움 매뉴얼 + TV 프로그램만.
- No-show: 그룹 회의에 배정됐지만 실제 출석 안 함.
- tx1: 토론 그룹 회의 출석.
- tx2: 사회적 지지 그룹 회의 출석 (확장 형태).
반응: 흡연 상태 — 0 (흡연), 1 (절제). 이항 반응.
시점: 4 회 — 프로그램 종료 직후 (T1), 6 개월 (T2), 12 개월 (T3), 24 개월 (T4).

→ 이항 반응 + 4 시점 + 군집 (그룹) — 표준 GEE 적용 시나리오.

6.2 Helmert Contrasts — 그룹 효과 분해

4 그룹의 3 contrasts

Group	\(H_1\)	\(H_2\)	\(H_3\)
Control	-1	0	0
No-show	1/3	-1	0
tx1	1/3	1/2	-1
tx2	1/3	1/2	1

각 contrast 의 의미:

\(H_1\): 무작위 배정 (그룹 vs control) 효과 — 실험적 비교.
\(H_2\): 출석 효과 (no-show vs 출석한 tx1/tx2) — 준실험적.
\(H_3\): 처치 유형 (tx1 vs tx2) — 준실험적.

\(H_2, H_3\) 가 준실험적인 이유: 출석 여부와 처치 유형 모두 무작위 배정이 아니라 자기-선택 (self-selection). 자기 효능감 (self-efficacy) 같은 confounder 가능성.

6.3 작동 상관 선택

Table 8.2 의 관측 상관 패턴 → Unspecified 선택

Gruder 데이터의 관측 상관 행렬을 보면:

시점들이 비슷한 상관 (0.3~0.5 범위) 인데 lag 따라 단조 감소 안 함.
Exchangeable 부적합 (상관이 일정하지 않음).
AR(1) 부적합 (lag 따라 지수 감쇠 안 함).
m-dependent 부적합 (같은 lag 의 상관이 시점에 따라 변동).

→ Unspecified (Unstructured) 가 가장 합리적 선택. 4 시점이라 모수 수 (\(4 \times 3 / 2 = 6\)) 도 부담 적음.

작동 상관 선택의 가이드

“GEE 가 misspecification 에 robust 라도, 효율성 손실을 줄이려면 관측 상관과 비슷한 작동 상관 선택.”

(Hedeker §8.5 본문)

실무 절차:

관측 상관 행렬 계산 (시점 쌍별 Pearson 또는 polychoric).
패턴 식별: 단조 감소? 같음? 비단조?
패턴에 맞는 작동 상관 선택.
Robust SE 와 naive SE 비교 — 큰 차이는 misspecification 신호.

6.4 일반적 결과 패턴 (Gruder 데이터)

§8.5 의 임상 결과 (요약)

Gruder et al. (1993) 분석에서:

\(H_1\) (실험적): 무작위 배정의 효과 — 일부 시점에서 유의 (그룹 처치 군이 control 보다 절제율 높음).
\(H_2\) (준실험적): 출석의 효과 — 매우 유의. 출석한 사람들이 no-show 보다 절제율 훨씬 높음.
\(H_3\) (준실험적): 처치 유형 (tx1 vs tx2) — 유의 안 함. 두 처치 유형 차이 없음.

임상 결론: 그룹 회의 자체보다 출석 행동 이 더 큰 효과 — 자기 효능감 confounder 의심 (Hedeker §8.5 의 해석).

GEE 분석은 모집단 평균 (population-averaged) 효과 — “전체 환자에게 처치를 적용하면 평균 절제율이 얼마나 늘어나는가?” 의 답.

7 GEE vs MRM/CPM/GLMM — 본질적 차이

7.1 4 패러다임의 통합 비교

종단 분석의 4 가지 길

항목	MRM (Ch.4-5)	CPM (Ch.6)	MRM-AC (Ch.7)	GEE (Ch.8)
분포	정규	정규	정규	정규·이항·카운트
추정	ML/REML	ML/REML	ML/REML	Quasi-likelihood
의존성 표현	랜덤 효과	직접	둘 다	작동 상관
결측 가정	MAR	MAR	MAR	MCAR
효과	Subject-specific	Marginal	Subject-specific	Population-averaged
BLUP (개인별)	O	X	O	X
Robust SE	(full ML 신뢰)	(full ML 신뢰)	(full ML 신뢰)	O (sandwich)

7.2 Population-Averaged vs Subject-Specific

효과 해석의 차이

GEE (Population-Averaged, marginal):

“전체 모집단에 처치를 적용하면 평균적으로 결과가 얼마나 변하는가?”

MRM/GLMM (Subject-Specific, conditional):

“같은 사람이 처치를 받으면 결과가 얼마나 변하는가?”

정규 반응에서는 두 효과가 같다 (선형 함수의 평균과 평균의 함수가 일치).

비정규 반응 (이항·카운트) 에서는 다르다 — 비축소성 (non-collapsibility):

\[ \beta_{\text{marginal}} \approx \frac{\beta_{\text{cond}}}{\sqrt{1 + c^2 \sigma_\upsilon^2}} \]

(이항 GLMM, \(c = 16\sqrt 3 / (15\pi) \approx 0.588\), Hedeker Ch.9)

→ 같은 데이터, 같은 처치 효과인데 모형에 따라 다른 회귀 계수. 어느 것이 “맞는가” 가 아니라 다른 질문에 다른 답.

자세한 직관 — 사용자 친화 예시

mm-08 — GEE 개요 가 이 차이를 비즈니스 예시 (개인화 추천 효과) 로 자세히 풀이.

핵심: 상관 데이터에 GLM 직접 적용하면 SE 부정확 → GEE 가 작동 상관 + sandwich 로 해결.

8 검정 절차 — Wald, Score

GEE 의 가설 검정

Wald 검정:

\[ W = \hat\beta_j^2 / \widehat{\text{Var}}(\hat\beta_j) \]

귀무가설 \(\beta_j = 0\) 하에서 \(\chi^2_1\) 분포. Robust SE 사용 권장.

Generalized Wald:

다중 모수 동시 검정:

\[ W = \hat\beta^\top [\widehat{\text{Var}}(\hat\beta)]^{-1} \hat\beta \sim \chi^2_p \]

Score 검정:

추정 방정식 \(U(\beta_0)\) 의 분포 사용. nested 모형 비교에 사용 가능.

LR 검정 부재: GEE 는 quasi-likelihood 라 진짜 우도가 없음 → LR 검정 부적절. 대신 generalized Wald 또는 score 검정.

9 코드 예시

9.1 R `geepack`

library(geepack)

# Gruder 흡연 절제 같은 종단 이항 데이터
fit_gee <- geeglm(
    smoking_status ~ time + group + group:time,
    data = df,
    id = subject,         # 군집화 변수
    family = binomial,    # 이항 GLM
    corstr = "unstructured"  # 작동 상관
)

# 결과
summary(fit_gee)
# Output 에 robust SE 표시 (default)

# 작동 상관 5 가지
# corstr = "independence"
# corstr = "exchangeable"
# corstr = "ar1"
# corstr = "unstructured"
# corstr = "userdefined" (custom)

# QIC (Quasi-likelihood under Independence Criterion) — 모형 비교
QIC(fit_gee)

QIC — GEE 의 AIC 대안

LR 검정 부재 → 모형 비교에 QIC (Pan 2001) 사용.

\[ \text{QIC} = -2 Q(\hat\beta_R; \hat\beta_I) + 2 \text{tr}(\Omega_I^{-1} V_R) \]

(자세한 정의는 Pan 2001 참조.)

QIC 가 작은 모형 선호. 작동 상관 비교 + 변수 선택에 모두 사용.

9.2 Python `statsmodels`

import statsmodels.api as sm
from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import Exchangeable, Autoregressive, Independence

# 작동 상관 객체 생성
cov_struct = Exchangeable()
# 또는: Autoregressive(), Independence(), ...

# GEE 적합
fit_gee = GEE.from_formula(
    "smoking_status ~ time + group + group:time",
    groups="subject",
    data=df,
    cov_struct=cov_struct,
    family=sm.families.Binomial(),
).fit()

print(fit_gee.summary())
# Robust SE 가 default

9.3 작동 상관 비교

import pandas as pd


def compare_working_correlations(df, formula, groups, family):
    """5 가지 작동 상관 적합 결과 비교"""
    structures = {
        "Independence": Independence(),
        "Exchangeable": Exchangeable(),
        "Autoregressive": Autoregressive(),
        # 등등
    }
    results = []
    for name, cs in structures.items():
        fit = GEE.from_formula(formula, groups=groups, data=df,
                                cov_struct=cs, family=family).fit()
        results.append({
            "Working Correlation": name,
            "QIC": fit.qic()[0],
            "Beta_treatment": fit.params["treatment"],
            "SE_robust": fit.bse["treatment"],
            "p_value": fit.pvalues["treatment"],
        })
    return pd.DataFrame(results)

10 핵심 정리

한 페이지 요약

GEE 의 자리: GLM 의 종단 데이터 확장. Liang & Zeger (1986). Marginal model.
3 + 1 명세: GLM 의 linear predictor + link + variance + 작동 상관 \(R_i\).
Quasi-likelihood: 평균과 분산 함수만, 완전 분포 불필요. 비정규 반응까지 자연 처리.
5 작동 상관: Independence, Exchangeable, AR(1), m-dependent, Unspecified — CPM 의 5 구조와 거의 일치.
Robust 성질: 작동 상관 잘못돼도 회귀 계수 일치 추정. 효율성만 손실.
추정: IRLS — \(\beta\) 와 \(a\) 의 반복 갱신.
Sandwich SE (식 8.22): \(V = M_0^{-1} M_1 M_0^{-1}\). 작동 상관 misspecification 일치 추정 — Royall (1986).
MCAR 가정: MRM/CPM (MAR) 보다 엄격. dropout 패턴이 환자 상태에 의존하면 GEE 편향.
Population-averaged: 모집단 평균 효과. GLMM 의 subject-specific 과 비축소성 (non-collapsibility).
검정: Wald, generalized Wald, score 검정. LR 부재 → QIC 로 모형 비교.

GEE 의 핵심 가치: 비정규 반응의 종단 분석 + 분산-공분산 nuisance 처리 + sandwich robust SE. 회귀 계수 추정에 집중하고 의존성 모형화의 부담을 최소화.

절	내용	핵심 식
§ 8.1	Introduction — GEE 의 자리	—
§ 8.2	GLM 복습	(8.1)-(8.10)
§ 8.3	GEE 모형 + 작동 상관 5 종	(8.12)-(8.14)
§ 8.4	GEE 추정 + Sandwich	(8.17), (8.21), (8.22)
§ 8.5	Gruder 흡연 절제 예시	—

11 다음 단계

주제	내용	위치
§ 8.5 Gruder 사례 sub-post	분석 결과 정밀 재현 + Helmert contrasts 임상 해석	작성 예정 (`08-1-mrm-gee-gruder.qmd`)
Ch.9 GLMM 이항	비정규 반응의 subject-specific 모형	미작성 (mm-06 참조)
Ch.10 GLMM 순서형	비례 오즈 + 랜덤 효과	미작성

12 관련 주제

선행 지식

Ch.4-5 — MRM 시리즈 — full-likelihood MRM
Ch.6 — CPM — 분산-공분산 직접 모형화
Ch.7 — MRM with AC errors — full likelihood + AC