1 들어가며 — GEE 의 토대 두 장
Ch.8 Overview 에서 GEE 의 4 절 (도입·GLM·GEE+5 작동 상관·Sandwich) 을 systematic 정리했다. 본 sub-post 는 첫 두 절을 깊이 다룬다.
| 절 | 내용 | 본 sub-post 강조 |
|---|---|---|
| § 8.1 | GEE 의 자리, 발전사, marginal 정의 | GEE1 vs GEE2 깊이, MCAR 함정 |
| § 8.2 | GLM 복습 | Exponential family + Score + IRLS 알고리즘 |
“§ 8.1 은 GEE 가 어디에 자리잡는지 (역사·정의·결측), § 8.2 는 GEE 가 어떤 토대 위에 서있는지 (GLM·quasi-likelihood). 두 절이 GEE 의 통계적 정당성을 떠받친다.”
2 § 8.1 — GEE 의 자리
2.1 GEE 의 발전 역사
종단 데이터 분석 도구의 시간선:
- 1972: Nelder & Wedderburn — GLM 통합 framework.
- 1974: Wedderburn — Quasi-likelihood.
- 1982: Laird & Ware — 종단 데이터의 랜덤 효과 모형 (현대 MRM 의 출발).
- 1986: Jennrich & Schluchter — CPM (분산-공분산 직접 모형화).
- 1986: Liang & Zeger — GEE (Marginal 모형).
- 1986: Zeger & Liang — 이산·연속 반응의 종단 분석.
- 1988: Zeger, Liang & Albert — GEE 의 일반화 추정 방정식.
→ MRM·CPM·GEE 가 거의 동시에 종단 데이터의 빈 자리를 채움. 셋이 본질적으로 다른 접근.
세 가지 이론이 같은 시기에 무르익었다.
- GLM (1972): 비정규 반응의 회귀를 통합. 단 독립 관측 가정.
- Quasi-likelihood (1974): 완전 분포 없이도 추정 가능 — robust 성질의 토대.
- Robust SE (Royall 1986): 모형 misspecification 일치 추정.
GEE = 이 셋의 결합 — GLM (평균 모형) + Quasi-likelihood (추정 방법) + Robust SE (분산 추정).
이전에는 비정규 종단 데이터 분석을 multivariate Bernoulli, multivariate Poisson 같은 결합 분포 명세로 시도 — 수학적·계산적으로 매우 어려움. GEE 가 결합 분포 명세 자체를 회피.
2.2 Marginal Model — 정확한 정의
“marginal 이란 평균 응답의 모형이 공변량에만 의존, 랜덤 효과나 이전 응답에 무관.”
수식으로:
\[ g(E[y_{ij}]) = x_{ij}^\top \beta \tag{8.13} \]
→ \(E[y_{ij}]\) 가 개인의 history 또는 latent 효과 없이 공변량 \(x_{ij}\) 만의 함수.
대조 — Subject-specific (Conditional):
GLMM 의 평균 모형:
\[ g(E[y_{ij} \mid \upsilon_i]) = x_{ij}^\top \beta + z_{ij}^\top \upsilon_i \]
→ \(E[y_{ij}]\) 가 랜덤 효과 \(\upsilon_i\) 조건부 평균 — 같은 사람 안의 효과.
수학의 주변화 (marginalization) — 어떤 변수의 분포를 적분/합으로 제거하는 연산.
GLMM 에서 GEE 의 marginal 평균은:
\[ E[y_{ij}] = \int E[y_{ij} \mid \upsilon_i] \, p(\upsilon_i) \, d\upsilon_i \]
→ \(\upsilon_i\) 의 모집단 분포 위에서 평균 — “주변화한” 평균.
자세한 직관과 비즈니스 예시는 mm-08 GEE 개요 참조.
2.3 GEE 의 핵심 가정 — 회귀와 association 의 분리
GEE1 (Liang & Zeger 1986) 는 두 가지 모수 벡터를 가진다.
- 회귀 모수 \(\beta\): 평균 응답 모형의 계수.
- Association 모수 \(a\): 작동 상관 \(R_i(a)\) 의 모수.
GEE1 가정:
\(\beta\) 와 \(a\) 가 통계적으로 직교 — 한쪽 추정이 다른쪽 추정에 영향 적음.
이 가정으로 추정 방정식 분리 가능:
\[ \sum_{i=1}^N D_i^\top V_i^{-1} (y_i - \mu_i) = 0 \tag{식 8.17} \]
(association \(a\) 는 \(\hat\beta\) 사용해 별도 갱신.)
| 항목 | GEE1 | GEE2 |
|---|---|---|
| \(\beta, a\) 추정 | 분리 (직교 가정) | 결합 |
| 효율성 | 보통 | GEE1 보다 높음 (true association 가까울수록) |
| 계산 | 단순 (IRLS) | 복잡 (다차원 비선형) |
| 소프트웨어 | R geepack, SAS PROC GENMOD |
제한적 (자체 구현 필요) |
| 표준 사용 | 사실상 표준 | 학술 주제 |
→ 실무에서 “GEE” 는 보통 GEE1 을 의미. 본 sub-post 도 GEE1 만 다룸.
GEE2 는 association 모수 자체가 연구 질문일 때 (예: 시점 간 상관 패턴이 임상 의미) 가치. 일반적으로 회귀 계수만 관심이면 GEE1 가 충분.
2.4 MCAR 가정의 임상 함정
세 결측 메커니즘 (Rubin 1976):
| 메커니즘 | 정의 | 종단 임상 시나리오 |
|---|---|---|
| MCAR | 결측이 관측·미관측 모두 독립 | 무작위 추적 실패 |
| MAR | 결측이 관측 데이터에만 의존, 미관측 응답에 무관 | 이전 시점 점수가 dropout 결정 |
| MNAR | 결측이 미관측 응답에 의존 | dropout 시점의 (미관측) 점수가 결정 |
GEE 는 MCAR 만 가정 (full likelihood 부재로 MAR 처리 못함). MRM/CPM/MRM-AC 는 MAR 까지 처리 (full likelihood 기반).
종단 임상 시험의 dropout 패턴:
- 부작용 dropout: 약물 부작용 심한 환자가 추적 중단 → 그 환자의 미관측 점수가 결측의 원인 (MAR 또는 MNAR).
- 회복 dropout: 빠르게 호전된 환자가 후속 추적 안 함 → 마찬가지 MAR/MNAR.
- 무작위 dropout: 이사·연락 두절 등 — MCAR (드뭄).
대부분의 임상 dropout 이 MAR 또는 MNAR. GEE 의 MCAR 가정은 편향 위험.
결과: GEE 분석에서 dropout 이 무작위가 아니면 회귀 계수 편향. 처치 효과의 과대 또는 과소 추정.
- dropout rate 점검: > 20% 이면 GEE 신중.
- dropout 패턴 분석: 처치군 vs 대조군 dropout 차이 → MAR 가능성.
- 민감도 분석: GEE + MRM/CPM 두 모형 모두 적합. 결과 다르면 dropout 영향 가능.
- Imputation 전 결합: Multiple imputation 후 GEE — MAR 처리 가능 (Robins et al. 1995, weighted GEE).
- MNAR 대응: pattern-mixture 또는 selection model — Hedeker Ch.14.
2.5 CPM 와의 비교 — 같은 듯 다른
두 모형 모두 결합 분포 명세 안 함 — marginal 분포만. 표면적으로 비슷하지만 깊이 다르다.
| 항목 | CPM (Ch.6) | GEE (Ch.8) |
|---|---|---|
| 결합 분포 | 다변량 정규 명세 | 명세 안 함 |
| 추정 | ML/REML (full likelihood) | Quasi-likelihood |
| 분포 가정 | 정규만 | 정규·이항·카운트 등 |
| 분산 명세 | 직접 (\(\Sigma_i\)) | 작동 상관 + GLM 분산 함수 |
| 결측 | MAR | MCAR |
| Robust SE | 부재 | sandwich estimator |
→ CPM 은 정규 다변량 명세, GEE 는 marginal 만 — CPM 이 더 강한 가정 (정규 + 결합 분포). 단 정규 데이터에서는 두 결과가 비슷.
3 § 8.2 — GLM 복습
GEE 를 이해하려면 GLM 의 토대를 정확히 아는 게 필수. § 8.2 가 GLM 의 핵심을 짧게 복습.
3.1 Nelder & Wedderburn (1972) 의 통합 비전
Nelder & Wedderburn (1972) 의 통찰:
“선형성 (linearity) 을 활용해 여러 통계 기법을 통합할 수 있다.”
다양한 회귀 분석 (정규 다중 회귀, 로지스틱 회귀, Poisson 회귀, …) 이 단일 framework 의 특수 경우. 차이는 반응 분포 + 연결 함수 + 분산 함수 뿐.
이 통합 비전이 통계학의 큰 발전 — 이전에는 각 회귀 유형이 별도 이론.
3.2 Exponential Family — GLM 의 분포 가정
GLM 의 반응 분포는 지수족 (exponential family) 에 속한다고 가정:
\[ f(y; \theta, \phi) = \exp\left[\frac{y\theta - b(\theta)}{a(\phi)} + c(y, \phi)\right] \]
- \(\theta\): 자연 모수 (canonical parameter).
- \(\phi\): 산포 모수 (dispersion).
- \(b(\theta)\), \(a(\phi)\), \(c(y, \phi)\): 분포별 알려진 함수.
핵심 결과 (이론):
\[ E[y] = b'(\theta) = \mu, \quad V(y) = b''(\theta) a(\phi) \]
→ 분산이 평균의 함수 (\(V(y) = v(\mu) \phi\) 형태).
| 분포 | \(\theta\) (canonical) | \(b(\theta)\) | \(V(y) = v(\mu)\phi\) |
|---|---|---|---|
| 정규 | \(\mu\) | \(\theta^2/2\) | \(\sigma^2\) (\(v = 1\)) |
| 이항 | \(\log\frac{\mu}{1-\mu}\) (로짓) | \(\log(1+e^\theta)\) | \(\mu(1-\mu)\) (\(\phi = 1\)) |
| Poisson | \(\log\mu\) | \(e^\theta\) | \(\mu\) (\(\phi = 1\)) |
| 감마 | \(-1/\mu\) | \(-\log(-\theta)\) | \(\mu^2 \phi\) |
지수족 가정으로부터 분산이 평균의 함수 임이 자동 도출.
- 정규: \(V(y) = \sigma^2\) — 평균 무관 (자유 분산).
- 이항: \(V(y) = \mu(1-\mu)\) — 평균이 0.5 일 때 최대.
- Poisson: \(V(y) = \mu\) — 평균과 분산 같음.
이는 추측이 아니라 분포의 본질적 성질. GLM 의 분산 명세 (식 8.7) 가 이 이론에서 나옴.
→ GEE 도 이 분산 함수를 그대로 사용 (식 8.14) — 단 결합 분포 대신 작동 상관 추가.
3.3 GLM 의 3 가지 명세 (재정리)
1. Linear Predictor (식 8.1):
\[ \eta_i = x_i^\top \beta \]
→ 공변량의 선형 결합.
2. Link Function (식 8.2):
\[ g(\mu_i) = \eta_i, \quad \mu_i = E[y_i] \]
→ 평균을 선형 예측자로 변환.
3. Variance Function (식 8.7):
\[ V(y_i) = \phi \, v(\mu_i) \]
→ 분산이 평균의 함수.
3.4 연결 함수 — 종류와 의미
| 연결 | \(g(\mu)\) | 사용 분포 | 직관 |
|---|---|---|---|
| Identity | \(\mu\) | 정규 | “평균이 곧 선형 예측자” |
| Logit | \(\log\frac{\mu}{1-\mu}\) | 이항 | “log odds 가 선형” |
| Probit | \(\Phi^{-1}(\mu)\) | 이항 (대안) | “표준정규 quantile 이 선형” |
| Log | \(\log\mu\) | Poisson | “로그 평균이 선형” |
| Inverse | \(1/\mu\) | 감마 | “역수가 선형” |
| Complementary log-log | \(\log(-\log(1-\mu))\) | 이항 (생존) | “위험 함수가 선형” |
Canonical link: 지수족의 자연 모수와 일치하는 연결 (정규: identity, 이항: logit, Poisson: log). 이 경우 추정 방정식이 가장 단순.
3.5 추정 방정식 (식 8.10) — Score Function 의 일반화
GLM 의 score function (log-likelihood 의 미분):
\[ U(\beta) = \sum_{i=1}^N \left(\frac{\partial \mu_i}{\partial \beta}\right)^\top V(y_i)^{-1} (y_i - \mu_i) = 0 \tag{8.10} \]
각 항의 의미:
- \(\partial \mu_i / \partial \beta = D_i\): 평균이 \(\beta\) 에 어떻게 변하는지 (gradient 또는 design matrix in linear case).
- \(V(y_i)^{-1}\): 분산의 역수 (가중치).
- \(y_i - \mu_i\): 잔차.
→ “가중 잔차의 합이 0 인 \(\beta\) 를 찾는다.”
식 (8.10) 이 여러 회귀 유형의 추정을 통합:
다중 회귀 (\(\mu_i = x_i^\top\beta\), \(V(y) = \sigma^2\), 식 8.11):
\[ U(\beta) = \frac{1}{\sigma^2}\sum x_i (y_i - x_i^\top\beta) = 0 \implies \sum x_i y_i = X^\top X \beta \]
→ 정규 방정식 (normal equations). OLS 의 표준 형태.
로지스틱 회귀 (\(\mu_i = \frac{e^{x_i^\top\beta}}{1+e^{x_i^\top\beta}}\), \(V(y) = \mu(1-\mu)\)):
\[ U(\beta) = \sum x_i (y_i - \mu_i) = 0 \]
(canonical link 의 단순화 — \(D_i / V_i = x_i\).)
→ MLE 의 score equation. 닫힌 해 없음, 반복법 (IRLS) 필요.
Poisson 회귀 (\(\mu_i = e^{x_i^\top\beta}\), \(V(y) = \mu\)):
\[ U(\beta) = \sum x_i (y_i - \mu_i) = 0 \]
→ 같은 형태 (canonical log link).
3.6 Quasi-Likelihood (Wedderburn 1974)
식 (8.10) 은 평균과 분산만 사용. 완전 분포 \(f(y; \theta)\) 가 필요 없다.
Wedderburn (1974): “Quasi-likelihood — 평균 함수 + 분산 함수만 명세하면 \(\beta\) 의 일치 추정이 가능.”
이게 의미하는 바:
- 분포 misspecification 에 robust: 진짜 분포가 가정 분포가 아니어도 일치 추정.
- Overdispersion 처리: \(\phi\) 만 조정. Poisson 가정인데 \(V(y) > \mu\) 면 \(\phi > 1\) 추정.
- 결합 분포 회피 (이게 GEE 의 핵심): 다변량 결합 분포 (multivariate Bernoulli, Poisson) 가 어려운 종단 데이터에서, 평균과 분산 함수만으로 회귀 추정.
GEE 가 marginal 분포만 명세 가능한 통계 이론적 정당성:
- 회귀 추정에 결합 분포 불필요 (Wedderburn 1974).
- 분포 misspecification 에 robust (일치 추정 보장).
- 분산 misspecification 에도 robust (sandwich SE).
이 세 가지가 GEE 의 토대. GEE = GLM + 작동 상관 + Quasi-likelihood + Robust SE 의 결합.
3.7 IRLS — 반복 가중 최소자승
식 (8.10) 의 비선형 방정식은 반복 가중 최소자승 (Iteratively Reweighted Least Squares, IRLS) 으로 푼다.
각 반복 \(t \to t+1\):
- 현재 \(\hat\beta^{(t)}\) 에서 \(\hat\mu_i^{(t)}\), \(V_i^{(t)}\) 계산.
- 작업 응답 (working response) 정의: \[ z_i^{(t)} = \eta_i^{(t)} + (y_i - \mu_i^{(t)}) g'(\mu_i^{(t)}) \] (\(g'\) 는 연결 함수의 미분.)
- 작업 가중치 (working weight): \[ w_i^{(t)} = [g'(\mu_i^{(t)})]^{-2} \cdot V_i^{(t),-1} \]
- WLS 갱신: \[ \hat\beta^{(t+1)} = (X^\top W^{(t)} X)^{-1} X^\top W^{(t)} z^{(t)} \]
- 수렴 (예: \(\|\hat\beta^{(t+1)} - \hat\beta^{(t)}\| < \epsilon\)) 까지 1 ↔︎ 4 반복.
IRLS 는 본질적으로 Newton-Raphson 알고리즘의 GLM 특화.
- Newton-Raphson: \(\hat\beta^{(t+1)} = \hat\beta^{(t)} - [U'(\beta^{(t)})]^{-1} U(\beta^{(t)})\).
- GLM 의 score \(U(\beta)\) 와 그 미분 (Fisher information) 이 WLS 의 형태로 정리됨.
왜 매력적인가:
- 각 반복이 단순한 WLS — 이미 잘 알려진 계산.
- 수렴 보장 (canonical link 일 때, 적절한 시작값 하에서).
- 소프트웨어 구현 표준 — 모든 GLM 패키지가 IRLS 사용.
GEE 도 같은 IRLS 알고리즘 — 단 분산 가중치 \(V\) 가 작동 상관 포함 형태로 확장.
4 정규·이항·카운트 GLM 의 구체
4.1 정규 다중 회귀 (Identity Link)
명세:
- 분포: \(y_i \sim \mathcal{N}(\mu_i, \sigma^2)\).
- Link: identity (\(g(\mu) = \mu\)).
- 분산: \(V(y_i) = \sigma^2\) (\(v(\mu) = 1\), \(\phi = \sigma^2\)).
- 식: \(E[y_i] = x_i^\top \beta\) (식 8.3).
추정:
\[ \hat\beta = (X^\top X)^{-1} X^\top y \]
→ 표준 OLS. IRLS 가 한 번에 수렴 (linear 모형이라).
4.2 로지스틱 회귀 (Logit Link)
명세:
- 분포: \(y_i \sim \text{Bernoulli}(\mu_i)\), \(\mu_i = P(y_i = 1)\).
- Link: logit (\(g(\mu) = \log\frac{\mu}{1-\mu}\)).
- 분산: \(V(y_i) = \mu_i(1-\mu_i)\) (식 8.8), \(\phi = 1\).
- 식 (8.4): \(\log\frac{P(y_i=1)}{1-P(y_i=1)} = x_i^\top \beta\).
해석:
\[ \beta_j = \log \text{OR}_j \]
(공변량 \(x_j\) 의 1 단위 증가 시 odds 의 log 증가 = log odds ratio.)
4.3 Poisson 회귀 (Log Link)
명세:
- 분포: \(y_i \sim \text{Poisson}(\mu_i)\).
- Link: log (\(g(\mu) = \log\mu\)).
- 분산: \(V(y_i) = \mu_i\) (식 8.9, 평균 = 분산), \(\phi = 1\).
- 식 (8.5, 8.6): \(\mu_i = e^{x_i^\top\beta}\), \(\log\mu_i = x_i^\top\beta\).
해석:
\[ \beta_j = \log \text{IRR}_j \]
(Incidence Rate Ratio 의 log.)
Overdispersion 처리: 실제 데이터에서 \(V(y) > \mu\) 면 \(\phi > 1\) 로 자유롭게 추정. Quasi-Poisson 모형.
5 GLM 에서 GEE 로 — 자연 확장
5.1 무엇이 추가되는가
GLM 의 3 가지 명세 + 작동 상관 행렬 \(R_i(a)\) 추가.
GEE 추정 방정식 (식 8.17):
\[ \sum_{i=1}^N D_i^\top [V_i(\hat a)]^{-1} (y_i - \mu_i) = 0 \]
GLM 의 (8.10) 와 형태 동일, \(V_i\) 가 작동 상관 포함:
\[ V_i(a) = \phi A_i^{1/2} R_i(a) A_i^{1/2} \]
(여기서 \(A_i\) 가 \(v(\mu_{ij})\) 의 대각.)
“비정규 종단 데이터의 결합 분포 명세는 어려움. 단 marginal 평균과 분산은 단순. 작동 상관만 추가하면 GLM 의 추정 framework 그대로 사용 가능.”
이 한 줄이 GEE 의 발견. 이미 잘 정립된 GLM 의 IRLS·score·robust 이론을 그대로 활용.
의미:
- 새 추정 이론 불필요.
- 기존 GLM 코드의 자연 확장.
- 비정규 반응 종단 분석의 즉시 가능.
6 코드 예시
6.1 Step 1: GLM 추정 방정식 직접 풀이 (Python)
import numpy as np
from scipy.special import expit
def glm_irls(X: np.ndarray, y: np.ndarray, family: str = "binomial",
max_iter: int = 50, tol: float = 1e-6) -> np.ndarray:
"""IRLS 로 GLM 적합
family: "normal", "binomial", "poisson"
"""
n, p = X.shape
beta = np.zeros(p)
for iteration in range(max_iter):
eta = X @ beta
# link 와 분산 함수
if family == "normal":
mu = eta
g_prime = np.ones(n)
V = np.ones(n)
elif family == "binomial":
mu = expit(eta)
g_prime = 1 / (mu * (1 - mu))
V = mu * (1 - mu)
elif family == "poisson":
mu = np.exp(eta)
g_prime = 1 / mu
V = mu
else:
raise ValueError(f"Unknown family: {family}")
# 작업 응답과 가중치
z = eta + (y - mu) * g_prime
w = 1 / (g_prime ** 2 * V)
# WLS 갱신
W = np.diag(w)
beta_new = np.linalg.solve(X.T @ W @ X, X.T @ W @ z)
if np.linalg.norm(beta_new - beta) < tol:
return beta_new
beta = beta_new
return beta
# 검증 — 로지스틱 회귀
np.random.seed(2026)
n = 200
X = np.column_stack([np.ones(n), np.random.normal(size=n)])
beta_true = np.array([0.5, 1.5])
mu_true = expit(X @ beta_true)
y = np.random.binomial(1, mu_true)
beta_hat = glm_irls(X, y, family="binomial")
print(f"True: {beta_true}, Estimate: {beta_hat.round(3)}")- IRLS 가 5~20 회 반복 내에 수렴.
- 추정값이 진짜 모수에 가까움 (표본 클수록 정확).
- statsmodels 의
GLM(...).fit()결과와 일치.
6.2 Step 2: Quasi-Likelihood 로 분산 추정
import numpy as np
def quasi_likelihood_estimate(X: np.ndarray, y: np.ndarray,
beta_hat: np.ndarray,
family: str = "binomial") -> dict:
"""Quasi-likelihood 기반 SE + φ 추정"""
n, p = X.shape
eta = X @ beta_hat
if family == "binomial":
mu = expit(eta)
V = mu * (1 - mu)
elif family == "poisson":
mu = np.exp(eta)
V = mu
elif family == "normal":
mu = eta
V = np.ones(n)
# Pearson residuals
pearson_resid = (y - mu) / np.sqrt(V)
# 산포 모수 phi 추정
phi_hat = np.sum(pearson_resid ** 2) / (n - p)
# SE (model-based)
W = np.diag(1 / V)
cov_beta = phi_hat * np.linalg.inv(X.T @ W @ X)
se = np.sqrt(np.diag(cov_beta))
return {"phi_hat": phi_hat, "se": se, "pearson_residual": pearson_resid}- Poisson GLM 에서 \(\hat\phi \approx 1\): 평균=분산 가정 성립.
- \(\hat\phi > 1\): Overdispersion — 진짜 분산이 평균보다 큼. Quasi-Poisson 또는 음이항 (Negative Binomial) 고려.
- \(\hat\phi < 1\): Underdispersion — 드물지만 가능 (예: 절단 데이터).
- 이항 GLM 에서도 같은 진단 가능.
6.3 Step 3: GLM → GEE 의 코드 비교
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import Exchangeable
# === GLM (독립 가정) ===
glm_fit = smf.glm(
"y ~ x1 + x2",
data=df,
family=sm.families.Binomial(),
).fit()
print(glm_fit.summary())
# SE 가 독립 관측 가정 — 종단 데이터에서 부정확
# === GEE (작동 상관 추가) ===
gee_fit = GEE.from_formula(
"y ~ x1 + x2",
groups="subject", # 추가 — 군집화
data=df,
cov_struct=Exchangeable(), # 추가 — 작동 상관
family=sm.families.Binomial(),
).fit()
print(gee_fit.summary())
# 회귀 계수 점추정 비슷하지만 SE 다름 (sandwich 적용)상관 데이터에 GLM 을 그대로 적용하면:
- 회귀 계수 점추정: 일치 (consistent), but 효율성 손실 (independence 보다 더 적은 정보).
- SE: 부정확 (작은 SE → 거짓 유의 결과 가능).
- 검정: 1 종 오류율 부풀려짐.
→ 종단 데이터에 GLM 직접 적용 절대 금지. GEE 또는 GLMM 사용.
7 핵심 정리
§ 8.1 — GEE 의 자리:
- 발전사: 1980 년대 MRM·CPM·GEE 가 동시 발전. GLM (1972) + Quasi-likelihood (1974) + Robust SE (1986) 의 결합.
- Marginal 정의: 평균이 공변량에만 의존, 랜덤 효과·이전 응답에 무관 (Fitzmaurice et al. 2004).
- GEE1 vs GEE2: GEE1 은 \(\beta, a\) 직교 가정으로 추정 분리. 사실상 표준.
- MCAR 함정: GEE 는 MCAR 가정. 임상 dropout 이 보통 MAR/MNAR 라 편향 위험. 민감도 분석 필요.
- CPM 와 차이: CPM 은 결합 정규 분포, GEE 는 marginal 만. GEE 가 비정규 반응까지 처리.
§ 8.2 — GLM:
- Nelder-Wedderburn 1972: 다양한 회귀를 단일 framework 로 통합.
- 3 가지 명세: linear predictor + link function + variance function.
- Exponential family: 분산이 평균의 함수 (\(V(y) = v(\mu)\phi\)) 자연 도출.
- Score 추정 (식 8.10): 가중 잔차의 합 = 0. OLS·MLE 통합.
- Quasi-likelihood (Wedderburn 1974): 평균과 분산만으로 일치 추정. GEE 의 핵심 토대.
- IRLS: GLM·GEE 의 표준 알고리즘. 각 반복이 WLS.
- GLM → GEE: 작동 상관 \(R_i\) 추가만으로 자연 확장. 새 이론 불필요.
§ 8.1·§ 8.2 가 GEE 의 통계적 정당성과 알고리즘적 토대 — 다음 § 8.3·§ 8.4 의 작동 상관·Sandwich 추정으로 자연스럽게 연결.
8 다음 단계
| 주제 | 내용 | 위치 |
|---|---|---|
| § 8.3 GEE 모형 + 5 작동 상관 | Independence·Exchangeable·AR(1)·m-dependent·Unstructured 깊이 | 작성 예정 (08-2-mrm-gee-working-correlation.qmd) |
| § 8.4 GEE 추정 + Sandwich | IRLS + Pearson 잔차 + Robust SE | 작성 예정 (08-3-mrm-gee-sandwich.qmd) |
| § 8.5 Gruder 흡연 절제 사례 | 분석 정밀 재현 + Helmert contrasts | 작성 예정 (08-4-mrm-gee-gruder.qmd) |
9 관련 주제
선행 지식
- Ch.8 Overview — GEE — 4 절 systematic overview
- mm-08 GEE 개요 — Marginal vs Conditional 직관
관련
- Ch.6 Overview — CPM — 분산-공분산 직접 모형 (GEE 와 marginal 공유)
- § 4.5 — MRM 추정론 — ML/REML
- mm-05 GLMM 개요 — subject-specific 모형
후속 주제
- § 8.3 5 작동 상관 (작성 예정)
- § 8.4 Sandwich 추정 (작성 예정)
- Ch.9 GLMM 이항 — population-averaged vs subject-specific 비교
교재
- Hedeker, D. & Gibbons, R. D. (2006). Longitudinal Data Analysis, Wiley, Ch.8 §8.1-8.2 (pp. 131-135)
- Nelder, J. A. & Wedderburn, R. W. M. (1972). “Generalized linear models”, JRSS A 135, 370-384 — GLM 원전
- Wedderburn, R. W. M. (1974). “Quasi-likelihood functions, generalized linear models, and the Gauss-Newton method”, Biometrika 61, 439-447 — Quasi-likelihood
- Liang, K.-Y. & Zeger, S. L. (1986). “Longitudinal data analysis using generalized linear models”, Biometrika 73, 13-22 — GEE 원전
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), Chapman & Hall — GLM 표준 reference
- Rubin, D. B. (1976). “Inference and missing data”, Biometrika 63, 581-592 — MCAR/MAR/MNAR 정의
- Fitzmaurice, G. M. et al. (2004). Applied Longitudinal Analysis, Wiley — marginal model 정의
- Robins, J. M., Rotnitzky, A. & Zhao, L. P. (1995). “Analysis of semiparametric regression models for repeated outcomes in the presence of missing data”, JASA 90, 106-121 — weighted GEE for MAR
- Hardin, J. W. & Hilbe, J. M. (2003). Generalized Estimating Equations, Chapman & Hall — GEE1, GEE2