1 들어가며 — GEE 의 토대 두 장

Ch.8 Overview 에서 GEE 의 4 절 (도입·GLM·GEE+5 작동 상관·Sandwich) 을 systematic 정리했다. 본 sub-post 는 첫 두 절을 깊이 다룬다.

절	내용	본 sub-post 강조
§ 8.1	GEE 의 자리, 발전사, marginal 정의	GEE1 vs GEE2 깊이, MCAR 함정
§ 8.2	GLM 복습	Exponential family + Score + IRLS 알고리즘

한 줄 요약

“§ 8.1 은 GEE 가 어디에 자리잡는지 (역사·정의·결측), § 8.2 는 GEE 가 어떤 토대 위에 서있는지 (GLM·quasi-likelihood). 두 절이 GEE 의 통계적 정당성을 떠받친다.”

2 § 8.1 — GEE 의 자리

2.1 GEE 의 발전 역사

1980 년대 — MRM·CPM·GEE 의 동시 발전

종단 데이터 분석 도구의 시간선:

1972: Nelder & Wedderburn — GLM 통합 framework.
1974: Wedderburn — Quasi-likelihood.
1982: Laird & Ware — 종단 데이터의 랜덤 효과 모형 (현대 MRM 의 출발).
1986: Jennrich & Schluchter — CPM (분산-공분산 직접 모형화).
1986: Liang & Zeger — GEE (Marginal 모형).
1986: Zeger & Liang — 이산·연속 반응의 종단 분석.
1988: Zeger, Liang & Albert — GEE 의 일반화 추정 방정식.

→ MRM·CPM·GEE 가 거의 동시에 종단 데이터의 빈 자리를 채움. 셋이 본질적으로 다른 접근.

왜 1980 년대였나 — 통계 이론의 결합

세 가지 이론이 같은 시기에 무르익었다.

GLM (1972): 비정규 반응의 회귀를 통합. 단 독립 관측 가정.
Quasi-likelihood (1974): 완전 분포 없이도 추정 가능 — robust 성질의 토대.
Robust SE (Royall 1986): 모형 misspecification 일치 추정.

GEE = 이 셋의 결합 — GLM (평균 모형) + Quasi-likelihood (추정 방법) + Robust SE (분산 추정).

이전에는 비정규 종단 데이터 분석을 multivariate Bernoulli, multivariate Poisson 같은 결합 분포 명세로 시도 — 수학적·계산적으로 매우 어려움. GEE 가 결합 분포 명세 자체를 회피.

2.2 Marginal Model — 정확한 정의

Fitzmaurice et al. (2004) 의 정의

“marginal 이란 평균 응답의 모형이 공변량에만 의존, 랜덤 효과나 이전 응답에 무관.”

수식으로:

\[ g(E[y_{ij}]) = x_{ij}^\top \beta \tag{8.13} \]

→ \(E[y_{ij}]\) 가 개인의 history 또는 latent 효과 없이 공변량 \(x_{ij}\) 만의 함수.

대조 — Subject-specific (Conditional):

GLMM 의 평균 모형:

\[ g(E[y_{ij} \mid \upsilon_i]) = x_{ij}^\top \beta + z_{ij}^\top \upsilon_i \]

→ \(E[y_{ij}]\) 가 랜덤 효과 \(\upsilon_i\) 조건부 평균 — 같은 사람 안의 효과.

“marginal” 단어의 어원

수학의 주변화 (marginalization) — 어떤 변수의 분포를 적분/합으로 제거하는 연산.

GLMM 에서 GEE 의 marginal 평균은:

\[ E[y_{ij}] = \int E[y_{ij} \mid \upsilon_i] \, p(\upsilon_i) \, d\upsilon_i \]

→ \(\upsilon_i\) 의 모집단 분포 위에서 평균 — “주변화한” 평균.

자세한 직관과 비즈니스 예시는 mm-08 GEE 개요 참조.

2.3 GEE 의 핵심 가정 — 회귀와 association 의 분리

GEE1 의 직교 가정

GEE1 (Liang & Zeger 1986) 는 두 가지 모수 벡터를 가진다.

회귀 모수 \(\beta\): 평균 응답 모형의 계수.
Association 모수 \(a\): 작동 상관 \(R_i(a)\) 의 모수.

GEE1 가정:

\(\beta\) 와 \(a\) 가 통계적으로 직교 — 한쪽 추정이 다른쪽 추정에 영향 적음.

이 가정으로 추정 방정식 분리 가능:

\[ \sum_{i=1}^N D_i^\top V_i^{-1} (y_i - \mu_i) = 0 \tag{식 8.17} \]

(association \(a\) 는 \(\hat\beta\) 사용해 별도 갱신.)

GEE1 vs GEE2 — 효율성 trade-off

항목	GEE1	GEE2
\(\beta, a\) 추정	분리 (직교 가정)	결합
효율성	보통	GEE1 보다 높음 (true association 가까울수록)
계산	단순 (IRLS)	복잡 (다차원 비선형)
소프트웨어	R `geepack`, SAS `PROC GENMOD`	제한적 (자체 구현 필요)
표준 사용	사실상 표준	학술 주제

→ 실무에서 “GEE” 는 보통 GEE1 을 의미. 본 sub-post 도 GEE1 만 다룸.

GEE2 는 association 모수 자체가 연구 질문일 때 (예: 시점 간 상관 패턴이 임상 의미) 가치. 일반적으로 회귀 계수만 관심이면 GEE1 가 충분.

2.4 MCAR 가정의 임상 함정

MCAR (Missing Completely at Random) 의 정의

세 결측 메커니즘 (Rubin 1976):

메커니즘	정의	종단 임상 시나리오
MCAR	결측이 관측·미관측 모두 독립	무작위 추적 실패
MAR	결측이 관측 데이터에만 의존, 미관측 응답에 무관	이전 시점 점수가 dropout 결정
MNAR	결측이 미관측 응답에 의존	dropout 시점의 (미관측) 점수가 결정

GEE 는 MCAR 만 가정 (full likelihood 부재로 MAR 처리 못함). MRM/CPM/MRM-AC 는 MAR 까지 처리 (full likelihood 기반).

임상 시험에서 MCAR 가 비현실적인 이유

종단 임상 시험의 dropout 패턴:

부작용 dropout: 약물 부작용 심한 환자가 추적 중단 → 그 환자의 미관측 점수가 결측의 원인 (MAR 또는 MNAR).
회복 dropout: 빠르게 호전된 환자가 후속 추적 안 함 → 마찬가지 MAR/MNAR.
무작위 dropout: 이사·연락 두절 등 — MCAR (드뭄).

대부분의 임상 dropout 이 MAR 또는 MNAR. GEE 의 MCAR 가정은 편향 위험.

결과: GEE 분석에서 dropout 이 무작위가 아니면 회귀 계수 편향. 처치 효과의 과대 또는 과소 추정.

GEE 사용 권고 — 실무 가이드

dropout rate 점검: > 20% 이면 GEE 신중.
dropout 패턴 분석: 처치군 vs 대조군 dropout 차이 → MAR 가능성.
민감도 분석: GEE + MRM/CPM 두 모형 모두 적합. 결과 다르면 dropout 영향 가능.
Imputation 전 결합: Multiple imputation 후 GEE — MAR 처리 가능 (Robins et al. 1995, weighted GEE).
MNAR 대응: pattern-mixture 또는 selection model — Hedeker Ch.14.

2.5 CPM 와의 비교 — 같은 듯 다른

GEE vs CPM 의 본질적 차이

두 모형 모두 결합 분포 명세 안 함 — marginal 분포만. 표면적으로 비슷하지만 깊이 다르다.

항목	CPM (Ch.6)	GEE (Ch.8)
결합 분포	다변량 정규 명세	명세 안 함
추정	ML/REML (full likelihood)	Quasi-likelihood
분포 가정	정규만	정규·이항·카운트 등
분산 명세	직접 (\(\Sigma_i\))	작동 상관 + GLM 분산 함수
결측	MAR	MCAR
Robust SE	부재	sandwich estimator

→ CPM 은 정규 다변량 명세, GEE 는 marginal 만 — CPM 이 더 강한 가정 (정규 + 결합 분포). 단 정규 데이터에서는 두 결과가 비슷.

3 § 8.2 — GLM 복습

GEE 를 이해하려면 GLM 의 토대를 정확히 아는 게 필수. § 8.2 가 GLM 의 핵심을 짧게 복습.

3.1 Nelder & Wedderburn (1972) 의 통합 비전

“Generalized Linear Model” 의 의미

Nelder & Wedderburn (1972) 의 통찰:

“선형성 (linearity) 을 활용해 여러 통계 기법을 통합할 수 있다.”

다양한 회귀 분석 (정규 다중 회귀, 로지스틱 회귀, Poisson 회귀, …) 이 단일 framework 의 특수 경우. 차이는 반응 분포 + 연결 함수 + 분산 함수 뿐.

이 통합 비전이 통계학의 큰 발전 — 이전에는 각 회귀 유형이 별도 이론.

3.2 Exponential Family — GLM 의 분포 가정

지수족의 일반 형태

GLM 의 반응 분포는 지수족 (exponential family) 에 속한다고 가정:

\[ f(y; \theta, \phi) = \exp\left[\frac{y\theta - b(\theta)}{a(\phi)} + c(y, \phi)\right] \]

\(\theta\): 자연 모수 (canonical parameter).
\(\phi\): 산포 모수 (dispersion).
\(b(\theta)\), \(a(\phi)\), \(c(y, \phi)\): 분포별 알려진 함수.

핵심 결과 (이론):

\[ E[y] = b'(\theta) = \mu, \quad V(y) = b''(\theta) a(\phi) \]

→ 분산이 평균의 함수 (\(V(y) = v(\mu) \phi\) 형태).

분포별 지수족 형태

분포	\(\theta\) (canonical)	\(b(\theta)\)	\(V(y) = v(\mu)\phi\)
정규	\(\mu\)	\(\theta^2/2\)	\(\sigma^2\) (\(v = 1\))
이항	\(\log\frac{\mu}{1-\mu}\) (로짓)	\(\log(1+e^\theta)\)	\(\mu(1-\mu)\) (\(\phi = 1\))
Poisson	\(\log\mu\)	\(e^\theta\)	\(\mu\) (\(\phi = 1\))
감마	\(-1/\mu\)	\(-\log(-\theta)\)	\(\mu^2 \phi\)

분산 함수의 자연스러운 도출

지수족 가정으로부터 분산이 평균의 함수 임이 자동 도출.

정규: \(V(y) = \sigma^2\) — 평균 무관 (자유 분산).
이항: \(V(y) = \mu(1-\mu)\) — 평균이 0.5 일 때 최대.
Poisson: \(V(y) = \mu\) — 평균과 분산 같음.

이는 추측이 아니라 분포의 본질적 성질. GLM 의 분산 명세 (식 8.7) 가 이 이론에서 나옴.

→ GEE 도 이 분산 함수를 그대로 사용 (식 8.14) — 단 결합 분포 대신 작동 상관 추가.

3.3 GLM 의 3 가지 명세 (재정리)

Linear Predictor + Link + Variance Function

1. Linear Predictor (식 8.1):

\[ \eta_i = x_i^\top \beta \]

→ 공변량의 선형 결합.

2. Link Function (식 8.2):

\[ g(\mu_i) = \eta_i, \quad \mu_i = E[y_i] \]

→ 평균을 선형 예측자로 변환.

3. Variance Function (식 8.7):

\[ V(y_i) = \phi \, v(\mu_i) \]

→ 분산이 평균의 함수.

3.4 연결 함수 — 종류와 의미

연결 함수의 선택 기준

연결	\(g(\mu)\)	사용 분포	직관
Identity	\(\mu\)	정규	“평균이 곧 선형 예측자”
Logit	\(\log\frac{\mu}{1-\mu}\)	이항	“log odds 가 선형”
Probit	\(\Phi^{-1}(\mu)\)	이항 (대안)	“표준정규 quantile 이 선형”
Log	\(\log\mu\)	Poisson	“로그 평균이 선형”
Inverse	\(1/\mu\)	감마	“역수가 선형”
Complementary log-log	\(\log(-\log(1-\mu))\)	이항 (생존)	“위험 함수가 선형”

Canonical link: 지수족의 자연 모수와 일치하는 연결 (정규: identity, 이항: logit, Poisson: log). 이 경우 추정 방정식이 가장 단순.

3.5 추정 방정식 (식 8.10) — Score Function 의 일반화

\(\beta\) 추정의 일반 형태

GLM 의 score function (log-likelihood 의 미분):

\[ U(\beta) = \sum_{i=1}^N \left(\frac{\partial \mu_i}{\partial \beta}\right)^\top V(y_i)^{-1} (y_i - \mu_i) = 0 \tag{8.10} \]

각 항의 의미:

\(\partial \mu_i / \partial \beta = D_i\): 평균이 \(\beta\) 에 어떻게 변하는지 (gradient 또는 design matrix in linear case).
\(V(y_i)^{-1}\): 분산의 역수 (가중치).
\(y_i - \mu_i\): 잔차.

→ “가중 잔차의 합이 0 인 \(\beta\) 를 찾는다.”

OLS·MLE 의 통합 시각

식 (8.10) 이 여러 회귀 유형의 추정을 통합:

다중 회귀 (\(\mu_i = x_i^\top\beta\), \(V(y) = \sigma^2\), 식 8.11):

\[ U(\beta) = \frac{1}{\sigma^2}\sum x_i (y_i - x_i^\top\beta) = 0 \implies \sum x_i y_i = X^\top X \beta \]

→ 정규 방정식 (normal equations). OLS 의 표준 형태.

로지스틱 회귀 (\(\mu_i = \frac{e^{x_i^\top\beta}}{1+e^{x_i^\top\beta}}\), \(V(y) = \mu(1-\mu)\)):

\[ U(\beta) = \sum x_i (y_i - \mu_i) = 0 \]

(canonical link 의 단순화 — \(D_i / V_i = x_i\).)

→ MLE 의 score equation. 닫힌 해 없음, 반복법 (IRLS) 필요.

Poisson 회귀 (\(\mu_i = e^{x_i^\top\beta}\), \(V(y) = \mu\)):

\[ U(\beta) = \sum x_i (y_i - \mu_i) = 0 \]

→ 같은 형태 (canonical log link).

3.6 Quasi-Likelihood (Wedderburn 1974)

식 (8.10) 의 핵심 통찰

식 (8.10) 은 평균과 분산만 사용. 완전 분포 \(f(y; \theta)\) 가 필요 없다.

Wedderburn (1974): “Quasi-likelihood — 평균 함수 + 분산 함수만 명세하면 \(\beta\) 의 일치 추정이 가능.”

이게 의미하는 바:

분포 misspecification 에 robust: 진짜 분포가 가정 분포가 아니어도 일치 추정.
Overdispersion 처리: \(\phi\) 만 조정. Poisson 가정인데 \(V(y) > \mu\) 면 \(\phi > 1\) 추정.
결합 분포 회피 (이게 GEE 의 핵심): 다변량 결합 분포 (multivariate Bernoulli, Poisson) 가 어려운 종단 데이터에서, 평균과 분산 함수만으로 회귀 추정.

Quasi-likelihood 가 GEE 의 토대인 이유

GEE 가 marginal 분포만 명세 가능한 통계 이론적 정당성:

회귀 추정에 결합 분포 불필요 (Wedderburn 1974).
분포 misspecification 에 robust (일치 추정 보장).
분산 misspecification 에도 robust (sandwich SE).

이 세 가지가 GEE 의 토대. GEE = GLM + 작동 상관 + Quasi-likelihood + Robust SE 의 결합.

3.7 IRLS — 반복 가중 최소자승

GLM·GEE 추정의 표준 알고리즘

식 (8.10) 의 비선형 방정식은 반복 가중 최소자승 (Iteratively Reweighted Least Squares, IRLS) 으로 푼다.

각 반복 \(t \to t+1\):

현재 \(\hat\beta^{(t)}\) 에서 \(\hat\mu_i^{(t)}\), \(V_i^{(t)}\) 계산.
작업 응답 (working response) 정의: \[ z_i^{(t)} = \eta_i^{(t)} + (y_i - \mu_i^{(t)}) g'(\mu_i^{(t)}) \] (\(g'\) 는 연결 함수의 미분.)
작업 가중치 (working weight): \[ w_i^{(t)} = [g'(\mu_i^{(t)})]^{-2} \cdot V_i^{(t),-1} \]
WLS 갱신: \[ \hat\beta^{(t+1)} = (X^\top W^{(t)} X)^{-1} X^\top W^{(t)} z^{(t)} \]
수렴 (예: \(\|\hat\beta^{(t+1)} - \hat\beta^{(t)}\| < \epsilon\)) 까지 1 ↔︎ 4 반복.

IRLS 의 직관 — Newton-Raphson 의 변형

IRLS 는 본질적으로 Newton-Raphson 알고리즘의 GLM 특화.

Newton-Raphson: \(\hat\beta^{(t+1)} = \hat\beta^{(t)} - [U'(\beta^{(t)})]^{-1} U(\beta^{(t)})\).
GLM 의 score \(U(\beta)\) 와 그 미분 (Fisher information) 이 WLS 의 형태로 정리됨.

왜 매력적인가:

각 반복이 단순한 WLS — 이미 잘 알려진 계산.
수렴 보장 (canonical link 일 때, 적절한 시작값 하에서).
소프트웨어 구현 표준 — 모든 GLM 패키지가 IRLS 사용.

GEE 도 같은 IRLS 알고리즘 — 단 분산 가중치 \(V\) 가 작동 상관 포함 형태로 확장.

4 정규·이항·카운트 GLM 의 구체

4.1 정규 다중 회귀 (Identity Link)

정규 GLM = OLS

명세:

분포: \(y_i \sim \mathcal{N}(\mu_i, \sigma^2)\).
Link: identity (\(g(\mu) = \mu\)).
분산: \(V(y_i) = \sigma^2\) (\(v(\mu) = 1\), \(\phi = \sigma^2\)).
식: \(E[y_i] = x_i^\top \beta\) (식 8.3).

추정:

\[ \hat\beta = (X^\top X)^{-1} X^\top y \]

→ 표준 OLS. IRLS 가 한 번에 수렴 (linear 모형이라).

4.2 로지스틱 회귀 (Logit Link)

이항 GLM

명세:

분포: \(y_i \sim \text{Bernoulli}(\mu_i)\), \(\mu_i = P(y_i = 1)\).
Link: logit (\(g(\mu) = \log\frac{\mu}{1-\mu}\)).
분산: \(V(y_i) = \mu_i(1-\mu_i)\) (식 8.8), \(\phi = 1\).
식 (8.4): \(\log\frac{P(y_i=1)}{1-P(y_i=1)} = x_i^\top \beta\).

해석:

\[ \beta_j = \log \text{OR}_j \]

(공변량 \(x_j\) 의 1 단위 증가 시 odds 의 log 증가 = log odds ratio.)

4.3 Poisson 회귀 (Log Link)

카운트 GLM

명세:

분포: \(y_i \sim \text{Poisson}(\mu_i)\).
Link: log (\(g(\mu) = \log\mu\)).
분산: \(V(y_i) = \mu_i\) (식 8.9, 평균 = 분산), \(\phi = 1\).
식 (8.5, 8.6): \(\mu_i = e^{x_i^\top\beta}\), \(\log\mu_i = x_i^\top\beta\).

해석:

\[ \beta_j = \log \text{IRR}_j \]

(Incidence Rate Ratio 의 log.)

Overdispersion 처리: 실제 데이터에서 \(V(y) > \mu\) 면 \(\phi > 1\) 로 자유롭게 추정. Quasi-Poisson 모형.

5 GLM 에서 GEE 로 — 자연 확장

5.1 무엇이 추가되는가

GEE = GLM + 작동 상관 (식 8.12-8.14 + R)

GLM 의 3 가지 명세 + 작동 상관 행렬 \(R_i(a)\) 추가.

GEE 추정 방정식 (식 8.17):

\[ \sum_{i=1}^N D_i^\top [V_i(\hat a)]^{-1} (y_i - \mu_i) = 0 \]

GLM 의 (8.10) 와 형태 동일, \(V_i\) 가 작동 상관 포함:

\[ V_i(a) = \phi A_i^{1/2} R_i(a) A_i^{1/2} \]

(여기서 \(A_i\) 가 \(v(\mu_{ij})\) 의 대각.)

“GLM 을 종단으로” — Liang & Zeger (1986) 의 핵심 통찰

“비정규 종단 데이터의 결합 분포 명세는 어려움. 단 marginal 평균과 분산은 단순. 작동 상관만 추가하면 GLM 의 추정 framework 그대로 사용 가능.”

이 한 줄이 GEE 의 발견. 이미 잘 정립된 GLM 의 IRLS·score·robust 이론을 그대로 활용.

의미:

새 추정 이론 불필요.
기존 GLM 코드의 자연 확장.
비정규 반응 종단 분석의 즉시 가능.

6 코드 예시

6.1 Step 1: GLM 추정 방정식 직접 풀이 (Python)

import numpy as np
from scipy.special import expit


def glm_irls(X: np.ndarray, y: np.ndarray, family: str = "binomial",
             max_iter: int = 50, tol: float = 1e-6) -> np.ndarray:
    """IRLS 로 GLM 적합

    family: "normal", "binomial", "poisson"
    """
    n, p = X.shape
    beta = np.zeros(p)

    for iteration in range(max_iter):
        eta = X @ beta

        # link 와 분산 함수
        if family == "normal":
            mu = eta
            g_prime = np.ones(n)
            V = np.ones(n)
        elif family == "binomial":
            mu = expit(eta)
            g_prime = 1 / (mu * (1 - mu))
            V = mu * (1 - mu)
        elif family == "poisson":
            mu = np.exp(eta)
            g_prime = 1 / mu
            V = mu
        else:
            raise ValueError(f"Unknown family: {family}")

        # 작업 응답과 가중치
        z = eta + (y - mu) * g_prime
        w = 1 / (g_prime ** 2 * V)

        # WLS 갱신
        W = np.diag(w)
        beta_new = np.linalg.solve(X.T @ W @ X, X.T @ W @ z)

        if np.linalg.norm(beta_new - beta) < tol:
            return beta_new
        beta = beta_new

    return beta


# 검증 — 로지스틱 회귀
np.random.seed(2026)
n = 200
X = np.column_stack([np.ones(n), np.random.normal(size=n)])
beta_true = np.array([0.5, 1.5])
mu_true = expit(X @ beta_true)
y = np.random.binomial(1, mu_true)

beta_hat = glm_irls(X, y, family="binomial")
print(f"True: {beta_true}, Estimate: {beta_hat.round(3)}")

검증 포인트

IRLS 가 5~20 회 반복 내에 수렴.
추정값이 진짜 모수에 가까움 (표본 클수록 정확).
statsmodels 의 GLM(...).fit() 결과와 일치.

6.2 Step 2: Quasi-Likelihood 로 분산 추정

import numpy as np


def quasi_likelihood_estimate(X: np.ndarray, y: np.ndarray,
                              beta_hat: np.ndarray,
                              family: str = "binomial") -> dict:
    """Quasi-likelihood 기반 SE + φ 추정"""
    n, p = X.shape
    eta = X @ beta_hat

    if family == "binomial":
        mu = expit(eta)
        V = mu * (1 - mu)
    elif family == "poisson":
        mu = np.exp(eta)
        V = mu
    elif family == "normal":
        mu = eta
        V = np.ones(n)

    # Pearson residuals
    pearson_resid = (y - mu) / np.sqrt(V)

    # 산포 모수 phi 추정
    phi_hat = np.sum(pearson_resid ** 2) / (n - p)

    # SE (model-based)
    W = np.diag(1 / V)
    cov_beta = phi_hat * np.linalg.inv(X.T @ W @ X)
    se = np.sqrt(np.diag(cov_beta))

    return {"phi_hat": phi_hat, "se": se, "pearson_residual": pearson_resid}

\(\phi\) 의 진단 가치

Poisson GLM 에서 \(\hat\phi \approx 1\): 평균=분산 가정 성립.
\(\hat\phi > 1\): Overdispersion — 진짜 분산이 평균보다 큼. Quasi-Poisson 또는 음이항 (Negative Binomial) 고려.
\(\hat\phi < 1\): Underdispersion — 드물지만 가능 (예: 절단 데이터).
이항 GLM 에서도 같은 진단 가능.

6.3 Step 3: GLM → GEE 의 코드 비교

import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import Exchangeable


# === GLM (독립 가정) ===
glm_fit = smf.glm(
    "y ~ x1 + x2",
    data=df,
    family=sm.families.Binomial(),
).fit()
print(glm_fit.summary())
# SE 가 독립 관측 가정 — 종단 데이터에서 부정확

# === GEE (작동 상관 추가) ===
gee_fit = GEE.from_formula(
    "y ~ x1 + x2",
    groups="subject",          # 추가 — 군집화
    data=df,
    cov_struct=Exchangeable(), # 추가 — 작동 상관
    family=sm.families.Binomial(),
).fit()
print(gee_fit.summary())
# 회귀 계수 점추정 비슷하지만 SE 다름 (sandwich 적용)

GLM 을 종단 데이터에 적용 시 함정

상관 데이터에 GLM 을 그대로 적용하면:

회귀 계수 점추정: 일치 (consistent), but 효율성 손실 (independence 보다 더 적은 정보).
SE: 부정확 (작은 SE → 거짓 유의 결과 가능).
검정: 1 종 오류율 부풀려짐.

→ 종단 데이터에 GLM 직접 적용 절대 금지. GEE 또는 GLMM 사용.

7 핵심 정리

한 페이지 요약

§ 8.1 — GEE 의 자리:

발전사: 1980 년대 MRM·CPM·GEE 가 동시 발전. GLM (1972) + Quasi-likelihood (1974) + Robust SE (1986) 의 결합.
Marginal 정의: 평균이 공변량에만 의존, 랜덤 효과·이전 응답에 무관 (Fitzmaurice et al. 2004).
GEE1 vs GEE2: GEE1 은 \(\beta, a\) 직교 가정으로 추정 분리. 사실상 표준.
MCAR 함정: GEE 는 MCAR 가정. 임상 dropout 이 보통 MAR/MNAR 라 편향 위험. 민감도 분석 필요.
CPM 와 차이: CPM 은 결합 정규 분포, GEE 는 marginal 만. GEE 가 비정규 반응까지 처리.

§ 8.2 — GLM:

Nelder-Wedderburn 1972: 다양한 회귀를 단일 framework 로 통합.
3 가지 명세: linear predictor + link function + variance function.
Exponential family: 분산이 평균의 함수 (\(V(y) = v(\mu)\phi\)) 자연 도출.
Score 추정 (식 8.10): 가중 잔차의 합 = 0. OLS·MLE 통합.
Quasi-likelihood (Wedderburn 1974): 평균과 분산만으로 일치 추정. GEE 의 핵심 토대.
IRLS: GLM·GEE 의 표준 알고리즘. 각 반복이 WLS.
GLM → GEE: 작동 상관 \(R_i\) 추가만으로 자연 확장. 새 이론 불필요.

§ 8.1·§ 8.2 가 GEE 의 통계적 정당성과 알고리즘적 토대 — 다음 § 8.3·§ 8.4 의 작동 상관·Sandwich 추정으로 자연스럽게 연결.

8 다음 단계

주제	내용	위치
§ 8.3 GEE 모형 + 5 작동 상관	Independence·Exchangeable·AR(1)·m-dependent·Unstructured 깊이	작성 예정 (`08-2-mrm-gee-working-correlation.qmd`)
§ 8.4 GEE 추정 + Sandwich	IRLS + Pearson 잔차 + Robust SE	작성 예정 (`08-3-mrm-gee-sandwich.qmd`)
§ 8.5 Gruder 흡연 절제 사례	분석 정밀 재현 + Helmert contrasts	작성 예정 (`08-4-mrm-gee-gruder.qmd`)

9 관련 주제

선행 지식

Ch.8 Overview — GEE — 4 절 systematic overview
mm-08 GEE 개요 — Marginal vs Conditional 직관