1 왜 과산포를 다루는가
이항 GLM 은 \(\mathrm{Var}(Y) = m\pi(1-\pi)\) 를 이론적 제약으로 받는다. 평균 \(\pi\) 가 결정되면 분산이 자동으로 따라온다. 정규 모형의 \(\sigma^2\) 자유도가 없다.
그러나 실무에서 관측되는 이항 자료의 분산은 거의 항상 이 이론값을 초과한다.
\[ \mathrm{Var}(Y)_{\text{observed}} \;>\; m\pi(1-\pi) \]
이 초과를 과산포 (over-dispersion) 라 한다. McCullagh 의 단호한 경고:
실무에서 이항 자료의 과산포는 표준이다. “이항 분산을 그대로 믿을 이유가 있지 않다면” 과산포가 있다고 가정하고 시작해야 한다.
특히 대규모 역학 연구·지역별 빈도 자료에서는 이항 분산이 전체 분산의 무시 가능한 성분 일 수 있다.
1.1 과산포를 무시하면 벌어지는 일
- 표준오차 과소 추정 — 실제 분산이 더 큰데 이항 공식으로 계산.
- 신뢰구간이 좁게 — 실제 불확실성을 반영하지 못함.
- 검정 통계량 과장 — \(p\)-값이 작아져 거짓 유의성.
- 이탈도 \(\chi^2\) 비교 무의미 — 분포 자체가 왜곡.
즉 과산포를 방치한 로지스틱 회귀의 모든 추론이 자신감 과잉 으로 나온다.
직관: 과산포는 “GLM 의 이론이 데이터의 풍부함을 과소평가” 하는 상황이다. 모형은 평균만 맞추지만 실제 데이터는 모형이 설명하지 못하는 추가 변동을 갖는다. 그 변동을 정량화하고 보정하는 것이 §4.5 의 과제.
2 과산포의 발생 (§4.5.1)
2.1 가장 흔한 원인 — 클러스터링 (Lexis 1879)
모집단이 자연스러운 클러스터로 나뉘어 있는 경우. 예:
- 가구·가족 (유전·생활 공유).
- 학급·학교 (교사·환경 공유).
- 병원·진료 지역 (의료 수준·지역 특성 공유).
- 실험 litter (어미 동물 공유).
각 클러스터 내 개체는 동질적 이지만, 클러스터 간은 이질적. 표면적으로 이항 같지만 실제로는 중첩 구조.
2.2 수학적 모형
클러스터 \(i\) (크기 \(k\)) 에서 성공 수 \(Z_i\):
\[ Z_i \sim \mathrm{Bin}(k, \pi_i),\quad \pi_i \text{ 는 클러스터마다 다름} \]
\(\pi_i\) 의 집단 분포를 가정:
\[ E[\pi_i] = \pi,\qquad \mathrm{Var}(\pi_i) = \tau^2 \pi(1-\pi) \]
(\(\tau \in [0, 1]\) 은 \(\pi\) 의 집단 변동 크기를 나타내는 단위 없는 계수.)
총 관측 \(Y = Z_1 + \dots + Z_{m/k}\) (\(m/k\) 개 클러스터에서 \(m\) 개 개체).
2.3 주변 평균·분산 계산
주변 평균 (marginal mean):
\[ E(Y) \;=\; \frac{m}{k} \cdot E[Z_i] \;=\; \frac{m}{k} \cdot k \cdot E[\pi_i] \;=\; m\pi \]
평균은 변하지 않는다 — 이항 기대값 그대로.
주변 분산: 전체 분산 법칙 (law of total variance):
\[ \mathrm{Var}(Y) \;=\; E[\mathrm{Var}(Y|\boldsymbol\pi)] + \mathrm{Var}(E[Y|\boldsymbol\pi]) \]
각 부분:
- \(\mathrm{Var}(Y|\boldsymbol\pi) = \sum_i \mathrm{Var}(Z_i|\pi_i) = (m/k)\cdot k\pi_i(1-\pi_i)\) 의 기대값.
- \(E[Y|\boldsymbol\pi] = \sum_i k\pi_i = m\bar\pi\) 의 분산.
정리하면
\[ \mathrm{Var}(Y) \;=\; m\pi(1-\pi)\left\{1 + (k-1)\tau^2\right\} \;=\; \sigma^2\,m\pi(1-\pi) \]
여기서
\[ \boxed{\sigma^2 \;=\; 1 + (k-1)\tau^2} \]
이 분산 팽창 계수 (dispersion parameter).
2.4 \(\sigma^2\) 의 세 가지 중요 성질
- \(\sigma^2 \ge 1\): 클러스터링은 반드시 분산을 증가시킴 (\(\tau^2 \ge 0\)).
- \(m\) 에 무관: 표본 크기와 무관한 구조적 상수. 이 성질이 결정적으로 중요 — “분산 비율” 을 잔차로부터 직접 추정 가능케 함.
- \(\sigma^2 \le k\): 클러스터 크기 \(k\) 가 상한. \(\tau^2 \le 1\) (분산의 자연적 제약).
2.5 \(m = 1\) 인 경우
\(m = 1\) (개체-수준 이진 자료) 에서는 \(Y \in \{0, 1\}\) 이고 평균 \(\pi\) 가 결정되면 분산이 \(\pi(1-\pi)\) 로 자동 고정. 과산포가 존재할 수 없다 — 단일 베르누이는 자유도가 없다.
따라서 과산포 논의는 \(m > 1\) 인 집계 자료에서만 의미.
직관: 과산포는 “\(\pi_i\) 가 클러스터마다 다름” 이 집계될 때 생기는 구조. 개체 관측을 보면 이항 같지만 집계하면 더 넓게 퍼진다 — 숨은 이질성이 밖으로 드러나는 순간.
3 이질성 역설의 해결 — 03-2 와의 연결
03-2 에서 McCullagh 의 비직관적 결과를 봤다: 고정 이질 \(\pi_i\) 는 분산을 감소시킴.
\[ \sum \pi_i(1-\pi_i) \;=\; m\bar\pi(1-\bar\pi) - (m-1)s^2(\pi) \;\le\; m\bar\pi(1-\bar\pi) \]
§4.5 의 해법: \(\pi_i\) 를 무작위로 취급.
고정 이질: \(\pi_i\) 알려진 다른 값들. 주변 분산 감소.
무작위 이질: \(\pi_i\) 가 공통 분포에서 뽑힌 변수. 주변 분산 증가 (과산포).
같은 “이질성” 이라는 말이 두 해석에서 반대 방향으로 작동. 실무는 후자 (무작위) 가 거의 항상 올바른 프레이밍.
직관: 실무의 이질성은 “구체적으로 이 값이다” 가 아니라 “어떤 분포에서 나왔을 것이다” 로 이해해야. 전자는 대수적 동일성 (분산 감소), 후자는 베이지안 혼합 (분산 증가). 후자가 현실을 반영.
4 Beta-Binomial 과의 비교
4.1 Beta-Binomial 모형
\(\pi_i\) 가 Beta 분포를 따른다고 가정.
\[ \pi_i \sim \mathrm{Beta}(\alpha, \beta),\qquad Y_i|\pi_i \sim \mathrm{Bin}(m_i, \pi_i) \]
주변 분포:
\[ Y_i \sim \mathrm{BetaBin}(m_i, \alpha, \beta) \]
Beta 의 분산 \(\mathrm{Var}(\pi_i) = \pi(1-\pi)/(\alpha+\beta+1)\) 로 두면
\[ \mathrm{Var}(Y_i) \;=\; m_i\pi(1-\pi)\left\{1 + \frac{m_i - 1}{\alpha + \beta + 1}\right\} \]
4.2 중요한 차이
\(\sigma^2_{BB}(m) = \mathrm{Var}(Y)/\{m\pi(1-\pi)\}\) 가 \(m\) 의 선형 함수.
반면 클러스터 모형 (4.20) 에서 \(\sigma^2\) 는 \(m\) 과 무관한 상수.
4.3 실무 선택
McCullagh 의 경험적 결론: “대부분의 실제 자료에서는 상수 \(\sigma^2\) (클러스터 모형) 가 Beta-Binomial 보다 잘 적합”.
이유 추측: - Beta 가정이 임의적 (수학적 편의). - 실무 데이터의 이질성이 Beta 처럼 매끄럽지 않음. - 클러스터 크기 \(k\) 가 직접적으로 \(\sigma^2\) 에 반영되는 구조가 더 자연스러움.
4.4 진단 방법
잔차를 \(m_i\) 에 대해 플로팅. 잔차 분산의 추세로 판별:
- 일정 → 상수 \(\sigma^2\) (클러스터).
- \(m_i\) 에 비례 → Beta-binomial.
실무에서는 이런 진단이 잘 수행되지 않고 기본값 (상수 \(\sigma^2\)) 으로 진행.
직관: Beta-Binomial 은 이론적으로 우아하지만 구체적 분포 가정이 임의적. 상수 \(\sigma^2\) 는 “모형 미지정” 의 겸손한 자세 — 분포 전체가 아니라 분산 관계만 지정.
5 Quasi-likelihood 접근 (§4.5.2)
5.1 핵심 아이디어
특정 과산포 분포를 가정하지 않고, 변이 관계만 명시.
\[ E(Y_i) = m_i\pi_i,\qquad \mathrm{Var}(Y_i) = \sigma^2 m_i\pi_i(1-\pi_i) \]
이것이 quasi-likelihood 의 전부. 평균 구조는 이항 GLM 과 동일, 분산에 \(\sigma^2\) 상수 배수만 추가.
5.2 모수 추정
\(\boldsymbol\beta\) 추정: 이항 GLM 의 스코어 방정식이 그대로 유효.
\[ \mathbf{X}^\top\mathbf{W}(\mathbf{y} - \boldsymbol\mu) = \mathbf{0} \]
\(\sigma^2\) 는 스코어에 영향 없음 (상수 배수로 나눠지므로). 따라서 \(\hat{\boldsymbol\beta}\) 는 이항 GLM 과 동일.
\(\sigma^2\) 추정: 잔차로부터 별도 추정 (다음 섹션).
\(\mathrm{Var}(\hat{\boldsymbol\beta})\): \(\sigma^2\) 배수만큼 팽창.
\[ \mathrm{Var}(\hat{\boldsymbol\beta}) \;\approx\; \sigma^2(\mathbf{X}^\top\mathbf{W}\mathbf{X})^{-1} \]
이항 공식에 \(\sigma^2\) 곱하기. 표준오차는 \(\sigma\) 배 커진다.
5.3 검정 통계량의 수정
\[ D \sim \chi^2_{n-p} \;\mapsto\; D \sim \sigma^2\chi^2_{n-p} \]
\[ \Delta D \sim \chi^2_1 \;\mapsto\; \Delta D \sim \sigma^2 \chi^2_1 \]
이탈도를 \(\sigma^2\) 로 나눠 정규화한 후 \(\chi^2\) 근사. 이는 \(F\) 검정과 동치:
\[ F \;=\; \frac{\Delta D/\Delta p}{\hat\sigma^2} \]
\(F\) 분포 자유도는 \((\Delta p, n-p)\).
직관: Quasi-likelihood 는 “분포를 몰라도 추론 가능” 이라는 Gauss-Markov 철학의 GLM 확장. OLS 에서 Normal 가정이 없어도 BLUE 였듯, 이항 GLM 에서 “이항이 아니어도” 평균·분산만 올바르면 유효.
6 \(\sigma^2\) 추정 방법 (§4.5.2)
6.1 방법 1 — 복제 기반 (§4.5.2, (4.22))
전제: 같은 공변량 값에 여러 관측이 있음. Covariate class \(i\) 에 \((y_1, m_1), \dots, (y_r, m_r)\).
클래스 내 추정: \(\tilde\pi = y_\cdot / m_\cdot = \sum y_j / \sum m_j\).
가중 클래스 내 제곱합:
\[ s_i^2 \;=\; \frac{1}{r-1}\sum_{j=1}^r \frac{(y_j - m_j\tilde\pi)^2}{m_j\tilde\pi(1-\tilde\pi)} \]
이 값의 기대는 \(\sigma^2\) (\((r-1)\) 자유도).
전체 풀 추정: 여러 클래스에서 \(s^2_i\) 를 풀.
\[ \hat\sigma^2_{\text{rep}} \;=\; \frac{\sum_i (r_i - 1)s_i^2}{\sum_i (r_i - 1)} \]
장점: - 모형 독립 — 어떤 모형을 쓰든 결과가 같음. - 순수한 “같은 조건 반복” 에서 나오는 자연적 분산 추정.
단점: - 복제가 있어야 함. 연속 공변량이나 희귀 조건에서는 어려움.
6.2 방법 2 — Pearson 기반 ((4.23))
전제: 적합된 모형이 있음.
공식:
\[ \hat\sigma^2_{\text{Pearson}} \;=\; \frac{X^2}{n-p} \;=\; \frac{1}{n-p}\sum_i \frac{(y_i - m_i\hat\pi_i)^2}{m_i\hat\pi_i(1-\hat\pi_i)} \]
장점: - 복제 불필요. 언제나 계산 가능. - 표준 소프트웨어 출력.
단점: - 모형 의존. 잘못된 모형이면 \(\sigma^2\) 도 오염. - 희소 자료 (\(m_i = 1\)) 에서 문제: \(\hat\sigma^2 = n/(n-1) \to 1\). 실제 \(\sigma^2\) 가 얼마든 관계없이 1 에 근접.
6.3 방법 3 — 이탈도 기반
\[ \hat\sigma^2_D \;=\; \frac{D}{n-p} \]
큰 \(m_i\) 에서: Pearson 방법과 근사 동등.
희소한 경우 (\(m_i = 1\)): 일관성 없음. \(D/(n-p)\) 값이 \(\hat\pi\) 의 함수라 \(\sigma^2\) 와 무관하게 움직임.
\(Y_i \sim \mathrm{Bern}(\pi)\) (동일 \(\pi\)) 에서
\[ \frac{D}{n-1} \;=\; -\frac{2n}{n-1}\{\hat\pi\log\hat\pi + (1-\hat\pi)\log(1-\hat\pi)\} \;\in\; [0, 2\log 2] \]
\(\pi\) 값에 따라 \(0 \sim 1.386\) 로 변동. \(\sigma^2\) 추정으로 쓸 수 없다.
6.4 세 방법 비교표
| 방법 | 복제 필요 | 모형 독립 | \(m=1\) 안정 |
|---|---|---|---|
| Replication (4.22) | 예 | 예 | 예 (자동 \(\approx 1\)) |
| Pearson (4.23) | 아니오 | 아니오 | 예 (점근 1) |
| Deviance | 아니오 | 아니오 | 아니오 (퇴화) |
실무 권장: 1. 복제 있으면 replication 방법 1 순위. 2. 없으면 Pearson. 3. Deviance 는 (4.4.5 의 퇴화 때문에) 희소 자료에서 피함.
직관: \(\sigma^2\) 는 “모형이 설명하지 못한 여분의 퍼짐” 을 포착. Replication 은 “같은 조건 반복” 이라는 가장 깨끗한 증거, Pearson 은 “모형 가정 하에 남은 잔차 크기”. 둘 다 같은 양을 다른 방식으로 추정.
7 실무 예시와 진단
7.1 Williams 방법 (mixed model 단순화)
무작위 효과 로지스틱의 특수 경우. \(\pi_i\) 가 Beta 로 분포한다는 가정을 정확히 따르지 않고 “moments matching” 으로 \(\tau^2\) 추정:
- 이항 GLM 적합, Pearson \(X^2/(n-p)\) 계산.
- \(\hat\tau^2 = (X^2/(n-p) - 1) / \bar m\) (평균 클러스터 크기).
- IRLS 가중치에 \(\hat\tau^2\) 반영해 재적합.
- 수렴까지 반복.
복잡한 무작위 효과 모형 없이 과산포 대응 가능. R 의 aod::betabin(), 옛 GLIM 의 표준.
7.2 과산포 탐지 체크리스트
- Pearson \(X^2/(n-p)\) 계산. 1.2 이상이면 주의, 2 이상이면 확실.
- 잔차 플롯: 큰 표준화 잔차가 몰려 있으면 과산포 또는 모형 오식별.
- 클러스터 구조 점검: 자료 수집 설계에 클러스터가 있었는지. 있으면 거의 확실히 과산포.
- 복제 있으면 (4.22) 로 독립 추정해서 Pearson 과 비교.
7.3 과산포 무시의 영향 — 수치 예시
\(\sigma^2 = 2\) (적당한 과산포) 인 상황에서:
- 순진 표준오차: 과소 추정 (\(\sqrt{2} \approx 1.41\) 배 작게).
- 95% 신뢰구간: 30% 좁게.
- \(p\)-값: 원래 0.05 근처인 것이 0.01 근처로 과장.
- 이탈도 \(\chi^2\) 검정: 자유도 대비 큰 이탈도를 “유의” 로 잘못 판정.
실무 결과: 거짓 발견 (false discovery) 증가. 특히 대규모 역학 연구에서 심각.
직관: 과산포는 “조용한” 오류다 — 계수 추정은 정확, 표준오차만 틀림. 그래서 잘못된 확신이 주된 피해. 과산포 진단은 모든 이항 GLM 분석의 기본 절차.
8 코드 예시
8.1 Step 1: 과산포 자료 생성 및 진단
import numpy as np
import pandas as pd
import statsmodels.api as sm
rng = np.random.default_rng(0)
n_class = 50
m_i = np.full(n_class, 20) # 모두 m=20
# 진짜 모형: 과산포 있음 (Beta-binomial 유사)
x = np.linspace(-2, 2, n_class)
true_eta = -0.3 + 0.8 * x
true_pi_mean = 1 / (1 + np.exp(-true_eta))
# 클러스터별 pi 변동 주기
tau = 0.3
pi_actual = np.clip(true_pi_mean +
tau * np.sqrt(true_pi_mean*(1-true_pi_mean)) *
rng.normal(size=n_class), 0.01, 0.99)
y = rng.binomial(m_i, pi_actual)
# 이항 GLM 적합
X = np.column_stack([np.ones(n_class), x])
Y = np.column_stack([y, m_i - y])
m_binom = sm.GLM(Y, X, family=sm.families.Binomial()).fit()
# Pearson 기반 sigma^2 추정
sigma2_hat = m_binom.pearson_chi2 / m_binom.df_resid
print(f"Pearson X² / df = {sigma2_hat:.3f}")
print(f"이항 표준오차: {m_binom.bse}")
print(f"과산포 SE: {m_binom.bse * np.sqrt(sigma2_hat)}")\(\sigma^2 > 1\) 확인. 표준오차 팽창 효과 비교.
8.2 Step 2: Quasi-binomial 추정
# statsmodels 의 scale="X2" 옵션
m_quasi = sm.GLM(Y, X, family=sm.families.Binomial()).fit(scale="X2")
print(f"이항 적합:")
print(f" beta_hat = {m_binom.params}")
print(f" SE = {m_binom.bse}")
print(f"\nQuasi-binomial 적합 (sigma^2 = {m_quasi.scale:.3f}):")
print(f" beta_hat = {m_quasi.params} (동일)")
print(f" SE = {m_quasi.bse} (sigma 배 팽창)")
# 점추정은 같고, SE 만 sqrt(sigma^2) 배Quasi-binomial 은 \(\boldsymbol\beta\) 동일, SE 만 \(\hat\sigma\) 배. Pearson 기반 \(\sigma^2\) 추정이 자동 적용.
8.3 Step 3: 복제 기반 \(\sigma^2\) 추정
# 각 공변량 조건에서 여러 관측 (복제) 있는 자료
rng = np.random.default_rng(42)
r_per_x = 5 # 각 x 에서 5번 복제
x_vals = np.linspace(-1, 1, 10)
data = []
for xv in x_vals:
eta = 0.2 + 0.5 * xv
pi_mean = 1 / (1 + np.exp(-eta))
# 클러스터 효과
for _ in range(r_per_x):
pi_j = np.clip(pi_mean + 0.2 * rng.normal(), 0.05, 0.95)
m_j = 15
y_j = rng.binomial(m_j, pi_j)
data.append({"x": xv, "y": y_j, "m": m_j})
df = pd.DataFrame(data)
# 클래스 내 추정
def replication_sigma2(df):
s_values = []
for xv, grp in df.groupby("x"):
r = len(grp)
if r < 2: continue
pi_tilde = grp["y"].sum() / grp["m"].sum()
if pi_tilde in (0, 1): continue
s_i = np.sum((grp["y"] - grp["m"] * pi_tilde)**2 /
(grp["m"] * pi_tilde * (1 - pi_tilde))) / (r - 1)
s_values.append((r - 1, s_i))
total_df = sum(d for d, _ in s_values)
total_ss = sum(d * s for d, s in s_values)
return total_ss / total_df, total_df
sigma2_rep, df_rep = replication_sigma2(df)
print(f"복제 기반 sigma^2: {sigma2_rep:.3f} (df = {df_rep})")
# 비교: 같은 자료의 Pearson 기반
df_agg = df.groupby("x").agg(y=("y", "sum"), m=("m", "sum")).reset_index()
X_agg = np.column_stack([np.ones(len(df_agg)), df_agg["x"]])
Y_agg = np.column_stack([df_agg["y"], df_agg["m"] - df_agg["y"]])
m_fit = sm.GLM(Y_agg, X_agg, family=sm.families.Binomial()).fit()
sigma2_pear = m_fit.pearson_chi2 / m_fit.df_resid
print(f"집계 후 Pearson sigma^2: {sigma2_pear:.3f}")
# 복제 추정이 모형 독립 — 두 값이 비슷하면 모형 적합 좋음복제 추정은 모형 독립이므로 Pearson 추정과 비교하면 모형 적합도의 간접 진단.
8.4 Step 4: 과산포를 무시한 추론의 위험
# 반복 시뮬레이션으로 95% CI 커버리지 확인
rng = np.random.default_rng(0)
n_sim = 1000
cover_naive = 0
cover_quasi = 0
sigma2_true = 2.5
beta_true = 0.8
for _ in range(n_sim):
n_cl = 30
m = np.full(n_cl, 15)
x = rng.uniform(-1, 1, n_cl)
# 과산포 있는 자료 (혼합 분산)
eta = 0 + beta_true * x
pi = 1 / (1 + np.exp(-eta))
# 분산 팽창 사용
pi_actual = np.clip(pi + np.sqrt((sigma2_true-1)/max(m.mean()-1, 1)) *
np.sqrt(pi*(1-pi)) * rng.normal(n_cl), 0.01, 0.99)
y = rng.binomial(m, pi_actual)
Y = np.column_stack([y, m - y])
X = np.column_stack([np.ones(n_cl), x])
m_naive = sm.GLM(Y, X, family=sm.families.Binomial()).fit()
m_quasi = sm.GLM(Y, X, family=sm.families.Binomial()).fit(scale="X2")
ci_naive = m_naive.conf_int(alpha=0.05)[1] # x 계수
ci_quasi = m_quasi.conf_int(alpha=0.05)[1]
if ci_naive[0] <= beta_true <= ci_naive[1]: cover_naive += 1
if ci_quasi[0] <= beta_true <= ci_quasi[1]: cover_quasi += 1
print(f"Naive 이항 CI 95% 커버리지: {cover_naive/n_sim:.1%}")
print(f"Quasi-binomial CI 95% 커버리지: {cover_quasi/n_sim:.1%}")
print("Naive 는 95% 보다 현저히 작음 — 과산포 무시의 대가")이항 가정 무시는 실제 커버리지를 80% 이하로 떨어뜨림. Quasi 는 95% 에 가깝게 복원.
9 흔한 실수
| 실수 | 처방 |
|---|---|
| 이항 GLM 적합 후 과산포 진단 생략 | Pearson \(X^2/(n-p)\) 항상 확인. 1.2 이상이면 Quasi |
| \(D/(n-p)\) 로 \(\sigma^2\) 추정 | 희소 자료에서 퇴화. Pearson \(X^2/(n-p)\) 사용 |
| 이진 (\(m=1\)) 에서 과산포 찾기 | 정의상 불가능. 집계 또는 혼합 효과 모형 |
| Quasi-binomial 과 Beta-Binomial 를 같은 것으로 취급 | \(\sigma^2\) 의 \(m\) 의존성이 다름. 잔차 플롯으로 구분 |
| 과산포 진단 없이 이탈도 \(\chi^2\) 비교 | \(\Delta D / \sigma^2\) 로 보정해야. 안 하면 거짓 유의성 |
| 복제 있는데도 Pearson 만 쓰기 | (4.22) 복제 추정도 병행하면 모형 적합도 교차 확인 |
| 과산포 = “데이터 잘못” 이라고 해석 | 거의 모든 실제 자료의 특성. 모형이 현실을 따라가야 |
10 요약
- 과산포의 정의: \(\mathrm{Var}(Y) > m\pi(1-\pi)\). 실무에서 규칙이지 예외가 아님.
- 발생 원인: 주로 클러스터링. \(Z_i \sim \mathrm{Bin}(k, \pi_i)\), \(\pi_i\) 가 클러스터마다 변동.
- 분산 팽창 계수: \(\sigma^2 = 1 + (k-1)\tau^2\). \(m\) 과 무관한 상수 — 잔차로부터 추정 가능.
- \(m = 1\) 인 경우: 과산포 존재 불가 (자유도 없음).
- Beta-Binomial vs 클러스터 모형: 전자는 \(\sigma^2\) 가 \(m\) 의 선형 함수, 후자는 상수. 실제는 후자 선호.
- Quasi-likelihood: 분포 미지정, 평균·분산 관계만 고정. \(\boldsymbol\beta\) 점추정 불변, SE 는 \(\sigma\) 배.
- \(\sigma^2\) 추정:
- 복제 기반 (4.22): 모형 독립, 복제 필요.
- Pearson (4.23): 모형 의존, 항상 가능.
- 이탈도 기반: 희소 자료에서 퇴화, 피함.
- 검정 수정: \(D \sim \sigma^2\chi^2\), \(F\) 검정으로 변환.
- 실무 영향: 과산포 무시 시 표준오차 과소 추정 → 거짓 유의성.
한 줄 요약: §4.5 는 이항 GLM 의 “분산 자유도 회복” 을 다룬다. 이항이 정해 준 분산을 그대로 믿는 대신, 데이터가 말하는 “진짜 퍼짐” 을 \(\sigma^2\) 로 흡수하는 것이 Quasi-likelihood 의 핵심. 이 하나의 모수 추가가 거짓 유의성으로부터 실무를 지킨다.
11 관련 주제
선행 지식
- 이항 자료 GLM 개관
- 이항분포 — 이질성 역설의 고정 버전
- 이항 자료의 우도함수 — \(m=1\) 희소성 퇴화
관련 개념
- GLM 적합도 측정 — Deviance·Pearson — \(\sigma^2\) 추정의 일반 이론
- 음이항 분포 — Poisson 과산포의 병행
후속 주제
- Quasi-likelihood (McCullagh Ch.9) — 분포 미지정 추론의 일반 이론
- Generalized Estimating Equations (GEE, Liang-Zeger 1986) — 종단 자료 과산포
- Mixed-effects logistic regression — 무작위 효과로 클러스터 구조 명시적 모형
- Beta-Binomial 모형 — 특정 분포 가정 버전