Kwangmin Kim - 이항 자료의 과산포

1 왜 과산포를 다루는가

이항 GLM 은 \(\mathrm{Var}(Y) = m\pi(1-\pi)\) 를 이론적 제약으로 받는다. 평균 \(\pi\) 가 결정되면 분산이 자동으로 따라온다. 정규 모형의 \(\sigma^2\) 자유도가 없다.

그러나 실무에서 관측되는 이항 자료의 분산은 거의 항상 이 이론값을 초과한다.

\[ \mathrm{Var}(Y)_{\text{observed}} \;>\; m\pi(1-\pi) \]

이 초과를 과산포 (over-dispersion) 라 한다. McCullagh 의 단호한 경고:

과산포가 규칙, 등분산이 예외

실무에서 이항 자료의 과산포는 표준이다. “이항 분산을 그대로 믿을 이유가 있지 않다면” 과산포가 있다고 가정하고 시작해야 한다.

특히 대규모 역학 연구·지역별 빈도 자료에서는 이항 분산이 전체 분산의 무시 가능한 성분 일 수 있다.

1.1 과산포를 무시하면 벌어지는 일

표준오차 과소 추정 — 실제 분산이 더 큰데 이항 공식으로 계산.
신뢰구간이 좁게 — 실제 불확실성을 반영하지 못함.
검정 통계량 과장 — \(p\)-값이 작아져 거짓 유의성.
이탈도 \(\chi^2\) 비교 무의미 — 분포 자체가 왜곡.

즉 과산포를 방치한 로지스틱 회귀의 모든 추론이 자신감 과잉 으로 나온다.

직관: 과산포는 “GLM 의 이론이 데이터의 풍부함을 과소평가” 하는 상황이다. 모형은 평균만 맞추지만 실제 데이터는 모형이 설명하지 못하는 추가 변동을 갖는다. 그 변동을 정량화하고 보정하는 것이 §4.5 의 과제.

2 과산포의 발생 (§4.5.1)

2.1 가장 흔한 원인 — 클러스터링 (Lexis 1879)

모집단이 자연스러운 클러스터로 나뉘어 있는 경우. 예:

가구·가족 (유전·생활 공유).
학급·학교 (교사·환경 공유).
병원·진료 지역 (의료 수준·지역 특성 공유).
실험 litter (어미 동물 공유).

각 클러스터 내 개체는 동질적 이지만, 클러스터 간은 이질적. 표면적으로 이항 같지만 실제로는 중첩 구조.

2.2 수학적 모형

클러스터 \(i\) (크기 \(k\)) 에서 성공 수 \(Z_i\):

\[ Z_i \sim \mathrm{Bin}(k, \pi_i),\quad \pi_i \text{ 는 클러스터마다 다름} \]

\(\pi_i\) 의 집단 분포를 가정:

\[ E[\pi_i] = \pi,\qquad \mathrm{Var}(\pi_i) = \tau^2 \pi(1-\pi) \]

(\(\tau \in [0, 1]\) 은 \(\pi\) 의 집단 변동 크기를 나타내는 단위 없는 계수.)

총 관측 \(Y = Z_1 + \dots + Z_{m/k}\) (\(m/k\) 개 클러스터에서 \(m\) 개 개체).

2.3 주변 평균·분산 계산

주변 평균 (marginal mean):

\[ E(Y) \;=\; \frac{m}{k} \cdot E[Z_i] \;=\; \frac{m}{k} \cdot k \cdot E[\pi_i] \;=\; m\pi \]

평균은 변하지 않는다 — 이항 기대값 그대로.

주변 분산: 전체 분산 법칙 (law of total variance):

\[ \mathrm{Var}(Y) \;=\; E[\mathrm{Var}(Y|\boldsymbol\pi)] + \mathrm{Var}(E[Y|\boldsymbol\pi]) \]

각 부분:

\(\mathrm{Var}(Y|\boldsymbol\pi) = \sum_i \mathrm{Var}(Z_i|\pi_i) = (m/k)\cdot k\pi_i(1-\pi_i)\) 의 기대값.
\(E[Y|\boldsymbol\pi] = \sum_i k\pi_i = m\bar\pi\) 의 분산.

정리하면

\[ \mathrm{Var}(Y) \;=\; m\pi(1-\pi)\left\{1 + (k-1)\tau^2\right\} \;=\; \sigma^2\,m\pi(1-\pi) \]

여기서

\[ \boxed{\sigma^2 \;=\; 1 + (k-1)\tau^2} \]

이 분산 팽창 계수 (dispersion parameter).

2.4 \(\sigma^2\) 의 세 가지 중요 성질

\(\sigma^2 \ge 1\): 클러스터링은 반드시 분산을 증가시킴 (\(\tau^2 \ge 0\)).
\(m\) 에 무관: 표본 크기와 무관한 구조적 상수. 이 성질이 결정적으로 중요 — “분산 비율” 을 잔차로부터 직접 추정 가능케 함.
\(\sigma^2 \le k\): 클러스터 크기 \(k\) 가 상한. \(\tau^2 \le 1\) (분산의 자연적 제약).

2.5 \(m = 1\) 인 경우

\(m = 1\) (개체-수준 이진 자료) 에서는 \(Y \in \{0, 1\}\) 이고 평균 \(\pi\) 가 결정되면 분산이 \(\pi(1-\pi)\) 로 자동 고정. 과산포가 존재할 수 없다 — 단일 베르누이는 자유도가 없다.

따라서 과산포 논의는 \(m > 1\) 인 집계 자료에서만 의미.

직관: 과산포는 “\(\pi_i\) 가 클러스터마다 다름” 이 집계될 때 생기는 구조. 개체 관측을 보면 이항 같지만 집계하면 더 넓게 퍼진다 — 숨은 이질성이 밖으로 드러나는 순간.

3 이질성 역설의 해결 — 03-2 와의 연결

03-2 에서 McCullagh 의 비직관적 결과를 봤다: 고정 이질 \(\pi_i\) 는 분산을 감소시킴.

\[ \sum \pi_i(1-\pi_i) \;=\; m\bar\pi(1-\bar\pi) - (m-1)s^2(\pi) \;\le\; m\bar\pi(1-\bar\pi) \]

§4.5 의 해법: \(\pi_i\) 를 무작위로 취급.

고정 이질: \(\pi_i\) 알려진 다른 값들. 주변 분산 감소.

무작위 이질: \(\pi_i\) 가 공통 분포에서 뽑힌 변수. 주변 분산 증가 (과산포).

같은 “이질성” 이라는 말이 두 해석에서 반대 방향으로 작동. 실무는 후자 (무작위) 가 거의 항상 올바른 프레이밍.

직관: 실무의 이질성은 “구체적으로 이 값이다” 가 아니라 “어떤 분포에서 나왔을 것이다” 로 이해해야. 전자는 대수적 동일성 (분산 감소), 후자는 베이지안 혼합 (분산 증가). 후자가 현실을 반영.

4 Beta-Binomial 과의 비교

4.1 Beta-Binomial 모형

\(\pi_i\) 가 Beta 분포를 따른다고 가정.

\[ \pi_i \sim \mathrm{Beta}(\alpha, \beta),\qquad Y_i|\pi_i \sim \mathrm{Bin}(m_i, \pi_i) \]

주변 분포:

\[ Y_i \sim \mathrm{BetaBin}(m_i, \alpha, \beta) \]

Beta 의 분산 \(\mathrm{Var}(\pi_i) = \pi(1-\pi)/(\alpha+\beta+1)\) 로 두면

\[ \mathrm{Var}(Y_i) \;=\; m_i\pi(1-\pi)\left\{1 + \frac{m_i - 1}{\alpha + \beta + 1}\right\} \]

4.2 중요한 차이

\(\sigma^2_{BB}(m) = \mathrm{Var}(Y)/\{m\pi(1-\pi)\}\) 가 \(m\) 의 선형 함수.

반면 클러스터 모형 (4.20) 에서 \(\sigma^2\) 는 \(m\) 과 무관한 상수.

4.3 실무 선택

McCullagh 의 경험적 결론: “대부분의 실제 자료에서는 상수 \(\sigma^2\) (클러스터 모형) 가 Beta-Binomial 보다 잘 적합”.

이유 추측: - Beta 가정이 임의적 (수학적 편의). - 실무 데이터의 이질성이 Beta 처럼 매끄럽지 않음. - 클러스터 크기 \(k\) 가 직접적으로 \(\sigma^2\) 에 반영되는 구조가 더 자연스러움.

4.4 진단 방법

잔차를 \(m_i\) 에 대해 플로팅. 잔차 분산의 추세로 판별:

일정 → 상수 \(\sigma^2\) (클러스터).
\(m_i\) 에 비례 → Beta-binomial.

실무에서는 이런 진단이 잘 수행되지 않고 기본값 (상수 \(\sigma^2\)) 으로 진행.

직관: Beta-Binomial 은 이론적으로 우아하지만 구체적 분포 가정이 임의적. 상수 \(\sigma^2\) 는 “모형 미지정” 의 겸손한 자세 — 분포 전체가 아니라 분산 관계만 지정.

5 Quasi-likelihood 접근 (§4.5.2)

5.1 핵심 아이디어

특정 과산포 분포를 가정하지 않고, 변이 관계만 명시.

\[ E(Y_i) = m_i\pi_i,\qquad \mathrm{Var}(Y_i) = \sigma^2 m_i\pi_i(1-\pi_i) \]

이것이 quasi-likelihood 의 전부. 평균 구조는 이항 GLM 과 동일, 분산에 \(\sigma^2\) 상수 배수만 추가.

5.2 모수 추정

\(\boldsymbol\beta\) 추정: 이항 GLM 의 스코어 방정식이 그대로 유효.

\[ \mathbf{X}^\top\mathbf{W}(\mathbf{y} - \boldsymbol\mu) = \mathbf{0} \]

\(\sigma^2\) 는 스코어에 영향 없음 (상수 배수로 나눠지므로). 따라서 \(\hat{\boldsymbol\beta}\) 는 이항 GLM 과 동일.

\(\sigma^2\) 추정: 잔차로부터 별도 추정 (다음 섹션).

\(\mathrm{Var}(\hat{\boldsymbol\beta})\): \(\sigma^2\) 배수만큼 팽창.

\[ \mathrm{Var}(\hat{\boldsymbol\beta}) \;\approx\; \sigma^2(\mathbf{X}^\top\mathbf{W}\mathbf{X})^{-1} \]

이항 공식에 \(\sigma^2\) 곱하기. 표준오차는 \(\sigma\) 배 커진다.

5.3 검정 통계량의 수정

\[ D \sim \chi^2_{n-p} \;\mapsto\; D \sim \sigma^2\chi^2_{n-p} \]

\[ \Delta D \sim \chi^2_1 \;\mapsto\; \Delta D \sim \sigma^2 \chi^2_1 \]

이탈도를 \(\sigma^2\) 로 나눠 정규화한 후 \(\chi^2\) 근사. 이는 \(F\) 검정과 동치:

\[ F \;=\; \frac{\Delta D/\Delta p}{\hat\sigma^2} \]

\(F\) 분포 자유도는 \((\Delta p, n-p)\).

직관: Quasi-likelihood 는 “분포를 몰라도 추론 가능” 이라는 Gauss-Markov 철학의 GLM 확장. OLS 에서 Normal 가정이 없어도 BLUE 였듯, 이항 GLM 에서 “이항이 아니어도” 평균·분산만 올바르면 유효.

6 \(\sigma^2\) 추정 방법 (§4.5.2)

6.1 방법 1 — 복제 기반 (§4.5.2, (4.22))

전제: 같은 공변량 값에 여러 관측이 있음. Covariate class \(i\) 에 \((y_1, m_1), \dots, (y_r, m_r)\).

클래스 내 추정: \(\tilde\pi = y_\cdot / m_\cdot = \sum y_j / \sum m_j\).

가중 클래스 내 제곱합:

\[ s_i^2 \;=\; \frac{1}{r-1}\sum_{j=1}^r \frac{(y_j - m_j\tilde\pi)^2}{m_j\tilde\pi(1-\tilde\pi)} \]

이 값의 기대는 \(\sigma^2\) (\((r-1)\) 자유도).

전체 풀 추정: 여러 클래스에서 \(s^2_i\) 를 풀.

\[ \hat\sigma^2_{\text{rep}} \;=\; \frac{\sum_i (r_i - 1)s_i^2}{\sum_i (r_i - 1)} \]

장점: - 모형 독립 — 어떤 모형을 쓰든 결과가 같음. - 순수한 “같은 조건 반복” 에서 나오는 자연적 분산 추정.

단점: - 복제가 있어야 함. 연속 공변량이나 희귀 조건에서는 어려움.

6.2 방법 2 — Pearson 기반 ((4.23))

전제: 적합된 모형이 있음.

공식:

\[ \hat\sigma^2_{\text{Pearson}} \;=\; \frac{X^2}{n-p} \;=\; \frac{1}{n-p}\sum_i \frac{(y_i - m_i\hat\pi_i)^2}{m_i\hat\pi_i(1-\hat\pi_i)} \]

장점: - 복제 불필요. 언제나 계산 가능. - 표준 소프트웨어 출력.

단점: - 모형 의존. 잘못된 모형이면 \(\sigma^2\) 도 오염. - 희소 자료 (\(m_i = 1\)) 에서 문제: \(\hat\sigma^2 = n/(n-1) \to 1\). 실제 \(\sigma^2\) 가 얼마든 관계없이 1 에 근접.

6.3 방법 3 — 이탈도 기반

\[ \hat\sigma^2_D \;=\; \frac{D}{n-p} \]

큰 \(m_i\) 에서: Pearson 방법과 근사 동등.

희소한 경우 (\(m_i = 1\)): 일관성 없음. \(D/(n-p)\) 값이 \(\hat\pi\) 의 함수라 \(\sigma^2\) 와 무관하게 움직임.

\(Y_i \sim \mathrm{Bern}(\pi)\) (동일 \(\pi\)) 에서

\[ \frac{D}{n-1} \;=\; -\frac{2n}{n-1}\{\hat\pi\log\hat\pi + (1-\hat\pi)\log(1-\hat\pi)\} \;\in\; [0, 2\log 2] \]

\(\pi\) 값에 따라 \(0 \sim 1.386\) 로 변동. \(\sigma^2\) 추정으로 쓸 수 없다.

6.4 세 방법 비교표

방법	복제 필요	모형 독립	\(m=1\) 안정
Replication (4.22)	예	예	예 (자동 \(\approx 1\))
Pearson (4.23)	아니오	아니오	예 (점근 1)
Deviance	아니오	아니오	아니오 (퇴화)

실무 권장: 1. 복제 있으면 replication 방법 1 순위. 2. 없으면 Pearson. 3. Deviance 는 (4.4.5 의 퇴화 때문에) 희소 자료에서 피함.

직관: \(\sigma^2\) 는 “모형이 설명하지 못한 여분의 퍼짐” 을 포착. Replication 은 “같은 조건 반복” 이라는 가장 깨끗한 증거, Pearson 은 “모형 가정 하에 남은 잔차 크기”. 둘 다 같은 양을 다른 방식으로 추정.

7 실무 예시와 진단

7.1 Williams 방법 (mixed model 단순화)

무작위 효과 로지스틱의 특수 경우. \(\pi_i\) 가 Beta 로 분포한다는 가정을 정확히 따르지 않고 “moments matching” 으로 \(\tau^2\) 추정:

이항 GLM 적합, Pearson \(X^2/(n-p)\) 계산.
\(\hat\tau^2 = (X^2/(n-p) - 1) / \bar m\) (평균 클러스터 크기).
IRLS 가중치에 \(\hat\tau^2\) 반영해 재적합.
수렴까지 반복.

복잡한 무작위 효과 모형 없이 과산포 대응 가능. R 의 aod::betabin(), 옛 GLIM 의 표준.

7.2 과산포 탐지 체크리스트

Pearson \(X^2/(n-p)\) 계산. 1.2 이상이면 주의, 2 이상이면 확실.
잔차 플롯: 큰 표준화 잔차가 몰려 있으면 과산포 또는 모형 오식별.
클러스터 구조 점검: 자료 수집 설계에 클러스터가 있었는지. 있으면 거의 확실히 과산포.
복제 있으면 (4.22) 로 독립 추정해서 Pearson 과 비교.

7.3 과산포 무시의 영향 — 수치 예시

\(\sigma^2 = 2\) (적당한 과산포) 인 상황에서:

순진 표준오차: 과소 추정 (\(\sqrt{2} \approx 1.41\) 배 작게).
95% 신뢰구간: 30% 좁게.
\(p\)-값: 원래 0.05 근처인 것이 0.01 근처로 과장.
이탈도 \(\chi^2\) 검정: 자유도 대비 큰 이탈도를 “유의” 로 잘못 판정.

실무 결과: 거짓 발견 (false discovery) 증가. 특히 대규모 역학 연구에서 심각.

직관: 과산포는 “조용한” 오류다 — 계수 추정은 정확, 표준오차만 틀림. 그래서 잘못된 확신이 주된 피해. 과산포 진단은 모든 이항 GLM 분석의 기본 절차.

8 코드 예시

8.1 Step 1: 과산포 자료 생성 및 진단

import numpy as np
import pandas as pd
import statsmodels.api as sm

rng = np.random.default_rng(0)
n_class = 50
m_i = np.full(n_class, 20)           # 모두 m=20

# 진짜 모형: 과산포 있음 (Beta-binomial 유사)
x = np.linspace(-2, 2, n_class)
true_eta = -0.3 + 0.8 * x
true_pi_mean = 1 / (1 + np.exp(-true_eta))

# 클러스터별 pi 변동 주기
tau = 0.3
pi_actual = np.clip(true_pi_mean +
                    tau * np.sqrt(true_pi_mean*(1-true_pi_mean)) *
                    rng.normal(size=n_class), 0.01, 0.99)
y = rng.binomial(m_i, pi_actual)

# 이항 GLM 적합
X = np.column_stack([np.ones(n_class), x])
Y = np.column_stack([y, m_i - y])
m_binom = sm.GLM(Y, X, family=sm.families.Binomial()).fit()

# Pearson 기반 sigma^2 추정
sigma2_hat = m_binom.pearson_chi2 / m_binom.df_resid
print(f"Pearson X² / df = {sigma2_hat:.3f}")
print(f"이항 표준오차:   {m_binom.bse}")
print(f"과산포 SE:       {m_binom.bse * np.sqrt(sigma2_hat)}")

\(\sigma^2 > 1\) 확인. 표준오차 팽창 효과 비교.

8.2 Step 2: Quasi-binomial 추정

# statsmodels 의 scale="X2" 옵션
m_quasi = sm.GLM(Y, X, family=sm.families.Binomial()).fit(scale="X2")

print(f"이항 적합:")
print(f"  beta_hat = {m_binom.params}")
print(f"  SE      = {m_binom.bse}")

print(f"\nQuasi-binomial 적합 (sigma^2 = {m_quasi.scale:.3f}):")
print(f"  beta_hat = {m_quasi.params}  (동일)")
print(f"  SE      = {m_quasi.bse}  (sigma 배 팽창)")

# 점추정은 같고, SE 만 sqrt(sigma^2) 배

Quasi-binomial 은 \(\boldsymbol\beta\) 동일, SE 만 \(\hat\sigma\) 배. Pearson 기반 \(\sigma^2\) 추정이 자동 적용.

8.3 Step 3: 복제 기반 \(\sigma^2\) 추정

# 각 공변량 조건에서 여러 관측 (복제) 있는 자료
rng = np.random.default_rng(42)
r_per_x = 5                           # 각 x 에서 5번 복제
x_vals = np.linspace(-1, 1, 10)
data = []
for xv in x_vals:
    eta = 0.2 + 0.5 * xv
    pi_mean = 1 / (1 + np.exp(-eta))
    # 클러스터 효과
    for _ in range(r_per_x):
        pi_j = np.clip(pi_mean + 0.2 * rng.normal(), 0.05, 0.95)
        m_j = 15
        y_j = rng.binomial(m_j, pi_j)
        data.append({"x": xv, "y": y_j, "m": m_j})

df = pd.DataFrame(data)

# 클래스 내 추정
def replication_sigma2(df):
    s_values = []
    for xv, grp in df.groupby("x"):
        r = len(grp)
        if r < 2: continue
        pi_tilde = grp["y"].sum() / grp["m"].sum()
        if pi_tilde in (0, 1): continue
        s_i = np.sum((grp["y"] - grp["m"] * pi_tilde)**2 /
                     (grp["m"] * pi_tilde * (1 - pi_tilde))) / (r - 1)
        s_values.append((r - 1, s_i))
    total_df = sum(d for d, _ in s_values)
    total_ss = sum(d * s for d, s in s_values)
    return total_ss / total_df, total_df

sigma2_rep, df_rep = replication_sigma2(df)
print(f"복제 기반 sigma^2: {sigma2_rep:.3f}  (df = {df_rep})")

# 비교: 같은 자료의 Pearson 기반
df_agg = df.groupby("x").agg(y=("y", "sum"), m=("m", "sum")).reset_index()
X_agg = np.column_stack([np.ones(len(df_agg)), df_agg["x"]])
Y_agg = np.column_stack([df_agg["y"], df_agg["m"] - df_agg["y"]])
m_fit = sm.GLM(Y_agg, X_agg, family=sm.families.Binomial()).fit()
sigma2_pear = m_fit.pearson_chi2 / m_fit.df_resid
print(f"집계 후 Pearson sigma^2: {sigma2_pear:.3f}")
# 복제 추정이 모형 독립 — 두 값이 비슷하면 모형 적합 좋음

복제 추정은 모형 독립이므로 Pearson 추정과 비교하면 모형 적합도의 간접 진단.

8.4 Step 4: 과산포를 무시한 추론의 위험

# 반복 시뮬레이션으로 95% CI 커버리지 확인
rng = np.random.default_rng(0)
n_sim = 1000
cover_naive = 0
cover_quasi = 0
sigma2_true = 2.5
beta_true = 0.8

for _ in range(n_sim):
    n_cl = 30
    m = np.full(n_cl, 15)
    x = rng.uniform(-1, 1, n_cl)
    # 과산포 있는 자료 (혼합 분산)
    eta = 0 + beta_true * x
    pi = 1 / (1 + np.exp(-eta))
    # 분산 팽창 사용
    pi_actual = np.clip(pi + np.sqrt((sigma2_true-1)/max(m.mean()-1, 1)) *
                        np.sqrt(pi*(1-pi)) * rng.normal(n_cl), 0.01, 0.99)
    y = rng.binomial(m, pi_actual)

    Y = np.column_stack([y, m - y])
    X = np.column_stack([np.ones(n_cl), x])
    m_naive = sm.GLM(Y, X, family=sm.families.Binomial()).fit()
    m_quasi = sm.GLM(Y, X, family=sm.families.Binomial()).fit(scale="X2")

    ci_naive = m_naive.conf_int(alpha=0.05)[1]      # x 계수
    ci_quasi = m_quasi.conf_int(alpha=0.05)[1]

    if ci_naive[0] <= beta_true <= ci_naive[1]: cover_naive += 1
    if ci_quasi[0] <= beta_true <= ci_quasi[1]: cover_quasi += 1

print(f"Naive 이항 CI 95% 커버리지:  {cover_naive/n_sim:.1%}")
print(f"Quasi-binomial CI 95% 커버리지: {cover_quasi/n_sim:.1%}")
print("Naive 는 95% 보다 현저히 작음 — 과산포 무시의 대가")

이항 가정 무시는 실제 커버리지를 80% 이하로 떨어뜨림. Quasi 는 95% 에 가깝게 복원.

9 흔한 실수

실수	처방
이항 GLM 적합 후 과산포 진단 생략	Pearson \(X^2/(n-p)\) 항상 확인. 1.2 이상이면 Quasi
\(D/(n-p)\) 로 \(\sigma^2\) 추정	희소 자료에서 퇴화. Pearson \(X^2/(n-p)\) 사용
이진 (\(m=1\)) 에서 과산포 찾기	정의상 불가능. 집계 또는 혼합 효과 모형
Quasi-binomial 과 Beta-Binomial 를 같은 것으로 취급	\(\sigma^2\) 의 \(m\) 의존성이 다름. 잔차 플롯으로 구분
과산포 진단 없이 이탈도 \(\chi^2\) 비교	\(\Delta D / \sigma^2\) 로 보정해야. 안 하면 거짓 유의성
복제 있는데도 Pearson 만 쓰기	(4.22) 복제 추정도 병행하면 모형 적합도 교차 확인
과산포 = “데이터 잘못” 이라고 해석	거의 모든 실제 자료의 특성. 모형이 현실을 따라가야

10 요약

과산포의 정의: \(\mathrm{Var}(Y) > m\pi(1-\pi)\). 실무에서 규칙이지 예외가 아님.
발생 원인: 주로 클러스터링. \(Z_i \sim \mathrm{Bin}(k, \pi_i)\), \(\pi_i\) 가 클러스터마다 변동.
분산 팽창 계수: \(\sigma^2 = 1 + (k-1)\tau^2\). \(m\) 과 무관한 상수 — 잔차로부터 추정 가능.
\(m = 1\) 인 경우: 과산포 존재 불가 (자유도 없음).
Beta-Binomial vs 클러스터 모형: 전자는 \(\sigma^2\) 가 \(m\) 의 선형 함수, 후자는 상수. 실제는 후자 선호.
Quasi-likelihood: 분포 미지정, 평균·분산 관계만 고정. \(\boldsymbol\beta\) 점추정 불변, SE 는 \(\sigma\) 배.
\(\sigma^2\) 추정:
- 복제 기반 (4.22): 모형 독립, 복제 필요.
- Pearson (4.23): 모형 의존, 항상 가능.
- 이탈도 기반: 희소 자료에서 퇴화, 피함.
검정 수정: \(D \sim \sigma^2\chi^2\), \(F\) 검정으로 변환.
실무 영향: 과산포 무시 시 표준오차 과소 추정 → 거짓 유의성.

한 줄 요약: §4.5 는 이항 GLM 의 “분산 자유도 회복” 을 다룬다. 이항이 정해 준 분산을 그대로 믿는 대신, 데이터가 말하는 “진짜 퍼짐” 을 \(\sigma^2\) 로 흡수하는 것이 Quasi-likelihood 의 핵심. 이 하나의 모수 추가가 거짓 유의성으로부터 실무를 지킨다.

11 관련 주제

선행 지식

이항 자료 GLM 개관
이항분포 — 이질성 역설의 고정 버전
이항 자료의 우도함수 — \(m=1\) 희소성 퇴화

관련 개념

GLM 적합도 측정 — Deviance·Pearson — \(\sigma^2\) 추정의 일반 이론
음이항 분포 — Poisson 과산포의 병행

후속 주제

Quasi-likelihood (McCullagh Ch.9) — 분포 미지정 추론의 일반 이론
Generalized Estimating Equations (GEE, Liang-Zeger 1986) — 종단 자료 과산포
Mixed-effects logistic regression — 무작위 효과로 클러스터 구조 명시적 모형
Beta-Binomial 모형 — 특정 분포 가정 버전