Kwangmin Kim - Extended Quasi-Likelihood as a Criterion — Q⁺ 를 이중 GLM 의 적합 기준으로 삼기

1 개요 — 왜 Q⁺ 를 기준으로 삼는가

§10.2 에서 평균 GLM 과 산포 GLM 을 쌍으로 명시했고, §10.3 에서 두 모형의 통계적 교차 오염을 경고했다. 이제 남은 질문: 두 모형을 한 번에 최적화하는 “단일 목적함수”가 존재하는가?

대답은 Extended Quasi-likelihood \(Q^+\) (§9.6) 다. \(Q^+\) 는 평균 \(\mu\) 와 산포 \(\phi\) 에 동시에 의존하므로, 둘을 한 식에서 공동 최대화할 수 있다. 그 결과로 나오는 스코어 방정식 \(\partial Q^+/\partial \beta = 0\), \(\partial Q^+/\partial \gamma = 0\) 가 (10.4), (10.5) 이며, 이는 이중 GLM 적합의 이론적 근거가 된다.

그러나 Q⁺ 를 쓰는 순간 암묵적 가정이 들어간다: 산포 응답 \(d_i\) 가 \(V_D(\phi) = \phi^2\) (감마 가족) 을 따른다는 것. 이는 정규 \(Y\) 에서만 정확하고, 다른 분포에서는 근사다. 이 근사의 경계를 이해하는 것이 §10.4 의 핵심이며, §10.5 의 보정 논의로 자연스럽게 이어진다.

2 Q⁺ 의 공식 — (10.3)

정의: Extended Quasi-likelihood (이중 GLM 맥락)

평균 \(\mu_i = \mu_i(\beta)\), 산포 \(\phi_i = \phi_i(\gamma)\) 에 대해

\[ -2 Q^+ = \sum_{i=1}^n \frac{d_i}{\phi_i} + \sum_{i=1}^n \log\!\left(2\pi \phi_i V(y_i)\right) \tag{10.3} \]

여기서 \(d_i\) 는 평균 모형의 이탈도 기여 (deviance component):

\[ d_i = 2 \int_{\mu_i}^{y_i} \frac{y_i - t}{V(t)} \, dt \]

\(V(\cdot)\) 는 평균 GLM 의 분산함수, \(\phi_i\) 는 산포 모수.

2.1 (10.3) 해석 — 두 항의 의미

\(-2Q^+\) 는 두 부분으로 나뉜다.

항	역할	직관
\(\sum d_i/\phi_i\)	적합의 잔차 — 관측이 평균에서 얼마나 벗어났는가를 산포로 표준화	작을수록 \(\hat\mu\) 가 데이터를 잘 맞춘다
\(\sum \log(2\pi \phi_i V(y_i))\)	정규화 상수 — 분산이 클수록 확률이 “옅어져” 커지는 페널티	산포를 무작정 키우지 못하게 막음

두 항의 경쟁이 합리적 산포 추정을 가능하게 한다. 첫 항만 있으면 \(\phi_i \to \infty\) 가 최적 (잔차 0 으로 보내버림), 둘째 항만 있으면 \(\phi_i \to 0\) 이 최적 (정규화 상수 \(-\infty\)). 둘이 균형을 이루는 지점에 \(\hat\phi\) 가 위치한다.

2.2 왜 \(\log V(y_i)\) 가 들어가는가

Q⁺ 의 정의 (9.20) 에서 \(-\tfrac{1}{2}\log V(y)\) 항이 saddlepoint 근사의 Jacobian 에서 나온다. 이는 \(y\) 에만 의존하며 \(\beta, \gamma\) 적합에는 상수 기여 — 즉 \(\partial/\partial \beta = \partial/\partial \gamma = 0\). 그러므로 실무 최적화에서는 자주 생략되지만, 모형 비교 (서로 다른 \(V\) 를 비교할 때) 에서는 유지해야 한다.

3 β 에 대한 스코어 방정식 — (10.4) 유도

3.1 편미분

\(-2Q^+\) 를 \(\beta_j\) 로 미분:

\[ -2 \frac{\partial Q^+}{\partial \beta_j} = \sum_i \frac{1}{\phi_i} \cdot \frac{\partial d_i}{\partial \beta_j} + 0 \]

둘째 항은 \(\beta\) 와 무관 (상수) 이므로 사라진다. 첫 항에서 \(d_i\) 의 \(\beta\)-의존은 \(\mu_i\) 를 통해서:

\[ \frac{\partial d_i}{\partial \mu_i} = \frac{\partial}{\partial \mu_i} \left\{ 2\int_{\mu_i}^{y_i} \frac{y_i - t}{V(t)} dt \right\} = -2 \cdot \frac{y_i - \mu_i}{V(\mu_i)} \]

(적분 상한이 고정, 하한을 \(\mu_i\) 로 미분, 부호 주의)

3.2 연쇄법칙

\[ \frac{\partial d_i}{\partial \beta_j} = \frac{\partial d_i}{\partial \mu_i} \cdot \frac{\partial \mu_i}{\partial \beta_j} = -2 \cdot \frac{y_i - \mu_i}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \beta_j} \]

3.3 스코어 방정식

\(\partial Q^+/\partial \beta_j = 0\) 을 정리:

\[ \sum_{i=1}^n \frac{y_i - \mu_i}{\phi_i V(\mu_i)} \frac{\partial \mu_i}{\partial \beta_j} = 0 \tag{10.4} \]

3.4 직관 — 왜 (10.4) 가 “가중 Wedderburn” 인가

(10.4) 는 표준 준우도 스코어

\[ U_\beta = \sum_i \frac{y_i - \mu_i}{V(\mu_i)} \frac{\partial \mu_i}{\partial \beta_j} = 0 \]

에 가중치 \(1/\phi_i\) 가 곱해진 꼴이다. 일반 GLM 에서 \(\phi\) 는 전역 상수라 생략 가능했지만, 이제 \(\phi_i\) 가 관측마다 다르므로 IRLS 단계에서 가중치 행렬 \(W = \mathrm{diag}(1/\phi_i)\) 로 들어가야 한다.

실무적으로: 이중 GLM 적합 알고리즘의 Step A (평균 적합) 는 정확히 (10.4) 를 푸는 가중 IRLS 이며, 가중치는 이전 반복의 \(\hat\phi_i^{(k-1)}\) 에서 온다.

3.5 관측: 평균 추정은 \(Q^+\) 를 극대화하는 것과 Wedderburn 준우도를 극대화하는 것이 동치

이는 중요한 사실이다. Q⁺ 를 채택하더라도 평균 부분의 추정 방정식은 표준 준우도 이론에서 나오는 것과 완전히 같다. 차이는 가중치뿐. Q⁺ 의 “확장”은 평균이 아니라 산포에 있다.

4 γ 에 대한 스코어 방정식 — (10.5) 유도

4.1 편미분

\(-2Q^+\) 를 \(\gamma_r\) 로 미분:

\[ -2 \frac{\partial Q^+}{\partial \gamma_r} = \sum_i \left\{ -\frac{d_i}{\phi_i^2} \cdot \frac{\partial \phi_i}{\partial \gamma_r} + \frac{1}{\phi_i} \cdot \frac{\partial \phi_i}{\partial \gamma_r} \right\} \]

\[ = -\sum_i \frac{d_i - \phi_i}{\phi_i^2} \frac{\partial \phi_i}{\partial \gamma_r} \]

4.2 스코어 방정식

\(\partial Q^+/\partial \gamma_r = 0\) :

\[ \sum_{i=1}^n \frac{d_i - \phi_i}{\phi_i^2} \frac{\partial \phi_i}{\partial \gamma_r} = 0 \tag{10.5} \]

4.3 직관 — (10.5) 를 Wedderburn 방정식으로 읽기

(10.5) 와 일반 Wedderburn 스코어의 템플릿을 비교하자.

일반 템플릿: \[ \sum_i \frac{Y_i - m_i}{V^*(m_i)} \frac{\partial m_i}{\partial \theta_r} = 0 \]

(10.5) 의 꼴: \[ \sum_i \frac{d_i - \phi_i}{\phi_i^2} \frac{\partial \phi_i}{\partial \gamma_r} = 0 \]

일대일 대응:

일반 GLM	산포 GLM (Q⁺ 기준)
응답 \(Y_i\)	\(d_i\)
평균 \(m_i\)	\(\phi_i\)
분산함수 \(V^*(m)\)	\(V_D(\phi) = \phi^2\)
연결 \(g(m)\)	\(h(\phi)\) (임의, 보통 log)

즉 산포 GLM 의 분산함수가 \(V_D(\phi) = \phi^2\) 로 자동 고정된다. \(Y\) 의 분산함수 \(V(\mu)\) 가 무엇이든 상관없이, Q⁺ 를 최적화 기준으로 쓰면 산포 응답은 감마 가족의 GLM 으로 취급된다.

5 왜 \(V_D(\phi) = \phi^2\) 인가 — 정규 유래

정규 \(Y \sim N(\mu, \phi)\) 에서 \(d_i = (Y_i - \mu_i)^2\) 는 \(\phi_i \chi_1^2\) 분포.

\[ E(d_i) = \phi_i, \qquad \mathrm{var}(d_i) = 2\phi_i^2 \]

즉 정규에서 \(d_i\) 는 평균 \(\phi_i\), 분산 \(2\phi_i^2\) — 이는 \(\mathrm{shape}=\tfrac{1}{2}, \mathrm{scale}=2\phi_i\) 의 감마 분포. 감마의 분산함수가 \(V_D(\phi) = \phi^2\) (계수 2 는 scale factor \(\tau\) 에 흡수).

요약: Q⁺ 를 쓰면 산포 GLM 은 “정규 \(Y\) 의 \((Y-\mu)^2\) 가 감마 분포 \(\chi_1^2 \cdot \phi\) 를 따른다”는 정규 특화 사실에 묶인다.

5.1 비정규에서는 — 근사일 뿐

\(Y\) 가 포아송·이항·감마이면 \((Y-\mu)^2\) 의 분산은 \(2\phi_i^2\) 가 아니라 \(2\phi_i^2 (1+\rho_4/2)\) 로 첨도에 따라 수정돼야 한다 (§10.5.1 에서 상세). \(\rho_4\) 가 0 이 아니면 Q⁺ 유도에서 나온 (10.5) 가 편의가 아닌 잘못된 분산 가정 하의 스코어가 된다.

따라서 Q⁺ 는:

정규 \(Y\): 정확한 목적함수 (일반 정규 로그우도와 동치)
비정규 \(Y\): 근사. 1차 근사로 유효하나 첨도가 크면 위험

§10.4 의 마지막 문장이 이 점을 명시:

“so far as estimation is concerned, the use of \(Q^+\) as an optimizing criterion is equivalent to assuming that the deviance component has a variance function of the form \(V_D(\phi) = \phi^2\), regardless of the variance function for \(Y\). This can only be approximately correct.”

6 이중 GLM 알고리즘의 이론적 정당화

6.1 (10.4) + (10.5) = 교대 IRLS

(10.4) 와 (10.5) 는 서로 분리된다. (10.4) 에는 \(\phi\) 가 가중치로만 들어가고, (10.5) 에는 \(\mu\) 가 \(d_i\) 를 통해서만 들어간다. 이 분리 덕분에:

Step A (β 추정): (10.4) 를 IRLS 로 풀되, weight = 1/phi^{(k-1)} 고정
Step B (γ 추정): (10.5) 를 IRLS 로 풀되, d_i = d_i(Y_i, mu^{(k)}) 고정

각 Step 이 독립 GLM 적합이다. 이것이 Pregibon (1984) 제안의 이론적 근거이자, Smyth (1989) dglm 구현의 수학적 기반.

6.2 블록대각 피셔 정보 (Ex 10.4)

Q⁺ 의 \((\beta, \gamma)\) 교차 이차편미분:

\[ \frac{\partial^2 (-2Q^+)}{\partial \beta_j \partial \gamma_r} = \frac{\partial}{\partial \gamma_r}\left\{ -2 \cdot \frac{y_i - \mu_i}{\phi_i V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \beta_j} \right\} \]

\(\gamma_r\) 가 \(\phi_i\) 를 통해 들어가므로:

\[ = 2 \cdot \frac{y_i - \mu_i}{\phi_i^2 V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \beta_j} \cdot \frac{\partial \phi_i}{\partial \gamma_r} \]

기댓값을 취하면 \(E(y_i - \mu_i) = 0\) 이므로

\[ E\!\left(\frac{\partial^2 (-2Q^+)}{\partial \beta_j \partial \gamma_r}\right) = 0 \]

즉 기대 Fisher 정보가 블록대각. 직관:

\(\partial Q^+/\partial \beta\) 는 \(y - \mu\) 에 선형
\(\partial Q^+/\partial \gamma\) 는 \(d - \phi\) 에 선형
두 함수가 직교 (한쪽은 잔차, 한쪽은 잔차 제곱의 편차)

함의: \(\hat\beta, \hat\gamma\) 의 점근 공분산이 분리되어 산포 불확실성이 평균 계수 SE 에 영향을 주지 않는다 (선두 근사에서). 이중 GLM 소프트웨어가 두 부분의 SE 를 독립 계산해도 되는 이유.

7 Q⁺ vs 정규 로그우도의 차이

정규 \(Y\) 의 정확한 로그우도:

\[ \ell = -\frac{1}{2} \sum_i \left\{ \log(2\pi\phi_i) + \frac{(y_i - \mu_i)^2}{\phi_i} \right\} \]

이중 GLM 에서 \(V(y) = 1\) (정규), \(d_i = (y_i - \mu_i)^2\) 이므로 Q⁺ 식:

\[ -2 Q^+ = \sum_i \frac{(y_i - \mu_i)^2}{\phi_i} + \sum_i \log(2\pi \phi_i \cdot 1) = -2\ell \]

정규에서 Q⁺ = 정규 로그우도. Q⁺ 는 정규로부터의 자연스러운 확장이며, \(V(\mu) \neq 1\) 인 경우에도 같은 형식을 유지한다. 이것이 “extended” 의 의미.

왜 정규에서만 정확히 같은가. 정규 분포에서는 이탈도 기여 \(d_i\) 가 단순 제곱 오차 \((y_i - \mu_i)^2\) 이고, \(-\frac{1}{2}\log(2\pi\phi)\) 가 우도의 정규화 상수와 정확히 일치한다. 다른 분포는 이탈도가 적분 형태 (\(\int -y/V + 1/V\, d\mu\) 등) 로 정의되어 saddlepoint 전개 로만 로그우도에 수렴한다 — 즉 Q⁺ 의 두 항 (\(d_i/\phi\) + \(\log\phi V(y)\)) 구조가 정규에 정확히 맞게 설계 된 것이며, 비정규에서는 \(O(\phi^2)\) 또는 \(O(1/\mu)\) 오차가 남는 근사다.

분포	Q⁺ vs true log-likelihood
Normal	동일 (정확)
Poisson	근사 (saddlepoint)
Binomial	근사
Gamma	근사 (정확한 MLE 와 가깝지만 한계)
IG	근사

8 Q⁺ 의 한계와 경계 — 왜 보정이 필요한가

8.1 한계 1: V_D(φ)=φ² 의 고정성

\(Y\) 가 포아송이면 \((Y-\mu)^2\) 의 분산이 \(2\phi^2(1 + \phi/(2\mu))\) 이지만, Q⁺ 로 유도된 (10.5) 는 이것을 \(2\phi^2\) 로 취급한다. 과소추정된 분산은 산포 계수의 SE 과소 평가 → 허위 유의성.

8.2 한계 2: 자유도 미반영

Q⁺ 의 둘째 항 \(\sum \log(\phi_i V(y_i))\) 는 \(n\) 개 관측 전체에 작용하지만, 사실 평균 모형에 \(p\) 개 모수를 적합한 뒤 남는 자유도는 \(n - p\). Q⁺ 기반 추정은 이 자유도 감소를 고려하지 않아 \(\hat\phi\) 가 약간 작게 편향된다 (REML 이 해결하는 문제와 동일).

8.3 한계 3: 극단 데이터

\(d_i = 0\) 근처 (완벽 적합 point) 에서 로그 스케일이 폭발. Leaf-spring run 1 의 \(s^2 = 0.0003\) 처럼 반올림이나 소표본에서 발생 가능.

8.4 §10.5 의 보정들

이 세 한계에 대응하는 보정:

첨도 보정: 사전가중치 \((1+\rho_4/2)^{-1}\) 를 산포 추정방정식에 추가
자유도 보정: \(Q_M^+ = -\tfrac{1}{2}\sum d_i/\phi_i - \tfrac{\nu}{2n} \sum \log(\phi_i V(y_i))\) 로 REML 유사 보정
극단값: smoothing, 작은 positive offset 추가

다음 절 (§10.5) 이 이 셋을 체계적으로 다룬다.

9 응용 — Q⁺ 가 작동하는 실무 범위

상황	Q⁺ 적합성	이유
정규-항등, 평균 + 분산 이질성	정확	Q⁺ = 정규 로그우도
감마-로그, CV 이질성	권장	감마의 deviance 가 \(\phi \chi^2\) 근사 좋음
포아송-로그, 약한 과산포 (\(\phi \approx 1\))	근사 양호	\(\rho_4 = \phi/\mu\) 작으면 무시 가능
포아송-로그, 강한 과산포 (\(\phi \gg 1\))	보정 필요	첨도 보정 필수
이항-로짓, 대규모 \(m\)	양호	정규 근사 유효
이항-로짓, 소규모 \(m\) (특히 \(m = 1\))	위험	Bernoulli 에서는 deviance 가 \(\phi = 1\) 강제, 과산포 모형화 불가능한 경우
IG	양호	shape-scale 관계 명확

10 예제 — 정규 이중 GLM 에서 Q⁺ = log-likelihood 직접 확인

\(Y_i \sim N(\mu_i, \phi_i)\), \(\mu_i = \beta_0 + \beta_1 x_i\), \(\log\phi_i = \gamma_0 + \gamma_1 x_i\).

정규 로그우도:

\[ \ell(\beta, \gamma) = -\frac{1}{2}\sum_i \left\{ \log(2\pi \phi_i) + \frac{(y_i - \mu_i)^2}{\phi_i} \right\} \]

Q⁺ (식 10.3, \(V(y) = 1\)):

\[ Q^+(\beta, \gamma) = -\frac{1}{2}\sum_i \left\{ \frac{(y_i - \mu_i)^2}{\phi_i} + \log(2\pi \phi_i) \right\} = \ell(\beta, \gamma) \]

완전 동일. 따라서 이 경우 Q⁺ 최적화 = ML 최적화 = BLUE 추정. 비정규에서 이 동등성이 깨진다.

10.1 스코어 방정식 직접 검증 (정규)

\(\partial Q^+/\partial \beta_j = 0\) 에서

\[ \sum_i \frac{y_i - \mu_i}{\phi_i \cdot 1} \cdot \frac{\partial \mu_i}{\partial \beta_j} = \sum_i \frac{y_i - \mu_i}{\phi_i} x_{ij} = 0 \]

가중 최소제곱의 정규방정식. \(\partial Q^+/\partial \gamma_r = 0\) 에서

\[ \sum_i \frac{(y_i - \mu_i)^2 - \phi_i}{\phi_i^2} \cdot \phi_i u_{ir} = \sum_i \frac{(y_i - \mu_i)^2 - \phi_i}{\phi_i} u_{ir} = 0 \]

(로그 연결 \(\phi_i = e^{\zeta_i}\), \(\partial \phi_i/\partial \gamma_r = \phi_i u_{ir}\) 대입)

이는 “산포 잔차 \((y_i - \mu_i)^2 - \phi_i\) 가 산포 공변량과 직교” 라는 조건이며, 이중 GLM 의 정규방정식과 동일하다.

11 코드 예시

11.1 Step 1: Python — Q⁺ 수치 최적화로 β·γ 공동 추정

import numpy as np
from scipy.optimize import minimize

np.random.seed(2026)
n = 200
x = np.random.uniform(-1, 1, n)
# 참 모형: mu = 2 + x, log(phi) = -0.5 + 0.8 x
mu_true = 2.0 + x
phi_true = np.exp(-0.5 + 0.8 * x)
y = np.random.normal(mu_true, np.sqrt(phi_true))

def neg_Q_plus(params, y, x):
    b0, b1, g0, g1 = params
    mu = b0 + b1 * x
    phi = np.exp(g0 + g1 * x)
    # Normal: V(mu) = 1, d_i = (y - mu)^2
    d = (y - mu) ** 2
    # -2 Q+ = sum(d/phi) + sum(log(2 pi phi V(y)))
    return 0.5 * (np.sum(d / phi) + np.sum(np.log(2 * np.pi * phi)))

res = minimize(neg_Q_plus, x0=[0, 0, 0, 0], args=(y, x), method="BFGS")
print("추정치 (beta0, beta1, gamma0, gamma1):", res.x.round(3))
print("참값                                :", [2.0, 1.0, -0.5, 0.8])

예상: [2.00, 1.00, -0.50, 0.80] 근사. 정규 데이터에서 Q⁺ 최적화 = MLE 임을 수치 확인.

11.2 Step 2: 교대 IRLS (해석적) vs 공동 최적화 비교

def joint_IRLS(y, x, n_iter=30):
    """(10.4)(10.5) 교대 반복"""
    phi = np.ones(len(y))
    for _ in range(n_iter):
        # (10.4): 가중 OLS
        W = 1.0 / phi
        X = np.column_stack([np.ones(len(y)), x])
        beta = np.linalg.solve(X.T @ np.diag(W) @ X, X.T @ np.diag(W) @ y)
        mu = X @ beta
        # (10.5): d_i = (y - mu)^2 감마 GLM 로그 링크
        d = (y - mu) ** 2
        log_d = np.log(d + 1e-8)
        U = np.column_stack([np.ones(len(y)), x])
        gamma = np.linalg.solve(U.T @ U, U.T @ log_d)
        phi = np.exp(U @ gamma)
    return beta, gamma

b, g = joint_IRLS(y, x)
print("IRLS   (beta, gamma):", np.round(b, 3), np.round(g, 3))
print("BFGS   (beta, gamma):", res.x.round(3))

두 방법이 거의 같은 해에 수렴. IRLS 는 수치적 이점 (블록대각 Hessian 활용), 공동 최적화는 검증용.

11.3 Step 3: 비정규에서 Q⁺ 편향 확인

from scipy.stats import gamma as gamma_dist

np.random.seed(7)
# 감마 데이터: V(mu) = mu^2, phi = 0.5 상수
n = 500
mu = 3.0
phi_true_const = 0.5
shape = 1 / phi_true_const
Y = gamma_dist.rvs(a=shape, scale=mu / shape, size=n)

# d_i = r_D^2 (감마 deviance) 로 계산
r_D_sq = 2 * ((Y - mu) / mu - np.log(Y / mu))

# Q+ 최적화는 E(d) = phi, V_D = phi^2 가정
# 단순 평균으로 phi 추정
phi_hat = r_D_sq.mean()
# 실제 이론: E(r_D^2) ≈ phi * (1 + b), b = phi/6
b = phi_true_const / 6
phi_hat_corrected = phi_hat / (1 + b)

print(f"E(d) 표본평균    : {phi_hat:.4f}")
print(f"참 phi           : {phi_true_const}")
print(f"b 보정 후 phi_hat: {phi_hat_corrected:.4f}")

예상: \(\hat\phi\) 가 \(\phi(1 + b)\) 방향으로 편향. Q⁺ 의 한계를 보여주는 수치 증거.

12 진단 — Q⁺ 기준 사용 시 체크

진단	탐지
\(d_i\) 분포 QQ-plot (감마)	\(V_D = \phi^2\) 가정 타당성
\(\hat\phi_i\) vs \(\hat\mu_i\) 산점도	평균-산포 결합 패턴
\(d_i / \hat\phi_i\) 의 표준편차	\(\sqrt{2}\) 가정 (정규) 인지 확인
Deviance 비교 (full vs reduced 산포 모형)	산포 공변량 유의성
\(\hat\rho_4\) 추정 (첨도)	첨도 보정 필요 여부 (§10.5.1)

13 Q⁺ 의 철학적 위치

Q⁺ 는 Wedderburn 준우도의 확장이지만, “분포를 가정하지 않는다”는 준우도의 원래 미덕을 부분적으로 포기한다. 구체적으로:

평균 부분: \(E(Y) = \mu, \mathrm{var}(Y) = \phi V(\mu)\) 만 가정 — 준우도의 미덕 유지
산포 부분: \((Y-\mu)^2\) 가 감마 유사 (CV 상수) — 분포 가족의 암묵 가정

이 교환 (trade-off) 은 실무에서 대부분 수용할 만하다 — 정규·감마 데이터에서 거의 정확, 포아송·이항에서 첨도 보정으로 해결. 하지만 분포의 꼬리가 매우 무거운 경우 (두꺼운 꼬리 금융 데이터, 극단치 많은 생태 데이터) 에서는 준우도 스코어 (§9.4) 에 기반한 직접 모델링이 더 안전할 수 있다.

14 요약

주제	핵심
기준	\(-2Q^+ = \sum d_i/\phi_i + \sum \log(2\pi\phi_i V(y_i))\) (10.3)
β 방정식	\(\sum \frac{y_i - \mu_i}{\phi_i V(\mu_i)} \frac{\partial \mu_i}{\partial \beta_j} = 0\) (10.4) — 가중 Wedderburn
γ 방정식	\(\sum \frac{d_i - \phi_i}{\phi_i^2} \frac{\partial \phi_i}{\partial \gamma_r} = 0\) (10.5) — 감마-로그 GLM 응답 \(d_i\)
암묵 가정	산포 응답 \(d_i\) 가 \(V_D(\phi) = \phi^2\) (감마 가족)
정확성	정규: 정확. 비정규: 근사
보정 필요	첨도 (\(\rho_4 \neq 0\)), 자유도 (\(n \to n-p\)), 극단값
정당화	교대 IRLS 가능, 블록대각 Fisher 정보

다음 절 (§10.5) 이 Q⁺ 의 한계를 체계적으로 보정한다.

15 관련 주제

선행 지식

후속 주제

Adjustments of the Estimating Equations — 첨도·자유도 보정 (McCullagh §10.5)
Joint Optimum Estimating Equations (McCullagh §10.6)
Example: Leaf-Springs (McCullagh §10.7)

관련 개념