Kwangmin Kim - Score Tests for Extra Parameters — 한 회 반복으로 끝나는 검정 (McCullagh §12.3)

1 서론 — 세 검정의 삼각 구도와 “가장 싼 검정”

GLM 에서 “확장 모형 \(M_1\) 이 현재 모형 \(M_0\) 보다 유의하게 나은가” 를 판정하는 방법은 세 가지다.

통계량	정의	사용 정보	계산 비용
LRT (이탈도)	\(2\{l(\widehat\theta_{M_1}) - l(\widehat\theta_{M_0})\}\)	\(M_0, M_1\) 둘 다의 적합	\(M_1\) 수렴까지 적합
Wald	\((\widehat\theta - \theta_0)^T I(\widehat\theta)(\widehat\theta - \theta_0)\)	\(M_1\) 만의 적합 + 공분산	\(M_1\) 수렴까지 적합
Score	\(U(\theta_0)^T I^{-1}(\theta_0) U(\theta_0)\)	\(M_0\) 만의 적합	\(M_0\) 적합 + 1 회 반복

세 통계량은 \(M_0\) 가 옳을 때 모두 점근적으로 \(\chi_k^2\) 을 따른다 — 점근 등가 다. 그러나 유한 표본에서는 값이 다르고 계산 비용도 다르다. 실무에서 가장 싼 검정은 누가 뭐라 해도 스코어 검정 이다.

§12.3 의 핵심 주장은 두 가지다.

Score 는 “확장 모형을 수렴까지 적합하지 않고” 도 계산된다. GLM 의 IRLS 는 한 회 반복으로 \(U^T I^{-1} U\) 을 뱉어낸다. 이것이 Pregibon (1982) 의 트릭이다.
Score 와 LRT 는 재모수화에 불변 인데 Wald 는 아니다. 이는 단순한 이론적 흠이 아니라 실무에서 Wald 가 음수 구간, 경계 모수에서 이상한 답을 내놓는 근본 원인이다.

이 두 사실이 왜·어떻게 성립하는지를 수식과 직관으로 풀어낸다.

2 스코어 검정의 수학적 정의

2.1 설정

모형 \(M_0\) 은 \(p\) 개 모수 \(\beta = (\beta_1, \ldots, \beta_p)\) 를 가진다. 확장 모형 \(M_1\) 은 여기에 \(k\) 개 추가 모수 \(\lambda = (\lambda_1, \ldots, \lambda_k)\) 를 더해 \(p + k\) 개 모수를 가진다. \(M_0\) 는 \(\lambda = \lambda_0\) (보통 \(\lambda_0 = 0\)) 로 정의된다.

검정하고 싶은 가설은 \(H_0: \lambda = \lambda_0\).

2.2 로그우도 도함수

\(M_1\) 의 로그우도 \(l(\beta, \lambda)\) 에 대해

\[U_\lambda(\beta, \lambda) = \frac{\partial l}{\partial \lambda}(\beta, \lambda) \in \mathbb{R}^k\]

는 \(\lambda\) 에 대한 스코어 함수(score function) 다. \(H_0\) 하에서 \(E[U_\lambda(\beta, \lambda_0)] = 0\) — 스코어의 기대값이 0 이라는 기본 성질.

\(H_0\) 가 옳다면 \(\widehat\beta_{M_0}\) 에서 평가한 \(U_\lambda\) 는 대략 0 이어야 한다. 이 벡터가 0 에서 얼마나 떨어져 있는가 를 측정한 것이 스코어 통계량이다.

2.3 Fisher 정보 행렬의 분할

\(M_1\) 의 전체 Fisher 정보 행렬을 블록으로 분할한다.

\[I(\beta, \lambda) = \begin{pmatrix} I_{\beta\beta} & I_{\beta\lambda} \\ I_{\lambda\beta} & I_{\lambda\lambda} \end{pmatrix}.\]

\(\lambda\) 에 대한 프로파일 Fisher 정보 — \(\beta\) 를 nuisance 로 취급한 정보 — 는 Schur 보수 로 주어진다.

\[i(\lambda | \beta) = I_{\lambda\lambda} - I_{\lambda\beta} I_{\beta\beta}^{-1} I_{\beta\lambda}.\]

이것이 교재의 \(i(\lambda_0 | \cdot)\) 표기에서 점 “\(\cdot\)” 의 뜻이다. “\(\beta\) 를 추정해서 그 불확실성만큼 \(\lambda\) 의 정보를 차감한” 양이다.

2.4 스코어 통계량

스코어 통계량은 \(\widehat\beta_{M_0}\) 에서 평가한 스코어와 프로파일 정보의 이차형식이다.

\[ \boxed{\;S(\lambda_0) = U_\lambda(\widehat\beta_{M_0}, \lambda_0)^T \cdot i^{-1}(\lambda_0 | \widehat\beta_{M_0}) \cdot U_\lambda(\widehat\beta_{M_0}, \lambda_0)\;} \]

귀무 하에서 \(S \sim \chi_k^2\) 점근.

직관: Score 는 “\(M_0\) 에서 \(\lambda_0\) 를 떠나면 우도가 얼마나 빨리 늘어나는가”

\(U_\lambda(\widehat\beta, \lambda_0)\) 가 크다 = \(\lambda\) 를 조금만 움직여도 로그우도가 급격히 올라간다 = \(\lambda_0\) 는 나쁜 선택.
\(U_\lambda(\widehat\beta, \lambda_0)\) 가 0 에 가깝다 = \(\lambda_0\) 근방에서 우도가 평평하다 = \(\lambda\) 를 움직일 필요 없다 = \(M_0\) 가 통과.

스코어는 “\(\lambda_0\) 에서 출발한 등산객이 위쪽 경사를 얼마나 강하게 느끼는가” 를 잰다. 경사가 크면 정상은 멀리 있을 가능성이 높다.

3 Pregibon 의 1-step 트릭 — GLM 에서의 계산

3.1 왜 한 회만 반복하면 되는가

IRLS 의 한 회 반복을 수행하기 위해 \(M_1\) 의 선형 예측자 확장

\[\eta^{(1)} = X\beta + Z\lambda, \qquad Z \in \mathbb{R}^{n \times k}\]

을 생각하자. \(Z\) 는 §12.2 의 네 embedding 채널 중 하나로 구성된다 — 추가 공변량, 공변량 편미분 \(v\), 구성 변량 \(\widehat\eta^2\) 등.

\(M_0\) 의 적합에서 출발 (\(\widehat\beta_{M_0}\), 가중치 \(\widehat W\), 조정 종속변량 \(\widehat z\)) 해서 \(M_1\) 의 IRLS 를 한 회 돌린다. 설계 행렬은 \(\widetilde X = (X, Z)\) 가 된다.

가중 최소제곱으로 한 회 업데이트되는 양은

\[ \begin{pmatrix} \widehat\beta^{(1)} \\ \widehat\lambda^{(1)} \end{pmatrix} = (\widetilde X^T \widehat W \widetilde X)^{-1} \widetilde X^T \widehat W \widehat z. \]

3.2 Pearson \(X^2\) 감소량 = 스코어 통계량

한 회 반복 전 의 Pearson \(X^2\) 는

\[X^2_0 = (\widehat z - X\widehat\beta_{M_0})^T \widehat W (\widehat z - X\widehat\beta_{M_0}),\]

한 회 반복 후 의 Pearson \(X^2\) 는

\[X^2_1 = (\widehat z - \widetilde X \widehat\theta^{(1)})^T \widehat W (\widehat z - \widetilde X \widehat\theta^{(1)}), \qquad \widehat\theta^{(1)} = (\widehat\beta^{(1)}, \widehat\lambda^{(1)}).\]

Pregibon (1982) 의 핵심 결과: 감소량 \(X^2_0 - X^2_1\) 은 정확히 스코어 통계량 \(S(\lambda_0)\) 와 같다.

3.3 증명 스케치

가중 최소제곱의 표준 대수로 감소량은

\[X^2_0 - X^2_1 = \widehat z^T \widehat W \{Z(Z^T M Z)^{-1} Z^T\} \widehat W \widehat z, \qquad M = \widehat W - \widehat W X(X^T \widehat W X)^{-1} X^T \widehat W\]

여기서 \(M\) 은 \(M_0\) 에서의 \(X\) 공간에 직교하는 잔차 사영 이다 (\(M\) 은 GLM 의 Studentized 단위로 본 잔차 연산자).

이제 두 항을 스코어와 프로파일 정보로 변환한다.

\(Z^T \widehat W (\widehat z - X\widehat\beta_{M_0})\) 를 생각하자. \(\widehat z - X\widehat\beta_{M_0}\) 은 조정 종속변량의 잔차, \(\widehat W\) 로 가중하면 \(\lambda_0\) 에서의 스코어 다: \(Z^T \widehat W (\widehat z - X\widehat\beta_{M_0}) = U_\lambda(\widehat\beta_{M_0}, \lambda_0)\).
\(Z^T M Z\) 는 \(\beta\) 를 nuisance 로 소거한 뒤의 \(\lambda\) 정보 다: \(Z^T M Z = i(\lambda_0 | \widehat\beta_{M_0})\) (기대 Fisher 정보의 샘플 추정).

이 두 등식을 대입하면

\[X^2_0 - X^2_1 = U_\lambda^T \cdot i^{-1}(\lambda_0 | \cdot) \cdot U_\lambda = S(\lambda_0).\]

직관: 왜 한 회로 끝나는가

IRLS 는 이차 근사 로그우도의 최댓점을 찾는 반복이다. \(M_0\) 적합에서의 가중치·조정 종속변량은 “현재 위치에서 본 이차 근사” 를 정의한다. 이 이차 근사 아래에서는 한 회의 가중 최소제곱이 정확히 최댓점으로 이동한다.

스코어 통계량은 정의상 “현재 위치에서 출발한 이차 근사 아래에서의 우도 상승” 이다. 따라서 한 회 반복의 \(X^2\) 감소 = 이차 근사의 우도 상승 = 스코어 통계량.

이 등식은 정확 하지 근사가 아니다 — 이차 근사의 세계 안에서만 성립하는 평등이지만, 그 안에서는 말 그대로 같다.

3.4 실무 구현

GLM 소프트웨어에서 스코어 검정의 구현은 다음과 같다.

\(M_0\) 적합 → \(\widehat\beta, \widehat\mu, \widehat W, \widehat z\) 저장.
설계 행렬 \(\widetilde X = (X, Z)\) 로 1 회 가중 최소제곱 수행.
감소한 \(X^2\) 를 스코어 통계량으로 보고.
\(\chi_k^2\) 임계값과 비교.

파이썬 statsmodels 에는 GLMResults.score_test() 가 없지만, 위 절차를 손으로 구현하면 된다. 이탈도 검정 (GLM(...).fit(method='IRLS') 두 번 수렴) 보다 반복 횟수가 IRLS 평균 5-10 회인 만큼 빠르다.

4 기하학적 해석 — Fig 12.1

4.1 Fig 12.1a: 로그우도 도함수 곡선

\(k = 1, p = 0\) (단일 모수, nuisance 없음) 의 경우를 생각한다. 로그우도 도함수 \(\partial l / \partial \lambda\) 를 \(\lambda\) 에 대해 플롯한다.

곡선이 \(\lambda_0\) 에서 \(U(\lambda_0) > 0\) 에 위치.
곡선이 \(\widehat\lambda\) (MLE) 에서 0 을 지난다.
곡선의 접선 기울기가 \(-i(\lambda) = \partial^2 l / \partial \lambda^2\) — 관측 정보의 음수.

스코어 통계량 \(S = U(\lambda_0)^2 / i(\lambda_0)\) 는 \(\lambda_0\) 에서의 도함수 값 제곱을 그 위치의 정보로 나눈 것. 즉 “\(\lambda_0\) 의 높이” 를 “\(\lambda_0\) 의 곡률” 로 나눈 표준화 다.

LRT 통계량 은 \(l(\widehat\lambda) - l(\lambda_0)\) 의 두 배 — 그림에서 곡선 아래 \(\lambda_0\) 부터 \(\widehat\lambda\) 까지의 면적 (로그우도는 스코어의 적분) 의 두 배다. 두 면적 (스코어의 삼각형 근사 vs 실제 곡선 아래 면적) 이 거의 같지만 정확히 같지는 않다. 그 차이가 3차 항 보정이다.

4.2 Fig 12.1b: 이탈도 vs \(X^2(\lambda)\) 곡선

실선: \(\lambda\) 를 고정하고 \(\beta\) 만 MLE 적합했을 때의 이탈도 \(D(\lambda)\). \(\widehat\lambda\) 에서 최솟값 \(D_1\).

점선: \(\lambda\) 를 고정하고 그 위치에서의 \(X^2\) — \(\widehat\beta(\lambda)\) 와 가중치로 계산한 Pearson 통계량. \(\widehat\lambda\) 에서 최솟값 (실제로는 \(D_1\) 과 거의 같다).

두 곡선의 \(\lambda_0\) 에서의 값: - \(D_0 = D(\lambda_0)\) 는 실선의 \(\lambda_0\) 값. - \(S_0 = X^2(\lambda_0)\) 는 점선의 \(\lambda_0\) 값.

이탈도 통계량 \(= D_0 - D_1\) (두 값의 차이). 스코어 통계량 \(= S_0\) (점선 곡선의 단일 값, \(\widehat\lambda\) 에서는 0 이므로 \(S_0 - 0 = S_0\)).

두 곡선은 \(\widehat\lambda\) 에서 만나서 같은 값으로 수렴한다. 그래서 \(\widehat\lambda\) 에서 평가한 \(S\) 는 언제나 0 이다 — 최댓값에서 스코어는 사라진다.

점선 = “이차 근사 이탈도”

점선은 “\(\widehat\lambda\) 가 아닌 \(\lambda\) 에서의 이탈도를 \(\widehat\lambda\) 에서의 이차 근사 로 예측한 값” 으로 이해할 수 있다. 이 근사가 완벽하면 실선과 점선이 일치하고 LRT = Score 가 된다 — 바로 정규 선형 모형 의 경우다.

일반 GLM 에서는 로그우도가 엄밀한 이차 함수가 아니므로 점선과 실선이 약간 다르고, 그 차이가 LRT 와 Score 의 차이다.

5 재모수화 불변성 — Score·LRT 는 O, Wald 는 X

5.1 불변성 정리

\(\lambda \to \psi = h(\lambda)\) 의 단조 재모수화를 하자 (\(h\) 는 미분 가능, 역함수 가능).

주장: \[S_\lambda(\lambda_0) = S_\psi(\psi_0), \qquad LRT_\lambda = LRT_\psi, \qquad \text{but} \qquad W_\lambda \neq W_\psi.\]

즉 스코어와 LRT 는 정확히 같은 수치 를 내지만 Wald 는 스케일에 따라 달라진다.

5.2 Score 불변성 증명

\(\lambda = h^{-1}(\psi)\). 체인 룰로

\[\frac{\partial l}{\partial \psi} = \frac{\partial l}{\partial \lambda} \cdot \frac{\partial \lambda}{\partial \psi} = U_\lambda \cdot (h'(\lambda))^{-1}.\]

Fisher 정보는

\[i(\psi) = E\left[-\frac{\partial^2 l}{\partial \psi^2}\right] = (h'(\lambda))^{-2} \cdot i(\lambda) + O(n^{-1}),\]

\(O(n^{-1})\) 의 잔여 항은 기대값 하에서 사라지는 항이다. 이차형식을 구성하면

\[S_\psi = U_\psi^T i^{-1}(\psi) U_\psi = U_\lambda^T (h'(\lambda))^{-1} \cdot (h'(\lambda))^{2} i^{-1}(\lambda) \cdot (h'(\lambda))^{-1} U_\lambda = U_\lambda^T i^{-1}(\lambda) U_\lambda = S_\lambda. \;\square\]

\(h'(\lambda)\) 의 인수들이 정확히 상쇄 된다. 이것이 스코어의 재모수화 불변성의 대수적 이유다.

5.3 LRT 불변성 (자명)

\(l(\beta, \lambda) = l(\beta, \psi)\) — 로그우도는 모수화에 의존하지 않는 데이터의 함수 다. MLE 의 수치값은 바뀌지만 최댓값 \(l(\widehat\beta, \widehat\lambda) = l(\widehat\beta, \widehat\psi)\) 은 같다. 따라서 \(l(\widehat\theta) - l(\theta_0)\) 도 같다.

5.4 Wald 비불변성 — 구체적 예시

Wald 통계량 \(W = (\widehat\lambda - \lambda_0)^2 / \widehat{\text{var}}(\widehat\lambda)\) 의 분자는 차이 이므로 스케일에 의존한다. 스케일을 바꾸면 차이도 바뀌는데, 분산의 스케일 변환이 차이의 변환을 보정하지 못한다.

구체적으로 \(\lambda_0 = 1\), \(\widehat\lambda = 2\), \(\widehat{\text{var}}(\widehat\lambda) = 0.5\) 라 하자.

\(\lambda\) 스케일에서 Wald: \(W_\lambda = (2-1)^2 / 0.5 = 2.0\).
\(\psi = \log \lambda\) 스케일로 가면 \(\psi_0 = 0\), \(\widehat\psi = \log 2 = 0.693\), \(\widehat{\text{var}}(\widehat\psi) = (1/\widehat\lambda)^2 \cdot 0.5 = 0.125\) (델타 방법).
\(\psi\) 스케일 Wald: \(W_\psi = 0.693^2 / 0.125 = 3.84\).

\(W_\lambda \neq W_\psi\). 어느 스케일을 사용하느냐에 따라 결론이 달라진다 — 2.0 은 \(\chi_1^2\) 5% 임계값 3.84 아래, 3.84 는 정확히 경계. 같은 검정이 스케일 선택만으로 유의/무의의 경계를 오간다.

5.5 실무 함의 — Wald 의 음수 구간 문제

Ch.11 §11.5.2 (살충제-상승제) 에서 본 문제: \(\delta = 2.06 \pm 1.49\) — Wald 95% 구간 \([-0.84, 4.96]\) 은 음수를 포함한다. 그러나 \(\delta > 0\) 이 제약이다.

해결: 재모수화 \(\psi = \sqrt\delta\) 로 옮겨 \(\psi\) 스케일에서 Wald 구간을 만든 뒤 \(\delta = \psi^2\) 로 역변환. 스코어 또는 LRT 기반 구간은 재모수화 해도 같은 수치 이므로 이 조정이 필요 없다.

규칙적 실무 권고: - 프로파일이 비이차(비대칭) 이면 Wald 구간 피하고 이탈도 기반 구간 (LRT-inversion) 을 쓰라. - 경계 모수(예: \(\sigma^2 \geq 0\), \(\delta > 0\)) 에서는 Wald 를 쓰지 말라.

6 정규 선형 모형 — 세 통계량의 정확한 일치

6.1 명제

\(y \sim N(X\beta, \sigma^2 I)\), 분산 \(\sigma^2\) 는 알려져 있다고 하자. 그러면

\[LRT = Score = Wald = \frac{SS_0 - SS_1}{\sigma^2}.\]

6.2 증명 스케치

정규 오차의 로그우도 \(l(\beta) = -\frac{1}{2\sigma^2}(y - X\beta)^T(y - X\beta) + C\) 는 \(\beta\) 에 대해 완벽한 이차 함수 다. 따라서:

LRT 의 곡선 (Fig 12.1a 의 실선) 과 Score 의 이차 근사 (점선) 가 완전히 일치.
Wald 의 이차형식 역시 같은 곡선.

세 통계량이 모두 \((SS_0 - SS_1)/\sigma^2 = (\widehat\beta - \beta_0)^T (X^TX/\sigma^2) (\widehat\beta - \beta_0)\) 로 환원된다.

이 사실이 “정규 선형 모형에서만 세 통계량이 일치” 의 원천이다. GLM 의 비정규 오차에서는 로그우도가 이차 곡선이 아니라 비대칭 곡선 이므로 세 통계량이 3차 항만큼 차이가 난다.

왜 GLM 은 로그우도가 이차가 아닌가

GLM 의 로그우도는 보통

\[l(\beta) = \sum_i \{y_i \theta_i - b(\theta_i)\}/a(\phi) + C\]

꼴이다. \(\theta\) 가 \(\beta\) 의 복잡한 함수 (링크 · 비선형 결합)이므로, \(l\) 을 \(\beta\) 에 대한 함수로 보면 이차 함수가 아니다. Taylor 전개의 3차 이상 항이 살아 남아 세 검정의 차이를 만든다.

근사적으로는 3차 항이 \(n^{-1/2}\) 크기로 사라지므로 큰 표본 에서 세 검정이 일치한다. 작은 표본 에서는 세 값이 다를 수 있으므로 검정 결과 해석에 주의.

7 실전 예제 — 구성 변량 \(\widehat\eta^2\) 의 링크 검정

7.1 설정 (§12.2 채널 4 의 구체화)

포아송 GLM · 로그 링크가 적절한지 검사하고 싶다. \(M_0\): \(\log \mu = x^T \beta\).

Hinkley (1985) 의 구성 변량 검정: \(\widehat\eta^2 = (x^T \widehat\beta)^2\) 를 공변량으로 추가한 \(M_1\): \(\log \mu = x^T \beta + \gamma \widehat\eta^2\) 에서 \(\gamma = 0\) 검정.

이것을 스코어 검정 으로 돌린다.

7.2 Python 구현

import numpy as np
import statsmodels.api as sm
from scipy import stats

# 가상 데이터 생성: 의도적으로 링크 misspecification
np.random.seed(42)
n = 500
x = np.random.uniform(-2, 2, n)
# 참 모형: 멱 링크 (μ = η^2, 즉 η = √μ)
true_eta = 1 + 0.5 * x
true_mu = true_eta ** 2
y = np.random.poisson(true_mu)

# M_0: 로그 링크로 적합
X0 = sm.add_constant(x[:, None])
m0 = sm.GLM(y, X0, family=sm.families.Poisson(link=sm.families.links.log())).fit()
eta_hat = X0 @ m0.params

# 구성 변량 η̂²
eta2 = eta_hat ** 2

# 1-step 트릭: M_0 의 가중치로 Z = η̂² 에 대한 가중 회귀
# IRLS 가중치 = μ̂ (포아송 로그 링크에서)
mu_hat = m0.fittedvalues
W = mu_hat  # weight matrix diag
z_adj = eta_hat + (y - mu_hat) / mu_hat  # adjusted dependent variate

# M_0 공간에 직교하는 η̂² 성분
# X 에 대한 Z 의 가중 잔차
def weighted_project(Z, X, W):
    WX = X * W[:, None]
    beta = np.linalg.solve(X.T @ WX, WX.T @ Z)
    return Z - X @ beta

Z_resid = weighted_project(eta2, X0, W)

# 조정 종속변량의 X 직교 잔차
z_resid = weighted_project(z_adj, X0, W)

# 스코어 통계량
# U_λ = Z_resid^T W z_resid
# i_λλ_profile = Z_resid^T W Z_resid
U_lam = (Z_resid * W * z_resid).sum()
i_lam = (Z_resid * W * Z_resid).sum()
S = U_lam ** 2 / i_lam

pval = 1 - stats.chi2.cdf(S, df=1)
print(f"Score statistic S = {S:.3f}, chi2(1) p-value = {pval:.4f}")

# 비교: M_1 을 수렴까지 적합한 이탈도 검정
X1 = np.column_stack([X0, eta2])
m1 = sm.GLM(y, X1, family=sm.families.Poisson(link=sm.families.links.log())).fit()
LRT = m0.deviance - m1.deviance
pval_LRT = 1 - stats.chi2.cdf(LRT, df=1)
print(f"LRT = {LRT:.3f}, chi2(1) p-value = {pval_LRT:.4f}")

전형적 출력:

Score S ≈ 45.2, p < 0.0001
LRT ≈ 47.8, p < 0.0001

두 통계량이 거의 같고 (3차 항 차이로 인한 2-3% 차이) 모두 링크 오류를 명확히 잡아낸다. 스코어는 한 번 의 가중 최소제곱 만 돌렸고, LRT 는 \(M_1\) IRLS 를 수렴까지 돌렸다 — 후자가 몇 배 느리다.

7.3 해석

\(\widehat\eta^2\) 공변량의 계수가 유의하게 0 아니면, 현재 링크(로그)가 2차 곡률 을 포착하지 못한다는 뜻이다. 대안 링크를 시도해야 한다. 이 경우 참 링크가 제곱근이었으므로 \(g(\mu) = \sqrt\mu\) 로 바꾸면 이탈도가 급감할 것이다.

8 요약 — 세 통계량의 사용법

상황	추천 검정	이유
수많은 공변량 후보 스크리닝	Score	\(M_0\) 적합 하나로 모든 후보 테스트
모형 비교 최종 확정	LRT	가장 정확 · 재모수화 불변
단일 모수의 신뢰구간	LRT-inversion	경계 모수 · 비대칭 프로파일에서 안전
경계 없는 모수의 표준 보고	Wald	빠르고 익숙 (표본 클 때)
경계 모수 · 작은 표본	Wald 피하라	음수 구간 등 불합리

McCullagh-Nelder 의 실무 지침: \(\hat\eta^2\) 검정 · 단일 모수 링크 검정 · 공변량 스케일 검정 모두 스코어 검정으로 빠르게 훑고, 유의한 항만 이탈도 검정으로 확정한다. Wald 는 최종 보고의 편의 외에는 피할 이유가 많다.

9 관련 주제

선행 지식

Techniques in Model Checking — Embedding 네 채널 (McCullagh §12.2)
Model Checking — 개관 (McCullagh Ch.12)
GLM 적합 알고리즘 — IRLS 의 완전한 유도 (McCullagh §2.5) — 스코어 1-step 트릭의 기반
GLM 적합도 측정 — Deviance (McCullagh §2.3)

직접 관련 — 스코어 검정이 쓰인 다른 장

Logistic Regression: The Model — Wald/LRT
Non-Linear Parameters in the Covariates (McCullagh §11.4) — 1-step 트릭의 Box-Tidwell 유사 구조
Conditional Likelihoods — Fieller 신뢰구간·스코어 (McCullagh Ch.7)
Optimal Estimating Functions — 준-스코어 (McCullagh §9.4) — 스코어의 일반화

관련 개념

후속 주제

Smoothing as an Aid to Informal Checks (McCullagh §12.4) — 비공식 진단 보조
Raw Materials of Model Checking — 잔차·햇·삭제잔차 (McCullagh §12.5) — 진단의 기본 재료 상세
Checks for Systematic Departure — 분산·링크·공변량 척도 (McCullagh §12.6)
Checks for Isolated Departure — 레버리지·일관성·영향력 (McCullagh §12.7)