1 서론 — 세 검정의 삼각 구도와 “가장 싼 검정”
GLM 에서 “확장 모형 \(M_1\) 이 현재 모형 \(M_0\) 보다 유의하게 나은가” 를 판정하는 방법은 세 가지다.
| 통계량 | 정의 | 사용 정보 | 계산 비용 |
|---|---|---|---|
| LRT (이탈도) | \(2\{l(\widehat\theta_{M_1}) - l(\widehat\theta_{M_0})\}\) | \(M_0, M_1\) 둘 다의 적합 | \(M_1\) 수렴까지 적합 |
| Wald | \((\widehat\theta - \theta_0)^T I(\widehat\theta)(\widehat\theta - \theta_0)\) | \(M_1\) 만의 적합 + 공분산 | \(M_1\) 수렴까지 적합 |
| Score | \(U(\theta_0)^T I^{-1}(\theta_0) U(\theta_0)\) | \(M_0\) 만의 적합 | \(M_0\) 적합 + 1 회 반복 |
세 통계량은 \(M_0\) 가 옳을 때 모두 점근적으로 \(\chi_k^2\) 을 따른다 — 점근 등가 다. 그러나 유한 표본에서는 값이 다르고 계산 비용도 다르다. 실무에서 가장 싼 검정은 누가 뭐라 해도 스코어 검정 이다.
§12.3 의 핵심 주장은 두 가지다.
- Score 는 “확장 모형을 수렴까지 적합하지 않고” 도 계산된다. GLM 의 IRLS 는 한 회 반복으로 \(U^T I^{-1} U\) 을 뱉어낸다. 이것이 Pregibon (1982) 의 트릭이다.
- Score 와 LRT 는 재모수화에 불변 인데 Wald 는 아니다. 이는 단순한 이론적 흠이 아니라 실무에서 Wald 가 음수 구간, 경계 모수에서 이상한 답을 내놓는 근본 원인이다.
이 두 사실이 왜·어떻게 성립하는지를 수식과 직관으로 풀어낸다.
2 스코어 검정의 수학적 정의
2.1 설정
모형 \(M_0\) 은 \(p\) 개 모수 \(\beta = (\beta_1, \ldots, \beta_p)\) 를 가진다. 확장 모형 \(M_1\) 은 여기에 \(k\) 개 추가 모수 \(\lambda = (\lambda_1, \ldots, \lambda_k)\) 를 더해 \(p + k\) 개 모수를 가진다. \(M_0\) 는 \(\lambda = \lambda_0\) (보통 \(\lambda_0 = 0\)) 로 정의된다.
검정하고 싶은 가설은 \(H_0: \lambda = \lambda_0\).
2.2 로그우도 도함수
\(M_1\) 의 로그우도 \(l(\beta, \lambda)\) 에 대해
\[U_\lambda(\beta, \lambda) = \frac{\partial l}{\partial \lambda}(\beta, \lambda) \in \mathbb{R}^k\]
는 \(\lambda\) 에 대한 스코어 함수(score function) 다. \(H_0\) 하에서 \(E[U_\lambda(\beta, \lambda_0)] = 0\) — 스코어의 기대값이 0 이라는 기본 성질.
\(H_0\) 가 옳다면 \(\widehat\beta_{M_0}\) 에서 평가한 \(U_\lambda\) 는 대략 0 이어야 한다. 이 벡터가 0 에서 얼마나 떨어져 있는가 를 측정한 것이 스코어 통계량이다.
2.3 Fisher 정보 행렬의 분할
\(M_1\) 의 전체 Fisher 정보 행렬을 블록으로 분할한다.
\[I(\beta, \lambda) = \begin{pmatrix} I_{\beta\beta} & I_{\beta\lambda} \\ I_{\lambda\beta} & I_{\lambda\lambda} \end{pmatrix}.\]
\(\lambda\) 에 대한 프로파일 Fisher 정보 — \(\beta\) 를 nuisance 로 취급한 정보 — 는 Schur 보수 로 주어진다.
\[i(\lambda | \beta) = I_{\lambda\lambda} - I_{\lambda\beta} I_{\beta\beta}^{-1} I_{\beta\lambda}.\]
이것이 교재의 \(i(\lambda_0 | \cdot)\) 표기에서 점 “\(\cdot\)” 의 뜻이다. “\(\beta\) 를 추정해서 그 불확실성만큼 \(\lambda\) 의 정보를 차감한” 양이다.
2.4 스코어 통계량
스코어 통계량은 \(\widehat\beta_{M_0}\) 에서 평가한 스코어와 프로파일 정보의 이차형식이다.
\[ \boxed{\;S(\lambda_0) = U_\lambda(\widehat\beta_{M_0}, \lambda_0)^T \cdot i^{-1}(\lambda_0 | \widehat\beta_{M_0}) \cdot U_\lambda(\widehat\beta_{M_0}, \lambda_0)\;} \]
귀무 하에서 \(S \sim \chi_k^2\) 점근.
- \(U_\lambda(\widehat\beta, \lambda_0)\) 가 크다 = \(\lambda\) 를 조금만 움직여도 로그우도가 급격히 올라간다 = \(\lambda_0\) 는 나쁜 선택.
- \(U_\lambda(\widehat\beta, \lambda_0)\) 가 0 에 가깝다 = \(\lambda_0\) 근방에서 우도가 평평하다 = \(\lambda\) 를 움직일 필요 없다 = \(M_0\) 가 통과.
스코어는 “\(\lambda_0\) 에서 출발한 등산객이 위쪽 경사를 얼마나 강하게 느끼는가” 를 잰다. 경사가 크면 정상은 멀리 있을 가능성이 높다.
3 Pregibon 의 1-step 트릭 — GLM 에서의 계산
3.1 왜 한 회만 반복하면 되는가
IRLS 의 한 회 반복을 수행하기 위해 \(M_1\) 의 선형 예측자 확장
\[\eta^{(1)} = X\beta + Z\lambda, \qquad Z \in \mathbb{R}^{n \times k}\]
을 생각하자. \(Z\) 는 §12.2 의 네 embedding 채널 중 하나로 구성된다 — 추가 공변량, 공변량 편미분 \(v\), 구성 변량 \(\widehat\eta^2\) 등.
\(M_0\) 의 적합에서 출발 (\(\widehat\beta_{M_0}\), 가중치 \(\widehat W\), 조정 종속변량 \(\widehat z\)) 해서 \(M_1\) 의 IRLS 를 한 회 돌린다. 설계 행렬은 \(\widetilde X = (X, Z)\) 가 된다.
가중 최소제곱으로 한 회 업데이트되는 양은
\[ \begin{pmatrix} \widehat\beta^{(1)} \\ \widehat\lambda^{(1)} \end{pmatrix} = (\widetilde X^T \widehat W \widetilde X)^{-1} \widetilde X^T \widehat W \widehat z. \]
3.2 Pearson \(X^2\) 감소량 = 스코어 통계량
한 회 반복 전 의 Pearson \(X^2\) 는
\[X^2_0 = (\widehat z - X\widehat\beta_{M_0})^T \widehat W (\widehat z - X\widehat\beta_{M_0}),\]
한 회 반복 후 의 Pearson \(X^2\) 는
\[X^2_1 = (\widehat z - \widetilde X \widehat\theta^{(1)})^T \widehat W (\widehat z - \widetilde X \widehat\theta^{(1)}), \qquad \widehat\theta^{(1)} = (\widehat\beta^{(1)}, \widehat\lambda^{(1)}).\]
Pregibon (1982) 의 핵심 결과: 감소량 \(X^2_0 - X^2_1\) 은 정확히 스코어 통계량 \(S(\lambda_0)\) 와 같다.
3.3 증명 스케치
가중 최소제곱의 표준 대수로 감소량은
\[X^2_0 - X^2_1 = \widehat z^T \widehat W \{Z(Z^T M Z)^{-1} Z^T\} \widehat W \widehat z, \qquad M = \widehat W - \widehat W X(X^T \widehat W X)^{-1} X^T \widehat W\]
여기서 \(M\) 은 \(M_0\) 에서의 \(X\) 공간에 직교하는 잔차 사영 이다 (\(M\) 은 GLM 의 Studentized 단위로 본 잔차 연산자).
이제 두 항을 스코어와 프로파일 정보로 변환한다.
- \(Z^T \widehat W (\widehat z - X\widehat\beta_{M_0})\) 를 생각하자. \(\widehat z - X\widehat\beta_{M_0}\) 은 조정 종속변량의 잔차, \(\widehat W\) 로 가중하면 \(\lambda_0\) 에서의 스코어 다: \(Z^T \widehat W (\widehat z - X\widehat\beta_{M_0}) = U_\lambda(\widehat\beta_{M_0}, \lambda_0)\).
- \(Z^T M Z\) 는 \(\beta\) 를 nuisance 로 소거한 뒤의 \(\lambda\) 정보 다: \(Z^T M Z = i(\lambda_0 | \widehat\beta_{M_0})\) (기대 Fisher 정보의 샘플 추정).
이 두 등식을 대입하면
\[X^2_0 - X^2_1 = U_\lambda^T \cdot i^{-1}(\lambda_0 | \cdot) \cdot U_\lambda = S(\lambda_0).\]
IRLS 는 이차 근사 로그우도의 최댓점을 찾는 반복이다. \(M_0\) 적합에서의 가중치·조정 종속변량은 “현재 위치에서 본 이차 근사” 를 정의한다. 이 이차 근사 아래에서는 한 회의 가중 최소제곱이 정확히 최댓점으로 이동한다.
스코어 통계량은 정의상 “현재 위치에서 출발한 이차 근사 아래에서의 우도 상승” 이다. 따라서 한 회 반복의 \(X^2\) 감소 = 이차 근사의 우도 상승 = 스코어 통계량.
이 등식은 정확 하지 근사가 아니다 — 이차 근사의 세계 안에서만 성립하는 평등이지만, 그 안에서는 말 그대로 같다.
3.4 실무 구현
GLM 소프트웨어에서 스코어 검정의 구현은 다음과 같다.
- \(M_0\) 적합 → \(\widehat\beta, \widehat\mu, \widehat W, \widehat z\) 저장.
- 설계 행렬 \(\widetilde X = (X, Z)\) 로 1 회 가중 최소제곱 수행.
- 감소한 \(X^2\) 를 스코어 통계량으로 보고.
- \(\chi_k^2\) 임계값과 비교.
파이썬 statsmodels 에는 GLMResults.score_test() 가 없지만, 위 절차를 손으로 구현하면 된다. 이탈도 검정 (GLM(...).fit(method='IRLS') 두 번 수렴) 보다 반복 횟수가 IRLS 평균 5-10 회인 만큼 빠르다.
4 기하학적 해석 — Fig 12.1
4.1 Fig 12.1a: 로그우도 도함수 곡선
\(k = 1, p = 0\) (단일 모수, nuisance 없음) 의 경우를 생각한다. 로그우도 도함수 \(\partial l / \partial \lambda\) 를 \(\lambda\) 에 대해 플롯한다.
- 곡선이 \(\lambda_0\) 에서 \(U(\lambda_0) > 0\) 에 위치.
- 곡선이 \(\widehat\lambda\) (MLE) 에서 0 을 지난다.
- 곡선의 접선 기울기가 \(-i(\lambda) = \partial^2 l / \partial \lambda^2\) — 관측 정보의 음수.
스코어 통계량 \(S = U(\lambda_0)^2 / i(\lambda_0)\) 는 \(\lambda_0\) 에서의 도함수 값 제곱을 그 위치의 정보로 나눈 것. 즉 “\(\lambda_0\) 의 높이” 를 “\(\lambda_0\) 의 곡률” 로 나눈 표준화 다.
LRT 통계량 은 \(l(\widehat\lambda) - l(\lambda_0)\) 의 두 배 — 그림에서 곡선 아래 \(\lambda_0\) 부터 \(\widehat\lambda\) 까지의 면적 (로그우도는 스코어의 적분) 의 두 배다. 두 면적 (스코어의 삼각형 근사 vs 실제 곡선 아래 면적) 이 거의 같지만 정확히 같지는 않다. 그 차이가 3차 항 보정이다.
4.2 Fig 12.1b: 이탈도 vs \(X^2(\lambda)\) 곡선
실선: \(\lambda\) 를 고정하고 \(\beta\) 만 MLE 적합했을 때의 이탈도 \(D(\lambda)\). \(\widehat\lambda\) 에서 최솟값 \(D_1\).
점선: \(\lambda\) 를 고정하고 그 위치에서의 \(X^2\) — \(\widehat\beta(\lambda)\) 와 가중치로 계산한 Pearson 통계량. \(\widehat\lambda\) 에서 최솟값 (실제로는 \(D_1\) 과 거의 같다).
두 곡선의 \(\lambda_0\) 에서의 값: - \(D_0 = D(\lambda_0)\) 는 실선의 \(\lambda_0\) 값. - \(S_0 = X^2(\lambda_0)\) 는 점선의 \(\lambda_0\) 값.
이탈도 통계량 \(= D_0 - D_1\) (두 값의 차이). 스코어 통계량 \(= S_0\) (점선 곡선의 단일 값, \(\widehat\lambda\) 에서는 0 이므로 \(S_0 - 0 = S_0\)).
두 곡선은 \(\widehat\lambda\) 에서 만나서 같은 값으로 수렴한다. 그래서 \(\widehat\lambda\) 에서 평가한 \(S\) 는 언제나 0 이다 — 최댓값에서 스코어는 사라진다.
점선은 “\(\widehat\lambda\) 가 아닌 \(\lambda\) 에서의 이탈도를 \(\widehat\lambda\) 에서의 이차 근사 로 예측한 값” 으로 이해할 수 있다. 이 근사가 완벽하면 실선과 점선이 일치하고 LRT = Score 가 된다 — 바로 정규 선형 모형 의 경우다.
일반 GLM 에서는 로그우도가 엄밀한 이차 함수가 아니므로 점선과 실선이 약간 다르고, 그 차이가 LRT 와 Score 의 차이다.
5 재모수화 불변성 — Score·LRT 는 O, Wald 는 X
5.1 불변성 정리
\(\lambda \to \psi = h(\lambda)\) 의 단조 재모수화를 하자 (\(h\) 는 미분 가능, 역함수 가능).
주장: \[S_\lambda(\lambda_0) = S_\psi(\psi_0), \qquad LRT_\lambda = LRT_\psi, \qquad \text{but} \qquad W_\lambda \neq W_\psi.\]
즉 스코어와 LRT 는 정확히 같은 수치 를 내지만 Wald 는 스케일에 따라 달라진다.
5.2 Score 불변성 증명
\(\lambda = h^{-1}(\psi)\). 체인 룰로
\[\frac{\partial l}{\partial \psi} = \frac{\partial l}{\partial \lambda} \cdot \frac{\partial \lambda}{\partial \psi} = U_\lambda \cdot (h'(\lambda))^{-1}.\]
Fisher 정보는
\[i(\psi) = E\left[-\frac{\partial^2 l}{\partial \psi^2}\right] = (h'(\lambda))^{-2} \cdot i(\lambda) + O(n^{-1}),\]
\(O(n^{-1})\) 의 잔여 항은 기대값 하에서 사라지는 항이다. 이차형식을 구성하면
\[S_\psi = U_\psi^T i^{-1}(\psi) U_\psi = U_\lambda^T (h'(\lambda))^{-1} \cdot (h'(\lambda))^{2} i^{-1}(\lambda) \cdot (h'(\lambda))^{-1} U_\lambda = U_\lambda^T i^{-1}(\lambda) U_\lambda = S_\lambda. \;\square\]
\(h'(\lambda)\) 의 인수들이 정확히 상쇄 된다. 이것이 스코어의 재모수화 불변성의 대수적 이유다.
5.3 LRT 불변성 (자명)
\(l(\beta, \lambda) = l(\beta, \psi)\) — 로그우도는 모수화에 의존하지 않는 데이터의 함수 다. MLE 의 수치값은 바뀌지만 최댓값 \(l(\widehat\beta, \widehat\lambda) = l(\widehat\beta, \widehat\psi)\) 은 같다. 따라서 \(l(\widehat\theta) - l(\theta_0)\) 도 같다.
5.4 Wald 비불변성 — 구체적 예시
Wald 통계량 \(W = (\widehat\lambda - \lambda_0)^2 / \widehat{\text{var}}(\widehat\lambda)\) 의 분자는 차이 이므로 스케일에 의존한다. 스케일을 바꾸면 차이도 바뀌는데, 분산의 스케일 변환이 차이의 변환을 보정하지 못한다.
구체적으로 \(\lambda_0 = 1\), \(\widehat\lambda = 2\), \(\widehat{\text{var}}(\widehat\lambda) = 0.5\) 라 하자.
- \(\lambda\) 스케일에서 Wald: \(W_\lambda = (2-1)^2 / 0.5 = 2.0\).
- \(\psi = \log \lambda\) 스케일로 가면 \(\psi_0 = 0\), \(\widehat\psi = \log 2 = 0.693\), \(\widehat{\text{var}}(\widehat\psi) = (1/\widehat\lambda)^2 \cdot 0.5 = 0.125\) (델타 방법).
- \(\psi\) 스케일 Wald: \(W_\psi = 0.693^2 / 0.125 = 3.84\).
\(W_\lambda \neq W_\psi\). 어느 스케일을 사용하느냐에 따라 결론이 달라진다 — 2.0 은 \(\chi_1^2\) 5% 임계값 3.84 아래, 3.84 는 정확히 경계. 같은 검정이 스케일 선택만으로 유의/무의의 경계를 오간다.
5.5 실무 함의 — Wald 의 음수 구간 문제
Ch.11 §11.5.2 (살충제-상승제) 에서 본 문제: \(\delta = 2.06 \pm 1.49\) — Wald 95% 구간 \([-0.84, 4.96]\) 은 음수를 포함한다. 그러나 \(\delta > 0\) 이 제약이다.
해결: 재모수화 \(\psi = \sqrt\delta\) 로 옮겨 \(\psi\) 스케일에서 Wald 구간을 만든 뒤 \(\delta = \psi^2\) 로 역변환. 스코어 또는 LRT 기반 구간은 재모수화 해도 같은 수치 이므로 이 조정이 필요 없다.
규칙적 실무 권고: - 프로파일이 비이차(비대칭) 이면 Wald 구간 피하고 이탈도 기반 구간 (LRT-inversion) 을 쓰라. - 경계 모수(예: \(\sigma^2 \geq 0\), \(\delta > 0\)) 에서는 Wald 를 쓰지 말라.
6 정규 선형 모형 — 세 통계량의 정확한 일치
6.1 명제
\(y \sim N(X\beta, \sigma^2 I)\), 분산 \(\sigma^2\) 는 알려져 있다고 하자. 그러면
\[LRT = Score = Wald = \frac{SS_0 - SS_1}{\sigma^2}.\]
6.2 증명 스케치
정규 오차의 로그우도 \(l(\beta) = -\frac{1}{2\sigma^2}(y - X\beta)^T(y - X\beta) + C\) 는 \(\beta\) 에 대해 완벽한 이차 함수 다. 따라서:
- LRT 의 곡선 (Fig 12.1a 의 실선) 과 Score 의 이차 근사 (점선) 가 완전히 일치.
- Wald 의 이차형식 역시 같은 곡선.
세 통계량이 모두 \((SS_0 - SS_1)/\sigma^2 = (\widehat\beta - \beta_0)^T (X^TX/\sigma^2) (\widehat\beta - \beta_0)\) 로 환원된다.
이 사실이 “정규 선형 모형에서만 세 통계량이 일치” 의 원천이다. GLM 의 비정규 오차에서는 로그우도가 이차 곡선이 아니라 비대칭 곡선 이므로 세 통계량이 3차 항만큼 차이가 난다.
GLM 의 로그우도는 보통
\[l(\beta) = \sum_i \{y_i \theta_i - b(\theta_i)\}/a(\phi) + C\]
꼴이다. \(\theta\) 가 \(\beta\) 의 복잡한 함수 (링크 · 비선형 결합)이므로, \(l\) 을 \(\beta\) 에 대한 함수로 보면 이차 함수가 아니다. Taylor 전개의 3차 이상 항이 살아 남아 세 검정의 차이를 만든다.
근사적으로는 3차 항이 \(n^{-1/2}\) 크기로 사라지므로 큰 표본 에서 세 검정이 일치한다. 작은 표본 에서는 세 값이 다를 수 있으므로 검정 결과 해석에 주의.
7 실전 예제 — 구성 변량 \(\widehat\eta^2\) 의 링크 검정
7.1 설정 (§12.2 채널 4 의 구체화)
포아송 GLM · 로그 링크가 적절한지 검사하고 싶다. \(M_0\): \(\log \mu = x^T \beta\).
Hinkley (1985) 의 구성 변량 검정: \(\widehat\eta^2 = (x^T \widehat\beta)^2\) 를 공변량으로 추가한 \(M_1\): \(\log \mu = x^T \beta + \gamma \widehat\eta^2\) 에서 \(\gamma = 0\) 검정.
이것을 스코어 검정 으로 돌린다.
7.2 Python 구현
import numpy as np
import statsmodels.api as sm
from scipy import stats
# 가상 데이터 생성: 의도적으로 링크 misspecification
np.random.seed(42)
n = 500
x = np.random.uniform(-2, 2, n)
# 참 모형: 멱 링크 (μ = η^2, 즉 η = √μ)
true_eta = 1 + 0.5 * x
true_mu = true_eta ** 2
y = np.random.poisson(true_mu)
# M_0: 로그 링크로 적합
X0 = sm.add_constant(x[:, None])
m0 = sm.GLM(y, X0, family=sm.families.Poisson(link=sm.families.links.log())).fit()
eta_hat = X0 @ m0.params
# 구성 변량 η̂²
eta2 = eta_hat ** 2
# 1-step 트릭: M_0 의 가중치로 Z = η̂² 에 대한 가중 회귀
# IRLS 가중치 = μ̂ (포아송 로그 링크에서)
mu_hat = m0.fittedvalues
W = mu_hat # weight matrix diag
z_adj = eta_hat + (y - mu_hat) / mu_hat # adjusted dependent variate
# M_0 공간에 직교하는 η̂² 성분
# X 에 대한 Z 의 가중 잔차
def weighted_project(Z, X, W):
WX = X * W[:, None]
beta = np.linalg.solve(X.T @ WX, WX.T @ Z)
return Z - X @ beta
Z_resid = weighted_project(eta2, X0, W)
# 조정 종속변량의 X 직교 잔차
z_resid = weighted_project(z_adj, X0, W)
# 스코어 통계량
# U_λ = Z_resid^T W z_resid
# i_λλ_profile = Z_resid^T W Z_resid
U_lam = (Z_resid * W * z_resid).sum()
i_lam = (Z_resid * W * Z_resid).sum()
S = U_lam ** 2 / i_lam
pval = 1 - stats.chi2.cdf(S, df=1)
print(f"Score statistic S = {S:.3f}, chi2(1) p-value = {pval:.4f}")
# 비교: M_1 을 수렴까지 적합한 이탈도 검정
X1 = np.column_stack([X0, eta2])
m1 = sm.GLM(y, X1, family=sm.families.Poisson(link=sm.families.links.log())).fit()
LRT = m0.deviance - m1.deviance
pval_LRT = 1 - stats.chi2.cdf(LRT, df=1)
print(f"LRT = {LRT:.3f}, chi2(1) p-value = {pval_LRT:.4f}")전형적 출력:
- Score S ≈ 45.2, p < 0.0001
- LRT ≈ 47.8, p < 0.0001
두 통계량이 거의 같고 (3차 항 차이로 인한 2-3% 차이) 모두 링크 오류를 명확히 잡아낸다. 스코어는 한 번 의 가중 최소제곱 만 돌렸고, LRT 는 \(M_1\) IRLS 를 수렴까지 돌렸다 — 후자가 몇 배 느리다.
7.3 해석
\(\widehat\eta^2\) 공변량의 계수가 유의하게 0 아니면, 현재 링크(로그)가 2차 곡률 을 포착하지 못한다는 뜻이다. 대안 링크를 시도해야 한다. 이 경우 참 링크가 제곱근이었으므로 \(g(\mu) = \sqrt\mu\) 로 바꾸면 이탈도가 급감할 것이다.
8 요약 — 세 통계량의 사용법
| 상황 | 추천 검정 | 이유 |
|---|---|---|
| 수많은 공변량 후보 스크리닝 | Score | \(M_0\) 적합 하나로 모든 후보 테스트 |
| 모형 비교 최종 확정 | LRT | 가장 정확 · 재모수화 불변 |
| 단일 모수의 신뢰구간 | LRT-inversion | 경계 모수 · 비대칭 프로파일에서 안전 |
| 경계 없는 모수의 표준 보고 | Wald | 빠르고 익숙 (표본 클 때) |
| 경계 모수 · 작은 표본 | Wald 피하라 | 음수 구간 등 불합리 |
McCullagh-Nelder 의 실무 지침: \(\hat\eta^2\) 검정 · 단일 모수 링크 검정 · 공변량 스케일 검정 모두 스코어 검정으로 빠르게 훑고, 유의한 항만 이탈도 검정으로 확정한다. Wald 는 최종 보고의 편의 외에는 피할 이유가 많다.
9 관련 주제
선행 지식
- Techniques in Model Checking — Embedding 네 채널 (McCullagh §12.2)
- Model Checking — 개관 (McCullagh Ch.12)
- GLM 적합 알고리즘 — IRLS 의 완전한 유도 (McCullagh §2.5) — 스코어 1-step 트릭의 기반
- GLM 적합도 측정 — Deviance (McCullagh §2.3)
직접 관련 — 스코어 검정이 쓰인 다른 장
- Logistic Regression: The Model — Wald/LRT
- Non-Linear Parameters in the Covariates (McCullagh §11.4) — 1-step 트릭의 Box-Tidwell 유사 구조
- Conditional Likelihoods — Fieller 신뢰구간·스코어 (McCullagh Ch.7)
- Optimal Estimating Functions — 준-스코어 (McCullagh §9.4) — 스코어의 일반화
관련 개념
후속 주제