1 서론 — 왜 ‘모형 확인’ 을 따로 한 장에 둔 것인가
통상의 통계 교과서는 분석 과정을 다음 직선 파이프라인으로 제시한다.
\[\text{데이터} \rightarrow \text{모형 클래스 선택} \rightarrow \text{모형 적합} \rightarrow \text{결론 요약} \rightarrow \text{끝.}\]
이 흐름은 “모형 클래스 안에 최소한 하나의 ‘옳은’ 모형이 있다” 는 암묵적 가정 위에 서 있다. 적합이 끝나면 남은 일은 모수 추정치 · 표준 오차 · 공분산 행렬을 정리하는 요약 작업 뿐이다.
그러나 현실은 두 방향으로 이 가정을 배반한다.
- 체계적 이탈 (systematic departure): 데이터 전반이 적합값에서 구조적으로 벗어난다. 예를 들어 잔차를 공변량 \(x\) 에 대해 플롯했을 때, 가장자리에서는 한쪽 부호·가운데에서는 반대 부호의 잔차가 몰리면 이는 \(x^2\) 항이 빠졌거나 링크 함수가 틀린 증거다.
- 개별 이상점 (isolated discrepancy): 다수의 관측치는 잘 맞는데 몇 개 가 유난히 떨어진다. 기록 오류, 전사 실수, 아니면 모형의 적용 범위를 벗어난 극단 관측일 수 있다.
McCullagh & Nelder (1989, §12.1) 는 이 두 종류 실패를 잡아내기 위해 분석 파이프라인에 check 단계 를 명시적으로 삽입하고, 필요하면 모형을 수정해 루프 로 되돌아간다.
\[\text{데이터} \rightarrow \text{모형 클래스} \rightarrow \text{모형 적합} \rightarrow \boxed{\text{모형 확인}} \rightarrow \text{결론 요약 / 수정 후 재적합}.\]
이 루프의 도입이 “최종 모형 신뢰도” 를 근본적으로 바꾼다. Ch.12 는 이 과정을 GLM 틀로 체계화한다 — 정규 선형 회귀에서 개발된 진단 기법을 지수족 전체로 확장하고, 선형 회귀에는 없는 GLM 고유의 진단 문제(링크 함수 · 분산 함수 · 분산 함수 멱지수)를 새로 정의한다.
2 Ch.12 전체 지도
| 절 | 주제 | 핵심 도구 |
|---|---|---|
| §12.2 | 공식 vs 비공식 기법 | 철학적 구분 |
| §12.3 | 스코어 검정 | 1-step 검정 — 이탈도 · Wald 와의 비교 |
| §12.4 | 평활 (smoothing) | 비공식 시각 진단 보조 |
| §12.5 | 잔차·햇·삭제잔차 | Raw materials — 모든 진단의 기본 재료 |
| §12.6 | 체계적 이탈 검정 | 분산·링크·공변량 척도의 세 축 |
| §12.7 | 개별 이상점 검정 | 레버리지·일관성·영향력의 세 측도 |
| §12.8 | 실제 예제 3 | 당근 · Minitab 나무 · 보험금 |
| §12.9 | 진단 전략 | “물음표” 로 끝나는 장 — 여전히 기예 |
이번 글은 §12.1-§12.5 에 해당하는 개관 이다 — 철학, 스코어 검정의 기하, 잔차와 햇 행렬의 구성. §12.6 (체계적 이탈의 세 축), §12.7 (이상점의 세 측도), §12.8 (예제) 은 후속 포스트에서 각각 다룬다.
3 공식 vs 비공식 — 두 진단 모드
§12.2 는 진단 기법을 두 갈래로 나눈다.
3.1 비공식 (informal)
- 사람의 눈과 뇌에 의존 한다. 잔차 플롯 · 산점도 · 평활 곡선이 주요 도구다.
- “좋은 모형은 패턴 없는 잔차를 남긴다” 는 원칙에서 출발한다.
- 강점: 예상하지 못한 이탈 방향을 포착한다. 약점: 어떤 유한한 잔차 집합에서도 충분히 오래 보면 패턴이 보인다 — 과잉 해석 위험.
3.2 공식 (formal)
- 현재 모형 \(M_0\) 를 더 큰 모형 클래스 \(M_1\) 에 내포 시킨다.
- 추가 모수 \(\theta\) 를 잡아 \(\hat\theta\) 를 구하고, \(\hat\theta\) 에서의 적합을 \(\theta_0\) 에서의 적합과 비교한다.
- \(\theta\) 를 추가해도 적합이 크게 개선되지 않으면 \(M_0\) 는 검정을 통과한다.
- 추가 모수는 다양한 출처에서 온다:
- 추가 공변량: “지금 모형에 없는 \(x_j\) 가 필요한가?”
- 공변량 척도 (scale): \(x \to h(x;\theta)\), 예: Box-Cox \((x^\theta - 1)/\theta\).
- 링크 함수: \(g(\eta) \to g(\eta; \theta)\), 예: Pregibon 의 \(\eta^\theta\).
- 구성 변량 (constructed variate): \(\hat\eta^2\) 를 공변량으로 넣어 링크 비선형을 잡는 Hinkley (1985) 의 트릭.
비공식 검정이 “어느 쪽에 뭐가 있는지 모르는 어두운 방을 전체적으로 둘러보는” 것이라면, 공식 검정은 “이미 ‘저기 저쪽에 가구가 있을 것 같다’ 는 사전 의심 을 갖고 그 방향에 손전등을 비추는” 행위다.
- 장점: 방향이 분명하면 검정력 이 높다.
- 단점: 사전에 생각하지 못한 방향의 이탈은 놓친다.
두 모드는 상호 보완 이다. 비공식으로 수상한 방향을 발견하고, 공식으로 그 방향을 정량화한다.
3.3 개별 이상점에도 공식 검정 적용
이상점 하나를 점검하려면 그 점에서만 1, 나머지에서 0 인 더미 변수 를 선형 예측자에 추가한다. 이 변수를 포함한 모형과 원 모형의 이탈도 차이가 곧 “그 점을 제외하는 것과 같은 효과” 다.
단, 이탈도 차이의 유의성을 판단할 때는 “가장 이상해 보이는 점을 골라 검정했다” 는 사실 을 보정해야 한다 — 즉, Bonferroni 유사 보정이 필요하다.
4 스코어 검정 — 한 번의 반복으로 끝나는 검정
4.1 세 가지 대형 검정통계량
GLM 의 모수 비교에서 흔히 등장하는 세 통계량은 다음과 같다.
| 통계량 | 기반 | 정의 | 계산 비용 |
|---|---|---|---|
| 이탈도 (deviance / LRT) | 로그우도 | \(D = 2\{l(\widehat\mu_{M_1}) - l(\widehat\mu_{M_0})\}\) | \(M_1\) 을 수렴까지 적합 |
| 스코어 (score) | 1차 도함수 | \(S = U(\theta_0)^T\, i^{-1}(\theta_0|\cdot)\, U(\theta_0)\) | \(M_0\) 만 적합, 1 회 반복 추가 |
| Wald | 거리 | \(W = (\widehat\theta - \theta_0)^T i(\widehat\theta)(\widehat\theta - \theta_0)\) | \(M_1\) 수렴까지 적합 + 공분산 |
4.2 스코어 검정의 GLM 계산법
McCullagh-Nelder 의 관찰(§12.3): GLM 에서 스코어 통계량은 \(M_0\) 적합 후 \(M_1\) IRLS 의 한 단계만 돌려서 얻을 수 있다. 구체적으로 그 한 단계에서 감소하는 Pearson \(X^2\) 의 값이 곧 스코어 통계량이다 (Pregibon, 1982). 이를 quadratic score statistic 이라 부르기도 한다.
장점은 명백하다.
- 이탈도 검정은 \(M_1\) 을 수렴까지 적합해야 한다 — 반복 여러 회.
- 스코어 검정은 한 회 만 돌린다.
- 수많은 공변량 후보 중 어떤 것이 유의한지 빠르게 훑을 때 (forward selection) 스코어 검정이 압도적으로 효율적이다.
4.3 세 통계량의 기하 (Fig. 12.1)
McCullagh-Nelder 는 \(\lambda\) 에 대해 이탈도 \(\text{dev}(\lambda)\) 를 그린 곡선과 스코어 기반 \(X^2(\lambda)\) 곡선을 비교한다 (Fig. 12.1b).
- \(\lambda = \lambda_0\) 에서: 이탈도 \(D_0\), 스코어 \(S_0\). 이탈도 통계량 은 \(D_0 - D_1\), 스코어 통계량 은 \(S_0\).
- \(\lambda = \hat\lambda\) 에서: 두 곡선 모두 최솟값. 스코어 통계량은 여기서 0 이 된다.
\[S(\lambda_0) = U(\lambda_0)^T\, i^{-1}(\lambda_0|\cdot)\, U(\lambda_0).\]
여기서 \(U\) 는 \(\lambda\) 에 대한 로그우도 도함수, \(i(\lambda_0|\cdot)\) 는 나머지 모수들을 nuisance 로 간주한 프로파일 Fisher 정보다.
세 통계량은 \(M_0\) 가 옳을 때 점근적으로 같은 \(\chi^2_k\) 분포를 따르지만, 작은 표본에서는 값이 다르다. 차이의 원인은 두 가지다:
- 관측 Fisher 정보 vs 기대 Fisher 정보 의 차이.
- 로그우도의 3 차 이상 고차 미분 — 로그우도가 엄밀한 이차 함수가 아니라는 사실.
재모수화 불변성: 스코어와 이탈도는 \(\lambda\) 를 \(h(\lambda)\) 로 단조 재모수화해도 같은 값 을 준다. 반면 Wald 는 그렇지 않다 — Wald 통계량은 \(\hat\lambda - \lambda_0\) 라는 거리를 쓰므로 스케일 선택에 의존한다. 따라서 \(\delta\) 처럼 프로파일이 비대칭인 모수에서 Wald 구간이 음수를 포함하는 것 같은 불합리를 피하려면 스코어 또는 이탈도 기반 구간을 선택한다.
선형 모형(정규 오차, 등분산)에서는 세 통계량이 정확히 일치 한다 — 로그우도가 완벽한 이차 함수이기 때문이다. GLM 에서 차이가 나는 이유는 로그우도의 고차 곡률 때문이다.
5 비공식 체크의 보조 — 평활
5.1 왜 평활이 필요한가
잔차 플롯을 볼 때 사람의 눈은 \(x\) 축 밀도에 속는다. 어느 구간에 점이 많으면 \(y\) 범위도 넓어 보이고, 점이 성기면 좁아 보인다. 결과적으로 추세가 있는 것처럼 착각하거나 반대로 놓친다.
평활 곡선(예: Cleveland 의 LOWESS, 1979) 을 산점도 위에 얹으면 밀도 보정된 조건부 평균 을 보여 준다. 눈이 “어느 구간에서 평균이 0 에서 벗어나는가” 를 판단하기 쉬워진다.
5.2 조심할 점
McCullagh-Nelder 는 경고한다: 평활 알고리즘은 전적으로 무작위한 자료에서도 그럴듯한 곡선을 그려낸다. 평활 자체가 증거가 되지 않는다. 평활은 눈에 거친 패턴을 보여주는 보조 도구 일 뿐이며, 가설 검정의 대체물이 아니다.
6 Raw Materials — 잔차, 햇, 삭제잔차
§12.5 는 진단의 원재료 를 체계적으로 정의한다. 모든 공식·비공식 기법이 이 원재료의 조합이다.
6.1 선형 회귀의 재료
표준 선형 회귀(정규·등분산)에서 모형 확인에 쓰이는 통계량은
- 적합값 \(\hat\mu\),
- 잔차 분산 \(s^2 = \text{RSS}/(n - p)\),
- 햇 행렬(hat matrix) 의 대각 원소 \(h_i\).
햇 행렬은 사영
\[H = X (X^T X)^{-1} X^T\]
로, \(\hat\mu = Hy\) 다. \(h_i = H_{ii}\) 는 \(i\) 번째 관측치 자신이 자기 적합값에 기여하는 정도 — 즉 레버리지(leverage) 다. \(h_i\) 는 \(0 \leq h_i \leq 1\) 이며 \(\sum h_i = p\).
\(y_i\) 가 자기 자신의 적합값 \(\hat\mu_i\) 에 얼마나 끌려오는가? 공변량 공간에서 다른 관측치들과 멀리 떨어진 점은 자기를 끌어당길 다른 중력원이 없어 자기 자신만 바라본다 → \(h_i\) 가 크다. 공변량 공간 가운데 있는 점은 주변 관측치들이 같이 끌어당겨 → \(h_i\) 가 작다.
\(h_i \to 1\): 그 점이 자기를 완벽히 설명해 버린다 (극단 레버리지). \(h_i \to 0\): 그 점은 다른 점들이 대신 적합해 준다.
6.2 네 종류의 잔차
- 기본 잔차: \(r_i = y_i - \hat\mu_i\).
- 표준화 잔차 (standardized): 분산을 일정하게 맞춘다. \[\frac{y_i - \hat\mu_i}{\sqrt{1 - h_i}}.\] \(\text{var}(y_i - \hat\mu_i) = \sigma^2 (1 - h_i)\) 이므로, \(\sqrt{1 - h_i}\) 로 나누면 상수 분산이 된다.
- Studentized 표준화 잔차 (§12.5 의 \(r_i^\prime\)): \[r_i^\prime = \frac{y_i - \hat\mu_i}{s \sqrt{1 - h_i}}. \tag{12.1}\] \(s\) 로 한 번 더 나누면 단위가 사라져 여러 모형·데이터셋을 비교할 수 있다.
- 삭제잔차 (deletion residual) (§12.5 의 \(r_i^*\)): \[r_i^* = \frac{y_i - \hat\mu_{(i)}}{s_{(i)} \sqrt{1 + h_{(i)}}} = \frac{y_i - \hat\mu_i}{s_{(i)} \sqrt{1 - h_i}}, \tag{12.2}\] 여기서 \(\hat\mu_{(i)}\) 는 점 \(i\) 를 제외하고 적합한 뒤 \(i\) 의 공변량으로 예측한 값이다.
6.3 \(r_i^\prime\) vs \(r_i^*\) — 무엇이 다른가
두 표준화의 결정적 차이:
- \(r_i^\prime\): \(y_i\) 와 \(\hat\mu_i\) 는 양의 상관 이다 (\(y_i\) 가 \(\hat\mu_i\) 계산에 들어갔으므로). 그래서 \(\text{var}(y_i - \hat\mu_i) = \sigma^2(1 - h_i)\) — 빼기 항이 분모에 \((1 - h_i)\).
- \(r_i^*\): \(y_i\) 와 \(\hat\mu_{(i)}\) 는 독립 이다 (\(\hat\mu_{(i)}\) 계산에 \(y_i\) 가 들어가지 않음). 따라서 \(\text{var}(y_i - \hat\mu_{(i)}) = \sigma^2(1 + h_{(i)})\) — 더하기 항.
결과로 \(r_i^{*2}\) 는 \(y_i\) 를 제거했을 때의 잔차 제곱합 감소를 \(s_{(i)}^2\) 로 스케일한 값이다. 극단점의 영향력을 측정할 때 \(r_i^*\) 가 더 정직하다 — 왜냐하면 \(s\) 자체가 \(y_i\) 에 오염돼 있기 때문이다.
또한 Atkinson (1985) 는 \(r_i^* = r_i^\prime \cdot s/s_{(i)}\) 라는 편리한 관계를 보였다.
6.4 GLM 확장 — 햇 행렬의 재정의
GLM 에서 \(\hat\mu\) 는 \(y\) 의 선형 함수가 아니다. IRLS 의 각 반복에서 가중치 \(W\) 가 적합값에 의존하기 때문이다. 그래서 햇 행렬을 가중치로 보정 한다.
\[ \boxed{\;H = W^{1/2} X (X^T W X)^{-1} X^T W^{1/2}\;} \tag{12.3} \]
이는 \(X\) 대신 \(W^{1/2} X\) 를 사용한 선형 회귀의 햇 행렬과 같다. 여기서 \(W = \text{diag}(w_i)\) 는 IRLS 최종 반복의 가중치 행렬 이다 (\(w_i = (\partial \mu_i/\partial \eta_i)^2 / V(\mu_i)\) 꼴).
이 \(H\) 는 선형 예측자 수준 의 햇 행렬이다. 구체적으로 근사 관계
\[V^{-1/2}(\hat\mu - \mu) \simeq H \cdot V^{-1/2}(Y - \mu)\]
가 성립한다 (\(V = \text{diag}(V(\mu_i))\)). 즉 \(H\) 는 Studentized 단위로 본 \(Y\) 에서 \(\hat\mu\) 로의 영향 행렬 이다.
비표준화 단위로는 \(V^{1/2} H V^{-1/2}\) 인데 이것은 비대칭 사영이다. 여기서 대칭/비대칭 구분이 중요한 이유는, 레버리지를 읽을 땐 대칭 버전 \(H\) 의 대각 원소 \(h_i\) 를 사용해야 하기 때문이다.
6.5 GLM 잔차의 표준화
§2.4 에서 정의된 세 잔차 중 Pearson 과 이탈도(deviance) 잔차가 진단에 널리 쓰인다.
Pearson 표준화 잔차: \[r_P^\prime = \frac{y - \hat\mu}{\sqrt{\hat\phi\, V(\hat\mu)\, (1 - h)}}. \tag{12.4}\]
이탈도 표준화 잔차 (Cox & Snell, 1968): \[r_D^\prime = \frac{r_D}{\sqrt{\hat\phi\, (1 - h)}}. \tag{12.5}\]
두 잔차는 본질이 같지만 점근 분포 에서 차이가 난다. Pierce & Schafer (1986) 의 계산에 따르면 \(r_D\) 의 분포가 선형 회귀의 정규 잔차에 더 가깝다 — 따라서 모형 확인에서는 이탈도 잔차가 Pearson 보다 선호 된다.
| 상황 | 추천 잔차 | 이유 |
|---|---|---|
| 시각적 진단 (잔차 플롯) | 표준화 이탈도 \(r_D^\prime\) | 정규 근사가 더 정확 |
| 분산 함수 검정 | \(|r_D^\prime|\) vs \(\hat\mu\) | 평균의 추세가 분산 함수 이탈을 포착 |
| 이상점 탐지 | 삭제잔차 \({}_1 r_D^\prime\) | \(y_i\) 가 \(s\) 를 오염시키지 않음 |
| Pearson \(X^2\) 분해 | \(r_P^\prime\) | 정의상 Pearson 통계량과 직접 연결 |
실무에서는 이탈도 잔차를 기본 으로 삼고, Pearson 은 분해가 필요할 때 보조로 사용한다.
6.6 삭제잔차의 1-step 근사 — Williams (1987) 공식
\(r_i^*\) 의 정확한 계산에는 \(n\) 번 재적합이 필요하다 (각 \(i\) 마다 재적합). GLM 에서는 매번 IRLS 가 수렴할 때까지 돌아야 하므로 계산 비용이 크다.
해법: 1-step 근사. 완전 적합의 가중치·잔차에서 출발해 점 \(i\) 를 뺀 IRLS 를 한 회만 돌린다. 결과를 \({}_1 r_P^\prime\), \({}_1 r_D^\prime\) 로 표기한다.
Williams (1987) 는 완전 적합·1-step 근사와 이탈도 감소를 잇는 공식을 보였다.
\[ \boxed{\;r_D^{*2} \simeq h \cdot {}_1 r_P^{\prime 2} + (1 - h) \cdot {}_1 r_D^{\prime 2}\;} \tag{12.6} \]
즉 점 \(i\) 를 뺐을 때 이탈도가 감소하는 양 은 (12.6) 우변의 가중 평균으로 근사된다. \(h\) 가 크면 (레버리지가 큰 점) Pearson 잔차의 기여가 크고, \(h\) 가 작으면 이탈도 잔차의 기여가 지배적이다.
\(y_i\) 를 모형에서 뺀다는 것은 그 점이 (a) 적합값을 얼마나 끌어당기고 있었는지 + (b) 로그우도에 얼마나 기여하고 있었는지 두 측면을 제거하는 것이다.
- \(h\) 가 크면 그 점이 자기 적합값을 대부분 결정하고 있었다 → 제거 효과는 주로 “그 점이 만든 Pearson 스타일 기여” 에 의존 → \({}_1 r_P^{\prime 2}\) 항이 강조.
- \(h\) 가 작으면 그 점은 다른 점들과 함께 평균화돼 있었다 → 제거 효과는 주로 “로그우도에 얼마나 기여했나” → \({}_1 r_D^{\prime 2}\) 항이 강조.
(12.6) 의 가중치 \((h, 1-h)\) 는 이 두 측면의 자연스러운 분할이다.
Pregibon (1981, p.720) 도 동등한 공식을 제시한다.
7 체계적 이탈 검정의 세 축 (§12.6 미리 보기)
§12.6 은 체계적 이탈의 세 가지 원인 을 각각 공격한다.
| 원인 | 공식 검정 도구 | 비공식 도구 |
|---|---|---|
| 분산 함수 \(V(\mu)\) | EQL 기반 \(V(\mu) = \mu^\zeta\) 프로파일 | \(|r_D^\prime|\) vs \(\hat\mu\) 플롯 |
| 링크 함수 \(g(\mu)\) | \(\hat\eta^2\) 를 공변량으로 추가 (Hinkley, 1985) | \(z\) vs \(\hat\eta\) 플롯 |
| 공변량 척도 \(x \to h(x;\theta)\) | Box-Cox 가족 프로파일 | Partial residual plot |
예를 들어 자동차 보험 청구 데이터에서 \(\zeta_0 = 2\) (감마 오차) 가 적절한지 검정하려면 \(V(\mu) = \mu^\zeta\) 를 가정하고 \(\zeta\) 의 프로파일 이탈도 곡선을 그린다. 95% 신뢰 구간이 \((1.87, 2.85)\) 면 초기 선택 \(\zeta_0 = 2\) 는 통과다.
세 검정은 서로 혼입 (confounded) 된다. 링크 함수 검정이 유의하게 나오는 이유가 (1) 링크가 잘못됐거나 (2) 공변량 척도가 잘못됐거나 둘 다 일 수 있다. 이 혼입은 Ch.11 에서 본 “역치 누락이 가짜 교호작용으로 위장” 패턴의 반복이다.
복합 진단 (compound diagnostics): §12.6.5 는 모든 후보 추가 항을 한꺼번에 넣고 (forward) → 각각 제거하며 (backward) 효과를 측정하는 이중 방향 검정을 권한다. Davison & Tsai (1988) 의 실제 사례가 있다.
8 개별 이상점 검정의 세 측도 (§12.7 미리 보기)
§12.7 은 하나의 관측치가 적합에 미치는 영향을 세 개의 독립적 측도 로 나눈다.
| 측도 | 정의 | 무엇을 잡나 |
|---|---|---|
| 레버리지 (leverage) | \(h_i\) | “이 점이 공변량 공간에서 얼마나 특이한가” |
| 일관성 (consistency) | 삭제잔차 \({}_1 r_D^\prime\) 또는 \(r_i^*\) | “이 점의 \(y_i\) 가 나머지 모형이 예측하는 값과 얼마나 다른가” |
| 영향력 (influence) | Cook’s D 유사량 (\(h\) 와 잔차의 결합) | “이 점을 빼면 추정치 벡터가 얼마나 움직이나” |
세 측도는 독립 이다. 한 점이 레버리지는 크지만 일관성 있으면(Fig. 12.3b) 그 점은 정확도를 올려주는 좋은 점 이다. 레버리지가 작은데 일관성이 낮으면(Fig. 12.3a) 그 점은 기록 오류 의심이 크다. 둘 다 크면(Fig. 12.3c) 그 점이 회귀 직선을 혼자서 끌고 있다 — 가장 위험한 경우.
9 GLM 진단의 기본 플롯 레시피
Ch.12 전체의 실무적 요약은 다음 다섯 가지 기본 플롯이다.
- 표준화 이탈도 잔차 vs 적합값 (등정보 스케일)
- 정규: \(\hat\mu\)
- 포아송: \(2\sqrt{\hat\mu}\)
- 이항: \(2 \arcsin\sqrt{\hat\mu}\)
- 감마: \(2\log\hat\mu\)
- 역 가우시안: \(-2/\sqrt{\hat\mu}\)
- 잔차 vs 각 공변량: 선형 예측자 척도 확인.
- 추가 변수 플롯 (added-variable plot): 누락된 공변량 후보 탐지.
- 부분 잔차 플롯 (partial residual plot): 공변량 척도 확인.
- 레버리지 \(h_i\) vs 삭제잔차: 이상점 식별.
잔차를 \(\hat\mu\) 대신 변환된 스케일에 그리는 이유는 정규 회귀와 같은 시각적 해석 을 주기 위함이다.
정규 오차의 경우 \(y - \hat\mu\) vs \(\hat\mu\) 플롯에서 “\(y\) 고정” 의 등고선은 기울기 \(-1\) 의 평행 직선 이다. 다른 분포에서는 이 등고선이 곡선이지만, 등정보 스케일로 변환하면 \(r = 0\) 근방에서 기울기 \(-1\) 이 복원되고 곡률이 대체로 작아진다. 결과적으로 “빈 플롯이 좋은 모형” 이라는 시각적 원칙이 GLM 에서도 그대로 작동한다.
이항 데이터 주의: \(\hat\mu\) 는 \(\hat\pi\) (비율) 로 해석해야 한다 — \(m\hat\pi\) 가 아니다.
9.1 이항 데이터의 예외
이 플롯이 이항 데이터에서는 거의 쓸모가 없다. 이유: \(y \in \{0, 1\}\) 이므로 모든 점이 두 곡선 중 하나 위에 놓인다. \(\hat\mu \to 0\) 근방은 거의 \(y = 0\), \(\hat\mu \to 1\) 근방은 거의 \(y = 1\) 이라 잔차 플롯이 구조적으로 경사 진다.
대안: 부분 잔차 플롯을 평활 한 것. Fowlkes (1987), Kay & Little (1987) 이 이진 데이터 전용 진단을 다룬다.
10 진단은 기예이지 과학이 아니다 — §12.9 의 경고
McCullagh-Nelder 는 Ch.12 끝에서 “진단 전략?” 이라는 물음표로 장을 닫는다. 이유는 세 가지다.
- 이탈 사이의 혼입 (interaction between departures): 링크 검정 유의 → 링크가 틀렸거나, 공변량 척도가 틀렸거나, 교호작용이 빠졌거나, 이상점 때문이거나. 진단 도구 하나가 가리키는 “원인” 은 여러 가능성의 혼합이다.
- 군집 이상점 (clumps of extreme points): 이상점이 하나씩 떨어져 있으면 삭제잔차로 잡히지만, 여러 개가 뭉쳐 있으면 서로 영향력을 상쇄한다. Atkinson (1986), Rousseeuw & Leroy (1988) 의 least median of squares 같은 강건 적합이 대안이다.
- 해석의 문맥 의존성: 이상점을 발견한 뒤의 행동 — 제거할 것인가, 모형을 확장할 것인가, 오류 보고할 것인가 — 은 도메인 지식 에 달려 있다. 알고리즘으로 결정할 수 없다.
“모든 흥미로운 점은 잘못된 점이다” 라는 냉소적 격언은 이 긴장의 한 단면이다.
11 관련 주제
선행 지식
- GLM 적합도 측정 — Deviance·Pearson·Analysis of Deviance (McCullagh §2.3)
- GLM 잔차의 세 유형 — Pearson·Anscombe·Deviance Residuals (McCullagh §2.4)
- GLM 적합 알고리즘 — IRLS 의 완전한 유도 (McCullagh §2.5)
- Parameters in the Link Function — Pregibon · Box-Cox 링크 (McCullagh §11.3)
- Non-Linear Parameters in the Covariates (McCullagh §11.4)
관련 개념
- 선형모형의 추정 — MLE·사영 기하·정보·다중공선성 (McCullagh §3.6) — \(H = X(X^TX)^{-1}X^T\) 의 원형
- Extended Quasi-likelihood (McCullagh §9.6) — \(V(\mu;\zeta) = \mu^\zeta\) 프로파일 검정의 이론적 기반
- Ch.11 Exercises — 반올림 오차 누율·Drosophila (McCullagh §11.7) — 비선형 프로파일 이탈도의 실전 예
후속 주제
- Techniques in Model Checking — 비공식과 공식의 분업·Embedding 원리 (McCullagh §12.2) — 네 가지 embedding 채널과 더미 공변량
- Score Tests for Extra Parameters — 한 회 반복으로 끝나는 검정 (McCullagh §12.3) — Pregibon 1-step 트릭과 재모수화 불변성
- Smoothing as an Aid to Informal Checks (McCullagh §12.4) — 밀도 편향·LOWESS·대역폭 선택
- Raw Materials of Model Checking — 잔차·햇·삭제잔차 (McCullagh §12.5) — 진단 원재료의 상세
- Checks for Systematic Departure — 분산·링크·공변량 척도 (McCullagh §12.6) — 세 축 각각의 공식·비공식 진단
- Checks for Isolated Departure — 레버리지·일관성·영향력 (McCullagh §12.7) — 세 측도와 삭제 진단
- Model Checking Examples — 당근 · Minitab 나무 · 보험금 (McCullagh §12.8) — 세 가지 실제 데이터 예제