1 서론 — 진단 도구의 “원재료”
Ch.12 의 모든 진단 기법 — 체계적 이탈 검정 (§12.6), 개별 이상점 검정 (§12.7), 복합 진단 (§12.9) — 은 세 가지 원재료 위에 서 있다.
- 잔차 (residuals): 원시 \(r = y - \widehat\mu\) 부터 표준화·Studentized·삭제잔차까지.
- 햇 행렬 (hat matrix) \(H\): 관측치 \(y\) 가 자기 적합값 \(\widehat\mu\) 에 미치는 영향을 담는 사영 행렬. 대각 원소 \(h_i\) 가 레버리지(leverage).
- 삭제 통계량 (deletion statistics): \(\widehat\mu_{(i)}, s_{(i)}^2\) 등 점 \(i\) 를 뺀 재적합으로 얻는 양.
이 재료들이 잘 정의되고 효율적으로 계산되면, 진단 절차 전체가 깔끔해진다. 반대로 재료가 흐릿하면 진단 결과의 해석이 혼란스럽다.
§12.5 는 이 재료들을 선형 회귀에서 먼저 정의 한 뒤, GLM 으로 확장 하는 방식으로 전개한다. 이 구조는 수학적으로 자연스럽다 — GLM 의 IRLS 는 각 반복에서 가중 선형 회귀이므로, 선형 회귀의 진단 개념이 가중치를 끼워 넣는 방식 으로 그대로 확장된다.
이 포스트는 overview (11-1) 에서 개략 소개한 내용을 수학적 유도와 증명 수준까지 심화한다.
2 선형 회귀의 재료
2.1 설정
\(y = X\beta + \epsilon\), \(\epsilon \sim N(0, \sigma^2 I_n)\), \(X\) 는 \(n \times p\) 계수 최대 랭크 \(p\).
MLE 는 \(\widehat\beta = (X^TX)^{-1}X^Ty\), 적합값은
\[\widehat\mu = X\widehat\beta = X(X^TX)^{-1}X^T y = Hy.\]
2.2 햇 행렬의 기하
\[H = X(X^TX)^{-1}X^T\]
는 \(\mathbb{R}^n\) 의 \(X\)-열공간 \(\mathcal{C}(X)\) 위로의 직교 사영 이다. 이는 대칭이고 멱등이다:
\[H^T = H, \qquad H^2 = H.\]
2.3 햇 행렬의 기본 성질
| 성질 | 내용 | 의미 |
|---|---|---|
| 대칭성 | \(H^T = H\) | 사영은 대칭 |
| 멱등성 | \(H^2 = H\) | 두 번 사영해도 같다 |
| 대각 합 | \(\text{tr}(H) = p\) | 자유도 \(p\) 가 대각에 분배됨 |
| 대각 경계 | \(1/n \leq h_i \leq 1\) (절편 있을 때) | 각 점의 “자기 기여” 경계 |
| 블록 관계 | \(H(I - H) = 0\) | 사영과 잔차 사영의 직교성 |
\(\widehat\mu_i = \sum_j H_{ij} y_j\) 이므로 \(h_i = H_{ii}\) 는 “\(y_i\) 자신이 자기 적합값에 기여하는 가중치” 다.
- \(h_i = 1/n\): 모든 점이 평등하게 기여 (절편만 있는 모형).
- \(h_i \to 1\): 자기 자신만 자기를 설명 (극단적 외톨이 — 공변량 공간에서 다른 모든 점과 거리가 멀다).
- \(h_i \to 0\): 자기는 다른 점들이 설명해 준다 (클러스터 중심).
\(\text{tr}(H) = p\) 는 “평균 레버리지 \(= p/n\)” 를 의미한다. 기준선: \(h_i > 2p/n\) 이면 “레버리지 높음” 으로 의심 대상.
2.4 잔차의 변동 구조
\(r = y - \widehat\mu = (I - H)y\) 이다. 따라서
\[\text{Var}(r) = \sigma^2 (I - H)(I - H)^T = \sigma^2 (I - H), \qquad \text{Var}(r_i) = \sigma^2(1 - h_i).\]
관측: 잔차 분산은 \(\sigma^2\) 이 아니다 — \(\sigma^2 (1 - h_i)\) 다. 레버리지가 큰 점은 잔차 분산이 작다. 이는 “자기 자신이 자기 적합에 크게 기여해 잔차가 억지로 0 에 가깝게 된다” 는 의미다.
2.5 잔차 재료 — 네 층의 스탠다드화
잔차를 유용한 진단 통계량 으로 만들려면 스탠다드화가 필요하다. McCullagh-Nelder 는 다음 네 층을 정의한다.
2.5.1 층 1: 원시 잔차 (Raw)
\[r_i = y_i - \widehat\mu_i.\]
단위가 \(y\) 와 같아 모형·분포 비교가 어렵다. 분산도 \(1 - h_i\) 로 점마다 다름.
2.5.2 층 2: 표준화 잔차 (Standardized)
분산을 상수로 맞춘다.
\[\frac{y_i - \widehat\mu_i}{\sqrt{1 - h_i}}.\]
\(\text{Var}\) 이 이제 \(\sigma^2\) 로 균일. 단위는 여전히 \(y\) 와 같다.
2.5.3 층 3: Studentized 표준화 잔차 (§12.1)
단위까지 지운다.
\[r_i^\prime = \frac{y_i - \widehat\mu_i}{s\sqrt{1 - h_i}}. \tag{12.1}\]
\(s = \sqrt{\text{RSS}/(n-p)}\) 는 잔차 표준편차. 이제 귀무 하에서 \(r_i^\prime\) 는 (근사적) 표준 정규 — 점 간 비교 가능.
핵심 관찰: \(r_i^{\prime 2}\) 는 점 \(i\) 를 뺐을 때의 RSS 감소를 전체 \(s^2\) 로 나눈 값 이다.
증명 스케치: 점 \(i\) 를 뺀 적합의 RSS 는
\[\text{RSS}_{(i)} = \text{RSS} - \frac{r_i^2}{1 - h_i}.\]
이 식의 유도는 Sherman-Morrison 업데이트 공식에서 나온다 (뒤에서 상술). 따라서 감소량은 \(r_i^2/(1-h_i) = s^2 \cdot r_i^{\prime 2}\) 이고, \(s^2\) 으로 나누면 \(r_i^{\prime 2}\) 다.
2.5.4 층 4: 삭제잔차 (Deletion Residual)
\(y_i\) 를 예측에서 완전히 빼고 재적합한 뒤, 그 점에 대한 예측 오차를 표준화한다.
\[r_i^* = \frac{y_i - \widehat\mu_{(i)}}{s_{(i)}\sqrt{1 + h_{(i)}}} = \frac{y_i - \widehat\mu_i}{s_{(i)}\sqrt{1 - h_i}}. \tag{12.2}\]
여기서 \(\widehat\mu_{(i)} = x_i^T \widehat\beta_{(i)}\), \(\widehat\beta_{(i)}\) 는 점 \(i\) 없이 적합한 회귀계수, \(s_{(i)}^2\) 은 그 적합의 잔차 분산, \(h_{(i)} = x_i^T (X_{(i)}^TX_{(i)})^{-1} x_i\) 이다.
3 핵심 등식들 — Sherman-Morrison 업데이트
3.1 등식 1: \(h_{(i)} = h_i / (1 - h_i)\)
Sherman-Morrison 공식: \((A - bc^T)^{-1} = A^{-1} + \frac{A^{-1}bc^TA^{-1}}{1 - c^TA^{-1}b}\).
\(X_{(i)}^T X_{(i)} = X^T X - x_i x_i^T\) 에 적용하면
\[(X_{(i)}^TX_{(i)})^{-1} = (X^TX)^{-1} + \frac{(X^TX)^{-1} x_i x_i^T (X^TX)^{-1}}{1 - x_i^T(X^TX)^{-1}x_i}.\]
분모가 \(1 - h_i\) 다. 따라서
\[h_{(i)} = x_i^T (X_{(i)}^TX_{(i)})^{-1} x_i = x_i^T(X^TX)^{-1}x_i + \frac{(x_i^T(X^TX)^{-1}x_i)^2}{1-h_i} = h_i + \frac{h_i^2}{1-h_i} = \frac{h_i}{1-h_i}. \;\square\]
3.2 등식 2: \(y_i - \widehat\mu_{(i)} = (y_i - \widehat\mu_i)/(1-h_i)\)
비슷한 업데이트로
\[\widehat\beta_{(i)} = \widehat\beta - \frac{(X^TX)^{-1}x_i}{1-h_i}(y_i - \widehat\mu_i).\]
점 \(i\) 에서의 재예측은
\[\widehat\mu_{(i)} = x_i^T \widehat\beta_{(i)} = \widehat\mu_i - \frac{h_i (y_i - \widehat\mu_i)}{1 - h_i}.\]
따라서
\[y_i - \widehat\mu_{(i)} = y_i - \widehat\mu_i + \frac{h_i(y_i-\widehat\mu_i)}{1-h_i} = \frac{y_i - \widehat\mu_i}{1-h_i}. \;\square\]
이 등식이 (12.2) 의 두 번째 형태
\[r_i^* = \frac{y_i - \widehat\mu_{(i)}}{s_{(i)}\sqrt{1+h_{(i)}}}\]
가 \(y_i\) 를 실제로 빼고 재적합하지 않고도 계산됨을 보증한다. \(1+h_{(i)} = 1 + h_i/(1-h_i) = 1/(1-h_i)\) 이므로
\[r_i^* = \frac{(y_i - \widehat\mu_i)/(1-h_i)}{s_{(i)} \cdot 1/\sqrt{1-h_i}} = \frac{y_i - \widehat\mu_i}{s_{(i)}\sqrt{1-h_i}}. \;\square\]
3.3 등식 3: \((n-p-1)s_{(i)}^2 = (n-p)s^2 - r_i^2/(1-h_i)\)
삭제 적합의 잔차제곱합은 전체에서 “점 \(i\) 의 기여분” 을 뺀 것이다.
\[\text{RSS}_{(i)} = \text{RSS} - \frac{r_i^2}{1-h_i}.\]
자유도도 하나 줄어들어 \((n - p - 1)\). 두 식을 합치면 \(s_{(i)}^2\) 공식이 나온다.
3.4 등식 4: \(r_i^* = r_i^\prime \cdot s/s_{(i)}\) (Atkinson, 1985)
정의로부터
\[r_i^\prime = \frac{y_i - \widehat\mu_i}{s\sqrt{1-h_i}}, \qquad r_i^* = \frac{y_i - \widehat\mu_i}{s_{(i)}\sqrt{1-h_i}}.\]
나누면 \(r_i^* / r_i^\prime = s/s_{(i)}\). \(\square\)
이 관계가 중요한 이유: \(r_i^*\) 는 \(r_i^\prime\) 과 \(s, s_{(i)}\) 비율의 곱일 뿐 이다. \(y_i\) 를 크게 만들면 \(s\) 는 증가 (\(y_i^2\) 포함), \(s_{(i)}\) 는 불변 → \(s/s_{(i)} < 1\) 이 되어 \(r_i^*\) 가 \(r_i^\prime\) 보다 작아진다. 반대 방향 효과:
- \(r_i^\prime\): 큰 이상점이면 \(s\) 가 오염되어 \(r_i^\prime\) 이 과소평가.
- \(r_i^*\): \(s\) 대신 \(s_{(i)}\) 를 쓰므로 오염이 제거 — 더 선명한 이상점 신호.
3.5 왜 \(r_i^\prime\) 에는 \((1-h_i)\), \(r_i^*\) 에는 \((1+h_{(i)})\) 인가
두 잔차는 서로 다른 예측 대상 을 표준화한다.
3.5.1 \(r_i^\prime\): \(y_i - \widehat\mu_i\)
\(\widehat\mu_i\) 계산에 \(y_i\) 가 들어간다. 따라서 \(y_i\) 와 \(\widehat\mu_i\) 는 양의 상관 이다. 구체적으로:
\[\text{Var}(y_i - \widehat\mu_i) = \text{Var}(y_i) + \text{Var}(\widehat\mu_i) - 2\text{Cov}(y_i, \widehat\mu_i) = \sigma^2 + \sigma^2 h_i - 2\sigma^2 h_i = \sigma^2 (1 - h_i).\]
빼기 항 \((1 - h_i)\) — \(y_i\) 가 자기 적합에 미치는 중복 기여를 빼 줘야 한다.
3.5.2 \(r_i^*\): \(y_i - \widehat\mu_{(i)}\)
\(\widehat\mu_{(i)}\) 는 \(y_i\) 없이 계산된다. 따라서 \(y_i \perp \widehat\mu_{(i)}\) (독립).
\[\text{Var}(y_i - \widehat\mu_{(i)}) = \text{Var}(y_i) + \text{Var}(\widehat\mu_{(i)}) = \sigma^2 + \sigma^2 h_{(i)} = \sigma^2(1 + h_{(i)}).\]
더하기 항 \((1 + h_{(i)})\) — 독립이면 분산이 더해진다.
잔차 분산의 부호는 데이터와 예측의 정보 의존성 을 반영한다.
- \(y_i\) 가 \(\widehat\mu_i\) 에 포함 → 공통 정보로 둘이 같은 방향으로 움직여 차이가 작아짐 → 분산이 \(\sigma^2\) 보다 작음 → \((1-h_i)\).
- \(y_i\) 가 \(\widehat\mu_{(i)}\) 와 독립 → 두 독립 항의 차이는 두 분산의 합 → 분산이 \(\sigma^2\) 보다 큼 → \((1+h_{(i)})\).
수식의 \(\pm h\) 부호가 바뀌는 이 작은 디테일이 “같은 잔차 \(y_i - \widehat\mu_i\)” 가 두 종류의 표준화 로 나뉘는 근본 이유다. 두 형태의 해석은 다르다:
- \(r_i^\prime\) 은 “이 점이 모형과 얼마나 일치하는가” (내부 일관성).
- \(r_i^*\) 는 “나머지 모형이 이 점을 얼마나 잘 예측하는가” (외부 예측 오차).
4 GLM 확장 — IRLS 의 가중 기하
4.1 왜 \(H = W^{1/2} X (X^T W X)^{-1} X^T W^{1/2}\) 인가
GLM 의 IRLS 는 각 반복에서 가중 선형 회귀 를 푼다. 최종 반복에서 조정 종속변량 \(z\) 와 가중치 \(W = \text{diag}(w_i)\) 로
\[\widehat\beta = (X^TWX)^{-1} X^T W z, \qquad \widehat\eta = X\widehat\beta.\]
조정 종속변량 기반 \(z\) 의 자기 적합값은
\[\widehat z_i = x_i^T \widehat\beta = x_i^T (X^TWX)^{-1} X^T W z.\]
이를 Studentized 단위 로 옮기자 (\(z\) 의 표준오차가 \(w_i^{-1/2}\) 이므로 Studentized 는 \(w_i^{1/2} z_i\)):
\[w_i^{1/2} \widehat z_i = w_i^{1/2} x_i^T (X^TWX)^{-1} X^T W z.\]
벡터로 쓰면 \(W^{1/2} \widehat z = W^{1/2} X (X^TWX)^{-1} X^T W z = W^{1/2} X (X^TWX)^{-1} X^T W^{1/2} \cdot W^{1/2} z\). 따라서 Studentized 단위로 본 사영 행렬은
\[H = W^{1/2} X (X^TWX)^{-1} X^T W^{1/2}. \tag{12.3}\]
4.2 성질의 유지
- 대칭: \(H^T = H\). ✓
- 멱등: \(H^2 = H\). ✓
- 대각 합: \(\text{tr}(H) = p\). ✓
- 대각 경계: \(0 \leq h_i \leq 1\). ✓
선형 회귀의 모든 성질이 가중치 \(W\) 가 들어간 내적 구조 아래에서 그대로 유지된다.
4.3 영향 관계식
\(H\) 는 Studentized 단위의 사영 이므로, 원래 단위의 영향 관계는
\[V^{-1/2}(\widehat\mu - \mu) \simeq H \cdot V^{-1/2}(Y - \mu), \qquad V = \text{diag}(V(\mu_i))\]
\(V(\mu)\) 는 분산 함수. 이것이 “\(Y\) 의 표준화 변동이 \(\widehat\mu\) 의 표준화 변동으로 얼마나 전달되는가” 를 담는다.
비표준화 단위에서는 \(V^{1/2} H V^{-1/2}\) 가 적합값-데이터 영향 행렬이다. 이것은 비대칭 이다 — \(Y\) 에서 \(\widehat\mu\) 로의 방향과 그 반대가 다른 가중치를 가진다.
- 레버리지 대각 원소 를 읽을 땐 대칭 \(H\) 의 대각 원소 \(h_i\) 를 사용한다. 대칭이 자기 상호작용을 균형 있게 표시하기 때문.
- 정확한 영향 전파 가 필요한 계산 (예: 국소 민감도 분석) 에서는 비대칭 \(V^{1/2} H V^{-1/2}\) 가 더 정밀하다.
McCullagh-Nelder 의 관행은 진단 목적으로 대칭 \(H\) 를 표준 으로 채택한다.
5 Pearson 표준화 잔차 (12.4)
선형 회귀 \(r_i^\prime = (y_i - \widehat\mu_i)/(s\sqrt{1-h_i})\) 의 GLM 아날로그:
\[r_P^\prime = \frac{y - \widehat\mu}{\sqrt{\widehat\phi\, V(\widehat\mu)\, (1-h)}}. \tag{12.4}\]
5.1 분모 구성 해부
- \(\widehat\phi\): 선형 회귀의 \(s^2\) 자리. 산포 모수의 추정.
- \(V(\widehat\mu)\): 분산 함수. \(\text{Var}(Y_i) = \phi V(\mu_i)\) 이므로 분포에 맞는 분산.
- \((1-h)\): 레버리지 보정. IRLS 가중치 \(W\) 를 포함한 햇 행렬 대각.
세 인수의 곱이 \(y_i - \widehat\mu_i\) 의 (근사) 분산 이다.
5.2 왜 \(V(\widehat\mu)\) 로 쓰는가 (\(V(\mu)\) 가 아니라)
이론적으로는 \(V(\mu_i)\) 지만 \(\mu_i\) 를 모른다. \(\widehat\mu_i\) 로 대체하는 것이 관례다. 유한 표본에서는 이 대체가 약간의 편향을 도입한다 — 하지만 \(n\) 이 클 때 \(\widehat\mu \to \mu\) 이므로 점근적으로는 영향 없다.
6 이탈도 표준화 잔차 (12.5) — Cox-Snell (1968)
\[r_D^\prime = \frac{r_D}{\sqrt{\widehat\phi\, (1-h)}}. \tag{12.5}\]
분자에 \(V(\widehat\mu)\) 가 없다. 왜 이탈도 잔차는 다른 표준화를 받는가?
6.1 Cox-Snell 의 주장 — 1차 전개로 본 분산
이탈도 잔차의 정의:
\[r_D(y; \widehat\mu) = \text{sign}(y - \widehat\mu) \cdot \sqrt{2\{l(y;y) - l(\widehat\mu;y)\}}.\]
\(\widehat\mu \to \mu\) 근처에서 \(r_D^2\) 의 Taylor 전개는
\[r_D^2 \simeq \frac{(y - \mu)^2}{V(\mu)} + O_p(n^{-1/2}).\]
오른쪽 첫 항은 바로 Pearson 잔차의 제곱이다. 따라서 이탈도 잔차의 주된 분산 성분 은 \(V(\mu)\) 인데, 분자에 이미 \(\sqrt{V(\mu)}\) 가 암시되어 있다 (이탈도 정의의 분포 구조에서 자동으로). 따라서 표준화에서는 \(V(\widehat\mu)\) 를 다시 나누면 안 된다.
구체적으로 Cox-Snell (1968) 은 \(r_D\) 의 근사 분산이 \(\phi(1 - h)\) 임을 보였다. 즉 이탈도 잔차의 분모에는 \(V\) 없이 \(\phi(1-h)\) 만 있어야 한다.
6.2 Pierce-Schafer (1986) — 이탈도 잔차의 정규성
Pierce & Schafer (1986) 는 \(r_D^\prime\) 의 분포가 \(r_P^\prime\) 보다 표준 정규에 더 가깝다 는 것을 해석적 근사로 보였다. 이유는 이탈도 잔차가 구성상 대칭화 변환 을 포함하기 때문이다.
- Pearson 잔차는 단순 정규화이므로 원 분포의 비대칭을 그대로 반영.
- 이탈도 잔차는 “로그우도 차이” 기반이라 로그변환 같은 비대칭 교정 이 내장.
Anscombe 잔차의 아이디어는 “분포를 정규로 변환하는 변환” 이다. 이탈도 잔차는 Anscombe 잔차에 가깝지만 더 계산하기 쉬운 형태다.
이항 분포의 예: \(y = 3/10\) 과 \(\widehat\mu = 0.5\) 의 Pearson 잔차는 \((0.3-0.5)/\sqrt{0.5\cdot 0.5/10} = -1.26\). 이탈도 잔차는 로그 likelihood 비에서 나와 약 \(-1.28\). 두 값 자체는 비슷하지만, 더 작은 \(\mu\) 나 극단적 \(y\) 에서는 차이가 벌어지고 이탈도 잔차가 더 균형 잡힌 분포를 유지한다.
실무 규칙: 잔차 플롯의 정규성이 중요한 진단 (평활·Q-Q 플롯) 에서 이탈도 잔차를 쓰라. Pearson 은 \(X^2\) 분해가 필요할 때만.
7 삭제잔차의 1-step 근사 — Williams (1987)
7.1 왜 근사가 필요한가
선형 회귀의 삭제잔차는 Sherman-Morrison 으로 정확히 한 번에 계산된다. GLM 은 그렇지 않다 — 점 \(i\) 를 뺀 뒤 IRLS 를 다시 수렴할 때까지 돌려야 하므로 비용이 크다.
7.2 1-step 근사 아이디어
점 \(i\) 를 제외한 IRLS 를 완전 적합의 \(\widehat\mu, \widehat W, \widehat z\) 에서 출발해 한 번만 돌린다. 이 한 회 결과를 삭제 적합의 근사로 쓴다.
표기: - \({}_1 r_P^\prime\) = 1-step 근사의 Pearson 표준화 잔차 - \({}_1 r_D^\prime\) = 1-step 근사의 이탈도 표준화 잔차
\({}_1 r_P^{\prime 2}\) 는 “점 \(i\) 를 뺐을 때의 Pearson \(X^2\) 감소 의 1-step 근사” 다.
7.3 Williams 공식 (12.6)
McCullagh-Nelder 가 제시하는 핵심 공식:
\[r_D^{*2} \simeq h \cdot {}_1 r_P^{\prime 2} + (1 - h) \cdot {}_1 r_D^{\prime 2}. \tag{12.6}\]
즉 점 \(i\) 를 뺐을 때의 이탈도 감소 는 Pearson 제곱 잔차와 이탈도 제곱 잔차의 레버리지 가중 평균 으로 근사된다.
7.4 유도 스케치
완전 적합의 로그우도 \(l\) 을 두 부분으로 분해:
\[l(\beta) = l_{(i)}(\beta) + l_i(\beta), \qquad l_i = \text{단일 점 기여}.\]
점 \(i\) 를 뺀 적합은 \(l_{(i)}\) 만 최대화한다. Taylor 2 차로 전개하고, 가중치가 포함된 IRLS 기하를 적용하면 (Williams, 1987)
\[2(l(\widehat\beta) - l_{(i)}(\widehat\beta_{(i)})) \simeq {}_1 r_D^{\prime 2} \cdot (1-h) + {}_1 r_P^{\prime 2} \cdot h.\]
좌변이 곧 \(r_D^{*2}\) 의 1-step 근사. \(\square\)
7.5 왜 이 가중 평균이 자연스러운가
\(y_i\) 를 모형에서 빼는 효과는 두 측면으로 분해된다.
| 측면 | 대응 잔차 | 가중치 |
|---|---|---|
| 적합값 기여 — 그 점이 자기 \(\widehat\mu_i\) 를 얼마나 끌어당기고 있었나 | Pearson \({}_1 r_P^{\prime 2}\) | \(h\) |
| 로그우도 기여 — 그 점이 자기 로그우도에 얼마나 쓰고 있었나 | 이탈도 \({}_1 r_D^{\prime 2}\) | \(1-h\) |
레버리지 \(h\) 가 크면 첫 측면이 지배적이 돼 Pearson 항이 강조. 작으면 반대로 이탈도 항이 강조. 극단:
- \(h = 0\): 점은 적합에 기여 못 함 → 이탈도 잔차만 의미.
- \(h = 1\): 점이 자기를 완벽히 적합 → Pearson 잔차만 의미.
이 해석이 (12.6) 의 “Pearson + Deviance 가중 평균” 구조의 물리적 근거다.
7.6 Pregibon (1981) 의 동등 공식
Pregibon (1981, p.720) 은 같은 양을 다른 형태로 제시한다. 두 공식은 대수적으로 동등하다. 실무에서는 Williams 의 (12.6) 이 더 널리 쓰인다 — “Pearson 과 이탈도의 레버리지 가중 평균” 이라는 서술이 직관적이기 때문이다.
7.7 두 잔차 중 무엇을 최종 진단에 쓰나
Ch.12 의 실무 권고: 이탈도 잔차 (표준화 \({}_1 r_D^\prime\) 또는 Williams 공식의 \(r_D^*\)) 가 Pearson 잔차보다 선호 된다.
이유: 1. Pierce-Schafer (1986): 이탈도 잔차가 정규 회귀 잔차의 분포적 성질에 더 가깝다. 2. 시각 진단: 이탈도 잔차 Q-Q 플롯이 더 해석 쉽다. 3. 극단값 탐지: 이탈도 잔차는 로그 척도에서 대칭이라 양쪽 꼬리가 균형.
Pearson 잔차는 Pearson \(X^2\) 분해 같은 특정 목적으로만 보조 사용.
8 Python 실전 — 진단 재료 계산
8.1 설정: 감마 GLM 의 햇 행렬과 잔차
import numpy as np
import statsmodels.api as sm
from scipy import stats
import matplotlib.pyplot as plt
np.random.seed(42)
n, p = 200, 3
X_raw = np.random.randn(n, p)
X = sm.add_constant(X_raw)
eta = 1.5 + 0.5 * X_raw[:, 0] - 0.3 * X_raw[:, 1] + 0.2 * X_raw[:, 2]
mu_true = np.exp(eta) # 로그 링크
shape = 5.0
rate = shape / mu_true
y = np.random.gamma(shape, 1/rate) # 감마 반응
fam = sm.families.Gamma(link=sm.families.links.log())
m = sm.GLM(y, X, family=fam).fit()
# IRLS 최종 가중치
W = m.model.family.weights(m.fittedvalues) * np.ones(n)
# 실제로 scaled weights: μ̂² / V(μ̂) * (∂μ/∂η)²
# 감마 로그 링크의 경우 w_i = 1 (표준)
# 여기선 교재 정의로 w_i = (∂μ/∂η)² / V(μ) = μ²/μ² = 1
# 햇 행렬 대각 계산
W_sqrt = np.sqrt(W)
WX = W_sqrt[:, None] * X
H_full = WX @ np.linalg.inv(WX.T @ WX) @ WX.T
h = np.diag(H_full)
print(f"trace(H) = {h.sum():.3f} (should be p = {X.shape[1]})")
print(f"평균 레버리지 = {h.mean():.4f}, 기준 2p/n = {2*X.shape[1]/n:.4f}")
print(f"레버리지 높음 (>2p/n): {(h > 2*X.shape[1]/n).sum()} 개")기대 출력: \(\text{tr}(H) \approx p = 4\) (절편 포함), 평균 \(h_i = p/n = 0.02\).
8.2 잔차 네 층 비교
# 원시 잔차
r_raw = m.resid_response # y - μ̂
# Pearson 표준화 r_P'
mu_hat = m.fittedvalues
V_mu = mu_hat ** 2 # 감마 분산 함수
phi_hat = m.scale # 산포 추정
r_P_prime = (y - mu_hat) / np.sqrt(phi_hat * V_mu * (1 - h))
# 이탈도 표준화 r_D'
r_D = m.resid_deviance
r_D_prime = r_D / np.sqrt(phi_hat * (1 - h))
# 삭제잔차 (Williams 공식 기반 근사)
# r_D*² ≈ h · r_P'² + (1-h) · r_D'²
r_star_sq = h * r_P_prime**2 + (1 - h) * r_D_prime**2
r_star = np.sign(r_raw) * np.sqrt(r_star_sq)
# 네 잔차의 Q-Q 플롯 비교
fig, axes = plt.subplots(2, 2, figsize=(10, 8))
for ax, (title, r) in zip(
axes.flat,
[("Raw $y-\\hat\\mu$", r_raw),
("Pearson $r_P'$", r_P_prime),
("Deviance $r_D'$", r_D_prime),
("Deletion $r_D^*$ (Williams)", r_star)]):
stats.probplot(r, dist="norm", plot=ax)
ax.set_title(title)
plt.tight_layout(); plt.show()표준 관찰: - 원시 잔차: 감마 분포의 비대칭이 그대로 나타나 오른쪽 꼬리가 무겁다. - Pearson: 많이 개선되지만 여전히 약한 비대칭. - 이탈도: 거의 정규 직선 — Pierce-Schafer 주장의 시각 확증. - 삭제: 이탈도와 거의 동일하지만 이상점에서 더 선명 (해당 점의 자기 영향 제거).
8.3 레버리지 vs 잔차 플롯 (이상점 식별)
fig, ax = plt.subplots(figsize=(7, 5))
ax.scatter(h, r_D_prime, alpha=0.6)
ax.axhline(0, ls='--', color='gray')
ax.axhline(2, ls=':', color='red', label='|r|=2')
ax.axhline(-2, ls=':', color='red')
ax.axvline(2 * X.shape[1] / n, ls=':', color='orange', label='h=2p/n')
ax.set_xlabel('Leverage $h_i$')
ax.set_ylabel("Deviance residual $r_D'$")
ax.set_title('레버리지 vs 잔차 — 우상·우하의 점이 위험')
ax.legend()
plt.show()해석 영역: - 좌하/좌상 (작은 \(h\), 중간~큰 잔차): 약한 이상점, 적합에 큰 영향 없음. - 우하/우상 (큰 \(h\), 큰 잔차): 위험 — 높은 레버리지 + 비일관 = 모형을 혼자 끌어당기는 이상점. - 우중 (큰 \(h\), 작은 잔차): “일관된 고레버리지” — 정확도 올려주는 좋은 점 (Fig.12.3b).
9 요약
§12.5 가 정의한 원재료를 재료 카탈로그 로 정리하면 다음과 같다.
| 재료 | 정의 | 쓰임 |
|---|---|---|
| 햇 행렬 \(H\) | \(W^{1/2}X(X^TWX)^{-1}X^TW^{1/2}\) | 사영·레버리지 |
| 레버리지 \(h_i\) | \(H_{ii}\) | 개별 점의 자기 영향 |
| 산포 \(\widehat\phi\) | Pearson \(X^2/(n-p)\) 또는 이탈도 \(/(n-p)\) | 표준화의 분모 스케일 |
| Pearson \(r_P^\prime\) | \((y-\widehat\mu)/\sqrt{\widehat\phi V(\widehat\mu)(1-h)}\) | 분해·\(X^2\) 분석 |
| 이탈도 \(r_D^\prime\) | \(r_D/\sqrt{\widehat\phi(1-h)}\) | 기본 시각 진단 |
| 삭제 \(r_D^*\) | \(\sqrt{h\,{}_1 r_P^{\prime 2} + (1-h)\,{}_1 r_D^{\prime 2}}\) | 이상점 탐지 |
진단 실무의 순서: 1. \(H\) 계산 → \(h_i\) 로 고레버리지 점 식별. 2. \(r_D^\prime\) 을 등정보 스케일에서 평활 (§12.4) 하며 체계적 이탈 탐지 (§12.6). 3. \(r_D^*\) 로 개별 이상점 탐지 (§12.7). 4. 의심 방향을 스코어 검정 (§12.3) 으로 확증.
이 다섯 재료만 정확히 계산되면 Ch.12 의 모든 진단 기법이 그 위에서 돌아간다.
10 관련 주제
선행 지식
- Model Checking — 개관 (McCullagh Ch.12)
- GLM 잔차의 세 유형 — Pearson·Anscombe·Deviance (McCullagh §2.4)
- GLM 적합 알고리즘 — IRLS (McCullagh §2.5) — 햇 행렬의 IRLS 기원
- 선형모형의 추정 — 사영 기하 (McCullagh §3.6) — 선형 회귀의 \(H\)
직접 관련
- Score Tests for Extra Parameters (McCullagh §12.3) — 햇 행렬이 스코어 검정 유도에 쓰임
- Smoothing as an Aid (McCullagh §12.4) — 표준화 잔차의 평활
- Techniques in Model Checking (McCullagh §12.2) — 더미 공변량 = 삭제의 embedding 버전
관련 개념
- Sherman-Morrison 공식 — \(h_{(i)} = h_i/(1-h_i)\) 증명의 기반
- 사영 행렬의 성질
- Q-Q 플롯과 잔차 정규성
후속 주제