Kwangmin Kim - Raw Materials of Model Checking — 잔차·햇 행렬·삭제잔차의 완전 유도 (McCullagh §12.5)

1 서론 — 진단 도구의 “원재료”

Ch.12 의 모든 진단 기법 — 체계적 이탈 검정 (§12.6), 개별 이상점 검정 (§12.7), 복합 진단 (§12.9) — 은 세 가지 원재료 위에 서 있다.

잔차 (residuals): 원시 \(r = y - \widehat\mu\) 부터 표준화·Studentized·삭제잔차까지.
햇 행렬 (hat matrix) \(H\): 관측치 \(y\) 가 자기 적합값 \(\widehat\mu\) 에 미치는 영향을 담는 사영 행렬. 대각 원소 \(h_i\) 가 레버리지(leverage).
삭제 통계량 (deletion statistics): \(\widehat\mu_{(i)}, s_{(i)}^2\) 등 점 \(i\) 를 뺀 재적합으로 얻는 양.

이 재료들이 잘 정의되고 효율적으로 계산되면, 진단 절차 전체가 깔끔해진다. 반대로 재료가 흐릿하면 진단 결과의 해석이 혼란스럽다.

§12.5 는 이 재료들을 선형 회귀에서 먼저 정의 한 뒤, GLM 으로 확장 하는 방식으로 전개한다. 이 구조는 수학적으로 자연스럽다 — GLM 의 IRLS 는 각 반복에서 가중 선형 회귀이므로, 선형 회귀의 진단 개념이 가중치를 끼워 넣는 방식 으로 그대로 확장된다.

이 포스트는 overview (11-1) 에서 개략 소개한 내용을 수학적 유도와 증명 수준까지 심화한다.

2 선형 회귀의 재료

2.1 설정

\(y = X\beta + \epsilon\), \(\epsilon \sim N(0, \sigma^2 I_n)\), \(X\) 는 \(n \times p\) 계수 최대 랭크 \(p\).

MLE 는 \(\widehat\beta = (X^TX)^{-1}X^Ty\), 적합값은

\[\widehat\mu = X\widehat\beta = X(X^TX)^{-1}X^T y = Hy.\]

2.2 햇 행렬의 기하

\[H = X(X^TX)^{-1}X^T\]

는 \(\mathbb{R}^n\) 의 \(X\)-열공간 \(\mathcal{C}(X)\) 위로의 직교 사영 이다. 이는 대칭이고 멱등이다:

\[H^T = H, \qquad H^2 = H.\]

2.3 햇 행렬의 기본 성질

성질	내용	의미
대칭성	\(H^T = H\)	사영은 대칭
멱등성	\(H^2 = H\)	두 번 사영해도 같다
대각 합	\(\text{tr}(H) = p\)	자유도 \(p\) 가 대각에 분배됨
대각 경계	\(1/n \leq h_i \leq 1\) (절편 있을 때)	각 점의 “자기 기여” 경계
블록 관계	\(H(I - H) = 0\)	사영과 잔차 사영의 직교성

직관: \(h_i\) 는 “데이터 점의 자기 중력”

\(\widehat\mu_i = \sum_j H_{ij} y_j\) 이므로 \(h_i = H_{ii}\) 는 “\(y_i\) 자신이 자기 적합값에 기여하는 가중치” 다.

\(h_i = 1/n\): 모든 점이 평등하게 기여 (절편만 있는 모형).
\(h_i \to 1\): 자기 자신만 자기를 설명 (극단적 외톨이 — 공변량 공간에서 다른 모든 점과 거리가 멀다).
\(h_i \to 0\): 자기는 다른 점들이 설명해 준다 (클러스터 중심).

\(\text{tr}(H) = p\) 는 “평균 레버리지 \(= p/n\)” 를 의미한다. 기준선: \(h_i > 2p/n\) 이면 “레버리지 높음” 으로 의심 대상.

2.4 잔차의 변동 구조

\(r = y - \widehat\mu = (I - H)y\) 이다. 따라서

\[\text{Var}(r) = \sigma^2 (I - H)(I - H)^T = \sigma^2 (I - H), \qquad \text{Var}(r_i) = \sigma^2(1 - h_i).\]

관측: 잔차 분산은 \(\sigma^2\) 이 아니다 — \(\sigma^2 (1 - h_i)\) 다. 레버리지가 큰 점은 잔차 분산이 작다. 이는 “자기 자신이 자기 적합에 크게 기여해 잔차가 억지로 0 에 가깝게 된다” 는 의미다.

2.5 잔차 재료 — 네 층의 스탠다드화

잔차를 유용한 진단 통계량 으로 만들려면 스탠다드화가 필요하다. McCullagh-Nelder 는 다음 네 층을 정의한다.

2.5.1 층 1: 원시 잔차 (Raw)

\[r_i = y_i - \widehat\mu_i.\]

단위가 \(y\) 와 같아 모형·분포 비교가 어렵다. 분산도 \(1 - h_i\) 로 점마다 다름.

2.5.2 층 2: 표준화 잔차 (Standardized)

분산을 상수로 맞춘다.

\[\frac{y_i - \widehat\mu_i}{\sqrt{1 - h_i}}.\]

\(\text{Var}\) 이 이제 \(\sigma^2\) 로 균일. 단위는 여전히 \(y\) 와 같다.

2.5.3 층 3: Studentized 표준화 잔차 (§12.1)

단위까지 지운다.

\[r_i^\prime = \frac{y_i - \widehat\mu_i}{s\sqrt{1 - h_i}}. \tag{12.1}\]

\(s = \sqrt{\text{RSS}/(n-p)}\) 는 잔차 표준편차. 이제 귀무 하에서 \(r_i^\prime\) 는 (근사적) 표준 정규 — 점 간 비교 가능.

핵심 관찰: \(r_i^{\prime 2}\) 는 점 \(i\) 를 뺐을 때의 RSS 감소를 전체 \(s^2\) 로 나눈 값 이다.

증명 스케치: 점 \(i\) 를 뺀 적합의 RSS 는

\[\text{RSS}_{(i)} = \text{RSS} - \frac{r_i^2}{1 - h_i}.\]

이 식의 유도는 Sherman-Morrison 업데이트 공식에서 나온다 (뒤에서 상술). 따라서 감소량은 \(r_i^2/(1-h_i) = s^2 \cdot r_i^{\prime 2}\) 이고, \(s^2\) 으로 나누면 \(r_i^{\prime 2}\) 다.

2.5.4 층 4: 삭제잔차 (Deletion Residual)

\(y_i\) 를 예측에서 완전히 빼고 재적합한 뒤, 그 점에 대한 예측 오차를 표준화한다.

\[r_i^* = \frac{y_i - \widehat\mu_{(i)}}{s_{(i)}\sqrt{1 + h_{(i)}}} = \frac{y_i - \widehat\mu_i}{s_{(i)}\sqrt{1 - h_i}}. \tag{12.2}\]

여기서 \(\widehat\mu_{(i)} = x_i^T \widehat\beta_{(i)}\), \(\widehat\beta_{(i)}\) 는 점 \(i\) 없이 적합한 회귀계수, \(s_{(i)}^2\) 은 그 적합의 잔차 분산, \(h_{(i)} = x_i^T (X_{(i)}^TX_{(i)})^{-1} x_i\) 이다.

3 핵심 등식들 — Sherman-Morrison 업데이트

3.1 등식 1: \(h_{(i)} = h_i / (1 - h_i)\)

Sherman-Morrison 공식: \((A - bc^T)^{-1} = A^{-1} + \frac{A^{-1}bc^TA^{-1}}{1 - c^TA^{-1}b}\).

\(X_{(i)}^T X_{(i)} = X^T X - x_i x_i^T\) 에 적용하면

\[(X_{(i)}^TX_{(i)})^{-1} = (X^TX)^{-1} + \frac{(X^TX)^{-1} x_i x_i^T (X^TX)^{-1}}{1 - x_i^T(X^TX)^{-1}x_i}.\]

분모가 \(1 - h_i\) 다. 따라서

\[h_{(i)} = x_i^T (X_{(i)}^TX_{(i)})^{-1} x_i = x_i^T(X^TX)^{-1}x_i + \frac{(x_i^T(X^TX)^{-1}x_i)^2}{1-h_i} = h_i + \frac{h_i^2}{1-h_i} = \frac{h_i}{1-h_i}. \;\square\]

3.2 등식 2: \(y_i - \widehat\mu_{(i)} = (y_i - \widehat\mu_i)/(1-h_i)\)

비슷한 업데이트로

\[\widehat\beta_{(i)} = \widehat\beta - \frac{(X^TX)^{-1}x_i}{1-h_i}(y_i - \widehat\mu_i).\]

점 \(i\) 에서의 재예측은

\[\widehat\mu_{(i)} = x_i^T \widehat\beta_{(i)} = \widehat\mu_i - \frac{h_i (y_i - \widehat\mu_i)}{1 - h_i}.\]

따라서

\[y_i - \widehat\mu_{(i)} = y_i - \widehat\mu_i + \frac{h_i(y_i-\widehat\mu_i)}{1-h_i} = \frac{y_i - \widehat\mu_i}{1-h_i}. \;\square\]

이 등식이 (12.2) 의 두 번째 형태

\[r_i^* = \frac{y_i - \widehat\mu_{(i)}}{s_{(i)}\sqrt{1+h_{(i)}}}\]

가 \(y_i\) 를 실제로 빼고 재적합하지 않고도 계산됨을 보증한다. \(1+h_{(i)} = 1 + h_i/(1-h_i) = 1/(1-h_i)\) 이므로

\[r_i^* = \frac{(y_i - \widehat\mu_i)/(1-h_i)}{s_{(i)} \cdot 1/\sqrt{1-h_i}} = \frac{y_i - \widehat\mu_i}{s_{(i)}\sqrt{1-h_i}}. \;\square\]

3.3 등식 3: \((n-p-1)s_{(i)}^2 = (n-p)s^2 - r_i^2/(1-h_i)\)

삭제 적합의 잔차제곱합은 전체에서 “점 \(i\) 의 기여분” 을 뺀 것이다.

\[\text{RSS}_{(i)} = \text{RSS} - \frac{r_i^2}{1-h_i}.\]

자유도도 하나 줄어들어 \((n - p - 1)\). 두 식을 합치면 \(s_{(i)}^2\) 공식이 나온다.

3.4 등식 4: \(r_i^* = r_i^\prime \cdot s/s_{(i)}\) (Atkinson, 1985)

정의로부터

\[r_i^\prime = \frac{y_i - \widehat\mu_i}{s\sqrt{1-h_i}}, \qquad r_i^* = \frac{y_i - \widehat\mu_i}{s_{(i)}\sqrt{1-h_i}}.\]

나누면 \(r_i^* / r_i^\prime = s/s_{(i)}\). \(\square\)

이 관계가 중요한 이유: \(r_i^*\) 는 \(r_i^\prime\) 과 \(s, s_{(i)}\) 비율의 곱일 뿐 이다. \(y_i\) 를 크게 만들면 \(s\) 는 증가 (\(y_i^2\) 포함), \(s_{(i)}\) 는 불변 → \(s/s_{(i)} < 1\) 이 되어 \(r_i^*\) 가 \(r_i^\prime\) 보다 작아진다. 반대 방향 효과:

\(r_i^\prime\): 큰 이상점이면 \(s\) 가 오염되어 \(r_i^\prime\) 이 과소평가.
\(r_i^*\): \(s\) 대신 \(s_{(i)}\) 를 쓰므로 오염이 제거 — 더 선명한 이상점 신호.

3.5 왜 \(r_i^\prime\) 에는 \((1-h_i)\), \(r_i^*\) 에는 \((1+h_{(i)})\) 인가

두 잔차는 서로 다른 예측 대상 을 표준화한다.

3.5.1 \(r_i^\prime\): \(y_i - \widehat\mu_i\)

\(\widehat\mu_i\) 계산에 \(y_i\) 가 들어간다. 따라서 \(y_i\) 와 \(\widehat\mu_i\) 는 양의 상관 이다. 구체적으로:

\[\text{Var}(y_i - \widehat\mu_i) = \text{Var}(y_i) + \text{Var}(\widehat\mu_i) - 2\text{Cov}(y_i, \widehat\mu_i) = \sigma^2 + \sigma^2 h_i - 2\sigma^2 h_i = \sigma^2 (1 - h_i).\]

빼기 항 \((1 - h_i)\) — \(y_i\) 가 자기 적합에 미치는 중복 기여를 빼 줘야 한다.

3.5.2 \(r_i^*\): \(y_i - \widehat\mu_{(i)}\)

\(\widehat\mu_{(i)}\) 는 \(y_i\) 없이 계산된다. 따라서 \(y_i \perp \widehat\mu_{(i)}\) (독립).

\[\text{Var}(y_i - \widehat\mu_{(i)}) = \text{Var}(y_i) + \text{Var}(\widehat\mu_{(i)}) = \sigma^2 + \sigma^2 h_{(i)} = \sigma^2(1 + h_{(i)}).\]

더하기 항 \((1 + h_{(i)})\) — 독립이면 분산이 더해진다.

직관: “겹치면 빼고, 독립이면 더한다”

잔차 분산의 부호는 데이터와 예측의 정보 의존성 을 반영한다.

\(y_i\) 가 \(\widehat\mu_i\) 에 포함 → 공통 정보로 둘이 같은 방향으로 움직여 차이가 작아짐 → 분산이 \(\sigma^2\) 보다 작음 → \((1-h_i)\).
\(y_i\) 가 \(\widehat\mu_{(i)}\) 와 독립 → 두 독립 항의 차이는 두 분산의 합 → 분산이 \(\sigma^2\) 보다 큼 → \((1+h_{(i)})\).

수식의 \(\pm h\) 부호가 바뀌는 이 작은 디테일이 “같은 잔차 \(y_i - \widehat\mu_i\)” 가 두 종류의 표준화 로 나뉘는 근본 이유다. 두 형태의 해석은 다르다:

\(r_i^\prime\) 은 “이 점이 모형과 얼마나 일치하는가” (내부 일관성).
\(r_i^*\) 는 “나머지 모형이 이 점을 얼마나 잘 예측하는가” (외부 예측 오차).

4 GLM 확장 — IRLS 의 가중 기하

4.1 왜 \(H = W^{1/2} X (X^T W X)^{-1} X^T W^{1/2}\) 인가

GLM 의 IRLS 는 각 반복에서 가중 선형 회귀 를 푼다. 최종 반복에서 조정 종속변량 \(z\) 와 가중치 \(W = \text{diag}(w_i)\) 로

\[\widehat\beta = (X^TWX)^{-1} X^T W z, \qquad \widehat\eta = X\widehat\beta.\]

조정 종속변량 기반 \(z\) 의 자기 적합값은

\[\widehat z_i = x_i^T \widehat\beta = x_i^T (X^TWX)^{-1} X^T W z.\]

이를 Studentized 단위 로 옮기자 (\(z\) 의 표준오차가 \(w_i^{-1/2}\) 이므로 Studentized 는 \(w_i^{1/2} z_i\)):

\[w_i^{1/2} \widehat z_i = w_i^{1/2} x_i^T (X^TWX)^{-1} X^T W z.\]

벡터로 쓰면 \(W^{1/2} \widehat z = W^{1/2} X (X^TWX)^{-1} X^T W z = W^{1/2} X (X^TWX)^{-1} X^T W^{1/2} \cdot W^{1/2} z\). 따라서 Studentized 단위로 본 사영 행렬은

\[H = W^{1/2} X (X^TWX)^{-1} X^T W^{1/2}. \tag{12.3}\]

4.2 성질의 유지

대칭: \(H^T = H\). ✓
멱등: \(H^2 = H\). ✓
대각 합: \(\text{tr}(H) = p\). ✓
대각 경계: \(0 \leq h_i \leq 1\). ✓

선형 회귀의 모든 성질이 가중치 \(W\) 가 들어간 내적 구조 아래에서 그대로 유지된다.

4.3 영향 관계식

\(H\) 는 Studentized 단위의 사영 이므로, 원래 단위의 영향 관계는

\[V^{-1/2}(\widehat\mu - \mu) \simeq H \cdot V^{-1/2}(Y - \mu), \qquad V = \text{diag}(V(\mu_i))\]

\(V(\mu)\) 는 분산 함수. 이것이 “\(Y\) 의 표준화 변동이 \(\widehat\mu\) 의 표준화 변동으로 얼마나 전달되는가” 를 담는다.

비표준화 단위에서는 \(V^{1/2} H V^{-1/2}\) 가 적합값-데이터 영향 행렬이다. 이것은 비대칭 이다 — \(Y\) 에서 \(\widehat\mu\) 로의 방향과 그 반대가 다른 가중치를 가진다.

대칭 vs 비대칭 선택

레버리지 대각 원소 를 읽을 땐 대칭 \(H\) 의 대각 원소 \(h_i\) 를 사용한다. 대칭이 자기 상호작용을 균형 있게 표시하기 때문.
정확한 영향 전파 가 필요한 계산 (예: 국소 민감도 분석) 에서는 비대칭 \(V^{1/2} H V^{-1/2}\) 가 더 정밀하다.

McCullagh-Nelder 의 관행은 진단 목적으로 대칭 \(H\) 를 표준 으로 채택한다.

5 Pearson 표준화 잔차 (12.4)

선형 회귀 \(r_i^\prime = (y_i - \widehat\mu_i)/(s\sqrt{1-h_i})\) 의 GLM 아날로그:

\[r_P^\prime = \frac{y - \widehat\mu}{\sqrt{\widehat\phi\, V(\widehat\mu)\, (1-h)}}. \tag{12.4}\]

5.1 분모 구성 해부

\(\widehat\phi\): 선형 회귀의 \(s^2\) 자리. 산포 모수의 추정.
\(V(\widehat\mu)\): 분산 함수. \(\text{Var}(Y_i) = \phi V(\mu_i)\) 이므로 분포에 맞는 분산.
\((1-h)\): 레버리지 보정. IRLS 가중치 \(W\) 를 포함한 햇 행렬 대각.

세 인수의 곱이 \(y_i - \widehat\mu_i\) 의 (근사) 분산 이다.

5.2 왜 \(V(\widehat\mu)\) 로 쓰는가 (\(V(\mu)\) 가 아니라)

이론적으로는 \(V(\mu_i)\) 지만 \(\mu_i\) 를 모른다. \(\widehat\mu_i\) 로 대체하는 것이 관례다. 유한 표본에서는 이 대체가 약간의 편향을 도입한다 — 하지만 \(n\) 이 클 때 \(\widehat\mu \to \mu\) 이므로 점근적으로는 영향 없다.

6 이탈도 표준화 잔차 (12.5) — Cox-Snell (1968)

\[r_D^\prime = \frac{r_D}{\sqrt{\widehat\phi\, (1-h)}}. \tag{12.5}\]

분자에 \(V(\widehat\mu)\) 가 없다. 왜 이탈도 잔차는 다른 표준화를 받는가?

6.1 Cox-Snell 의 주장 — 1차 전개로 본 분산

이탈도 잔차의 정의:

\[r_D(y; \widehat\mu) = \text{sign}(y - \widehat\mu) \cdot \sqrt{2\{l(y;y) - l(\widehat\mu;y)\}}.\]

\(\widehat\mu \to \mu\) 근처에서 \(r_D^2\) 의 Taylor 전개는

\[r_D^2 \simeq \frac{(y - \mu)^2}{V(\mu)} + O_p(n^{-1/2}).\]

오른쪽 첫 항은 바로 Pearson 잔차의 제곱이다. 따라서 이탈도 잔차의 주된 분산 성분 은 \(V(\mu)\) 인데, 분자에 이미 \(\sqrt{V(\mu)}\) 가 암시되어 있다 (이탈도 정의의 분포 구조에서 자동으로). 따라서 표준화에서는 \(V(\widehat\mu)\) 를 다시 나누면 안 된다.

구체적으로 Cox-Snell (1968) 은 \(r_D\) 의 근사 분산이 \(\phi(1 - h)\) 임을 보였다. 즉 이탈도 잔차의 분모에는 \(V\) 없이 \(\phi(1-h)\) 만 있어야 한다.

6.2 Pierce-Schafer (1986) — 이탈도 잔차의 정규성

Pierce & Schafer (1986) 는 \(r_D^\prime\) 의 분포가 \(r_P^\prime\) 보다 표준 정규에 더 가깝다 는 것을 해석적 근사로 보였다. 이유는 이탈도 잔차가 구성상 대칭화 변환 을 포함하기 때문이다.

Pearson 잔차는 단순 정규화이므로 원 분포의 비대칭을 그대로 반영.
이탈도 잔차는 “로그우도 차이” 기반이라 로그변환 같은 비대칭 교정 이 내장.

직관: 이탈도 잔차는 “균일성 교정 잔차”

Anscombe 잔차의 아이디어는 “분포를 정규로 변환하는 변환” 이다. 이탈도 잔차는 Anscombe 잔차에 가깝지만 더 계산하기 쉬운 형태다.

이항 분포의 예: \(y = 3/10\) 과 \(\widehat\mu = 0.5\) 의 Pearson 잔차는 \((0.3-0.5)/\sqrt{0.5\cdot 0.5/10} = -1.26\). 이탈도 잔차는 로그 likelihood 비에서 나와 약 \(-1.28\). 두 값 자체는 비슷하지만, 더 작은 \(\mu\) 나 극단적 \(y\) 에서는 차이가 벌어지고 이탈도 잔차가 더 균형 잡힌 분포를 유지한다.

실무 규칙: 잔차 플롯의 정규성이 중요한 진단 (평활·Q-Q 플롯) 에서 이탈도 잔차를 쓰라. Pearson 은 \(X^2\) 분해가 필요할 때만.

7 삭제잔차의 1-step 근사 — Williams (1987)

7.1 왜 근사가 필요한가

선형 회귀의 삭제잔차는 Sherman-Morrison 으로 정확히 한 번에 계산된다. GLM 은 그렇지 않다 — 점 \(i\) 를 뺀 뒤 IRLS 를 다시 수렴할 때까지 돌려야 하므로 비용이 크다.

7.2 1-step 근사 아이디어

점 \(i\) 를 제외한 IRLS 를 완전 적합의 \(\widehat\mu, \widehat W, \widehat z\) 에서 출발해 한 번만 돌린다. 이 한 회 결과를 삭제 적합의 근사로 쓴다.

표기: - \({}_1 r_P^\prime\) = 1-step 근사의 Pearson 표준화 잔차 - \({}_1 r_D^\prime\) = 1-step 근사의 이탈도 표준화 잔차

\({}_1 r_P^{\prime 2}\) 는 “점 \(i\) 를 뺐을 때의 Pearson \(X^2\) 감소 의 1-step 근사” 다.

7.3 Williams 공식 (12.6)

McCullagh-Nelder 가 제시하는 핵심 공식:

\[r_D^{*2} \simeq h \cdot {}_1 r_P^{\prime 2} + (1 - h) \cdot {}_1 r_D^{\prime 2}. \tag{12.6}\]

즉 점 \(i\) 를 뺐을 때의 이탈도 감소 는 Pearson 제곱 잔차와 이탈도 제곱 잔차의 레버리지 가중 평균 으로 근사된다.

7.4 유도 스케치

완전 적합의 로그우도 \(l\) 을 두 부분으로 분해:

\[l(\beta) = l_{(i)}(\beta) + l_i(\beta), \qquad l_i = \text{단일 점 기여}.\]

점 \(i\) 를 뺀 적합은 \(l_{(i)}\) 만 최대화한다. Taylor 2 차로 전개하고, 가중치가 포함된 IRLS 기하를 적용하면 (Williams, 1987)

\[2(l(\widehat\beta) - l_{(i)}(\widehat\beta_{(i)})) \simeq {}_1 r_D^{\prime 2} \cdot (1-h) + {}_1 r_P^{\prime 2} \cdot h.\]

좌변이 곧 \(r_D^{*2}\) 의 1-step 근사. \(\square\)

7.5 왜 이 가중 평균이 자연스러운가

\(y_i\) 를 모형에서 빼는 효과는 두 측면으로 분해된다.

측면	대응 잔차	가중치
적합값 기여 — 그 점이 자기 \(\widehat\mu_i\) 를 얼마나 끌어당기고 있었나	Pearson \({}_1 r_P^{\prime 2}\)	\(h\)
로그우도 기여 — 그 점이 자기 로그우도에 얼마나 쓰고 있었나	이탈도 \({}_1 r_D^{\prime 2}\)	\(1-h\)

레버리지 \(h\) 가 크면 첫 측면이 지배적이 돼 Pearson 항이 강조. 작으면 반대로 이탈도 항이 강조. 극단:

\(h = 0\): 점은 적합에 기여 못 함 → 이탈도 잔차만 의미.
\(h = 1\): 점이 자기를 완벽히 적합 → Pearson 잔차만 의미.

이 해석이 (12.6) 의 “Pearson + Deviance 가중 평균” 구조의 물리적 근거다.

7.6 Pregibon (1981) 의 동등 공식

Pregibon (1981, p.720) 은 같은 양을 다른 형태로 제시한다. 두 공식은 대수적으로 동등하다. 실무에서는 Williams 의 (12.6) 이 더 널리 쓰인다 — “Pearson 과 이탈도의 레버리지 가중 평균” 이라는 서술이 직관적이기 때문이다.

7.7 두 잔차 중 무엇을 최종 진단에 쓰나

Ch.12 의 실무 권고: 이탈도 잔차 (표준화 \({}_1 r_D^\prime\) 또는 Williams 공식의 \(r_D^*\)) 가 Pearson 잔차보다 선호 된다.

이유: 1. Pierce-Schafer (1986): 이탈도 잔차가 정규 회귀 잔차의 분포적 성질에 더 가깝다. 2. 시각 진단: 이탈도 잔차 Q-Q 플롯이 더 해석 쉽다. 3. 극단값 탐지: 이탈도 잔차는 로그 척도에서 대칭이라 양쪽 꼬리가 균형.

Pearson 잔차는 Pearson \(X^2\) 분해 같은 특정 목적으로만 보조 사용.

8 Python 실전 — 진단 재료 계산

8.1 설정: 감마 GLM 의 햇 행렬과 잔차

import numpy as np
import statsmodels.api as sm
from scipy import stats
import matplotlib.pyplot as plt

np.random.seed(42)
n, p = 200, 3
X_raw = np.random.randn(n, p)
X = sm.add_constant(X_raw)
eta = 1.5 + 0.5 * X_raw[:, 0] - 0.3 * X_raw[:, 1] + 0.2 * X_raw[:, 2]
mu_true = np.exp(eta)            # 로그 링크
shape = 5.0
rate = shape / mu_true
y = np.random.gamma(shape, 1/rate)  # 감마 반응

fam = sm.families.Gamma(link=sm.families.links.log())
m = sm.GLM(y, X, family=fam).fit()

# IRLS 최종 가중치
W = m.model.family.weights(m.fittedvalues) * np.ones(n)
# 실제로 scaled weights: μ̂² / V(μ̂) * (∂μ/∂η)²
# 감마 로그 링크의 경우 w_i = 1 (표준)
# 여기선 교재 정의로 w_i = (∂μ/∂η)² / V(μ) = μ²/μ² = 1

# 햇 행렬 대각 계산
W_sqrt = np.sqrt(W)
WX = W_sqrt[:, None] * X
H_full = WX @ np.linalg.inv(WX.T @ WX) @ WX.T
h = np.diag(H_full)

print(f"trace(H) = {h.sum():.3f} (should be p = {X.shape[1]})")
print(f"평균 레버리지 = {h.mean():.4f}, 기준 2p/n = {2*X.shape[1]/n:.4f}")
print(f"레버리지 높음 (>2p/n): {(h > 2*X.shape[1]/n).sum()} 개")

기대 출력: \(\text{tr}(H) \approx p = 4\) (절편 포함), 평균 \(h_i = p/n = 0.02\).

8.2 잔차 네 층 비교

# 원시 잔차
r_raw = m.resid_response    # y - μ̂

# Pearson 표준화 r_P'
mu_hat = m.fittedvalues
V_mu = mu_hat ** 2          # 감마 분산 함수
phi_hat = m.scale           # 산포 추정
r_P_prime = (y - mu_hat) / np.sqrt(phi_hat * V_mu * (1 - h))

# 이탈도 표준화 r_D'
r_D = m.resid_deviance
r_D_prime = r_D / np.sqrt(phi_hat * (1 - h))

# 삭제잔차 (Williams 공식 기반 근사)
# r_D*² ≈ h · r_P'² + (1-h) · r_D'²
r_star_sq = h * r_P_prime**2 + (1 - h) * r_D_prime**2
r_star = np.sign(r_raw) * np.sqrt(r_star_sq)

# 네 잔차의 Q-Q 플롯 비교
fig, axes = plt.subplots(2, 2, figsize=(10, 8))
for ax, (title, r) in zip(
    axes.flat,
    [("Raw $y-\\hat\\mu$", r_raw),
     ("Pearson $r_P'$", r_P_prime),
     ("Deviance $r_D'$", r_D_prime),
     ("Deletion $r_D^*$ (Williams)", r_star)]):
    stats.probplot(r, dist="norm", plot=ax)
    ax.set_title(title)
plt.tight_layout(); plt.show()

표준 관찰: - 원시 잔차: 감마 분포의 비대칭이 그대로 나타나 오른쪽 꼬리가 무겁다. - Pearson: 많이 개선되지만 여전히 약한 비대칭. - 이탈도: 거의 정규 직선 — Pierce-Schafer 주장의 시각 확증. - 삭제: 이탈도와 거의 동일하지만 이상점에서 더 선명 (해당 점의 자기 영향 제거).

8.3 레버리지 vs 잔차 플롯 (이상점 식별)

fig, ax = plt.subplots(figsize=(7, 5))
ax.scatter(h, r_D_prime, alpha=0.6)
ax.axhline(0, ls='--', color='gray')
ax.axhline(2, ls=':', color='red', label='|r|=2')
ax.axhline(-2, ls=':', color='red')
ax.axvline(2 * X.shape[1] / n, ls=':', color='orange', label='h=2p/n')
ax.set_xlabel('Leverage $h_i$')
ax.set_ylabel("Deviance residual $r_D'$")
ax.set_title('레버리지 vs 잔차 — 우상·우하의 점이 위험')
ax.legend()
plt.show()

해석 영역: - 좌하/좌상 (작은 \(h\), 중간~큰 잔차): 약한 이상점, 적합에 큰 영향 없음. - 우하/우상 (큰 \(h\), 큰 잔차): 위험 — 높은 레버리지 + 비일관 = 모형을 혼자 끌어당기는 이상점. - 우중 (큰 \(h\), 작은 잔차): “일관된 고레버리지” — 정확도 올려주는 좋은 점 (Fig.12.3b).

9 요약

§12.5 가 정의한 원재료를 재료 카탈로그 로 정리하면 다음과 같다.

재료	정의	쓰임
햇 행렬 \(H\)	\(W^{1/2}X(X^TWX)^{-1}X^TW^{1/2}\)	사영·레버리지
레버리지 \(h_i\)	\(H_{ii}\)	개별 점의 자기 영향
산포 \(\widehat\phi\)	Pearson \(X^2/(n-p)\) 또는 이탈도 \(/(n-p)\)	표준화의 분모 스케일
Pearson \(r_P^\prime\)	\((y-\widehat\mu)/\sqrt{\widehat\phi V(\widehat\mu)(1-h)}\)	분해·\(X^2\) 분석
이탈도 \(r_D^\prime\)	\(r_D/\sqrt{\widehat\phi(1-h)}\)	기본 시각 진단
삭제 \(r_D^*\)	\(\sqrt{h\,{}_1 r_P^{\prime 2} + (1-h)\,{}_1 r_D^{\prime 2}}\)	이상점 탐지

진단 실무의 순서: 1. \(H\) 계산 → \(h_i\) 로 고레버리지 점 식별. 2. \(r_D^\prime\) 을 등정보 스케일에서 평활 (§12.4) 하며 체계적 이탈 탐지 (§12.6). 3. \(r_D^*\) 로 개별 이상점 탐지 (§12.7). 4. 의심 방향을 스코어 검정 (§12.3) 으로 확증.

이 다섯 재료만 정확히 계산되면 Ch.12 의 모든 진단 기법이 그 위에서 돌아간다.

10 관련 주제

선행 지식

Model Checking — 개관 (McCullagh Ch.12)
GLM 잔차의 세 유형 — Pearson·Anscombe·Deviance (McCullagh §2.4)
GLM 적합 알고리즘 — IRLS (McCullagh §2.5) — 햇 행렬의 IRLS 기원
선형모형의 추정 — 사영 기하 (McCullagh §3.6) — 선형 회귀의 \(H\)

직접 관련

Score Tests for Extra Parameters (McCullagh §12.3) — 햇 행렬이 스코어 검정 유도에 쓰임
Smoothing as an Aid (McCullagh §12.4) — 표준화 잔차의 평활
Techniques in Model Checking (McCullagh §12.2) — 더미 공변량 = 삭제의 embedding 버전

관련 개념

Sherman-Morrison 공식 — \(h_{(i)} = h_i/(1-h_i)\) 증명의 기반
사영 행렬의 성질
Q-Q 플롯과 잔차 정규성

후속 주제

Checks for Systematic Departure — 분산·링크·공변량 척도 (McCullagh §12.6) — 원재료를 체계적 이탈 진단에 활용
Checks for Isolated Departure — 레버리지·일관성·영향력 (McCullagh §12.7) — 원재료를 이상점 진단에 활용
Model Checking Examples (McCullagh §12.8)