1 서론 — 제목 끝의 물음표
Ch.12 는 모형 진단의 기법들을 체계적으로 쌓아 올렸다. 햇 행렬·삭제잔차·스코어 검정·부분 잔차 플롯·EQL 프로파일·Cook 통계량·시뮬레이션 envelope. 표면적으로는 모형의 완전한 자동 진단 파이프라인 을 만들 재료가 다 모여 있는 듯 보인다.
그런데 McCullagh-Nelder 는 마지막 절의 제목에 물음표 를 붙인다 — “A Strategy for Model Checking?”.
왜? 이 물음표는 단순한 겸손이 아니다. 진단이 알고리즘이 될 수 없는 본질적 이유 가 있다는 선언이다.
§12.9 는 세 가지 근본적 한계를 짚는다.
- 이탈 간 상호작용: 진단 도구들이 서로 다른 원인을 구분하지 못한다.
- 군집 이상점: 이상점 탐지 도구가 “이상점이 고립” 이라는 가정에 의존 한다.
- 행동 결정의 문맥 의존성: 이상점을 발견한 뒤의 대응 은 통계로 결정 불가.
이번 글은 이 세 한계를 심화하고, 그럼에도 실무에서 작동하는 실용적 전략 을 제안한다. 마지막으로 1989 년 이후의 현대적 보완 을 간략히 다룬다.
2 한계 1 — 이탈 간 상호작용
2.1 문제의 본질
진단 도구는 각각 특정 방향의 이탈을 잡는 검정이다. 그러나 실제 데이터에서는 여러 이탈이 동시에 존재하며 서로의 증거를 위장 한다.
2.2 대표적 상호작용 예시
예시 1 — Goodness-of-link 검정의 다의성
\(\widehat\eta^2\) 항 추가 검정 (§12.6.3) 이 유의하게 나왔다. 원인은?
| 후보 원인 | 증상 |
|---|---|
| (a) 링크 함수가 잘못됐음 | \(g(\mu)\) 가 2차 곡률 가짐 → \(\eta^2\) 로 흡수 |
| (b) 공변량 \(x\) 의 척도가 잘못됐음 | \(x \to \log x\) 필요 → 선형 예측자가 2차로 휨 → \(\eta^2\) 로 흡수 |
| (c) 교호작용 항이 누락됨 | \(x_1 x_2\) 가 빠지면 잔차가 2차 패턴 → \(\eta^2\) 로 흡수 |
| (d) 몇 개 이상점이 곡선처럼 보이게 만듦 | 극단점이 잔차 평균을 곡선으로 끌어당김 → \(\eta^2\) 로 흡수 |
네 가지 모두가 같은 신호 를 낸다. \(\widehat\eta^2\) 검정만으로는 구분 불가.
예시 2 — 고레버리지 이상점의 이중 해석
한 점이 높은 \(h\) 와 큰 \(|r^*|\) 를 동시에 가진다 (Fig.12.3(c)). 원인은?
| 후보 원인 | 암시 행동 |
|---|---|
| (a) 모형이 공변량 공간의 경계에서 붕괴 | 모형 클래스 확장 필요 |
| (b) 그 점의 기록 오류 또는 전사 실수 | 데이터 확인 후 수정/제거 |
통계만으로 (a) 와 (b) 를 구분할 수 없다. 도메인 지식이 필요하다.
2.3 진단 도구의 민감도 vs 특이도
이상적 진단 도구는 높은 민감도 (잡아냄) 와 높은 특이도 (원인 특정) 를 모두 가진다. 실제 진단은 보통 민감도만 높다 — 문제는 있는 것 같다고 말하지만, 무엇이 문제인지 확신을 주지 않는다.
경보 시스템은 “무언가 잘못됐다” 고 알린다. 그러나 무엇이 잘못됐는지 는 알려주지 않는다. 불이 났는지, 물이 샜는지, 소음 감지 오류인지 현장 점검이 필요하다.
진단 도구도 같다. \(\widehat\eta^2\) 검정 유의 = “뭔가 잘못” 이지 “링크가 잘못” 이 아니다. 범인을 잡으려면 다른 도구 (부분 잔차 플롯, 이상점 검사) 를 추가로 돌려 후보를 좁힌다.
이 비유는 “자동 진단 알고리즘” 의 한계를 보여 준다. 알고리즘은 경보에 반응할 순 있지만, 여러 경보 중 어느 것이 진짜 인지는 여전히 인간 판단을 요구한다.
2.4 부분적 해법 — Backward Selection
§12.6.5 는 혼입을 줄이는 backward selection 절차를 제안한다. 모든 후보 이탈 항을 동시 투입 → 하나씩 제거하며 효과 측정. Davison & Tsai (1988) 가 구체 예를 든다.
그러나 이것도 완전한 해결은 아니다:
- 확장 모형의 정의 가 자의적. 어떤 후보를 포함할 것인가?
- 계산 비용 이 크다. 모든 조합을 다 시도할 수는 없음.
- 잠재적 이탈 유형 을 분석가가 미리 생각하지 못하면 여전히 놓친다.
3 한계 2 — 군집 이상점 (Clumps of Extreme Points)
3.1 가정의 깨짐
§12.7 의 이상점 진단은 암묵적으로 이상점이 고립 (isolated) 이라 가정한다.
- 삭제잔차 \(r_i^*\): 점 \(i\) 를 뺐을 때 나머지 전체 가 충분히 신뢰할 만하다고 가정.
- Cook \(D_i\): 점 \(i\) 의 제거 효과 측정 시 나머지 점들이 안정적 이라고 가정.
- 시뮬레이션 envelope: 귀무 모형이 대체로 옳다고 가정.
군집 이상점 이 있으면 이 가정이 무너진다. 예를 들어 10 개 이상점이 같은 방향 으로 모형을 왜곡하고 있다면:
- 그중 하나를 제거한 \(r_{(i)}^*\) 는 여전히 나머지 9 개 이상점이 왜곡한 모형을 쓴다 → \(r^*\) 작게 보임.
- Cook \(D_i\) 도 작음 — 한 점 제거해도 9 개가 남아 적합이 크게 안 변함.
- 모든 도구가 이상점을 놓친다.
3.2 구체적 메커니즘 — Masking
“가면 씌우기 (masking)”: 이상점이 서로를 숨긴다.
예시: 10 개 관측치가 잘못된 실험실 환경에서 수집됐다. 나머지 20 개는 정상. 삭제잔차를 보면 10 개 각각이 “나머지 29 개 (20 정상 + 9 같은 클럼프)” 의 평균에서 크게 벗어나지 않는다. 9 개의 동료가 자신과 비슷한 값을 가지므로.
3.3 해법 — 강건 적합 (Robust Fitting)
McCullagh-Nelder 가 추천하는 전략: 처음부터 강건한 적합 을 하고, 그 적합에서 잔차가 큰 점들을 이상점 후보로 식별. 대표적 기법:
3.3.1 Least Median of Squares (LMS) — Rousseeuw (1984)
\[\widehat\beta_{LMS} = \arg\min_\beta \text{median}_i \{r_i^2(\beta)\}.\]
핵심: 평균 대신 중앙값 을 최소화. 분해점 (breakdown point) 이 50% — 즉 데이터의 절반이 오염돼도 추정이 흔들리지 않는다.
OLS 의 분해점이 0 (한 점만 극단이어도 붕괴)인 것과 대비된다.
3.3.2 Least Trimmed Squares (LTS) — Rousseeuw (1984)
\[\widehat\beta_{LTS} = \arg\min_\beta \sum_{i=1}^{h} r_{(i)}^2(\beta),\]
\(r_{(i)}^2\) 는 정렬된 잔차 제곱. \(h = \lceil n/2 \rceil\) 부터 \(n\) 사이에서 선택. \(h = n\) 이면 OLS, \(h = n/2\) 이면 최대 강건.
LTS 는 LMS 보다 통계적 효율 이 높지만 동일한 분해점을 가진다.
3.3.3 적용 절차 (Atkinson, 1986)
- LMS 또는 LTS 로 강건 적합 하여 \(\widehat\beta^*\) 추정.
- \(r_i^* = y_i - x_i^T \widehat\beta^*\) 로 강건 잔차 계산.
- \(|r_i^*|\) 가 큰 점들을 군집 이상점 후보 로 식별.
- 의심 점들을 제거한 OLS 또는 GLM 으로 효율적 재적합.
3.4 GLM 으로의 확장
LMS/LTS 는 원래 정규 선형 회귀용이다. GLM 으로 확장하려면 편차 기반 강건 적합 이 필요:
- Mallows 가중 준-우도: \(w(r_i^*)\) 로 가중치를 주어 큰 잔차의 영향 축소.
- \(M\) -추정: \(\rho\) 함수로 극단 잔차의 기여 절단 (예: Huber, Tukey biweight).
Hampel 외 (1986) 와 Künsch-Stefanski-Carroll (1989) 이 GLM 강건화를 다룬다.
평균은 모든 값의 기여를 받는다. 10% 의 극단값이 평균을 크게 끌어당긴다. 반면 중앙값은 정렬 위치만 본다 — 극단값이 얼마나 멀리 있는지와 무관하게 중앙값에 미치는 영향은 위치 교환 한 번뿐이다.
LMS 는 이 견고성을 회귀로 확장한다. “가장 흔한 50% 가 가장 잘 맞는 모형” 을 고른다. 이상점 50% 이하가 있어도 정답을 찾는다.
단점: 효율 (efficiency) 이 낮다. 오염이 없으면 OLS 보다 표준오차가 크다. 따라서 2단 절차 — 강건으로 이상점 식별 → 제거 후 OLS 로 재적합 — 이 실무 표준.
4 한계 3 — 행동 결정의 문맥 의존성
4.1 이상점을 찾으면 무엇을 할 것인가
\(r^* = 4.5\) 의 점을 발견했다. 다음 행동은?
5 가지 가능한 대응:
| 행동 | 정당한 상황 |
|---|---|
| 제거 (delete) | 기록 오류·전사 실수 확인됨 |
| 수정 (correct) | 원본 데이터로 돌아가 값 교정 |
| 유지 (keep) | 진짜 변동이라 판단, 모형 확장 쪽으로 |
| 모형 확장 (extend) | 극단 조건에서 유효한 추가 메커니즘 도입 |
| 두 결과 보고 (report both) | 제거·유지 두 경우의 결론을 모두 제시 |
어느 대응이 옳은가 는 통계로 결정 불가. 필요한 것은:
- 데이터 수집 과정 에 대한 지식: 어떤 기록 오류가 가능한가?
- 도메인 지식: 극단값이 생물학적·물리적으로 말이 되는가?
- 분석 목적: 예측인가 해석인가? 강건성이 중요한가 평균 적합이 중요한가?
- 이해 관계자 기대: 보고서를 볼 사람이 “제거된 이상점” 을 신뢰할 것인가?
4.2 “All Interesting Points Are Wrong”
McCullagh-Nelder 가 인용하는 냉소적 격언. 뜻은 두 가지로 해석 가능:
해석 1 (냉소적): “흥미롭게 보이는 극단값은 거의 항상 실수다. 제거해라.” → 실용적이지만 위험. 진짜 신호를 놓친다.
해석 2 (변증법적): “흥미롭다는 것 자체가 모형과 맞지 않는다는 신호다. 따라서 기존 모형 관점에서 ‘잘못’ 이다. 그러나 그 ‘잘못’ 이 모형을 개선할 기회” → 더 생산적 해석.
실무 태도: 제거를 첫 번째 대응으로 하지 말 것. 데이터 수집자에게 확인, 도메인 전문가와 토론, 과학적 의미 점검 순. 그 모든 절차 후에도 설명이 안 되면 그때 제거 고려.
4.3 사례 — McCullagh-Nelder 의 예제들
Ch.11 과 Ch.12 의 여러 예제에서 이상점을 만났다.
- Bermuda 잔디 (\(x_i = (0, 3, 2)\), 11.5.1): 예측 2.43 vs 관측 2.94. “2.49 → 2.94 전사 오류 의심” 으로 기록하지만 제거해도 결과 변하지 않아 유지.
- Minitab 나무 (15-18, 12.8.2): 연속 인덱스에서 큰 잔차 군집. “우연” 으로 판단해 유지.
- 당근 살충제 (점 14, 12.8.1): \(17/42\) 손상 vs 예측 7/42. Phelps 의 원 논문에서도 의심. 제거 결정.
세 결정이 모두 다른 이유: 통계가 같은 신호 를 보여 줬지만 도메인 맥락 이 달랐다.
5 그럼에도 — 실무 휴리스틱
완전한 알고리즘은 없지만 반복 가능한 절차 는 만들 수 있다. McCullagh-Nelder 가 명시하지는 않지만 Ch.12 전체에서 암시되는 실무 흐름도 는 다음이다.
5.1 Ch.12 진단의 실무 체크리스트
[1단계] 기본 적합 완료 후 초기 점검
├─ Deviance / df 가 2 이상인가? → 과산포 의심
├─ 계수들의 Wald 검정이 모두 말이 되는가?
└─ 잔차의 기본 통계 (평균 ≈ 0, 분산 ≈ φ̂) 점검
[2단계] 비공식 시각 진단
├─ r_D' vs 등정보 스케일 적합값 (평활 포함)
├─ r_D' vs 각 공변량 (평활 포함)
├─ Q-Q 플롯 of r_D'
└─ 레버리지 index plot
[3단계] 시각에서 발견된 문제를 공식 검정
├─ 곡률 → η̂² 스코어 검정 (링크)
├─ 범위 변화 → V(μ) = μ^ζ 프로파일 (분산 함수)
├─ 각 공변량 → 부분 잔차 플롯 + Box-Cox (척도)
└─ 큰 |r*| → 삭제잔차 index plot + Atkinson envelope
[4단계] 문제 특정 후 embedding 으로 해결
├─ 링크 교체 / 멱 링크 가족 적합
├─ 공변량 변환 (log, sqrt, Box-Cox)
├─ 이차항 · 교호작용 추가
└─ 이상점 조사 (도메인 확인 후 제거 또는 유지)
[5단계] 수정 모형에서 2-4단계 반복
├─ 수렴 (이상 패턴 사라짐) 까지 반복
└─ 각 라운드에서 이탈도 감소 측정
[6단계] 최종 검증
├─ 강건 적합 (LMS/LTS) 으로 재확인 — 군집 이상점 없는지
├─ 외부 데이터 (교차검증) 에서 예측 성능
└─ 도메인 전문가 리뷰
이 체크리스트는 알고리즘 이 아니다 (각 단계에 판단이 개입). 그러나 반복 가능한 규율 이다.
5.2 중단 기준
모형 진단에서 “완벽” 은 도달 불가능. 언제 멈출 것인가?
실용적 기준:
- 주요 이탈이 \(\widehat\eta^2\) 검정에서 더 이상 유의하지 않음
- 모든 잔차 플롯이 “패턴 없음” 을 보임
- 큰 \(|r^*|\) 가 Atkinson envelope 안
- 이 기준들로 도메인 전문가가 납득함
4 번이 종종 가장 중요하다. 통계적 통과 ≠ 과학적 수용.
6 1989 년 이후의 현대적 보완
McCullagh-Nelder 초판은 1989 년. 이후 30 년간 진단 분야가 크게 발전했다. Ch.12 의 한계 중 일부가 현대적 도구로 완화된다.
6.1 모형 평균화 (Model Averaging)
BMA (Bayesian Model Averaging) · AIC/BIC 가중 평균: 단일 “최적 모형” 대신 후보 모형들의 가중 평균 을 보고. 링크 불확실성 · 공변량 선택 불확실성을 수량화 한다.
Hoeting 외 (1999) 의 BMA 리뷰. 단일 모형 진단의 함정을 회피하는 구조적 해답.
6.2 교차검증 (Cross-Validation)
\(k\)-fold CV: 데이터 분할 → 반복 훈련/검증. 모형의 외부 예측 성능 을 직접 측정. Ch.12 의 “내부 일관성” 진단과 달리 외부 일반화 를 본다.
실무 권고: Ch.12 진단으로 모형 식별 → CV 로 예측력 확증.
6.3 정규화 (Regularization)
Ridge, Lasso, Elastic Net, SCAD 등 계수 벌점화 방법들. 과적합을 억제해 진단 부담을 줄인다. 특히 고차원 데이터 (\(p \gg n\)) 에서 Ch.12 의 기존 도구가 작동 못할 때 유용.
6.4 반모수적 방법
GAM (Generalized Additive Models) : 공변량 척도 문제를 비모수 평활로 자동 해결. Ch.12 §12.6.4 의 Box-Cox 수동 검정 대신 평활 회귀 가 형태를 데이터에서 결정.
Wood (2017) 의 GAM 교과서가 현대적 표준.
6.5 강건 GLM (Robust GLM)
Hampel-Huber 스타일의 \(M\)-추정 GLM 이 성숙. 군집 이상점에 대한 방어가 내장.
Farcomeni-Ventura (2012) 리뷰. Ch.12 §12.9 가 암시한 방향의 발전.
6.6 해석 가능한 머신러닝 (Interpretable ML)
SHAP, LIME, partial dependence 등. 모형 진단의 시각화 혁신. Ch.12 의 부분 잔차 플롯이 더 일반적 “설명” 도구로 확장.
6.7 그러나 — 근본적 한계는 유지
현대 도구들이 Ch.12 의 기술적 한계를 완화한다. 그러나 세 근본 한계 는 여전하다.
- 이탈 간 상호작용: 여전히 분리 어려움.
- 군집 이상점: 강건 기법이 발전했지만 완벽한 해결은 불가.
- 행동 결정의 문맥 의존성: 이것은 원칙적으로 통계 문제가 아니다.
§12.9 의 물음표는 2026 년에도 유효하다.
7 요약 — Ch.12 의 메타 교훈
§12.9 를 통해 Ch.12 전체를 돌아보면, 세 가지 층위의 메시지 가 드러난다.
7.1 층위 1 — 도구
- 잔차·햇·삭제잔차 의 재료 (§12.5)
- 체계적 이탈 의 세 축 (§12.6)
- 개별 이상점 의 세 측도 (§12.7)
- 스코어 검정 · 부분 잔차 · Box-Cox · Atkinson envelope 등 구체 기법
7.2 층위 2 — 연결
- 비공식 → 공식 순서 (§12.2, §12.4)
- 체계 먼저 → 개별 나중 순서 (§12.6 → §12.7)
- Embedding 원리가 모든 공식 검정의 공통 엔진 (§12.2)
7.3 층위 3 — 메타
- 진단은 경보 시스템 이지 진단 의사 가 아님 (§12.9 한계 1)
- 이상점 도구는 고립 가정 에 의존 (§12.9 한계 2)
- 행동 결정은 도메인 지식 의 영역 (§12.9 한계 3)
- 진단은 “반박되지 않은 모형” 만 제공 — “옳은 모형” 은 증명 불가
7.4 Ch.12 의 최종 가르침
“모든 모형은 틀렸다. 일부는 유용하다.” — Box (1980).
McCullagh-Nelder 는 이 격언을 진단의 출발점이자 종착점으로 삼는다. Ch.12 의 도구들은 모형을 옳게 만드는 것이 아니라, 모형을 유용한 범위 안 에 있도록 감시한다. 그 범위는 데이터와 문제에 의존하고, 최종 판단은 분석가의 과학적 판단 이 내린다.
물음표가 사라진 “A Strategy for Model Checking” 은 영원히 오지 않을지도 모른다. 그러나 물음표와 함께 걷는 법을 배우는 것이 Ch.12 의 진짜 가르침이다.
8 관련 주제
Ch.12 의 모든 기법 — 도구의 총정리
- Model Checking — 개관 (McCullagh Ch.12)
- Techniques in Model Checking (McCullagh §12.2)
- Score Tests for Extra Parameters (McCullagh §12.3)
- Smoothing as an Aid (McCullagh §12.4)
- Raw Materials of Model Checking (McCullagh §12.5)
- Checks for Systematic Departure (McCullagh §12.6)
- Checks for Isolated Departure (McCullagh §12.7)
- Model Checking Examples (McCullagh §12.8)
관련 개념 — 도메인과 강건성
- Ch.11 Exercises — 반올림 오차·Drosophila (McCullagh §11.7) — 측정 정밀도의 구조적 한계
- 모형 선택 — AIC·BIC·CV
- 강건 회귀 · M-추정
현대적 보완 (참고)
철학 / 메타
- Box (1980): “All models are wrong; some are useful.”
- Tukey (1962): “Exploratory Data Analysis”
- Cox (1995): “The Role of Models in Statistics”