Kwangmin Kim - A Strategy for Model Checking? — 진단의 한계와 실무 휴리스틱 (McCullagh §12.9)

1 서론 — 제목 끝의 물음표

Ch.12 는 모형 진단의 기법들을 체계적으로 쌓아 올렸다. 햇 행렬·삭제잔차·스코어 검정·부분 잔차 플롯·EQL 프로파일·Cook 통계량·시뮬레이션 envelope. 표면적으로는 모형의 완전한 자동 진단 파이프라인 을 만들 재료가 다 모여 있는 듯 보인다.

그런데 McCullagh-Nelder 는 마지막 절의 제목에 물음표 를 붙인다 — “A Strategy for Model Checking?”.

왜? 이 물음표는 단순한 겸손이 아니다. 진단이 알고리즘이 될 수 없는 본질적 이유 가 있다는 선언이다.

§12.9 는 세 가지 근본적 한계를 짚는다.

이탈 간 상호작용: 진단 도구들이 서로 다른 원인을 구분하지 못한다.
군집 이상점: 이상점 탐지 도구가 “이상점이 고립” 이라는 가정에 의존 한다.
행동 결정의 문맥 의존성: 이상점을 발견한 뒤의 대응 은 통계로 결정 불가.

이번 글은 이 세 한계를 심화하고, 그럼에도 실무에서 작동하는 실용적 전략 을 제안한다. 마지막으로 1989 년 이후의 현대적 보완 을 간략히 다룬다.

2 한계 1 — 이탈 간 상호작용

2.1 문제의 본질

진단 도구는 각각 특정 방향의 이탈을 잡는 검정이다. 그러나 실제 데이터에서는 여러 이탈이 동시에 존재하며 서로의 증거를 위장 한다.

2.2 대표적 상호작용 예시

예시 1 — Goodness-of-link 검정의 다의성

\(\widehat\eta^2\) 항 추가 검정 (§12.6.3) 이 유의하게 나왔다. 원인은?

후보 원인	증상
(a) 링크 함수가 잘못됐음	\(g(\mu)\) 가 2차 곡률 가짐 → \(\eta^2\) 로 흡수
(b) 공변량 \(x\) 의 척도가 잘못됐음	\(x \to \log x\) 필요 → 선형 예측자가 2차로 휨 → \(\eta^2\) 로 흡수
(c) 교호작용 항이 누락됨	\(x_1 x_2\) 가 빠지면 잔차가 2차 패턴 → \(\eta^2\) 로 흡수
(d) 몇 개 이상점이 곡선처럼 보이게 만듦	극단점이 잔차 평균을 곡선으로 끌어당김 → \(\eta^2\) 로 흡수

네 가지 모두가 같은 신호 를 낸다. \(\widehat\eta^2\) 검정만으로는 구분 불가.

예시 2 — 고레버리지 이상점의 이중 해석

한 점이 높은 \(h\) 와 큰 \(|r^*|\) 를 동시에 가진다 (Fig.12.3(c)). 원인은?

후보 원인	암시 행동
(a) 모형이 공변량 공간의 경계에서 붕괴	모형 클래스 확장 필요
(b) 그 점의 기록 오류 또는 전사 실수	데이터 확인 후 수정/제거

통계만으로 (a) 와 (b) 를 구분할 수 없다. 도메인 지식이 필요하다.

2.3 진단 도구의 민감도 vs 특이도

이상적 진단 도구는 높은 민감도 (잡아냄) 와 높은 특이도 (원인 특정) 를 모두 가진다. 실제 진단은 보통 민감도만 높다 — 문제는 있는 것 같다고 말하지만, 무엇이 문제인지 확신을 주지 않는다.

직관: 진단은 “경보 시스템” 이지 “진단 의사” 가 아니다

경보 시스템은 “무언가 잘못됐다” 고 알린다. 그러나 무엇이 잘못됐는지 는 알려주지 않는다. 불이 났는지, 물이 샜는지, 소음 감지 오류인지 현장 점검이 필요하다.

진단 도구도 같다. \(\widehat\eta^2\) 검정 유의 = “뭔가 잘못” 이지 “링크가 잘못” 이 아니다. 범인을 잡으려면 다른 도구 (부분 잔차 플롯, 이상점 검사) 를 추가로 돌려 후보를 좁힌다.

이 비유는 “자동 진단 알고리즘” 의 한계를 보여 준다. 알고리즘은 경보에 반응할 순 있지만, 여러 경보 중 어느 것이 진짜 인지는 여전히 인간 판단을 요구한다.

2.4 부분적 해법 — Backward Selection

§12.6.5 는 혼입을 줄이는 backward selection 절차를 제안한다. 모든 후보 이탈 항을 동시 투입 → 하나씩 제거하며 효과 측정. Davison & Tsai (1988) 가 구체 예를 든다.

그러나 이것도 완전한 해결은 아니다:

확장 모형의 정의 가 자의적. 어떤 후보를 포함할 것인가?
계산 비용 이 크다. 모든 조합을 다 시도할 수는 없음.
잠재적 이탈 유형 을 분석가가 미리 생각하지 못하면 여전히 놓친다.

3 한계 2 — 군집 이상점 (Clumps of Extreme Points)

3.1 가정의 깨짐

§12.7 의 이상점 진단은 암묵적으로 이상점이 고립 (isolated) 이라 가정한다.

삭제잔차 \(r_i^*\): 점 \(i\) 를 뺐을 때 나머지 전체 가 충분히 신뢰할 만하다고 가정.
Cook \(D_i\): 점 \(i\) 의 제거 효과 측정 시 나머지 점들이 안정적 이라고 가정.
시뮬레이션 envelope: 귀무 모형이 대체로 옳다고 가정.

군집 이상점 이 있으면 이 가정이 무너진다. 예를 들어 10 개 이상점이 같은 방향 으로 모형을 왜곡하고 있다면:

그중 하나를 제거한 \(r_{(i)}^*\) 는 여전히 나머지 9 개 이상점이 왜곡한 모형을 쓴다 → \(r^*\) 작게 보임.
Cook \(D_i\) 도 작음 — 한 점 제거해도 9 개가 남아 적합이 크게 안 변함.
모든 도구가 이상점을 놓친다.

3.2 구체적 메커니즘 — Masking

“가면 씌우기 (masking)”: 이상점이 서로를 숨긴다.

예시: 10 개 관측치가 잘못된 실험실 환경에서 수집됐다. 나머지 20 개는 정상. 삭제잔차를 보면 10 개 각각이 “나머지 29 개 (20 정상 + 9 같은 클럼프)” 의 평균에서 크게 벗어나지 않는다. 9 개의 동료가 자신과 비슷한 값을 가지므로.

3.3 해법 — 강건 적합 (Robust Fitting)

McCullagh-Nelder 가 추천하는 전략: 처음부터 강건한 적합 을 하고, 그 적합에서 잔차가 큰 점들을 이상점 후보로 식별. 대표적 기법:

3.3.1 Least Median of Squares (LMS) — Rousseeuw (1984)

\[\widehat\beta_{LMS} = \arg\min_\beta \text{median}_i \{r_i^2(\beta)\}.\]

핵심: 평균 대신 중앙값 을 최소화. 분해점 (breakdown point) 이 50% — 즉 데이터의 절반이 오염돼도 추정이 흔들리지 않는다.

OLS 의 분해점이 0 (한 점만 극단이어도 붕괴)인 것과 대비된다.

3.3.2 Least Trimmed Squares (LTS) — Rousseeuw (1984)

\[\widehat\beta_{LTS} = \arg\min_\beta \sum_{i=1}^{h} r_{(i)}^2(\beta),\]

\(r_{(i)}^2\) 는 정렬된 잔차 제곱. \(h = \lceil n/2 \rceil\) 부터 \(n\) 사이에서 선택. \(h = n\) 이면 OLS, \(h = n/2\) 이면 최대 강건.

LTS 는 LMS 보다 통계적 효율 이 높지만 동일한 분해점을 가진다.

3.3.3 적용 절차 (Atkinson, 1986)

LMS 또는 LTS 로 강건 적합 하여 \(\widehat\beta^*\) 추정.
\(r_i^* = y_i - x_i^T \widehat\beta^*\) 로 강건 잔차 계산.
\(|r_i^*|\) 가 큰 점들을 군집 이상점 후보 로 식별.
의심 점들을 제거한 OLS 또는 GLM 으로 효율적 재적합.

3.4 GLM 으로의 확장

LMS/LTS 는 원래 정규 선형 회귀용이다. GLM 으로 확장하려면 편차 기반 강건 적합 이 필요:

Mallows 가중 준-우도: \(w(r_i^*)\) 로 가중치를 주어 큰 잔차의 영향 축소.
\(M\) -추정: \(\rho\) 함수로 극단 잔차의 기여 절단 (예: Huber, Tukey biweight).

Hampel 외 (1986) 와 Künsch-Stefanski-Carroll (1989) 이 GLM 강건화를 다룬다.

직관: 왜 중앙값이 군집 이상점에 강한가

평균은 모든 값의 기여를 받는다. 10% 의 극단값이 평균을 크게 끌어당긴다. 반면 중앙값은 정렬 위치만 본다 — 극단값이 얼마나 멀리 있는지와 무관하게 중앙값에 미치는 영향은 위치 교환 한 번뿐이다.

LMS 는 이 견고성을 회귀로 확장한다. “가장 흔한 50% 가 가장 잘 맞는 모형” 을 고른다. 이상점 50% 이하가 있어도 정답을 찾는다.

단점: 효율 (efficiency) 이 낮다. 오염이 없으면 OLS 보다 표준오차가 크다. 따라서 2단 절차 — 강건으로 이상점 식별 → 제거 후 OLS 로 재적합 — 이 실무 표준.

4 한계 3 — 행동 결정의 문맥 의존성

4.1 이상점을 찾으면 무엇을 할 것인가

\(r^* = 4.5\) 의 점을 발견했다. 다음 행동은?

5 가지 가능한 대응:

행동	정당한 상황
제거 (delete)	기록 오류·전사 실수 확인됨
수정 (correct)	원본 데이터로 돌아가 값 교정
유지 (keep)	진짜 변동이라 판단, 모형 확장 쪽으로
모형 확장 (extend)	극단 조건에서 유효한 추가 메커니즘 도입
두 결과 보고 (report both)	제거·유지 두 경우의 결론을 모두 제시

어느 대응이 옳은가 는 통계로 결정 불가. 필요한 것은:

데이터 수집 과정 에 대한 지식: 어떤 기록 오류가 가능한가?
도메인 지식: 극단값이 생물학적·물리적으로 말이 되는가?
분석 목적: 예측인가 해석인가? 강건성이 중요한가 평균 적합이 중요한가?
이해 관계자 기대: 보고서를 볼 사람이 “제거된 이상점” 을 신뢰할 것인가?

4.2 “All Interesting Points Are Wrong”

McCullagh-Nelder 가 인용하는 냉소적 격언. 뜻은 두 가지로 해석 가능:

해석 1 (냉소적): “흥미롭게 보이는 극단값은 거의 항상 실수다. 제거해라.” → 실용적이지만 위험. 진짜 신호를 놓친다.

해석 2 (변증법적): “흥미롭다는 것 자체가 모형과 맞지 않는다는 신호다. 따라서 기존 모형 관점에서 ‘잘못’ 이다. 그러나 그 ‘잘못’ 이 모형을 개선할 기회” → 더 생산적 해석.

실무 태도: 제거를 첫 번째 대응으로 하지 말 것. 데이터 수집자에게 확인, 도메인 전문가와 토론, 과학적 의미 점검 순. 그 모든 절차 후에도 설명이 안 되면 그때 제거 고려.

4.3 사례 — McCullagh-Nelder 의 예제들

Ch.11 과 Ch.12 의 여러 예제에서 이상점을 만났다.

Bermuda 잔디 (\(x_i = (0, 3, 2)\), 11.5.1): 예측 2.43 vs 관측 2.94. “2.49 → 2.94 전사 오류 의심” 으로 기록하지만 제거해도 결과 변하지 않아 유지.
Minitab 나무 (15-18, 12.8.2): 연속 인덱스에서 큰 잔차 군집. “우연” 으로 판단해 유지.
당근 살충제 (점 14, 12.8.1): \(17/42\) 손상 vs 예측 7/42. Phelps 의 원 논문에서도 의심. 제거 결정.

세 결정이 모두 다른 이유: 통계가 같은 신호 를 보여 줬지만 도메인 맥락 이 달랐다.

5 그럼에도 — 실무 휴리스틱

완전한 알고리즘은 없지만 반복 가능한 절차 는 만들 수 있다. McCullagh-Nelder 가 명시하지는 않지만 Ch.12 전체에서 암시되는 실무 흐름도 는 다음이다.

5.1 Ch.12 진단의 실무 체크리스트

[1단계] 기본 적합 완료 후 초기 점검
    ├─ Deviance / df 가 2 이상인가? → 과산포 의심
    ├─ 계수들의 Wald 검정이 모두 말이 되는가?
    └─ 잔차의 기본 통계 (평균 ≈ 0, 분산 ≈ φ̂) 점검

[2단계] 비공식 시각 진단
    ├─ r_D' vs 등정보 스케일 적합값 (평활 포함)
    ├─ r_D' vs 각 공변량 (평활 포함)
    ├─ Q-Q 플롯 of r_D'
    └─ 레버리지 index plot

[3단계] 시각에서 발견된 문제를 공식 검정
    ├─ 곡률 → η̂² 스코어 검정 (링크)
    ├─ 범위 변화 → V(μ) = μ^ζ 프로파일 (분산 함수)
    ├─ 각 공변량 → 부분 잔차 플롯 + Box-Cox (척도)
    └─ 큰 |r*| → 삭제잔차 index plot + Atkinson envelope

[4단계] 문제 특정 후 embedding 으로 해결
    ├─ 링크 교체 / 멱 링크 가족 적합
    ├─ 공변량 변환 (log, sqrt, Box-Cox)
    ├─ 이차항 · 교호작용 추가
    └─ 이상점 조사 (도메인 확인 후 제거 또는 유지)

[5단계] 수정 모형에서 2-4단계 반복
    ├─ 수렴 (이상 패턴 사라짐) 까지 반복
    └─ 각 라운드에서 이탈도 감소 측정

[6단계] 최종 검증
    ├─ 강건 적합 (LMS/LTS) 으로 재확인 — 군집 이상점 없는지
    ├─ 외부 데이터 (교차검증) 에서 예측 성능
    └─ 도메인 전문가 리뷰

이 체크리스트는 알고리즘 이 아니다 (각 단계에 판단이 개입). 그러나 반복 가능한 규율 이다.

5.2 중단 기준

모형 진단에서 “완벽” 은 도달 불가능. 언제 멈출 것인가?

실용적 기준:

주요 이탈이 \(\widehat\eta^2\) 검정에서 더 이상 유의하지 않음
모든 잔차 플롯이 “패턴 없음” 을 보임
큰 \(|r^*|\) 가 Atkinson envelope 안
이 기준들로 도메인 전문가가 납득함

4 번이 종종 가장 중요하다. 통계적 통과 ≠ 과학적 수용.

6 1989 년 이후의 현대적 보완

McCullagh-Nelder 초판은 1989 년. 이후 30 년간 진단 분야가 크게 발전했다. Ch.12 의 한계 중 일부가 현대적 도구로 완화된다.

6.1 모형 평균화 (Model Averaging)

BMA (Bayesian Model Averaging) · AIC/BIC 가중 평균: 단일 “최적 모형” 대신 후보 모형들의 가중 평균 을 보고. 링크 불확실성 · 공변량 선택 불확실성을 수량화 한다.

Hoeting 외 (1999) 의 BMA 리뷰. 단일 모형 진단의 함정을 회피하는 구조적 해답.

6.2 교차검증 (Cross-Validation)

\(k\)-fold CV: 데이터 분할 → 반복 훈련/검증. 모형의 외부 예측 성능 을 직접 측정. Ch.12 의 “내부 일관성” 진단과 달리 외부 일반화 를 본다.

실무 권고: Ch.12 진단으로 모형 식별 → CV 로 예측력 확증.

6.3 정규화 (Regularization)

Ridge, Lasso, Elastic Net, SCAD 등 계수 벌점화 방법들. 과적합을 억제해 진단 부담을 줄인다. 특히 고차원 데이터 (\(p \gg n\)) 에서 Ch.12 의 기존 도구가 작동 못할 때 유용.

6.4 반모수적 방법

GAM (Generalized Additive Models) : 공변량 척도 문제를 비모수 평활로 자동 해결. Ch.12 §12.6.4 의 Box-Cox 수동 검정 대신 평활 회귀 가 형태를 데이터에서 결정.

Wood (2017) 의 GAM 교과서가 현대적 표준.

6.5 강건 GLM (Robust GLM)

Hampel-Huber 스타일의 \(M\)-추정 GLM 이 성숙. 군집 이상점에 대한 방어가 내장.

Farcomeni-Ventura (2012) 리뷰. Ch.12 §12.9 가 암시한 방향의 발전.

6.6 해석 가능한 머신러닝 (Interpretable ML)

SHAP, LIME, partial dependence 등. 모형 진단의 시각화 혁신. Ch.12 의 부분 잔차 플롯이 더 일반적 “설명” 도구로 확장.

6.7 그러나 — 근본적 한계는 유지

현대 도구들이 Ch.12 의 기술적 한계를 완화한다. 그러나 세 근본 한계 는 여전하다.

이탈 간 상호작용: 여전히 분리 어려움.
군집 이상점: 강건 기법이 발전했지만 완벽한 해결은 불가.
행동 결정의 문맥 의존성: 이것은 원칙적으로 통계 문제가 아니다.

§12.9 의 물음표는 2026 년에도 유효하다.

7 요약 — Ch.12 의 메타 교훈

§12.9 를 통해 Ch.12 전체를 돌아보면, 세 가지 층위의 메시지 가 드러난다.

7.1 층위 1 — 도구

잔차·햇·삭제잔차 의 재료 (§12.5)
체계적 이탈 의 세 축 (§12.6)
개별 이상점 의 세 측도 (§12.7)
스코어 검정 · 부분 잔차 · Box-Cox · Atkinson envelope 등 구체 기법

7.2 층위 2 — 연결

비공식 → 공식 순서 (§12.2, §12.4)
체계 먼저 → 개별 나중 순서 (§12.6 → §12.7)
Embedding 원리가 모든 공식 검정의 공통 엔진 (§12.2)

7.3 층위 3 — 메타

진단은 경보 시스템 이지 진단 의사 가 아님 (§12.9 한계 1)
이상점 도구는 고립 가정 에 의존 (§12.9 한계 2)
행동 결정은 도메인 지식 의 영역 (§12.9 한계 3)
진단은 “반박되지 않은 모형” 만 제공 — “옳은 모형” 은 증명 불가

7.4 Ch.12 의 최종 가르침

“모든 모형은 틀렸다. 일부는 유용하다.” — Box (1980).

McCullagh-Nelder 는 이 격언을 진단의 출발점이자 종착점으로 삼는다. Ch.12 의 도구들은 모형을 옳게 만드는 것이 아니라, 모형을 유용한 범위 안 에 있도록 감시한다. 그 범위는 데이터와 문제에 의존하고, 최종 판단은 분석가의 과학적 판단 이 내린다.

물음표가 사라진 “A Strategy for Model Checking” 은 영원히 오지 않을지도 모른다. 그러나 물음표와 함께 걷는 법을 배우는 것이 Ch.12 의 진짜 가르침이다.

8 관련 주제

Ch.12 의 모든 기법 — 도구의 총정리

관련 개념 — 도메인과 강건성

Ch.11 Exercises — 반올림 오차·Drosophila (McCullagh §11.7) — 측정 정밀도의 구조적 한계
모형 선택 — AIC·BIC·CV
강건 회귀 · M-추정

현대적 보완 (참고)

철학 / 메타

Box (1980): “All models are wrong; some are useful.”
Tukey (1962): “Exploratory Data Analysis”
Cox (1995): “The Role of Models in Statistics”