Kwangmin Kim - Techniques in Model Checking — 비공식과 공식의 분업·Embedding 원리 (McCullagh §12.2)

1 서론 — 진단 기법을 분류하는 두 축

Ch.12 는 진단 도구를 쏟아낸다. 잔차 플롯·햇 행렬·삭제잔차·스코어 검정·프로파일 이탈도 등 종류가 많다. 이 도구들을 그냥 나열하면 “어떤 경우에 무엇을 써야 하는가” 가 불분명해진다. §12.2 는 이 혼란을 잡기 위해 두 축으로 된 분류표 를 먼저 제시한다.

축	구분	예
절차의 성격	비공식(informal) vs 공식(formal)	잔차 플롯 vs 스코어 검정
이탈의 유형	체계적(systematic) vs 개별(isolated)	링크 잘못 선택 vs 기록 오류 한 점

이 분류표 위에서 개별 도구가 어느 칸 에 속하는지 식별하면, 어떤 상황에서 어떤 도구를 꺼낼지가 자연스럽게 결정된다. 이번 글은 §12.2 가 간결하게 선언한 이 분류 체계의 논리 를 심화한다 — 왜 비공식과 공식은 분업 관계 인가, 공식 검정이 “embedding” 이라는 단일 아이디어로 어떻게 통일되는가, 그리고 개별 이상점을 공식적으로 다룰 때의 함정은 무엇인가.

2 비공식 기법 — 탐색의 기예

2.1 이상(ideal): “패턴 없는 잔차”

비공식 진단의 기본 원리는 “좋은 모형은 패턴 없는 잔차를 남긴다” 는 것이다. 잔차에서 어떤 패턴이라도 발견되면, 그 패턴을 설명할 더 나은 모형이 존재한다는 뜻이다.

이것은 탐색적(exploratory) 철학 이다. 사전에 어떤 이탈 방향이 있을지 특정하지 않고, 눈이 데이터에 보여주는 것을 받아들인다. 적분 하나 푸는 도구가 아니라 데이터에 새로운 질문을 던지는 도구다.

2.2 문제점 — 유한 데이터는 항상 패턴을 준다

McCullagh-Nelder 가 §12.2 서두에서 경고하는 실무적 위험:

“어떤 유한한 잔차 집합도 충분히 오래 보면 어떤 종류의 패턴을 낳는다. 과잉 해석을 경계해야 한다.”

이것은 통계적 1종 오류 문제의 시각 버전이다. 사람의 눈은 구조를 찾도록 진화한 기관이라 무작위에서도 구조를 본다. 잔차를 반복해서 회전시키고 다양한 공변량에 대해 플롯해 보면, 우연에 의한 추세 중 하나는 반드시 “의미 있어” 보인다.

직관: 비공식 검정이 놓치기 쉬운 함정 세 가지

다중 비교 누적: 잔차를 \(p\) 개 공변량에 대해 모두 플롯하면, 각각 5% 수준에서 “유의한 추세” 가 발견될 확률은 이미 \(1 - 0.95^p\) 로 증가한다. \(p = 10\) 이면 40% 가 된다.
확증 편향: 분석가가 “\(x_2\) 에 문제가 있을 것” 이라고 의심하고 보면, 경미한 추세도 강조해서 본다.
밀도 편향: 공변량 밀도가 불균일하면 조건부 평균이 사실상 0 인데도 눈에는 추세가 보인다 (§12.4 에서 평활로 대응).

이 때문에 비공식 진단은 가설 생성 도구 로만 써야 한다. 생성된 가설은 다음 단계에서 공식 검정으로 확증 해야 한다.

2.3 그럼에도 비공식이 꼭 필요한 이유

위 함정에도 불구하고 McCullagh-Nelder 는 “비공식 기법은 모형 확인의 중요한 구성 요소 다” 라고 명시한다. 이유는 다음 두 가지다.

사전에 생각하지 못한 방향 의 이탈을 잡아낸다. 공식 검정은 특정 방향을 가정하므로, 상상력이 닿지 않은 방향은 찾지 못한다.
규모 감각 (scale intuition) 을 준다. “이탈도 감소 5” 가 숫자로는 의미가 뚜렷하지 않지만, 잔차 플롯에서 “가장자리 20% 가 한쪽 부호, 가운데 60% 가 반대 부호” 를 보면 이탈의 형태 가 직관적으로 들어온다.

3 공식 기법 — Embedding 의 원리

3.1 핵심 아이디어

공식 기법의 수학적 엔진은 내포(embedding) 다. 현재 모형을 \(M_0\), 그것을 포함하는 더 큰 모형을 \(M_1\) 이라 하자. \(M_1\) 은 추가 모수 \(\theta\) 를 가지며, \(\theta = \theta_0\) 일 때 \(M_1\) 이 \(M_0\) 로 축약된다.

공식 검정의 표준 절차:

\(M_1\) 을 적합해 \(\hat\theta\) 를 구한다.
\(\hat\theta\) 에서의 적합과 \(\theta_0\) 에서의 적합을 비교한다 (이탈도 차이 또는 스코어 통계량).
비교 결과가 유의하지 않으면 \(M_0\) 는 검정을 통과한다. 유의하면 \(M_0\) 가 기각되고 \(M_1\) 로 교체 검토.

이것은 확증적(confirmatory) 철학 이다. 분석가가 “어느 방향으로 이탈이 있을 것 같다” 는 사전 가설 을 가지고 들어와, 그 방향에 집중된 검정력으로 결판을 낸다.

직관: 비공식 = 어두운 방 탐색, 공식 = 방향을 정한 손전등

비공식: 어두운 방에 들어가 손을 뻗어 여기저기 만져 본다. 무엇이 어디에 있는지 아직 모른다. 뜻밖의 가구에 부딪힐 수 있다는 것이 장점이다.
공식: “저기 저쪽 구석에 책상이 있을 것” 이라는 가설을 가지고 손전등으로 그 방향만 비춘다. 책상이 있으면 명확히 보이고, 없으면 명확히 확인한다. 단, 반대 쪽의 책장은 보지 못한다.

두 접근이 대체 가 아니라 순서 다. 비공식으로 “이쪽에 뭔가 있는 것 같다” 는 가설을 얻고, 공식으로 “정확히 얼마나 있는가” 를 정량한다.

4 Embedding 의 네 가지 채널

McCullagh-Nelder 는 추가 모수 \(\theta\) 가 자연스럽게 들어오는 네 가지 표준 경로를 제시한다. 각 경로를 구체적으로 살펴본다.

4.1 채널 1 — 추가 공변량

가장 단순한 경우. 현재 선형 예측자가

\[\eta = \beta_0 + \sum_{j=1}^p \beta_j x_j\]

일 때, 후보 공변량 \(z\) 를 추가한 확장 모형

\[\eta = \beta_0 + \sum_{j=1}^p \beta_j x_j + \gamma z\]

를 만들고 \(H_0: \gamma = 0\) 을 검정한다. \(\theta\) 는 \(\gamma\) 다.

전형적 사용 맥락: - 교호작용 항 \(x_1 x_2\) 가 빠져 있는지 검사. - 이차항 \(x_j^2\) 이 필요한지 (곡률 검사). - 계층 변수 (집단·배치) 효과가 필요한지.

실무 팁: 후보가 많으면 스코어 검정 을 써서 각 후보를 \(M_0\) 에서 한 번씩 돌려 빠르게 훑는다 (§12.3). Wald 나 이탈도 검정은 각 후보를 수렴까지 재적합해야 하므로 시간이 오래 걸린다.

4.2 채널 2 — 공변량 가족 \(h(x; \theta)\)

공변량의 스케일(scale) 이 맞는지 검사할 때 쓴다. 현재 모형이 \(\eta \supset \beta x\) 이면, \(x\) 를 \(h(x;\theta)\) 로 대체한 확장 모형

\[\eta \supset \beta \cdot h(x;\theta)\]

을 생각한다. \(\theta = \theta_0\) 에서 \(h(x;\theta_0) = x\) 이면 \(M_0\) 가 \(M_1\) 의 특수 사례다.

가장 흔한 가족은 Box-Cox 멱(power) 변환:

\[h(x;\theta) = \begin{cases} (x^\theta - 1)/\theta & \theta \neq 0 \\ \log x & \theta = 0 \end{cases}, \qquad \theta_0 = 1 \text{ (identity)}.\]

\(\theta_0 = 1\) 에서 \(h(x;1) = x - 1\) — 상수 평행이동은 선형 예측자에 흡수되므로 \(x\) 와 등가다.

실무 감각: - \(\hat\theta \approx 0.5\): \(\sqrt x\) 가 적절 (제곱근 변환). - \(\hat\theta \approx 0\): \(\log x\) 가 적절 (로그 변환). - \(\hat\theta \approx -1\): \(1/x\) 가 적절 (역수 변환).

이 검정 절차의 §11.4 선형화 구현은 “공변량 안에 비선형 모수가 숨은 경우” 그 자체다 — Box-Tidwell (1962) 이 원조다.

4.3 채널 3 — 링크 가족 \(g(\eta; \theta)\)

링크 함수 선택이 맞는지 검사할 때 쓴다. 현재 \(g(\mu) = \eta\) 이면, 링크를 \(g(\mu;\theta)\) 가족으로 확장하고 \(\theta_0\) 에서의 적합을 \(\hat\theta\) 에서의 적합과 비교한다.

감마 오차에 대해 가장 유용한 가족은 멱 링크:

\[g(\mu;\lambda) = \mu^\lambda, \qquad \lambda_0 = 0 \Leftrightarrow \text{log link}.\]

이항 데이터에 대해서는 로짓·프로빗·cloglog 를 모두 포함하는 가족이 여럿 제안되어 있다 (§11.3.2).

직관: 링크 함수를 바꾼다는 것은 “\(\mu\) 의 어느 비선형 변환 이 공변량과 선형 관계에 있는가” 를 바꾸는 일이다. 링크 검정이 유의하면 현재 선택한 변환이 공변량과의 관계를 곡선적으로 틀어 놓고 있다는 신호다.

4.4 채널 4 — 구성 변량 (constructed variate)

가장 영리한 채널. 현재 모형을 적합해 \(\hat\eta\) 를 얻은 뒤, 이것의 함수 (특히 \(\hat\eta^2\)) 를 새 공변량 으로 추가해 본다.

\[\eta_{\text{extended}} = \eta_{M_0} + \gamma \cdot \hat\eta^2.\]

\(\gamma = 0\) 검정이 유의하면 링크 비선형 또는 공변량 스케일 문제가 있다는 종합 신호다. Hinkley (1985) 의 제안이다.

왜 이것이 “링크 검정” 으로 작동하는가? \(g(\mu;\lambda) = \mu^\lambda\) 를 \(\lambda_0\) 에서 Taylor 전개하면:

\[g(\mu;\lambda) \simeq g(\mu;\lambda_0) + (\lambda - \lambda_0) \cdot [\partial g/\partial \lambda]_{\lambda_0}.\]

\(\lambda_0 = 0\) (로그 링크) 에서 \(\partial g/\partial \lambda = \mu^\lambda \log\mu \big|_{\lambda=0} = \log\mu = \eta\). 따라서 공변량 \(\eta = g(\mu)\) 의 제곱 항 (\(\eta^2\)) 이 아니라 \(\eta\) 자체 가 추가된다. 하지만 이 항은 이미 선형 예측자에 있으니 구별되지 않는다.

실제로 Hinkley 의 \(\hat\eta^2\) 테스트가 포착하는 것은 이차 항 이 보여 주는 곡률 이다. 링크가 잘못됐든 공변량 스케일이 잘못됐든, 두 문제 모두 “선형 예측자의 2차 곡률” 로 나타나 \(\hat\eta^2\) 항에 모인다. 따라서 이 검정은 링크와 스케일 문제를 함께 잡지만 구별하지 못하는 복합 검정이다 — 이 혼입은 §12.6 에서 해결한다.

직관: 구성 변량은 “자기 자신에게 묻는 테스트”

\(\hat\eta^2\) 은 현재 모형이 이미 뱉어낸 예측 의 함수다. “네 예측의 제곱이 네 예측 외에 추가 정보가 되는가?” 를 묻는 것이다.

대답이 “예” 라면: 예측이 체계적으로 곡선적 으로 틀렸다. 어딘가에서 선형 예측자가 실제 평균과 2차 관계 를 가진다. 원인은 잘못된 링크일 수도, 공변량 스케일일 수도 있다.

대답이 “아니오” 라면: 적어도 2차 곡률의 관점에서는 모형이 내부 일관성이 있다.

이것이 경제학의 Ramsey RESET test 의 GLM 판이다.

5 개별 이상점을 위한 공식 기법 — 더미 공변량

5.1 기본 아이디어

개별 관측치 \(i\) 가 이상한지 검사하는 공식 방법: \(i\) 번째 관측치에서만 1, 나머지에서 0 인 더미 변수 를ㄹ 선형 예측자에 추가한다.

\[d_i^{(j)} = \begin{cases} 1 & j = i \\ 0 & j \neq i \end{cases}.\]

확장 모형의 \(d^{(i)}\) 계수를 \(\gamma_i\) 라 하면, \(\gamma_i \neq 0\) 검정이 곧 “관측치 \(i\) 가 나머지와 다른 intercept 를 가진다” 는 검정이다.

5.2 수학적 사실 — 더미 삽입 = 관측치 제거

이것은 단순한 공변량 추가 이상의 의미를 가진다. 관측치 \(i\) 에서 \(d^{(i)} = 1\) 이라는 뜻은 그 점만의 고유 절편 을 인정한다는 것이고, 결과적으로 그 점의 잔차가 정확히 0 이 된다. 다른 관측치들의 적합값은 관측치 \(i\) 의 영향을 완전히 제거한 상태로 계산된다.

즉 더미를 추가한 \(M_1\) 적합 은 관측치 \(i\) 를 제거한 재적합 과 동일하다. 이탈도 감소는 “관측치 \(i\) 를 뺐을 때 전체 적합이 얼마나 좋아지는가” 와 같다.

\[D(M_0) - D(M_1) \simeq r_i^{*2},\]

\(r_i^*\) 는 삭제잔차 (§12.5).

왜 더미 공변량 기법이 깔끔한가

계산 효율: 스코어 검정으로 돌리면 \(M_0\) 적합 상태에서 한 번만 추가 반복 해서 끝난다. 관측치를 실제로 재적합하지 않아도 된다.
해석: 이탈도 감소량 = 삭제 효과. 익숙한 양.
일반화: 여러 관측치를 동시에 의심할 때는 더미를 여러 개 추가하면 된다 — 한 번에 군집 이상점 을 검정할 수 있다.

5.3 함정 — “가장 이상한 점을 골랐다” 는 보정

\(n\) 개 관측치 중 가장 큰 \(|r_i^*|\) 를 가진 점 을 골라 더미 검정을 돌렸다고 하자. 개별 점 하나에 대한 검정은 \(\chi_1^2\) 귀무 분포를 따른다. 그러나 \(n\) 개 중 최댓값을 선택한 뒤 검정한 것이므로 실질 귀무 분포는 \(\chi_1^2\) 가 아니다.

5.4 Bonferroni 보정

가장 단순한 대응: \(\chi_1^2\) 의 임계값을 유의수준 \(\alpha/n\) 으로 낮춘다. 예: 원래 5% 임계값 3.84 대신, \(n = 100\) 이면 \(\alpha/n = 0.0005\) 의 임계값 \(\chi_1^2(0.0005) \approx 12.12\) 를 쓴다.

Bonferroni 는 보수적이다. 점들의 잔차가 서로 강하게 상관되면 유효 검정 수는 \(n\) 보다 적어 더 낮은 임계값이 옳을 수 있다.

5.5 Monte Carlo 보정 — 더 정확한 방법

더 정확한 대안: 모형에서 시뮬레이션 해 최댓값 분포를 경험적으로 만든다.

\(M_0\) 로 적합한 파라미터에서 \(B\) 개의 가상 데이터셋을 시뮬레이션.
각각에서 \(\max_i |r_i^*|\) 를 계산.
관측된 \(\max_i |r_i^*|\) 가 이 경험 분포의 어느 백분위수인지 확인.

이 방법은 상관 구조 를 자동으로 반영한다 (시뮬레이션 데이터가 같은 모형에서 나왔으므로). 대신 계산 비용이 크다.

5.6 군집 이상점

한 점이 아니라 여러 점이 뭉쳐서 이상한 경우는 Bonferroni 도 Monte Carlo 도 잘 잡지 못한다. 이들 점이 서로의 영향을 상쇄 시켜 개별 \(r_i^*\) 는 크지 않지만 집단으로 모형에 편향을 주기 때문이다. §12.9 가 이 어려움을 논의하며, Rousseeuw & Leroy (1988) 의 최소 중간 제곱(least median of squares) 같은 강건 적합이 대안으로 거론된다.

6 공식과 비공식의 분업 — 실무적 흐름

네 embedding 채널과 더미 기법을 종합하면, 모형 확인의 실무 흐름도 는 다음과 같다.

적합 완료 (M_0)
    ↓
[비공식 단계] 잔차 플롯 4종:
    - 잔차 vs 적합값 (등정보 스케일)
    - 잔차 vs 각 공변량
    - 추가 변수 플롯 (누락 후보)
    - 부분 잔차 플롯 (각 x 의 스케일)
    → 의심 방향 몇 개 추려낸다
    ↓
[공식 단계] 추려낸 방향에 대해 각각:
    - Embedding 채널 1-4 중 해당 채널 선택
    - 스코어 검정으로 빠른 스크리닝
    - 유의한 것만 이탈도 검정으로 확정
    ↓
[개별 이상점 단계] 표준화 이탈도 잔차 큰 점들:
    - 더미 공변량 추가 검정
    - Bonferroni 또는 Monte Carlo 로 다중 검정 보정
    ↓
모형 수정 → 루프로 복귀 (있다면)

6.1 순서가 중요한 이유

“비공식 → 공식” 순서를 뒤집으면 안 되는 이유:

공식을 먼저 돌리면 채널 1-4 를 자동으로 일일이 시도해야 한다. 선험적 확신이 없는 검정을 대량으로 돌리면 1종 오류가 늘어난다.
비공식을 먼저 돌리면 데이터가 제안하는 몇 개의 의심 방향 으로 공식 검정을 집중시킬 수 있다. 검정 횟수가 적어져 보정 부담도 가볍다.

단, 비공식 단계에서 얻은 “의심” 을 동일 데이터로 공식 검정해 확증하는 관행은 논란의 여지가 있다 — 순수한 확증은 독립적 데이터 (홀드아웃 · 교차검증) 에서 이루어져야 한다. 실무에서는 이 이상적 순수성을 희생하고 “같은 데이터로 발견 + 확정” 을 자주 한다. 그 타협이 정당한지는 도메인마다 판단한다.

7 네 채널 과 교재의 다른 장의 연결

네 embedding 채널은 Ch.12 안에서만의 아이디어가 아니다. Ch.11 에서 다룬 “추가 비선형 모수” 가 바로 이 채널들의 직접 응용이다.

채널	Ch.12 맥락	Ch.11 대응	Ch.11 Examples (10-5)
1. 추가 공변량	누락 공변량 검사	—	—
2. 공변량 가족	Box-Cox 스케일 검정	§11.4 비선형 공변량 모수	비료 \(u_i = 1/(x_i + \alpha_i)\), 인슐린 \(\log(x_1+\theta x_2)\)
3. 링크 가족	멱 링크 검정	§11.3 링크 함수 모수	Pregibon 선형화
4. 구성 변량	\(\hat\eta^2\) 추가	— (Hinkley 제안)	—
더미 공변량	개별 이상점	—	Bermuda 잔디의 outlier (0,3,2)

즉 Ch.11 전체는 Ch.12 §12.2 의 embedding 원리를 실행하는 기계장치 다. 분산 함수·링크·공변량 안의 모수를 Box-Tidwell 선형화로 추정하는 모든 기법이 결국 “\(M_0\) 에 추가 모수 \(\theta\) 를 넣어 \(M_1\) 을 만들고 \(\theta_0\) 에서의 적합과 비교” 하는 §12.2 의 틀이다.

8 요약 — §12.2 의 두 가지 메시지

8.1 메시지 1: 분업 철학

비공식과 공식은 대체 관계가 아니라 분업 관계 다. 비공식이 탐색, 공식이 확증 을 담당한다. 분석가는 두 모드를 번갈아 사용해야 한다.

8.2 메시지 2: 통합 엔진

공식 기법의 모든 변종은 embedding 원리 라는 하나의 엔진으로 돌아간다. 검정의 물리적 형태 — 공변량을 더하는가, 링크를 바꾸는가, 구성 변량을 넣는가, 더미를 넣는가 — 는 피상적 차이일 뿐, 수학적 구조는 “\(M_0\) 를 \(M_1\) 안에 내포시킨 뒤 추가 모수 검정” 으로 통일된다.

이 두 메시지를 기억하면 Ch.12 의 나머지 섹션들 (§12.3 스코어 검정, §12.6 체계적 이탈, §12.7 개별 이상점) 이 모두 이 틀의 구체화임을 자연스럽게 읽을 수 있다.

9 관련 주제

선행 지식

직접 관련 — Ch.11 의 embedding 실행 예

Parameters in the Variance Function — 음이항 \(k\) · profile likelihood (McCullagh §11.2) — 채널 3 의 분산 함수 버전
Parameters in the Link Function — Box-Cox 멱 링크·Pregibon 선형화 (McCullagh §11.3) — 채널 3 의 전형
Non-Linear Parameters in the Covariates — Box-Tidwell 선형화 (McCullagh §11.4) — 채널 2 의 전형
Non-Linear Parameters — Examples (McCullagh §11.5) — 세 가지 실무 사례

후속 주제

Score Tests for Extra Parameters — 한 회 반복으로 끝나는 검정 (McCullagh §12.3) — 이 글의 embedding 원리를 계산 비용 측면에서 최적화
Smoothing as an Aid to Informal Checks (McCullagh §12.4)
Checks for Systematic Departure — 분산·링크·공변량 척도 세 축 (McCullagh §12.6)
Checks for Isolated Departure — 레버리지·일관성·영향력 (McCullagh §12.7)