1 왜 “프로세스” 인가
통계 모델링을 처음 배울 때는 흔히 “모델을 정하고 추정한다” 라는 두 단계로 본다. 그러나 McCullagh & Nelder 는 §2.1 에서 모델링을 하나의 절차(single algorithm) 가 아닌 순환적 과정(iterative process) 으로 제시한다.
[데이터 + 도메인 지식]
↓
모델 선택 (Model Selection)
↓
추정 (Estimation)
↓
진단·검증 (Diagnostics)
↓
┌───── 수정 필요? ────────→ 모델 선택으로 회귀
│
예측 (Prediction)
이 과정의 핵심 메시지는 두 가지다.
- 모델 선택과 추정은 분리된 활동이다. 추정은 알고리즘적이지만, 선택은 판단(judgment) 의 영역이다.
- 모델은 옳고 그름이 아니라 유용성으로 평가된다. George Box 의 “All models are wrong, but some are useful” 이 §2.1 의 정신을 압축한다.
직관: 데이터 분석은 일직선 파이프라인이 아니라 연구자의 판단이 매 단계에 개입하는 대화다. 자동화 도구(stepwise, AutoML)가 보조할 수는 있어도 대체할 수는 없다는 입장이 McCullagh-Nelder 의 출발점이다.
2 모델 선택 (Model Selection)
2.1 무엇을 선택하는가
GLM 의 세 구성요소(확률 성분·체계적 성분·연결함수) 는 모두 선택의 대상이다. 구체적으로 사용자는 다음 네 가지를 결정해야 한다.
| 선택 항목 (Choice) | 결정해야 할 질문 | 영향 |
|---|---|---|
| 공변량 (Covariates) | 어떤 \(x_j\) 를 포함할까? 변환 (\(\log x\), \(x^2\), 교호작용) 도 포함되는가 | 평균 구조의 풍부함, 해석 가능성 |
| 척도 (Scale of measurement) | \(Y\) 를 그대로 쓸까, 변환할까? | 분포 가정의 타당성, 선형성 |
| 연결함수 (Link function) | identity, log, logit, probit 중 무엇? | \(\eta\) 와 \(\mu\) 의 매핑, 정의역 보장 |
| 분산함수 (Variance function) | 분포 선택을 통해 \(V(\mu)\) 결정 | 표준오차, 가중치, 효율성 |
이 선택들은 서로 얽혀 있다. 예컨대 카운트 데이터에 log link 를 쓰기로 했다면, 분포는 거의 자동으로 Poisson 또는 Negative Binomial 로 좁혀진다. Link 결정이 variance 결정을 사실상 동반한다.
2.2 선택의 원칙: Parsimony vs Adequacy
Parsimony (간결성) 와 Adequacy (충분성) 의 균형이 모델 선택의 중심 긴장이다.
- Parsimony: 모수가 적을수록 해석이 명확하고 추정 분산이 작다 (Occam’s Razor)
- Adequacy: 모수가 많을수록 데이터 패턴을 잘 설명한다 (적합도 향상)
“Models, of course, are never true, but fortunately it is only necessary that they be useful.”
모델은 결코 참(true) 이 아니지만, 유용(useful) 하기만 하면 충분하다. 모델 선택의 목표는 “참인 모델을 찾는 것” 이 아니라 “지금 묻는 질문에 답할 수 있는 모델을 찾는 것” 이다.
직관: 100 개의 공변량으로 데이터를 거의 완벽히 맞추는 모델은 포화 모형(saturated model) 에 가까워 새로운 관측을 예측하지 못한다. 반대로 절편만 있는 모형은 아무것도 설명하지 못한다. 두 극단 사이에서 목적에 충분한 가장 단순한 모형이 우리의 목표다.
2.3 선택의 도구
McCullagh-Nelder 는 §2.1 단계에서 다음 도구들을 모델 선택의 입력으로 제시한다 (구체 공식은 §2.4 deviance, §2.5 residuals 에서 다룸).
- 이탈도 (Deviance) 비교: 중첩 모형 사이의 적합도 차이를 \(\chi^2\) 분포로 검정
- 잔차 진단 (Residual diagnostics): Pearson·Deviance 잔차의 패턴 점검
- 정보 기준 (Information criteria): AIC = \(-2\ell + 2p\), BIC = \(-2\ell + p\log n\) — 적합도 + 모수 패널티
- 교차 검증 (Cross-validation): 외부 예측 성능 직접 측정
- 도메인 지식 (Subject-matter knowledge): 통계 지표만으로는 결정 불가, 분야 전문가 판단 필수
직관: 통계량은 “이 모형이 데이터와 얼마나 합치하는가”를 답할 뿐이다. “이 모형이 옳은 질문을 묻고 있는가”는 도메인 전문가의 영역이다. §2.1 이 강조하는 “judgment” 는 이 부분이다.
2.4 척도 선택의 미묘함
\(Y\) 자체를 변환할지 (\(Y' = \log Y\)), 아니면 모형 안의 \(\mu\) 를 변환할지 (\(g(\mu) = \log \mu\)) 의 결정은 표면적으로 비슷해 보이지만 본질이 다르다.
| 접근 | 가정 | 분산 구조 |
|---|---|---|
| Y 변환 (\(Y' = \log Y\)) | \(\log Y \sim N(\mu', \sigma^2)\) | \(\mathrm{Var}(\log Y) = \sigma^2\) (등분산) → \(\mathrm{Var}(Y) = \mu^2 \sigma^2\) 근사 |
| 연결함수 (\(\log \mu = \eta\)) | \(Y \sim\) Gamma 또는 Poisson | \(\mathrm{Var}(Y) = V(\mu) \phi\) — 분포가 직접 결정 |
두 모델의 적합값이 비슷할 수 있어도 잔차 분석·예측 구간·계수 해석은 달라진다. Y 변환은 평균과 분산을 동시에 손대는 결정이고, 연결함수는 평균만 변환하고 분산은 분포 선택으로 분리하는 결정이다. McCullagh-Nelder 가 후자를 선호하는 이유다.
직관: \(Y\) 변환은 “데이터를 자르고 다시 맞추는” 것이고, 연결함수는 “원본을 그대로 두고 모델이 알아서 척도를 처리하는” 것이다. 후자가 더 깔끔한 분리다.
3 추정 (Estimation)
3.1 추정의 위치
모델이 선택되면 — 즉 분포·연결·공변량이 정해지면 — 남은 작업은 모수 \(\boldsymbol{\beta}\) (그리고 필요시 \(\phi\)) 를 데이터로부터 추정하는 것이다. McCullagh-Nelder 는 추정을 “모델 선택과 분리된, 좀 더 알고리즘적인 단계” 로 본다.
3.2 추정 패러다임
GLM 추정은 단일 방법이 아닌 여러 패러다임의 선택지를 가진다.
| 방법 (Method) | 가정 (Assumption) | 출력 | 사용 시점 |
|---|---|---|---|
| MLE (Maximum Likelihood Estimation) | 분포 완전 지정 | \(\hat{\boldsymbol{\beta}}_{MLE}\), asymptotic SE | GLM 표준, 분포 가정이 합리적일 때 |
| Quasi-likelihood | 평균·분산 구조만 지정 | \(\hat{\boldsymbol{\beta}}_{QL}\), robust SE | 분포가 불확실하지만 mean-variance 관계는 신뢰할 때 |
| Method of Moments | \(E[Y] = \mu(\boldsymbol{\beta})\) | 적률 일치 해 | 단순 추정, 출발점 |
| Bayesian | 사전분포 + 가능도 | 사후분포 | 사전 정보 통합, 작은 표본 |
| Penalized Likelihood | MLE + 정칙화 항 | \(\hat{\boldsymbol{\beta}}_{ridge/lasso}\) | 고차원, 변수 선택 동반 |
GLM 의 표준은 MLE 다. §2.1 은 “왜 MLE 인가” 에 대해 세 가지 이유를 든다.
- 점근 효율성 (Asymptotic efficiency): 정확한 분포 가정 하에서 MLE 는 점근적으로 분산이 가장 작다 (Cramér-Rao bound 달성)
- 불변성 (Invariance): \(\hat\theta_{MLE}\) 가 있으면 \(g(\hat\theta)\) 가 \(g(\theta)\) 의 MLE — 척도 변환에 일관성
- 점근 정규성 (Asymptotic normality): \(\hat{\boldsymbol{\beta}} \overset{a}{\sim} N(\boldsymbol{\beta}, \mathcal{I}^{-1})\) — Wald 검정·신뢰구간이 자동으로 따라옴
3.3 점추정과 불확실성의 동반
§2.1 의 강조점 중 하나: 추정은 점추정만으로 끝나지 않는다. \(\hat{\boldsymbol{\beta}}\) 와 함께 다음 셋이 보고되어야 한다.
- 표준오차 (Standard error): \(\mathrm{SE}(\hat\beta_j) = \sqrt{[\mathcal{I}^{-1}]_{jj}}\)
- 신뢰구간 (Confidence interval): Wald \(\hat\beta_j \pm 1.96 \cdot \mathrm{SE}\), 또는 profile likelihood
- 검정 (Hypothesis test): Wald, Score (Rao), Likelihood Ratio Test (LRT) — 셋 모두 점근 동치이지만 유한 표본에서는 차이
직관: 점추정만 보고하는 것은 “내 측정값은 5.3 이다” 라고 말하는 것과 같다. “5.3 ± 0.2” 라고 말해야 의사결정에 쓸 수 있다. GLM 추정의 출력은 항상 추정값 + 정밀도 의 쌍이다.
3.4 Nuisance Parameter 처리
GLM 에는 관심 모수 \(\boldsymbol{\beta}\) 외에 분산 모수 (dispersion parameter) \(\phi\) 가 있다. 분포에 따라 처리가 다르다.
| 분포 (Distribution) | \(\phi\) | 처리 |
|---|---|---|
| Normal | \(\sigma^2\) — 미지 | \(\hat\sigma^2 = \mathrm{RSS}/(n-p)\) 별도 추정 |
| Poisson | \(1\) — 고정 | 추정 불필요 (단, 과산포 시 확장) |
| Binomial | \(1\) — 고정 | 추정 불필요 (단, 과산포 시 확장) |
| Gamma | \(\nu^{-1}\) — 미지 | Pearson 또는 deviance 기반 추정 |
| Inverse Gaussian | \(\sigma^2\) — 미지 | 별도 추정 |
\(\phi\) 를 미지로 놓고도 \(\hat{\boldsymbol{\beta}}\) 추정 자체는 영향을 받지 않는다 (\(\phi\) 가 score 의 비례 상수에만 등장). 하지만 표준오차 계산에는 \(\hat\phi\) 가 필요하다.
직관: \(\phi\) 는 “데이터가 모델 평균에서 평균적으로 얼마나 흩어져 있는가” 의 척도다. \(\phi\) 가 1 이상으로 추정되면 (Poisson·Binomial 에서) 과산포(overdispersion) 의 신호이고, 이는 모델이 데이터의 변동을 다 잡지 못했다는 진단이다.
3.5 추정의 한계 인식
§2.1 은 추정 결과를 해석할 때의 주의도 명시한다.
- 유한 표본 편향 (Finite-sample bias): MLE 가 점근적으로 불편이지만 유한 표본에서는 편향. 로지스틱 회귀에서 분리(separation) 가 발생하면 추정값이 무한대로 발산하는 극단도 가능
- 모형 오지정 (Model misspecification): 분포 또는 link 가 틀리면 SE 가 왜곡 → sandwich estimator 또는 quasi-likelihood 로 보정
- 수렴 실패: 비정준 link, 나쁜 초기값, 다중공선성에서 알고리즘이 수렴하지 않을 수 있음
직관: 추정값을 출력 받았다고 분석이 끝난 게 아니다. 잔차 진단 + 수렴 점검 을 통해 추정 결과의 신뢰성을 확인하는 것이 §2.1 의 사이클이 모델 선택으로 되돌아가는 이유다.
4 예측 (Prediction)
4.1 예측의 두 가지 의미
GLM 에서 “예측” 은 두 가지 다른 양을 가리킬 수 있다.
| 예측 대상 | 표기 | 의미 |
|---|---|---|
| Mean prediction | \(\hat\mu(\mathbf{x}_0) = g^{-1}(\mathbf{x}_0^\top \hat{\boldsymbol{\beta}})\) | 새 공변량 \(\mathbf{x}_0\) 에서의 기댓값 추정 |
| Observation prediction | \(\hat Y(\mathbf{x}_0)\) | 새 관측 자체의 예측 (확률변수) |
이 둘은 불확실성의 출처가 다르다.
- 평균 예측의 불확실성: \(\hat{\boldsymbol{\beta}}\) 추정 오차에서만 비롯됨
- 관측 예측의 불확실성: 추정 오차 + 관측 자체의 무작위성 (\(\mathrm{Var}(Y|\mathbf{x}_0) = V(\mu_0)\phi\))
4.2 예측 분산 분해
\[ \mathrm{Var}\big[\hat Y(\mathbf{x}_0)\big] \;=\; \underbrace{\mathrm{Var}\big[\hat\mu(\mathbf{x}_0)\big]}_{\text{추정 분산 (reducible)}} \;+\; \underbrace{V(\mu_0)\phi}_{\text{고유 분산 (irreducible)}} \]
데이터를 더 모으면 첫째 항(추정 오차)은 줄지만, 둘째 항(관측 노이즈)은 줄지 않는다. 이것이 prediction interval 이 confidence interval 보다 항상 넓은 이유다.
직관: 평균 예측은 “다음 100 명의 클릭률 평균이 얼마일까?” 에 답하고, 관측 예측은 “다음 한 명이 클릭할까?” 에 답한다. 후자가 본질적으로 더 어렵다 — 추정을 아무리 정확히 해도 개별 관측의 무작위성은 남는다.
4.3 예측 척도 선택 (Scale of Prediction)
GLM 의 예측은 선형예측자 척도 (\(\eta\)) 또는 반응 척도 (\(\mu\)) 에서 할 수 있다. 척도 선택이 신뢰구간의 형태에 영향을 미친다.
\(\eta\) 척도에서 신뢰구간 → 변환 → \(\mu\) 척도 가 표준 권장 방법이다.
\[ \hat\eta_0 = \mathbf{x}_0^\top \hat{\boldsymbol{\beta}}, \quad \mathrm{SE}(\hat\eta_0) = \sqrt{\mathbf{x}_0^\top \widehat{\mathrm{Cov}}(\hat{\boldsymbol{\beta}}) \mathbf{x}_0} \]
\(\eta\) 척도 95% CI: \(\hat\eta_0 \pm 1.96 \cdot \mathrm{SE}(\hat\eta_0)\)
이 구간을 \(g^{-1}\) 로 변환하면 \(\mu\) 척도 CI 가 된다. \(\mu\) 척도에서 직접 정규 근사하면 문제가 생긴다 — 이항에서 \(\hat\mu \pm 1.96 \cdot \mathrm{SE}\) 가 0 미만이거나 1 초과로 나올 수 있다.
직관: 정규 근사는 척도에 의존한다. \(\eta\) 척도는 \(\mathbb{R}\) 전체이므로 정규 근사가 자연스럽지만, \(\mu\) 는 분포에 따라 제한된 구간 (\((0,1)\), \((0,\infty)\)) 이라 경계 근처에서 정규성이 깨진다. \(\eta\) 척도에서 통계적 작업을 하고, 마지막에 \(\mu\) 로 변환 하는 것이 황금 규칙이다.
4.4 외삽 (Extrapolation) 의 위험
\(\mathbf{x}_0\) 가 원 데이터의 공변량 범위 안에 있으면 내삽(interpolation), 밖에 있으면 외삽(extrapolation) 이다.
GLM 의 외삽은 OLS 의 외삽보다 연결함수 모양에 의해 추가로 왜곡된다.
- Log link: \(\hat\mu = e^\eta\) — \(\eta\) 가 조금만 증가해도 \(\hat\mu\) 가 폭발적으로 증가
- Logit link: \(\hat\mu = e^\eta / (1+e^\eta)\) — \(\eta\) 가 크면 \(\hat\mu \to 1\) 로 수렴 (포화)
- Inverse link: \(\hat\mu = 1/\eta\) — \(\eta = 0\) 근처에서 발산
직관: OLS 의 외삽은 직선을 연장하는 위험이고, GLM 의 외삽은 곡선을 연장하는 위험이다. 곡선의 모양을 link 가 결정하므로, 외삽 영역에서 link 의 적절성 검증이 더 중요해진다. McCullagh-Nelder 는 외삽 시 항상 불확실성 구간을 동반 보고하라고 명시한다.
4.5 예측 진단
좋은 예측 모델인지 평가하는 도구:
| 지표 (Metric) | 정의 | 용도 |
|---|---|---|
| RMSE / MAE | \(\sqrt{\frac{1}{n}\sum(y - \hat\mu)^2}\), \(\frac{1}{n}\sum|y - \hat\mu|\) | 평균 예측 정확도 |
| Brier score | \(\frac{1}{n}\sum(y - \hat\mu)^2\) — 이진 결과에서 | 이항 예측 calibration |
| Log-loss | \(-\frac{1}{n}\sum\{y\log\hat\mu + (1-y)\log(1-\hat\mu)\}\) | 확률 예측의 likelihood |
| Calibration plot | 예측 확률 vs 실제 빈도 | \(\hat\mu\) 가 잘 보정되었는가 |
| ROC / AUC | 임계값별 TPR-FPR | 이진 분류 성능 |
직관: 예측 평가는 학습 데이터가 아닌 별도 검증 데이터(holdout, cross-validation) 에서 측정해야 한다. 학습 데이터 적합도(deviance) 만 보면 과적합을 발견할 수 없다. 이 점이 §2.1 사이클의 마지막 단계가 모델 선택으로 되돌아가는 또 다른 이유다.
5 세 단계의 통합: 예시 시나리오
5.1 시나리오: 광고 캠페인 클릭 수 모델링
상황: 마케팅팀이 100 개 광고의 클릭 수(\(Y\)) 를 광고 노출 수(\(n\)), 광고 카테고리, 게재 시간대로 모델링하려 한다.
Step 1 — Model Selection
- \(Y\) 가 카운트 → Poisson 후보
- 노출 수 \(n\) 을 offset 으로 처리: \(\log E[Y] = \log n + \mathbf{x}^\top \boldsymbol{\beta}\)
- 카테고리는 더미 변수, 시간대는 cyclic spline
- Link = log (정준), Variance = \(\mu\) (Poisson 기본)
- 판단 지점: 주말 효과를 separate dummy 로 넣을지, 시간대 spline 에 흡수시킬지
Step 2 — Estimation
- IRLS 로 \(\hat{\boldsymbol{\beta}}\) 추정
- Pearson \(\hat\phi = \mathrm{Pearson}/(n-p) = 1.8\) 로 측정 → 과산포 발견
- 대응: Negative Binomial 로 재추정, 또는 quasi-Poisson 으로 SE 보정
- 계수와 95% CI 동반 보고
Step 3 — Diagnostics
- Deviance residual Q-Q plot 에서 꼬리 이탈 → 일부 outlier 광고
- 진단 결과를 가지고 Step 1 으로 회귀: outlier 광고는 별도 모델 또는 제외 결정
Step 4 — Prediction
- 새 광고의 기대 클릭률 \(\hat\mu_0/n_0\) 예측
- \(\eta\) 척도에서 95% CI 계산 후 \(\exp\) 로 변환해 보고
- 새 광고의 노출 수가 학습 데이터 범위 밖이면 외삽 경고
직관: §2.1 의 가르침은 “이 워크플로우를 한 번에 완수하는 모델은 거의 없다” 이다. 진단 결과가 모델 선택으로 되돌아가는 화살표가 여러 번 발화되는 것이 정상이다.
6 자동화의 한계
stepwise selection, AutoML, AIC/BIC 기반 자동 변수 선택 등이 §2.1 의 일부를 자동화한다. 그러나 McCullagh-Nelder 는 자동화의 한계를 명시한다.
자동화가 잘하는 것
- 미리 정의된 후보 모델 집합에서의 선택 (forward/backward stepwise)
- 정량적 적합도 비교 (AIC, BIC, CV error)
- 반복적 최적화 (IRLS 자체가 자동화됨)
자동화가 못하는 것
- 어떤 공변량을 후보에 넣을지의 prior judgment
- 데이터 수집의 한계·편향 인식 (selection bias, missing-not-at-random)
- 모델의 정책적·윤리적 함의 평가 (불공정성, prediction-action gap)
- 결과를 도메인 지식과 통합하는 해석 (interpretation)
직관: 자동화 도구는 “후보 중 어느 것이 가장 좋은지” 를 답한다. “후보를 어떻게 정할지” 와 “이 결과가 무엇을 의미하는지” 는 여전히 사람의 영역이다. §2.1 의 process 는 이 인간 판단의 자리를 명시적으로 만든 청사진이다.
7 요약 정리
- GLM 모델링은 모델 선택 → 추정 → 예측 의 순환 워크플로우이며, 진단 결과에 따라 모델 선택으로 되돌아가는 사이클이다
- 모델 선택은 공변량·척도·link·variance function 의 결합 선택이며, parsimony 와 adequacy 의 균형이 핵심 — 통계적 도구(AIC, deviance, residual) 와 도메인 지식의 통합이 필요
- 추정의 표준은 MLE 이며, 점추정값과 함께 SE·CI·검정이 항상 동반되어야 함. Nuisance parameter \(\phi\) 는 분포에 따라 별도 추정
- 예측은 평균(\(\hat\mu\)) 과 관측(\(\hat Y\)) 두 가지를 구분해야 하며, 후자의 분산은 추정 오차 + 고유 노이즈로 분해됨. \(\eta\) 척도에서 통계 작업 후 \(\mu\) 로 변환하는 것이 표준
- 외삽 은 link 의 비선형성 때문에 OLS 보다 위험이 크고, 자동화 는 모델 비교는 잘하지만 모델 후보 정의·결과 해석은 여전히 사람의 영역
8 관련 주제
선행 지식
- GLM 이론 기초 — 지수족·정준연결·이탈도·IRLS — Ch.2 전체 overview, 본 포스트의 모(母) 포스트
- 최대우도추정 (MLE) — 추정 단계의 이론적 기반
- 지수족 (Exponential Family) — 분포 선택의 수학적 기반
관련 포스트
- GLM 응용 통합 — t-test·ANOVA·로지스틱·포아송 — 모델 선택의 실무 사례
- Logistic Regression: The Model — 이항 GLM 의 워크플로우 적용
- Logistic Regression: Estimation — 추정 단계의 구체 알고리즘
후속 주제
- Sufficient Statistics & Information Matrix (McCullagh §2.2) — 추정의 수학적 기초 심화
- Quasi-likelihood (McCullagh Ch.9) — 분포 미지정 추정 패러다임
- Model Diagnostics & Residual Analysis — 진단 단계의 도구 상세
- Cross-validation & Information Criteria — 모델 선택 자동화 도구
9 참고문헌
- McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. §2.1 The process of model fitting.
- Box, G. E. P. (1979). “Robustness in the strategy of scientific model building.” In Robustness in Statistics.
- Faraway, J. J. (2016). Extending the Linear Model with R (2nd ed.). Chapman & Hall/CRC. Ch. 8.