1 왜 참고문헌 절을 읽는가
학술서의 “Bibliographic notes” 는 본문에서 짧게 스치는 이름들의 모음이다. 초심자에게는 건너뛰기 쉬운 부분이지만, 이 절 없이는 GLM 이 왜 지금의 모습을 하고 있는지 설명할 수 없다. 지수족·정준링크·IRLS·이탈도는 하나의 머리에서 한 번에 나온 아이디어가 아니다. 각 개념은 서로 다른 시기·문제·저자로부터 왔고, Nelder-Wedderburn 이 그것들을 한 틀에 꿰어 낸 결과가 1972 년의 GLM 논문이다.
이 포스트의 목적은 세 가지다.
- McCullagh & Nelder §2.6 의 짧은 참고문헌을 공백과 해결의 순서 로 다시 읽는다.
- 각 기여가 기술적으로 무엇을 남겼는지 를 수식·알고리즘과 묶어 설명한다.
- 이 계보를 알고 있으면 오늘날의 확장(quasi-likelihood, GEE, mixed GLM, machine learning 과의 연결) 이 어디서 왔는지가 명확해진다.
직관: 참고문헌 절은 “이 이론의 어느 나사를 누가 조였는가” 의 설명서다. 나사의 기능과 조인 순서를 알면 기계 전체의 작동이 훨씬 명료해진다.
2 지적 계보의 한 장 요약
아래는 §2.6 에서 언급된 기여를 시간 순서로 재배치한 것이다. 각 줄은 “누가 / 언제 / 무엇을 해결했는가” 로 읽는다.
| 연도 | 저자 | 남긴 것 | 해결한 공백 |
|---|---|---|---|
| 1935 | Fisher | Scoring method (Bliss 논문 부록) | 프로빗 분석의 비선형 MLE 에 대한 일반 반복 기법 |
| 1971 | Finney | Scoring 의 교과서적 정리 (probit analysis) | Fisher 의 방법을 실무에 적용 가능한 절차로 명시 |
| 1972 | Nelder–Wedderburn | “Generalized Linear Model” 명명, 지수족 + 연결함수 + scoring 통합 | 흩어진 회귀·로지스틱·포아송·프로빗을 하나의 틀로 |
| 1973 | Bradley | Scoring 의 이론적 확장 | 수렴·안정성 분석 |
| 1975 | Jennrich & Moore | 비선형 회귀와의 관계 | 수치 최적화 관점의 정당화 |
| 1970 | Cox | 로지스틱 회귀 체계화 | 이항 GLM 의 독립적 기초 |
| 1971 | Dempster | 선형 지수족 모형 | 정준 매개변수화의 기하학 |
| 1972 | Berk | 선형 지수족 모형 | 충분통계량·완비성 |
| 1976 | Breslow | 조건부 로지스틱 | Cox 비례위험과의 연결 |
| 1977 | Haberman | 로그선형 모형 | 대응표·범주 데이터로의 확장 |
| 1978 | Barndorff-Nielsen | 지수족의 엄밀 수학적 처리 | 정리·정의의 수학적 토대 |
| 1984 | Green | IRLS 의 일반화 (반모수·비선형) | Penalized/semi-parametric GLM 의 길을 엶 |
| 1984 | Jorgensen | 지수 dispersion 모형 | 분산함수 일반화, Tweedie 계열의 기반 |
다음 절부터 이 표의 각 줄을 “왜 중요했는가” 관점에서 풀어 본다.
3 Fisher (1935) — Scoring Method 의 출생
3.1 배경
Fisher 는 1920 년대에 최대우도법(MLE) 의 점근 이론을 완성했다 — 일치성·점근 정규성·Fisher 정보 행렬. 그러나 실제 비선형 모형의 MLE 를 수치적으로 구하는 절차 는 따로 필요했다. 당시 가장 중요한 응용은 프로빗 분석 (probit analysis) — 용량–반응 관계에서 치사율을 정규 CDF 의 선형 조합으로 모형화하는 것이었다 (Bliss, 1935).
3.2 기여
Fisher 는 Bliss 의 논문 부록 에서 다음을 제안했다.
- Newton–Raphson 의 Hessian 을 기대값으로 대체 하라.
- 즉 \(\mathbf{H}(\boldsymbol\beta) = -\partial^2\ell/\partial\boldsymbol\beta\partial\boldsymbol\beta^\top\) 대신 \(\mathbf{A}(\boldsymbol\beta) = -E[\mathbf{H}] = \mathrm{Fisher\ information}\) 을 쓴다.
- 업데이트: \(\boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathbf{A}^{-1}\mathbf{u}\).
3.3 왜 중요했는가
Hessian 은 관측값마다 모양이 다른 불안정한 행렬이지만, Fisher 정보는 모형 구조만으로 결정되는 결정론적 행렬이다. 계산이 안정적이고, 많은 경우 \(\mathbf{X}^\top\mathbf{W}\mathbf{X}\) 처럼 해석 가능한 형태를 띤다.
직관: Newton-Raphson 이 “실제 지형의 곡률” 을 따라가는 등산이라면, Fisher scoring 은 “모형이 예측한 평균 곡률” 을 따라가는 등산이다. 진짜 지형은 관측 잡음에 흔들리지만, 예측 지형은 매끄러워 넘어지지 않는다. 이 한 줄의 아이디어가 40 년 뒤 모든 GLM 소프트웨어의 기본 엔진이 된다.
3.4 후속
Finney (1971) 는 프로빗·로짓·로그-로그 링크에 대한 Fisher scoring 을 단일 교과서 절차로 정리했다. 이 책이 실무 통계학자에게 scoring 을 보급한 매개였다.
4 Cox (1970) — 로지스틱 회귀의 독립적 기초
GLM 의 관점에서 보면 로지스틱 회귀는 “이항 + logit 링크 + 지수족” 의 한 사례다. 하지만 Cox 의 The Analysis of Binary Data (1970) 는 GLM 이 존재하기 전에 로지스틱을 완전한 통계 방법론으로 확립했다.
4.1 기여 세 가지
- 로짓 척도의 해석: 회귀계수가 로그 오즈비 (log odds ratio) 로 직접 해석된다는 사실을 체계화.
- 조건부 우도 (conditional likelihood): 층화 연구에서 층별 절편을 소거해 주효과만 추정하는 방법 — 후일 Cox 비례위험 모형의 부분우도로 확장.
- 이항 자료의 진단: Hosmer–Lemeshow 이전의 적합도 진단 아이디어 제시.
4.2 왜 중요했는가
Nelder-Wedderburn (1972) 가 “이항도 GLM 의 특수 사례” 라고 묶기 2년 전에, Cox 는 이항 회귀의 핵심 기법(로짓 해석·조건부 우도)을 독립적으로 완성해 두었다. GLM 이론은 로지스틱을 흡수 했을 뿐, 만든 것이 아니다.
직관: Cox 의 책은 “이항 데이터 실전 매뉴얼”, GLM 은 “이항이 어디에 속하는지 보여 주는 지도”. 실전 기법은 Cox 에서 이미 완성됐고, GLM 은 그것을 상위 구조에서 다시 설명한다.
5 Nelder & Wedderburn (1972) — 이름의 탄생
5.1 배경
1970 년대 초 통계학자들 손에는 다음 도구들이 따로 있었다.
- 정규 회귀 (Gauss, OLS)
- 로지스틱 회귀 (Cox, Berkson)
- 프로빗 회귀 (Bliss, Finney)
- 포아송 회귀 / 로그선형 모형 (Birch, Haberman)
- 감마 회귀 (reciprocal link, life-testing)
각각 자신의 문헌·교재·소프트웨어가 있었다. 통계 패키지는 프로그램마다 구현이 달랐다.
5.2 기여
Nelder-Wedderburn (J. Roy. Statist. Soc. A, 1972) 은 다음 세 가지를 한꺼번에 밝혔다.
- 공통 확률 구조: 위 모형들이 모두 선형 지수족 (linear exponential family) 의 사례다. \[f(y;\theta,\phi) = \exp\{(y\theta - b(\theta))/a(\phi) + c(y,\phi)\}\]
- 공통 평균 구조: 링크 함수 \(g\) 로 평균과 선형 예측자를 잇는다. \[g(\mu) = \eta = \mathbf{x}^\top\boldsymbol\beta\]
- 공통 추정 알고리즘: Fisher scoring 이 반복 재가중 최소제곱 (IRLS) 과 동치이며 모든 GLM 에 동일하게 적용된다.
이 논문이 “generalized linear model” 이라는 용어를 처음 제안했다.
5.3 왜 중요했는가
통계학에 “주기율표” 를 선물한 기여다. 멘델레예프가 원소를 새로 만든 게 아니라 이미 있던 원소 사이의 숨은 패턴을 드러냈듯, Nelder-Wedderburn 은 이미 있던 모형들의 공통 뼈대를 드러냈다. 결과는 세 가지다.
- 이론: 개별 모형의 정리 (예: MLE 일치성) 를 매번 새로 증명할 필요가 없어진다 — 지수족에서 한 번만 증명하면 모든 GLM 에 적용.
- 계산: 하나의 IRLS 엔진이 모든 GLM 을 처리. GLIM, S, R 의
glm(), Python 의statsmodels.GLM이 모두 같은 뼈대로 구현된다. - 교수학습: “여러 회귀를 배우는” 대신 “한 프레임워크를 배우는” 방식이 가능해졌다. 이 교과서(McCullagh & Nelder, 1989) 가 그 실체다.
직관: 통합 자체가 새로운 기법을 만들지는 않았지만, 통합이 지수족에 새로 들어올 수 있는 분포를 찾는 프로그램을 열었다. 음이항·Tweedie·지수분산모형이 이 프로그램의 산물이다.
6 Dempster (1971) · Berk (1972) · Haberman (1977) — 선형 지수족의 기초
이 세 저자는 Nelder-Wedderburn 과 거의 동시대에 “선형 지수족 모형” 의 수학적 기초를 놓았다. 내용이 서로 다르다.
- Dempster (1971): EM 알고리즘의 Dempster 와 동일인. 지수족의 기하학적 구조(convex dual, legendre transform) 을 통계 문제에 이식.
- Berk (1972): 지수족의 충분통계량·완비성 을 일반화. MLE 유일성의 조건을 공식화.
- Haberman (1977): 카운트·범주 데이터의 로그선형 모형 을 지수족 틀로 통일. Bishop–Fienberg–Holland (1975) 와 함께 “대응표 분석” 의 표준을 수립.
6.1 종합적 의의
Nelder-Wedderburn 이 알고리즘과 통합을 했다면, 이 세 저자는 그 통합이 수학적으로 정당한지 의 뒷받침을 제공했다. 오늘날 GLM 교재의 “왜 MLE 는 유일한가” 증명은 Berk, “왜 로그선형이 GLM 인가” 증명은 Haberman 의 결과를 원형으로 한다.
직관: Nelder-Wedderburn 이 건물을 지었다면, Dempster-Berk-Haberman 은 설계도의 역학 계산을 검증해 주었다.
7 Barndorff-Nielsen (1978) — 엄밀 수학적 처리
Information and Exponential Families in Statistical Theory (1978) 는 지수족 이론의 공식적 교과서다. 관심 있는 독자를 위한 “정밀 원전” 이다.
7.1 핵심 개념들
- 최소 지수족 (minimal exponential family): 충분통계량이 선형 독립인 가장 작은 표현.
- 정준 매개변수 공간 의 열린 볼록 집합으로서의 성격 — MLE 가 경계에 있는지 내부에 있는지가 수렴에 직결.
- Legendre 변환 을 통한 평균 매개변수 ↔︎ 정준 매개변수 이중성.
- Wedderburn 의 Anscombe 잔차 공식: \(A(\mu) = \int d\mu/V^{1/3}\) 의 명시적 증명이 이 책에서 처음 체계적으로 제공됨.
7.2 왜 중요했는가
McCullagh & Nelder (1989) 가 실용서라면 Barndorff-Nielsen (1978) 은 그 아래에 깔린 수학이다. GLM 의 정리 중 “기술적으로는 자명하다고 말하고 넘어가는” 부분의 진짜 증명이 이 책에 있다.
직관: 대부분의 응용 통계학자는 이 책을 직접 읽지 않지만, 오늘날의 강의 자료·소프트웨어 문서는 이 책의 정리를 어딘가에서 간접 인용한다. “지수족” 에 대한 현대적 이해의 토대.
8 Green (1984) · Jorgensen (1984) — 확장의 방향
1980 년대 초 GLM 은 응용에서 폭발적으로 쓰이기 시작했고, 두 사람이 후속 확장의 방향을 열었다.
8.1 Green (1984) — Penalized Likelihood 와 Semi-parametric GLM
Peter Green 은 J. Roy. Statist. Soc. B (1984) 에서 IRLS 를 벌점항으로 확장했다.
\[ \ell_p(\boldsymbol\beta, \mathbf{f}) \;=\; \ell(\boldsymbol\beta, \mathbf{f}) \;-\; \lambda\,\mathcal{P}(\mathbf{f}) \]
여기서 \(\mathbf{f}\) 는 비모수 함수, \(\mathcal{P}\) 는 곡률 벌점 (예: \(\int f''(x)^2 dx\)). 이 확장이 일반화 가법 모형 (GAM, generalized additive model) 의 계산 기초가 된다 (Hastie & Tibshirani, 1990).
직관: Green 은 “GLM 의 IRLS 엔진을 그대로 두고, 각 반복마다 smoothing spline 을 끼워 넣자” 는 아이디어를 실현했다. 통계학이 모수적 세계에서 반모수·비모수로 건너가는 다리가 여기서 놓였다.
8.2 Jorgensen (1984) — Exponential Dispersion Models
Bent Jorgensen 은 지수족을 분산 구조 중심으로 재구성 했다. 지수분산모형(exponential dispersion model) 은 다음 형태다.
\[ f(y;\mu,\phi) = a(y,\phi)\exp\{-\tfrac{1}{2\phi}d(y,\mu)\} \]
여기서 \(d(y,\mu)\) 는 이탈도 함수. 이 관점에서는 “분포” 보다 분산 함수 \(V(\mu)\) 가 원료이며, 분산함수 선택이 분포를 자동으로 결정한다.
8.3 Tweedie 계열의 탄생
Jorgensen 의 프레임워크에서 \(V(\mu) = \mu^p\) 로 두면 Tweedie 분포족 이 나온다.
| \(p\) | 분포 |
|---|---|
| 0 | Normal |
| 1 | Poisson |
| \(1 < p < 2\) | Compound Poisson-Gamma (보험 청구액) |
| 2 | Gamma |
| 3 | Inverse Gaussian |
\(1<p<2\) 영역이 특히 중요하다 — 0 이 덩어리로 있고 양수 꼬리가 있는 실제 데이터 (보험 손실액, 강우량, 구매 금액) 에 자연스럽게 맞는다. GLM 의 “표준 5종” 바깥에서 가장 영향력 있는 확장이 이 줄기에서 나왔다.
직관: Jorgensen 의 기여는 “분포 카탈로그” 에서 “분산함수 카탈로그” 로 관점을 옮긴 것이다. 분산함수가 자료에 맞는 분포를 지정하게 해, 분포를 먼저 고르고 그 안에서 맞추던 관행을 뒤집었다.
9 이 계보가 오늘날에 남긴 것
McCullagh & Nelder §2.6 은 여기서 끝나지만, 그 이후의 주요 확장은 이 계보의 직접적 자손이다.
| 1980s+ 확장 | 원류 |
|---|---|
| Quasi-likelihood (Wedderburn 1974, McCullagh 1983) | Gauss 의 “분포 없이 분산 구조만” 아이디어. Ch.9 에서 다룸. |
| GEE (Liang & Zeger, 1986) | Quasi-likelihood + 종단 상관 구조 |
| Mixed GLM / GLMM (Breslow & Clayton, 1993) | Fisher scoring + Laplace 근사 |
| GAM (Hastie & Tibshirani, 1990) | Green (1984) 의 penalized IRLS |
| Tweedie compound-Poisson-Gamma 회귀 | Jorgensen (1984) |
| Bayesian GLM (MCMC) | Dempster (1971) 의 지수족 기하학 |
| Deep GLM / exponential family neural nets | Nelder–Wedderburn 의 “분포 + 링크” 추상화 |
직관: 현대의 많은 “세련된” 모형들이 결국 GLM 계보의 IRLS·지수족·연결함수 구조를 재활용 하고 있다. 딥러닝의 cross-entropy 손실은 이항 GLM 의 이탈도이며, Poisson negative log-likelihood 는 Poisson GLM 의 이탈도다. “loss 를 우도로 재해석” 하는 현대적 관점의 원천이 이 계보다.
10 읽기 지도 — 수준별 권장 경로
10.1 입문: 실무 적용이 목표
- McCullagh & Nelder (1989) Ch.1, Ch.2 — 본 블로그 시리즈의 기초.
- Faraway (2006) Extending the Linear Model with R — R 실습 중심.
- Dobson & Barnett (2008) Introduction to GLM — 교과서로 인기.
10.2 중급: 이론을 보강하려는 대학원생
- McCullagh & Nelder (1989) 전권.
- Agresti (2015) Foundations of Linear and Generalized Linear Models.
- Wood (2017) Generalized Additive Models — Green (1984) 의 확장.
10.3 고급: 수학적 엄밀성
- Barndorff-Nielsen (1978) Information and Exponential Families.
- Brown (1986) Fundamentals of Statistical Exponential Families — 통계학 응용에 초점.
- Jorgensen (1997) The Theory of Dispersion Models — Tweedie 를 포함한 완전한 처리.
10.4 역사적 맥락
- Nelder & Wedderburn (1972) 원논문 — 의외로 짧고 읽기 쉬움.
- Fisher (1935) Bliss 부록 — scoring 의 원출처.
- Stigler (1986) The History of Statistics — Gauss 부터 Fisher 까지의 회귀 전사.
11 요약
- 1935 · Fisher: scoring method 제안 — 모든 GLM 계산의 뿌리.
- 1970s · Cox·Dempster·Berk·Haberman: 개별 지수족 모형의 독립 기초. 통합 이전의 각개약진.
- 1972 · Nelder–Wedderburn: 지수족·연결함수·IRLS 통합 — “GLM” 명명. 주기율표 순간.
- 1978 · Barndorff-Nielsen: 엄밀 수학적 처리. 오늘날 지수족 증명의 원전.
- 1984 · Green: penalized IRLS → GAM 의 기초.
- 1984 · Jorgensen: 분산함수 중심의 재구성 → Tweedie 계열.
- 1980s–현재: quasi-likelihood, GEE, GLMM, GAM, Tweedie, 딥러닝 손실함수 — 모두 이 계보의 자손.
한 줄 요약: GLM 은 한 번에 만들어지지 않았다. 40 년의 지적 분업 — Fisher 의 알고리즘, Cox 의 응용, Nelder-Wedderburn 의 통합, Barndorff-Nielsen 의 엄밀화, Green-Jorgensen 의 확장 — 이 §2.6 의 한 페이지에 압축돼 있다. 이 페이지를 읽고 나면 GLM 교재 전체가 다르게 보인다.
12 관련 주제
선행 지식
관련 개념
- GLM 적합 알고리즘 — IRLS 의 완전한 유도 — Fisher scoring 계보의 종착점
- GLM 적합도 측정 — Deviance·Pearson
- GLM 잔차 3종 — Pearson·Anscombe·Deviance — Anscombe (1953), Wedderburn 의 유산
후속 주제
- Quasi-likelihood (McCullagh Ch.9) — Wedderburn (1974) 의 확장
- GAM (Hastie & Tibshirani, 1990) — Green (1984) 의 확장
- Tweedie regression — Jorgensen (1984) 의 확장