Kwangmin Kim - GLM 의 지적 계보

1 왜 참고문헌 절을 읽는가

학술서의 “Bibliographic notes” 는 본문에서 짧게 스치는 이름들의 모음이다. 초심자에게는 건너뛰기 쉬운 부분이지만, 이 절 없이는 GLM 이 왜 지금의 모습을 하고 있는지 설명할 수 없다. 지수족·정준링크·IRLS·이탈도는 하나의 머리에서 한 번에 나온 아이디어가 아니다. 각 개념은 서로 다른 시기·문제·저자로부터 왔고, Nelder-Wedderburn 이 그것들을 한 틀에 꿰어 낸 결과가 1972 년의 GLM 논문이다.

이 포스트의 목적은 세 가지다.

McCullagh & Nelder §2.6 의 짧은 참고문헌을 공백과 해결의 순서 로 다시 읽는다.
각 기여가 기술적으로 무엇을 남겼는지 를 수식·알고리즘과 묶어 설명한다.
이 계보를 알고 있으면 오늘날의 확장(quasi-likelihood, GEE, mixed GLM, machine learning 과의 연결) 이 어디서 왔는지가 명확해진다.

직관: 참고문헌 절은 “이 이론의 어느 나사를 누가 조였는가” 의 설명서다. 나사의 기능과 조인 순서를 알면 기계 전체의 작동이 훨씬 명료해진다.

2 지적 계보의 한 장 요약

아래는 §2.6 에서 언급된 기여를 시간 순서로 재배치한 것이다. 각 줄은 “누가 / 언제 / 무엇을 해결했는가” 로 읽는다.

연도	저자	남긴 것	해결한 공백
1935	Fisher	Scoring method (Bliss 논문 부록)	프로빗 분석의 비선형 MLE 에 대한 일반 반복 기법
1971	Finney	Scoring 의 교과서적 정리 (probit analysis)	Fisher 의 방법을 실무에 적용 가능한 절차로 명시
1972	Nelder–Wedderburn	“Generalized Linear Model” 명명, 지수족 + 연결함수 + scoring 통합	흩어진 회귀·로지스틱·포아송·프로빗을 하나의 틀로
1973	Bradley	Scoring 의 이론적 확장	수렴·안정성 분석
1975	Jennrich & Moore	비선형 회귀와의 관계	수치 최적화 관점의 정당화
1970	Cox	로지스틱 회귀 체계화	이항 GLM 의 독립적 기초
1971	Dempster	선형 지수족 모형	정준 매개변수화의 기하학
1972	Berk	선형 지수족 모형	충분통계량·완비성
1976	Breslow	조건부 로지스틱	Cox 비례위험과의 연결
1977	Haberman	로그선형 모형	대응표·범주 데이터로의 확장
1978	Barndorff-Nielsen	지수족의 엄밀 수학적 처리	정리·정의의 수학적 토대
1984	Green	IRLS 의 일반화 (반모수·비선형)	Penalized/semi-parametric GLM 의 길을 엶
1984	Jorgensen	지수 dispersion 모형	분산함수 일반화, Tweedie 계열의 기반

다음 절부터 이 표의 각 줄을 “왜 중요했는가” 관점에서 풀어 본다.

3 Fisher (1935) — Scoring Method 의 출생

3.1 배경

Fisher 는 1920 년대에 최대우도법(MLE) 의 점근 이론을 완성했다 — 일치성·점근 정규성·Fisher 정보 행렬. 그러나 실제 비선형 모형의 MLE 를 수치적으로 구하는 절차 는 따로 필요했다. 당시 가장 중요한 응용은 프로빗 분석 (probit analysis) — 용량–반응 관계에서 치사율을 정규 CDF 의 선형 조합으로 모형화하는 것이었다 (Bliss, 1935).

3.2 기여

Fisher 는 Bliss 의 논문 부록 에서 다음을 제안했다.

Newton–Raphson 의 Hessian 을 기대값으로 대체 하라.
즉 \(\mathbf{H}(\boldsymbol\beta) = -\partial^2\ell/\partial\boldsymbol\beta\partial\boldsymbol\beta^\top\) 대신 \(\mathbf{A}(\boldsymbol\beta) = -E[\mathbf{H}] = \mathrm{Fisher\ information}\) 을 쓴다.
업데이트: \(\boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathbf{A}^{-1}\mathbf{u}\).

3.3 왜 중요했는가

Hessian 은 관측값마다 모양이 다른 불안정한 행렬이지만, Fisher 정보는 모형 구조만으로 결정되는 결정론적 행렬이다. 계산이 안정적이고, 많은 경우 \(\mathbf{X}^\top\mathbf{W}\mathbf{X}\) 처럼 해석 가능한 형태를 띤다.

직관: Newton-Raphson 이 “실제 지형의 곡률” 을 따라가는 등산이라면, Fisher scoring 은 “모형이 예측한 평균 곡률” 을 따라가는 등산이다. 진짜 지형은 관측 잡음에 흔들리지만, 예측 지형은 매끄러워 넘어지지 않는다. 이 한 줄의 아이디어가 40 년 뒤 모든 GLM 소프트웨어의 기본 엔진이 된다.

3.4 후속

Finney (1971) 는 프로빗·로짓·로그-로그 링크에 대한 Fisher scoring 을 단일 교과서 절차로 정리했다. 이 책이 실무 통계학자에게 scoring 을 보급한 매개였다.

4 Cox (1970) — 로지스틱 회귀의 독립적 기초

GLM 의 관점에서 보면 로지스틱 회귀는 “이항 + logit 링크 + 지수족” 의 한 사례다. 하지만 Cox 의 The Analysis of Binary Data (1970) 는 GLM 이 존재하기 전에 로지스틱을 완전한 통계 방법론으로 확립했다.

4.1 기여 세 가지

로짓 척도의 해석: 회귀계수가 로그 오즈비 (log odds ratio) 로 직접 해석된다는 사실을 체계화.
조건부 우도 (conditional likelihood): 층화 연구에서 층별 절편을 소거해 주효과만 추정하는 방법 — 후일 Cox 비례위험 모형의 부분우도로 확장.
이항 자료의 진단: Hosmer–Lemeshow 이전의 적합도 진단 아이디어 제시.

4.2 왜 중요했는가

Nelder-Wedderburn (1972) 가 “이항도 GLM 의 특수 사례” 라고 묶기 2년 전에, Cox 는 이항 회귀의 핵심 기법(로짓 해석·조건부 우도)을 독립적으로 완성해 두었다. GLM 이론은 로지스틱을 흡수 했을 뿐, 만든 것이 아니다.

직관: Cox 의 책은 “이항 데이터 실전 매뉴얼”, GLM 은 “이항이 어디에 속하는지 보여 주는 지도”. 실전 기법은 Cox 에서 이미 완성됐고, GLM 은 그것을 상위 구조에서 다시 설명한다.

5 Nelder & Wedderburn (1972) — 이름의 탄생

5.1 배경

1970 년대 초 통계학자들 손에는 다음 도구들이 따로 있었다.

정규 회귀 (Gauss, OLS)
로지스틱 회귀 (Cox, Berkson)
프로빗 회귀 (Bliss, Finney)
포아송 회귀 / 로그선형 모형 (Birch, Haberman)
감마 회귀 (reciprocal link, life-testing)

각각 자신의 문헌·교재·소프트웨어가 있었다. 통계 패키지는 프로그램마다 구현이 달랐다.

5.2 기여

Nelder-Wedderburn (J. Roy. Statist. Soc. A, 1972) 은 다음 세 가지를 한꺼번에 밝혔다.

공통 확률 구조: 위 모형들이 모두 선형 지수족 (linear exponential family) 의 사례다. \[f(y;\theta,\phi) = \exp\{(y\theta - b(\theta))/a(\phi) + c(y,\phi)\}\]
공통 평균 구조: 링크 함수 \(g\) 로 평균과 선형 예측자를 잇는다. \[g(\mu) = \eta = \mathbf{x}^\top\boldsymbol\beta\]
공통 추정 알고리즘: Fisher scoring 이 반복 재가중 최소제곱 (IRLS) 과 동치이며 모든 GLM 에 동일하게 적용된다.

이 논문이 “generalized linear model” 이라는 용어를 처음 제안했다.

5.3 왜 중요했는가

통계학에 “주기율표” 를 선물한 기여다. 멘델레예프가 원소를 새로 만든 게 아니라 이미 있던 원소 사이의 숨은 패턴을 드러냈듯, Nelder-Wedderburn 은 이미 있던 모형들의 공통 뼈대를 드러냈다. 결과는 세 가지다.

이론: 개별 모형의 정리 (예: MLE 일치성) 를 매번 새로 증명할 필요가 없어진다 — 지수족에서 한 번만 증명하면 모든 GLM 에 적용.
계산: 하나의 IRLS 엔진이 모든 GLM 을 처리. GLIM, S, R 의 glm(), Python 의 statsmodels.GLM 이 모두 같은 뼈대로 구현된다.
교수학습: “여러 회귀를 배우는” 대신 “한 프레임워크를 배우는” 방식이 가능해졌다. 이 교과서(McCullagh & Nelder, 1989) 가 그 실체다.

직관: 통합 자체가 새로운 기법을 만들지는 않았지만, 통합이 지수족에 새로 들어올 수 있는 분포를 찾는 프로그램을 열었다. 음이항·Tweedie·지수분산모형이 이 프로그램의 산물이다.

6 Dempster (1971) · Berk (1972) · Haberman (1977) — 선형 지수족의 기초

이 세 저자는 Nelder-Wedderburn 과 거의 동시대에 “선형 지수족 모형” 의 수학적 기초를 놓았다. 내용이 서로 다르다.

Dempster (1971): EM 알고리즘의 Dempster 와 동일인. 지수족의 기하학적 구조(convex dual, legendre transform) 을 통계 문제에 이식.
Berk (1972): 지수족의 충분통계량·완비성 을 일반화. MLE 유일성의 조건을 공식화.
Haberman (1977): 카운트·범주 데이터의 로그선형 모형 을 지수족 틀로 통일. Bishop–Fienberg–Holland (1975) 와 함께 “대응표 분석” 의 표준을 수립.

6.1 종합적 의의

Nelder-Wedderburn 이 알고리즘과 통합을 했다면, 이 세 저자는 그 통합이 수학적으로 정당한지 의 뒷받침을 제공했다. 오늘날 GLM 교재의 “왜 MLE 는 유일한가” 증명은 Berk, “왜 로그선형이 GLM 인가” 증명은 Haberman 의 결과를 원형으로 한다.

직관: Nelder-Wedderburn 이 건물을 지었다면, Dempster-Berk-Haberman 은 설계도의 역학 계산을 검증해 주었다.

7 Barndorff-Nielsen (1978) — 엄밀 수학적 처리

Information and Exponential Families in Statistical Theory (1978) 는 지수족 이론의 공식적 교과서다. 관심 있는 독자를 위한 “정밀 원전” 이다.

7.1 핵심 개념들

최소 지수족 (minimal exponential family): 충분통계량이 선형 독립인 가장 작은 표현.
정준 매개변수 공간 의 열린 볼록 집합으로서의 성격 — MLE 가 경계에 있는지 내부에 있는지가 수렴에 직결.
Legendre 변환 을 통한 평균 매개변수 ↔︎ 정준 매개변수 이중성.
Wedderburn 의 Anscombe 잔차 공식: \(A(\mu) = \int d\mu/V^{1/3}\) 의 명시적 증명이 이 책에서 처음 체계적으로 제공됨.

7.2 왜 중요했는가

McCullagh & Nelder (1989) 가 실용서라면 Barndorff-Nielsen (1978) 은 그 아래에 깔린 수학이다. GLM 의 정리 중 “기술적으로는 자명하다고 말하고 넘어가는” 부분의 진짜 증명이 이 책에 있다.

직관: 대부분의 응용 통계학자는 이 책을 직접 읽지 않지만, 오늘날의 강의 자료·소프트웨어 문서는 이 책의 정리를 어딘가에서 간접 인용한다. “지수족” 에 대한 현대적 이해의 토대.

8 Green (1984) · Jorgensen (1984) — 확장의 방향

1980 년대 초 GLM 은 응용에서 폭발적으로 쓰이기 시작했고, 두 사람이 후속 확장의 방향을 열었다.

8.1 Green (1984) — Penalized Likelihood 와 Semi-parametric GLM

Peter Green 은 J. Roy. Statist. Soc. B (1984) 에서 IRLS 를 벌점항으로 확장했다.

\[ \ell_p(\boldsymbol\beta, \mathbf{f}) \;=\; \ell(\boldsymbol\beta, \mathbf{f}) \;-\; \lambda\,\mathcal{P}(\mathbf{f}) \]

여기서 \(\mathbf{f}\) 는 비모수 함수, \(\mathcal{P}\) 는 곡률 벌점 (예: \(\int f''(x)^2 dx\)). 이 확장이 일반화 가법 모형 (GAM, generalized additive model) 의 계산 기초가 된다 (Hastie & Tibshirani, 1990).

직관: Green 은 “GLM 의 IRLS 엔진을 그대로 두고, 각 반복마다 smoothing spline 을 끼워 넣자” 는 아이디어를 실현했다. 통계학이 모수적 세계에서 반모수·비모수로 건너가는 다리가 여기서 놓였다.

8.2 Jorgensen (1984) — Exponential Dispersion Models

Bent Jorgensen 은 지수족을 분산 구조 중심으로 재구성 했다. 지수분산모형(exponential dispersion model) 은 다음 형태다.

\[ f(y;\mu,\phi) = a(y,\phi)\exp\{-\tfrac{1}{2\phi}d(y,\mu)\} \]

여기서 \(d(y,\mu)\) 는 이탈도 함수. 이 관점에서는 “분포” 보다 분산 함수 \(V(\mu)\) 가 원료이며, 분산함수 선택이 분포를 자동으로 결정한다.

8.3 Tweedie 계열의 탄생

Jorgensen 의 프레임워크에서 \(V(\mu) = \mu^p\) 로 두면 Tweedie 분포족 이 나온다.

\(p\)	분포
0	Normal
1	Poisson
\(1 < p < 2\)	Compound Poisson-Gamma (보험 청구액)
2	Gamma
3	Inverse Gaussian

\(1<p<2\) 영역이 특히 중요하다 — 0 이 덩어리로 있고 양수 꼬리가 있는 실제 데이터 (보험 손실액, 강우량, 구매 금액) 에 자연스럽게 맞는다. GLM 의 “표준 5종” 바깥에서 가장 영향력 있는 확장이 이 줄기에서 나왔다.

직관: Jorgensen 의 기여는 “분포 카탈로그” 에서 “분산함수 카탈로그” 로 관점을 옮긴 것이다. 분산함수가 자료에 맞는 분포를 지정하게 해, 분포를 먼저 고르고 그 안에서 맞추던 관행을 뒤집었다.

9 이 계보가 오늘날에 남긴 것

McCullagh & Nelder §2.6 은 여기서 끝나지만, 그 이후의 주요 확장은 이 계보의 직접적 자손이다.

1980s+ 확장	원류
Quasi-likelihood (Wedderburn 1974, McCullagh 1983)	Gauss 의 “분포 없이 분산 구조만” 아이디어. Ch.9 에서 다룸.
GEE (Liang & Zeger, 1986)	Quasi-likelihood + 종단 상관 구조
Mixed GLM / GLMM (Breslow & Clayton, 1993)	Fisher scoring + Laplace 근사
GAM (Hastie & Tibshirani, 1990)	Green (1984) 의 penalized IRLS
Tweedie compound-Poisson-Gamma 회귀	Jorgensen (1984)
Bayesian GLM (MCMC)	Dempster (1971) 의 지수족 기하학
Deep GLM / exponential family neural nets	Nelder–Wedderburn 의 “분포 + 링크” 추상화

직관: 현대의 많은 “세련된” 모형들이 결국 GLM 계보의 IRLS·지수족·연결함수 구조를 재활용 하고 있다. 딥러닝의 cross-entropy 손실은 이항 GLM 의 이탈도이며, Poisson negative log-likelihood 는 Poisson GLM 의 이탈도다. “loss 를 우도로 재해석” 하는 현대적 관점의 원천이 이 계보다.

10 읽기 지도 — 수준별 권장 경로

10.1 입문: 실무 적용이 목표

McCullagh & Nelder (1989) Ch.1, Ch.2 — 본 블로그 시리즈의 기초.
Faraway (2006) Extending the Linear Model with R — R 실습 중심.
Dobson & Barnett (2008) Introduction to GLM — 교과서로 인기.

10.2 중급: 이론을 보강하려는 대학원생

McCullagh & Nelder (1989) 전권.
Agresti (2015) Foundations of Linear and Generalized Linear Models.
Wood (2017) Generalized Additive Models — Green (1984) 의 확장.

10.3 고급: 수학적 엄밀성

Barndorff-Nielsen (1978) Information and Exponential Families.
Brown (1986) Fundamentals of Statistical Exponential Families — 통계학 응용에 초점.
Jorgensen (1997) The Theory of Dispersion Models — Tweedie 를 포함한 완전한 처리.

10.4 역사적 맥락

Nelder & Wedderburn (1972) 원논문 — 의외로 짧고 읽기 쉬움.
Fisher (1935) Bliss 부록 — scoring 의 원출처.
Stigler (1986) The History of Statistics — Gauss 부터 Fisher 까지의 회귀 전사.

11 요약

1935 · Fisher: scoring method 제안 — 모든 GLM 계산의 뿌리.
1970s · Cox·Dempster·Berk·Haberman: 개별 지수족 모형의 독립 기초. 통합 이전의 각개약진.
1972 · Nelder–Wedderburn: 지수족·연결함수·IRLS 통합 — “GLM” 명명. 주기율표 순간.
1978 · Barndorff-Nielsen: 엄밀 수학적 처리. 오늘날 지수족 증명의 원전.
1984 · Green: penalized IRLS → GAM 의 기초.
1984 · Jorgensen: 분산함수 중심의 재구성 → Tweedie 계열.
1980s–현재: quasi-likelihood, GEE, GLMM, GAM, Tweedie, 딥러닝 손실함수 — 모두 이 계보의 자손.

한 줄 요약: GLM 은 한 번에 만들어지지 않았다. 40 년의 지적 분업 — Fisher 의 알고리즘, Cox 의 응용, Nelder-Wedderburn 의 통합, Barndorff-Nielsen 의 엄밀화, Green-Jorgensen 의 확장 — 이 §2.6 의 한 페이지에 압축돼 있다. 이 페이지를 읽고 나면 GLM 교재 전체가 다르게 보인다.

12 관련 주제

선행 지식

관련 개념

GLM 적합 알고리즘 — IRLS 의 완전한 유도 — Fisher scoring 계보의 종착점
GLM 적합도 측정 — Deviance·Pearson
GLM 잔차 3종 — Pearson·Anscombe·Deviance — Anscombe (1953), Wedderburn 의 유산

후속 주제

Quasi-likelihood (McCullagh Ch.9) — Wedderburn (1974) 의 확장
GAM (Hastie & Tibshirani, 1990) — Green (1984) 의 확장
Tweedie regression — Jorgensen (1984) 의 확장