Kwangmin Kim - GLM의 기원과 배경 — McCullagh & Nelder Ch.1

1 왜 “역사”로 시작하는가

GLM 교과서는 대개 지수족과 IRLS 부터 시작한다. McCullagh & Nelder (1989) 는 다르다. 첫 장 전체를 역사와 철학에 할애한다. 이유가 있다. GLM 은 새로운 분포나 새로운 추정법을 발명한 게 아니라, 이미 60 년간 따로 굴러가던 probit, logit, log-linear, inverse polynomial, 생존 모형을 “같은 뼈대로 묶을 수 있다” 는 관찰에서 태어났다. 관찰의 의미를 이해하려면 묶이기 전의 조각들을 먼저 봐야 한다.

직관: 멘델레예프의 주기율표가 이미 알려진 원소들을 “주기적 패턴” 으로 재배치한 작업이었듯, Nelder-Wedderburn (1972) 의 GLM 도 이미 쓰이던 모형들을 “세 성분의 조합” 으로 재분류한 작업이다. 새로운 원소(분포)를 발견한 것이 아니라, 이미 있던 원소들 사이의 숨은 구조를 드러낸 것이다. Ch.1 은 이 “주기율표 이전의 시대” 를 복원한다.

2 통계 모형의 두 구성 성분

McCullagh & Nelder (1989, §1.1.1) 는 데이터 분석의 목적을 이렇게 정의한다.

“측정값을 보고 체계적 효과(systematic effects) 를 찾되, 나머지 변동은 확률적으로 기술한다.”

모든 통계 모형은 두 층으로 나뉜다.

층	역할	모형 요소
체계적 성분	공변량·처리 등으로 설명 가능한 변동	평균 구조, 선형예측자 \(\eta = \mathbf{x}^\top\boldsymbol{\beta}\)
확률 성분	설명 못한 우연·측정오차	오차 분포, \(\mathrm{Var}(Y_i)\)

직관: 데이터 분석은 “신호 + 잡음” 의 분해다. 신호를 설명 변수의 함수로 모형화하고, 잡음의 크기와 형태를 확률분포로 기술한다. 고전 선형모형은 신호=선형, 잡음=정규·등분산으로 고정했다. GLM 은 두 층을 모두 유연하게 선택하도록 열어 준다.

2.1 왜 이 분해가 필요한가

사람이 10 개 숫자는 쉽게 파악하지만 1000 개는 불가능하다. 모형은 “1000 개를 몇 개의 모수로 줄이는 요약 장치” 다. 좋은 요약은 두 가지를 해낸다.

주요 체계적 효과를 간결히 드러낸다
나머지 우연 변동의 크기와 구조를 명시한다

체계적 효과만 보고 잔차 분포를 무시하면 — 흔한 실수 — 표준오차·검정력·예측구간이 모두 틀어진다. GLM 이 분산함수 \(V(\mu)\) 를 전면에 올리는 이유가 여기 있다.

3 데이터를 본다는 것 (§1.1.1–1.1.2)

3.1 이론 = 패턴 생성기

McCullagh & Nelder 의 핵심 은유: 이론이란 모수로부터 숫자의 패턴을 생성하는 장치다.

\[ y = \alpha + \beta x \]

라는 모형은, 모수 쌍 \((\alpha, \beta)\) 를 주면 공변량 \(x_1, \ldots, x_n\) 에 대해

\[ \alpha + \beta x_1, \alpha + \beta x_2, \ldots, \alpha + \beta x_n \]

이라는 숫자 열을 결정론적으로 뽑아낸다. 거꾸로, 관측 데이터 \(y_1, \ldots, y_n\) 이 주어지면, 이 패턴을 가장 잘 재현하는 \((\hat\alpha, \hat\beta)\) 쌍을 찾는 것이 모형 적합이다.

직관: 모수는 “지도의 축척과 방향” 이다. \((\alpha, \beta)\) 값만 주면 \(x\) 축을 따라 뻗는 직선이 결정된다. 반대로 직선을 관찰하면 축척과 방향을 역산할 수 있다. 모수는 데이터의 압축 표현이다 — 1000 개의 \(y\) 가 2 개의 숫자로 요약된다.

3.2 모형 적합 = 불일치 최소화 (§1.1.3)

“가장 잘 재현한다” 를 수학적으로 정의하려면 불일치 측도(discrepancy) 가 필요하다. 대표적 세 측도:

\[ S_1(y, \hat y) = \sum_i |y_i - \hat y_i|, \quad S_2(y, \hat y) = \sum_i (y_i - \hat y_i)^2, \quad S_\infty(y, \hat y) = \max_i |y_i - \hat y_i| \]

고전적 최소제곱 은 \(S_2\) 를 선택한다. 편리성 말고도 이유가 있다: 관측값이 \(N(\mu, \sigma^2)\) 을 따른다고 가정하면 로그우도의 \(-2\ell\) 이

\[ -2\ell = \frac{1}{\sigma^2} \sum_i (y_i - \mu_i)^2 + \text{상수} \]

로 \(S_2\) 와 동일해진다. 즉 최소제곱 = 정규분포 가정 하의 최대우도(MLE). Gauss 의 통찰이다.

이 식이 함축하는 두 가지 (1989, §1.1.3):

단순 덧셈 — 각 \((y_i - \hat y_i)^2\) 가 독립으로 더해진다. 관측들이 독립 이거나 최소한 교환가능 해야 정당화된다
가중치 없음 — \(|y_i - \hat y_i|\) 의 가중이 \(\hat y\) 값에 무관하다. 분산이 평균과 무관 해야 정당화된다

직관: OLS 의 두 가정 (독립 + 등분산) 이 바로 이 \(S_2\) 수식에 박혀 있다. 카운트 데이터처럼 \(\mathrm{Var}(Y)=\mu\) 인 경우, 평균이 큰 구간의 관측이 자연스럽게 더 큰 제곱을 내놓으므로 OLS 는 평균이 큰 관측을 과대 가중 한다. 이 불일치가 “왜 포아송 회귀가 필요한가” 의 출발점이다.

3.3 가능도의 이중 해석

\(f(y; \mu) \propto \exp\{-(y-\mu)^2/(2\sigma^2)\}\) 를 두 가지로 읽을 수 있다.

\(\mu\) 고정, \(y\) 변수	\(y\) 고정, \(\mu\) 변수
밀도함수 (pdf)	가능도함수 (likelihood)
모수 아래 데이터의 발생 확률	데이터 아래 모수의 상대적 그럴듯함
표본공간 위의 적분=1	모수공간 위의 적분 \(\neq 1\)

이 구분은 Fisher 의 가장 중요한 공헌 중 하나다 (1922). 같은 수식이지만 누가 변수인가 에 따라 의미가 달라진다.

직관: \(x\)-\(y\) 평면에서 같은 직선을 “\(y\) 를 따라 움직이며 관찰” 하면 어떤 모양이 보이고, “\(x\) 를 따라 움직이며 관찰” 하면 다른 모양이 보인다. 가능도는 후자의 관점 — 모수 공간 위에 그려진 지형도 이고, 정점이 MLE, 곡률(피셔 정보) 이 추정 정밀도다.

4 좋은 모형이란 (§1.1.4)

McCullagh & Nelder 는 세 기준을 제시한다.

4.1 절약성 (Parsimony)

모수를 관측 수만큼 쓰면 완벽히 적합되지만 아무 것도 요약하지 못한다. 포화 모형(saturated model) 은 \(\hat\mu_i = y_i\) 로 데이터를 복제하지만, 새로운 데이터 예측에는 무용하다.

직관: 점 1000 개를 지나는 다항식을 999 차로 그리면 모든 점을 정확히 지나지만 점 사이의 모양은 예측 불가. 2 차 다항식은 몇 점을 놓치지만 추이를 드러낸다. 절약성은 “과적합” 의 반대 방향이며, 이탈도 차이 검정·AIC·BIC 등 이후의 모든 모형 선택 도구의 철학적 출발점이다.

4.2 범위 (Scope)

모형이 얼마나 넓은 조건에서 통하는가. 특정 데이터에 과적합된 모형은 같은 현상의 다른 데이터셋에서 무너진다.

직관: 임상시험 데이터에 완벽히 맞춘 회귀식이, 같은 질병·다른 병원 데이터에서 어긋나면 범위가 좁다. 범위는 절약성과 얽혀 있다 — 간결한 모형이 대개 범위가 넓다.

4.3 모수 불변성 (Parameter invariance)

외부 조건이 바뀌어도 모수 값이 동일 하거나 예측 가능하게 변한다. 예: 약효가 환자 연령대에 따라 일정하면 \(\beta\) 는 “외부조건 불변” 이다. 연령대에 따라 체계적으로 변하면 “교호작용” 으로 모형화할 수 있다.

직관: 화학 반응 속도 상수 \(k\) 는 온도가 고정되면 불변이다. 온도가 바뀌면 Arrhenius 식으로 예측 가능하게 변한다. 불변 모수가 많을수록 모형은 이론에 가까워진다.

4.4 Box 의 격언

“All models are wrong; some are useful.” — Box (1980)

McCullagh & Nelder 가 이 말을 인용하는 이유는 모형 적합과 모형 비판의 이중 과정을 강조하기 위해서다. 어떤 모형도 “진리” 가 아니므로, 잔차 진단·대안 모형 비교가 필수다.

직관: 뉴턴 역학도 상대성이론 관점에서는 틀린 모형이지만 대부분의 공학 문제에서 “유용” 하다. 통계 모형도 마찬가지 — 완벽보다 유용이 기준이다.

5 GLM 이전의 조각들 (§1.2)

Nelder-Wedderburn (1972) 이 통합하기 전까지, 다음 모형들은 각자 다른 문제에서 따로 태어나 따로 굴러갔다.

5.1 고전 선형모형 (§1.2.2) — Gauss & Legendre, 1805-1809

\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \varepsilon_i \sim N(0, \sigma^2) \]

1805 년 Legendre 가 최소제곱을 제안했고, 1809 년 Gauss 가 정규분포 오차로 이론화했다. 천문학 데이터 (행성 위치·밝기) 가 주된 응용이었다. 관측 오차가 주요 변동 원인이었으므로 등분산 가정이 자연스러웠다.

1823 년 Gauss 는 놀라운 사실을 보인다: 최소제곱의 핵심 성질은 정규분포가 아니라 등분산과 독립성 에만 의존한다. 불편추정량 중 최소분산이라는 Gauss-Markov 정리가 여기서 나온다.

직관: 정규분포는 편의를 위해 붙인 라벨일 뿐, OLS 가 작동하는 진짜 이유는 “분산 구조” 에 있다. 이 통찰이 150 년 뒤 Wedderburn (1974) 의 quasi-likelihood 로 부활한다 — 분포 전체를 몰라도 평균·분산 구조만 알면 추정이 가능하다는 결과. GLM 은 Gauss 의 유산을 직계 계승한다.

5.2 Fisher 와 실험 설계 (§1.2.3) — 1920s Rothamsted

Fisher 는 Rothamsted 농업시험장(1919-) 에서 요인실험(factorial experiments) 을 정립했다.

일요인(one-at-a-time) 실험: 한 번에 한 요인만 변화 → 교호작용 검출 불가
요인 실험: 모든 요인 조합을 교차 → 주효과 + 교호작용 분리 추정

요인 실험에서 설계행렬 \(\mathbf{X}\) 는 0·1 만 가진 지시행렬(incidence matrix) 이다. 이를 분산분석(ANOVA) 모형이라 부르며, 연속 공변량을 쓰는 회귀 와 대비된다.

직관: Fisher 는 “ANOVA 와 회귀가 본질적으로 같은 선형모형의 다른 얼굴” 임을 보았다. 이 통합이 GLM 의 원형이다. 오늘날 lm(y ~ factor(A) * x) 같은 모형 공식이 둘을 섞어 쓰는 게 자연스러운 이유다.

5.3 희석 검정 — 보완 로그-로그의 태생 (§1.2.4) — Fisher (1922)

감염 실험에서 용액을 2 배씩 희석해 각 농도마다 한천 플레이트를 여러 장 접종한다. 각 플레이트가 오염될지 여부를 센다.

\(x\) 번 희석 후 단위 부피당 감염체 수:

\[ \rho_x = \rho_0 / 2^x \]

부피 \(v\) 의 용액을 접종하면 플레이트당 기대 감염체 수가 \(\rho_x v\) 이고, 실제 감염체 수는 포아송 분포 \(\mathrm{Poi}(\rho_x v)\) 를 따른다. 플레이트가 감염되지 않을 확률 은 \(e^{-\rho_x v}\), 따라서

\[ \pi_x = \Pr(\text{감염}) = 1 - \exp(-\rho_x v) \]

양변에 \(\log(-\log(1-\cdot))\) 를 씌우면 놀랍게도 선형이 나온다:

\[ \log(-\log(1-\pi_x)) = \log v + \log\rho_0 - x\log 2 \]

즉 \(\eta = \alpha + \beta x\) 꼴이다 (\(\alpha = \log v + \log\rho_0\), \(\beta = -\log 2\)).

직관: \(\pi_x\) 자체는 0-1 에 갇혀 비선형이지만, cloglog 변환 후에는 \(x\) 의 선형함수가 된다. 이것이 역사상 최초의 비정규 연결함수다. “평균이 아니라 평균의 변환” 이 선형인 구조를 Fisher 가 1922 년에 이미 사용했다.

Fisher 는 이 모형에 MLE 를 적용했고, 피셔 정보량 개념까지 동원했다. 즉 닫힌 해가 없는 비선형 모형의 MLE를 그는 1922 년에 이미 해결했다. GLM 추정 이론의 뿌리가 여기 있다.

5.4 Probit 분석 (§1.2.5) — Bliss (1935)

독성학에서 독소 용량 \(x\) 에 따른 생존률 \(\pi_x\) 를 모형화한다.

\[ \pi_x = \Phi(\alpha + \beta x) \]

\(\Phi\) 는 표준정규 누적함수. 즉 \(\Phi^{-1}(\pi_x) = \alpha + \beta x\) 가 선형이다. 이 변환을 probit 이라 부른다.

왜 \(\Phi^{-1}\) 인가: 가상의 “임계 감수성” 이 정규분포를 따른다고 가정하면, 용량이 임계값을 넘는 개체가 죽는 구조가 된다. 개체별 임계값의 CDF 가 바로 \(\Phi\) 다.

직관: probit 은 “개체마다 다른 내성” 을 가정한 생물학적 해석이 있다. logit 은 나중에 계산 편의 로 대체되었고 해석이 약간 달라졌다 (로그 오즈 = 선형).

probit 모형의 두 특징:

비선형 연결: \(\pi_x\) 가 아니라 \(\Phi^{-1}(\pi_x)\) 가 \(x\) 의 선형함수
평균-의존 분산: \(\mathrm{Var}(Y/m) = \pi(1-\pi)/m\) 이 평균에 따라 변함. \(\pi=0.5\) 에서 최대, 극단에서 최소

두 번째 특징이 결정적이다. 고전 OLS 는 분산이 평균에 의존하는 것을 다룰 수 없다. GLM 은 분산함수 \(V(\mu) = \mu(1-\mu)\) 를 명시적으로 도입해 이 문제를 해결한다.

5.5 Logit 모형 (§1.2.6) — Berkson (1944), Dyke-Patterson (1952)

Dyke & Patterson (1952) 은 암 지식 조사 데이터에서 “신문·라디오·독서·강의” 네 정보원에 대한 노출 여부를 요인 모형으로 분석했다.

\[ \log\frac{\pi}{1-\pi} = \beta_0 + \sum_j \beta_j x_j + \sum_{j<k}\beta_{jk} x_j x_k + \cdots \]

즉 로그 오즈(log-odds) 가 요인들의 가산모형. 이것이 로지스틱 회귀 의 태생이다.

당시 이 분석을 수작업으로 며칠 걸려 수행했다. 오늘 컴퓨터는 몇 초 안에 푼다. GLM 의 보급은 하드웨어 발전과 맞물려 있다.

직관: probit 과 logit 은 거의 구별되지 않을 정도로 비슷한 S-곡선을 그린다 (logit 이 꼬리가 약간 두껍다). 역사적으로 probit 이 먼저 (Bliss 1935), logit 이 뒤 (Berkson 1944). logit 이 현대 표준이 된 이유: (i) 정준연결이라 대수가 깔끔하고, (ii) 오즈비 해석이 직관적이며, (iii) 연산이 약간 더 쉽다.

5.6 로그선형 모형 — 카운트 (§1.2.7)

카운트 데이터 (\(y = 0, 1, 2, \ldots\), 상한 없음) 의 기본 분포는 포아송이다. 평균 \(\mu > 0\) 만 모수로 가진다.

고전 선형모형을 포아송으로 옮기려면 문제가 생긴다: \(\mu = \mathbf{x}^\top\boldsymbol{\beta}\) 가 음수를 낼 수 있다. 해결책:

	고전 선형모형	로그선형모형
체계적 효과	가산	승산
오차 분포	정규	포아송
제약	없음	\(\mu > 0\)

\(\mu = \exp(\eta)\) 로 놓고 \(\eta = \mathbf{x}^\top\boldsymbol{\beta}\) 를 선형화한다. 로그 가 자연스러운 연결이다.

직관: 포아송 평균에 음수가 나올 수 없다는 물리적 제약을 모형 구조에 박아 넣은 것. 공변량이 극단값이어도 \(\mu\) 가 양수로 유지된다. 가산에서 승산으로의 전환은 로그를 취한 순간 이루어진다 — \(\log\mu = \beta_1 + \beta_2\) 는 \(\mu = e^{\beta_1} \cdot e^{\beta_2}\).

분할표·사회과학 범주형 데이터 분석의 중심 도구가 되었다.

5.7 역 다항식 (§1.2.8) — Nelder (1966)

다항식 \(\mu = \sum \beta_j x^j\) 은 성장곡선 등에 쓰였지만 단점이 많다.

외삽 시 무한대로 발산
음수 예측 가능
점근선 표현 불가

Nelder 는 Michaelis-Menten 유형의 역(inverse) 다항식

\[ x/y = \alpha + \beta x \quad \Longleftrightarrow \quad y = \frac{x}{\alpha + \beta x} \]

을 일반화했다. \(x\to\infty\) 에서 \(y \to 1/\beta\) (점근선 존재).

이후 변동계수 \(\sigma/\mu\) 가 일정 한 연속 데이터 모형 (감마 회귀) 의 기초가 된다 (Ch.8). GLM 의 “감마 패밀리” 가 여기서 나온다.

직관: 다항식은 “자유도가 높은 만능 곡선”, 역 다항식은 “점근선이 있는 구조적 곡선”. 생물 성장·효소 반응 속도 등 자연적 상한 이 있는 현상에 더 적합하다.

5.8 생존 데이터 (§1.2.9) — Aitkin & Clayton (1980)

의료 임상에서 생존 시간 과 중도절단(censoring) 이 동시에 나타난다. Aitkin & Clayton 은 피스와이즈 상수 위험(piecewise constant hazard) 가정 하에서 생존 분석을 포아송 회귀 로 환원할 수 있음을 보였다.

직관: 시간축을 잘게 나누고 각 구간에서 “사건이 일어났는가” 를 0/1 카운트로 취급하면, Cox 비례위험의 특수 형태가 포아송 GLM 과 동치가 된다. 이 연결이 생존 분석도 GLM 우산 아래로 들어오게 했다 (McCullagh & Nelder, 1989, Ch.13).

6 세 조각을 공통 뼈대로 (§1.2.1, Nelder-Wedderburn, 1972)

위 사례들은 얼핏 달라 보이지만 세 가지 공통 구조를 가진다.

구조	cloglog 희석	probit	logit	log-linear	identity
분포	이항	이항	이항	포아송	정규
선형예측자 \(\eta\)	\(\alpha + \beta x\)	\(\alpha + \beta x\)	\(\mathbf{x}^\top\boldsymbol{\beta}\)	\(\mathbf{x}^\top\boldsymbol{\beta}\)	\(\mathbf{x}^\top\boldsymbol{\beta}\)
연결 \(g(\mu)=\eta\)	\(\log(-\log(1-\mu))\)	\(\Phi^{-1}(\mu)\)	\(\log\tfrac{\mu}{1-\mu}\)	\(\log\mu\)	\(\mu\)

Nelder & Wedderburn (1972) 의 통찰: 이 모든 모형은 (분포 + 선형예측자 + 연결) 의 세 성분 선택으로 표현된다. 세 성분이 독립적으로 선택 가능하며, 공통 추정 알고리즘(IRLS)· 공통 적합도 지표(이탈도) 로 다룰 수 있다.

이 통합이 가져온 실질적 효과:

이론 — probit·logit·log-linear 의 추론 이론이 하나로 통합 (MLE, Wald, 이탈도 기반 우도비)
구현 — 하나의 IRLS 엔진이 모든 GLM 을 자동 적합 (R 의 glm(), Python 의 statsmodels.GLM)
확장 — GLMM·quasi-likelihood·GAM 등 후속 확장이 같은 뼈대 위에 쌓임

직관: 수소·산소·탄소가 각자 따로 연구되다가 원자 번호라는 공통 좌표 로 재배치되면서 주기율표가 태어났다. GLM 은 확률분포들의 주기율표다. 좌표축은 “분포·연결·선형예측자” 세 개다.

7 응용 분야 (역사적 맥락)

분야	원 모형	시기	오늘날 GLM 관점
천문 관측	최소제곱	1805-1809	정규 + identity
농업 실험 설계	ANOVA, 요인 실험	1920s	정규 + identity + 요인
미생물 희석 검정	cloglog	1922	이항 + cloglog
독성학 생존률	probit	1935	이항 + probit
의학·역학 범주형	logit	1944-1952	이항 + logit
사회과학 분할표	로그선형	1960s-	포아송 + log
효소 속도론·성장곡선	역 다항식	1966	감마 + log/inverse
임상 생존 분석	Cox / piecewise	1972-1980	포아송 + log (시간 구간)

직관: 20 세기 통계학의 상당 부분이 “같은 구조” 를 서로 다른 이름으로 재발명하고 있었다. Nelder-Wedderburn 이 1972 년에 그 중복성을 드러냈다.

8 예시: 희석 검정의 cloglog 를 손으로 따라가기

Fisher (1922) 의 데이터 형식을 단순화해 보자. 희석 농도 \(x \in \{0, 1, 2, 3, 4\}\) 에서 각각 10 장의 플레이트를 접종한다. 감염된 플레이트 수 \(r_x\):

\(x\)	\(r_x/10\)	\(\pi_x\) 관측값
0	10/10	1.00
1	9/10	0.90
2	7/10	0.70
3	4/10	0.40
4	1/10	0.10

cloglog 변환: \(\hat\eta_x = \log(-\log(1-\hat\pi_x))\).

\(x\)	\(1-\pi_x\)	\(-\log(1-\pi_x)\)	\(\eta_x\)
0	0.00	\(\infty\)	—
1	0.10	2.303	0.834
2	0.30	1.204	0.186
3	0.60	0.511	\(-0.672\)
4	0.90	0.105	\(-2.250\)

\(\eta_x\) 를 \(x\) 에 대해 산점도로 그리면 기울기 \(\approx -\log 2 = -0.693\) 인 직선에 가깝다. 이론값과 일치한다.

해석: cloglog 변환 없이 \(\pi_x\) 자체에 직선을 맞추려 하면 \(x=0\) 근처에서 \(\pi > 1\) 이 예측되고 \(x\) 가 클 때 \(\pi < 0\) 으로 새어 나간다. cloglog 변환이 이 경계를 자동으로 처리한다.

9 코드 예시

9.1 Python: cloglog 로 희석 검정 GLM

import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.genmod.families.links import CLogLog

# 데이터 (희석 농도 x, 감염 플레이트 수 r, 전체 m=10)
df = pd.DataFrame({
    "x":   [0, 1, 2, 3, 4],
    "r":   [10, 9, 7, 4, 1],
    "m":   [10, 10, 10, 10, 10],
})
df["fail"] = df["m"] - df["r"]  # 감염 안 된 플레이트

# 이항 반응: 성공(감염), 실패(비감염)
# 연결함수 = cloglog
X = sm.add_constant(df["x"])
y = df[["r", "fail"]].values  # (성공, 실패) 형태

model = sm.GLM(y, X, family=sm.families.Binomial(link=CLogLog()))
result = model.fit()
print(result.summary())

# 기울기 beta ≈ -log(2) = -0.693 이 나와야 함

해석: link=CLogLog() 한 줄로 Fisher (1922) 의 모형을 재현한다. 오늘날 몇 초면 끝나는 일이 당대에는 며칠이 걸렸다는 점이 GLM 통합 + 컴퓨팅 혁명의 합작 효과를 보여 준다.

9.2 R: 동일 모형

df <- data.frame(
  x    = 0:4,
  r    = c(10, 9, 7, 4, 1),
  m    = rep(10, 5)
)
df$fail <- df$m - df$r

fit <- glm(cbind(r, fail) ~ x,
           family = binomial(link = "cloglog"),
           data = df)
summary(fit)
# Coefficients:
#             Estimate Std. Error
# (Intercept)  ~~   ...
# x          ≈ -0.693  ...

family = binomial(link = "cloglog") 이 Fisher 의 1922 년 모형이다. 같은 구문으로 link = "logit", link = "probit" 로 바꾸면 Berkson/Bliss 의 모형이 된다 — GLM 통합의 실무적 가치.

10 요약 정리

GLM 은 1805 년 Gauss-Legendre 의 최소제곱에서 1972 년 Nelder-Wedderburn 의 통합 논문까지 170 년에 걸친 개별 사례들의 재정렬이다
통계 모형은 체계적 성분 + 확률 성분 의 분해이며, 좋은 모형의 기준은 절약성·범위·모수 불변성 이다
GLM 이전에는 cloglog(Fisher 1922), probit(Bliss 1935), logit(Berkson 1944), 로그선형(1960s), 역다항식(Nelder 1966) 이 서로 다른 응용 맥락에서 독립적으로 태어났다
이들의 공통 구조는 “분포 + 선형예측자 + 연결함수” 세 성분의 조합으로 드러난다. Nelder-Wedderburn (1972) 이 이를 명시화하고 공통 추정(IRLS)·공통 적합도(이탈도) 이론을 구축했다
Ch.1 의 핵심 메시지: GLM 은 새 모형이 아니라 이미 있던 모형들 사이의 숨은 좌표계다. 이후 Ch.2 에서 이 좌표계를 형식적으로 정의한다

11 관련 주제

후속 포스트

GLM 이론 기초 — Ch.2 의 형식적 정의: 지수 분산족, 정준연결, 이탈도, IRLS
GLM 응용 통합 — t-test·ANOVA·로지스틱·포아송 회귀의 실무 통합 관점
Logistic Regression: The Model — 이항 GLM 의 구체 사례
Logistic Regression: Estimation — IRLS·Newton-Raphson

선행 지식

지수족 (Exponential Family) — GLM 확률 성분의 수학적 기반
최대우도추정 (MLE) — Fisher 의 가능도 이론
다중 선형 회귀 — GLM 의 원형

12 참고문헌

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. Ch.1.
Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal Statistical Society. Series A, 135(3), 370–384.
Fisher, R. A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A, 222, 309–368.
Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22(1), 134–167.
Berkson, J. (1944). Application of the logistic function to bio-assay. Journal of the American Statistical Association, 39(227), 357–365.
Dyke, G. V., & Patterson, H. D. (1952). Analysis of factorial arrangements when the data are proportions. Biometrics, 8(1), 1–12.
Nelder, J. A. (1966). Inverse polynomials, a useful group of multi-factor response functions. Biometrics, 22(1), 128–141.
Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models, and the Gauss-Newton method. Biometrika, 61(3), 439–447.
Aitkin, M., & Clayton, D. (1980). The fitting of exponential, Weibull and extreme value distributions to complex censored survival data using GLIM. Applied Statistics, 29(2), 156–163.
Box, G. E. P. (1980). Sampling and Bayes’ inference in scientific modelling and robustness. JRSS A, 143(4), 383–430.
Stigler, S. M. (1986). The History of Statistics. Harvard University Press.