1 왜 “역사”로 시작하는가
GLM 교과서는 대개 지수족과 IRLS 부터 시작한다. McCullagh & Nelder (1989) 는 다르다. 첫 장 전체를 역사와 철학에 할애한다. 이유가 있다. GLM 은 새로운 분포나 새로운 추정법을 발명한 게 아니라, 이미 60 년간 따로 굴러가던 probit, logit, log-linear, inverse polynomial, 생존 모형을 “같은 뼈대로 묶을 수 있다” 는 관찰에서 태어났다. 관찰의 의미를 이해하려면 묶이기 전의 조각들을 먼저 봐야 한다.
직관: 멘델레예프의 주기율표가 이미 알려진 원소들을 “주기적 패턴” 으로 재배치한 작업이었듯, Nelder-Wedderburn (1972) 의 GLM 도 이미 쓰이던 모형들을 “세 성분의 조합” 으로 재분류한 작업이다. 새로운 원소(분포)를 발견한 것이 아니라, 이미 있던 원소들 사이의 숨은 구조를 드러낸 것이다. Ch.1 은 이 “주기율표 이전의 시대” 를 복원한다.
2 통계 모형의 두 구성 성분
McCullagh & Nelder (1989, §1.1.1) 는 데이터 분석의 목적을 이렇게 정의한다.
“측정값을 보고 체계적 효과(systematic effects) 를 찾되, 나머지 변동은 확률적으로 기술한다.”
모든 통계 모형은 두 층으로 나뉜다.
| 층 | 역할 | 모형 요소 |
|---|---|---|
| 체계적 성분 | 공변량·처리 등으로 설명 가능한 변동 | 평균 구조, 선형예측자 \(\eta = \mathbf{x}^\top\boldsymbol{\beta}\) |
| 확률 성분 | 설명 못한 우연·측정오차 | 오차 분포, \(\mathrm{Var}(Y_i)\) |
직관: 데이터 분석은 “신호 + 잡음” 의 분해다. 신호를 설명 변수의 함수로 모형화하고, 잡음의 크기와 형태를 확률분포로 기술한다. 고전 선형모형은 신호=선형, 잡음=정규·등분산으로 고정했다. GLM 은 두 층을 모두 유연하게 선택하도록 열어 준다.
2.1 왜 이 분해가 필요한가
사람이 10 개 숫자는 쉽게 파악하지만 1000 개는 불가능하다. 모형은 “1000 개를 몇 개의 모수로 줄이는 요약 장치” 다. 좋은 요약은 두 가지를 해낸다.
- 주요 체계적 효과를 간결히 드러낸다
- 나머지 우연 변동의 크기와 구조를 명시한다
체계적 효과만 보고 잔차 분포를 무시하면 — 흔한 실수 — 표준오차·검정력·예측구간이 모두 틀어진다. GLM 이 분산함수 \(V(\mu)\) 를 전면에 올리는 이유가 여기 있다.
3 데이터를 본다는 것 (§1.1.1–1.1.2)
3.1 이론 = 패턴 생성기
McCullagh & Nelder 의 핵심 은유: 이론이란 모수로부터 숫자의 패턴을 생성하는 장치다.
\[ y = \alpha + \beta x \]
라는 모형은, 모수 쌍 \((\alpha, \beta)\) 를 주면 공변량 \(x_1, \ldots, x_n\) 에 대해
\[ \alpha + \beta x_1, \alpha + \beta x_2, \ldots, \alpha + \beta x_n \]
이라는 숫자 열을 결정론적으로 뽑아낸다. 거꾸로, 관측 데이터 \(y_1, \ldots, y_n\) 이 주어지면, 이 패턴을 가장 잘 재현하는 \((\hat\alpha, \hat\beta)\) 쌍을 찾는 것이 모형 적합이다.
직관: 모수는 “지도의 축척과 방향” 이다. \((\alpha, \beta)\) 값만 주면 \(x\) 축을 따라 뻗는 직선이 결정된다. 반대로 직선을 관찰하면 축척과 방향을 역산할 수 있다. 모수는 데이터의 압축 표현이다 — 1000 개의 \(y\) 가 2 개의 숫자로 요약된다.
3.2 모형 적합 = 불일치 최소화 (§1.1.3)
“가장 잘 재현한다” 를 수학적으로 정의하려면 불일치 측도(discrepancy) 가 필요하다. 대표적 세 측도:
\[ S_1(y, \hat y) = \sum_i |y_i - \hat y_i|, \quad S_2(y, \hat y) = \sum_i (y_i - \hat y_i)^2, \quad S_\infty(y, \hat y) = \max_i |y_i - \hat y_i| \]
고전적 최소제곱 은 \(S_2\) 를 선택한다. 편리성 말고도 이유가 있다: 관측값이 \(N(\mu, \sigma^2)\) 을 따른다고 가정하면 로그우도의 \(-2\ell\) 이
\[ -2\ell = \frac{1}{\sigma^2} \sum_i (y_i - \mu_i)^2 + \text{상수} \]
로 \(S_2\) 와 동일해진다. 즉 최소제곱 = 정규분포 가정 하의 최대우도(MLE). Gauss 의 통찰이다.
이 식이 함축하는 두 가지 (1989, §1.1.3):
- 단순 덧셈 — 각 \((y_i - \hat y_i)^2\) 가 독립으로 더해진다. 관측들이 독립 이거나 최소한 교환가능 해야 정당화된다
- 가중치 없음 — \(|y_i - \hat y_i|\) 의 가중이 \(\hat y\) 값에 무관하다. 분산이 평균과 무관 해야 정당화된다
직관: OLS 의 두 가정 (독립 + 등분산) 이 바로 이 \(S_2\) 수식에 박혀 있다. 카운트 데이터처럼 \(\mathrm{Var}(Y)=\mu\) 인 경우, 평균이 큰 구간의 관측이 자연스럽게 더 큰 제곱을 내놓으므로 OLS 는 평균이 큰 관측을 과대 가중 한다. 이 불일치가 “왜 포아송 회귀가 필요한가” 의 출발점이다.
3.3 가능도의 이중 해석
\(f(y; \mu) \propto \exp\{-(y-\mu)^2/(2\sigma^2)\}\) 를 두 가지로 읽을 수 있다.
| \(\mu\) 고정, \(y\) 변수 | \(y\) 고정, \(\mu\) 변수 |
|---|---|
| 밀도함수 (pdf) | 가능도함수 (likelihood) |
| 모수 아래 데이터의 발생 확률 | 데이터 아래 모수의 상대적 그럴듯함 |
| 표본공간 위의 적분=1 | 모수공간 위의 적분 \(\neq 1\) |
이 구분은 Fisher 의 가장 중요한 공헌 중 하나다 (1922). 같은 수식이지만 누가 변수인가 에 따라 의미가 달라진다.
직관: \(x\)-\(y\) 평면에서 같은 직선을 “\(y\) 를 따라 움직이며 관찰” 하면 어떤 모양이 보이고, “\(x\) 를 따라 움직이며 관찰” 하면 다른 모양이 보인다. 가능도는 후자의 관점 — 모수 공간 위에 그려진 지형도 이고, 정점이 MLE, 곡률(피셔 정보) 이 추정 정밀도다.
4 좋은 모형이란 (§1.1.4)
McCullagh & Nelder 는 세 기준을 제시한다.
4.1 절약성 (Parsimony)
모수를 관측 수만큼 쓰면 완벽히 적합되지만 아무 것도 요약하지 못한다. 포화 모형(saturated model) 은 \(\hat\mu_i = y_i\) 로 데이터를 복제하지만, 새로운 데이터 예측에는 무용하다.
직관: 점 1000 개를 지나는 다항식을 999 차로 그리면 모든 점을 정확히 지나지만 점 사이의 모양은 예측 불가. 2 차 다항식은 몇 점을 놓치지만 추이를 드러낸다. 절약성은 “과적합” 의 반대 방향이며, 이탈도 차이 검정·AIC·BIC 등 이후의 모든 모형 선택 도구의 철학적 출발점이다.
4.2 범위 (Scope)
모형이 얼마나 넓은 조건에서 통하는가. 특정 데이터에 과적합된 모형은 같은 현상의 다른 데이터셋에서 무너진다.
직관: 임상시험 데이터에 완벽히 맞춘 회귀식이, 같은 질병·다른 병원 데이터에서 어긋나면 범위가 좁다. 범위는 절약성과 얽혀 있다 — 간결한 모형이 대개 범위가 넓다.
4.3 모수 불변성 (Parameter invariance)
외부 조건이 바뀌어도 모수 값이 동일 하거나 예측 가능하게 변한다. 예: 약효가 환자 연령대에 따라 일정하면 \(\beta\) 는 “외부조건 불변” 이다. 연령대에 따라 체계적으로 변하면 “교호작용” 으로 모형화할 수 있다.
직관: 화학 반응 속도 상수 \(k\) 는 온도가 고정되면 불변이다. 온도가 바뀌면 Arrhenius 식으로 예측 가능하게 변한다. 불변 모수가 많을수록 모형은 이론에 가까워진다.
4.4 Box 의 격언
“All models are wrong; some are useful.” — Box (1980)
McCullagh & Nelder 가 이 말을 인용하는 이유는 모형 적합과 모형 비판의 이중 과정을 강조하기 위해서다. 어떤 모형도 “진리” 가 아니므로, 잔차 진단·대안 모형 비교가 필수다.
직관: 뉴턴 역학도 상대성이론 관점에서는 틀린 모형이지만 대부분의 공학 문제에서 “유용” 하다. 통계 모형도 마찬가지 — 완벽보다 유용이 기준이다.
5 GLM 이전의 조각들 (§1.2)
Nelder-Wedderburn (1972) 이 통합하기 전까지, 다음 모형들은 각자 다른 문제에서 따로 태어나 따로 굴러갔다.
5.1 고전 선형모형 (§1.2.2) — Gauss & Legendre, 1805-1809
\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, \quad \varepsilon_i \sim N(0, \sigma^2) \]
1805 년 Legendre 가 최소제곱을 제안했고, 1809 년 Gauss 가 정규분포 오차로 이론화했다. 천문학 데이터 (행성 위치·밝기) 가 주된 응용이었다. 관측 오차가 주요 변동 원인이었으므로 등분산 가정이 자연스러웠다.
1823 년 Gauss 는 놀라운 사실을 보인다: 최소제곱의 핵심 성질은 정규분포가 아니라 등분산과 독립성 에만 의존한다. 불편추정량 중 최소분산이라는 Gauss-Markov 정리가 여기서 나온다.
직관: 정규분포는 편의를 위해 붙인 라벨일 뿐, OLS 가 작동하는 진짜 이유는 “분산 구조” 에 있다. 이 통찰이 150 년 뒤 Wedderburn (1974) 의 quasi-likelihood 로 부활한다 — 분포 전체를 몰라도 평균·분산 구조만 알면 추정이 가능하다는 결과. GLM 은 Gauss 의 유산을 직계 계승한다.
5.2 Fisher 와 실험 설계 (§1.2.3) — 1920s Rothamsted
Fisher 는 Rothamsted 농업시험장(1919-) 에서 요인실험(factorial experiments) 을 정립했다.
- 일요인(one-at-a-time) 실험: 한 번에 한 요인만 변화 → 교호작용 검출 불가
- 요인 실험: 모든 요인 조합을 교차 → 주효과 + 교호작용 분리 추정
요인 실험에서 설계행렬 \(\mathbf{X}\) 는 0·1 만 가진 지시행렬(incidence matrix) 이다. 이를 분산분석(ANOVA) 모형이라 부르며, 연속 공변량을 쓰는 회귀 와 대비된다.
직관: Fisher 는 “ANOVA 와 회귀가 본질적으로 같은 선형모형의 다른 얼굴” 임을 보았다. 이 통합이 GLM 의 원형이다. 오늘날 lm(y ~ factor(A) * x) 같은 모형 공식이 둘을 섞어 쓰는 게 자연스러운 이유다.
5.3 희석 검정 — 보완 로그-로그의 태생 (§1.2.4) — Fisher (1922)
감염 실험에서 용액을 2 배씩 희석해 각 농도마다 한천 플레이트를 여러 장 접종한다. 각 플레이트가 오염될지 여부를 센다.
\(x\) 번 희석 후 단위 부피당 감염체 수:
\[ \rho_x = \rho_0 / 2^x \]
부피 \(v\) 의 용액을 접종하면 플레이트당 기대 감염체 수가 \(\rho_x v\) 이고, 실제 감염체 수는 포아송 분포 \(\mathrm{Poi}(\rho_x v)\) 를 따른다. 플레이트가 감염되지 않을 확률 은 \(e^{-\rho_x v}\), 따라서
\[ \pi_x = \Pr(\text{감염}) = 1 - \exp(-\rho_x v) \]
양변에 \(\log(-\log(1-\cdot))\) 를 씌우면 놀랍게도 선형이 나온다:
\[ \log(-\log(1-\pi_x)) = \log v + \log\rho_0 - x\log 2 \]
즉 \(\eta = \alpha + \beta x\) 꼴이다 (\(\alpha = \log v + \log\rho_0\), \(\beta = -\log 2\)).
직관: \(\pi_x\) 자체는 0-1 에 갇혀 비선형이지만, cloglog 변환 후에는 \(x\) 의 선형함수가 된다. 이것이 역사상 최초의 비정규 연결함수다. “평균이 아니라 평균의 변환” 이 선형인 구조를 Fisher 가 1922 년에 이미 사용했다.
Fisher 는 이 모형에 MLE 를 적용했고, 피셔 정보량 개념까지 동원했다. 즉 닫힌 해가 없는 비선형 모형의 MLE를 그는 1922 년에 이미 해결했다. GLM 추정 이론의 뿌리가 여기 있다.
5.4 Probit 분석 (§1.2.5) — Bliss (1935)
독성학에서 독소 용량 \(x\) 에 따른 생존률 \(\pi_x\) 를 모형화한다.
\[ \pi_x = \Phi(\alpha + \beta x) \]
\(\Phi\) 는 표준정규 누적함수. 즉 \(\Phi^{-1}(\pi_x) = \alpha + \beta x\) 가 선형이다. 이 변환을 probit 이라 부른다.
왜 \(\Phi^{-1}\) 인가: 가상의 “임계 감수성” 이 정규분포를 따른다고 가정하면, 용량이 임계값을 넘는 개체가 죽는 구조가 된다. 개체별 임계값의 CDF 가 바로 \(\Phi\) 다.
직관: probit 은 “개체마다 다른 내성” 을 가정한 생물학적 해석이 있다. logit 은 나중에 계산 편의 로 대체되었고 해석이 약간 달라졌다 (로그 오즈 = 선형).
probit 모형의 두 특징:
- 비선형 연결: \(\pi_x\) 가 아니라 \(\Phi^{-1}(\pi_x)\) 가 \(x\) 의 선형함수
- 평균-의존 분산: \(\mathrm{Var}(Y/m) = \pi(1-\pi)/m\) 이 평균에 따라 변함. \(\pi=0.5\) 에서 최대, 극단에서 최소
두 번째 특징이 결정적이다. 고전 OLS 는 분산이 평균에 의존하는 것을 다룰 수 없다. GLM 은 분산함수 \(V(\mu) = \mu(1-\mu)\) 를 명시적으로 도입해 이 문제를 해결한다.
5.5 Logit 모형 (§1.2.6) — Berkson (1944), Dyke-Patterson (1952)
Dyke & Patterson (1952) 은 암 지식 조사 데이터에서 “신문·라디오·독서·강의” 네 정보원에 대한 노출 여부를 요인 모형으로 분석했다.
\[ \log\frac{\pi}{1-\pi} = \beta_0 + \sum_j \beta_j x_j + \sum_{j<k}\beta_{jk} x_j x_k + \cdots \]
즉 로그 오즈(log-odds) 가 요인들의 가산모형. 이것이 로지스틱 회귀 의 태생이다.
당시 이 분석을 수작업으로 며칠 걸려 수행했다. 오늘 컴퓨터는 몇 초 안에 푼다. GLM 의 보급은 하드웨어 발전과 맞물려 있다.
직관: probit 과 logit 은 거의 구별되지 않을 정도로 비슷한 S-곡선을 그린다 (logit 이 꼬리가 약간 두껍다). 역사적으로 probit 이 먼저 (Bliss 1935), logit 이 뒤 (Berkson 1944). logit 이 현대 표준이 된 이유: (i) 정준연결이라 대수가 깔끔하고, (ii) 오즈비 해석이 직관적이며, (iii) 연산이 약간 더 쉽다.
5.6 로그선형 모형 — 카운트 (§1.2.7)
카운트 데이터 (\(y = 0, 1, 2, \ldots\), 상한 없음) 의 기본 분포는 포아송이다. 평균 \(\mu > 0\) 만 모수로 가진다.
고전 선형모형을 포아송으로 옮기려면 문제가 생긴다: \(\mu = \mathbf{x}^\top\boldsymbol{\beta}\) 가 음수를 낼 수 있다. 해결책:
| 고전 선형모형 | 로그선형모형 | |
|---|---|---|
| 체계적 효과 | 가산 | 승산 |
| 오차 분포 | 정규 | 포아송 |
| 제약 | 없음 | \(\mu > 0\) |
\(\mu = \exp(\eta)\) 로 놓고 \(\eta = \mathbf{x}^\top\boldsymbol{\beta}\) 를 선형화한다. 로그 가 자연스러운 연결이다.
직관: 포아송 평균에 음수가 나올 수 없다는 물리적 제약을 모형 구조에 박아 넣은 것. 공변량이 극단값이어도 \(\mu\) 가 양수로 유지된다. 가산에서 승산으로의 전환은 로그를 취한 순간 이루어진다 — \(\log\mu = \beta_1 + \beta_2\) 는 \(\mu = e^{\beta_1} \cdot e^{\beta_2}\).
분할표·사회과학 범주형 데이터 분석의 중심 도구가 되었다.
5.7 역 다항식 (§1.2.8) — Nelder (1966)
다항식 \(\mu = \sum \beta_j x^j\) 은 성장곡선 등에 쓰였지만 단점이 많다.
- 외삽 시 무한대로 발산
- 음수 예측 가능
- 점근선 표현 불가
Nelder 는 Michaelis-Menten 유형의 역(inverse) 다항식
\[ x/y = \alpha + \beta x \quad \Longleftrightarrow \quad y = \frac{x}{\alpha + \beta x} \]
을 일반화했다. \(x\to\infty\) 에서 \(y \to 1/\beta\) (점근선 존재).
이후 변동계수 \(\sigma/\mu\) 가 일정 한 연속 데이터 모형 (감마 회귀) 의 기초가 된다 (Ch.8). GLM 의 “감마 패밀리” 가 여기서 나온다.
직관: 다항식은 “자유도가 높은 만능 곡선”, 역 다항식은 “점근선이 있는 구조적 곡선”. 생물 성장·효소 반응 속도 등 자연적 상한 이 있는 현상에 더 적합하다.
5.8 생존 데이터 (§1.2.9) — Aitkin & Clayton (1980)
의료 임상에서 생존 시간 과 중도절단(censoring) 이 동시에 나타난다. Aitkin & Clayton 은 피스와이즈 상수 위험(piecewise constant hazard) 가정 하에서 생존 분석을 포아송 회귀 로 환원할 수 있음을 보였다.
직관: 시간축을 잘게 나누고 각 구간에서 “사건이 일어났는가” 를 0/1 카운트로 취급하면, Cox 비례위험의 특수 형태가 포아송 GLM 과 동치가 된다. 이 연결이 생존 분석도 GLM 우산 아래로 들어오게 했다 (McCullagh & Nelder, 1989, Ch.13).
6 세 조각을 공통 뼈대로 (§1.2.1, Nelder-Wedderburn, 1972)
위 사례들은 얼핏 달라 보이지만 세 가지 공통 구조를 가진다.
| 구조 | cloglog 희석 | probit | logit | log-linear | identity |
|---|---|---|---|---|---|
| 분포 | 이항 | 이항 | 이항 | 포아송 | 정규 |
| 선형예측자 \(\eta\) | \(\alpha + \beta x\) | \(\alpha + \beta x\) | \(\mathbf{x}^\top\boldsymbol{\beta}\) | \(\mathbf{x}^\top\boldsymbol{\beta}\) | \(\mathbf{x}^\top\boldsymbol{\beta}\) |
| 연결 \(g(\mu)=\eta\) | \(\log(-\log(1-\mu))\) | \(\Phi^{-1}(\mu)\) | \(\log\tfrac{\mu}{1-\mu}\) | \(\log\mu\) | \(\mu\) |
Nelder & Wedderburn (1972) 의 통찰: 이 모든 모형은 (분포 + 선형예측자 + 연결) 의 세 성분 선택으로 표현된다. 세 성분이 독립적으로 선택 가능하며, 공통 추정 알고리즘(IRLS)· 공통 적합도 지표(이탈도) 로 다룰 수 있다.
이 통합이 가져온 실질적 효과:
- 이론 — probit·logit·log-linear 의 추론 이론이 하나로 통합 (MLE, Wald, 이탈도 기반 우도비)
- 구현 — 하나의 IRLS 엔진이 모든 GLM 을 자동 적합 (R 의
glm(), Python 의statsmodels.GLM) - 확장 — GLMM·quasi-likelihood·GAM 등 후속 확장이 같은 뼈대 위에 쌓임
직관: 수소·산소·탄소가 각자 따로 연구되다가 원자 번호라는 공통 좌표 로 재배치되면서 주기율표가 태어났다. GLM 은 확률분포들의 주기율표다. 좌표축은 “분포·연결·선형예측자” 세 개다.
7 응용 분야 (역사적 맥락)
| 분야 | 원 모형 | 시기 | 오늘날 GLM 관점 |
|---|---|---|---|
| 천문 관측 | 최소제곱 | 1805-1809 | 정규 + identity |
| 농업 실험 설계 | ANOVA, 요인 실험 | 1920s | 정규 + identity + 요인 |
| 미생물 희석 검정 | cloglog | 1922 | 이항 + cloglog |
| 독성학 생존률 | probit | 1935 | 이항 + probit |
| 의학·역학 범주형 | logit | 1944-1952 | 이항 + logit |
| 사회과학 분할표 | 로그선형 | 1960s- | 포아송 + log |
| 효소 속도론·성장곡선 | 역 다항식 | 1966 | 감마 + log/inverse |
| 임상 생존 분석 | Cox / piecewise | 1972-1980 | 포아송 + log (시간 구간) |
직관: 20 세기 통계학의 상당 부분이 “같은 구조” 를 서로 다른 이름으로 재발명하고 있었다. Nelder-Wedderburn 이 1972 년에 그 중복성을 드러냈다.
8 예시: 희석 검정의 cloglog 를 손으로 따라가기
Fisher (1922) 의 데이터 형식을 단순화해 보자. 희석 농도 \(x \in \{0, 1, 2, 3, 4\}\) 에서 각각 10 장의 플레이트를 접종한다. 감염된 플레이트 수 \(r_x\):
| \(x\) | \(r_x/10\) | \(\pi_x\) 관측값 |
|---|---|---|
| 0 | 10/10 | 1.00 |
| 1 | 9/10 | 0.90 |
| 2 | 7/10 | 0.70 |
| 3 | 4/10 | 0.40 |
| 4 | 1/10 | 0.10 |
cloglog 변환: \(\hat\eta_x = \log(-\log(1-\hat\pi_x))\).
| \(x\) | \(1-\pi_x\) | \(-\log(1-\pi_x)\) | \(\eta_x\) |
|---|---|---|---|
| 0 | 0.00 | \(\infty\) | — |
| 1 | 0.10 | 2.303 | 0.834 |
| 2 | 0.30 | 1.204 | 0.186 |
| 3 | 0.60 | 0.511 | \(-0.672\) |
| 4 | 0.90 | 0.105 | \(-2.250\) |
\(\eta_x\) 를 \(x\) 에 대해 산점도로 그리면 기울기 \(\approx -\log 2 = -0.693\) 인 직선에 가깝다. 이론값과 일치한다.
해석: cloglog 변환 없이 \(\pi_x\) 자체에 직선을 맞추려 하면 \(x=0\) 근처에서 \(\pi > 1\) 이 예측되고 \(x\) 가 클 때 \(\pi < 0\) 으로 새어 나간다. cloglog 변환이 이 경계를 자동으로 처리한다.
9 코드 예시
9.1 Python: cloglog 로 희석 검정 GLM
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.genmod.families.links import CLogLog
# 데이터 (희석 농도 x, 감염 플레이트 수 r, 전체 m=10)
df = pd.DataFrame({
"x": [0, 1, 2, 3, 4],
"r": [10, 9, 7, 4, 1],
"m": [10, 10, 10, 10, 10],
})
df["fail"] = df["m"] - df["r"] # 감염 안 된 플레이트
# 이항 반응: 성공(감염), 실패(비감염)
# 연결함수 = cloglog
X = sm.add_constant(df["x"])
y = df[["r", "fail"]].values # (성공, 실패) 형태
model = sm.GLM(y, X, family=sm.families.Binomial(link=CLogLog()))
result = model.fit()
print(result.summary())
# 기울기 beta ≈ -log(2) = -0.693 이 나와야 함해석: link=CLogLog() 한 줄로 Fisher (1922) 의 모형을 재현한다. 오늘날 몇 초면 끝나는 일이 당대에는 며칠이 걸렸다는 점이 GLM 통합 + 컴퓨팅 혁명의 합작 효과를 보여 준다.
9.2 R: 동일 모형
df <- data.frame(
x = 0:4,
r = c(10, 9, 7, 4, 1),
m = rep(10, 5)
)
df$fail <- df$m - df$r
fit <- glm(cbind(r, fail) ~ x,
family = binomial(link = "cloglog"),
data = df)
summary(fit)
# Coefficients:
# Estimate Std. Error
# (Intercept) ~~ ...
# x ≈ -0.693 ...family = binomial(link = "cloglog") 이 Fisher 의 1922 년 모형이다. 같은 구문으로 link = "logit", link = "probit" 로 바꾸면 Berkson/Bliss 의 모형이 된다 — GLM 통합의 실무적 가치.
10 요약 정리
- GLM 은 1805 년 Gauss-Legendre 의 최소제곱에서 1972 년 Nelder-Wedderburn 의 통합 논문까지 170 년에 걸친 개별 사례들의 재정렬이다
- 통계 모형은 체계적 성분 + 확률 성분 의 분해이며, 좋은 모형의 기준은 절약성·범위·모수 불변성 이다
- GLM 이전에는 cloglog(Fisher 1922), probit(Bliss 1935), logit(Berkson 1944), 로그선형(1960s), 역다항식(Nelder 1966) 이 서로 다른 응용 맥락에서 독립적으로 태어났다
- 이들의 공통 구조는 “분포 + 선형예측자 + 연결함수” 세 성분의 조합으로 드러난다. Nelder-Wedderburn (1972) 이 이를 명시화하고 공통 추정(IRLS)·공통 적합도(이탈도) 이론을 구축했다
- Ch.1 의 핵심 메시지: GLM 은 새 모형이 아니라 이미 있던 모형들 사이의 숨은 좌표계다. 이후 Ch.2 에서 이 좌표계를 형식적으로 정의한다
11 관련 주제
후속 포스트
- GLM 이론 기초 — Ch.2 의 형식적 정의: 지수 분산족, 정준연결, 이탈도, IRLS
- GLM 응용 통합 — t-test·ANOVA·로지스틱·포아송 회귀의 실무 통합 관점
- Logistic Regression: The Model — 이항 GLM 의 구체 사례
- Logistic Regression: Estimation — IRLS·Newton-Raphson
선행 지식
- 지수족 (Exponential Family) — GLM 확률 성분의 수학적 기반
- 최대우도추정 (MLE) — Fisher 의 가능도 이론
- 다중 선형 회귀 — GLM 의 원형
12 참고문헌
- McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. Ch.1.
- Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal Statistical Society. Series A, 135(3), 370–384.
- Fisher, R. A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A, 222, 309–368.
- Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22(1), 134–167.
- Berkson, J. (1944). Application of the logistic function to bio-assay. Journal of the American Statistical Association, 39(227), 357–365.
- Dyke, G. V., & Patterson, H. D. (1952). Analysis of factorial arrangements when the data are proportions. Biometrics, 8(1), 1–12.
- Nelder, J. A. (1966). Inverse polynomials, a useful group of multi-factor response functions. Biometrics, 22(1), 128–141.
- Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models, and the Gauss-Newton method. Biometrika, 61(3), 439–447.
- Aitkin, M., & Clayton, D. (1980). The fitting of exponential, Weibull and extreme value distributions to complex censored survival data using GLIM. Applied Statistics, 29(2), 156–163.
- Box, G. E. P. (1980). Sampling and Bayes’ inference in scientific modelling and robustness. JRSS A, 143(4), 383–430.
- Stigler, S. M. (1986). The History of Statistics. Harvard University Press.