Kwangmin Kim - GLM 이론 기초 — 지수족·정준연결·이탈도·IRLS

1 왜 “일반화”인가 (Why “Generalized”?)

고전적 선형 회귀 \(Y = \mathbf{x}^\top \boldsymbol{\beta} + \varepsilon\), \(\varepsilon \sim N(0, \sigma^2)\) 은 세 가지 암묵적 가정을 묶어 놓은 모형이다.

\(Y\) 가 연속형이며 정규분포를 따른다
평균이 설명변수의 선형 결합이다
분산이 평균과 무관하게 일정하다

실제 데이터는 이 가정을 쉽게 깨뜨린다. 클릭 수는 카운트라서 음수가 나올 수 없고, 구매 여부는 0 또는 1이며, 체류 시간은 양수이고 평균이 클수록 분산도 커진다. 이런 반응 변수에 정규선형모형을 억지로 적용하면 예측이 정의역 밖으로 나가거나(음수 확률), 분산 구조가 틀려 표준오차가 왜곡된다.

Nelder & Wedderburn (1972) 의 통찰은 단순하다. 위의 세 가정을 분리하면 어떤가. 분포는 정규가 아니어도 지수족이면 되고, 평균은 선형결합 자체가 아니라 그것의 어떤 함수로 연결하면 되고, 분산은 평균의 함수로 허용하자. 이 세 결정을 따로 고르면 정규·이항·포아송·감마 회귀가 모두 같은 추정 알고리즘(IRLS)과 같은 적합도 지표(이탈도)를 공유하는 하나의 클래스로 묶인다. 이것이 GLM 이다 (McCullagh & Nelder, 1989, Ch.1-2).

직관: 고전적 선형모형이 “정규 자(ruler)로만 재는 계측기”라면, GLM 은 반응 변수의 분포 모양에 따라 자의 눈금 간격을 바꾸는 계측기이다. 링크 함수가 눈금 변환, 분산함수가 눈금 간격의 불균일성을 담당한다.

2 GLM 의 세 구성요소 (Three Components of a GLM)

정의: Generalized Linear Model

관측값 \(Y_1, \ldots, Y_n\) 과 공변량 \(\mathbf{x}_i \in \mathbb{R}^p\) 에 대해 GLM 은 다음 세 성분으로 정의된다.

(1) 확률 성분 (Random component). 각 \(Y_i\) 는 지수 분산족(exponential dispersion family) 에 속한다:

\[ f(y_i ; \theta_i, \phi) = \exp\!\left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]

직관 — 왜 이 특이한 형태인가. 이 지수족 꼴의 핵심은 관측값 \(y_i\) 와 모수 \(\theta_i\) 가 오직 곱 \(y_i \theta_i\) 로만 등장한다는 점이다. 이 구조 덕에 로그우도가 \(\theta\) 에 대해 선형 (+ 정규화 상수 \(b(\theta)\)) 이 되어, 평균·분산·Fisher 정보가 모두 한 함수 \(b\) 의 미분으로 표현된다 — 정규·포아송·이항·감마가 같은 IRLS 알고리즘 으로 풀리는 이유가 이 구조에 있다. 세부 분포가 달라도 “\(y\theta\) 선형 + \(b(\theta)\)” 골격이 공통이므로 추정기 하나로 모두 커버된다.

(2) 체계적 성분 (Systematic component). 선형예측자 \(\eta_i\) 는 공변량의 선형결합이다:

\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} = \sum_{j=1}^p x_{ij} \beta_j \]

(3) 연결 성분 (Link component). 평균 \(\mu_i = E[Y_i]\) 와 \(\eta_i\) 를 단조·미분가능한 연결함수 \(g\) 로 잇는다:

\[ g(\mu_i) = \eta_i \]

세 성분은 독립적으로 선택된다. 분포를 고른다고 연결함수가 자동으로 정해지는 것은 아니며 (비록 “정준” 선택이 존재하지만, 뒤에서 본다), 이 독립성이 GLM 의 설계 철학이다.

2.1 구성요소를 따로 고르는 이유 (Why Separate the Components?)

고전 선형모형에서 “Y 가 정규가 아닌 것 같다” 는 문제를 만나면 흔히 \(Y\) 자체를 변환한다 (\(\log Y\), \(\sqrt{Y}\)). 이 접근은 두 문제를 섞는다. (i) Y 의 평균이 공변량에 어떻게 의존하는가(해석 층)와 (ii) Y 의 분산 구조(오차 층)를 하나의 변환으로 동시에 건드리기 때문이다.

GLM 은 이 둘을 분리한다.

해석 은 연결함수 \(g\) 가 담당한다 — “로그 평균이 선형이다” 처럼 평균을 변환해 해석한다
분산 구조 는 분포 선택이 담당한다 — 포아송이면 \(\mathrm{Var}(Y) = \mu\), 이항이면 \(\mu(1-\mu)/n\)

직관: \(Y\) 자체를 변환하는 것은 “데이터에 가위질하는” 것이고, 연결함수로 \(\mu\) 를 변환하는 것은 “해석의 축을 바꾸는” 것이다. 원본 데이터는 그대로 두고 모형이 알아서 척도 변환을 처리한다.

3 지수 분산족 (Exponential Dispersion Family)

GLM 의 수학적 편의성은 전적으로 이 분포족의 대수적 구조에서 나온다.

3.1 구조와 의미 (Structure and Meaning)

밀도함수

\[ f(y; \theta, \phi) = \exp\!\left\{ \frac{y\theta - b(\theta)}{a(\phi)} + c(y, \phi) \right\} \]

에서 각 기호의 역할은 다음과 같다.

기호	이름	역할
\(\theta\)	정준모수 (canonical parameter)	평균을 담당
\(\phi\)	분산모수 (dispersion parameter)	분산 크기를 담당
\(b(\theta)\)	누적생성함수 (cumulant function)	\(b\) 의 미분으로 적률이 나옴
\(a(\phi)\)	분산 척도	보통 \(a(\phi) = \phi/w_i\) (\(w_i\) 는 사전 가중치)
\(c(y, \phi)\)	정규화항	\(\theta\) 에 의존하지 않아 추정에 영향 없음

핵심 결과 (McCullagh & Nelder, 1989, Ch.2.2):

\[ E[Y] = \mu = b'(\theta), \qquad \mathrm{Var}(Y) = b''(\theta)\, a(\phi) \]

직관: \(b\) 의 1차 미분이 평균, 2차 미분이 분산이다. 하나의 함수 \(b\) 가 분포의 평균-분산 관계를 결정한다는 뜻이다. 정규분포가 특별한 이유는 \(b(\theta) = \theta^2/2\) 여서 \(b''(\theta) = 1\) 로 분산이 평균과 무관하기 때문이다. 다른 분포는 모두 \(b''\) 가 \(\theta\) 의 함수여서 평균이 바뀌면 분산도 바뀐다.

3.2 분산함수 \(V(\mu)\) (Variance Function)

\(\mu = b'(\theta)\) 를 \(\theta\) 에 대해 풀어 \(\theta(\mu)\) 로 쓸 수 있으므로, 분산을 평균의 함수로 표현할 수 있다:

\[ \mathrm{Var}(Y) = V(\mu)\, a(\phi), \qquad V(\mu) := b''(\theta(\mu)) \]

\(V(\mu)\) 를 분산함수(variance function) 라고 한다. 이것이 GLM 에서 분포를 지정하는 실질적 방법이다.

분포 (Distribution)	\(V(\mu)\)	해석
정규 (Normal) \(N(\mu, \sigma^2)\)	\(1\)	분산이 평균과 무관 (homoscedastic)
포아송 (Poisson) \(\mathrm{Poi}(\mu)\)	\(\mu\)	평균 클수록 분산도 같은 비율로 커짐 (equidispersion)
이항 (Binomial) \(\mathrm{Bin}(n, \mu)/n\)	\(\mu(1-\mu)\)	\(\mu = 0.5\) 에서 분산 최대, 극단에서 최소
감마 (Gamma)	\(\mu^2\)	분산이 평균의 제곱에 비례 (CV 일정)
역가우시안 (Inverse Gaussian)	\(\mu^3\)	분산이 평균의 세제곱에 비례

직관: 분산함수는 “평균이 1 단위 움직이면 분산이 얼마나 따라 움직이는가” 를 말해 준다. 카운트 데이터에서 평균 클릭 수가 10 에서 100 으로 늘면 분산도 10 배로 늘어난다(포아송, \(V(\mu)=\mu\)). 이 사실을 모형이 알아야 표준오차가 맞게 나온다. 고전 OLS 는 모든 관측에 같은 \(\sigma^2\) 를 강제하므로 평균이 큰 구간에서는 과소 가중, 작은 구간에서는 과대 가중된다.

3.3 주요 분포의 정준형 확인 (Verifying the Canonical Form for Major Distributions)

정규분포 \(N(\mu, \sigma^2)\) 의 밀도

\[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\} \]

를 전개해서 \(y\) 의 1차·정규화항으로 분리하면

\[ \exp\!\left\{ \frac{y\mu - \mu^2/2}{\sigma^2} - \frac{y^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) \right\} \]

따라서 \(\theta = \mu\), \(b(\theta) = \theta^2/2\), \(a(\phi) = \phi = \sigma^2\) 로 대응된다. \(b'(\theta) = \theta = \mu\), \(b''(\theta) = 1\) 이 앞서의 결과와 맞는다.

포아송 \(\mathrm{Poi}(\mu)\):

\[ \frac{\mu^y e^{-\mu}}{y!} = \exp\!\left\{ y\log\mu - \mu - \log y! \right\} \]

\(\theta = \log\mu\), \(b(\theta) = e^\theta = \mu\), \(a(\phi) = 1\). 여기서 \(b'(\theta) = e^\theta = \mu\), \(b''(\theta) = \mu\) 로 분산함수 \(V(\mu) = \mu\) 가 자연스럽게 나온다.

이항 (성공비율 \(Y/n\)):

\[ \binom{n}{ny}\exp\!\left\{ n\left[ y\log\frac{\mu}{1-\mu} + \log(1-\mu) \right] \right\} \]

\(\theta = \log\!\tfrac{\mu}{1-\mu}\) (로짓), \(b(\theta) = \log(1+e^\theta)\), \(a(\phi) = 1/n\). \(V(\mu) = \mu(1-\mu)\).

직관: 이항의 정준모수가 로짓이라는 사실은 우연이 아니다. 로짓이 이항분포의 자연스러운 척도라서, 이 척도 위에서 평균이 선형으로 움직인다고 가정하는 것이 대수적으로 가장 깔끔하다. 이 깔끔함이 다음 절의 “정준연결” 개념으로 이어진다.

4 연결함수와 정준연결 (Link Functions and Canonical Links)

4.1 연결함수의 역할 (Role of the Link Function)

연결함수 \(g\) 는 평균의 정의역을 실수 전체 \(\mathbb{R}\) 로 펴 주는 역할 을 한다. 선형예측자 \(\eta = \mathbf{x}^\top \boldsymbol{\beta}\) 는 \(\boldsymbol{\beta}\) 와 \(\mathbf{x}\) 에 제약이 없으므로 \(\mathbb{R}\) 전체를 달린다. 그런데 \(\mu\) 는 분포에 따라 제약이 있다.

분포 (Distribution)	\(\mu\) 의 정의역 (range)	적절한 연결 \(g(\mu)\) (link)	역함수 \(g^{-1}(\eta) = \mu\) (inverse link)
Normal	\(\mathbb{R}\)	identity: \(\mu\)	\(\eta\)
Poisson	\((0, \infty)\)	log: \(\log\mu\)	\(e^\eta\)
Binomial (proportion)	\((0, 1)\)	logit: \(\log\tfrac{\mu}{1-\mu}\)	\(\tfrac{e^\eta}{1+e^\eta}\)
Gamma	\((0, \infty)\)	log 또는 inverse: \(1/\mu\)	\(e^\eta\) 또는 \(1/\eta\)

포아송에서 identity 연결 (\(\mu = \mathbf{x}^\top\boldsymbol{\beta}\)) 을 쓰면 \(\mathbf{x}^\top\boldsymbol{\beta} < 0\) 인 공변량 값에서 음의 평균 클릭 수가 예측된다. 로그 연결은 \(\mu = e^\eta > 0\) 을 자동으로 보장한다. 이항에서 identity 는 \(\mu > 1\) 이나 \(\mu < 0\) 을 예측할 수 있지만 로짓은 \((0,1)\) 에 가둔다.

직관: 연결함수는 “파라미터 공간의 경계 관리자” 다. 경계를 실수 전체로 펴 놓고, 그 위에서 선형 가정을 편하게 세우도록 한다.

4.2 정준연결 (Canonical link)

정의: 정준연결은 \(g(\mu) = \theta(\mu)\) 로 선택하는 것이다. 즉, 연결함수가 정준모수와 동일한 함수가 되도록 한다.

분포 (Distribution)	정준연결 (Canonical Link) \(g(\mu) = \theta\)
Normal	identity
Poisson	log
Binomial	logit
Gamma	inverse (\(-1/\mu\))

왜 특별한가? 정준연결일 때 스코어 방정식이 놀라울 만큼 단순해진다. 우도의 스코어

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n \frac{(y_i - \mu_i)\, \mathbf{x}_i}{\mathrm{Var}(Y_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i} \]

에서 정준연결이면 \(\frac{\partial \mu_i}{\partial \eta_i} = b''(\theta_i) = \mathrm{Var}(Y_i)/a(\phi)\) 가 되어 분산함수와 정확히 약분된다. 결과적으로

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \frac{1}{a(\phi)} \sum_{i=1}^n (y_i - \mu_i)\, \mathbf{x}_i = \frac{1}{a(\phi)} \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\mu}) \]

MLE 는 \(\mathbf{X}^\top (\mathbf{y} - \boldsymbol{\mu}) = \mathbf{0}\) 을 만족한다. 이것이 “잔차가 설명변수와 직교” 라는 정규방정식의 일반화된 형태다. 또한 정준연결 하에서 충분통계량 (sufficient statistic) 이 \(\mathbf{X}^\top \mathbf{y}\) 로 단순화되고, 관측정보 (observed information) 와 기대정보 (expected/Fisher information) 가 일치해서 Fisher scoring 이 Newton-Raphson 과 같아진다 (McCullagh & Nelder, 1989, §2.2.4).

직관: 정준연결은 “분포가 자신에게 가장 자연스럽다고 말하는 척도” 이다. 그 척도 위에서 선형 가정을 세우면 대수가 정리되고 계산이 안정된다. 정준이 아니어도 괜찮지만 (예: 이항에서 probit, cloglog), 이론·계산의 편의를 포기하는 대가가 있다.

5 이탈도 (Deviance)

5.1 적합도 측정의 필요 (Need for a Goodness-of-Fit Measure)

OLS 에서는 잔차제곱합(RSS)이 적합도를 잰다. GLM 에서는 반응변수의 척도·분산 구조가 바뀌므로 “잔차의 제곱합” 만으로는 충분치 않다. 우도 기반 적합도가 필요하다.

5.2 포화 모형과 정의 (Saturated Model and Definition)

포화 모형(saturated model) 은 각 관측에 별도의 모수를 할당한 모형이다. 즉, \(\hat\mu_i = y_i\) 를 달성하는 모형 — 데이터를 완벽하게 재현한다. 현실적 의미는 없지만 적합도의 상한으로 쓰인다.

정의: 이탈도 (Deviance)

관심 모형의 MLE 를 \(\hat{\boldsymbol{\mu}}\), 로그우도(log-likelihood) 를 \(\ell(\boldsymbol{\mu}; \mathbf{y})\) 라 하자. 축척 이탈도 (scaled deviance) 는

\[ D^*(\mathbf{y}; \hat{\boldsymbol{\mu}}) = 2\left\{ \ell(\mathbf{y}; \mathbf{y}) - \ell(\hat{\boldsymbol{\mu}}; \mathbf{y}) \right\} \]

이며, 이탈도 (deviance) 는 이를 \(a(\phi)\) 로 역스케일한 것이다:

\[ D(\mathbf{y}; \hat{\boldsymbol{\mu}}) = a(\phi)\, D^*(\mathbf{y}; \hat{\boldsymbol{\mu}}) \]

직관: “포화 모형(saturated model) 이 달성한 우도에서 우리 모형이 얼마나 뒤처졌는가” 를 두 배 한 값이다. 값이 작을수록 모형이 데이터를 잘 설명한다. 정규분포에서는 \(D = \sum (y_i - \hat\mu_i)^2 = \mathrm{RSS}\) (residual sum of squares) 가 되어 OLS 의 잔차제곱합과 정확히 일치한다 — 이탈도가 RSS 의 우도 기반 일반화 (likelihood-based generalization) 임이 드러난다.

5.3 주요 분포의 이탈도 (Deviance for Major Distributions)

분포 (Distribution)	\(D(\mathbf{y}; \hat{\boldsymbol{\mu}})\)
Normal	\(\sum (y_i - \hat\mu_i)^2\)
Poisson	\(2\sum \left\{ y_i \log(y_i/\hat\mu_i) - (y_i - \hat\mu_i) \right\}\)
Binomial (counts)	\(2\sum \left\{ y_i \log(y_i/\hat\mu_i) + (n_i - y_i)\log\tfrac{n_i - y_i}{n_i - \hat\mu_i} \right\}\)
Gamma	\(2\sum \left\{ -\log(y_i/\hat\mu_i) + (y_i - \hat\mu_i)/\hat\mu_i \right\}\)

5.4 모형 비교: 이탈도 차이 (Model Comparison via Deviance Difference)

중첩된 두 모형 \(M_0 \subset M_1\) (모수 \(p_0 < p_1\)) 에 대해

\[ \Delta D = D_0 - D_1 \overset{H_0}{\sim} \chi^2_{p_1 - p_2}\quad(\text{근사, 대표본}) \]

이것이 GLM 의 우도비 검정 (likelihood ratio test, LRT) 이다. 고전 ANOVA F-검정과 논리가 같지만, 분포를 정규로 강제하지 않는다.

직관: 이탈도는 “설명 안 된 편차” 의 양이다. 모수를 늘리면 반드시 줄어든다 (우도가 단조증가). 그 감소량이 자유도만큼 우연히 기대되는 감소를 넘는가 를 카이제곱 분포로 판정한다.

5.5 잔차의 세 유형 (Three Types of Residuals)

GLM 은 잔차도 세 종류로 일반화된다.

유형 (Type)	정의 (Definition)	용도 (Use)
Pearson	\(r_i^P = (y_i - \hat\mu_i)/\sqrt{V(\hat\mu_i)}\)	분산 정규화된 원잔차 (variance-normalized raw residual)
Deviance	\(r_i^D = \mathrm{sign}(y_i - \hat\mu_i)\sqrt{d_i}\)	이탈도의 분해, 분포에 가까운 대칭성
Anscombe	\(V\) 를 대칭화하는 변환 (variance-symmetrizing transform)	이론적 정규 근사

직관: 정규분포에서는 셋이 모두 같아진다. 비정규 GLM 에서 이탈도 잔차가 정규에 가장 가깝게 분포하므로 Q-Q plot·이상치 진단에는 이탈도 잔차를 쓴다.

6 Fitting Algorithm: IRLS (Iteratively Reweighted Least Squares)

6.1 동기 (Motivation)

GLM 의 MLE 는 대부분 닫힌 형태 해가 없다 (정규+정준 경우만 OLS 로 떨어짐). 수치 최적화가 필요한데, Newton-Raphson 은 Hessian 계산이 비싸고 불안정할 수 있다. Nelder-Wedderburn 은 Fisher scoring 이 가중 최소제곱 반복으로 재해석된다는 점을 발견했고, 이를 IRLS 라 부른다.

6.2 알고리즘 (Algorithm)

현재 추정값을 \(\boldsymbol{\beta}^{(t)}\), 그에 대응하는 \(\hat\eta_i^{(t)}, \hat\mu_i^{(t)}\) 라 하자.

Step 1: 작업 반응(working response) 을 만든다.

\[ z_i^{(t)} = \hat\eta_i^{(t)} + (y_i - \hat\mu_i^{(t)})\left.\frac{\partial \eta}{\partial \mu}\right|_{\hat\mu_i^{(t)}} \]

Step 2: 가중치를 만든다.

\[ w_i^{(t)} = \left\{ \left(\frac{\partial \eta}{\partial \mu}\right)^2 V(\hat\mu_i^{(t)}) \right\}^{-1} \]

Step 3: 가중 최소제곱을 푼다.

\[ \boldsymbol{\beta}^{(t+1)} = (\mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{W}^{(t)} \mathbf{z}^{(t)} \]

수렴할 때까지 반복한다 (보통 이탈도 변화 \(< 10^{-6}\)).

6.3 왜 이렇게 설계되는가 (Why This Design?)

작업 반응 \(z_i\) 는 \(\eta\) 의 1차 테일러 전개에서 나온다:

\[ \eta_i = g(\mu_i) \approx g(\hat\mu_i) + g'(\hat\mu_i)(y_i - \hat\mu_i) = \hat\eta_i + (y_i - \hat\mu_i)\frac{\partial\eta}{\partial\mu} \]

\(z_i\) 가 “\(y_i\) 를 \(\eta\) 척도에서 본 값” 이 된다. 가중치 \(w_i\) 는 \(\mathrm{Var}(z_i)\) 의 역수로, 분산이 큰 관측의 기여를 낮춘다. 그러면 \(\mathbf{z}\) 를 반응으로, \(\mathbf{W}\) 를 가중치로 하는 선형 가중회귀 한 번이 Fisher scoring 한 스텝과 정확히 같다.

직관: IRLS 는 “비선형 문제를 매 스텝마다 지역 선형 문제로 바꿔 푼다” 는 전략이다. 각 스텝의 가중회귀는 닫힌 해가 있고, 수렴 후에는 원래 비선형 GLM 의 MLE 가 된다. 이 구조 덕분에 모든 GLM 이 같은 OLS 엔진을 반복 호출해 풀린다 — 소프트웨어 구현이 극도로 단순해지는 이유다.

6.4 수렴과 정보행렬 (Convergence and the Information Matrix)

정준연결에서는 Fisher scoring = Newton-Raphson 이고, 로그우도가 \(\boldsymbol{\beta}\) 에 대해 오목이므로 전역 수렴이 보장된다. 수렴 후 근사 공분산은

\[ \widehat{\mathrm{Cov}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^\top \hat{\mathbf{W}} \mathbf{X})^{-1} a(\hat\phi) \]

이 값에서 표준오차 (standard error)·Wald 검정 (Wald test)·신뢰구간 (confidence interval) 이 나온다.

7 응용 분야 (Applications)

분야 (Field)	GLM 유형 (Model)	용도 (Use)
임상시험 (Clinical trials)	Binomial (logistic)	치료군 vs 대조군 반응률 비교, 위험 요인 분석
보험계리 (Actuarial)	Gamma (log link)	손해액 분포 모형, 보험료 산정
웹/광고 (Web/Advertising)	Poisson (log)	클릭 수 모형, CTR 예측
품질관리 (Quality control)	Binomial / Poisson	불량률, 결함 개수 회귀
역학 (Epidemiology)	log-linear	분할표 독립성·연관성, 상대위험 (relative risk) 추정
A/B 테스트 (A/B testing)	Binomial / Poisson	전환율·이벤트율 집단 비교
생존분석 (Survival analysis)	Poisson (piecewise constant hazard)	위험률 (hazard rate) 회귀 근사

직관: “반응변수가 실수 연속이 아닐 때마다 GLM 이 등장한다” 고 봐도 된다. 현대 회귀 분석의 기본 언어다.

8 예시: 포아송 회귀 한 스텝 IRLS (Example: One IRLS Step for Poisson Regression)

공변량 \(x_i\), 반응 \(y_i \in \{0, 1, 2, \ldots\}\), 모형 \(\log \mu_i = \beta_0 + \beta_1 x_i\).

정준연결 log 이므로 \(\frac{\partial \eta}{\partial \mu} = 1/\mu\)
분산함수 \(V(\mu) = \mu\)

작업 반응: \(z_i = \hat\eta_i + (y_i - \hat\mu_i)/\hat\mu_i\)

가중치: \(w_i = \{(1/\hat\mu_i)^2 \cdot \hat\mu_i\}^{-1} = \hat\mu_i\)

초기값 \(\hat\mu_i^{(0)} = y_i + 0.5\) 로 시작 (0 값 회피). 가중회귀 \(z \sim 1 + x\), 가중치 \(\mathbf{W} = \mathrm{diag}(\hat\mu_i)\) 를 풀면 \(\boldsymbol{\beta}^{(1)}\) 이 나오고, \(\hat\mu^{(1)} = \exp(\mathbf{X}\boldsymbol{\beta}^{(1)})\) 로 업데이트해 반복한다. 보통 4–6 반복이면 수렴한다.

9 코드 예시 (Code Examples)

9.1 Step 1: 순수 Python — IRLS 직접 구현 (포아송 회귀)

import numpy as np

rng = np.random.default_rng(0)
n = 200
x = rng.normal(0, 1, n)
eta_true = 0.5 + 0.8 * x
mu_true = np.exp(eta_true)
y = rng.poisson(mu_true)

X = np.column_stack([np.ones(n), x])

# IRLS (포아송, 정준연결 log)
mu = y + 0.5
eta = np.log(mu)

for it in range(20):
    z = eta + (y - mu) / mu         # 작업 반응
    W = np.diag(mu)                 # 가중치 대각행렬
    # 가중 최소제곱: beta = (X'WX)^{-1} X'Wz
    XtWX = X.T @ W @ X
    XtWz = X.T @ W @ z
    beta_new = np.linalg.solve(XtWX, XtWz)

    eta_new = X @ beta_new
    mu_new = np.exp(eta_new)

    if np.max(np.abs(beta_new - (beta if it > 0 else np.zeros(2)))) < 1e-8 and it > 0:
        break
    beta, eta, mu = beta_new, eta_new, mu_new

print(f"beta_hat = {beta}")  # 참값 [0.5, 0.8]에 근접해야 함

# 공분산·표준오차
cov = np.linalg.inv(X.T @ np.diag(mu) @ X)
se = np.sqrt(np.diag(cov))
print(f"SE = {se}")

# 이탈도
D = 2 * np.sum(y * np.where(y > 0, np.log(y / mu), 0) - (y - mu))
print(f"Deviance = {D:.3f}")

순수 구현의 의미: IRLS 가 “매 스텝마다 평균 근처에서 선형화 → 가중 OLS” 의 반복임을 코드로 확인할 수 있다. 여기서 W = diag(mu) 가 포아송 정준연결 특유의 단순한 형태다.

9.2 Step 2: statsmodels — 실무 구현

import statsmodels.api as sm

model = sm.GLM(y, X, family=sm.families.Poisson())
result = model.fit()
print(result.summary())

                 coef    std err      z      P>|z|
const          0.498      0.034    14.6    <0.001
x1             0.805      0.028    28.8    <0.001
Deviance:     195.6
df_resid:     198

해석: 추정치가 참값 (0.5, 0.8) 에 매우 가깝고, 표준오차는 정보행렬에서 자동으로 계산된다. Deviance 가 잔차 자유도 (198) 근처이면 적합이 합리적이다.

9.3 R: `glm()` 함수

set.seed(0)
n <- 200
x <- rnorm(n)
y <- rpois(n, exp(0.5 + 0.8 * x))

fit <- glm(y ~ x, family = poisson(link = "log"))
summary(fit)
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)
# (Intercept)  0.4984    0.0342    14.6   <2e-16
# x            0.8053    0.0280    28.8   <2e-16

family = poisson(link = "log") 부분이 GLM 의 세 구성요소 중 확률 성분과 연결 성분을 한 번에 지정하는 방식이다. 이 한 줄 변경으로 binomial(link = "logit"), Gamma(link = "inverse") 등으로 쉽게 바꿀 수 있다.

10 요약 정리 (Summary)

GLM 은 확률 성분 (지수 분산족) + 체계적 성분 (선형예측자) + 연결함수 세 요소를 독립적으로 선택하는 회귀 프레임워크다
지수 분산족의 대수 구조에서 \(\mu = b'(\theta)\), \(\mathrm{Var}(Y) = V(\mu) a(\phi)\) 가 자동 유도되어 분포 선택이 곧 분산 구조 선택이 된다
정준연결 \(g(\mu) = \theta(\mu)\) 을 쓰면 스코어 방정식이 \(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu}) = \mathbf{0}\) 으로 OLS 정규방정식과 같은 구조가 되고, Fisher scoring 이 Newton-Raphson 과 일치한다
이탈도 \(D = 2\{\ell(\mathbf{y}; \mathbf{y}) - \ell(\hat{\boldsymbol{\mu}}; \mathbf{y})\}\) 는 RSS 의 우도 기반 일반화이며, 중첩 모형 비교의 \(\chi^2\) 검정 기반이 된다
IRLS 는 매 스텝마다 작업 반응 \(\mathbf{z}\) 와 가중치 \(\mathbf{W}\) 를 계산하고 가중 OLS 를 푸는 반복 알고리즘이다. 모든 GLM 이 같은 OLS 엔진을 반복 호출하는 구조로 구현된다

12 참고문헌 (References)

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. Ch.1–2.
Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal Statistical Society. Series A, 135(3), 370–384.
Faraway, J. J. (2006). Extending the Linear Model with R. Chapman & Hall/CRC.