1 왜 “구성요소” 인가
GLM 의 본질은 세 가지 모델링 결정을 분리한 데 있다. 고전 정규 선형모형이 분포·평균구조·분산구조를 한 묶음으로 가정한 것과 달리, GLM 은 이 셋을 독립적으로 선택할 수 있는 부품(component) 으로 풀어 놓는다.
| 구성요소 (Component) | 무엇을 결정하나 | 모델링 자유도 |
|---|---|---|
| 확률 성분 (Random) | \(Y\) 의 분포 — 곧 평균-분산 관계 | 분포 선택 |
| 체계적 성분 (Systematic) | 공변량이 어떻게 결합되는가 | 선형 결합 + 변환·교호작용 |
| 연결 성분 (Link) | 평균과 선형결합을 어떻게 잇는가 | 단조 미분가능 함수 선택 |
직관: 셋이 분리되어 있다는 뜻은 하나를 바꿔도 나머지는 그대로 둘 수 있다는 뜻이다. 분포를 정규에서 포아송으로 바꾸면서 link 와 covariate 구조는 유지할 수 있다. 이 모듈성(modularity) 이 GLM 을 거대한 회귀 모형 패밀리로 만든다.
본 포스트는 GLM 이론 기초 에서 짧게 다룬 components 정의를 McCullagh §2.2 의 흐름대로 각 구성요소의 형식적 정의·수학적 유도·직관·예시로 확장한다.
2 일반화의 정확한 의미 (The Generalization)
GLM 이 “일반화한다 (generalizes)” 는 것은 정규 선형모형(normal linear model) 에 묶여 있던 세 가정을 풀어 따로 고를 수 있게 한다는 뜻이다. 형식적으로 정리하면 다음과 같다.
| 가정 (Assumption) | 정규 선형모형 (Normal LM) | GLM 의 일반화 |
|---|---|---|
| 분포 (Distribution) | \(Y \sim N(\mu, \sigma^2)\) — 정규 고정 | EDF 어느 분포든 가능 |
| 평균 구조 (Mean structure) | \(\mu = \mathbf{x}^\top \boldsymbol{\beta}\) — identity link 강제 | \(g(\mu) = \mathbf{x}^\top \boldsymbol{\beta}\) — 임의의 단조 미분가능 \(g\) |
| 분산 구조 (Variance structure) | \(\mathrm{Var}(Y) = \sigma^2\) — 평균과 무관 | \(\mathrm{Var}(Y) = V(\mu) \phi\) — 분포 선택이 결정 |
세 가정이 분리(decoupling) 가능 하다는 점이 일반화의 본질이다. 정규 선형모형은 이 셋이 모두 묶여 있어 “\(Y\) 가 정규가 아닌 것 같다” 는 진단 한 번에 모형 전체를 다시 짜야 했다. GLM 에서는 분포만 바꾸고, 또는 link 만 바꾸고, 또는 covariate 구조만 바꾸는 부분 수정이 가능하다.
직관: 일반화는 “더 많은 분포를 다룬다” 를 넘어 “모델링 결정을 모듈로 분리해 각각 검증·교체할 수 있게 한다” 는 의미다. 진단 → 부분 수정의 사이클이 짧아져 분석 속도와 신뢰성이 동시에 올라간다.
3 확률 성분 (Random Component)
3.1 기본 정의
관측값 \(Y_1, \ldots, Y_n\) 이 독립이고, 각각 다음 형태의 밀도(density) 또는 확률질량(probability mass) 함수를 가진다.
\[ f(y_i; \theta_i, \phi) = \exp\!\left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]
이 형태를 지수 분산족 (Exponential Dispersion Family, EDF) 이라 한다 (Jørgensen, 1987). 이때
| 기호 | 이름 | 역할 |
|---|---|---|
| \(\theta_i\) | 정준모수 (canonical parameter, natural parameter) | 관측 \(i\) 마다 다름, 평균을 결정 |
| \(\phi\) | 분산모수 (dispersion parameter) | 모든 관측에 공통, 분산 척도 |
| \(b(\theta)\) | 누적생성함수 (cumulant function) | 미분으로 적률(moment) 산출 |
| \(a(\phi)\) | 분산 척도 함수 | 보통 \(a(\phi) = \phi/w_i\) (\(w_i\) 는 사전 가중치 prior weight) |
| \(c(y, \phi)\) | 정규화항 (normalizing term) | \(\theta\) 에 의존하지 않아 추정에 영향 없음 |
직관: 이 형태가 특별한 이유는 \(\theta\) 와 \(y\) 가 \(y\theta\) 형태로만 곱해져 등장하기 때문이다. 이 구조 덕분에 로그우도가 \(\theta\) 에 대해 매우 깔끔한 형태를 가지고, 적률·정보량·MLE 가 모두 \(b(\cdot)\) 와 그 미분으로 표현된다.
3.2 평균과 분산의 유도 (Derivation of Mean and Variance)
EDF 의 핵심 결과는 \(b(\theta)\) 의 미분이 곧 적률을 준다는 것이다. 유도를 상세히 보자.
Score function 의 기댓값 = 0 (정규조건 regularity conditions 하에서):
\[ E\!\left[\frac{\partial \log f}{\partial \theta}\right] = 0 \]
EDF 에서 \(\frac{\partial \log f}{\partial \theta} = \frac{y - b'(\theta)}{a(\phi)}\) 이므로
\[ E\!\left[\frac{Y - b'(\theta)}{a(\phi)}\right] = 0 \;\;\Rightarrow\;\; E[Y] = b'(\theta) \]
따라서 평균 \(\mu = b'(\theta)\).
Fisher information identity:
\[ E\!\left[\left(\frac{\partial \log f}{\partial \theta}\right)^2\right] = -E\!\left[\frac{\partial^2 \log f}{\partial \theta^2}\right] \]
좌변은 \(\mathrm{Var}(Y)/a(\phi)^2\), 우변은 \(b''(\theta)/a(\phi)\). 등식을 풀면
\[ \boxed{\;\mathrm{Var}(Y) = b''(\theta)\, a(\phi)\;} \]
직관: 하나의 함수 \(b(\theta)\) 가 분포의 평균과 분산을 모두 결정한다. \(b'\) 가 평균, \(b''\) 가 분산의 척도다. 이것이 EDF 가 “평균을 정하면 분산이 자동으로 따라오는” 분포족인 이유다 (정규분포만이 이 결합에서 자유롭다 — \(b'' = 1\) 상수).
3.3 분산함수 \(V(\mu)\) — 분포의 핵심 지문
\(\mu = b'(\theta)\) 를 \(\theta\) 에 대해 풀어 \(\theta(\mu)\) 로 쓸 수 있다. 그러면 분산을 평균의 함수로 표현할 수 있다.
\[ \mathrm{Var}(Y) = V(\mu)\, a(\phi), \qquad V(\mu) := b''(\theta(\mu)) \]
\(V(\mu)\) 를 분산함수 (variance function) 라 하며, 이는 분포를 결정하는 핵심 지문이다.
| 분포 (Distribution) | \(V(\mu)\) | 평균-분산 관계 |
|---|---|---|
| Normal \(N(\mu, \sigma^2)\) | \(1\) | 분산 = 상수 (homoscedastic) |
| Poisson \(\mathrm{Poi}(\mu)\) | \(\mu\) | 분산 = 평균 (equidispersion) |
| Binomial \(\mathrm{Bin}(n, \mu)/n\) | \(\mu(1-\mu)\) | \(\mu = 0.5\) 에서 최대, 극단에서 0 |
| Gamma \(G(\mu, \nu)\) | \(\mu^2\) | CV(coefficient of variation) 일정 |
| Inverse Gaussian \(IG(\mu, \sigma^2)\) | \(\mu^3\) | 분산이 평균의 3제곱 |
| Negative Binomial | \(\mu + \mu^2/k\) | Poisson 의 과산포 확장 |
\(V(\mu) = \mu^p\) 형태는 Tweedie family 라 불리며, \(p\) 값에 따라 위 분포들이 특수 사례로 등장한다.
- \(p = 0\): Normal
- \(p = 1\): Poisson
- \(p = 2\): Gamma
- \(p = 3\): Inverse Gaussian
- \(1 < p < 2\): Compound Poisson-Gamma (보험 계리에서 손해액 모델링에 사용)
직관: 분산함수는 “평균이 한 단위 움직이면 분산이 얼마나 따라 움직이는가” 를 말해 준다. 카운트 데이터에서 평균 클릭 수가 10 → 100 으로 늘면 분산도 10 배 증가한다 (Poisson, \(V(\mu) = \mu\)). 이 사실을 모형이 “알아야” 표준오차가 맞게 나온다. OLS 는 모든 관측에 같은 \(\sigma^2\) 를 강제하므로 평균이 큰 영역에서는 underweight, 작은 영역에서는 overweight 이 발생한다.
3.4 주요 분포의 EDF 형태 확인
각 분포가 실제로 EDF 형태로 정확히 표현되는지 직접 전개한다.
Normal \(N(\mu, \sigma^2)\):
\[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\} = \exp\!\left\{ \frac{y\mu - \mu^2/2}{\sigma^2} - \frac{y^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) \right\} \]
대응: \(\theta = \mu\), \(b(\theta) = \theta^2/2\), \(a(\phi) = \phi = \sigma^2\). 검산: \(b'(\theta) = \theta = \mu\), \(b''(\theta) = 1\) → \(V(\mu) = 1\). ✓
Poisson \(\mathrm{Poi}(\mu)\):
\[ \frac{\mu^y e^{-\mu}}{y!} = \exp\!\left\{ y\log\mu - \mu - \log y! \right\} \]
대응: \(\theta = \log\mu\) (즉 자연모수가 로그 평균!), \(b(\theta) = e^\theta = \mu\), \(a(\phi) = 1\). 검산: \(b'(\theta) = e^\theta = \mu\), \(b''(\theta) = e^\theta = \mu\) → \(V(\mu) = \mu\). ✓
Binomial (성공 비율 \(Y/n\), \(n\) 은 알려진 시행 수):
\[ \binom{n}{ny}\exp\!\left\{ n\!\left[ y\log\frac{\mu}{1-\mu} + \log(1-\mu) \right] \right\} \]
대응: \(\theta = \log\!\tfrac{\mu}{1-\mu}\) (즉 자연모수가 로짓!), \(b(\theta) = \log(1+e^\theta)\), \(a(\phi) = 1/n\). 검산: \(b'(\theta) = e^\theta/(1+e^\theta) = \mu\), \(b''(\theta) = \mu(1-\mu)\) → \(V(\mu) = \mu(1-\mu)\). ✓
Gamma \(G(\mu, \nu)\) (\(\nu\) = shape, \(\mu\) = mean):
\[ \frac{1}{\Gamma(\nu)} \left(\frac{\nu}{\mu}\right)^\nu y^{\nu-1} \exp\!\left\{-\frac{\nu y}{\mu}\right\} \]
대응: \(\theta = -1/\mu\), \(b(\theta) = -\log(-\theta)\), \(a(\phi) = 1/\nu\). 검산: \(b'(\theta) = -1/\theta = \mu\), \(b''(\theta) = 1/\theta^2 = \mu^2\) → \(V(\mu) = \mu^2\). ✓
직관: 각 분포의 자연모수 \(\theta\) 가 우연이 아니라 분포 자체가 가장 자연스럽다고 말하는 척도 다. Poisson 은 로그, Binomial 은 로짓, Gamma 는 역수. 이 자연스러움이 다음에 다룰 “정준연결” 의 기반이다.
4 체계적 성분 (Systematic Component)
4.1 선형예측자 (Linear Predictor)
각 관측 \(i\) 에 대해 공변량 벡터 \(\mathbf{x}_i \in \mathbb{R}^p\) 와 모수 벡터 \(\boldsymbol{\beta} \in \mathbb{R}^p\) 의 내적으로 선형예측자를 정의한다.
\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} = \sum_{j=1}^p x_{ij} \beta_j \]
행렬 형태로: \(\boldsymbol{\eta} = \mathbf{X} \boldsymbol{\beta}\), 여기서 \(\mathbf{X}\) 는 \(n \times p\) 설계행렬 (design matrix, model matrix) 이다.
4.2 “선형” 의 정확한 의미
GLM 에서 “선형” 은 모수 \(\boldsymbol{\beta}\) 에 대한 선형성을 뜻한다. 공변량 \(x_j\) 자체는 변환되어 등장할 수 있다.
| 형태 (Form) | 선형성 만족? | 비고 |
|---|---|---|
| \(\beta_0 + \beta_1 x\) | ✓ | 표준 선형 |
| \(\beta_0 + \beta_1 x + \beta_2 x^2\) | ✓ | \(x^2\) 은 새 공변량으로 간주 |
| \(\beta_0 + \beta_1 \log x\) | ✓ | 변환된 covariate |
| \(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2\) | ✓ | 교호작용 (interaction) |
| \(\beta_0 + \beta_1 x^{\beta_2}\) | ✗ | \(\beta_2\) 가 지수에 — 비선형 |
| \(\beta_0 / (1 + \beta_1 e^{-\beta_2 x})\) | ✗ | logistic growth — NLM 영역 |
직관: GLM 은 공변량 공간에서의 풍부한 변환을 허용하면서 모수 추정은 선형의 깔끔함을 유지한다. 이것이 GLM 이 폭넓게 적용되는 기술적 비밀이다. 실무에서는 \(x\) 를 다항식·로그·spline 등으로 expand 한 design matrix 를 만들고, 그 위에서 GLM 을 돌린다.
4.3 설계행렬의 구조
\(\mathbf{X}\) 는 보통 다음과 같이 구성된다.
\[ \mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1,p-1} \\ 1 & x_{21} & x_{22} & \cdots & x_{2,p-1} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{n,p-1} \end{pmatrix} \]
- 첫 열의 \(1\) 은 절편 (intercept)
- 범주형 변수는 dummy coding 또는 effect coding 으로 여러 열에 펼쳐짐
- 연속 변수의 변환 (\(\log x\), \(x^2\), spline basis) 도 추가 열로 표현됨
4.4 식별성과 랭크 조건 (Identifiability and Rank Condition)
\(\boldsymbol{\beta}\) 가 유일하게 식별되려면 \(\mathbf{X}\) 가 full column rank 여야 한다 — 즉 \(\mathrm{rank}(\mathbf{X}) = p\).
랭크가 부족 (rank deficient) 한 상황:
- 완전 공선성 (perfect collinearity): 두 공변량이 1차 종속
- 더미 함정 (dummy trap): \(k\) 개 범주에 \(k\) 개 더미 변수 + 절편 — \(k-1\) 개만 써야 함
- \(n < p\): 표본 수보다 모수 수가 많을 때 (high-dimensional)
대응: 중복 변수 제거, 정칙화 (ridge/lasso), 일반화 역행렬. McCullagh §2.2 는 이 경우를 aliasing 이라 부른다.
직관: 랭크 부족이면 “데이터가 동일한 적합값을 주는 무한히 많은 \(\boldsymbol{\beta}\)” 가 존재한다. 어느 것을 고를지 데이터로 결정 불가하므로 선형 결합으로서 식별 가능한 양 (estimable function) 만 보고 가능하다.
4.5 Offset 항 (Offset)
특수한 형태로 계수가 1 로 고정된 covariate 를 포함할 수 있다.
\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} + o_i \]
여기서 \(o_i\) 는 offset — 알려진 양으로 추정 대상이 아니다. 가장 흔한 사례:
Rate modeling (비율 모델링): Poisson 로그 link 에서 노출 시간·인구 등을 보정.
\[ \log E[Y_i] = \log n_i + \mathbf{x}_i^\top \boldsymbol{\beta} \]
여기서 \(\log n_i\) 가 offset. 결과는 \(E[Y_i/n_i] = \exp(\mathbf{x}_i^\top \boldsymbol{\beta})\) 이므로 rate 자체를 모델링한 것과 같다.
직관: offset 은 “이 효과는 데이터에서 추정하지 말고 알려진 값을 그대로 써라” 는 지시다. 노출 수, 셀 면적, 위험인구 등 분모로 들어가야 할 양을 자연스럽게 처리한다.
5 연결 성분 (Link Component)
5.1 정의
연결함수 \(g\) 는 평균 \(\mu_i = E[Y_i]\) 와 선형예측자 \(\eta_i\) 를 잇는 단조(monotone)·미분가능(differentiable) 함수다.
\[ g(\mu_i) = \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} \]
역으로 \(\mu_i = g^{-1}(\eta_i) = g^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta})\). 역함수 \(g^{-1}\) 을 mean function 또는 inverse link 라고 부른다.
5.2 왜 필요한가 — 정의역 보장 (Range Constraint)
핵심 동기: \(\mu\) 의 정의역과 \(\eta\) 의 정의역이 다르다.
- \(\eta = \mathbf{x}^\top \boldsymbol{\beta}\) 는 \(\mathbf{x}, \boldsymbol{\beta}\) 에 제약이 없으므로 \(\mathbb{R}\) 전체를 달림
- \(\mu\) 는 분포에 따라 제약: Poisson 은 \((0, \infty)\), Binomial 은 \((0, 1)\), Gamma 는 \((0, \infty)\)
연결함수는 \(\mu\) 의 제한된 정의역을 \(\mathbb{R}\) 로 펴 주는 역할을 한다.
| 분포 | \(\mu\) 정의역 | 표준 \(g(\mu)\) | \(g^{-1}(\eta) = \mu\) |
|---|---|---|---|
| Normal | \(\mathbb{R}\) | identity: \(\mu\) | \(\eta\) |
| Poisson | \((0, \infty)\) | log: \(\log \mu\) | \(e^\eta\) |
| Binomial (proportion) | \((0, 1)\) | logit: \(\log \tfrac{\mu}{1-\mu}\) | \(\tfrac{e^\eta}{1+e^\eta}\) |
| Gamma | \((0, \infty)\) | inverse: \(-1/\mu\) 또는 log | \(-1/\eta\) 또는 \(e^\eta\) |
| Inverse Gaussian | \((0, \infty)\) | \(1/\mu^2\) | \(1/\sqrt{\eta}\) |
직관: link 는 “파라미터 공간의 경계 관리자(boundary keeper)” 다. 경계를 실수 전체로 펴 놓고, 그 위에서 선형 가정을 편하게 세울 수 있게 한다. Poisson 에서 identity link 를 쓰면 \(\mathbf{x}^\top \boldsymbol{\beta} < 0\) 인 영역에서 음의 클릭 수가 예측되지만, log link 는 \(\mu = e^\eta > 0\) 을 자동 보장한다.
5.3 정준연결 (Canonical Link)
정의: \(g(\mu) = \theta(\mu)\) — 즉, link 가 정준모수와 동일한 함수가 되도록 선택.
| 분포 (Distribution) | 정준모수 \(\theta(\mu)\) | 정준 link \(g\) |
|---|---|---|
| Normal | \(\mu\) | identity |
| Poisson | \(\log \mu\) | log |
| Binomial | \(\log \tfrac{\mu}{1-\mu}\) | logit |
| Gamma | \(-1/\mu\) | inverse |
| Inverse Gaussian | \(-1/(2\mu^2)\) | \(-1/(2\mu^2)\) |
왜 특별한가 — 정준연결 하에서 score 방정식이 놀랍게 단순해진다. 일반 link 의 score:
\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n \frac{(y_i - \mu_i)\, \mathbf{x}_i}{\mathrm{Var}(Y_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i} \]
정준연결에서는 \(\frac{\partial \mu_i}{\partial \eta_i} = b''(\theta_i) = \mathrm{Var}(Y_i)/a(\phi)\) 이므로 분산함수와 정확히 약분되어
\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \frac{1}{a(\phi)} \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\mu}) \]
가 된다. MLE 는 \(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu}) = \mathbf{0}\) — 정규방정식의 일반화된 형태, 즉 “잔차가 설계행렬과 직교(orthogonal)” 다.
추가 효과:
- 충분통계량 (sufficient statistic) 이 \(\mathbf{X}^\top \mathbf{y}\) 로 단순화 — 이 \(p\) 차원 벡터가 \(\boldsymbol{\beta}\) 추정에 필요한 모든 정보를 담음
- 관측정보 \(\mathcal{J}\) = 기대정보 \(\mathcal{I}\) — Newton-Raphson 과 Fisher scoring 이 일치
- 로그우도가 concave — 전역 최댓값 유일, 수렴 보장
직관: 정준연결은 “분포가 자신에게 가장 자연스럽다고 말하는 척도” 다. 그 척도 위에서 선형 가정을 세우면 대수가 정리되고 계산이 안정된다. 정준이 아니어도 모형은 유효하지만, 이론·계산의 편의를 일부 포기하는 대가가 있다.
5.4 비정준 연결의 실용 옵션 (Non-canonical Links)
정준이 아닌 link 도 자주 쓰인다 — 주로 해석·도메인 적합도 가 동기.
| 분포 | 정준 (Canonical) | 대안 (Alternatives) | 사용 동기 |
|---|---|---|---|
| Binomial | logit | probit \(\Phi^{-1}(\mu)\) | 잠재변수 정규 가정 (latent normal), 경제학·심리측정 표준 |
| Binomial | logit | complementary log-log \(\log\{-\log(1-\mu)\}\) | 비대칭 — 희귀 사건, 생존 위험률 (hazard) |
| Poisson | log | identity, square-root | 가산성·등분산화가 더 자연스러운 응용 |
| Gamma | inverse | log | 곱셈 효과 해석 (multiplicative interpretation) |
| 일반 | — | power family \(g_\lambda(\mu) = (\mu^\lambda - 1)/\lambda\) | Box-Cox 풍 연속 매개로 link 형태 자체를 데이터에서 추정 |
Probit vs Logit 의 비교 (Binomial):
| logit | probit | |
|---|---|---|
| 함수 | \(\log\tfrac{\mu}{1-\mu}\) | \(\Phi^{-1}(\mu)\) |
| 꼬리 (tail) | 약간 무거움 | 정규의 가벼운 꼬리 |
| 해석 | log-odds | 잠재 정규변수의 표준편차 단위 |
| 계수 척도 | logit 단위 (직접 odds ratio) | probit 단위 (간접) |
| 실무 | 의학·역학·머신러닝 표준 | 경제학·심리측정 표준 |
Cloglog 의 비대칭: \(g(\mu) = \log\{-\log(1-\mu)\}\) 는 \(\mu = 0\) 에서는 천천히, \(\mu = 1\) 에서는 빠르게 변한다 — 희귀 사건이 발견되기 시작한 직후의 hazard rate 모델링에 적합.
직관: 정준은 수학적 기본값 (default) 이고, 비정준은 특정 도메인의 자연어 다. 의료기기 부작용처럼 희귀하고 비대칭적인 binary 결과는 logit 보다 cloglog 가 형태를 더 잘 잡는다.
5.5 Link 선택의 실무 기준
McCullagh §2.2 는 link 선택 시 다음 셋을 동시에 고려하도록 권장한다.
- 정의역 보장 (Range): 예측값이 \(\mu\) 의 정의역을 자동으로 만족하는가
- 선형성 (Linearity): 변환된 척도에서 covariate 효과가 진짜로 선형으로 보이는가 (잔차 진단)
- 해석 가능성 (Interpretability): 도메인에서 자연스러운 척도인가 (확률, 로그-비율, 비용, 시간)
세 기준이 충돌하면 — 예: 해석은 identity 가 좋지만 정의역 보장은 log 가 필요 — 목적에 따라 우선순위를 정한다. 예측이 주목적이면 정의역 보장 우선, 효과 해석이 주목적이면 도메인 자연어 우선.
6 우도 함수 (Likelihood Functions)
세 구성요소(분포·systematic·link) 가 정해지면 그 위에서 작동하는 우도 함수(likelihood function) 가 자동으로 결정된다. 모든 GLM 추정·검정의 출발점이 여기다.
6.1 로그우도 (Log-likelihood)
관측 \(Y_1, \ldots, Y_n\) 이 독립이고 각각 EDF 분포를 따른다면 결합 로그우도는
\[ \ell(\boldsymbol{\beta}, \phi) = \sum_{i=1}^n \log f(y_i; \theta_i, \phi) = \sum_{i=1}^n \left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]
여기서 \(\theta_i = \theta(\mu_i)\) 이고 \(\mu_i = g^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta})\) — 즉 \(\theta_i\) 가 \(\boldsymbol{\beta}\) 의 합성함수 (composite function) 다.
직관: 로그우도는 “관찰된 데이터를 모형이 얼마나 그럴듯하게 설명하는가” 를 한 숫자로 압축한다. \(\boldsymbol{\beta}\) 가 곡선 안에 들어 있는 위치는 link 와 분포의 합성을 따라가야 보인다 — 이것이 GLM 우도가 선형모형 우도보다 직접 다루기 까다로운 이유다.
6.2 Score Function (점수함수)
모수에 대한 1차 미분을 score function 또는 score 이라 한다. 체인룰 (chain rule) 로 풀면:
\[ \mathbf{u}(\boldsymbol{\beta}) = \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n \frac{\partial \ell_i}{\partial \theta_i} \cdot \frac{\partial \theta_i}{\partial \mu_i} \cdot \frac{\partial \mu_i}{\partial \eta_i} \cdot \frac{\partial \eta_i}{\partial \boldsymbol{\beta}} \]
각 항을 EDF 구조로 풀면 (\(\partial \ell_i/\partial \theta_i = (y_i - \mu_i)/a(\phi)\), \(\partial \theta_i/\partial \mu_i = 1/V(\mu_i)\), \(\partial \eta_i/\partial \boldsymbol{\beta} = \mathbf{x}_i\))
\[ \boxed{\;\mathbf{u}(\boldsymbol{\beta}) = \frac{1}{a(\phi)} \sum_{i=1}^n \frac{(y_i - \mu_i) \mathbf{x}_i}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\;} \]
6.3 우도 방정식 (Likelihood Equations)
MLE \(\hat{\boldsymbol{\beta}}\) 는 \(\mathbf{u}(\boldsymbol{\beta}) = \mathbf{0}\) 을 만족한다. 이를 우도 방정식 (likelihood equations) 또는 score equations 이라 한다.
\[ \sum_{i=1}^n \frac{(y_i - \hat\mu_i) \mathbf{x}_i}{V(\hat\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\bigg|_{\hat\mu_i} = \mathbf{0} \]
직관: 이 식은 “가중 잔차의 가중합 = 0” 이라는 조건이다. 가중치 \(\frac{1}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\) 는 분산이 큰 관측은 덜, 작은 관측은 더 신뢰하라는 자동 가중을 표현한다. OLS 의 정규방정식 \(\mathbf{X}^\top(\mathbf{y} - \hat{\boldsymbol{\mu}}) = \mathbf{0}\) 의 일반화된 형태다.
6.4 Profile vs Joint Likelihood
분산모수 \(\phi\) 가 미지인 경우, 두 모수 \((\boldsymbol{\beta}, \phi)\) 를 동시에 추정해야 한다. GLM 의 우아한 점은 score 의 \(\boldsymbol{\beta}\) 부분이 \(\phi\) 에 비례 상수로만 의존한다는 사실이다. 따라서 \(\hat{\boldsymbol{\beta}}\) 는 \(\phi\) 와 무관하게 풀 수 있고, 그 후 별도로 \(\hat\phi\) 를 추정한다 (보통 Pearson 또는 deviance 기반).
직관: 관심 모수 (\(\boldsymbol{\beta}\)) 와 nuisance 모수 (\(\phi\)) 가 우도에서 깔끔히 분리되는 구조라서, 추정이 두 단계로 떨어진다. 이 분리가 GLM 의 추정을 OLS 만큼 단순하게 유지하는 비결이다.
7 충분통계량과 정준연결 (Sufficient Statistics and Canonical Links)
§2.2 에서 가장 깊은 통찰: 정준연결을 쓰는 순간 \(\boldsymbol{\beta}\) 의 충분통계량(sufficient statistic) 이 \(\mathbf{X}^\top \mathbf{y}\) 로 떨어진다. 이 한 사실이 GLM 의 추정·계산·이론을 한꺼번에 단순화한다.
7.1 충분성 (Sufficiency) 복습
통계량 \(T(\mathbf{y})\) 가 모수 \(\boldsymbol{\beta}\) 에 대해 충분(sufficient) 하다는 것은:
\[ P(\mathbf{y} \mid T(\mathbf{y}) = t,\, \boldsymbol{\beta}) = P(\mathbf{y} \mid T(\mathbf{y}) = t) \]
즉, \(T\) 가 주어지면 데이터의 나머지는 \(\boldsymbol{\beta}\) 에 대해 추가 정보가 없다. Neyman-Fisher factorization theorem 에 의해 이 조건은 다음과 동치다.
\[ f(\mathbf{y}; \boldsymbol{\beta}) = h(\mathbf{y}) \cdot g(T(\mathbf{y}), \boldsymbol{\beta}) \]
직관: \(T\) 가 충분하면 \(\mathbf{y}\) 를 \(T\) 로 압축해도 추론 손실이 없다. 1 만 개 관측을 5 차원 통계량으로 줄여도 추정치·표준오차·검정통계량이 동일하다 — 데이터 압축의 이론적 정당화다.
7.2 GLM 에서 \(\mathbf{X}^\top \mathbf{y}\) 가 충분통계량인 이유
EDF 결합밀도를 다시 쓰자.
\[ f(\mathbf{y}; \boldsymbol{\theta}, \phi) = \exp\!\left\{ \frac{\sum_i y_i \theta_i - \sum_i b(\theta_i)}{a(\phi)} + \sum_i c(y_i, \phi) \right\} \]
핵심 양은 \(\sum_i y_i \theta_i\). 정준연결 (\(g(\mu) = \theta\)) 하에서 \(\theta_i = \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta}\) 이므로
\[ \sum_{i=1}^n y_i \theta_i = \sum_{i=1}^n y_i (\mathbf{x}_i^\top \boldsymbol{\beta}) = \boldsymbol{\beta}^\top \mathbf{X}^\top \mathbf{y} \]
결합밀도가 \(\boldsymbol{\beta}\) 에 의존하는 부분은 오직 \(\mathbf{X}^\top \mathbf{y}\) 를 통해서다. Neyman-Fisher factorization 의 \(g(\cdot, \boldsymbol{\beta})\) 가 \(T = \mathbf{X}^\top \mathbf{y}\) 의 함수가 되므로
\[ \boxed{\;T(\mathbf{y}) = \mathbf{X}^\top \mathbf{y} \;\;\text{는}\;\; \boldsymbol{\beta} \;\text{의 minimal sufficient statistic 이다}\;} \]
직관: \(n\) 개 관측을 \(p\) 개 숫자로 압축해도 \(\boldsymbol{\beta}\) 추정에 필요한 정보가 모두 보존된다 — OLS 의 “\(\mathbf{X}^\top\mathbf{y}\) 와 \(\mathbf{X}^\top\mathbf{X}\) 만 있으면 회귀계수가 나온다” 는 사실의 GLM 일반화다. 비정준 link 에서는 \(\sum_i y_i \theta_i = \sum_i y_i \theta(g^{-1}(\mathbf{x}_i^\top\boldsymbol{\beta}))\) 가 \(\boldsymbol{\beta}\) 의 비선형 함수가 되어 이 압축이 깨진다 — 추정에 모든 \(y_i\) 를 따로 봐야 한다.
7.3 우도 방정식과의 동치성 (Equivalence with Likelihood Equations)
정준연결에서 score 가 \(\mathbf{u} = \mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu})/a(\phi)\) 로 단순화된다는 사실은 충분통계량과 같은 동전의 두 면이다. \(\mathbf{u} = \mathbf{0}\) 을 다시 쓰면
\[ \mathbf{X}^\top \mathbf{y} = \mathbf{X}^\top \boldsymbol{\mu}(\boldsymbol{\beta}) \]
좌변은 관측된 충분통계량, 우변은 그 기댓값 (\(E[\mathbf{X}^\top \mathbf{Y}] = \mathbf{X}^\top \boldsymbol{\mu}\)). MLE 는 두 양이 일치하도록 \(\boldsymbol{\beta}\) 를 잡는 것 — 곧 method-of-moments 와 형식이 같다.
직관: 정준연결에서 MLE 의 의미가 매우 깔끔해진다 — “충분통계량의 관측값과 모형이 예측한 기댓값을 일치시켜라”. 이 단순함이 정준연결을 수학적·계산적 default 로 만드는 가장 큰 이유다.
7.4 정준연결의 추가 결과 한눈 정리
| 결과 (Result) | 일반 link | 정준 link (canonical) |
|---|---|---|
| 충분통계량 | 데이터 전체 \(\mathbf{y}\) 필요 | \(\mathbf{X}^\top \mathbf{y}\) (\(p\) 차원) 로 축약 |
| Score function | 가중치 동반한 복잡한 형태 | \(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu})/a(\phi)\) |
| 관측정보 = 기대정보 (\(\mathcal{J} = \mathcal{I}\))? | 일반적으로 아니오 | 예 |
| Newton-Raphson = Fisher scoring? | 아니오 | 예 |
| 로그우도가 concave? | 일반적으로 아니오 | 예 → 전역 수렴 보장 |
| 추정방정식 | \(\sum w_i (y_i - \mu_i) \mathbf{x}_i = 0\) (가중) | \(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu}) = 0\) (비가중) |
직관: 정준연결은 단지 “수학적으로 깔끔” 이라는 미적 가치가 아니라 계산 안정성·전역 수렴·데이터 압축이라는 실용적 이득을 동반한다. 비정준 link 가 도메인 해석에 더 자연스러울 때만 이 이득을 포기하는 것이 일반적 권장이다.
8 세 구성요소의 통합: 한 줄 요약
GLM 의 정의를 한 식으로 압축하면
\[ \underbrace{Y_i \sim \text{EDF}(\mu_i, \phi)}_{\text{Random}} \;\; \text{with} \;\; \underbrace{g(\mu_i)}_{\text{Link}} \;=\; \underbrace{\mathbf{x}_i^\top \boldsymbol{\beta}}_{\text{Systematic}} \]
이 한 줄이 정규 회귀, 로지스틱 회귀, Poisson 회귀, Gamma 회귀를 모두 포섭한다. 분포·link 만 바꿔서 모든 회귀가 같은 추정 알고리즘 (IRLS) 과 같은 적합도 지표 (deviance) 로 풀린다.
| 모형 (Model) | Random | Link | \(\mathrm{Var}(Y)\) |
|---|---|---|---|
| OLS | Normal | identity | \(\sigma^2\) |
| Logistic regression | Binomial | logit | \(\mu(1-\mu)/n\) |
| Poisson regression | Poisson | log | \(\mu\) |
| Gamma regression | Gamma | inverse 또는 log | \(\phi \mu^2\) |
| Probit regression | Binomial | probit | \(\mu(1-\mu)/n\) |
| Negative binomial | NegBin | log | \(\mu + \mu^2/k\) |
9 코드 예시: 같은 데이터, 다른 components
같은 covariate 구조를 유지하면서 random 과 link 를 바꿔 가며 적합한다. R 의 glm() 이 components 분리 철학을 가장 명료하게 드러낸다.
set.seed(0)
n <- 200
x <- rnorm(n)
# 데이터 1: 카운트
y_count <- rpois(n, exp(0.5 + 0.8 * x))
# 데이터 2: 이항
y_bin <- rbinom(n, 1, plogis(0.5 + 0.8 * x))
# 데이터 3: 양의 연속
y_gam <- rgamma(n, shape = 2, rate = 2 / exp(0.5 + 0.8 * x))
# 같은 covariate 구조, 다른 components
fit_pois <- glm(y_count ~ x, family = poisson(link = "log"))
fit_logit <- glm(y_bin ~ x, family = binomial(link = "logit"))
fit_prob <- glm(y_bin ~ x, family = binomial(link = "probit"))
fit_cll <- glm(y_bin ~ x, family = binomial(link = "cloglog"))
fit_gam <- glm(y_gam ~ x, family = Gamma(link = "log"))
# family = ... (link = ...) 가 components 를 명시적으로 선택직관: family = poisson(link = "log") 한 줄이 확률 성분 + 연결 성분 을 동시에 선택한다. ~ x 우변이 체계적 성분. 세 부품을 따로 끼우는 인터페이스가 GLM 의 모듈성을 그대로 노출한다.
# Python (statsmodels)
import statsmodels.api as sm
import numpy as np
X = sm.add_constant(x) # design matrix with intercept
# 같은 X, 다른 family/link
fit_pois = sm.GLM(y_count, X, family=sm.families.Poisson()).fit()
fit_log = sm.GLM(y_bin, X, family=sm.families.Binomial(link=sm.families.links.logit())).fit()
fit_prob = sm.GLM(y_bin, X, family=sm.families.Binomial(link=sm.families.links.probit())).fit()
fit_gam = sm.GLM(y_gam, X, family=sm.families.Gamma(link=sm.families.links.log())).fit()10 요약 정리
- GLM 은 확률 성분 (random) + 체계적 성분 (systematic) + 연결 성분 (link) 의 세 부품을 독립적으로 선택하는 회귀 프레임워크다
- 확률 성분은 EDF 분포로 표현되며, \(b(\theta)\) 한 함수가 평균(\(\mu = b'\)) 과 분산(\(V = b''\)) 을 모두 결정 — 분산함수가 분포의 지문
- 체계적 성분은 모수에 대한 선형결합 \(\eta = \mathbf{X}\boldsymbol{\beta}\) — 공변량 자체는 변환·교호작용으로 풍부히 확장 가능, full rank 조건이 식별성 보장
- 연결 성분은 \(\mu\) 의 제한된 정의역을 \(\mathbb{R}\) 로 펴 주는 단조 미분가능 함수 — 정준연결 \(g = \theta\) 는 수학적 단순성, 비정준은 도메인 적합도로 선택
- 세 부품의 선택을 표시하는
family = distribution(link = ...)인터페이스가 GLM 모듈성의 직접적 표현 - 우도 함수 (likelihood function) 는 components 가 결정되는 즉시 자동으로 정해지며, score \(\mathbf{u} = \partial\ell/\partial\boldsymbol{\beta}\) 와 우도 방정식 \(\mathbf{u} = \mathbf{0}\) 이 모든 추정의 출발점
- 충분통계량 (sufficient statistic) 이 정준연결 하에서 \(\mathbf{X}^\top \mathbf{y}\) (\(p\) 차원) 로 압축됨이 GLM 의 가장 깊은 결과 — 추정 단순화·전역 수렴·계산 안정성을 동시에 가져옴
11 관련 주제
선행 지식
- GLM 이론 기초 — 지수족·정준연결·이탈도·IRLS — Ch.2 전체 overview
- GLM Process of Model Fitting — §2.1 워크플로우 (model selection / estimation / prediction)
- 지수족 (Exponential Family) — 정준모수, 충분통계량, 자연 지수족
- 최대우도추정 (MLE) — 추정의 이론 기반
관련 포스트
- GLM 응용 통합 — t-test·ANOVA·로지스틱·포아송 — components 선택의 실무 사례
- Logistic Regression: The Model — Binomial + logit 의 구체 사례
후속 주제
- Sufficient Statistics & Information Matrix (McCullagh §2.2.3-2.2.6) — 추정 이론 심화
- Deviance & Goodness of Fit (McCullagh §2.4) — 적합도 평가 도구
- Iterative Weighted Least Squares (McCullagh §2.5) — 추정 알고리즘 상세
- Quasi-likelihood (McCullagh Ch.9) — 분포 미지정·variance function 만 지정하는 추정
12 참고문헌
- McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. §2.2 The components of a generalized linear model.
- Jørgensen, B. (1987). “Exponential dispersion models.” Journal of the Royal Statistical Society B, 49(2), 127-162.
- Faraway, J. J. (2016). Extending the Linear Model with R (2nd ed.). Chapman & Hall/CRC.