Kwangmin Kim - The Components of a GLM — Random·Systematic·Link 의 상세 해부

1 왜 “구성요소” 인가

GLM 의 본질은 세 가지 모델링 결정을 분리한 데 있다. 고전 정규 선형모형이 분포·평균구조·분산구조를 한 묶음으로 가정한 것과 달리, GLM 은 이 셋을 독립적으로 선택할 수 있는 부품(component) 으로 풀어 놓는다.

구성요소 (Component)	무엇을 결정하나	모델링 자유도
확률 성분 (Random)	\(Y\) 의 분포 — 곧 평균-분산 관계	분포 선택
체계적 성분 (Systematic)	공변량이 어떻게 결합되는가	선형 결합 + 변환·교호작용
연결 성분 (Link)	평균과 선형결합을 어떻게 잇는가	단조 미분가능 함수 선택

직관: 셋이 분리되어 있다는 뜻은 하나를 바꿔도 나머지는 그대로 둘 수 있다는 뜻이다. 분포를 정규에서 포아송으로 바꾸면서 link 와 covariate 구조는 유지할 수 있다. 이 모듈성(modularity) 이 GLM 을 거대한 회귀 모형 패밀리로 만든다.

본 포스트는 GLM 이론 기초 에서 짧게 다룬 components 정의를 McCullagh §2.2 의 흐름대로 각 구성요소의 형식적 정의·수학적 유도·직관·예시로 확장한다.

2 일반화의 정확한 의미 (The Generalization)

GLM 이 “일반화한다 (generalizes)” 는 것은 정규 선형모형(normal linear model) 에 묶여 있던 세 가정을 풀어 따로 고를 수 있게 한다는 뜻이다. 형식적으로 정리하면 다음과 같다.

가정 (Assumption)	정규 선형모형 (Normal LM)	GLM 의 일반화
분포 (Distribution)	\(Y \sim N(\mu, \sigma^2)\) — 정규 고정	EDF 어느 분포든 가능
평균 구조 (Mean structure)	\(\mu = \mathbf{x}^\top \boldsymbol{\beta}\) — identity link 강제	\(g(\mu) = \mathbf{x}^\top \boldsymbol{\beta}\) — 임의의 단조 미분가능 \(g\)
분산 구조 (Variance structure)	\(\mathrm{Var}(Y) = \sigma^2\) — 평균과 무관	\(\mathrm{Var}(Y) = V(\mu) \phi\) — 분포 선택이 결정

세 가정이 분리(decoupling) 가능 하다는 점이 일반화의 본질이다. 정규 선형모형은 이 셋이 모두 묶여 있어 “\(Y\) 가 정규가 아닌 것 같다” 는 진단 한 번에 모형 전체를 다시 짜야 했다. GLM 에서는 분포만 바꾸고, 또는 link 만 바꾸고, 또는 covariate 구조만 바꾸는 부분 수정이 가능하다.

직관: 일반화는 “더 많은 분포를 다룬다” 를 넘어 “모델링 결정을 모듈로 분리해 각각 검증·교체할 수 있게 한다” 는 의미다. 진단 → 부분 수정의 사이클이 짧아져 분석 속도와 신뢰성이 동시에 올라간다.

3 확률 성분 (Random Component)

3.1 기본 정의

관측값 \(Y_1, \ldots, Y_n\) 이 독립이고, 각각 다음 형태의 밀도(density) 또는 확률질량(probability mass) 함수를 가진다.

\[ f(y_i; \theta_i, \phi) = \exp\!\left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]

이 형태를 지수 분산족 (Exponential Dispersion Family, EDF) 이라 한다 (Jørgensen, 1987). 이때

기호	이름	역할
\(\theta_i\)	정준모수 (canonical parameter, natural parameter)	관측 \(i\) 마다 다름, 평균을 결정
\(\phi\)	분산모수 (dispersion parameter)	모든 관측에 공통, 분산 척도
\(b(\theta)\)	누적생성함수 (cumulant function)	미분으로 적률(moment) 산출
\(a(\phi)\)	분산 척도 함수	보통 \(a(\phi) = \phi/w_i\) (\(w_i\) 는 사전 가중치 prior weight)
\(c(y, \phi)\)	정규화항 (normalizing term)	\(\theta\) 에 의존하지 않아 추정에 영향 없음

직관: 이 형태가 특별한 이유는 \(\theta\) 와 \(y\) 가 \(y\theta\) 형태로만 곱해져 등장하기 때문이다. 이 구조 덕분에 로그우도가 \(\theta\) 에 대해 매우 깔끔한 형태를 가지고, 적률·정보량·MLE 가 모두 \(b(\cdot)\) 와 그 미분으로 표현된다.

3.2 평균과 분산의 유도 (Derivation of Mean and Variance)

EDF 의 핵심 결과는 \(b(\theta)\) 의 미분이 곧 적률을 준다는 것이다. 유도를 상세히 보자.

Score function 의 기댓값 = 0 (정규조건 regularity conditions 하에서):

\[ E\!\left[\frac{\partial \log f}{\partial \theta}\right] = 0 \]

EDF 에서 \(\frac{\partial \log f}{\partial \theta} = \frac{y - b'(\theta)}{a(\phi)}\) 이므로

\[ E\!\left[\frac{Y - b'(\theta)}{a(\phi)}\right] = 0 \;\;\Rightarrow\;\; E[Y] = b'(\theta) \]

따라서 평균 \(\mu = b'(\theta)\).

Fisher information identity:

\[ E\!\left[\left(\frac{\partial \log f}{\partial \theta}\right)^2\right] = -E\!\left[\frac{\partial^2 \log f}{\partial \theta^2}\right] \]

좌변은 \(\mathrm{Var}(Y)/a(\phi)^2\), 우변은 \(b''(\theta)/a(\phi)\). 등식을 풀면

\[ \boxed{\;\mathrm{Var}(Y) = b''(\theta)\, a(\phi)\;} \]

직관: 하나의 함수 \(b(\theta)\) 가 분포의 평균과 분산을 모두 결정한다. \(b'\) 가 평균, \(b''\) 가 분산의 척도다. 이것이 EDF 가 “평균을 정하면 분산이 자동으로 따라오는” 분포족인 이유다 (정규분포만이 이 결합에서 자유롭다 — \(b'' = 1\) 상수).

3.3 분산함수 \(V(\mu)\) — 분포의 핵심 지문

\(\mu = b'(\theta)\) 를 \(\theta\) 에 대해 풀어 \(\theta(\mu)\) 로 쓸 수 있다. 그러면 분산을 평균의 함수로 표현할 수 있다.

\[ \mathrm{Var}(Y) = V(\mu)\, a(\phi), \qquad V(\mu) := b''(\theta(\mu)) \]

\(V(\mu)\) 를 분산함수 (variance function) 라 하며, 이는 분포를 결정하는 핵심 지문이다.

분포 (Distribution)	\(V(\mu)\)	평균-분산 관계
Normal \(N(\mu, \sigma^2)\)	\(1\)	분산 = 상수 (homoscedastic)
Poisson \(\mathrm{Poi}(\mu)\)	\(\mu\)	분산 = 평균 (equidispersion)
Binomial \(\mathrm{Bin}(n, \mu)/n\)	\(\mu(1-\mu)\)	\(\mu = 0.5\) 에서 최대, 극단에서 0
Gamma \(G(\mu, \nu)\)	\(\mu^2\)	CV(coefficient of variation) 일정
Inverse Gaussian \(IG(\mu, \sigma^2)\)	\(\mu^3\)	분산이 평균의 3제곱
Negative Binomial	\(\mu + \mu^2/k\)	Poisson 의 과산포 확장

Tweedie 분포족 — \(V(\mu) = \mu^p\)

\(V(\mu) = \mu^p\) 형태는 Tweedie family 라 불리며, \(p\) 값에 따라 위 분포들이 특수 사례로 등장한다.

\(p = 0\): Normal
\(p = 1\): Poisson
\(p = 2\): Gamma
\(p = 3\): Inverse Gaussian
\(1 < p < 2\): Compound Poisson-Gamma (보험 계리에서 손해액 모델링에 사용)

직관: 분산함수는 “평균이 한 단위 움직이면 분산이 얼마나 따라 움직이는가” 를 말해 준다. 카운트 데이터에서 평균 클릭 수가 10 → 100 으로 늘면 분산도 10 배 증가한다 (Poisson, \(V(\mu) = \mu\)). 이 사실을 모형이 “알아야” 표준오차가 맞게 나온다. OLS 는 모든 관측에 같은 \(\sigma^2\) 를 강제하므로 평균이 큰 영역에서는 underweight, 작은 영역에서는 overweight 이 발생한다.

3.4 주요 분포의 EDF 형태 확인

각 분포가 실제로 EDF 형태로 정확히 표현되는지 직접 전개한다.

Normal \(N(\mu, \sigma^2)\):

\[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\} = \exp\!\left\{ \frac{y\mu - \mu^2/2}{\sigma^2} - \frac{y^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) \right\} \]

대응: \(\theta = \mu\), \(b(\theta) = \theta^2/2\), \(a(\phi) = \phi = \sigma^2\). 검산: \(b'(\theta) = \theta = \mu\), \(b''(\theta) = 1\) → \(V(\mu) = 1\). ✓

Poisson \(\mathrm{Poi}(\mu)\):

\[ \frac{\mu^y e^{-\mu}}{y!} = \exp\!\left\{ y\log\mu - \mu - \log y! \right\} \]

대응: \(\theta = \log\mu\) (즉 자연모수가 로그 평균!), \(b(\theta) = e^\theta = \mu\), \(a(\phi) = 1\). 검산: \(b'(\theta) = e^\theta = \mu\), \(b''(\theta) = e^\theta = \mu\) → \(V(\mu) = \mu\). ✓

Binomial (성공 비율 \(Y/n\), \(n\) 은 알려진 시행 수):

\[ \binom{n}{ny}\exp\!\left\{ n\!\left[ y\log\frac{\mu}{1-\mu} + \log(1-\mu) \right] \right\} \]

대응: \(\theta = \log\!\tfrac{\mu}{1-\mu}\) (즉 자연모수가 로짓!), \(b(\theta) = \log(1+e^\theta)\), \(a(\phi) = 1/n\). 검산: \(b'(\theta) = e^\theta/(1+e^\theta) = \mu\), \(b''(\theta) = \mu(1-\mu)\) → \(V(\mu) = \mu(1-\mu)\). ✓

Gamma \(G(\mu, \nu)\) (\(\nu\) = shape, \(\mu\) = mean):

\[ \frac{1}{\Gamma(\nu)} \left(\frac{\nu}{\mu}\right)^\nu y^{\nu-1} \exp\!\left\{-\frac{\nu y}{\mu}\right\} \]

대응: \(\theta = -1/\mu\), \(b(\theta) = -\log(-\theta)\), \(a(\phi) = 1/\nu\). 검산: \(b'(\theta) = -1/\theta = \mu\), \(b''(\theta) = 1/\theta^2 = \mu^2\) → \(V(\mu) = \mu^2\). ✓

직관: 각 분포의 자연모수 \(\theta\) 가 우연이 아니라 분포 자체가 가장 자연스럽다고 말하는 척도 다. Poisson 은 로그, Binomial 은 로짓, Gamma 는 역수. 이 자연스러움이 다음에 다룰 “정준연결” 의 기반이다.

4 체계적 성분 (Systematic Component)

4.1 선형예측자 (Linear Predictor)

각 관측 \(i\) 에 대해 공변량 벡터 \(\mathbf{x}_i \in \mathbb{R}^p\) 와 모수 벡터 \(\boldsymbol{\beta} \in \mathbb{R}^p\) 의 내적으로 선형예측자를 정의한다.

\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} = \sum_{j=1}^p x_{ij} \beta_j \]

행렬 형태로: \(\boldsymbol{\eta} = \mathbf{X} \boldsymbol{\beta}\), 여기서 \(\mathbf{X}\) 는 \(n \times p\) 설계행렬 (design matrix, model matrix) 이다.

4.2 “선형” 의 정확한 의미

GLM 에서 “선형” 은 모수 \(\boldsymbol{\beta}\) 에 대한 선형성을 뜻한다. 공변량 \(x_j\) 자체는 변환되어 등장할 수 있다.

형태 (Form)	선형성 만족?	비고
\(\beta_0 + \beta_1 x\)	✓	표준 선형
\(\beta_0 + \beta_1 x + \beta_2 x^2\)	✓	\(x^2\) 은 새 공변량으로 간주
\(\beta_0 + \beta_1 \log x\)	✓	변환된 covariate
\(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2\)	✓	교호작용 (interaction)
\(\beta_0 + \beta_1 x^{\beta_2}\)	✗	\(\beta_2\) 가 지수에 — 비선형
\(\beta_0 / (1 + \beta_1 e^{-\beta_2 x})\)	✗	logistic growth — NLM 영역

직관: GLM 은 공변량 공간에서의 풍부한 변환을 허용하면서 모수 추정은 선형의 깔끔함을 유지한다. 이것이 GLM 이 폭넓게 적용되는 기술적 비밀이다. 실무에서는 \(x\) 를 다항식·로그·spline 등으로 expand 한 design matrix 를 만들고, 그 위에서 GLM 을 돌린다.

4.3 설계행렬의 구조

\(\mathbf{X}\) 는 보통 다음과 같이 구성된다.

\[ \mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1,p-1} \\ 1 & x_{21} & x_{22} & \cdots & x_{2,p-1} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{n,p-1} \end{pmatrix} \]

첫 열의 \(1\) 은 절편 (intercept)
범주형 변수는 dummy coding 또는 effect coding 으로 여러 열에 펼쳐짐
연속 변수의 변환 (\(\log x\), \(x^2\), spline basis) 도 추가 열로 표현됨

4.4 식별성과 랭크 조건 (Identifiability and Rank Condition)

\(\boldsymbol{\beta}\) 가 유일하게 식별되려면 \(\mathbf{X}\) 가 full column rank 여야 한다 — 즉 \(\mathrm{rank}(\mathbf{X}) = p\).

랭크가 부족 (rank deficient) 한 상황:

완전 공선성 (perfect collinearity): 두 공변량이 1차 종속
더미 함정 (dummy trap): \(k\) 개 범주에 \(k\) 개 더미 변수 + 절편 — \(k-1\) 개만 써야 함
\(n < p\): 표본 수보다 모수 수가 많을 때 (high-dimensional)

대응: 중복 변수 제거, 정칙화 (ridge/lasso), 일반화 역행렬. McCullagh §2.2 는 이 경우를 aliasing 이라 부른다.

직관: 랭크 부족이면 “데이터가 동일한 적합값을 주는 무한히 많은 \(\boldsymbol{\beta}\)” 가 존재한다. 어느 것을 고를지 데이터로 결정 불가하므로 선형 결합으로서 식별 가능한 양 (estimable function) 만 보고 가능하다.

4.5 Offset 항 (Offset)

특수한 형태로 계수가 1 로 고정된 covariate 를 포함할 수 있다.

\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} + o_i \]

여기서 \(o_i\) 는 offset — 알려진 양으로 추정 대상이 아니다. 가장 흔한 사례:

Rate modeling (비율 모델링): Poisson 로그 link 에서 노출 시간·인구 등을 보정.

\[ \log E[Y_i] = \log n_i + \mathbf{x}_i^\top \boldsymbol{\beta} \]

여기서 \(\log n_i\) 가 offset. 결과는 \(E[Y_i/n_i] = \exp(\mathbf{x}_i^\top \boldsymbol{\beta})\) 이므로 rate 자체를 모델링한 것과 같다.

직관: offset 은 “이 효과는 데이터에서 추정하지 말고 알려진 값을 그대로 써라” 는 지시다. 노출 수, 셀 면적, 위험인구 등 분모로 들어가야 할 양을 자연스럽게 처리한다.

5 연결 성분 (Link Component)

5.1 정의

연결함수 \(g\) 는 평균 \(\mu_i = E[Y_i]\) 와 선형예측자 \(\eta_i\) 를 잇는 단조(monotone)·미분가능(differentiable) 함수다.

\[ g(\mu_i) = \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} \]

역으로 \(\mu_i = g^{-1}(\eta_i) = g^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta})\). 역함수 \(g^{-1}\) 을 mean function 또는 inverse link 라고 부른다.

5.2 왜 필요한가 — 정의역 보장 (Range Constraint)

핵심 동기: \(\mu\) 의 정의역과 \(\eta\) 의 정의역이 다르다.

\(\eta = \mathbf{x}^\top \boldsymbol{\beta}\) 는 \(\mathbf{x}, \boldsymbol{\beta}\) 에 제약이 없으므로 \(\mathbb{R}\) 전체를 달림
\(\mu\) 는 분포에 따라 제약: Poisson 은 \((0, \infty)\), Binomial 은 \((0, 1)\), Gamma 는 \((0, \infty)\)

연결함수는 \(\mu\) 의 제한된 정의역을 \(\mathbb{R}\) 로 펴 주는 역할을 한다.

분포	\(\mu\) 정의역	표준 \(g(\mu)\)	\(g^{-1}(\eta) = \mu\)
Normal	\(\mathbb{R}\)	identity: \(\mu\)	\(\eta\)
Poisson	\((0, \infty)\)	log: \(\log \mu\)	\(e^\eta\)
Binomial (proportion)	\((0, 1)\)	logit: \(\log \tfrac{\mu}{1-\mu}\)	\(\tfrac{e^\eta}{1+e^\eta}\)
Gamma	\((0, \infty)\)	inverse: \(-1/\mu\) 또는 log	\(-1/\eta\) 또는 \(e^\eta\)
Inverse Gaussian	\((0, \infty)\)	\(1/\mu^2\)	\(1/\sqrt{\eta}\)

직관: link 는 “파라미터 공간의 경계 관리자(boundary keeper)” 다. 경계를 실수 전체로 펴 놓고, 그 위에서 선형 가정을 편하게 세울 수 있게 한다. Poisson 에서 identity link 를 쓰면 \(\mathbf{x}^\top \boldsymbol{\beta} < 0\) 인 영역에서 음의 클릭 수가 예측되지만, log link 는 \(\mu = e^\eta > 0\) 을 자동 보장한다.

5.3 정준연결 (Canonical Link)

정의: \(g(\mu) = \theta(\mu)\) — 즉, link 가 정준모수와 동일한 함수가 되도록 선택.

분포 (Distribution)	정준모수 \(\theta(\mu)\)	정준 link \(g\)
Normal	\(\mu\)	identity
Poisson	\(\log \mu\)	log
Binomial	\(\log \tfrac{\mu}{1-\mu}\)	logit
Gamma	\(-1/\mu\)	inverse
Inverse Gaussian	\(-1/(2\mu^2)\)	\(-1/(2\mu^2)\)

왜 특별한가 — 정준연결 하에서 score 방정식이 놀랍게 단순해진다. 일반 link 의 score:

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n \frac{(y_i - \mu_i)\, \mathbf{x}_i}{\mathrm{Var}(Y_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i} \]

정준연결에서는 \(\frac{\partial \mu_i}{\partial \eta_i} = b''(\theta_i) = \mathrm{Var}(Y_i)/a(\phi)\) 이므로 분산함수와 정확히 약분되어

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \frac{1}{a(\phi)} \mathbf{X}^\top (\mathbf{y} - \boldsymbol{\mu}) \]

가 된다. MLE 는 \(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu}) = \mathbf{0}\) — 정규방정식의 일반화된 형태, 즉 “잔차가 설계행렬과 직교(orthogonal)” 다.

추가 효과:

충분통계량 (sufficient statistic) 이 \(\mathbf{X}^\top \mathbf{y}\) 로 단순화 — 이 \(p\) 차원 벡터가 \(\boldsymbol{\beta}\) 추정에 필요한 모든 정보를 담음
관측정보 \(\mathcal{J}\) = 기대정보 \(\mathcal{I}\) — Newton-Raphson 과 Fisher scoring 이 일치
로그우도가 concave — 전역 최댓값 유일, 수렴 보장

직관: 정준연결은 “분포가 자신에게 가장 자연스럽다고 말하는 척도” 다. 그 척도 위에서 선형 가정을 세우면 대수가 정리되고 계산이 안정된다. 정준이 아니어도 모형은 유효하지만, 이론·계산의 편의를 일부 포기하는 대가가 있다.

5.4 비정준 연결의 실용 옵션 (Non-canonical Links)

정준이 아닌 link 도 자주 쓰인다 — 주로 해석·도메인 적합도 가 동기.

분포	정준 (Canonical)	대안 (Alternatives)	사용 동기
Binomial	logit	probit \(\Phi^{-1}(\mu)\)	잠재변수 정규 가정 (latent normal), 경제학·심리측정 표준
Binomial	logit	complementary log-log \(\log\{-\log(1-\mu)\}\)	비대칭 — 희귀 사건, 생존 위험률 (hazard)
Poisson	log	identity, square-root	가산성·등분산화가 더 자연스러운 응용
Gamma	inverse	log	곱셈 효과 해석 (multiplicative interpretation)
일반	—	power family \(g_\lambda(\mu) = (\mu^\lambda - 1)/\lambda\)	Box-Cox 풍 연속 매개로 link 형태 자체를 데이터에서 추정

Probit vs Logit 의 비교 (Binomial):

	logit	probit
함수	\(\log\tfrac{\mu}{1-\mu}\)	\(\Phi^{-1}(\mu)\)
꼬리 (tail)	약간 무거움	정규의 가벼운 꼬리
해석	log-odds	잠재 정규변수의 표준편차 단위
계수 척도	logit 단위 (직접 odds ratio)	probit 단위 (간접)
실무	의학·역학·머신러닝 표준	경제학·심리측정 표준

Cloglog 의 비대칭: \(g(\mu) = \log\{-\log(1-\mu)\}\) 는 \(\mu = 0\) 에서는 천천히, \(\mu = 1\) 에서는 빠르게 변한다 — 희귀 사건이 발견되기 시작한 직후의 hazard rate 모델링에 적합.

직관: 정준은 수학적 기본값 (default) 이고, 비정준은 특정 도메인의 자연어 다. 의료기기 부작용처럼 희귀하고 비대칭적인 binary 결과는 logit 보다 cloglog 가 형태를 더 잘 잡는다.

5.5 Link 선택의 실무 기준

McCullagh §2.2 는 link 선택 시 다음 셋을 동시에 고려하도록 권장한다.

정의역 보장 (Range): 예측값이 \(\mu\) 의 정의역을 자동으로 만족하는가
선형성 (Linearity): 변환된 척도에서 covariate 효과가 진짜로 선형으로 보이는가 (잔차 진단)
해석 가능성 (Interpretability): 도메인에서 자연스러운 척도인가 (확률, 로그-비율, 비용, 시간)

세 기준이 충돌하면 — 예: 해석은 identity 가 좋지만 정의역 보장은 log 가 필요 — 목적에 따라 우선순위를 정한다. 예측이 주목적이면 정의역 보장 우선, 효과 해석이 주목적이면 도메인 자연어 우선.

6 우도 함수 (Likelihood Functions)

세 구성요소(분포·systematic·link) 가 정해지면 그 위에서 작동하는 우도 함수(likelihood function) 가 자동으로 결정된다. 모든 GLM 추정·검정의 출발점이 여기다.

6.1 로그우도 (Log-likelihood)

관측 \(Y_1, \ldots, Y_n\) 이 독립이고 각각 EDF 분포를 따른다면 결합 로그우도는

\[ \ell(\boldsymbol{\beta}, \phi) = \sum_{i=1}^n \log f(y_i; \theta_i, \phi) = \sum_{i=1}^n \left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]

여기서 \(\theta_i = \theta(\mu_i)\) 이고 \(\mu_i = g^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta})\) — 즉 \(\theta_i\) 가 \(\boldsymbol{\beta}\) 의 합성함수 (composite function) 다.

직관: 로그우도는 “관찰된 데이터를 모형이 얼마나 그럴듯하게 설명하는가” 를 한 숫자로 압축한다. \(\boldsymbol{\beta}\) 가 곡선 안에 들어 있는 위치는 link 와 분포의 합성을 따라가야 보인다 — 이것이 GLM 우도가 선형모형 우도보다 직접 다루기 까다로운 이유다.

6.2 Score Function (점수함수)

모수에 대한 1차 미분을 score function 또는 score 이라 한다. 체인룰 (chain rule) 로 풀면:

\[ \mathbf{u}(\boldsymbol{\beta}) = \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n \frac{\partial \ell_i}{\partial \theta_i} \cdot \frac{\partial \theta_i}{\partial \mu_i} \cdot \frac{\partial \mu_i}{\partial \eta_i} \cdot \frac{\partial \eta_i}{\partial \boldsymbol{\beta}} \]

각 항을 EDF 구조로 풀면 (\(\partial \ell_i/\partial \theta_i = (y_i - \mu_i)/a(\phi)\), \(\partial \theta_i/\partial \mu_i = 1/V(\mu_i)\), \(\partial \eta_i/\partial \boldsymbol{\beta} = \mathbf{x}_i\))

\[ \boxed{\;\mathbf{u}(\boldsymbol{\beta}) = \frac{1}{a(\phi)} \sum_{i=1}^n \frac{(y_i - \mu_i) \mathbf{x}_i}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\;} \]

6.3 우도 방정식 (Likelihood Equations)

MLE \(\hat{\boldsymbol{\beta}}\) 는 \(\mathbf{u}(\boldsymbol{\beta}) = \mathbf{0}\) 을 만족한다. 이를 우도 방정식 (likelihood equations) 또는 score equations 이라 한다.

\[ \sum_{i=1}^n \frac{(y_i - \hat\mu_i) \mathbf{x}_i}{V(\hat\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\bigg|_{\hat\mu_i} = \mathbf{0} \]

직관: 이 식은 “가중 잔차의 가중합 = 0” 이라는 조건이다. 가중치 \(\frac{1}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\) 는 분산이 큰 관측은 덜, 작은 관측은 더 신뢰하라는 자동 가중을 표현한다. OLS 의 정규방정식 \(\mathbf{X}^\top(\mathbf{y} - \hat{\boldsymbol{\mu}}) = \mathbf{0}\) 의 일반화된 형태다.

6.4 Profile vs Joint Likelihood

분산모수 \(\phi\) 가 미지인 경우, 두 모수 \((\boldsymbol{\beta}, \phi)\) 를 동시에 추정해야 한다. GLM 의 우아한 점은 score 의 \(\boldsymbol{\beta}\) 부분이 \(\phi\) 에 비례 상수로만 의존한다는 사실이다. 따라서 \(\hat{\boldsymbol{\beta}}\) 는 \(\phi\) 와 무관하게 풀 수 있고, 그 후 별도로 \(\hat\phi\) 를 추정한다 (보통 Pearson 또는 deviance 기반).

직관: 관심 모수 (\(\boldsymbol{\beta}\)) 와 nuisance 모수 (\(\phi\)) 가 우도에서 깔끔히 분리되는 구조라서, 추정이 두 단계로 떨어진다. 이 분리가 GLM 의 추정을 OLS 만큼 단순하게 유지하는 비결이다.

7 충분통계량과 정준연결 (Sufficient Statistics and Canonical Links)

§2.2 에서 가장 깊은 통찰: 정준연결을 쓰는 순간 \(\boldsymbol{\beta}\) 의 충분통계량(sufficient statistic) 이 \(\mathbf{X}^\top \mathbf{y}\) 로 떨어진다. 이 한 사실이 GLM 의 추정·계산·이론을 한꺼번에 단순화한다.

7.1 충분성 (Sufficiency) 복습

통계량 \(T(\mathbf{y})\) 가 모수 \(\boldsymbol{\beta}\) 에 대해 충분(sufficient) 하다는 것은:

\[ P(\mathbf{y} \mid T(\mathbf{y}) = t,\, \boldsymbol{\beta}) = P(\mathbf{y} \mid T(\mathbf{y}) = t) \]

즉, \(T\) 가 주어지면 데이터의 나머지는 \(\boldsymbol{\beta}\) 에 대해 추가 정보가 없다. Neyman-Fisher factorization theorem 에 의해 이 조건은 다음과 동치다.

\[ f(\mathbf{y}; \boldsymbol{\beta}) = h(\mathbf{y}) \cdot g(T(\mathbf{y}), \boldsymbol{\beta}) \]

직관: \(T\) 가 충분하면 \(\mathbf{y}\) 를 \(T\) 로 압축해도 추론 손실이 없다. 1 만 개 관측을 5 차원 통계량으로 줄여도 추정치·표준오차·검정통계량이 동일하다 — 데이터 압축의 이론적 정당화다.

7.2 GLM 에서 \(\mathbf{X}^\top \mathbf{y}\) 가 충분통계량인 이유

EDF 결합밀도를 다시 쓰자.

\[ f(\mathbf{y}; \boldsymbol{\theta}, \phi) = \exp\!\left\{ \frac{\sum_i y_i \theta_i - \sum_i b(\theta_i)}{a(\phi)} + \sum_i c(y_i, \phi) \right\} \]

핵심 양은 \(\sum_i y_i \theta_i\). 정준연결 (\(g(\mu) = \theta\)) 하에서 \(\theta_i = \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta}\) 이므로

\[ \sum_{i=1}^n y_i \theta_i = \sum_{i=1}^n y_i (\mathbf{x}_i^\top \boldsymbol{\beta}) = \boldsymbol{\beta}^\top \mathbf{X}^\top \mathbf{y} \]

결합밀도가 \(\boldsymbol{\beta}\) 에 의존하는 부분은 오직 \(\mathbf{X}^\top \mathbf{y}\) 를 통해서다. Neyman-Fisher factorization 의 \(g(\cdot, \boldsymbol{\beta})\) 가 \(T = \mathbf{X}^\top \mathbf{y}\) 의 함수가 되므로

\[ \boxed{\;T(\mathbf{y}) = \mathbf{X}^\top \mathbf{y} \;\;\text{는}\;\; \boldsymbol{\beta} \;\text{의 minimal sufficient statistic 이다}\;} \]

직관: \(n\) 개 관측을 \(p\) 개 숫자로 압축해도 \(\boldsymbol{\beta}\) 추정에 필요한 정보가 모두 보존된다 — OLS 의 “\(\mathbf{X}^\top\mathbf{y}\) 와 \(\mathbf{X}^\top\mathbf{X}\) 만 있으면 회귀계수가 나온다” 는 사실의 GLM 일반화다. 비정준 link 에서는 \(\sum_i y_i \theta_i = \sum_i y_i \theta(g^{-1}(\mathbf{x}_i^\top\boldsymbol{\beta}))\) 가 \(\boldsymbol{\beta}\) 의 비선형 함수가 되어 이 압축이 깨진다 — 추정에 모든 \(y_i\) 를 따로 봐야 한다.

7.3 우도 방정식과의 동치성 (Equivalence with Likelihood Equations)

정준연결에서 score 가 \(\mathbf{u} = \mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu})/a(\phi)\) 로 단순화된다는 사실은 충분통계량과 같은 동전의 두 면이다. \(\mathbf{u} = \mathbf{0}\) 을 다시 쓰면

\[ \mathbf{X}^\top \mathbf{y} = \mathbf{X}^\top \boldsymbol{\mu}(\boldsymbol{\beta}) \]

좌변은 관측된 충분통계량, 우변은 그 기댓값 (\(E[\mathbf{X}^\top \mathbf{Y}] = \mathbf{X}^\top \boldsymbol{\mu}\)). MLE 는 두 양이 일치하도록 \(\boldsymbol{\beta}\) 를 잡는 것 — 곧 method-of-moments 와 형식이 같다.

직관: 정준연결에서 MLE 의 의미가 매우 깔끔해진다 — “충분통계량의 관측값과 모형이 예측한 기댓값을 일치시켜라”. 이 단순함이 정준연결을 수학적·계산적 default 로 만드는 가장 큰 이유다.

7.4 정준연결의 추가 결과 한눈 정리

결과 (Result)	일반 link	정준 link (canonical)
충분통계량	데이터 전체 \(\mathbf{y}\) 필요	\(\mathbf{X}^\top \mathbf{y}\) (\(p\) 차원) 로 축약
Score function	가중치 동반한 복잡한 형태	\(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu})/a(\phi)\)
관측정보 = 기대정보 (\(\mathcal{J} = \mathcal{I}\))?	일반적으로 아니오	예
Newton-Raphson = Fisher scoring?	아니오	예
로그우도가 concave?	일반적으로 아니오	예 → 전역 수렴 보장
추정방정식	\(\sum w_i (y_i - \mu_i) \mathbf{x}_i = 0\) (가중)	\(\mathbf{X}^\top(\mathbf{y} - \boldsymbol{\mu}) = 0\) (비가중)

직관: 정준연결은 단지 “수학적으로 깔끔” 이라는 미적 가치가 아니라 계산 안정성·전역 수렴·데이터 압축이라는 실용적 이득을 동반한다. 비정준 link 가 도메인 해석에 더 자연스러울 때만 이 이득을 포기하는 것이 일반적 권장이다.

8 세 구성요소의 통합: 한 줄 요약

GLM 의 정의를 한 식으로 압축하면

\[ \underbrace{Y_i \sim \text{EDF}(\mu_i, \phi)}_{\text{Random}} \;\; \text{with} \;\; \underbrace{g(\mu_i)}_{\text{Link}} \;=\; \underbrace{\mathbf{x}_i^\top \boldsymbol{\beta}}_{\text{Systematic}} \]

이 한 줄이 정규 회귀, 로지스틱 회귀, Poisson 회귀, Gamma 회귀를 모두 포섭한다. 분포·link 만 바꿔서 모든 회귀가 같은 추정 알고리즘 (IRLS) 과 같은 적합도 지표 (deviance) 로 풀린다.

모형 (Model)	Random	Link	\(\mathrm{Var}(Y)\)
OLS	Normal	identity	\(\sigma^2\)
Logistic regression	Binomial	logit	\(\mu(1-\mu)/n\)
Poisson regression	Poisson	log	\(\mu\)
Gamma regression	Gamma	inverse 또는 log	\(\phi \mu^2\)
Probit regression	Binomial	probit	\(\mu(1-\mu)/n\)
Negative binomial	NegBin	log	\(\mu + \mu^2/k\)

9 코드 예시: 같은 데이터, 다른 components

같은 covariate 구조를 유지하면서 random 과 link 를 바꿔 가며 적합한다. R 의 glm() 이 components 분리 철학을 가장 명료하게 드러낸다.

set.seed(0)
n <- 200
x <- rnorm(n)

# 데이터 1: 카운트
y_count <- rpois(n, exp(0.5 + 0.8 * x))

# 데이터 2: 이항
y_bin <- rbinom(n, 1, plogis(0.5 + 0.8 * x))

# 데이터 3: 양의 연속
y_gam <- rgamma(n, shape = 2, rate = 2 / exp(0.5 + 0.8 * x))

# 같은 covariate 구조, 다른 components
fit_pois  <- glm(y_count ~ x, family = poisson(link = "log"))
fit_logit <- glm(y_bin   ~ x, family = binomial(link = "logit"))
fit_prob  <- glm(y_bin   ~ x, family = binomial(link = "probit"))
fit_cll   <- glm(y_bin   ~ x, family = binomial(link = "cloglog"))
fit_gam   <- glm(y_gam   ~ x, family = Gamma(link = "log"))

# family = ... (link = ...) 가 components 를 명시적으로 선택

직관: family = poisson(link = "log") 한 줄이 확률 성분 + 연결 성분 을 동시에 선택한다. ~ x 우변이 체계적 성분. 세 부품을 따로 끼우는 인터페이스가 GLM 의 모듈성을 그대로 노출한다.

# Python (statsmodels)
import statsmodels.api as sm
import numpy as np

X = sm.add_constant(x)  # design matrix with intercept

# 같은 X, 다른 family/link
fit_pois = sm.GLM(y_count, X, family=sm.families.Poisson()).fit()
fit_log  = sm.GLM(y_bin,   X, family=sm.families.Binomial(link=sm.families.links.logit())).fit()
fit_prob = sm.GLM(y_bin,   X, family=sm.families.Binomial(link=sm.families.links.probit())).fit()
fit_gam  = sm.GLM(y_gam,   X, family=sm.families.Gamma(link=sm.families.links.log())).fit()

10 요약 정리

GLM 은 확률 성분 (random) + 체계적 성분 (systematic) + 연결 성분 (link) 의 세 부품을 독립적으로 선택하는 회귀 프레임워크다
확률 성분은 EDF 분포로 표현되며, \(b(\theta)\) 한 함수가 평균(\(\mu = b'\)) 과 분산(\(V = b''\)) 을 모두 결정 — 분산함수가 분포의 지문
체계적 성분은 모수에 대한 선형결합 \(\eta = \mathbf{X}\boldsymbol{\beta}\) — 공변량 자체는 변환·교호작용으로 풍부히 확장 가능, full rank 조건이 식별성 보장
연결 성분은 \(\mu\) 의 제한된 정의역을 \(\mathbb{R}\) 로 펴 주는 단조 미분가능 함수 — 정준연결 \(g = \theta\) 는 수학적 단순성, 비정준은 도메인 적합도로 선택
세 부품의 선택을 표시하는 family = distribution(link = ...) 인터페이스가 GLM 모듈성의 직접적 표현
우도 함수 (likelihood function) 는 components 가 결정되는 즉시 자동으로 정해지며, score \(\mathbf{u} = \partial\ell/\partial\boldsymbol{\beta}\) 와 우도 방정식 \(\mathbf{u} = \mathbf{0}\) 이 모든 추정의 출발점
충분통계량 (sufficient statistic) 이 정준연결 하에서 \(\mathbf{X}^\top \mathbf{y}\) (\(p\) 차원) 로 압축됨이 GLM 의 가장 깊은 결과 — 추정 단순화·전역 수렴·계산 안정성을 동시에 가져옴

11 관련 주제

선행 지식

GLM 이론 기초 — 지수족·정준연결·이탈도·IRLS — Ch.2 전체 overview
GLM Process of Model Fitting — §2.1 워크플로우 (model selection / estimation / prediction)
지수족 (Exponential Family) — 정준모수, 충분통계량, 자연 지수족
최대우도추정 (MLE) — 추정의 이론 기반

관련 포스트

GLM 응용 통합 — t-test·ANOVA·로지스틱·포아송 — components 선택의 실무 사례
Logistic Regression: The Model — Binomial + logit 의 구체 사례

후속 주제

Sufficient Statistics & Information Matrix (McCullagh §2.2.3-2.2.6) — 추정 이론 심화
Deviance & Goodness of Fit (McCullagh §2.4) — 적합도 평가 도구
Iterative Weighted Least Squares (McCullagh §2.5) — 추정 알고리즘 상세
Quasi-likelihood (McCullagh Ch.9) — 분포 미지정·variance function 만 지정하는 추정

12 참고문헌

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. §2.2 The components of a generalized linear model.
Jørgensen, B. (1987). “Exponential dispersion models.” Journal of the Royal Statistical Society B, 49(2), 127-162.
Faraway, J. J. (2016). Extending the Linear Model with R (2nd ed.). Chapman & Hall/CRC.