The Components of a GLM — Random·Systematic·Link 의 상세 해부

McCullagh & Nelder §2.2 — 세 구성요소의 형식적 정의와 유도

McCullagh & Nelder (1989) §2.2 “The components of a generalized linear model” 을 전개한다. 확률 성분(random component, exponential dispersion family), 체계적 성분(systematic component, linear predictor), 연결 성분(link function) 을 각각 형식적으로 정의하고, 평균-분산 관계의 유도, 분산함수의 의미, 정의역 보장의 역할을 직관과 수식을 병행해 상세히 설명한다.

Statistics
GLM
저자

Kwangmin Kim

공개

2026년 04월 14일

1 왜 “구성요소” 인가

GLM 의 본질은 세 가지 모델링 결정을 분리한 데 있다. 고전 정규 선형모형이 분포·평균구조·분산구조를 한 묶음으로 가정한 것과 달리, GLM 은 이 셋을 독립적으로 선택할 수 있는 부품(component) 으로 풀어 놓는다.

구성요소 (Component) 무엇을 결정하나 모델링 자유도
확률 성분 (Random) \(Y\) 의 분포 — 곧 평균-분산 관계 분포 선택
체계적 성분 (Systematic) 공변량이 어떻게 결합되는가 선형 결합 + 변환·교호작용
연결 성분 (Link) 평균과 선형결합을 어떻게 잇는가 단조 미분가능 함수 선택

직관: 셋이 분리되어 있다는 뜻은 하나를 바꿔도 나머지는 그대로 둘 수 있다는 뜻이다. 분포를 정규에서 포아송으로 바꾸면서 link 와 covariate 구조는 유지할 수 있다. 이 모듈성(modularity) 이 GLM 을 거대한 회귀 모형 패밀리로 만든다.

본 포스트는 GLM 이론 기초 에서 짧게 다룬 components 정의를 McCullagh §2.2 의 흐름대로 각 구성요소의 형식적 정의·수학적 유도·직관·예시로 확장한다.


2 일반화의 정확한 의미 (The Generalization)

GLM 이 “일반화한다 (generalizes)” 는 것은 정규 선형모형(normal linear model) 에 묶여 있던 세 가정을 풀어 따로 고를 수 있게 한다는 뜻이다. 형식적으로 정리하면 다음과 같다.

가정 (Assumption) 정규 선형모형 (Normal LM) GLM 의 일반화
분포 (Distribution) \(Y \sim N(\mu, \sigma^2)\) — 정규 고정 EDF 어느 분포든 가능
평균 구조 (Mean structure) \(\mu = \mathbf{x}^\top \boldsymbol{\beta}\) — identity link 강제 \(g(\mu) = \mathbf{x}^\top \boldsymbol{\beta}\) — 임의의 단조 미분가능 \(g\)
분산 구조 (Variance structure) \(\mathrm{Var}(Y) = \sigma^2\) — 평균과 무관 \(\mathrm{Var}(Y) = V(\mu) \phi\) — 분포 선택이 결정

세 가정이 분리(decoupling) 가능 하다는 점이 일반화의 본질이다. 정규 선형모형은 이 셋이 모두 묶여 있어 “\(Y\) 가 정규가 아닌 것 같다” 는 진단 한 번에 모형 전체를 다시 짜야 했다. GLM 에서는 분포만 바꾸고, 또는 link 만 바꾸고, 또는 covariate 구조만 바꾸는 부분 수정이 가능하다.

직관: 일반화는 “더 많은 분포를 다룬다” 를 넘어 “모델링 결정을 모듈로 분리해 각각 검증·교체할 수 있게 한다” 는 의미다. 진단 → 부분 수정의 사이클이 짧아져 분석 속도와 신뢰성이 동시에 올라간다.


3 확률 성분 (Random Component)

3.1 기본 정의

관측값 \(Y_1, \ldots, Y_n\)독립이고, 각각 다음 형태의 밀도(density) 또는 확률질량(probability mass) 함수를 가진다.

\[ f(y_i; \theta_i, \phi) = \exp\!\left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]

이 형태를 지수 분산족 (Exponential Dispersion Family, EDF) 이라 한다 (Jørgensen, 1987). 이때

기호 이름 역할
\(\theta_i\) 정준모수 (canonical parameter, natural parameter) 관측 \(i\) 마다 다름, 평균을 결정
\(\phi\) 분산모수 (dispersion parameter) 모든 관측에 공통, 분산 척도
\(b(\theta)\) 누적생성함수 (cumulant function) 미분으로 적률(moment) 산출
\(a(\phi)\) 분산 척도 함수 보통 \(a(\phi) = \phi/w_i\) (\(w_i\) 는 사전 가중치 prior weight)
\(c(y, \phi)\) 정규화항 (normalizing term) \(\theta\) 에 의존하지 않아 추정에 영향 없음

직관: 이 형태가 특별한 이유는 \(\theta\)\(y\)\(y\theta\) 형태로만 곱해져 등장하기 때문이다. 이 구조 덕분에 로그우도가 \(\theta\) 에 대해 매우 깔끔한 형태를 가지고, 적률·정보량·MLE 가 모두 \(b(\cdot)\) 와 그 미분으로 표현된다.

3.2 평균과 분산의 유도 (Derivation of Mean and Variance)

EDF 의 핵심 결과는 \(b(\theta)\) 의 미분이 곧 적률을 준다는 것이다. 유도를 상세히 보자.

Score function 의 기댓값 = 0 (정규조건 regularity conditions 하에서):

\[ E\!\left[\frac{\partial \log f}{\partial \theta}\right] = 0 \]

EDF 에서 \(\frac{\partial \log f}{\partial \theta} = \frac{y - b'(\theta)}{a(\phi)}\) 이므로

\[ E\!\left[\frac{Y - b'(\theta)}{a(\phi)}\right] = 0 \;\;\Rightarrow\;\; E[Y] = b'(\theta) \]

따라서 평균 \(\mu = b'(\theta)\).

Fisher information identity:

\[ E\!\left[\left(\frac{\partial \log f}{\partial \theta}\right)^2\right] = -E\!\left[\frac{\partial^2 \log f}{\partial \theta^2}\right] \]

좌변은 \(\mathrm{Var}(Y)/a(\phi)^2\), 우변은 \(b''(\theta)/a(\phi)\). 등식을 풀면

\[ \boxed{\;\mathrm{Var}(Y) = b''(\theta)\, a(\phi)\;} \]

직관: 하나의 함수 \(b(\theta)\) 가 분포의 평균과 분산을 모두 결정한다. \(b'\) 가 평균, \(b''\) 가 분산의 척도다. 이것이 EDF 가 “평균을 정하면 분산이 자동으로 따라오는” 분포족인 이유다 (정규분포만이 이 결합에서 자유롭다 — \(b'' = 1\) 상수).

3.3 분산함수 \(V(\mu)\) — 분포의 핵심 지문

\(\mu = b'(\theta)\)\(\theta\) 에 대해 풀어 \(\theta(\mu)\) 로 쓸 수 있다. 그러면 분산을 평균의 함수로 표현할 수 있다.

\[ \mathrm{Var}(Y) = V(\mu)\, a(\phi), \qquad V(\mu) := b''(\theta(\mu)) \]

\(V(\mu)\)분산함수 (variance function) 라 하며, 이는 분포를 결정하는 핵심 지문이다.

분포 (Distribution) \(V(\mu)\) 평균-분산 관계
Normal \(N(\mu, \sigma^2)\) \(1\) 분산 = 상수 (homoscedastic)
Poisson \(\mathrm{Poi}(\mu)\) \(\mu\) 분산 = 평균 (equidispersion)
Binomial \(\mathrm{Bin}(n, \mu)/n\) \(\mu(1-\mu)\) \(\mu = 0.5\) 에서 최대, 극단에서 0
Gamma \(G(\mu, \nu)\) \(\mu^2\) CV(coefficient of variation) 일정
Inverse Gaussian \(IG(\mu, \sigma^2)\) \(\mu^3\) 분산이 평균의 3제곱
Negative Binomial \(\mu + \mu^2/k\) Poisson 의 과산포 확장
Tweedie 분포족 — \(V(\mu) = \mu^p\)

\(V(\mu) = \mu^p\) 형태는 Tweedie family 라 불리며, \(p\) 값에 따라 위 분포들이 특수 사례로 등장한다.

  • \(p = 0\): Normal
  • \(p = 1\): Poisson
  • \(p = 2\): Gamma
  • \(p = 3\): Inverse Gaussian
  • \(1 < p < 2\): Compound Poisson-Gamma (보험 계리에서 손해액 모델링에 사용)

직관: 분산함수는 “평균이 한 단위 움직이면 분산이 얼마나 따라 움직이는가” 를 말해 준다. 카운트 데이터에서 평균 클릭 수가 10 → 100 으로 늘면 분산도 10 배 증가한다 (Poisson, \(V(\mu) = \mu\)). 이 사실을 모형이 “알아야” 표준오차가 맞게 나온다. OLS 는 모든 관측에 같은 \(\sigma^2\) 를 강제하므로 평균이 큰 영역에서는 underweight, 작은 영역에서는 overweight 이 발생한다.

3.4 주요 분포의 EDF 형태 확인

각 분포가 실제로 EDF 형태로 정확히 표현되는지 직접 전개한다.

Normal \(N(\mu, \sigma^2)\):

\[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{ -\frac{(y-\mu)^2}{2\sigma^2} \right\} = \exp\!\left\{ \frac{y\mu - \mu^2/2}{\sigma^2} - \frac{y^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) \right\} \]

대응: \(\theta = \mu\), \(b(\theta) = \theta^2/2\), \(a(\phi) = \phi = \sigma^2\). 검산: \(b'(\theta) = \theta = \mu\), \(b''(\theta) = 1\)\(V(\mu) = 1\). ✓

Poisson \(\mathrm{Poi}(\mu)\):

\[ \frac{\mu^y e^{-\mu}}{y!} = \exp\!\left\{ y\log\mu - \mu - \log y! \right\} \]

대응: \(\theta = \log\mu\) (즉 자연모수가 로그 평균!), \(b(\theta) = e^\theta = \mu\), \(a(\phi) = 1\). 검산: \(b'(\theta) = e^\theta = \mu\), \(b''(\theta) = e^\theta = \mu\)\(V(\mu) = \mu\). ✓

Binomial (성공 비율 \(Y/n\), \(n\) 은 알려진 시행 수):

\[ \binom{n}{ny}\exp\!\left\{ n\!\left[ y\log\frac{\mu}{1-\mu} + \log(1-\mu) \right] \right\} \]

대응: \(\theta = \log\!\tfrac{\mu}{1-\mu}\) (즉 자연모수가 로짓!), \(b(\theta) = \log(1+e^\theta)\), \(a(\phi) = 1/n\). 검산: \(b'(\theta) = e^\theta/(1+e^\theta) = \mu\), \(b''(\theta) = \mu(1-\mu)\)\(V(\mu) = \mu(1-\mu)\). ✓

Gamma \(G(\mu, \nu)\) (\(\nu\) = shape, \(\mu\) = mean):

\[ \frac{1}{\Gamma(\nu)} \left(\frac{\nu}{\mu}\right)^\nu y^{\nu-1} \exp\!\left\{-\frac{\nu y}{\mu}\right\} \]

대응: \(\theta = -1/\mu\), \(b(\theta) = -\log(-\theta)\), \(a(\phi) = 1/\nu\). 검산: \(b'(\theta) = -1/\theta = \mu\), \(b''(\theta) = 1/\theta^2 = \mu^2\)\(V(\mu) = \mu^2\). ✓

직관: 각 분포의 자연모수 \(\theta\) 가 우연이 아니라 분포 자체가 가장 자연스럽다고 말하는 척도 다. Poisson 은 로그, Binomial 은 로짓, Gamma 는 역수. 이 자연스러움이 다음에 다룰 “정준연결” 의 기반이다.


4 체계적 성분 (Systematic Component)

4.1 선형예측자 (Linear Predictor)

각 관측 \(i\) 에 대해 공변량 벡터 \(\mathbf{x}_i \in \mathbb{R}^p\) 와 모수 벡터 \(\boldsymbol{\beta} \in \mathbb{R}^p\) 의 내적으로 선형예측자를 정의한다.

\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} = \sum_{j=1}^p x_{ij} \beta_j \]

행렬 형태로: \(\boldsymbol{\eta} = \mathbf{X} \boldsymbol{\beta}\), 여기서 \(\mathbf{X}\)\(n \times p\) 설계행렬 (design matrix, model matrix) 이다.

4.2 “선형” 의 정확한 의미

GLM 에서 “선형” 은 모수 \(\boldsymbol{\beta}\) 에 대한 선형성을 뜻한다. 공변량 \(x_j\) 자체는 변환되어 등장할 수 있다.

형태 (Form) 선형성 만족? 비고
\(\beta_0 + \beta_1 x\) 표준 선형
\(\beta_0 + \beta_1 x + \beta_2 x^2\) \(x^2\) 은 새 공변량으로 간주
\(\beta_0 + \beta_1 \log x\) 변환된 covariate
\(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2\) 교호작용 (interaction)
\(\beta_0 + \beta_1 x^{\beta_2}\) \(\beta_2\) 가 지수에 — 비선형
\(\beta_0 / (1 + \beta_1 e^{-\beta_2 x})\) logistic growth — NLM 영역

직관: GLM 은 공변량 공간에서의 풍부한 변환을 허용하면서 모수 추정은 선형의 깔끔함을 유지한다. 이것이 GLM 이 폭넓게 적용되는 기술적 비밀이다. 실무에서는 \(x\) 를 다항식·로그·spline 등으로 expand 한 design matrix 를 만들고, 그 위에서 GLM 을 돌린다.

4.3 설계행렬의 구조

\(\mathbf{X}\) 는 보통 다음과 같이 구성된다.

\[ \mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1,p-1} \\ 1 & x_{21} & x_{22} & \cdots & x_{2,p-1} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{n,p-1} \end{pmatrix} \]

  • 첫 열의 \(1\) 은 절편 (intercept)
  • 범주형 변수는 dummy coding 또는 effect coding 으로 여러 열에 펼쳐짐
  • 연속 변수의 변환 (\(\log x\), \(x^2\), spline basis) 도 추가 열로 표현됨

4.4 식별성과 랭크 조건 (Identifiability and Rank Condition)

\(\boldsymbol{\beta}\) 가 유일하게 식별되려면 \(\mathbf{X}\) 가 full column rank 여야 한다 — 즉 \(\mathrm{rank}(\mathbf{X}) = p\).

랭크가 부족 (rank deficient) 한 상황:

  • 완전 공선성 (perfect collinearity): 두 공변량이 1차 종속
  • 더미 함정 (dummy trap): \(k\) 개 범주에 \(k\) 개 더미 변수 + 절편 — \(k-1\) 개만 써야 함
  • \(n < p\): 표본 수보다 모수 수가 많을 때 (high-dimensional)

대응: 중복 변수 제거, 정칙화 (ridge/lasso), 일반화 역행렬. McCullagh §2.2 는 이 경우를 aliasing 이라 부른다.

직관: 랭크 부족이면 “데이터가 동일한 적합값을 주는 무한히 많은 \(\boldsymbol{\beta}\)” 가 존재한다. 어느 것을 고를지 데이터로 결정 불가하므로 선형 결합으로서 식별 가능한 양 (estimable function) 만 보고 가능하다.

4.5 Offset 항 (Offset)

특수한 형태로 계수가 1 로 고정된 covariate 를 포함할 수 있다.

\[ \eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} + o_i \]

여기서 \(o_i\)offset — 알려진 양으로 추정 대상이 아니다. 가장 흔한 사례:

Rate modeling (비율 모델링): Poisson 로그 link 에서 노출 시간·인구 등을 보정.

\[ \log E[Y_i] = \log n_i + \mathbf{x}_i^\top \boldsymbol{\beta} \]

여기서 \(\log n_i\) 가 offset. 결과는 \(E[Y_i/n_i] = \exp(\mathbf{x}_i^\top \boldsymbol{\beta})\) 이므로 rate 자체를 모델링한 것과 같다.

직관: offset 은 “이 효과는 데이터에서 추정하지 말고 알려진 값을 그대로 써라” 는 지시다. 노출 수, 셀 면적, 위험인구 등 분모로 들어가야 할 양을 자연스럽게 처리한다.


6 우도 함수 (Likelihood Functions)

세 구성요소(분포·systematic·link) 가 정해지면 그 위에서 작동하는 우도 함수(likelihood function) 가 자동으로 결정된다. 모든 GLM 추정·검정의 출발점이 여기다.

6.1 로그우도 (Log-likelihood)

관측 \(Y_1, \ldots, Y_n\) 이 독립이고 각각 EDF 분포를 따른다면 결합 로그우도는

\[ \ell(\boldsymbol{\beta}, \phi) = \sum_{i=1}^n \log f(y_i; \theta_i, \phi) = \sum_{i=1}^n \left\{ \frac{y_i \theta_i - b(\theta_i)}{a(\phi)} + c(y_i, \phi) \right\} \]

여기서 \(\theta_i = \theta(\mu_i)\) 이고 \(\mu_i = g^{-1}(\mathbf{x}_i^\top \boldsymbol{\beta})\) — 즉 \(\theta_i\)\(\boldsymbol{\beta}\) 의 합성함수 (composite function) 다.

직관: 로그우도는 “관찰된 데이터를 모형이 얼마나 그럴듯하게 설명하는가” 를 한 숫자로 압축한다. \(\boldsymbol{\beta}\) 가 곡선 안에 들어 있는 위치는 link 와 분포의 합성을 따라가야 보인다 — 이것이 GLM 우도가 선형모형 우도보다 직접 다루기 까다로운 이유다.

6.2 Score Function (점수함수)

모수에 대한 1차 미분을 score function 또는 score 이라 한다. 체인룰 (chain rule) 로 풀면:

\[ \mathbf{u}(\boldsymbol{\beta}) = \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n \frac{\partial \ell_i}{\partial \theta_i} \cdot \frac{\partial \theta_i}{\partial \mu_i} \cdot \frac{\partial \mu_i}{\partial \eta_i} \cdot \frac{\partial \eta_i}{\partial \boldsymbol{\beta}} \]

각 항을 EDF 구조로 풀면 (\(\partial \ell_i/\partial \theta_i = (y_i - \mu_i)/a(\phi)\), \(\partial \theta_i/\partial \mu_i = 1/V(\mu_i)\), \(\partial \eta_i/\partial \boldsymbol{\beta} = \mathbf{x}_i\))

\[ \boxed{\;\mathbf{u}(\boldsymbol{\beta}) = \frac{1}{a(\phi)} \sum_{i=1}^n \frac{(y_i - \mu_i) \mathbf{x}_i}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\;} \]

6.3 우도 방정식 (Likelihood Equations)

MLE \(\hat{\boldsymbol{\beta}}\)\(\mathbf{u}(\boldsymbol{\beta}) = \mathbf{0}\) 을 만족한다. 이를 우도 방정식 (likelihood equations) 또는 score equations 이라 한다.

\[ \sum_{i=1}^n \frac{(y_i - \hat\mu_i) \mathbf{x}_i}{V(\hat\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\bigg|_{\hat\mu_i} = \mathbf{0} \]

직관: 이 식은 “가중 잔차의 가중합 = 0” 이라는 조건이다. 가중치 \(\frac{1}{V(\mu_i)} \cdot \frac{\partial \mu_i}{\partial \eta_i}\) 는 분산이 큰 관측은 덜, 작은 관측은 더 신뢰하라는 자동 가중을 표현한다. OLS 의 정규방정식 \(\mathbf{X}^\top(\mathbf{y} - \hat{\boldsymbol{\mu}}) = \mathbf{0}\) 의 일반화된 형태다.

6.4 Profile vs Joint Likelihood

분산모수 \(\phi\) 가 미지인 경우, 두 모수 \((\boldsymbol{\beta}, \phi)\) 를 동시에 추정해야 한다. GLM 의 우아한 점은 score 의 \(\boldsymbol{\beta}\) 부분이 \(\phi\) 에 비례 상수로만 의존한다는 사실이다. 따라서 \(\hat{\boldsymbol{\beta}}\)\(\phi\) 와 무관하게 풀 수 있고, 그 후 별도로 \(\hat\phi\) 를 추정한다 (보통 Pearson 또는 deviance 기반).

직관: 관심 모수 (\(\boldsymbol{\beta}\)) 와 nuisance 모수 (\(\phi\)) 가 우도에서 깔끔히 분리되는 구조라서, 추정이 두 단계로 떨어진다. 이 분리가 GLM 의 추정을 OLS 만큼 단순하게 유지하는 비결이다.


8 세 구성요소의 통합: 한 줄 요약

GLM 의 정의를 한 식으로 압축하면

\[ \underbrace{Y_i \sim \text{EDF}(\mu_i, \phi)}_{\text{Random}} \;\; \text{with} \;\; \underbrace{g(\mu_i)}_{\text{Link}} \;=\; \underbrace{\mathbf{x}_i^\top \boldsymbol{\beta}}_{\text{Systematic}} \]

이 한 줄이 정규 회귀, 로지스틱 회귀, Poisson 회귀, Gamma 회귀를 모두 포섭한다. 분포·link 만 바꿔서 모든 회귀가 같은 추정 알고리즘 (IRLS) 과 같은 적합도 지표 (deviance) 로 풀린다.

모형 (Model) Random Link \(\mathrm{Var}(Y)\)
OLS Normal identity \(\sigma^2\)
Logistic regression Binomial logit \(\mu(1-\mu)/n\)
Poisson regression Poisson log \(\mu\)
Gamma regression Gamma inverse 또는 log \(\phi \mu^2\)
Probit regression Binomial probit \(\mu(1-\mu)/n\)
Negative binomial NegBin log \(\mu + \mu^2/k\)

9 코드 예시: 같은 데이터, 다른 components

같은 covariate 구조를 유지하면서 random 과 link 를 바꿔 가며 적합한다. R 의 glm() 이 components 분리 철학을 가장 명료하게 드러낸다.

set.seed(0)
n <- 200
x <- rnorm(n)

# 데이터 1: 카운트
y_count <- rpois(n, exp(0.5 + 0.8 * x))

# 데이터 2: 이항
y_bin <- rbinom(n, 1, plogis(0.5 + 0.8 * x))

# 데이터 3: 양의 연속
y_gam <- rgamma(n, shape = 2, rate = 2 / exp(0.5 + 0.8 * x))

# 같은 covariate 구조, 다른 components
fit_pois  <- glm(y_count ~ x, family = poisson(link = "log"))
fit_logit <- glm(y_bin   ~ x, family = binomial(link = "logit"))
fit_prob  <- glm(y_bin   ~ x, family = binomial(link = "probit"))
fit_cll   <- glm(y_bin   ~ x, family = binomial(link = "cloglog"))
fit_gam   <- glm(y_gam   ~ x, family = Gamma(link = "log"))

# family = ... (link = ...) 가 components 를 명시적으로 선택

직관: family = poisson(link = "log") 한 줄이 확률 성분 + 연결 성분 을 동시에 선택한다. ~ x 우변이 체계적 성분. 세 부품을 따로 끼우는 인터페이스가 GLM 의 모듈성을 그대로 노출한다.

# Python (statsmodels)
import statsmodels.api as sm
import numpy as np

X = sm.add_constant(x)  # design matrix with intercept

# 같은 X, 다른 family/link
fit_pois = sm.GLM(y_count, X, family=sm.families.Poisson()).fit()
fit_log  = sm.GLM(y_bin,   X, family=sm.families.Binomial(link=sm.families.links.logit())).fit()
fit_prob = sm.GLM(y_bin,   X, family=sm.families.Binomial(link=sm.families.links.probit())).fit()
fit_gam  = sm.GLM(y_gam,   X, family=sm.families.Gamma(link=sm.families.links.log())).fit()

10 요약 정리

  • GLM 은 확률 성분 (random) + 체계적 성분 (systematic) + 연결 성분 (link) 의 세 부품을 독립적으로 선택하는 회귀 프레임워크다
  • 확률 성분은 EDF 분포로 표현되며, \(b(\theta)\) 한 함수가 평균(\(\mu = b'\)) 과 분산(\(V = b''\)) 을 모두 결정 — 분산함수가 분포의 지문
  • 체계적 성분은 모수에 대한 선형결합 \(\eta = \mathbf{X}\boldsymbol{\beta}\) — 공변량 자체는 변환·교호작용으로 풍부히 확장 가능, full rank 조건이 식별성 보장
  • 연결 성분\(\mu\) 의 제한된 정의역을 \(\mathbb{R}\) 로 펴 주는 단조 미분가능 함수 — 정준연결 \(g = \theta\) 는 수학적 단순성, 비정준은 도메인 적합도로 선택
  • 세 부품의 선택을 표시하는 family = distribution(link = ...) 인터페이스가 GLM 모듈성의 직접적 표현
  • 우도 함수 (likelihood function) 는 components 가 결정되는 즉시 자동으로 정해지며, score \(\mathbf{u} = \partial\ell/\partial\boldsymbol{\beta}\) 와 우도 방정식 \(\mathbf{u} = \mathbf{0}\) 이 모든 추정의 출발점
  • 충분통계량 (sufficient statistic) 이 정준연결 하에서 \(\mathbf{X}^\top \mathbf{y}\) (\(p\) 차원) 로 압축됨이 GLM 의 가장 깊은 결과 — 추정 단순화·전역 수렴·계산 안정성을 동시에 가져옴

11 관련 주제

선행 지식

관련 포스트

후속 주제

  • Sufficient Statistics & Information Matrix (McCullagh §2.2.3-2.2.6) — 추정 이론 심화
  • Deviance & Goodness of Fit (McCullagh §2.4) — 적합도 평가 도구
  • Iterative Weighted Least Squares (McCullagh §2.5) — 추정 알고리즘 상세
  • Quasi-likelihood (McCullagh Ch.9) — 분포 미지정·variance function 만 지정하는 추정

12 참고문헌

  • McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.). Chapman & Hall/CRC. §2.2 The components of a generalized linear model.
  • Jørgensen, B. (1987). “Exponential dispersion models.” Journal of the Royal Statistical Society B, 49(2), 127-162.
  • Faraway, J. J. (2016). Extending the Linear Model with R (2nd ed.). Chapman & Hall/CRC.

Subscribe

Enjoy this blog? Get notified of new posts by email: