Models for Data with Constant Coefficient of Variation

감마 분포·역수 연결·로그 연결·분산성분·산포 추정 (McCullagh Ch.8)

변동계수가 일정한 연속 자료를 위한 GLM 프레임워크. 감마 분포의 밀도·적률·정규화 변환, 정준(역수)·로그·항등 연결의 세 모형 계열, 이탈도와 산포 모수 추정, 자동차 보험·혈액 응고 예제까지 McCullagh & Nelder Ch.8 전체를 상세히 전개한다.

Statistics
GLM
저자

Kwangmin Kim

공개

2026년 04월 18일

1 도입 — 왜 분산이 평균의 제곱에 비례하는가

Ch.3의 정규 선형 모형은 등분산(constant variance)을 전제한다. 그러나 연속 측정값 중에는 평균이 클수록 산포도 커지는 자료가 흔하다. Ch.6에서는 \(\operatorname{var}(Y) \propto E(Y)\) 인 포아송형 자료를 다루었다. 이 장에서는 한 단계 더 나아가 변동계수(coefficient of variation)가 일정한 경우,

\[ \operatorname{var}(Y) = \sigma^2 \{E(Y)\}^2 = \sigma^2 \mu^2, \]

를 체계적으로 다룬다. 여기서 \(\sigma\) 는 표준편차가 아니라 변동계수 \(\text{CV}(Y) = \sigma\) 이다.

직관. 금액(보험 청구금, 매출액)이나 시간(반응 시간, 응고 시간)처럼 양의 값을 갖는 측정치는 대개 “큰 값일수록 흔들림도 크다”는 성질을 보인다. 이것이 바로 \(\operatorname{var}(Y) \propto \mu^2\) 이다. 변동계수가 일정하다는 말은, 퍼센트 단위의 상대 오차가 평균 수준에 무관하다는 뜻이다.

1.1 로그 변환 vs 감마 GLM

\(\sigma\) 가 작을 때, 분산 안정화 변환 \(\log(Y)\) 의 근사 모멘트는

\[ E(\log Y) = \log \mu - \sigma^2/2, \qquad \operatorname{var}(\log Y) \simeq \sigma^2 \]

이므로 로그 스케일에서 등분산이 달성된다. 체계적 부분이 원 스케일에서 곱셈적(multiplicative)이면

\[ \eta_i = \log\{E(Y_i)\} = x_i^T \beta \]

로 쓸 수 있고, 절편을 제외한 모든 모수는 \(\log Y\) 에 보통 최소제곱을 적용해도 일치 추정량이 된다. 절편에는 약 \(-\sigma^2/2\) 의 편향이 남는다.

그러나 McCullagh & Nelder는 다음 이유로 원 스케일에 머무르는 접근, 즉 감마 GLM을 권장한다.

  • 결론을 원래 측정 단위로 직접 제시할 수 있다.
  • 물리적 차원을 갖는 변수(금액, 시간)의 합이 의미 있는 양일 때, \(\log Y\) 의 합은 해석이 어렵다.
  • Firth (1988)에 따르면 감마 모형은 로그-정규 오류 하에서, 로그-정규 모형은 감마 오류 하에서 각각 역 오규정(reciprocal misspecification) 효율이 비슷하되, 감마 쪽이 약간 우위이다.

탐색적 분석이나 그래프 표현만 필요하다면 로그 변환이 편리하다. 그러나 정식 추론이 필요한 경우에는 감마 GLM이 더 적절하다.

도메인별 감마 GLM 권장 이유
  • 보험·청구 금액: 월별 청구금 합계가 직접적 실무 의미를 갖는다. \(\sum \log Y_i\) 는 기하평균의 로그일 뿐이라 분기·연간 추산에 직접 쓸 수 없다
  • 반응 시간·수명 측정: “평균 응답 시간 300 ms” 같이 원 단위 보고가 필수. \(\log Y\) 의 추정치를 지수 역변환하면 \(E[Y]\) 가 아니라 기하 평균에 가까워 체계적 편향이 생긴다
  • 재무 수익·매출 예측: 예측 구간을 원 단위로 제시해야 의사결정자가 해석 가능. 감마 GLM 은 원 스케일 신뢰구간을 직접 준다

반면 유전자 발현량·로그-정규 물리 프로세스 처럼 곱셈 구조가 기저 메커니즘인 경우에는 로그 변환이 자연스럽고 해석도 익숙하다. 선택 기준은 “원 스케일 보고가 의사결정의 핵심인가” 이다.

2 감마 분포

2.1 밀도 함수

McCullagh & Nelder가 사용하는 감마 밀도의 매개변수화는

\[ f(y;\mu,\nu) = \frac{1}{\Gamma(\nu)} \left(\frac{\nu y}{\mu}\right)^{\!\nu} \exp\!\left(-\frac{\nu y}{\mu}\right) \frac{1}{y}, \qquad y \ge 0,\; \nu > 0,\; \mu > 0. \]

\(Y \sim G(\mu, \nu)\) 로 쓴다. 여기서 \(\mu\)평균, \(\nu\)지표(index) 또는 정밀도(precision) 모수이다.

직관. \(\nu\) 가 클수록 분포가 평균 주위로 집중되므로 “정밀도”라는 이름이 붙는다. \(\nu = 1/\sigma^2\) 이므로 변동계수가 작을수록 \(\nu\) 가 크다. “지표(index)”라는 또 하나의 이름은 유효 표본 크기 지표 라는 뜻 — 포아송 과정에서 \(\nu\) 번째 사건까지의 대기 시간이 감마 분포를 따르므로, \(\nu\) 를 “합산 횟수”로 해석할 수 있다 (정수 \(\nu\) 일 때 Erlang 분포). 정규 모형의 자유도 \(n\) 이 평균 추정 정밀도를 결정하듯, \(\nu\) 가 감마 자료의 정밀도를 결정한다.

2.2 적률 생성 함수와 누율

적률 생성 함수는 \(K(t) = -\nu \log(1 - \mu t/\nu)\) 이고, 처음 네 누율(cumulant)은

\[ \begin{aligned} \kappa_1 &= E(Y) = \mu, \\ \kappa_2 &= \operatorname{var}(Y) = \mu^2/\nu, \\ \kappa_3 &= E(Y-\mu)^3 = 2\mu^3/\nu^2, \\ \kappa_4 &= 6\mu^4/\nu^3. \end{aligned} \]

일반적으로 \(\kappa_r = (r-1)!\,\mu^r/\nu^{r-1}\) 이다. 표준화 왜도(skewness)는 \(\kappa_3/\kappa_2^{3/2} = 2\nu^{-1/2}\) 이므로 \(\nu \to \infty\) 에서 정규 극한에 도달한다.

2.3 형태 모수 \(\nu\) 의 역할

\(\nu\) 범위 밀도 형태 특수 경우
\(0 < \nu < 1\) 원점에서 극(pole), 단조 감소
\(\nu = 1\) 지수 분포 \(\text{Exp}(\mu)\)
\(\nu > 1\) 원점에서 0, 단일 최빈값 \(y = \mu - \mu/\nu\)
\(\nu \to \infty\) 정규 분포에 수렴 \(N(\mu, \mu^2/\nu)\)

모든 \(\nu\) 에 대해 \(d(\log y)\) 미분 원소 기준의 밀도는 \(y = \mu\) 에서 최댓값을 갖는다.

2.4 합성 성질

\(Y_1, \ldots, Y_n \overset{\text{iid}}{\sim} G(\mu, \nu)\) 이면 표본 평균 \(\bar{Y} \sim G(\mu, n\nu)\) 이다. 즉 감마족은 합성(convolution)에 닫혀 있다. 정수 지표를 갖는 감마 분포는 포아송 과정에서 \(\nu\) 번째 사건까지의 대기 시간으로도 해석된다(에를랑 분포).

2.5 세제곱근 정규화 변환

단일 관측의 로그 우도를 \(\mu\), \(\log\mu\), \(\mu^{-1/3}\), \(\mu^{-1}\) 각 스케일로 그리면, \(\mu^{-1/3}\) 스케일에서 가장 이차식에 가깝다. 이 근사는

\[ \ell(\mu) - \ell(\hat\mu) \;\approx\; -\tfrac{9}{2}\, y^{2/3} \bigl(y^{-1/3} - \mu^{-1/3}\bigr)^2 \]

로 표현된다. 우도비 통계량의 제곱근이 근사 정규라는 사실과 결합하면, 감마 변량의 정규화 변환은

\[ 3\left\{(Y/\mu)^{1/3} - 1\right\} \]

이다. Wilson & Hilferty (1931)가 카이제곱 분포 맥락에서 유도한 고전적 결과이다.

직관. 왜 하필 세제곱근인가? 감마 분포의 왜도는 \(2/\sqrt{\nu}\) 로 양(positive)이다. 오목 변환 \(y \mapsto y^{1/3}\) 은 오른쪽 꼬리를 압축하고 왼쪽 꼬리를 늘여서 대칭에 가까운 분포를 만든다. 1/3이라는 지수는 왜도와 첨도를 동시에 최소화하는 최적값이다.

3 감마 GLM의 세 구성 요소

3.1 분산 함수

감마 로그 우도를 지수족 표준형으로 쓰면

\[ \ell = \nu\bigl(-y/\mu - \log\mu\bigr) + \nu\log y + \nu\log\nu - \log\Gamma(\nu) \]

이므로

  • 정준 모수: \(\theta = -1/\mu\)
  • 누율 생성 함수: \(b(\theta) = -\log(-\theta)\)
  • 평균: \(b'(\theta) = \mu\)
  • 분산 함수: \(V(\mu) = b''(\theta) = \mu^2\)

직관. 분산 함수 \(V(\mu) = \mu^2\) 는 “절대 오차의 크기가 평균에 비례한다”는 일상 경험을 수학적으로 포착한다. 1만 원짜리 거래에서 100원의 오차는 사소하지만, 100원짜리 거래에서 같은 100원 오차는 심각하다 – 이것이 바로 변동계수가 일정한 세계이다.

3.2 이탈도(Deviance)

\(\nu\) 를 알려진 상수로 취급하면 독립 관측의 로그 우도는

\[ \sum_i \nu\bigl(-y_i/\mu_i - \log\mu_i\bigr). \]

가중 관측(\(\nu_i = \nu w_i\))인 경우

\[ \nu \sum_i w_i\bigl(-y_i/\mu_i - \log\mu_i\bigr). \]

포화 모형(\(\mu = y\))의 로그 우도와의 차이를 2배한 이탈도는

\[ \boxed{ D(y;\hat\mu) = -2\sum_i w_i \left\{\log\!\left(\frac{y_i}{\hat\mu_i}\right) - \frac{y_i - \hat\mu_i}{\hat\mu_i}\right\}. } \]

직관. 이탈도의 두 항을 분리하면:

  • \(\log(y_i/\hat\mu_i)\): 비율 스케일의 편차. 관측이 적합보다 두 배이면 \(\log 2 \approx 0.69\).
  • \((y_i - \hat\mu_i)/\hat\mu_i\): 상대 잔차. 관측이 적합보다 두 배이면 값은 1.

정규 모형의 이탈도 \(\sum(y-\hat\mu)^2\) 가 절대 편차의 제곱을 재는 것과 달리, 감마 이탈도는 비율 편차를 잰다. 이는 변동계수가 일정한 자료의 본질에 정확히 부합한다.

모형에 절편이 포함되면 \(\sum w_i(y_i - \hat\mu_i)/\hat\mu_i = 0\) 이므로 마지막 항이 사라진다.

\(y_i = 0\) 인 경우의 문제. \(\log(y_i/\hat\mu_i)\)\(-\infty\) 가 되므로 이탈도가 무한대이다. 이 경우 대안 통계량

\[ D^+(y;\hat\mu) = 2C(y) + 2\sum_i w_i \log\hat\mu_i + 2\sum_i w_i y_i/\hat\mu_i \]

를 사용한다. 여기서 \(C(y)\)\(y\) 만의 유계 함수이다. 단, \(\nu\) 의 MLE는 \(D\) 에 기반하므로 \(y_i = 0\) 이 있으면 \(\hat\nu = 0\) 이 되어 실용적이지 않다.

5 산포 모수의 추정

모수 추정량 \(\hat\beta\) 의 근사 공분산 행렬은

\[ \operatorname{cov}(\hat\beta) \simeq \sigma^2 (X^T W X)^{-1}, \qquad W = \operatorname{diag}\!\left\{ \left(\frac{d\mu_i}{d\eta_i}\right)^{\!2} / V(\mu_i) \right\} \]

이므로 \(\sigma^2\) 의 추정이 필수적이다.

5.1 MLE: 디감마 방정식

감마 모형 하에서 \(\nu = \sigma^{-2}\) 의 MLE는

\[ \boxed{ 2n\{\log\hat\nu - \psi(\hat\nu)\} = D(y;\hat\mu), } \tag{8.1} \]

여기서 \(\psi(\nu) = \Gamma'(\nu)/\Gamma(\nu)\) 는 디감마 함수이다.

\(p\) 개 모수 추정의 편향 보정을 반영하면

\[ 2n\{\log\hat\nu - \psi(\hat\nu)\} - p\hat\nu^{-1} = D(y;\hat\mu). \tag{8.2} \]

직관. 좌변의 \(\log\nu - \psi(\nu)\)\(\nu\) 의 단조 감소 함수이므로 해가 유일하다. 이 함수는 \(\nu\) 가 클 때 약 \(1/(2\nu)\) 에 가까워지므로, \(\hat\nu\) 가 크면 \(D \approx n/\hat\nu = n\sigma^2\), 즉 “이탈도 \(\approx n \times\) 분산”이라는 정규 모형의 관계로 회귀한다.

\(\nu\) 가 충분히 크면 \(O(\nu^{-2})\) 이상의 항을 무시한 근사

\[ \hat\nu^{-1} \simeq \frac{\bar{D}(6 + \bar{D})}{6 + 2\bar{D}}, \qquad \bar{D} = D(y;\hat\mu)/n \]

이 유용하다.

5.2 모멘트 추정량: Pearson \(X^2\) 기반

MLE의 근본적 문제는 \(y_i = 0\) 인 관측이 하나라도 있으면 \(D = \infty\), \(\hat\nu = 0\) 이 된다는 점이다. 또한 감마 가정이 틀리면 \(\hat\nu^{-1}\) 이 변동계수를 일치 추정하지 못한다.

이 때문에 McCullagh & Nelder는 모멘트 추정량을 선호한다.

\[ \boxed{ \tilde\sigma^2 = \frac{1}{n-p}\sum_i \left(\frac{y_i - \hat\mu_i}{\hat\mu_i}\right)^{\!2} = \frac{X^2}{n-p}. } \tag{8.3} \]

여기서 \(X^2\) 는 Pearson 카이제곱 통계량이다.

직관. 이 추정량은 감마 가정 없이도 \(\sigma^2\) 를 일치 추정한다 – \(\beta\) 만 일치 추정되면 충분하다. 정규 이론의 \(s^2 = \text{RSS}/(n-p)\) 와 닮았지만, 분모가 절대 잔차 대신 상대 잔차 \((y-\hat\mu)/\hat\mu\) 의 제곱합이라는 점이 다르다.

단, 정규 모형의 \(s^2\) 와 달리 \(\tilde\sigma^2\) 는 감마 자료에서도 \(O(n^{-1})\) 편향을 갖는다.

\[ E(\tilde\sigma^2) = \sigma^2\bigl[1 - \sigma^2/n + O(n^{-2})\bigr]. \]

음의 편향은 \(V''(\mu) > 0\), 즉 분산 함수가 위로 볼록한 데서 기인한다. 제수를 \(n-p\) 로 놓아도 \(O(n^{-1})\) 편향이 완전히 제거되지 않는다.

6 예제: 자동차 보험 청구금

Baxter et al. (1980)의 데이터로, 개인 소유 종합보험 차량의 평균 자기 손해 청구금(인플레이션 보정, 파운드)이다.

6.1 요인 구조

요인 기호 수준 수 수준
보험 가입자 연령 PA 8 17-20, 21-24, 25-29, 30-34, 35-39, 40-49, 50-59, 60+
차량 그룹 CG 4 A, B, C, D
차량 연식 VA 4 0-3, 4-7, 8-9, 10+

\(8 \times 4 \times 4 = 128\) 셀 중 5개는 청구 건수 \(m_{ijk} = 0\) 으로 비어 있다. 가중치를 \(w_{ijk} = m_{ijk}\) 으로 설정하면 빈 셀은 우도에 기여하지 않는다.

6.2 모형: 역수 연결 + 감마 오차

\[ \mu_{ijk} = (\mu_0 + \alpha_i + \beta_j + \gamma_k)^{-1}, \qquad \operatorname{var}(Y_{ijk}) = \sigma^2 \mu_{ijk}^2 / m_{ijk}. \]

직관. \(\eta_{ijk} = 1/\mu_{ijk}\) 를 “평균 청구금 1파운드를 서비스하는 데 걸리는 시간(또는 1파운드 할부금으로 구매할 수 있는 보상 서비스 단위)”으로 해석하면, 주효과가 가법적이라는 가정은 “각 요인이 독립적으로 서비스 비용을 올리거나 내린다”는 의미가 된다.

6.3 Analysis of Deviance

모형 이탈도 차분 d.f. 평균 이탈도
1 (절편만) 649.9
PA 567.7 82.2 7 11.7
PA + CG 339.4 228.3 3 76.1
PA + CG + VA 124.8 214.7 3 71.6
+ PA.CG 90.7 34.0 21 1.62
+ PA.VA 71.0 19.7 21 0.94
+ CG.VA 65.6 5.4 9 0.60
포화 0.0 65.6 58 1.13

이탈도의 첫째 차분이 적절한 귀무가설 하에서 근사 축척 카이제곱 분포를 따르므로, 주효과 모형(PA + CG + VA)이 적합하며 이원 교호작용은 추가 설명력이 없다.

6.4 산포 추정

주효과 모형의 잔차로부터

\[ \tilde\sigma^2 = \frac{1}{109}\sum m\,(y - \hat\mu)^2/\hat\mu^2 = 1.21, \qquad \tilde\sigma = 1.1. \]

개별 청구금의 추정 변동계수가 110%로, 보험 자료의 높은 변동성을 반영한다.

6.5 모수 해석

모수 추정치(\(\times 10^6\), 역수 스케일)와 표준오차:

수준 PA CG VA
1 0 (-) 0 (-) 0 (-)
2 101 (436) 38 (169) 336 (101)
3 350 (412) -614 (170) 1651 (227)
4 462 (410) -1421 (181) 4154 (442)
5 1370 (419)
6 970 (405)
7 916 (408)
8 920 (416)

역수 스케일이므로 양의 큰 모수는 작은 청구금에 대응한다.

  • 연령(PA): 35-39세(수준 5)가 가장 큰 양의 모수 \(\to\) 가장 작은 청구금. 17-34세(수준 1-4)는 가장 큰 청구금, 40세 이상은 중간.
  • 차량 그룹(CG): D 그룹이 가장 큰 음의 모수 \(\to\) 가장 비싼 청구금. A와 B는 유의 차이 없음.
  • 차량 연식(VA): 차량이 오래될수록 양의 모수 증가 \(\to\) 청구금 감소.

수준 1-4(PA), 6-8(PA), 1-2(CG)를 각각 융합하면 이탈도가 129.8 (116 d.f.)로 통계적으로 유의하지 않은 증가이므로, 이 단순화된 해석이 자료에 부합한다.

6.6 로그 연결과의 비교

곱셈적 모형(로그 연결) 역시 질적으로 유사한 결론을 낸다. Ch.10에서 보이듯 자료가 역수 모형을 약간 더 지지하지만, 양적 결론의 해석 용이성을 고려하면 로그 연결도 합리적인 선택이다.

7 예제: 혈액 응고 시간

Hurn et al. (1945)의 데이터이다. 정상 혈장을 프로트롬빈 결핍 혈장으로 9단계 농도(\(u\))로 희석한 뒤, 두 로트(lot)의 트롬보플라스틴으로 응고를 유도하여 응고 시간(초)을 측정하였다.

\(u\) (%) Lot 1 Lot 2
5 118 69
10 58 35
15 42 26
20 35 21
30 27 18
40 25 16
60 21 13
80 19 12
100 18 12

7.1 모형 적합: 역수 연결 + 감마 오차

초기 탐색에서 \(u\) 의 로그 스케일이 역 선형성을 만족시키며, 두 로트의 절편과 기울기가 모두 다름을 확인하였다.

모형 이탈도 d.f.
1 (절편만) 7.709 17
\(x = \log u\) 1.018 16
\(L + x\) (로트 + 기울기) 0.300 15
\(L + L \cdot x\) (별도 직선) 0.0294 14

최종 모형의 평균 이탈도 \(\sqrt{0.0294/14} \approx 0.046\) 이므로 \(y\) 스케일에서 약 4.6%의 표준오차에 해당한다.

적합된 두 직선(표준오차):

\[ \begin{aligned} \text{Lot 1:}\quad \hat\mu^{-1} &= -0.01655\;(\pm 0.00086) + 0.01534\;(\pm 0.00143)\,x, \\ \text{Lot 2:}\quad \hat\mu^{-1} &= -0.02391\;(\pm 0.00038) + 0.02360\;(\pm 0.00062)\,x. \end{aligned} \]

직관. Pearson 잔차 \((y - \hat\mu)/\hat\mu\) 를 선형 예측자에 대해 그리면 범위가 일정하여 감마 오차 가정이 적합하다. 만약 \(Y\) 에 등분산을 가정하면 잔차 범위가 \(\hat\eta\) 에 따라 줄어들고, \(1/Y\) 에 등분산을 가정하면(이는 \(\operatorname{var}(Y) \propto \mu^4\) 를 의미) 범위가 늘어난다. 감마 오차(\(\operatorname{var}(Y) \propto \mu^2\))는 이 두 극단의 “중간”에 위치한다.

7.2 비례성 모형

Lot 2의 모수가 Lot 1의 약 1.6배라는 관찰에서, \(\mu_2 = k\mu_1\) 이라는 비례 모형을 고려한다.

\[ \eta_1 = \alpha + \beta x, \quad \mu_1 = 1/\eta_1, \quad \mu_2 = k\mu_1. \]

이 모형은 엄밀히 GLM이 아니지만, \(\alpha\), \(\beta\), \(k\) 의 MLE를 간단히 구할 수 있다. 추정 결과 \(k = 0.625\), 이탈도 0.0332 (15 d.f.)이다. 별도 직선 모형과의 이탈도 차이는 \(0.0332 - 0.0294 = 0.0038\) (1 d.f.)로, 평균 이탈도 0.0021에 비해 유의하지 않다.

따라서 비례 모형이 기각되지 않으며, Lot 2의 응고 시간은 Lot 1의 약 5/8 배라는 간결한 결론이 도출된다.

8 감마 GLM 요약

구성 요소 내용
확률 성분 \(Y \sim G(\mu, \nu)\), 분산 함수 \(V(\mu) = \mu^2\)
연결 함수 정준: \(\mu^{-1}\) (역다항식), 로그: \(\log\mu\) (곱셈적), 항등: \(\mu\) (분산 성분)
이탈도 \(D = -2\sum w_i\{\log(y_i/\hat\mu_i) - (y_i - \hat\mu_i)/\hat\mu_i\}\)
산포 추정 MLE: \(2n\{\log\hat\nu - \psi(\hat\nu)\} = D\); 모멘트: \(\tilde\sigma^2 = X^2/(n-p)\)
정규화 변환 \(3\{(Y/\mu)^{1/3} - 1\}\) (세제곱근)
분산 안정화 \(\log Y\); 로그 연결 시 가중치 \(\equiv 1\)

Ch.3(등분산) \(\to\) Ch.6(\(V = \mu\)) \(\to\) Ch.8(\(V = \mu^2\))으로 이어지는 분산 함수의 계층 속에서, 감마 GLM은 양의 연속 자료에 대한 자연스러운 분석 도구이다.

Subscribe

Enjoy this blog? Get notified of new posts by email: