Kwangmin Kim - Gamma GLM — Further Results and Exercises

1 이 장의 위치

McCullagh §8.5는 감마 모형의 문헌적 맥락을 짧게 정리하고, §8.6은 16개의 연습문제를 제시한다. 단순 계산 문제가 아니라, 감마 분포와 감마 GLM의 핵심 성질과 확장을 담고 있다:

Exercise 8.1: \(\log Y\) 의 표준편차와 \(Y\) 의 변동계수(CV) 사이의 근사 관계
Exercise 8.2: 감마 분포의 누율생성함수(CGF)와 CLT 연결
Exercise 8.3: \(\log Y\) 의 정확한 평균·분산 — 디감마·트리감마 함수
Exercise 8.4: 표본 평균과 비율 벡터의 독립성, 대칭 Dirichlet 분포
Exercise 8.5: \(\hat{\mu}\) 와 \(\hat{\nu}\) 의 MLE 독립성, 조건부 MLE
Exercises 8.6-8.10: 보험 청구·혈액 응고·초파리 데이터의 실습 확장
Exercise 8.11-8.12: 산포 MLE의 점근 전개와 편향 보정 근사식
Exercise 8.13-8.14: 보리-잡초 경쟁 실험의 역이차 반응과 로그비 분석
Exercise 8.15: 로그 변환 OLS 대 감마 GLM — 점근 효율의 정확한 비교
Exercise 8.16: 감마 복합 가설의 정확 검정 — 완비 충분통계량과 조건부 분포

이 포스트에서는 연습문제를 주제별로 묶어 풀이하고, 각 결과의 직관적 의미와 실무적 연결을 설명한다.

2 문헌적 배경 (§8.5 Bibliographic Notes)

McCullagh는 감마 모형의 역사적 맥락을 세 가지 흐름으로 정리한다.

산업 신뢰성(Industrial Reliability): 지수 분포 모형은 산업 수명 데이터 분석의 핵심 도구이다. 감마 분포는 지수 분포의 일반화이므로, 수명 분포 모형의 자연스러운 확장이 된다. Barlow & Proschan (1965, 1975)과 Nelson (1982)이 대표적 참고 문헌이다.

생존 분석(Survival Analysis): 동일한 감마 모형이 임상 의학에서 생존 시간 분석에 사용된다. Ch.13에서 비례 위험 모형과의 연결을 다룬다.

역선형 모형(Inverse Linear Models): Nelder (1966)가 도입한 역선형 모형 \(1/\mu = \alpha + \beta x\) 는 감마 분포의 정준 연결을 사용하는 GLM의 초기 형태이다. 이는 생화학의 Michaelis-Menten 포화 동역학에서 자연스럽게 등장한다.

정규족과의 유사성: 감마족은 정규족과 많은 성질을 공유한다. 단일 표본에서 \(\mu\) 에 대한 복합 가설의 정확한 유사 영역(exact similar region)을 구성할 수 있다. 원리적으로는 정확한 신뢰구간도 구성 가능하나, 표본 크기가 3-4를 넘으면 계산이 지나치게 복잡해진다 (Exercise 8.16).

3 CV-log 근사와 정확 공식 (Exercises 8.1, 8.3)

3.1 근사 관계: sd(log Y) \(\approx\) CV(Y)

Exercise 8.1 — 핵심 주장

\(Y > 0\) 이 양수 확률변수일 때,

\[ \text{sd}(\log Y) \approx \text{CV}(Y) = \frac{\text{sd}(Y)}{E(Y)} \]

이 근사는 \(\text{CV}(Y)\) 가 작을수록 정확하다.

델타 방법 유도. \(g(Y) = \log Y\) 로 놓으면 \(g'(Y) = 1/Y\) 이다. \(Y = \mu\) 주위에서 1차 테일러 전개를 적용하면

\[ \log Y \approx \log \mu + \frac{Y - \mu}{\mu} \]

따라서

\[ \text{var}(\log Y) \approx \frac{\text{var}(Y)}{\mu^2} = \text{CV}(Y)^2 \]

양변에 제곱근을 취하면 \(\text{sd}(\log Y) \approx \text{CV}(Y)\) 를 얻는다.

직관적 해석. 이 근사가 말하는 것은 다음과 같다: 로그 변환은 “곱셈적 변동”을 “덧셈적 변동”으로 변환한다. 원래 변수의 변동계수(곱셈적 산포)가 로그 변환된 변수의 표준편차(덧셈적 산포)로 보존되는 것이다. 감마 분포에서 \(\text{CV}(Y) = 1/\sqrt{\nu}\) 이므로, \(\nu\) 가 크면(CV가 작으면) 근사가 매우 정확하다.

3.2 감마 분포에서의 수치 검증

\(Y \sim G(\mu, \nu)\) 일 때:

정확한 CV: \(\text{CV}(Y) = 1/\sqrt{\nu}\)
정확한 sd(log Y): \(\text{sd}(\log Y) = \sqrt{\psi'(\nu)}\) (트리감마 함수)

여기서 \(\psi'(\nu) = \sum_{k=0}^{\infty} 1/(\nu + k)^2\) 는 트리감마(trigamma) 함수이다.

\(\nu\)	\(1/\sqrt{\nu}\)	\(\sqrt{\psi'(\nu)}\)	상대 오차
1	1.000	1.283	28.3%
2	0.707	0.826	16.8%
5	0.447	0.480	7.4%
10	0.316	0.328	3.8%
50	0.141	0.143	1.0%

\(\nu = 1\) (지수 분포)에서는 CV = 100%로 매우 크므로 근사가 부정확하다. \(\nu \geq 10\) 이면 상대 오차가 4% 이내로 실용적이다.

3.3 대수정규 분포의 경우

\(\log Y \sim N(\mu, \sigma^2)\) 이면 정확한 CV는

\[ \text{CV}(Y) = \sqrt{e^{\sigma^2} - 1} \]

이고 \(\text{sd}(\log Y) = \sigma\) 이다. \(\sigma^2\) 이 작을 때 \(\sqrt{e^{\sigma^2} - 1} \approx \sigma\) 이므로 동일한 근사가 성립한다. \(\sigma^2 = 0.01\) 이면 오차가 0.25%, \(\sigma^2 = 1\) 이면 오차가 31%이다.

3.4 정확 공식: E(log Y)와 var(log Y) (Exercise 8.3)

Exercise 8.3 — 정확한 적률

\(Y \sim G(\mu, \nu)\) 일 때,

\[ E(\log Y) = \log \mu + \psi(\nu) - \log \nu \]

\[ \text{var}(\log Y) = \psi'(\nu) \]

여기서 \(\psi(\nu) = \Gamma'(\nu)/\Gamma(\nu)\) 는 디감마(digamma) 함수이다.

유도. 감마 밀도를 \(f(y) = (\nu/\mu)^\nu y^{\nu-1} e^{-\nu y/\mu} / \Gamma(\nu)\) 로 쓰면

\[ E(\log Y) = \frac{\partial}{\partial \nu} \log \Gamma(\nu) - \log(\nu/\mu) + \frac{1}{\nu}(\nu - 1 + 1) - 1 \]

보다 직접적으로, 감마 분포의 적률생성함수에서 \(t = 0\) 근방의 미분을 이용한다. \(Y/\mu \sim G(1, \nu)\) 이고, \(G(1, \nu)\) 의 로그 적률을 구하면

\[ E\bigl[\log(Y/\mu)\bigr] = \psi(\nu) - \log \nu \]

이는 \(W = \nu Y/\mu \sim \text{Gamma}(\nu, 1)\) 에 대해 \(E(\log W) = \psi(\nu)\) 이고 \(E[\log(Y/\mu)] = E[\log W] - \log \nu\) 에서 나온다.

직관. 디감마 함수 \(\psi(\nu) \approx \log \nu - 1/(2\nu)\) 이므로, \(\nu\) 가 크면 \(E[\log(Y/\mu)] \approx -1/(2\nu)\) 로 0에 가까워진다. 즉, \(\nu \to \infty\) 에서 \(\log Y\) 의 기대값이 \(\log \mu\) 에 수렴하며, 이는 감마 분포가 점차 대칭적(정규적)으로 되는 것과 일치한다.

코드

import numpy as np
from scipy.special import digamma, polygamma

# Exercise 8.1 & 8.3: 근사 vs 정확 비교
nus = [1, 2, 5, 10, 20, 50, 100]
print(f"{'nu':>5} {'CV=1/sqrt(nu)':>15} {'sd(logY)=sqrt(psi1)':>20} {'Rel.Error':>12}")
print("-" * 55)
for nu in nus:
    cv_exact = 1 / np.sqrt(nu)
    sd_log = np.sqrt(polygamma(1, nu))  # trigamma
    rel_err = abs(sd_log - cv_exact) / cv_exact * 100
    print(f"{nu:>5} {cv_exact:>15.4f} {sd_log:>20.4f} {rel_err:>11.1f}%")

4 누율생성함수와 CLT (Exercise 8.2)

Exercise 8.2 — CGF와 정규 근사

\(Y \sim G(\mu, \nu)\) 의 ��율생성함수(CGF)는

\[ K(t) = -\nu \log\left(1 - \frac{\mu t}{\nu}\right) \]

이로부터, \(\nu \to \infty\) 일 때 표준화 변량 \(Z = \sqrt{\nu}(Y - \mu)/\mu\) 가 \(N(0,1)\) 로 수렴한다.

유도. 감마 분포 \(G(\mu, \nu)\) 의 적률생성함수는

\[ M(t) = E(e^{tY}) = \left(1 - \frac{\mu t}{\nu}\right)^{-\nu}, \quad t < \nu/\mu \]

따라서 \(K(t) = \log M(t) = -\nu \log(1 - \mu t/\nu)\) 이다.

CLT 연결. \(Z = \sqrt{\nu}(Y - \mu)/\mu\) 의 CGF를 구하면

\[ K_Z(s) = K\!\left(\frac{s\sqrt{\nu}}{\mu} + 0\right) - \text{(centering)} \]

보다 직접적으로, \(K(t)\) 를 \(t = 0\) 주위로 테일러 전개하면

\[ K(t) = \mu t + \frac{\mu^2}{2\nu} t^2 + \frac{\mu^3}{3\nu^2} t^3 + \cdots \]

\(r\) 차 누율은 \(\kappa_r = (r-1)! \mu^r / \nu^{r-1}\) 이므로, \(Z\) 의 \(r\) 차 누율은

\[ \kappa_r(Z) = (r-1)! \cdot \nu^{-(r/2 - 1)} \cdot \nu^{-(r-1)} \cdot \nu^{r/2} = (r-1)! \cdot \nu^{1-r/2} \]

\(r \geq 3\) 이면 \(\kappa_r(Z) \to 0\) 이므로 \(Z\) 의 분포가 정규로 수렴한다.

직관. 감마의 형태 모수 \(\nu\) 는 “합산 횟수”의 역할을 한다: \(G(\mu, \nu)\) 는 \(\nu\) 개의 독립 \(G(\mu/\nu, 1)\) 변수의 합처럼 행동한다 (정확히는 \(\nu\) 가 정수일 때). 따라서 \(\nu \to \infty\) 에서의 CLT는 자연스러운 결과이다. 이것은 곧 “데이터의 변동계수가 매우 작으면, 감마 모형과 정규 모형이 사실상 구분되지 않는다”는 실무적 함의를 갖는다.

5 표본 평균과 Dirichlet 독립성 (Exercise 8.4)

Exercise 8.4 — 독립성과 대칭 Dirichlet

\(Y_1, \ldots, Y_n \overset{\text{iid}}{\sim} G(\mu, \nu)\) 일 때:

\(\bar{Y} = Y_\cdot/n\) 과 \(T = (Y_1/Y_\cdot, \ldots, Y_n/Y_\cdot)\) 는 독립이다.
\(T\) 는 인덱스 \(\nu\) 인 대칭 Dirichlet 분포를 따른다.

유도 전략. \(W_i = \nu Y_i / \mu \overset{\text{iid}}{\sim} \text{Gamma}(\nu, 1)\) 로 재모수화한다. 감마-Dirichlet 관계에 의해, \(W_\cdot = \sum W_i \sim \text{Gamma}(n\nu, 1)\) 이고, \((W_1/W_\cdot, \ldots, W_n/W_\cdot) \sim \text{Dir}(\nu, \ldots, \nu)\) 이며, 이 둘은 독립이다.

이 결과는 변수 변환의 야코비안으로 직접 보일 수도 있다: \((W_1, \ldots, W_n) \to (W_\cdot, W_1/W_\cdot, \ldots, W_{n-1}/W_\cdot)\) 변환 후 결합 밀도가 곱으로 분해되는 것을 확인하면 된다.

\(Y_i/Y_\cdot = W_i/W_\cdot\) 이므로 원래 변수에서도 동일한 독립성이 성립한다.

직관. 이 결과는 정규 분포에서 \(\bar{X}\) 와 \(S^2\) 의 독립성과 정확히 대응한다. 정규에서는 \(\bar{X} \perp S^2\) 이고 \(S^2\) 는 카이제곱을 따른다. 감마에서는 \(\bar{Y} \perp (Y_1/Y_\cdot, \ldots, Y_n/Y_\cdot)\) 이고 비율 벡터는 Dirichlet를 따른다.

이 유사성은 §8.5에서 언급한 “감마족과 정규족의 많은 공통 성질” 중 하나이다. 실무적으로, 이 독립성 덕분에 \(\mu\) 의 추론과 \(\nu\) 의 추론을 분리할 수 있다(Exercise 8.5).

6 MLE의 \(\mu\)-\(\nu\) 독립성 (Exercise 8.5)

Exercise 8.5 — MLE 독립성과 조건부 MLE

\(Y_1, \ldots, Y_n \overset{\text{iid}}{\sim} G(\mu, \nu)\) 에서:

\(\hat{\mu}_{MLE} = \bar{Y}\) 와 \(\hat{\nu}_{MLE}\) 는 독립이다.
\(Y_\cdot = y_\cdot\) 가 주어졌을 때 \(\nu\) 의 조건부 MLE를 구할 수 있다.

6.1 MLE의 유도

로그우도는

\[ \ell(\mu, \nu) = n\nu \log \nu - n\nu \log \mu - n \log \Gamma(\nu) + (\nu - 1) \sum \log y_i - \frac{\nu}{\mu} \sum y_i \]

\(\mu\) 에 대한 MLE:

\[ \frac{\partial \ell}{\partial \mu} = -\frac{n\nu}{\mu} + \frac{\nu}{\mu^2} \sum y_i = 0 \implies \hat{\mu} = \bar{Y} \]

이는 \(\nu\) 의 값에 무관하다.

\(\nu\) 에 대한 MLE: \(\hat{\mu} = \bar{Y}\) 를 대입하면, 프로파일 로그우도는

\[ \ell_p(\nu) = n\nu \log \nu - n \log \Gamma(\nu) + (\nu - 1) \sum \log y_i - n\nu \log \bar{y} + \text{const} \]

미분하면 디감마 방정식을 얻는다:

\[ \log \nu - \psi(\nu) = \log \bar{y} - \overline{\log y} = \bar{D}/2 \]

여기서 \(\bar{D} = D(y; \hat{\mu})/n\) 은 관측당 평균 이탈도이다.

6.2 독립성의 근거

Exercise 8.4에서 \(\bar{Y}\) 와 비율 벡터 \(T\) 가 독립임을 보였다. \(\hat{\nu}\) 는 프로파일 우도를 통해 \(\bar{D}\) 의 함수이다. 평균 이탈도 \(\bar{D}\) 는 비율 벡터 \(T\) 의 함수이다:

\[ \bar{D} = \frac{2}{n}\sum_{i=1}^n \left\{-\log\frac{y_i}{\bar{y}} + \frac{y_i}{\bar{y}} - 1\right\} \]

\(y_i/\bar{y} = (Y_i/Y_\cdot) \cdot n\) 이므로 \(\bar{D}\) 는 비율 벡터의 함수이다. 따라서 \(\hat{\nu}\) (비율 벡터의 함수) \(\perp\) \(\hat{\mu}\) (합의 함수)이다.

직관. 정규 분포에서 \(\hat{\mu} = \bar{X}\) 와 \(\hat{\sigma}^2 = S^2\) 가 독립인 것과 동일한 구조이다. 두 경우 모두 충분통계량의 분해에 기반한다: 위치 모수의 추정량은 합에, 척도 모수의 추정량은 비율에 의존한다.

6.3 조건부 MLE

\(Y_\cdot = y_\cdot\) 가 주어졌을 때, 비율 벡터 \(T\) 의 조건부 분포는 \(\text{Dir}(\nu, \ldots, \nu)\) 로서 \(\mu\) 에 무관하다. 따라서 \(\nu\) 의 조건부 MLE는 Dirichlet 밀도를 최대화하여 얻는다:

\[ \log \nu - \psi(\nu) = -\frac{1}{n}\sum_{i=1}^n \log(y_i/y_\cdot) - \log(1/n) \]

이는 무조건부 MLE 방정식 (§8.3의 식 8.2)과 동치이다. 조건부와 무조건부 MLE가 일치하는 것은, \(\hat{\mu}\) 와 \(\hat{\nu}\) 의 독립성에서 당연히 기대되는 결과이다.

7 산포 MLE의 점근 전개와 편향 보정 (Exercises 8.11-8.12)

7.1 점근 전개 (Exercise 8.11)

Exercise 8.11 — 1/nu 의 근사식

디감마 함수의 점근 전개 \(\psi(\nu) \approx \log \nu - 1/(2\nu) - 1/(12\nu^2)\) 를 이용하면, MLE \(\hat{\nu}\) 는 다음 근사를 만족한다:

\[ \frac{1}{\hat{\nu}} \simeq \frac{\bar{D}(6 + \bar{D})}{6 + 2\bar{D}} \]

��기서 \(\bar{D} = D(y; \hat{\mu})/n\) 이다.

유도. MLE 방정식은 \(\log \nu - \psi(\nu) = \bar{D}/2\) 이다. \(\psi(\nu) \approx \log \nu - 1/(2\nu) - 1/(12\nu^2)\) 를 대입하면

\[ \frac{1}{2\nu} + \frac{1}{12\nu^2} \approx \frac{\bar{D}}{2} \]

\(x = 1/\nu\) 로 놓으면 \(x^2/12 + x/2 = \bar{D}/2\) 이므로

\[ x^2 + 6x = 6\bar{D} \]

\[ x^2 + 6x - 6\bar{D} = 0 \]

양의 근은

\[ x = \frac{-6 + \sqrt{36 + 24\bar{D}}}{2} \]

이를 유리화하면

\[ \frac{1}{\hat{\nu}} \simeq \frac{6\bar{D}}{6 + \sqrt{36 + 24\bar{D}}} \]

McCullagh가 제시하는 형태는 보다 간결한 근사이다. \(\psi(\nu) \approx \log \nu - 1/(2\nu)\) 까지만 취하면 \(1/(2\hat{\nu}) = \bar{D}/2\), 즉 \(1/\hat{\nu} = \bar{D}\) 이다. 2차 항까지 포함하면

\[ \frac{1}{\hat{\nu}} \simeq \frac{\bar{D}(6 + \bar{D})}{6 + 2\bar{D}} \]

을 얻는다. 이 식은 \(\bar{D}\) 가 작을 때 \(1/\hat{\nu} \approx \bar{D}\) 로 환원되고, \(\bar{D}\) 가 클 때는 2차 보정이 의미 있게 작동한다.

지수 분포에서의 검증. \(\nu = 1\) (지수 분포)에서 \(n\) 개 iid 표본의 평균 이탈도는

\[ E(\bar{D}) = 2\bigl\{1 + \psi(1) - \log 1 + 0\bigr\} = 2(1 - \gamma) \approx 0.846 \]

여기서 \(\gamma \approx 0.5772\) 는 오일러-마스케로니 상수이다. 이 값을 근사식에 대입하면 \(1/\hat{\nu} \approx 0.846 \times 6.846 / (6 + 1.692) \approx 0.753\) , 즉 \(\hat{\nu} \approx 1.33\) 으로, 참값 \(\nu = 1\) 에 대해 상향 편향을 보인다. 이 편향이 Exercise 8.12의 보정 동기가 된다.

7.2 편향 보정 (Exercise 8.12)

Exercise 8.12 — 편향 보정 근사

편향 보정 추정량은

\[ \frac{1}{\tilde{\nu}} \simeq \tilde{D} \cdot \frac{6(n-p) + n\tilde{D}}{6(n-p) + 2n\tilde{D}} \]

여기서 \(\tilde{D} = D(y; \hat{\mu})/(n-p)\) 이다.

Exercise 8.11과의 관계. 보정의 핵심은 두 가지이다:

자유도 보정: \(n\) 을 \(n - p\) 로 교체한다. \(p\) 는 평균 모형의 모수 수이다. 이는 정규 모형에서 \(\hat{\sigma}^2 = \text{RSS}/(n-p)\) 로 보정하는 것과 동일한 논리이다.
Stirling 보정: 근사식의 분자·분모에서 \(6\) 에 곱해지는 \(n\) 이 \(n - p\) 로 바뀐다.

실무적 중요성. 감마 GLM에서 산포 모수 \(\phi = 1/\nu\) 의 추정은 표준오차 계산과 가설 검정에 직접 영향을 미친다. \(\phi\) 를 과소추정하면 표준오차가 줄어들어 유의 판정이 지나치게 관대해진다. 특히 표본이 작거나 모수가 많은 경우 편향 보정이 중요하다.

모멘트 추정량 \(\tilde{\sigma}^2 = X^2/(n-p)\) 와 비교하면:

추정량	장점	단점
MLE \(1/\hat{\nu}\)	점근 효율 최대	소표본 상향 편향
보정 MLE \(1/\tilde{\nu}\)	편향 감소, 효율 유지	근사식 정확도 한계
모멘트 \(X^2/(n-p)\)	닫힌 형태, 강건	점근 효율 낮음

코드

import numpy as np
from scipy.special import digamma, polygamma

def mle_nu_approx(D_bar):
    """Exercise 8.11: 근사 1/nu"""
    return D_bar * (6 + D_bar) / (6 + 2 * D_bar)

def mle_nu_corrected(D_tilde, n, p):
    """Exercise 8.12: 편향 보정 근사 1/nu"""
    return D_tilde * (6 * (n - p) + n * D_tilde) / (6 * (n - p) + 2 * n * D_tilde)

# 지수 분포 (nu=1) 시뮬레이션 검증
np.random.seed(42)
n, nu_true = 50, 1.0
n_sim = 10000
nu_mle_list, nu_corr_list, nu_mom_list = [], [], []

for _ in range(n_sim):
    y = np.random.gamma(shape=nu_true, scale=1.0 / nu_true, size=n)
    mu_hat = y.mean()
    # 이탈도
    D = 2 * np.sum(-np.log(y / mu_hat) + (y - mu_hat) / mu_hat)
    D_bar = D / n
    D_tilde = D / (n - 1)  # p = 1 (절편만)

    inv_nu_mle = mle_nu_approx(D_bar)
    inv_nu_corr = mle_nu_corrected(D_tilde, n, 1)
    inv_nu_mom = np.sum((y / mu_hat - 1)**2) / (n - 1)

    nu_mle_list.append(1 / inv_nu_mle)
    nu_corr_list.append(1 / inv_nu_corr)
    nu_mom_list.append(1 / inv_nu_mom)

print(f"참값: nu = {nu_true}")
print(f"MLE      평균: {np.mean(nu_mle_list):.3f}, 편향: {np.mean(nu_mle_list) - nu_true:+.3f}")
print(f"보정 MLE 평균: {np.mean(nu_corr_list):.3f}, 편향: {np.mean(nu_corr_list) - nu_true:+.3f}")
print(f"모멘트   평균: {np.mean(nu_mom_list):.3f}, 편향: {np.mean(nu_mom_list) - nu_true:+.3f}")

8 보험 청구와 초파리 실습 확장 (Exercises 8.6-8.10)

8.1 보험 청구 재분석 (Exercise 8.6)

Exercise 8.6은 §8.4.1의 자동차 보험 데이터를 로그선형 모형 \(\text{PA} + \text{CG} + \text{VA}\) 로 적합하도록 요구한다. 이는 주효과만 포함하는 가법(additive) 모형으로, §8.4.1의 분석에서 2차·3차 교호작용을 제거한 것이다.

로그 연결 감마 모형에서 이 주효과 모형의 의미는 “각 요인의 효과가 독립적으로 곱셈적으로 작용한다”는 것이다:

\[ \mu_{ijk} = \exp(\alpha + \text{PA}_i + \text{CG}_j + \text{VA}_k) \]

따라서 운전자 연령(PA)의 효과는 차량 그룹(CG)이나 차량 연식(VA)에 무관하게 동일한 배율(multiplier)로 작용한다.

8.2 혈액 응고 Arrhenius 검증 (Exercise 8.7)

Exercise 8.7은 \(\log(\text{duration})\) 을 절대온도의 역수 \(1/T\) 에 대해 그리도록 요구한다. Arrhenius 법칙이 성립한다면 이 그래프가 직선이어야 한다. §8.4.4의 Drosophila 데이터에서 이 관계가 비선형임을 확인하면, 단순 Arrhenius 모형이 생물학적 발달률을 설명하지 못함을 보이는 것이다.

8.3 다항식 대안과 링크 비교 (Exercises 8.8-8.9)

Exercise 8.8은 유리 함수 (8.4) 대신 다항식을 사용하도록 요구한다. 3차 또는 4차 다항식이 유사한 적합을 제공하지만, 외삽(extrapolation) 행동이 유리 함수와 크게 다르다. 유리 함수는 점근선을 가지므로 물리적으로 합리적인 반면, 다항식은 범위 밖에서 발산하거나 음수가 된다.

이 비교는 감마 GLM에서 링크 함수 선택과 선형 예측자의 함수 형태 선택이 독립적인 모형화 결정임을 잘 보여준다.

8.4 초파리 발달 단계 확장 (Exercise 8.10)

Exercise 8.10은 embryonic period 외에 egg-larval, larval, pupal 기간까지 확장한다. Table 8.9와 8.10의 데이터를 사용하여:

각 발달 단계에서 온도에 대한 반응 곡선의 형태
최대 발달률이 동일한 온도에서 나타나는지
암수 간 발달률 차이의 존재와 온도 의존성

을 검토한다. 수컷이 암컷보다 발달이 빠른 경향이 일부 단계에서 관찰되며, 이 차이는 온도에 따라 변할 수 있다.

9 보리-잡초 경쟁 실험 (Exercises 8.13-8.14)

9.1 역이차 반응곡선 (Exercise 8.13)

Exercise 8.13 — 핵심 주장

보리(barley)와 잡초(Sinapis alba)의 단작(monoculture) 수확량은 종자 밀도에 대해 근사적으로 역이차(inverse quadratic) 관계를 따른다.

Table 8.11의 데이터에서 한 종만 심은 관측(monoculture)을 추출한다. 수확량 \(Y\) 를 반응, 종자 밀도 \(N\) 을 설명변수로 놓으면, 감마 오차 + 역수 연결에서

\[ \frac{1}{\mu} = \alpha + \frac{\beta}{N} + \frac{\gamma}{N^2} \]

이 역이차 모형은 Nelder (1966)의 역다항식 반응면의 한 형태이다. 밀도가 매우 클 때 \(1/\mu \to \alpha\), 즉 \(\mu \to 1/\alpha\) 로 수확량이 포화한다. 밀도가 0에 가까우면 \(1/\mu \to \infty\), 즉 \(\mu \to 0\) 이다.

직관. 식물 경쟁에서 종자 밀도가 증가하면 수확량이 처음에는 증가하지만, 결국 자원 경쟁(빛, 물, 양분)으로 인해 포화에 도달한다. 역이차 모형은 이 포화 행동을 자연스럽게 포착하며, Michaelis-Menten 포화 모형의 일반화로 볼 수 있다.

9.2 로그비 경쟁 모�� (Exercise 8.14)

두 종이 함께 심어진 경우, 반응변수로 \(\log(Y_B / Y_S)\) (보리 대 잡초의 로그 수확량비)를 사용한다. 모형은

\[ \log(Y_B / Y_S) = \alpha_{BS} + \beta \log(N_B / N_S) + \gamma x + \text{block} \]

여기서 \(x = \log(N_B + N_S)\) 는 총 종자 밀도의 로그이다.

모수의 해석:

조건	해석
\(\beta = 1, \gamma = 0\)	수확량비가 종자비에 비례, 밀도 무관: 완전 대칭 경쟁
\(\beta < 1, \gamma = 0\)	종자비의 효과가 감쇠: 소수 종이 상대적으로 유리
\(\beta = 1, \gamma > 0\)	밀도가 높을수록 보리가 유리: 보리가 밀식에 강함
\(\beta < 1, \gamma > 0\)	두 효과의 결합: 감쇠된 종자비 효과 + 밀식 보리 우위

\(\beta = 1\) 은 “종자 수를 두 배로 늘리면 수확량도 두 배”라는 선형 스케일링을 의미하며, 이 경우 두 종의 경쟁 능력이 본질적으로 동등하다. \(\beta < 1\) 이면 다수 종의 효과가 감쇠하며, 이는 밀도 의존적 사멸(density-dependent mortality)을 시사한다.

10 로그 변환 OLS의 점근 효율 (Exercise 8.15)

Exercise 8.15 — 핵심 결과

\(Y_i \sim G(\mu_i, \nu)\) 에서 \(\log \mu_i = \alpha + x_i^T \beta\) 일 때:

\(\log Y_i\) 의 평균: \(E(\log Y_i) = \alpha^* + x_i^T \beta\) 여기서 \(\alpha^* = \alpha + \psi(\nu) - \log \nu\)
\(\log Y_i\) 의 분산: \(\text{var}(\log Y_i) = \psi'(\nu)\) (상수)
\(\tilde{\beta}_{OLS}\) 의 \(\hat{\beta}_{MLE}\) 대비 점근 효율: \(\text{ARE} = 1/\{\nu \psi'(\nu)\}\)

핵심 직관. \(\log Y_i\) 에 대한 OLS는 감마 GLM의 경쟁 대안이다. 두 접근의 차이를 이해하려면 두 가지를 구분해야 한다:

평균 모형: 둘 다 \(x_i^T \beta\) 를 동일하게 추정한다. \(\tilde{\beta}_{OLS}\) 는 \(\beta\) 에 대해 일치추정량이다.
가중 방식: 감마 GLM(로그 연결)의 IRLS 가중치는 모두 1이므로, 비가중 최소제곱과 동일한 정규방정식을 사용한다. 반면 \(\log Y_i\) 에 대한 OLS도 비가중이다. 차이는 반응변수의 변환 여부에 있다: GLM은 \(Y_i\) 를 직접 사용하고 로그 연결로 평균을 모형화하는 반면, OLS는 \(\log Y_i\) 를 반응으로 사용한다.

효율 비교 유도. 감마 로그-연결 GLM의 스코어 함수에서 \(\beta\) 에 대한 피셔 정보는 \(I_{GLM} = \nu X^T X\) 이다.

\(\log Y_i\) 에 대한 OLS의 피셔 정보는 \(I_{OLS} = X^T X / \psi'(\nu)\) 이다.

따라서 점근 상대 효율은

\[ \text{ARE}(\tilde{\beta}, \hat{\beta}) = \frac{I_{OLS}}{I_{GLM}} = \frac{1}{\nu \psi'(\nu)} \]

수치적 행동.

\(\nu\)	\(\nu \psi'(\nu)\)	ARE
1	1.645	60.8%
2	1.323	75.6%
5	1.127	88.7%
10	1.062	94.2%
50	1.012	98.8%
\(\infty\)	1	100%

\(\nu\) 가 클수록 감마가 정규에 가까워지므로, 로그 변환 OLS와 감마 GLM의 차이가 사라진다. \(\nu = 1\) (지수 분포)에서도 효율이 61%로 적지는 않다. 실무적 함의: CV가 30% 이하(\(\nu \geq 10\))이면 로그 변환 OLS가 감마 GLM의 94% 이상 효율을 달성하므로, 간편한 대안으로 충분히 합리적이다.

코드

import numpy as np
from scipy.special import polygamma

# Exercise 8.15: 점근 상대 효율
nus = [0.5, 1, 2, 5, 10, 20, 50, 100]
print(f"{'nu':>6} {'nu*psi1(nu)':>12} {'ARE':>8}")
print("-" * 30)
for nu in nus:
    psi1 = polygamma(1, nu)  # trigamma
    product = nu * psi1
    are = 1 / product
    print(f"{nu:>6.1f} {product:>12.4f} {are:>7.1%}")

코드

# Exercise 8.15: R에서의 효율 비교
nus <- c(0.5, 1, 2, 5, 10, 20, 50, 100)
psi1 <- trigamma(nus)
product <- nus * psi1
ARE <- 1 / product

data.frame(
  nu = nus,
  `nu_psi1` = round(product, 4),
  ARE = paste0(round(ARE * 100, 1), "%")
)

11 감마 복합 가설의 정확 검정 (Exercise 8.16)

Exercise 8.16 — 핵심 결과

\(Y_1, \ldots, Y_n \overset{\text{iid}}{\sim} G(\mu, \nu)\) 에서 복합 가설 \(H_0: \mu = \mu_0\) (\(\nu\) 미지)에 대해:

\(S_0 = \log(\dot{Y}/\mu_0) - \bar{Y}/\mu_0\) 는 \(H_0\) 하에서 \(\nu\) 에 대한 완비 충분통계량이다.
\(Z_i = \log(Y_i/\mu_0)\) 의 조건부 분포(\(S_0\) 가 주어졌을 때)는 곡면 \(\sum(z_i - e^{z_i}) = nS_0\) 위에서 균등이다.

여기서 \(\dot{Y} = (\prod Y_i)^{1/n}\) 은 기하 평균이다.

11.1 완비 충분성의 직관

\(H_0: \mu = \mu_0\) 하에서 로그우도는

\[ \ell(\nu) = n\nu \log \nu - n \log \Gamma(\nu) + (\nu - 1)\sum \log y_i - \frac{\nu}{\mu_0} \sum y_i + \text{const} \]

충분통계량은 \((\sum \log y_i, \sum y_i)\) 이며, 이 두 통계량을 \(S_0\) 로 결합하면 지수족의 자연 모수 \(\nu\) 에 대한 1차원 충분통계량이 된다.

\(S_0 = \log(\dot{Y}/\mu_0) - \bar{Y}/\mu_0\) 를 풀어 쓰면

\[ S_0 = \frac{1}{n}\sum \log y_i - \log \mu_0 - \frac{\bar{y}}{\mu_0} \]

이는 기하평균(로그 평균)과 산술평균의 결합 정보를 하나의 스칼라로 압축한 것이다.

11.2 조건부 분포의 구성

\(Z_i = \log(Y_i/\mu_0)\) 로 변환하면, \(S_0\) 가 주어진 조건 하에서 \((Z_1, \ldots, Z_n)\) 은 곡면

\[ \sum_{i=1}^n \bigl(z_i - e^{z_i}\bigr) = n S_0 \]

위에서 균등 분포를 따른다. 이 조건부 분포는 \(\nu\) 에 무관하므로, \(H_0\) 의 정확 검정을 구성할 수 있다.

검정 구성 방법(i): \(S_0\) 의 관측값이 주어졌을 때, \(H_0\) 하에서 \(S_0\) 의 분포를 이용하여 p-값을 계산한다. 그러나 \(S_0\) 의 분포는 \(\nu\) 에 의존하므로, 조건부 접근이 \(\nu\) 를 제거하는 데 필수적이다. 적절한 검정통계량 \(T(Z_1, \ldots, Z_n)\) 을 선택하고, 조건부 곡면 위에서의 분포를 (시뮬레이션으로) 구하면 정확 검정이 된다.

신뢰구간 구성 방법(ii): \(\mu_0\) 를 변화시키면서 검정의 기각 여부를 확인하면 \(\mu\) 에 대한 정확 신뢰구간을 구성할 수 있다. 이는 “기각되지 않는 \(\mu_0\) 의 집합 = 신뢰구간”이라는 Neyman 역전 원리를 적용한 것이다.

실무적 한계. McCullagh가 지적했듯이, \(n > 3\) 이면 이 정확 계산이 지나치게 복잡해진다. \(n - 1\) 차원 곡면 위에서의 적분이 필요하기 때문이다. 따라서 실무에서는 우도비 검정의 \(\chi^2\) 근사나 부트스트랩 방법을 사용하는 것이 일반적이다.

코드

import numpy as np

# Exercise 8.16: 조건부 곡면 시뮬레이션 (개념 시연)
np.random.seed(42)
n, mu0, nu = 5, 1.0, 2.0

# H0 하에서 표본 생성
y = np.random.gamma(shape=nu, scale=mu0 / nu, size=n)
z = np.log(y / mu0)

# S0 계산
S0 = np.mean(z) - np.mean(y) / mu0
surface_val = np.sum(z - np.exp(z))

print(f"표본 크기: n = {n}")
print(f"참 모수: mu = {mu0}, nu = {nu}")
print(f"기하평균/mu0: {np.exp(np.mean(z)):.4f}")
print(f"산술평균/mu0: {np.mean(y) / mu0:.4f}")
print(f"S0 = {S0:.4f}")
print(f"곡면 값 sum(z_i - exp(z_i)) = {surface_val:.4f}")
print(f"n * S0 = {n * S0:.4f}")
print(f"일치 확인: {np.isclose(surface_val, n * S0)}")

12 종합: Ch.8 연습문제의 구조

Ch.8의 16개 연습문제는 세 가지 층위로 구조화된다.

Layer 1 — 분포론적 기초 (Exercises 8.1-8.5)

문제	핵심 결과	정규족 대응물
8.1	sd(log Y) \(\approx\) CV(Y)	log 변환 안정화
8.2	CGF, CLT	\(\bar{X}\) 의 CLT
8.3	\(E(\log Y), \text{var}(\log Y)\) 정확 공식	\(E(X), \text{var}(X)\)
8.4	\(\bar{Y} \perp (Y_i/Y_\cdot)\), Dirichlet	\(\bar{X} \perp S^2\), 카이제곱
8.5	\(\hat{\mu} \perp \hat{\nu}\), 조건부 MLE	\(\hat{\mu} \perp \hat{\sigma}^2\)

이 다섯 문제는 감마 분포가 정규 분포의 “양수 버전”으로서 얼마나 풍부한 구조를 공유하는지를 체계적으로 보여준다.

Layer 2 — 모형 적합 실습 (Exercises 8.6-8.10, 8.13-8.14)

§8.4의 예제를 변형하거나 확장하는 실습 문제이다. 연결 함수의 선택, 모형의 함수 형태, 외삽 행동 등 감마 GLM 모형화의 의사결정 포인트를 연습한다. 보리-잡초 경쟁 실험(8.13-8.14)은 역다항식 반응면과 로그비 경쟁 모형이라는 새로운 응용을 제공한다.

Layer 3 — 점근 이론과 정확 추론 (Exercises 8.11-8.12, 8.15-8.16)

문제	주제	실무적 함의
8.11	산포 MLE 점근 전개	닫힌 형태 근사로 반복 계산 회피
8.12	편향 보정	소표본 정확도 개선
8.15	로그 변환 OLS 효율	간편 대안의 정당화 범위
8.16	정확 조건부 검정	점근 근사의 한계와 대안

이 층위 구조는 감마 GLM을 “분포 이론 → 실제 모형화 → 추론의 한계”라는 완전한 학습 경로로 안내한다.

13 관련 주제

선행 지식

후속 주제

Quasi-likelihood — 분포 미지정 추론, 과산포 처리 (McCullagh Ch.9)
Joint Modelling of Mean and Dispersion — 평균과 산포의 동시 모형화 (McCullagh Ch.10)

관련 개념

1 이 장의 위치

2 문헌적 배경 (§8.5 Bibliographic Notes)

3 CV-log 근사와 정확 공식 (Exercises 8.1, 8.3)

3.1 근사 관계: sd(log Y) \(\approx\) CV(Y)

3.2 감마 분포에서의 수치 검증

3.3 대수정규 분포의 경우

3.4 정확 공식: E(log Y)와 var(log Y) (Exercise 8.3)

4 누율생성함수와 CLT (Exercise 8.2)

5 표본 평균과 Dirichlet 독립성 (Exercise 8.4)

6 MLE의 \(\mu\)-\(\nu\) 독립성 (Exercise 8.5)

6.1 MLE의 유도

6.2 독립성의 근거

6.3 조건부 MLE

7 산포 MLE의 점근 전개와 편향 보정 (Exercises 8.11-8.12)

7.1 점근 전개 (Exercise 8.11)

7.2 편향 보정 (Exercise 8.12)

8 보험 청구와 초파리 실습 확장 (Exercises 8.6-8.10)

8.1 보험 청구 재분석 (Exercise 8.6)

8.2 혈액 응고 Arrhenius 검증 (Exercise 8.7)

8.3 다항식 대안과 링크 비교 (Exercises 8.8-8.9)

8.4 초파리 발달 단계 확장 (Exercise 8.10)

9 보리-잡초 경쟁 실험 (Exercises 8.13-8.14)

9.1 역이차 반응곡선 (Exercise 8.13)

9.2 로그비 경쟁 모��� (Exercise 8.14)

10 로그 변환 OLS의 점근 효율 (Exercise 8.15)

11 감마 복합 가설의 정확 검정 (Exercise 8.16)

11.1 완비 충분성의 직관

11.2 조건부 분포의 구성

12 종합: Ch.8 연습문제의 구조

13 관련 주제

9.2 로그비 경쟁 모�� (Exercise 8.14)