Kwangmin Kim - GLM 심화 결과와 연습 — Exponential Tilting·CLT·McCullagh Angular Family

1 왜 연습문제 절을 읽는가

McCullagh & Nelder Ch.2 의 §2.7 은 15개의 연습문제다. 대부분의 독자는 “시험용 문제” 로 치부하고 넘기지만, 사실은 본문에서 지면 관계로 다루지 못한 심화 결과들이 여기 숨어 있다. 각 문제는 단독으로 보면 계산 연습이지만, 묶어 보면 다음 네 가지 GLM 이론의 뼈대를 이룬다.

Exponential tilting (지수 기울임): 임의 분포에서 지수족을 만드는 범용 기법.
Cumulant 항등식: 지수족 평균·분산의 일반적 계산 규칙.
지수족의 중심극한정리: 평균을 내면 다시 지수족이 된다는 닫힘 성질.
표준 5종 바깥의 지수족: McCullagh 의 각도 분포, 기울인 로지스틱 등.

이 포스트는 15문제를 6개 핵심 결과로 재구성하고, 각 결과의 증명 핵심과 직관을 정리한다. 소문자 번호(2.1, 2.2 …)는 원서의 문제 번호다.

직관: 본문이 “GLM 이 어떤 구조인가” 를 보여 준다면, 연습문제는 “그 구조가 얼마나 멀리 갈 수 있는가” 를 보여 준다. 읽고 나면 지수족 카탈로그가 Normal·Poisson·Binomial·Gamma·Inverse Gaussian 다섯 종이 아니라 무한히 많다 는 감각이 생긴다.

2 결과 1: Exponential Tilting — 지수족 생성기 (2.1–2.3)

2.1 주장

임의의 확률밀도(또는 확률질량) \(f_0(y)\) 가 적률생성함수 (moment generating function)

\[ M(\xi) \;=\; E_{f_0}[\exp(\xi Y)] \;=\; \exp\{b(\xi)\} \]

를 가지면 (단, \(\xi=0\) 을 포함하는 구간에서 유한), 다음과 같이 정의한 지수 기울임 밀도 (exponentially tilted density)

\[ f_Y(y;\theta) \;=\; \exp(\theta y - b(\theta))\,f_0(y) \]

는 \(a(\phi)=1\) 의 지수족 표준형 (2.4) 에 속한다.

2.2 증명 핵심

정규화 상수는 \(\int \exp(\theta y) f_0(y)\,dy = M(\theta) = \exp\{b(\theta)\}\) 이므로, 그 역수가 위 식의 \(\exp(-b(\theta))\) 이다. 이로써

\[ \log f_Y(y;\theta) \;=\; y\theta - b(\theta) + \log f_0(y) \]

이 되어 지수족 일반형 \(\{y\theta - b(\theta)\}/a(\phi) + c(y,\phi)\) 와 일치 (단, \(a(\phi)=1\), \(c(y,\phi)=\log f_0(y)\)).

2.3 왜 중요한가

이 결과는 “지수족은 특수한 분포들의 카탈로그가 아니라, 임의 분포에 기울임(tilting) 을 가해 만드는 구조” 라는 관점의 전환이다. 베이스 분포 \(f_0\) 만 바꾸면 무한히 많은 지수족이 생긴다.

베이스 \(f_0\)	Tilted Family
Bernoulli(1/2)	Binomial(1,p) 의 로짓 매개변수화
Poisson(1)	Poisson(\(\lambda\)), \(\theta=\log\lambda\)
Unit normal	Normal(\(\mu\),1)
Unit exponential	Exponential rate family
Logistic density	Exponentially tilted logistic (결과 6)

직관: “지수족이 뭐가 그렇게 많나” 하면 당황스럽지만, “어떤 분포든 한 번 기울이면 지수족이 된다” 고 하면 자명하다. 기울임이 바로 MLE·Fisher 정보·IRLS 가 동일하게 작동할 수 있는 구조적 원인이다.

2.4 평균의 분포 (2.3)

\(Y_1,\dots,Y_\nu\) 가 독립·동일분포의 tilted density 를 따르면, 산술평균 \(\bar Y = \sum Y_i/\nu\) 도 같은 지수족 형태이되 \(a(\phi) = 1/\nu\) 이다.

\[ f_{\bar Y}(\bar y;\theta) \;\propto\; \exp\{\nu(\theta \bar y - b(\theta))\} \]

이 결과는 지수족이 평균 연산에 대해 닫혀 있다 는 것을 의미한다. \(\nu\) 를 “표본 크기 또는 prior weight” 로 해석하면 GLM 소프트웨어의 weights 옵션의 이론적 정당화이다.

직관: 평균은 정보를 잃지 않고 스케일만 바꾼 채 같은 가족 안에 머문다. 이 닫힘 성질이 “GLM 은 집계된 데이터에서도 동일하게 작동한다” 는 실무적 편의의 수학적 근거다.

3 결과 2: Cumulant 항등식 (2.2, 2.7)

3.1 주장

지수족 \(f(y;\theta,\phi) = \exp\{(y\theta - b(\theta))/a(\phi) + c(y,\phi)\}\) 의 \(r\) 차 cumulant 는

\[ \kappa_r(Y) \;=\; b^{(r)}(\theta)\cdot a^{r-1}(\phi) \]

이다. 특히 \(r=1\) 이면 \(\mu = b'(\theta)\) (평균), \(r=2\) 이면 \(\mathrm{Var}(Y) = b''(\theta)a(\phi) = V(\mu)a(\phi)\) (분산). 또한

\[ \kappa_3 \;=\; \kappa_2 \kappa_2',\qquad \kappa_4 \;=\; \kappa_2 \kappa_3' \]

(\(\kappa_r'\) 는 \(\mu\) 에 대한 미분.)

3.2 증명 핵심

\(Y\) 의 cumulant 생성함수는

\[ K_Y(t) \;=\; \log E[\exp(tY)] \;=\; \{b(\theta + ta(\phi)) - b(\theta)\}/a(\phi) \]

이다. 테일러 전개의 \(r\) 차 계수가 \(\kappa_r\) 이므로 \(\kappa_r = b^{(r)}(\theta) a^{r-1}(\phi)\). 고차 항등식 \(\kappa_3 = \kappa_2 \kappa_2'\) 은 \(d\theta/d\mu = 1/V(\mu)\) 와 연쇄 규칙의 결과다.

3.3 왜 중요한가

첫째, 분산이 평균의 함수 임을 수식으로 보여 준다. \(\mathrm{Var}(Y) = V(\mu)a(\phi)\) — 분산함수 \(V\) 가 GLM 의 핵심 객체임을 재확인. 둘째, 왜도·첨도도 분산함수로부터 유도 된다. 따라서 \(V(\mu)\) 를 지정하면 분포의 처음 네 모멘트가 모두 결정된다.

직관: \(\kappa_2 = V(\mu)\) 하나가 모든 것을 “스폰서” 한다. 왜도 \(\kappa_3/\kappa_2^{3/2}\) 는 \(V'(\mu)/\sqrt{V(\mu)}\), 첨도 \(\kappa_4/\kappa_2^2\) 는 \(V(\mu)V''(\mu)\) 등으로 전개된다. Wedderburn 의 quasi-likelihood 가 “분산함수만 알면 추론이 가능” 한 이유가 여기에 있다 — 분산함수가 분포의 실질적 정보를 거의 다 담는다.

3.4 응용 — Anscombe 변환의 도출

결과 2 가 있으면 §2.4 의 Anscombe 잔차 변환 \(A(\mu) = \int d\mu / V^{1/3}(\mu)\) 가 왜 “정규에 가장 가까운” 변환인지 이해할 수 있다. 3차 cumulant (왜도) 를 영으로 만드는 변환 \(h(\mu)\) 는 \(h''(\mu) V(\mu) + h'(\mu) V'(\mu) = 0\) 을 만족하고, 이를 정리하면 \(h'(\mu) \propto V^{-1/3}(\mu)\). 적분하면 Anscombe 의 공식이 나온다.

4 결과 3: 지수족 중심극한정리 (2.3 → Jorgensen 1987)

4.1 주장

지수족 \(Y \sim f(y;\theta,\phi)\) 에서 독립 표본 \(Y_1,\dots,Y_n\) 의 평균 \(\bar Y\) 는 \(n\to\infty\) 에서

\[ \sqrt{n}\,(\bar Y - \mu) \;\overset{d}{\longrightarrow}\; \mathcal N(0, V(\mu)a(\phi)) \]

로 분포 수렴한다. 이것은 일반 CLT 의 특수 사례처럼 보이지만, \(a(\phi)\) 가 \(\phi/n\) 으로 스케일되는 지수족의 닫힘 성질을 써서 훨씬 강한 결과를 얻을 수 있다 — \(\bar Y\) 는 모든 \(n\) 에서 지수족 안에 있다.

4.2 증명 핵심

결과 1 의 (2.3) 에 의해 \(\bar Y\) 는 \(a(\phi) = \phi/n\) 의 지수족. 따라서 \(n\bar Y\) 의 cumulant 는 \(\kappa_r(n\bar Y) = n^{1-r}\kappa_r(Y) \cdot n^r = n \kappa_r(Y)\) 로 \(n\) 에 선형, 결국 \(\bar Y\) 의 분포는 \(n\to\infty\) 에서 \(\mathcal N\) 으로 수렴한다.

4.3 왜 중요한가

통상의 CLT 는 “분포 모양은 모르지만 평균·분산만 알면 정규로 수렴” 이라는 점근 결과다. 지수족 CLT 는 “모든 유한 \(n\) 에서 정확히 지수족 안에 있고, 점근적으로 정규” 라는 구조적 결과다.

일반 CLT	지수족 CLT
\(\bar Y\) 의 분포 모양이 \(n\) 마다 변함	\(\bar Y\) 의 분포가 동일 가족 내 이동
정규 근사는 점근적	지수족 내 관계는 모든 \(n\) 에서 정확
2차 모멘트까지만 활용	모든 고차 cumulant 활용 가능

직관: 지수족은 “평균 연산에 대해 자가 복제” 한다. 이 성질 때문에 GLM 에서 표본 크기 조정·집계·prior weight 같은 조작이 자연스럽게 이루어진다. \(\nu\) 가 정수일 필요도 없어 “분수 표본” 해석 (Bayesian effective sample size) 까지 통한다.

5 결과 4: 구체적 예제 — 이산 베르누이와 “유사 포아송” (2.5, 2.6)

5.1 예제 1: \(f_0(0)=f_0(1)=1/2\) 의 tilting (2.5)

베이스가 공정 베르누이라면, MGF 는 \(M(\xi) = (1+e^\xi)/2\) 이므로 \(b(\xi) = \log\{(1+e^\xi)/2\}\). Tilted 밀도는

\[ f_Y(y;\theta) \;=\; \frac{\exp(\theta y)}{1+e^\theta},\quad y\in\{0,1\} \]

이것이 로지스틱 회귀의 단일 베르누이 형태다. 즉 “베르누이를 기울이면 로지스틱 모수” 가 자동으로 나온다.

\(\nu\) 개 독립 복사본의 평균 \(\nu\bar Y\) 의 분포는 이항 (Binomial(\(\nu, p\))) 이다. 베르누이 → 이항의 고전적 관계가 exponential tilting 의 자연스러운 결과임이 드러난다.

직관: 로지스틱 회귀의 로짓 \(\theta = \log\{p/(1-p)\}\) 는 임의로 고른 매개변수화가 아니라, 베르누이를 기울이는 정준 모수다. 이 관점이 로지스틱 회귀가 왜 “자연스러운” 이항 회귀인지를 설명한다.

5.2 예제 2: \(f_0(y) \propto 1/y!\) for \(y=1,2,\dots\) (2.6)

\(\sum_{y\ge 1} 1/y! = e-1\) 이므로 정규화하면 \(f_0(y) = 1/[(e-1)y!]\). MGF 는 \(M(\xi) = (e^{e^\xi}-1)/(e-1)\) 이므로 \(b(\xi) = \log\{(e^{e^\xi}-1)/(e-1)\}\). Tilted 밀도는

\[ f_Y(y;\theta) \;=\; \frac{(e^\theta)^y}{y!(e^{e^\theta}-1)},\quad y=1,2,\dots \]

이것은 Zero-truncated Poisson (영 절단 포아송) 의 지수족 형태다. 평균과 분산은 \(\mu = b'(\theta)\) 로부터 계산된다.

MLE 방정식: \(n\) 개 iid 관측 \(\bar y\) 에 대해 \(\hat\mu(\hat\theta) = \bar y\) — 지수족 MLE 의 일반 결과 \(\hat{\boldsymbol\mu} = \mathbf{y}\) (절편만 있는 모형) 의 한 특례.

5.3 왜 중요한가

표준 교재의 “5대 분포” 바깥에도 GLM 이 돌아감을 보여 준다. 보험수리(zero-truncated Poisson, zero-inflated), 희귀사건 모델링에서 이런 비표준 지수족이 필수다. Exponential tilting 의 일반성 덕에 원하는 support·모양의 분포를 지수족으로 만들 수 있다.

6 결과 5: McCullagh 의 각도 분포 (2.8–2.13)

6.1 밀도

McCullagh (1989) 가 제시한, \(x \in (-1,1)\) 위의 2-모수 분포.

\[ f_X(x;\theta,\nu) \;=\; \frac{(1-x^2)^{\nu-1/2}}{(1-2\theta x + \theta^2)^\nu \,B(\nu+\tfrac12,\tfrac12)} \]

(\(\nu > -\tfrac12\), \(-1 \le \theta \le 1\).) \(\theta=0\) 이면 대칭 Beta(구간 재조정) 로 환원되고, \(\theta = \pm 1\) 로 갈수록 분포가 끝점으로 치우친다.

6.2 지수족 표현 (2.10)

\(T(\theta) = (1-x^2)/(1-2\theta x + \theta^2)\) 로 두면, 고정 \(\theta\) 에 대해 \(f\) 는 \(y = \log T(\theta)\), 정준 모수 \(\nu\) 의 지수족이 된다.

\[ \log f_X \;=\; \nu \log T(\theta) - \log\{(1-x^2)^{-1/2} B(\nu+\tfrac12,\tfrac12)\} + \text{const} \]

즉 \(y = \log T(\theta)\) 가 충분통계량, \(\nu\) 가 정준 모수다.

6.3 Pivotal 성질 (2.9)

\(T(\theta)\) 자체가 \(\theta\) 에 의존하지 않는 분포를 갖는 pivotal statistic 이다. 이 성질 덕에 \(\theta\) 에 대한 정확 신뢰구간을 \(T\) 의 분위수로부터 구성할 수 있다.

6.4 Deviance 로부터의 카이제곱 근사 (2.11)

단일 관측에서 \(H_0: \theta=\theta_0\) 의 축척 이탈도는 \(-2\nu\log T(\theta_0)\) 이고, 큰 \(\nu\) 에서

\[ -(2\nu+\tfrac12)\log T(\theta_0) \;\overset{\text{approx}}{\sim}\; \chi_1^2 \]

이 결과는 Bartlett 보정 의 전형적 형태다. 이탈도 \(-2\nu\log T\) 의 기대값이 1 이 아니라 \(1 - 1/(4\nu) + O(\nu^{-2})\) 이므로, \((2\nu+1/2)\) 배로 스케일해 근사의 편향을 제거한다. Bartlett 보정은 likelihood ratio 검정의 \(\chi^2\) 근사를 향상시키는 고전적 기법이며, McCullagh 의 이 분포는 보정 계수가 닫힌 형태로 나오는 드문 예다.

6.5 왜 중요한가

이 분포는 각도(방향) 데이터 의 GLM 을 구성하는 기반이다. 단위 구간 \((-1,1)\) 로 매핑된 각도·비율·상관계수 데이터 (예: 피어슨 상관계수, 유전자 서열의 염기 편향) 를 모형화할 때 사용된다. 표준 GLM 카탈로그로는 다루기 어려운 “경계가 있는 연속 변수” 에 대한 답을 제공한다.

직관: Binomial 은 이산 \(\{0,1,\dots,m\}\) 의 비율, Beta 는 \((0,1)\) 의 비율. McCullagh angular 는 \((-1,1)\) 의 부호 있는 비율로 영역을 확장한다. GLM 의 표준 5종 밖 확장이 가능하다는 가장 유명한 예다.

7 결과 6: 지수 기울임 로지스틱과 F-분포 연결 (2.14–2.15)

7.1 Tilted Logistic

베이스가 로지스틱 밀도 \(f_0(x) = e^x/(1+e^x)^2\) 면, tilting 결과는

\[ f(x;\theta) \;=\; \frac{e^{x(1+\theta)}\sin(\pi\theta)}{(1+e^x)^2\,\pi\theta} \]

(\(-1<\theta<1\).) 대칭성 \(f(x;\theta) = f(-x;-\theta)\) 를 갖고, 평균은

\[ E[X;\theta] \;=\; b'(\theta) \;=\; \frac{1}{\theta} - \pi\cot(\pi\theta) \]

이 함수가 \(\theta\in(-1,1)\) 에서 단조 증가 — 정준 모수와 평균 모수가 일대일 대응.

7.2 F-분포와의 관계

\(\exp(X)\) 가 F-분포를 따르는 \(\theta\) 값이 있다. 구체적으로 \(\theta\) 가 “분자 자유도 \(-\) 분모 자유도” 와 관련된 특정 조합에서 \(\exp(X) \sim F\) 가 된다. 이 결과는 F-검정의 로그 척도 대응을 보여 주며, ANOVA 의 GLM 재해석에서 유용하다.

7.3 왜 중요한가

로지스틱 분포는 로지스틱 회귀의 베이스 이지만, 실제 회귀에서 쓰이는 것은 Bernoulli/Binomial 이다. Tilted 로지스틱은 연속 반응의 로지스틱-링크 회귀 를 설계할 때 자연스럽게 등장한다. 또한 F-분포가 지수족의 변환으로 해석된다는 사실은 GLM 과 고전 ANOVA 의 연결 을 더 깊게 해 준다.

직관: 고전 통계의 핵심 도구들 (t, F, \(\chi^2\)) 이 모두 지수족 기울임의 변환으로 재해석된다는 감각을 얻는다. “왜 이 검정 통계량이 이 분포를 따르는가” 라는 질문이 “어떤 지수족의 어떤 cumulant 에서 나오는가” 로 환원된다.

8 코드 예시 — Exponential Tilting 시뮬레이션

8.1 Step 1: 임의 베이스 분포에서 tilted family 구현

import numpy as np
from scipy.special import logsumexp

rng = np.random.default_rng(0)

def tilt_density(f0_samples, theta):
    """
    Importance-sampling 으로 tilted 분포의 모멘트 계산.
    f0_samples: 베이스 f_0 에서 추출한 샘플
    theta: tilt 매개변수
    """
    log_w = theta * f0_samples                     # exp(theta y) 의 로그
    log_Z = logsumexp(log_w) - np.log(len(f0_samples))  # b(theta) 추정
    w = np.exp(log_w - logsumexp(log_w))           # 정규화된 가중치

    mu   = np.sum(w * f0_samples)                   # 평균 = b'(theta)
    var  = np.sum(w * (f0_samples - mu) ** 2)       # 분산 = b''(theta)
    return mu, var, log_Z

# 베이스: 표준 로지스틱 분포
x_base = rng.logistic(size=100000)
for theta in [-0.5, 0.0, 0.3, 0.7]:
    mu, var, logZ = tilt_density(x_base, theta)
    print(f"theta={theta:+.2f} | mu={mu:+.3f} | var={var:.3f} | b(theta)={logZ:+.3f}")

theta=0 이면 mu=0 (대칭), theta 증가에 따라 mu 와 var 가 단조 변화. 이것이 “정준 모수 → 평균 모수” 의 단조 매핑을 수치적으로 확인.

8.2 Step 2: 분산 항등식 \(\kappa_3 = \kappa_2 \kappa_2'\) 검증 (Poisson)

import numpy as np
from scipy.stats import poisson

mu_grid = np.array([1.0, 2.0, 5.0, 10.0])
for mu in mu_grid:
    samples = poisson.rvs(mu, size=500000)
    k2 = np.var(samples)                          # 분산
    k3 = np.mean((samples - mu) ** 3)             # 3차 중심 모멘트 = 3차 cumulant
    # Poisson 은 V(mu)=mu, V'(mu)=1 → 예측 k3 = mu*1 = mu
    print(f"mu={mu:5.1f} | kappa_2 (관측)={k2:.3f} | kappa_3 (관측)={k3:.3f} | "
          f"예측 k_2*V'={mu*1:.3f}")

Poisson 의 분산함수 \(V(\mu)=\mu\), \(V'(\mu)=1\) 이므로 \(\kappa_3 = \mu\) — 평균과 같다는 고전 결과를 항등식으로부터 재도출.

8.3 Step 3: 지수족 CLT — 이항 → 정규 수렴

import numpy as np

rng = np.random.default_rng(0)
p = 0.3
ns = [5, 10, 50, 200]
for n in ns:
    xbar = rng.binomial(n, p, size=200000) / n
    mu, var = xbar.mean(), xbar.var()
    # 이론: E[xbar] = p, Var[xbar] = p(1-p)/n
    print(f"n={n:4d} | mu={mu:.4f} (이론 {p}) | var={var:.5f} "
          f"(이론 {p*(1-p)/n:.5f})")

\(n\) 증가에 따라 \(\bar X\) 의 표본 평균·분산이 이론값과 일치하며, 히스토그램은 정규에 빠르게 수렴. 지수족 내부에 머물면서 정규로 이동하는 모습을 수치로 확인.

9 흔한 실수

실수	처방
Exponential tilting 을 “특수 기법” 으로 오해	모든 지수족은 적절한 베이스에서 tilting 한 결과. 표준 5종만이 지수족이 아님을 기억
\(a(\phi)\) 를 항상 1 로 가정	평균 연산이나 prior weight 가 들어가면 \(a(\phi) = \phi/\nu\) 로 변함
cumulant 항등식을 고차 모멘트 계산에 활용 못 함	\(V(\mu)\) 와 미분만 알면 \(\kappa_3, \kappa_4\) 까지 구성 가능. Anscombe 변환·편향 보정의 원료
표준 5종 밖에서는 GLM 이 안 된다고 가정	McCullagh angular, zero-truncated Poisson, Tweedie 등 수많은 확장 가능

10 요약

Exponential tilting (2.1–2.3): 임의 분포 \(f_0\) 를 \(\exp(\theta y)\) 로 기울이면 지수족이 된다. 지수족 카탈로그는 무한.
Cumulant 항등식 (2.7): \(\kappa_r = b^{(r)}(\theta)a^{r-1}(\phi)\), \(\kappa_3 = \kappa_2\kappa_2'\). 분산함수 \(V\) 가 고차 모멘트까지 지배.
지수족 CLT: \(\bar Y\) 는 모든 \(n\) 에서 지수족 내부, 점근적으로 정규. 구조적 닫힘 성질.
이산 예제 (2.5–2.6): 베르누이→이항, zero-truncated Poisson 이 tilting 의 자연스러운 산물.
McCullagh angular family (2.8–2.13): \((-1,1)\) 의 2-모수 지수족, pivotal 통계량, Bartlett 보정이 닫힌 형태.
Tilted logistic (2.14–2.15): 로지스틱 베이스 tilting, F-분포 연결, GLM-ANOVA 다리.

한 줄 요약: §2.7 의 15 문제는 “지수족은 당신이 생각한 것보다 넓다” 는 주장을 여러 각도로 증명한다. 본문이 GLM 의 골격 을 보여 줬다면 연습은 그 확장 가능성 을 보여 준다.

11 관련 주제

선행 지식

관련 개념

GLM 잔차 3종 — Pearson·Anscombe·Deviance — Anscombe 변환 \(V^{-1/3}\) 의 유도 배경
GLM 적합 알고리즘 — IRLS 완전 유도 — cumulant 항등식의 IRLS 내 역할
GLM 의 지적 계보 — Bibliographic Notes — Jorgensen(1984), Barndorff-Nielsen(1978)

후속 주제

Tweedie exponential dispersion models — Jorgensen (1997)
Quasi-likelihood (McCullagh Ch.9) — cumulant 항등식의 분포 미지정 활용
Bartlett 보정 — 이탈도의 \(\chi^2\) 근사 개선