Kwangmin Kim - 지수족 (Exponential Family)

1 개요

통계학에서 다루는 수많은 분포 — 정규, 이항, 포아송, 감마, 베타, 음이항 — 가 하나의 공통 구조를 공유한다. 이 구조가 바로 지수족(Exponential Family)이다.

지수족이 중요한 이유는 단순히 “많은 분포가 여기 속한다”는 분류적 사실 때문이 아니다. 지수족이라는 구조를 가지면 충분통계량이 자동으로 존재하고, MLE가 깔끔하게 존재·유일하며, 켤레 사전분포가 존재하고, GLM의 반응 분포로 사용할 수 있다. 하나의 정의에서 통계 추론의 핵심 성질이 줄줄이 따라 나온다.

반대로, 코시 분포나 균등분포 \(U(0, \theta)\) 처럼 지수족에 속하지 않는 분포에서는 이 성질 중 상당수가 깨진다. “이 분포가 지수족인가?”라는 질문은 추론의 난이도를 결정하는 첫 번째 분류 기준이다.

2 정의

정의: 지수족 (Exponential Family)

PDF 또는 PMF의 모임이 다음 형태로 표현되면 지수족이라 한다 (Casella & Berger, 2002, Ch.3):

\[ f(x|\boldsymbol{\theta}) = h(x) \, c(\boldsymbol{\theta}) \, \exp\!\left( \sum_{i=1}^{k} w_i(\boldsymbol{\theta}) \, t_i(x) \right) \]

여기서:

\(h(x) \geq 0\) : 관측값 \(x\) 에만 의존하는 함수 (base measure)
\(c(\boldsymbol{\theta}) \geq 0\) : 모수 \(\boldsymbol{\theta}\) 에만 의존하는 정규화 인자
\(w_i(\boldsymbol{\theta})\) : 모수의 함수 (자연모수 함수)
\(t_i(x)\) : 관측값의 함수 (충분통계량 함수)

이 정의의 핵심은 모수와 데이터가 분리된다는 것이다. 지수 안의 합에서 \(w_i(\boldsymbol{\theta})\) 와 \(t_i(x)\) 가 곱으로만 결합되므로, 데이터가 주는 정보가 \(t_1(x), \ldots, t_k(x)\) 라는 유한 개의 요약 통계량으로 집약된다.

2.1 지수족의 핵심 조건: 지지(support)가 모수에 의존하지 않는다

\(f(x|\boldsymbol{\theta}) > 0\) 인 \(x\) 의 집합은 \(\boldsymbol{\theta}\) 에 따라 변하면 안 된다. 형식적으로, \(\{x : f(x|\boldsymbol{\theta}) > 0\} = \{x : h(x) > 0\}\) 이어야 한다. 이 조건이 왜 중요한지 반례로 확인한다.

반례: 균등분포 \(U(0, \theta)\)

\(f(x|\theta) = \frac{1}{\theta} I_{[0, \theta]}(x)\) 에서 지시함수 \(I_{[0, \theta]}(x)\) 는 \(x\) 와 \(\theta\) 모두에 의존한다. 이 함수는 \(h(x)\) 에 넣을 수 없고( \(\theta\) 에 의존), \(c(\theta)\) 에도 넣을 수 없으며( \(x\) 에 의존), 지수 형태로도 쓸 수 없다. 따라서 \(U(0, \theta)\) 는 지수족이 아니다 (Casella & Berger, 2002, Ch.3).

3 표준 분포의 지수족 표현

3.1 이항분포

이항분포 \(\text{Bin}(n, p)\) 의 PMF를 지수족 형태로 변환한다 (Casella & Berger, 2002, Ch.3):

\[ \begin{aligned} f(x|p) &= \binom{n}{x} p^x (1-p)^{n-x} \\ &= \binom{n}{x} (1-p)^n \exp\!\left( \log\frac{p}{1-p} \cdot x \right) \end{aligned} \]

구성요소를 식별하면:

함수	식	해석
\(h(x)\)	\(\binom{n}{x}\)	조합 계수, \(x = 0, \ldots, n\) 에서만 양수
\(c(p)\)	\((1-p)^n\)	정규화 인자
\(w_1(p)\)	\(\log\frac{p}{1-p}\)	로그 오즈 (log-odds)
\(t_1(x)\)	\(x\)	성공 횟수

\(k = 1\) 인 단일 모수 지수족이다. 자연모수 \(\eta = \log\frac{p}{1-p}\) 는 로지스틱 회귀에서 link function으로 등장한다.

3.2 정규분포

정규분포 \(N(\mu, \sigma^2)\) 의 PDF를 변환한다 (Casella & Berger, 2002, Ch.3):

\[ \begin{aligned} f(x|\mu, \sigma^2) &= \frac{1}{\sqrt{2\pi}\sigma} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \\ &= \underbrace{\frac{1}{\sqrt{2\pi}\sigma} \exp\!\left(-\frac{\mu^2}{2\sigma^2}\right)}_{c(\mu, \sigma)} \cdot \underbrace{1}_{h(x)} \cdot \exp\!\left( \underbrace{\frac{1}{\sigma^2}}_{w_1} \cdot \underbrace{\left(-\frac{x^2}{2}\right)}_{t_1} + \underbrace{\frac{\mu}{\sigma^2}}_{w_2} \cdot \underbrace{x}_{t_2} \right) \end{aligned} \]

\(k = 2\) 인 지수족이다. 두 개의 충분통계량 \(t_1(x) = -x^2/2\) 와 \(t_2(x) = x\) 가 필요하며, 이는 \(n\) 개의 관측값이 주어졌을 때 \(\sum x_i\) 와 \(\sum x_i^2\) 만으로 모수에 대한 모든 정보를 담는다는 것을 의미한다.

3.3 주요 분포의 지수족 표현 요약

분포	\(k\)	자연모수 \(\eta\)	충분통계량 \(t(x)\)	비고
베르누이 \(\text{Ber}(p)\)	1	\(\log\frac{p}{1-p}\)	\(x\)	로지스틱 회귀의 기반
이항 \(\text{Bin}(n,p)\)	1	\(\log\frac{p}{1-p}\)	\(x\)	\(n\) 고정
포아송 \(\text{Poi}(\lambda)\)	1	\(\log\lambda\)	\(x\)	포아송 회귀의 기반
정규 \(N(\mu,\sigma^2)\)	2	\((\frac{1}{\sigma^2}, \frac{\mu}{\sigma^2})\)	\((-\frac{x^2}{2}, x)\)	가장 기본적인 2-모수 지수족
감마 \(\text{Ga}(\alpha,\beta)\)	2	\((\alpha - 1, -\beta)\)	\((\log x, x)\)	\(\alpha\) 고정 시 1-모수
베타 \(\text{Beta}(\alpha,\beta)\)	2	\((\alpha - 1, \beta - 1)\)	\((\log x, \log(1-x))\)	비율 모델링
음이항 \(\text{NB}(r,p)\)	1	\(\log(1-p)\)	\(x\)	\(r\) 고정

4 자연모수화 (Natural Parameterization)

지수족은 자연모수(natural parameter) \(\boldsymbol{\eta}\) 를 사용하여 더 깔끔한 형태로 재모수화할 수 있다 (Casella & Berger, 2002, Ch.3):

\[ f(x|\boldsymbol{\eta}) = h(x) \, c^*(\boldsymbol{\eta}) \, \exp\!\left( \sum_{i=1}^{k} \eta_i \, t_i(x) \right) \]

원래 모수화에서 \(w_i(\boldsymbol{\theta})\) 를 \(\eta_i\) 로 치환한 것이다. 자연모수 공간 \(\mathcal{H}\) 는 적분(또는 합)이 유한한 \(\boldsymbol{\eta}\) 의 집합이다:

\[ \mathcal{H} = \left\{ \boldsymbol{\eta} = (\eta_1, \ldots, \eta_k) : \int h(x) \exp\!\left( \sum_{i=1}^{k} \eta_i \, t_i(x) \right) dx < \infty \right\} \]

4.1 자연모수 공간의 볼록성

\(\mathcal{H}\) 는 볼록 집합(convex set)이다. 이 성질이 왜 중요한가? 로그 가능도 함수를 자연모수 \(\boldsymbol{\eta}\) 로 표현하면:

\[ \ell(\boldsymbol{\eta}) = \sum_{j=1}^{n} \log h(x_j) + n \log c^*(\boldsymbol{\eta}) + \sum_{i=1}^{k} \eta_i \sum_{j=1}^{n} t_i(x_j) \]

\(\log c^*(\boldsymbol{\eta})\) 는 \(\boldsymbol{\eta}\) 에 대해 오목(concave)하다. 볼록 집합 위에서 오목 함수의 최대화 문제는 전역 최적해가 존재하고, 이것이 지수족에서 MLE의 존재와 유일성을 보장하는 수학적 근거이다.

4.2 정규분포의 자연모수 예시

정규분포 \(N(\mu, \sigma^2)\) 에서 자연모수는 \(\eta_1 = 1/\sigma^2\) , \(\eta_2 = \mu/\sigma^2\) 이다. 자연모수 공간은 \(\{(\eta_1, \eta_2) : \eta_1 > 0, -\infty < \eta_2 < \infty\}\) 이다. \(x^2\) 의 계수가 음수여야 적분이 수렴하므로 \(\eta_1 > 0\) 이 필요하고, 이 조건만 충족되면 \(\eta_2\) 는 임의의 실수를 취할 수 있다 (Casella & Berger, 2002, Ch.3).

자연모수는 수학적으로 편리하지만, 해석이 직관적이지 않을 수 있다. 평균과 분산이라는 직관적 모수 \((\mu, \sigma^2)\) 대신 \((1/\sigma^2, \mu/\sigma^2)\) 를 쓰는 것은 이론적 분석에서는 유리하나 실무적 해석에서는 불편하다.

5 적률 계산의 단축 공식

지수족 구조의 실용적 이점 중 하나는 적분이나 합산 없이 미분만으로 적률을 구할 수 있다는 것이다.

정리 3.4.2 (Casella & Berger, 2002, Ch.3)

\(X\) 가 지수족 PDF/PMF를 따르면:

\[ E\!\left( \sum_{i=1}^{k} \frac{\partial w_i(\boldsymbol{\theta})}{\partial \theta_j} t_i(X) \right) = -\frac{\partial}{\partial \theta_j} \log c(\boldsymbol{\theta}) \]

\[ \text{Var}\!\left( \sum_{i=1}^{k} \frac{\partial w_i(\boldsymbol{\theta})}{\partial \theta_j} t_i(X) \right) = -\frac{\partial^2}{\partial \theta_j^2} \log c(\boldsymbol{\theta}) - E\!\left( \sum_{i=1}^{k} \frac{\partial^2 w_i(\boldsymbol{\theta})}{\partial \theta_j^2} t_i(X) \right) \]

수식이 복잡해 보이지만, 핵심 아이디어는 간명하다: 적분을 미분으로 대체한다. 구체적 사례로 확인한다.

5.1 예시: 이항분포의 평균

이항분포에서 \(w_1(p) = \log\frac{p}{1-p}\) , \(c(p) = (1-p)^n\) 이므로:

\[ \frac{d}{dp} w_1(p) = \frac{1}{p(1-p)}, \quad \frac{d}{dp} \log c(p) = \frac{-n}{1-p} \]

정리 3.4.2를 적용하면:

\[ E\!\left( \frac{1}{p(1-p)} X \right) = \frac{n}{1-p} \]

양변을 정리하면 \(E(X) = np\) 를 얻는다. 적분 없이 미분 두 번으로 평균을 유도한 것이다.

6 충분통계량과의 관계

지수족이 통계 추론에서 핵심적인 이유는 충분통계량(sufficient statistic)과의 깊은 연결에 있다.

정리 6.2.10 (Casella & Berger, 2002, Ch.6)

\(X_1, \ldots, X_n\) 이 지수족 \(f(x|\boldsymbol{\theta}) = h(x) \, c(\boldsymbol{\theta}) \, \exp\!\left( \sum_{i=1}^{k} w_i(\boldsymbol{\theta}) \, t_i(x) \right)\) 에서의 iid 표본이면:

\[ T(\mathbf{X}) = \left( \sum_{j=1}^{n} t_1(X_j), \ldots, \sum_{j=1}^{n} t_k(X_j) \right) \]

는 \(\boldsymbol{\theta}\) 에 대한 충분통계량이다.

이 정리의 의미는 강력하다. \(n\) 개의 데이터 포인트가 있어도, 모수 \(\boldsymbol{\theta}\) 에 대한 정보는 \(k\) 개의 숫자로 완전히 요약된다. \(n\) 이 아무리 커도 \(k\) 는 고정이다.

6.1 직관적 이해: 데이터 축소

\(n = 1{,}000{,}000\) 개의 정규분포 표본이 있다고 하자. 정규분포는 \(k = 2\) 인 지수족이므로, \(\sum x_i\) 와 \(\sum x_i^2\) 라는 두 개의 숫자만 있으면 \(\mu\) 와 \(\sigma^2\) 추정에 필요한 모든 정보가 보존된다. 나머지 999,998개의 자유도는 모수에 대해 아무 추가 정보를 주지 않는다.

이 성질은 실무에서 분산 컴퓨팅의 근거가 된다. MapReduce에서 각 노드가 \(\sum x_i\) 와 \(\sum x_i^2\) 만 전송하면 중앙에서 전체 MLE를 구할 수 있다.

7 완전 지수족과 곡선 지수족

7.1 완전 지수족 (Full Exponential Family)

모수 벡터 \(\boldsymbol{\theta}\) 의 차원이 \(k\) (지수 안의 항 수)와 같으면 완전 지수족(full exponential family)이라 한다.

정규분포 \(N(\mu, \sigma^2)\) 는 \(\boldsymbol{\theta} = (\mu, \sigma)\) 로 \(d = 2\) 이고, 지수 안에 \(k = 2\) 개의 항이 있으므로 완전 지수족이다 (Casella & Berger, 2002, Ch.3).

7.2 곡선 지수족 (Curved Exponential Family)

정의: 곡선 지수족 (Casella & Berger, 2002, Definition 3.4.7)

지수족에서 모수 벡터 \(\boldsymbol{\theta}\) 의 차원 \(d\) 가 \(k\) 보다 작으면( \(d < k\) ), 이를 곡선 지수족(curved exponential family)이라 한다.

왜 “곡선(curved)”이라 부르는가? 자연모수 공간 \(\mathcal{H} \subseteq \mathbb{R}^k\) 에서, 완전 지수족은 \(k\) 차원 영역을 채우지만, 곡선 지수족은 \(d\) 차원 곡면(manifold) 위에만 놓인다.

7.3 예시: 분산이 평균의 제곱인 정규분포

\(\sigma^2 = \mu^2\) 라는 제약 하의 정규분포를 생각한다 (Casella & Berger, 2002, Example 3.4.8):

\[ f(x|\mu) = \frac{1}{\sqrt{2\pi\mu^2}} \exp\!\left(-\frac{1}{2}\right) \exp\!\left(-\frac{x^2}{2\mu^2} + \frac{x}{\mu}\right) \]

지수 안에 \(k = 2\) 개의 항이 있지만 자유 모수는 \(d = 1\) ( \(\mu\) 만)이다. 자연모수 공간 \((\eta_1, \eta_2) = (1/\mu^2, 1/\mu)\) 에서 \(\eta_1 = \eta_2^2\) 이므로, 모수가 놓이는 궤적이 포물선 — 즉 곡선 — 이다.

7.4 CLT 근사와 곡선 지수족

포아송 분포 \(\text{Poi}(\lambda)\) 표본의 표본평균 \(\bar{X}\) 는 CLT에 의해 \(N(\lambda, \lambda/n)\) 으로 근사된다. 이 정규 근사는 평균과 분산이 모두 \(\lambda\) 의 함수이므로 곡선 지수족이다 (Casella & Berger, 2002, Example 3.4.9). 실제로 대부분의 CLT 정규 근사는 곡선 지수족이 된다.

7.5 완전 vs 곡선: 실무적 차이

성질	완전 지수족	곡선 지수족
충분통계량 차원	\(k\) (= 모수 차원)	\(k\) (> 모수 차원)
MLE	충분통계량의 함수	충분통계량의 함수이지만 닫힌 형태가 아닐 수 있음
정보 손실	충분통계량이 최소 충분	충분통계량이 최소 충분이 아닐 수 있음
모수 공간 기하	\(\mathbb{R}^k\) 의 열린 부분집합	\(\mathbb{R}^k\) 의 \(d\) 차원 부분다양체

8 왜 지수족이 통계 추론의 중심인가

지수족의 정의에서 다음 성질이 모두 따라 나온다:

8.1 충분통계량에 의한 데이터 축소

위에서 본 정리 6.2.10이 보장한다. \(k\) 개의 요약 통계량으로 데이터 전체를 대체할 수 있다.

8.2 MLE의 존재와 유일성

자연모수 공간의 볼록성과 로그 가능도의 오목성이 결합되어, 완전 지수족에서 충분통계량이 내부에 있으면 MLE가 존재하고 유일하다. 이 덕분에 수치 최적화가 안정적이다.

8.3 켤레 사전분포의 자연스러운 존재

베이지안 추론에서 사전분포 \(\pi(\boldsymbol{\theta})\) 를 다음 형태로 놓으면:

\[ \pi(\boldsymbol{\theta}) \propto c(\boldsymbol{\theta})^{n_0} \exp\!\left( \sum_{i=1}^{k} w_i(\boldsymbol{\theta}) \, s_i \right) \]

여기서 \(n_0\) 은 사전 “가상 표본 수”, \(s_i\) 는 사전 “가상 충분통계량”이다. 이 사전분포는 가능도와 같은 지수족 구조를 가지므로, 사후분포도 같은 가족에 속한다. 이것이 켤레 사전(conjugate prior)의 원리이다.

가능도	켤레 사전	사후
이항	베타	베타
포아송	감마	감마
정규 (평균)	정규	정규
지수	감마	감마

8.4 GLM의 반응 분포

일반화선형모형(GLM)에서 반응변수 \(Y\) 의 분포는 지수족이어야 한다:

\[ f(y|\theta, \phi) = \exp\!\left( \frac{y\theta - b(\theta)}{a(\phi)} + c(y, \phi) \right) \]

로지스틱 회귀(이항), 포아송 회귀(포아송), 감마 회귀(감마) 모두 이 틀에 들어간다. 지수족이 아닌 분포(코시, 혼합분포 등)에는 GLM을 직접 적용할 수 없다.

9 응용 분야

분야	활용	구체적 예시
머신러닝	GLM 계열 모델	로지스틱 회귀, 포아송 회귀의 이론적 기반
베이지안 추론	켤레 분석	사전-사후 분포의 해석적 갱신
분산 컴퓨팅	충분통계량 기반 집계	MapReduce에서 노드별 요약 통계량만 전송
자연어처리	최대 엔트로피 모형	MaxEnt = 제약 하 지수족 분포의 선택
정보이론	지수족과 엔트로피	주어진 적률 제약 하에서 엔트로피를 최대화하는 분포가 지수족
변분추론	평균장 근사	변분 가족을 지수족으로 한정하면 ELBO 최적화가 닫힌 형태

10 예시: 포아송 분포가 지수족임을 보이기

포아송 분포 \(\text{Poi}(\lambda)\) 의 PMF를 지수족 형태로 변환한다:

\[ \begin{aligned} f(x|\lambda) &= \frac{e^{-\lambda} \lambda^x}{x!} \\ &= \frac{1}{x!} \cdot e^{-\lambda} \cdot \exp(x \log\lambda) \end{aligned} \]

구성요소 식별:

\(h(x) = 1/x!\)
\(c(\lambda) = e^{-\lambda}\)
\(w_1(\lambda) = \log\lambda\) , 자연모수 \(\eta = \log\lambda\)
\(t_1(x) = x\)

\(k = 1\) 인 단일 모수 지수족이다. \(n\) 개의 iid 표본이 주어지면 충분통계량은 \(T = \sum_{j=1}^{n} x_j\) 하나이며, \(\bar{x}\) 만으로 \(\lambda\) 에 대한 모든 정보가 담긴다.

11 코드 예시

11.1 Step 1: 순수 Python 구현 (원리 이해)

지수족의 로그 가능도가 충분통계량으로 완전히 결정됨을 확인한다.

import math

# 정규분포 N(mu, sigma^2) 표본
data = [2.3, 1.8, 3.1, 2.7, 2.5, 1.9, 3.4, 2.2, 2.8, 3.0]
n = len(data)

# 충분통계량: t1 = sum(x), t2 = sum(x^2)
t1 = sum(data)
t2 = sum(x**2 for x in data)
print(f"충분통계량: sum(x) = {t1:.3f}, sum(x^2) = {t2:.3f}")

# MLE from sufficient statistics
mu_mle = t1 / n
sigma2_mle = t2 / n - mu_mle**2  # E[X^2] - (E[X])^2
print(f"MLE: mu_hat = {mu_mle:.3f}, sigma^2_hat = {sigma2_mle:.3f}")

# 로그 가능도: 충분통계량만으로 계산
log_lik = (
    -n / 2 * math.log(2 * math.pi)
    - n / 2 * math.log(sigma2_mle)
    - 1 / (2 * sigma2_mle) * t2
    + mu_mle / sigma2_mle * t1
    - n * mu_mle**2 / (2 * sigma2_mle)
)
print(f"로그 가능도 (충분통계량 기반): {log_lik:.3f}")

# 직접 계산으로 검증
log_lik_direct = sum(
    -0.5 * math.log(2 * math.pi * sigma2_mle)
    - (x - mu_mle)**2 / (2 * sigma2_mle)
    for x in data
)
print(f"로그 가능도 (직접 계산): {log_lik_direct:.3f}")
print(f"두 값이 일치하는가: {abs(log_lik - log_lik_direct) < 1e-10}")

핵심 확인: 10개의 데이터 포인트 대신 \(\sum x_i\) 와 \(\sum x_i^2\) 두 숫자만으로 로그 가능도를 정확히 복원할 수 있다.

11.2 Step 2: scipy/numpy 구현 (실무 활용)

여러 분포의 지수족 구조를 확인하고, 충분통계량 기반 MLE를 비교한다.

import numpy as np
from scipy import stats

np.random.seed(42)

# --- 포아송 분포: 충분통계량 = sum(x) ---
lam_true = 3.5
pois_data = stats.poisson.rvs(mu=lam_true, size=1000)

t_pois = np.sum(pois_data)           # 충분통계량
lam_mle = t_pois / len(pois_data)    # MLE = 표본평균
print(f"[포아송] lambda_true = {lam_true}, lambda_MLE = {lam_mle:.3f}")
print(f"  충분통계량 sum(x) = {t_pois}, n = {len(pois_data)}")

# --- 지수 분포: 충분통계량 = sum(x) ---
beta_true = 2.0
exp_data = stats.expon.rvs(scale=beta_true, size=1000)

t_exp = np.sum(exp_data)
beta_mle = t_exp / len(exp_data)     # MLE = 표본평균
print(f"\n[지수] beta_true = {beta_true}, beta_MLE = {beta_mle:.3f}")
print(f"  충분통계량 sum(x) = {t_exp:.3f}, n = {len(exp_data)}")

# --- 정규 분포: 충분통계량 = (sum(x), sum(x^2)) ---
mu_true, sigma_true = 5.0, 1.5
norm_data = stats.norm.rvs(loc=mu_true, scale=sigma_true, size=1000)

t_norm = (np.sum(norm_data), np.sum(norm_data**2))
mu_mle = t_norm[0] / len(norm_data)
sigma2_mle = t_norm[1] / len(norm_data) - mu_mle**2
print(f"\n[정규] mu_true = {mu_true}, sigma_true = {sigma_true}")
print(f"  mu_MLE = {mu_mle:.3f}, sigma_MLE = {np.sqrt(sigma2_mle):.3f}")
print(f"  충분통계량: sum(x) = {t_norm[0]:.3f}, sum(x^2) = {t_norm[1]:.3f}")

11.3 자연모수화 시각화

자연모수 공간에서 이항분포의 자연모수 \(\eta = \log\frac{p}{1-p}\) 와 원래 모수 \(p\) 의 관계를 시각화한다.

import matplotlib.pyplot as plt

p_vals = np.linspace(0.01, 0.99, 200)
eta_vals = np.log(p_vals / (1 - p_vals))

fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# 왼쪽: p → eta 변환
axes[0].plot(p_vals, eta_vals, 'b-', linewidth=2)
axes[0].axhline(y=0, color='gray', linestyle='--', alpha=0.5)
axes[0].axvline(x=0.5, color='gray', linestyle='--', alpha=0.5)
axes[0].set_xlabel('p (original parameter)')
axes[0].set_ylabel(r'$\eta = \log\frac{p}{1-p}$ (natural parameter)')
axes[0].set_title('Binomial: Original to Natural Parameter')

# 오른쪽: 정규분포의 자연모수 공간
mu_grid = np.linspace(-3, 3, 50)
sigma_grid = np.linspace(0.3, 3, 50)
MU, SIGMA = np.meshgrid(mu_grid, sigma_grid)
ETA1 = 1 / SIGMA**2
ETA2 = MU / SIGMA**2

axes[1].scatter(ETA2.ravel(), ETA1.ravel(), c=MU.ravel(),
                cmap='coolwarm', s=1, alpha=0.5)
axes[1].set_xlabel(r'$\eta_2 = \mu/\sigma^2$')
axes[1].set_ylabel(r'$\eta_1 = 1/\sigma^2$')
axes[1].set_title(r'Normal: Natural Parameter Space ($\eta_1 > 0$)')
axes[1].axhline(y=0, color='red', linestyle='--', linewidth=1.5, label=r'$\eta_1 = 0$ boundary')
axes[1].legend()

plt.tight_layout()
plt.show()

12 지수족이 아닌 분포

모든 분포가 지수족에 속하는 것은 아니다. 지수족이 아닌 경우와 그 결과를 정리한다.

분포	지수족 탈락 사유	추론에서의 영향
균등 \(U(0, \theta)\)	지지(support) \([0, \theta]\) 가 \(\theta\) 에 의존	MLE가 순서통계량, 일반 이론 적용 불가
코시 \(\text{Cauchy}(\mu, \sigma)\)	적률이 존재하지 않음, 지수족 형태로 표현 불가	MLE 존재하지만 닫힌 형태 없음, 수치적으로만 해결
혼합분포 \(\sum \pi_i f_i(x)\)	합이 지수 안으로 들어가지 않음	EM 알고리즘 등 반복적 방법 필요
로그코시	꼬리가 너무 무거움, 적률 없음	MLE 불안정, 강건 추정 필요

지수족과 비-지수족의 차이는 “편리함의 정도”가 아니라 추론 방법론 자체의 전환을 요구한다. 지수족이 아닌 분포에서는 충분통계량이 데이터 전체일 수 있고, MLE가 존재하지 않거나 유일하지 않을 수 있으며, 베이지안 분석에서 해석적 사후분포를 기대할 수 없다.

13 관련 주제

선행 지식

후속 주제

최대우도추정 — 지수족에서의 MLE 성질
충분통계량 — 데이터 축소 원리
일반화선형모형 — 지수족 기반 회귀 프레임워크

관련 개념

분포 가족 개요 — 지수족, 위치-척도족, 확률 부등식 요약
베이지안 추론 — 켤레 사전분포의 이론적 근거