Kwangmin Kim - 분포 가족 개요 (Common Families of Distributions)

1 왜 분포 가족인가

Ch.1에서 확률변수와 분포 함수를 정의하고, Ch.2에서 기댓값과 적률로 분포를 요약하는 도구를 갖추었다. 그런데 실무에서 마주치는 데이터를 모형화하려면 구체적인 분포가 필요하다. “이 데이터의 분포가 뭔가?”라는 질문에 답하는 것이 바로 분포 가족(common families of distributions)이다.

분포 가족 없이는 불가능한 것들

모형 명세(model specification): 선형 회귀에서 “오차가 정규분포를 따른다”는 가정이 없으면, OLS의 최적성(BLUE)도, t-검정의 정확한 분포도 성립하지 않는다
가능도 함수: MLE는 \(L(\theta) = \prod_i f(x_i|\theta)\) — 구체적인 \(f\) 를 선택해야 가능도를 쓸 수 있다
GLM 구축: 로지스틱 회귀 = 이항 분포 + 로짓 링크, 포아송 회귀 = 포아송 분포 + 로그 링크 — 분포 선택이 모형의 출발점이다
시뮬레이션: A/B 테스트 검정력 분석, 부트스트랩, MCMC — 모두 특정 분포에서 난수를 생성하는 것에서 시작한다
사전 분포 선택: 베이지안 추론에서 켤레 사전(conjugate prior)은 가능도의 분포 가족에 의해 결정된다

분포 가족은 통계학의 “어휘(vocabulary)”이다. 어휘가 풍부해야 현실의 데이터를 정확하게 기술할 수 있다.

2 이 장의 구조

Casella & Berger Ch.3은 다음과 같은 흐름으로 분포를 체계화한다.

이산 분포 (Discrete)          연속 분포 (Continuous)
    │                              │
    ├─ 이산균등                     ├─ 균등
    ├─ 초기하                       ├─ 정규
    ├─ 이항                         ├─ 감마 (지수, 카이제곱)
    ├─ 포아송                       ├─ 베타
    ├─ 음이항 (기하)               ├─ 코시, 로그정규, 이중지수
    │                              │
    └──────────┬───────────────────┘
               │
        지수족 (Exponential Family)
               │
     위치-척도족 (Location-Scale)
               │
     부등식과 항등식 (Inequalities)

절	주제	핵심 질문	DS 연결
3.2	이산 분포	셀 수 있는 결과의 확률은?	분류, 결함 수, 클릭 수
3.3	연속 분포	연속 측정값의 밀도는?	키, 시간, 비용, 수익률
3.4	지수족	왜 특정 분포들이 추론에 유리한가?	GLM의 이론적 기반
3.5	위치-척도족	표준화란 무엇인가?	z-score, 배치 정규화
3.6	부등식	분포를 모를 때 확률을 바운딩할 수 있는가?	이상 탐지, 체르노프 바운드

3 이산 분포 (Discrete Distributions)

이산 확률변수는 표본공간이 가산(countable)인 경우이다. 대부분 정수값을 취한다.

분포	PMF	\(E[X]\)	\(\text{Var}(X)\)	대표 응용
이산균등 \(\text{DU}(1,N)\)	\(\frac{1}{N}\)	\(\frac{N+1}{2}\)	\(\frac{(N+1)(N-1)}{12}\)	주사위, 무작위 배정
초기하 \(\text{HG}(N,M,K)\)	\(\frac{\binom{M}{x}\binom{N-M}{K-x}}{\binom{N}{K}}\)	\(\frac{KM}{N}\)	\(\frac{KM(N-M)(N-K)}{N^2(N-1)}\)	비복원 추출, 품질검사
이항 \(\text{Bin}(n,p)\)	\(\binom{n}{x}p^x(1-p)^{n-x}\)	\(np\)	\(np(1-p)\)	A/B 테스트 전환율
포아송 \(\text{Poi}(\lambda)\)	\(\frac{\lambda^x e^{-\lambda}}{x!}\)	\(\lambda\)	\(\lambda\)	사건 발생 수, 트래픽
음이항 \(\text{NB}(r,p)\)	\(\binom{x+r-1}{x}p^r(1-p)^x\)	\(\frac{r(1-p)}{p}\)	\(\frac{r(1-p)}{p^2}\)	과산포 카운트 데이터
기하 \(\text{Geo}(p)\)	\(p(1-p)^x\)	\(\frac{1-p}{p}\)	\(\frac{1-p}{p^2}\)	첫 성공까지 시행 수

3.1 분포 간 관계

이산 분포들은 고립된 것이 아니라 서로 밀접하게 연결된다.

이항 → 포아송: \(n \to \infty\) , \(p \to 0\) , \(np = \lambda\) 고정 → 이항이 포아송에 수렴한다. 희귀 사건 근사의 수학적 근거이다.
초기하 → 이항: 모집단 \(N \to \infty\) 이면 비복원 추출이 복원 추출에 수렴한다. “모집단이 충분히 크면 비복원이어도 이항으로 근사”가 성립하는 이유이다.
음이항 → 포아송: 음이항에서 \(r \to \infty\) , \(p \to 1\) , \(r(1-p) = \lambda\) 고정 → 포아송에 수렴한다.
기하 = 음이항의 특수한 경우: \(r = 1\) 인 음이항이 기하 분포이다.

DS 실무에서 이산 분포 선택 기준

“카운트 데이터”라고 모두 포아송이 아니다. 분산이 평균보다 큰 과산포(overdispersion)가 관측되면 음이항이 더 적합하다. 실무적 선택 흐름은 다음과 같다.

\(\text{Var} \approx E\) → 포아송
\(\text{Var} > E\) → 음이항 (또는 quasi-Poisson)
시행 수 \(n\) 고정, 성공 확률 관심 → 이항
비복원 추출 + 유한 모집단 → 초기하

4 연속 분포 (Continuous Distributions)

연속 확률변수는 PDF \(f(x)\) 에 의해 기술되며, \(P(X \in A) = \int_A f(x) dx\) 이다.

분포	PDF	\(E[X]\)	\(\text{Var}(X)\)	대표 응용
균등 \(U(a,b)\)	\(\frac{1}{b-a}\)	\(\frac{a+b}{2}\)	\(\frac{(b-a)^2}{12}\)	난수 생성, PIT
정규 \(N(\mu,\sigma^2)\)	\(\frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2}\)	\(\mu\)	\(\sigma^2\)	오차 모형, CLT
감마 \(\text{Gamma}(\alpha,\beta)\)	\(\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta}\)	\(\alpha\beta\)	\(\alpha\beta^2\)	대기 시간, 보험금
지수 \(\text{Exp}(\lambda)\)	\(\lambda e^{-\lambda x}\)	\(1/\lambda\)	\(1/\lambda^2\)	생존 시간, 무기억성
카이제곱 \(\chi^2(k)\)	감마 \((\frac{k}{2}, 2)\)	\(k\)	\(2k\)	적합도 검정, 분산 추론
베타 \(\text{Beta}(\alpha,\beta)\)	\(\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}\)	\(\frac{\alpha}{\alpha+\beta}\)	\(\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\)	비율, 사전 분포
코시 \(\text{Cauchy}(\mu,\sigma)\)	\(\frac{1}{\pi\sigma[1+(x-\mu)^2/\sigma^2]}\)	존재하지 않음	존재하지 않음	중꼬리 모형
로그정규 \(\text{LN}(\mu,\sigma^2)\)	\(\frac{1}{x\sigma\sqrt{2\pi}}e^{-(\ln x-\mu)^2/2\sigma^2}\)	\(e^{\mu+\sigma^2/2}\)	\((e^{\sigma^2}-1)e^{2\mu+\sigma^2}\)	소득, 주가 수익률

4.1 분포 간 관계

감마의 특수한 경우: 지수 = 감마 \((\alpha=1)\) , 카이제곱 = 감마 \((\alpha=k/2, \beta=2)\) — 감마가 “대기 시간 분포의 일반형”이다.
정규의 중심적 역할: CLT에 의해 표본 평균은 원래 분포에 관계없이 정규에 수렴한다. 정규 분포가 통계학의 중심인 이유이다.
베타-이항 관계: \(X \sim \text{Beta}(\alpha, \beta)\) 이면 \(X\) 는 이항 분포의 성공 확률에 대한 자연스러운 사전 분포이다(켤레 사전).
로그정규와 정규: \(X \sim N(\mu, \sigma^2)\) 이면 \(e^X \sim \text{LN}(\mu, \sigma^2)\) — 지수 변환이 정규를 로그정규로 바꾼다.

코시 분포의 교훈

코시 분포는 기댓값도 분산도 존재하지 않는다. 표본 평균 \(\bar{X}\) 의 분포가 \(n\) 에 관계없이 원래 코시와 동일하므로, CLT도 큰 수의 법칙도 적용되지 않는다. “평균을 내면 정밀도가 올라간다”는 직관이 통하지 않는 극단적 반례이다. 금융 데이터의 두꺼운 꼬리가 이런 병리적 성질에 가까울 수 있으므로, 분포 가정의 검증이 실무적으로 중요하다.

5 지수족 (Exponential Family)

정의: 지수족 (Casella & Berger, Section 3.4)

확률변수 \(X\) 의 PDF/PMF가 다음 형태로 표현되면 지수족에 속한다:

\[ f(x|\boldsymbol{\theta}) = h(x) \, c(\boldsymbol{\theta}) \, \exp\left( \sum_{i=1}^k \eta_i(\boldsymbol{\theta}) \, T_i(x) \right) \]

여기서 \(h(x) \geq 0\) , \(c(\boldsymbol{\theta}) > 0\) 은 정규화 상수, \(\eta_i\) 는 자연모수(natural parameter), \(T_i\) 는 충분통계량이다.

5.1 왜 지수족이 핵심인가

대부분의 표준 분포 — 정규, 이항, 포아송, 감마, 베타, 음이항 — 가 지수족에 속한다. 지수족이라는 하나의 틀 안에서 다음이 모두 통합적으로 다뤄진다.

성질	지수족에서의 결과	DS 응용
충분통계량	\(T(x) = \sum_i T_i(x_i)\) — 데이터를 저차원 요약으로 축소	데이터 압축, MapReduce 집계
적률 계산	\(E[T(X)] = -\frac{d}{d\eta} \log c(\eta)\)	분포 모수에서 평균/분산을 자동 유도
MLE 존재·유일성	로그 가능도가 오목(concave) → 전역 최대 보장	수치 최적화의 수렴 보장
켤레 사전	사전 분포와 사후 분포가 같은 가족	베이지안 추론의 해석적 추적 가능
GLM 기반	지수족 = GLM의 반응 변수 분포	로지스틱, 포아송, 감마 회귀의 통합

지수족이 아닌 분포: 무엇이 달라지는가

코시 분포, 균등 \(U(0, \theta)\) (지지가 모수 의존), 혼합 분포 등은 지수족에 속하지 않는다. 이 경우:

충분통계량이 데이터 전체일 수 있다 (데이터 축소 불가)
MLE가 존재하지 않거나 유일하지 않을 수 있다
GLM 프레임워크를 직접 적용할 수 없다
켤레 사전이 존재하지 않을 수 있다

“지수족인가 아닌가”는 추론의 난이도를 결정하는 첫 번째 분류 기준이다.

6 위치-척도족 (Location-Scale Family)

정의: 위치-척도족

\(f_0(x)\) 가 표준 PDF일 때, 위치-척도족은 다음과 같이 정의된다:

\[ f(x|\mu, \sigma) = \frac{1}{\sigma} f_0\left( \frac{x - \mu}{\sigma} \right), \quad \sigma > 0 \]

\(\mu\) 는 위치 모수(location), \(\sigma\) 는 척도 모수(scale)이다.

이 정의가 의미하는 것은 모든 분포 멤버가 같은 “모양”을 가지며, 위치와 스케일만 다르다는 것이다.

족(Family)	표준 분포 \(f_0\)	위치 모수	척도 모수	예시
정규	\(\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\)	\(\mu\)	\(\sigma\)	\(N(\mu, \sigma^2)\)
코시	\(\frac{1}{\pi(1+x^2)}\)	\(\mu\)	\(\sigma\)	\(\text{Cauchy}(\mu, \sigma)\)
이중지수 (라플라스)	\(\frac{1}{2}e^{-\lvert x\rvert}\)	\(\mu\)	\(\sigma\)	\(\text{Laplace}(\mu, \sigma)\)
로지스틱	\(\frac{e^{-x}}{(1+e^{-x})^2}\)	\(\mu\)	\(\sigma\)	\(\text{Logistic}(\mu, \sigma)\)

위치-척도족의 실무적 의미는 표준화(standardization)이다. \(Z = (X - \mu)/\sigma\) 로 변환하면 모수에 의존하지 않는 표준 분포가 된다. z-score 표준화, 배치 정규화(Batch Normalization), 검정 통계량의 피벗 구성이 모두 이 원리에 기반한다.

7 확률 부등식 (Probability Inequalities)

분포의 정확한 형태를 모를 때에도, 적률 정보만으로 확률을 바운딩할 수 있다.

부등식	조건	결과	DS 응용
마르코프	\(X \geq 0\) , \(E[X] < \infty\)	\(P(X \geq t) \leq \frac{E[X]}{t}\)	비음수 확률변수의 꼬리 바운드
체비셰프	\(E[X]\) , \(\text{Var}(X) < \infty\)	\(P(\lvert X - \mu\rvert \geq k\sigma) \leq \frac{1}{k^2}\)	분포 무관 이상 탐지
젠센	\(g\) 볼록, \(E[X] < \infty\)	\(E[g(X)] \geq g(E[X])\)	EM 하한, KL 발산 부등식

부등식의 실무적 가치

체비셰프 부등식은 “분포를 모르더라도 평균과 분산만 알면 꼬리 확률을 보수적으로 추정할 수 있다”는 강력한 보장이다. 예를 들어, 평균 응답 시간이 200ms이고 표준편차가 50ms인 서비스에서, \(P(\text{응답} \geq 400\text{ms}) \leq 1/4^2 = 6.25\%\) 라는 바운드를 분포 가정 없이 얻는다. 실제 분포를 알면 더 타이트한 바운드를 구할 수 있지만, 분포를 모를 때의 “최악의 경우 보장”으로서 체비셰프는 여전히 유용하다.

젠센 부등식은 EM 알고리즘의 수렴 보장(ELBO가 로그 가능도의 하한), KL 발산의 비음수성, 정보 이론의 기본 부등식 등 ML 이론 곳곳에서 핵심 역할을 한다.

8 코드 예시: 분포 가족 비교

8.1 Step 1: 순수 Python 구현 (원리 이해)

import math

# 포아송 PMF 직접 구현
def poisson_pmf(x, lam):
    return lam**x * math.exp(-lam) / math.factorial(x)

# 이항 PMF 직접 구현
def binom_pmf(x, n, p):
    comb = math.factorial(n) // (math.factorial(x) * math.factorial(n - x))
    return comb * p**x * (1 - p)**(n - x)

# 이항 → 포아송 근사 확인: n=1000, p=0.005, lambda=5
n, p, lam = 1000, 0.005, 5.0
print("x | Binomial(1000, 0.005) | Poisson(5)")
print("-" * 45)
for x in range(11):
    b = binom_pmf(x, n, p)
    poi = poisson_pmf(x, lam)
    print(f"{x:2d} | {b:.6f}              | {poi:.6f}")

# 체비셰프 부등식 검증: 정규 분포에서 실제 확률 vs 바운드
mu, sigma = 0, 1
for k in [1, 2, 3]:
    chebyshev_bound = 1 / k**2
    # 정규 분포의 정확한 확률: P(|X| >= k) = 2 * Phi(-k)
    # Phi(-k) 근사: 표준 정규 CDF의 꼬리
    # 여기서는 수치적으로 계산
    N = 100000
    dx = 10.0 / N
    tail_prob = 0
    for i in range(N):
        x = k + i * dx
        tail_prob += (1 / math.sqrt(2 * math.pi)) * math.exp(-x**2 / 2) * dx
    actual = 2 * tail_prob
    print(f"k={k}: 체비셰프 <= {chebyshev_bound:.4f}, 실제(정규) = {actual:.4f}")

8.2 Step 2: scipy/numpy 구현 (실무 활용)

import numpy as np
from scipy import stats

# 이항 → 포아송 근사 시각화용 데이터
n, p = 1000, 0.005
lam = n * p
x = np.arange(0, 16)
binom_probs = stats.binom.pmf(x, n, p)
poisson_probs = stats.poisson.pmf(x, lam)

print("이항(1000, 0.005) vs 포아송(5) 근사:")
for xi, bp, pp in zip(x, binom_probs, poisson_probs):
    print(f"  x={xi:2d}: Bin={bp:.6f}, Poi={pp:.6f}, 차이={abs(bp-pp):.2e}")

# 지수족 확인: 정규 분포의 자연모수 형태
# f(x|mu,sigma) = h(x)*c(theta)*exp(eta*T(x))
# 정규: eta1 = mu/sigma^2, eta2 = -1/(2*sigma^2), T1=x, T2=x^2
mu_true, sigma_true = 3.0, 2.0
data = stats.norm.rvs(loc=mu_true, scale=sigma_true, size=1000, random_state=42)

# 충분통계량: T1 = sum(x), T2 = sum(x^2)
T1 = np.sum(data)
T2 = np.sum(data**2)
n_obs = len(data)

# MLE from sufficient statistics
mu_mle = T1 / n_obs
sigma_mle = np.sqrt(T2 / n_obs - mu_mle**2)
print(f"\n정규 분포 MLE (충분통계량 기반):")
print(f"  mu_hat = {mu_mle:.4f} (참값: {mu_true})")
print(f"  sigma_hat = {sigma_mle:.4f} (참값: {sigma_true})")

# 체비셰프 vs 실제 꼬리 확률
print("\n체비셰프 바운드 vs 정규 분포 실제 확률:")
for k in [1, 2, 3, 4, 5]:
    bound = 1 / k**2
    actual = 2 * stats.norm.sf(k)  # P(|Z| >= k)
    ratio = actual / bound
    print(f"  k={k}: 바운드={bound:.4f}, 실제={actual:.6f}, 실제/바운드={ratio:.4f}")

9 분포 선택 가이드

실무에서 데이터에 맞는 분포를 선택하는 흐름은 다음과 같다.

데이터 유형	조건	권장 분포	근거
이진 (0/1)	독립 시행	베르누이/이항	성공 확률 모형
카운트 (0, 1, 2, …)	평균 \(\approx\) 분산	포아송	등산포 카운트
카운트	분산 > 평균	음이항	과산포 카운트
연속, 대칭	유한 분산	정규	CLT, 오차 모형
연속, 양수, 오른쪽 치우침	대기 시간	감마/지수	양수 + 비대칭
비율 (0~1)	연속	베타	자연적 지지가 \([0,1]\)
연속, 양수, 매우 치우침	곱셈적 과정	로그정규	\(\log X\) 가 정규
연속, 두꺼운 꼬리	극단값 존재	코시/t	꼬리 확률 모형

분포 선택이 추론 결과를 좌우한다

동일한 데이터에 포아송과 음이항을 적합하면 점추정은 비슷하지만, 신뢰구간의 폭이 크게 달라질 수 있다. 과산포 데이터에 포아송을 강제하면 표준오차가 과소 추정되어 유의하지 않은 효과를 유의하다고 판단하는 오류를 범한다. 분포 가정의 검증 (잔차 분석, Q-Q plot, 과산포 검정)은 추론의 신뢰성을 위한 필수 단계이다.

10 블로그 내 학습 경로

이 개요에서 다룬 주제별 상세 포스트는 다음과 같다.

이산 분포 상세

지수족 상세

선행 지식

확률론 개요 — Ch.1 전체 조감
변환과 기대값 개요 — Ch.2 전체 조감
기대값 — 적률, 분산, MGF
적률과 적률생성함수 — MGF 존재성과 분포 결정

후속 주제

GLM — t-test부터 로지스틱 회귀까지, 하나의 프레임워크로 — 지수족 기반 모형
Maximum Likelihood Estimation — 지수족에서의 MLE 존재·유일성
데이터 축소의 원리 — 충분통계량과 지수족의 연결