Kwangmin Kim - 적률과 적률생성함수 (Moments and Moment Generating Functions)

1 동기: 왜 적률과 MGF를 깊이 다루는가

기대값 포스트에서 기대값, 분산, MGF의 기본 정의와 핵심 성질을 다루었다. 이 포스트는 한 단계 더 들어간다:

이 포스트에서 답하는 질문들

평균과 분산만으로 분포가 결정되는가? → 아니다. 적률의 수열이 필요하다
모든 적률을 알면 분포가 유일하게 결정되는가? → 항상은 아니다 (적률 문제, moment problem)
MGF가 존재하지 않는 분포는 어떻게 다루는가? → 특성함수(characteristic function)
왜도와 첨도 너머의 적률은 실무에서 쓰이는가? → 큐뮬런트, 체르노프 바운드, 에지워스 전개
MGF의 수렴이 왜 중요한가? → 중심극한정리(CLT)의 증명 핵심이다

2 적률의 체계 (Taxonomy of Moments)

2.1 네 종류의 적률

정의: 적률의 분류

유형	정의	표기
\(r\) 차 원점 적률 (raw moment)	\(\mu_r' = E[X^r]\)	\(\mu_1' = E[X]\)
\(r\) 차 중심 적률 (central moment)	\(\mu_r = E[(X - \mu)^r]\)	\(\mu_2 = \text{Var}(X)\)
\(r\) 차 표준화 적률 (standardized moment)	\(\tilde{\mu}_r = E\!\left[\left(\frac{X-\mu}{\sigma}\right)^r\right]\)	\(\tilde{\mu}_3 = \gamma_1\) (왜도)
\(r\) 차 팩토리얼 적률 (factorial moment)	\(E[X(X-1)(X-2)\cdots(X-r+1)]\)	이산 분포에서 유용

2.2 적률 간의 관계

원점 적률에서 중심 적률을 구할 수 있다 (이항 전개):

\[ \mu_r = E[(X-\mu)^r] = \sum_{k=0}^r \binom{r}{k} (-\mu)^{r-k} \mu_k' \]

처음 네 개의 관계:

중심 적률	원점 적률로 표현
\(\mu_1 = 0\)	(항상)
\(\mu_2 = \mu_2' - (\mu_1')^2\)	\(= E[X^2] - (E[X])^2\)
\(\mu_3 = \mu_3' - 3\mu_1'\mu_2' + 2(\mu_1')^3\)	왜도 계산에 사용
\(\mu_4 = \mu_4' - 4\mu_1'\mu_3' + 6(\mu_1')^2\mu_2' - 3(\mu_1')^4\)	첨도 계산에 사용

2.3 왜도와 첨도: 해석과 실무

정의: 왜도와 첨도

왜도 (Skewness):

\[ \gamma_1 = \frac{\mu_3}{\sigma^3} = E\!\left[\left(\frac{X - \mu}{\sigma}\right)^3\right] \]

초과 첨도 (Excess Kurtosis):

\[ \gamma_2 = \frac{\mu_4}{\sigma^4} - 3 = E\!\left[\left(\frac{X - \mu}{\sigma}\right)^4\right] - 3 \]

정규분포의 첨도가 3이므로, 초과 첨도는 정규 대비 꼬리 두께를 나타낸다.

왜도·첨도가 데이터 사이언스에서 중요한 이유

상황	왜도/첨도	실무적 결과
소득 분포	\(\gamma_1 \gg 0\) (강한 양의 왜도)	평균이 중앙값보다 훨씬 크다 → 평균 소득은 “전형적” 소득이 아니다
금융 수익률	\(\gamma_2 \gg 0\) (두꺼운 꼬리)	정규 가정 하의 VaR는 극단 손실을 과소추정한다
정규성 검정	\(\gamma_1 \approx 0\), \(\gamma_2 \approx 0\)	Jarque-Bera 검정: \(JB = \frac{n}{6}\left(\gamma_1^2 + \frac{\gamma_2^2}{4}\right) \sim \chi^2(2)\)
머신러닝 전처리	높은 왜도	로그/Box-Cox 변환으로 왜도를 줄여 모델 성능을 개선한다

2.4 팩토리얼 적률

정의: 팩토리얼 적률

\[ E[X^{(r)}] = E[X(X-1)(X-2)\cdots(X-r+1)] \]

팩토리얼 적률은 이산 분포(특히 포아송, 이항)에서 원점 적률보다 계산이 간편하다.

예시: \(X \sim \text{Poisson}(\lambda)\)

\[ E[X(X-1)] = \sum_{k=2}^{\infty} k(k-1) \frac{e^{-\lambda}\lambda^k}{k!} = \lambda^2 \sum_{k=2}^{\infty} \frac{e^{-\lambda}\lambda^{k-2}}{(k-2)!} = \lambda^2 \]

따라서 \(E[X^2] = E[X(X-1)] + E[X] = \lambda^2 + \lambda\), \(\text{Var}(X) = \lambda\).

팩토리얼 적률을 생성하는 확률생성함수(PGF) \(G_X(s) = E[s^X]\) 도 이산 분포에서 자주 사용된다.

3 적률생성함수 (MGF) 심화

3.1 존재 조건

정리: MGF의 존재

\(M_X(t) = E[e^{tX}]\) 가 \(0\) 을 포함하는 열린 구간 \((-h, h)\) 에서 유한하면, MGF가 존재한다고 한다.

이 경우:

모든 차수의 적률 \(E[X^r]\) 이 유한하다
\(M_X(t) = \sum_{r=0}^{\infty} \frac{t^r}{r!} E[X^r]\) 이 \((-h, h)\) 에서 수렴한다
\(E[X^r] = M_X^{(r)}(0)\) (미분과 기대값의 교환이 정당화된다)

주의: MGF가 존재하지 않는 분포

모든 적률이 존재해도 MGF가 존재하지 않을 수 있다.

로그정규분포 \(Y = e^X\), \(X \sim N(\mu, \sigma^2)\):

\[ M_Y(t) = E[e^{tY}] = E[e^{te^X}] \]

\(e^{te^x}\) 는 \(x \to \infty\) 에서 정규 PDF의 감소보다 빠르게 증가하므로, \(t > 0\) 이면 \(M_Y(t) = \infty\). 따라서 MGF가 \(t = 0\) 주변에서 존재하지 않는다.

그러나 로그정규분포의 모든 적률 \(E[Y^r] = e^{r\mu + r^2\sigma^2/2}\) 은 유한하다.

실무 연결: MGF 존재 여부가 중요한 이유

MGF가 존재하면: 체르노프 바운드, CLT의 MGF 증명, 독립 합의 분포 식별이 가능하다
MGF가 없으면: 특성함수 또는 큐뮬런트 생성함수로 대체한다
지수족(exponential family): 자연 모수 공간의 내부에서 항상 MGF가 존재한다 — 지수족이 이론적으로 다루기 편한 이유 중 하나이다

3.2 유일성 정리

정리: MGF의 유일성 (Uniqueness Theorem)

\(M_X(t) = M_Y(t)\) 가 \(0\) 을 포함하는 열린 구간에서 성립하면:

\[ F_X = F_Y \quad \text{(같은 분포)} \]

이 정리가 MGF법의 핵심이다: MGF를 계산하고 알려진 분포의 MGF와 대조하는 것만으로 분포를 식별할 수 있다.

주의: “모든 적률이 같다”는 것만으로는 분포가 같다고 결론 내릴 수 없다. 유명한 반례로, 서로 다른 두 분포가 모든 적률이 동일한 경우가 존재한다 (Hamburger moment problem). MGF의 존재가 이 문제를 해결한다.

3.3 적률에서 MGF로, MGF에서 적률로

적률 → MGF (테일러 전개):

\[ M_X(t) = \sum_{r=0}^{\infty} \frac{E[X^r]}{r!} t^r = 1 + E[X]t + \frac{E[X^2]}{2}t^2 + \frac{E[X^3]}{6}t^3 + \cdots \]

MGF → 적률 (반복 미분):

\[ E[X^r] = M_X^{(r)}(0) = \left.\frac{d^r}{dt^r} M_X(t)\right|_{t=0} \]

예시: \(X \sim \text{Exp}(\lambda)\), \(M_X(t) = \frac{\lambda}{\lambda - t}\) for \(t < \lambda\)

\[ M_X'(t) = \frac{\lambda}{(\lambda - t)^2} \implies E[X] = \frac{1}{\lambda} \]

\[ M_X''(t) = \frac{2\lambda}{(\lambda - t)^3} \implies E[X^2] = \frac{2}{\lambda^2} \]

\[ \text{Var}(X) = \frac{2}{\lambda^2} - \frac{1}{\lambda^2} = \frac{1}{\lambda^2} \]

4 큐뮬런트 생성함수 (Cumulant Generating Function)

4.1 정의

정의: 큐뮬런트 생성함수 (CGF)

\[ K_X(t) = \log M_X(t) \]

\(r\) 차 큐뮬런트(cumulant) \(\kappa_r\) 은 CGF의 테일러 계수이다:

\[ K_X(t) = \sum_{r=1}^{\infty} \kappa_r \frac{t^r}{r!} \]

4.2 큐뮬런트와 적률의 관계

큐뮬런트	적률로 표현	이름
\(\kappa_1\)	\(E[X]\)	평균
\(\kappa_2\)	\(\text{Var}(X)\)	분산
\(\kappa_3\)	\(\mu_3\)	3차 중심 적률
\(\kappa_4\)	\(\mu_4 - 3\sigma^4\)	“초과” 4차 중심 적률

처음 두 큐뮬런트는 중심 적률과 동일하지만, \(r \geq 3\) 부터 달라진다.

4.3 큐뮬런트의 핵심 성질

정리: 큐뮬런트의 가법성

\(X \perp Y\) 이면:

\[ K_{X+Y}(t) = K_X(t) + K_Y(t) \]

따라서 독립 확률변수 합의 큐뮬런트는 개별 큐뮬런트의 합이다:

\[ \kappa_r(X+Y) = \kappa_r(X) + \kappa_r(Y) \]

이 성질은 MGF에서는 “곱이 합이 된다” (\(M_{X+Y} = M_X \cdot M_Y\))는 성질의 로그 버전이며, 큐뮬런트가 적률보다 독립 합에 더 자연스러운 양(quantity)임을 보여준다.

실무 연결: 큐뮬런트가 사용되는 곳

정규 분포의 특성화: 정규분포는 \(\kappa_1 = \mu\), \(\kappa_2 = \sigma^2\), \(\kappa_r = 0\) (\(r \geq 3\)). 즉, 3차 이상의 큐뮬런트가 모두 0인 유일한 분포가 정규분포이다
에지워스 전개 (Edgeworth expansion): CLT의 고차 보정항을 큐뮬런트로 표현한다. 표본 크기가 작을 때 정규 근사를 개선하는 데 사용한다
통계 역학: 큐뮬런트는 자유에너지의 미분으로 해석되어, 물리학과 정보이론에서 자연스럽게 등장한다
독립 성분 분석(ICA): 비정규성을 측정하기 위해 4차 큐뮬런트(첨도)를 사용한다

예시: \(X \sim N(\mu, \sigma^2)\)

\[ M_X(t) = e^{\mu t + \sigma^2 t^2/2} \implies K_X(t) = \mu t + \frac{\sigma^2}{2} t^2 \]

\(t^3\) 이상의 항이 없으므로 \(\kappa_r = 0\) for \(r \geq 3\). 이는 정규분포의 핵심 특성이다.

5 특성함수 (Characteristic Function)

5.1 MGF가 없을 때의 대안

정의: 특성함수

\[ \varphi_X(t) = E[e^{itX}], \quad t \in \mathbb{R}, \quad i = \sqrt{-1} \]

특성함수는 MGF에서 \(t\) 를 \(it\) 로 대체한 것이다. 핵심적인 차이는 모든 확률변수에 대해 항상 존재한다는 점이다.

성질	MGF \(M_X(t)\)	특성함수 \(\varphi_X(t)\)
존재	\(0\) 주변 열린 구간에서 유한해야 함	항상 존재
유일성	존재하면 분포를 유일하게 결정	항상 분포를 유일하게 결정
독립 합	\(M_{X+Y} = M_X \cdot M_Y\)	\(\varphi_{X+Y} = \varphi_X \cdot \varphi_Y\)
적률 추출	\(E[X^r] = M^{(r)}(0)\)	\(E[X^r] = i^{-r} \varphi^{(r)}(0)\)
수렴 정리	레비 연속성 정리의 제한적 버전	레비 연속성 정리 완전 적용

왜 특성함수가 더 일반적인가

\(|e^{itX}| = 1\) 이므로 \(E[|e^{itX}|] = 1 < \infty\) — 기대값이 항상 존재한다. 반면 \(e^{tX}\) 는 \(X\) 의 꼬리가 두꺼우면 발산할 수 있다.

실무에서 특성함수가 직접 사용되는 경우:

코시 분포: \(\varphi(t) = e^{-|t|}\) (MGF 없음, 기대값도 없음)
안정 분포(stable distribution): 금융 수익률 모형에서 사용, MGF가 없지만 특성함수로 완전히 기술된다
CLT 증명: 레비 연속성 정리를 사용한 증명은 MGF 존재를 가정하지 않아 가장 일반적이다

5.2 주요 분포의 특성함수

분포	\(\varphi_X(t)\)
\(N(\mu, \sigma^2)\)	\(e^{i\mu t - \sigma^2 t^2/2}\)
\(\text{Exp}(\lambda)\)	\((1 - it/\lambda)^{-1}\)
\(\text{Poisson}(\lambda)\)	\(e^{\lambda(e^{it} - 1)}\)
\(\text{Cauchy}(0,1)\)	\(e^{-\lvert t \rvert}\)
\(\text{Uniform}(a,b)\)	\(\frac{e^{itb} - e^{ita}}{it(b-a)}\)

6 체르노프 바운드 (Chernoff Bound)

6.1 마르코프 부등식의 지수적 강화

정리: 체르노프 바운드

MGF가 존재하면, 임의의 \(a\) 에 대해:

\[ P(X \geq a) \leq \inf_{t > 0} e^{-ta} M_X(t) \]

\[ P(X \leq a) \leq \inf_{t < 0} e^{-ta} M_X(t) \]

증명:

\(t > 0\) 에 대해 \(\{X \geq a\} = \{e^{tX} \geq e^{ta}\}\). 마르코프 부등식을 적용:

\[ P(X \geq a) = P(e^{tX} \geq e^{ta}) \leq \frac{E[e^{tX}]}{e^{ta}} = e^{-ta} M_X(t) \]

모든 \(t > 0\) 에 대해 성립하므로 \(\inf\) 를 취한다. \(\quad\blacksquare\)

왜 체르노프 바운드가 체비셰프보다 강력한가

체비셰프 부등식은 \(P(|X - \mu| \geq k\sigma) \leq 1/k^2\) — 다항식(polynomial) 감소이다. 체르노프 바운드는 지수적(exponential) 감소를 준다 — 꼬리 확률이 훨씬 빠르게 줄어든다.

바운드	\(P(X \geq \mu + k\sigma)\) 상한 (\(X \sim N(0,1)\), \(k=3\))
마르코프	유용하지 않음
체비셰프	\(\leq 1/9 \approx 0.111\)
체르노프	\(\leq e^{-9/2} \approx 0.011\)
정확 값	\(\approx 0.0013\)

실무 연결: 체르노프 바운드의 응용

머신러닝 이론: 일반화 오차 바운드(generalization bound)에서 학습 알고리즘의 성능 보장을 체르노프 바운드로 유도한다
Hoeffding 부등식: 유한 범위 독립 확률변수 합의 꼬리 확률 바운드 — 체르노프 기법의 직접적 응용
네트워크 설계: 링크 용량이 트래픽을 수용할 확률을 체르노프 바운드로 보장한다
랜덤 알고리즘: 해시 함수의 충돌 확률, 무작위 그래프의 성질 등을 바운딩한다

6.2 예시: \(X \sim \text{Poisson}(\lambda)\), \(P(X \geq 2\lambda)\) 의 상한

\[ M_X(t) = e^{\lambda(e^t - 1)} \]

\[ P(X \geq 2\lambda) \leq \inf_{t>0} e^{-2\lambda t} \cdot e^{\lambda(e^t - 1)} = \inf_{t>0} e^{\lambda(e^t - 1 - 2t)} \]

\(g(t) = e^t - 1 - 2t\) 를 최소화: \(g'(t) = e^t - 2 = 0 \implies t^* = \log 2\).

\[ g(\log 2) = 2 - 1 - 2\log 2 = 1 - 2\log 2 \approx -0.386 \]

\[ P(X \geq 2\lambda) \leq e^{-0.386\lambda} \]

\(\lambda\) 가 커지면 확률이 지수적으로 감소한다.

7 MGF와 분포 수렴: CLT로의 연결

7.1 MGF 수렴 정리

정리: MGF의 수렴 (연속성 정리, Continuity Theorem)

\(X_n\) 의 MGF \(M_{X_n}(t)\) 가 \(0\) 을 포함하는 열린 구간에서 \(M_X(t)\) 로 점별 수렴하면:

\[ X_n \xrightarrow{d} X \quad \text{(분포 수렴)} \]

7.2 CLT의 MGF 증명 스케치

\(X_1, X_2, \ldots\) iid, \(E[X_i] = \mu\), \(\text{Var}(X_i) = \sigma^2\). \(Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} = \frac{\sum (X_i - \mu)}{\sigma\sqrt{n}}\).

\(Y_i = (X_i - \mu)/\sigma\) 로 표준화하면 \(E[Y_i] = 0\), \(\text{Var}(Y_i) = 1\).

\[ M_{Z_n}(t) = \left[M_Y\!\left(\frac{t}{\sqrt{n}}\right)\right]^n \]

\(M_Y(s)\) 를 \(s = 0\) 주변에서 테일러 전개:

\[ M_Y(s) = 1 + E[Y]s + \frac{E[Y^2]}{2}s^2 + O(s^3) = 1 + \frac{s^2}{2} + O(s^3) \]

\(s = t/\sqrt{n}\) 을 대입:

\[ M_{Z_n}(t) = \left[1 + \frac{t^2}{2n} + O(n^{-3/2})\right]^n \xrightarrow{n \to \infty} e^{t^2/2} \]

이는 \(N(0,1)\) 의 MGF이다. MGF 수렴 정리에 의해 \(Z_n \xrightarrow{d} N(0,1)\). \(\quad\blacksquare\)

실무 연결: CLT가 데이터 사이언스의 기반인 이유

표본 평균의 근사 분포: 원래 분포가 무엇이든, 충분히 큰 \(n\) 에서 \(\bar{X} \dot{\sim} N(\mu, \sigma^2/n)\)
신뢰구간: \(\bar{X} \pm z_{\alpha/2} \cdot \hat{\sigma}/\sqrt{n}\) 의 정당성
가설 검정: z-검정, t-검정의 대표본 정당성
A/B 테스트: 전환율의 차이가 정규 근사를 따른다는 가정

MGF 증명은 이 모든 것의 수학적 토대를 한 페이지에 담는다.

8 지수족과 MGF의 연결

지수족(exponential family)에서 MGF와 큐뮬런트는 특별히 깔끔한 형태를 가진다.

지수족에서의 관계

지수족 분포 \(f(x \mid \eta) = h(x) \exp(\eta T(x) - A(\eta))\) 에서:

\(A(\eta)\) 는 로그 정규화 함수(log-partition function)
\(A'(\eta) = E[T(X)]\) (충분통계량의 기대값)
\(A''(\eta) = \text{Var}(T(X))\) (충분통계량의 분산)
\(A(\eta)\) 는 \(T(X)\) 의 큐뮬런트 생성함수이다

실무 연결

GLM에서 반응 변수의 분포가 지수족이면:

기대값과 분산이 \(A(\eta)\) 의 미분으로 자동 구해진다
IRLS 알고리즘의 가중치가 \(A''(\eta)\) 에서 나온다
이것이 GLM이 지수족을 요구하는 근본 이유이다

9 코드 예시

9.1 Step 1: 순수 Python 구현 (원리 이해)

import math

def moments_from_samples(data, r):
    """표본 r차 원점 적률"""
    n = len(data)
    return sum(x**r for x in data) / n

def central_moments(data, r):
    """표본 r차 중심 적률"""
    n = len(data)
    mean = sum(data) / n
    return sum((x - mean)**r for x in data) / n

def skewness(data):
    """왜도 = μ₃ / σ³"""
    mu3 = central_moments(data, 3)
    sigma = math.sqrt(central_moments(data, 2))
    return mu3 / sigma**3

def excess_kurtosis(data):
    """초과 첨도 = μ₄/σ⁴ - 3"""
    mu4 = central_moments(data, 4)
    sigma2 = central_moments(data, 2)
    return mu4 / sigma2**2 - 3

def chernoff_bound_poisson(lam, a):
    """
    Poisson(λ)에서 P(X ≥ a)의 체르노프 바운드.
    최적 t* = log(a/λ), 바운드 = exp(λ - a + a*log(a/λ))를 뒤집은 형태.
    """
    if a <= lam:
        return 1.0  # 바운드가 유용하지 않음
    t_star = math.log(a / lam)
    bound = math.exp(lam * (math.exp(t_star) - 1) - a * t_star)
    return bound

# --- 적률 계산 ---
import random
random.seed(42)

# 지수분포 시뮬레이션 (λ=2)
n = 100_000
lam = 2.0
data = [-math.log(random.random()) / lam for _ in range(n)]

print("=== Exp(2) 시뮬레이션 ===")
for r in range(1, 5):
    print(f"  E[X^{r}] = {moments_from_samples(data, r):.4f}")

print(f"  왜도 = {skewness(data):.4f} (이론: 2.0)")
print(f"  초과 첨도 = {excess_kurtosis(data):.4f} (이론: 6.0)")

# --- 체르노프 바운드 vs 실제 ---
print("\n=== 체르노프 바운드: Poisson(10) ===")
lam_p = 10
for a in [15, 20, 25, 30]:
    bound = chernoff_bound_poisson(lam_p, a)
    # 실제 확률 (포아송 CDF의 보수)
    actual = 1 - sum(math.exp(-lam_p) * lam_p**k / math.factorial(k)
                     for k in range(a))
    print(f"  P(X >= {a}): 실제={actual:.6f}, 체르노프={bound:.6f}")

9.2 Step 2: scipy/numpy 구현 (실무 활용)

import numpy as np
from scipy import stats

np.random.seed(42)
n = 200_000

# --- 다양한 분포의 왜도·첨도 비교 ---
distributions = {
    "N(0,1)": stats.norm.rvs(size=n),
    "Exp(1)": stats.expon.rvs(size=n),
    "t(5)": stats.t.rvs(df=5, size=n),
    "Uniform(0,1)": stats.uniform.rvs(size=n),
    "LogNormal(0,1)": stats.lognorm.rvs(s=1, size=n),
}

print("분포별 왜도·첨도:")
print(f"{'분포':<18} {'왜도':>8} {'초과첨도':>10}")
print("-" * 38)
for name, data in distributions.items():
    sk = stats.skew(data)
    ku = stats.kurtosis(data)  # scipy는 기본이 초과 첨도
    print(f"{name:<18} {sk:>8.3f} {ku:>10.3f}")

# --- Jarque-Bera 정규성 검정 ---
print("\nJarque-Bera 정규성 검정:")
for name, data in distributions.items():
    jb_stat, p_val = stats.jarque_bera(data)
    result = "정규" if p_val > 0.05 else "비정규"
    print(f"  {name:<18} JB={jb_stat:>10.1f}, p={p_val:.4f} → {result}")

# --- MGF 수렴으로 CLT 시각화 ---
# 균등분포의 표본평균이 정규로 수렴
sample_sizes = [1, 2, 5, 30]
fig_data = {}
for ns in sample_sizes:
    means = [np.mean(stats.uniform.rvs(size=ns)) for _ in range(50_000)]
    standardized = (np.array(means) - 0.5) / (1/np.sqrt(12*ns))
    fig_data[ns] = standardized
    sk = stats.skew(standardized)
    ku = stats.kurtosis(standardized)
    print(f"\nn={ns}: 표준화된 표본평균의 왜도={sk:.3f}, 첨도={ku:.3f}")

# --- 체르노프 vs 체비셰프 vs 정확 ---
print("\n=== 바운드 비교: N(0,1)에서 P(X >= a) ===")
print(f"{'a':>4} {'정확':>10} {'체비셰프':>10} {'체르노프':>10}")
for a in [1, 2, 3, 4]:
    exact = 1 - stats.norm.cdf(a)
    chebyshev = min(1, 1/a**2)  # 단측이므로 보수적
    chernoff = np.exp(-a**2 / 2)  # N(0,1)의 체르노프: e^{-a²/2}
    print(f"{a:>4} {exact:>10.6f} {chebyshev:>10.6f} {chernoff:>10.6f}")

10 관련 주제

선행 지식

기대값 — 기대값, 분산, 공분산, MGF 기본 정의
확률변수 함수의 분포 — \(Y = g(X)\) 의 분포 유도 (MGF법 포함)
주요 분포의 밀도 함수 — 각 분포의 PDF/PMF

후속 주제

수렴 이론 — 확률 수렴, 분포 수렴, 큰 수의 법칙, CLT
지수족 — 로그 정규화 함수와 큐뮬런트의 관계
MLE — MGF를 통한 추정량의 점근 분포 유도
데이터 축소의 원리 — 충분통계량과 지수족의 연결

관련 개념

GLM — 지수족의 기대값·분산이 GLM의 구조를 결정한다
Monte Carlo Simulation — 적률 추정의 시뮬레이션 기반 접근
피어슨 상관계수 — 2차 적률(공분산) 기반 연관성 측도

참고 교재

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.), Ch.2.3, 2.6. Cengage.