Kwangmin Kim - 확률 부등식과 항등식 (Inequalities and Identities)

1 개요

통계적 추론에서 분포의 정확한 형태를 아는 경우는 드물다. 그러나 평균, 분산, 또는 적률에 대한 부분적 정보만으로도 확률에 대한 상한(upper bound)을 구하거나 적률을 효율적으로 계산할 수 있다. 이것이 확률 부등식(probability inequalities)과 항등식(identities)의 역할이다.

직관적 비유: 분포를 “블랙박스”라고 생각하자. 블랙박스 내부의 정확한 구조를 모르더라도, 평균과 분산이라는 “외부 측정치”만으로 블랙박스가 극단값을 얼마나 자주 뱉어낼 수 있는지 상한을 정할 수 있다. 이것이 체비셰프 부등식의 아이디어이다. 반면 항등식은 “복잡한 계산을 단축하는 공식”으로, 적분 대신 미분을 사용하거나(스타인 보조정리) 재귀 관계를 이용하여(황 항등식) 적률을 효율적으로 구한다.

이 포스트는 두 가지 축으로 구성된다:

부등식: 불완전한 정보에서 확률의 경계를 설정한다 (체비셰프, 젠센, 코시-슈바르츠, 횔더, 민코프스키)
항등식: 적분을 미분이나 재귀 관계로 대체하여 적률 계산을 단순화한다 (스타인 보조정리, 황 항등식)

부등식은 확률적 관점(§3.6)과 함수적 관점(§4.7)으로 나뉘며, 항등식은 부분적분(integration by parts)에 기반한다 (Casella & Berger, 2002, Ch.3, Ch.4).

2 확률 부등식 (Probability Inequalities)

2.1 마르코프 부등식 (Markov’s Inequality)

정리: 체비셰프 부등식의 일반 형태 (Casella & Berger, 2002, Theorem 3.6.1)

\(X\) 가 확률변수이고 \(g(x)\) 가 비음수 함수이면, 임의의 \(r > 0\) 에 대해:

\[ P(g(X) \geq r) \leq \frac{E[g(X)]}{r} \]

핵심 아이디어: “평균이 3이면, 5 이상인 값이 전체의 절반 이상을 차지할 수 없다.” 왜냐하면 5 이상인 값들만으로 평균을 3까지 끌어내릴 수 없기 때문이다. 이를 수식으로 엄밀히 표현한 것이 마르코프 부등식이다.

증명의 핵심 아이디어는 놀랍도록 간단하다. \(E[g(X)] = \int g(x) f(x) dx\) 에서 적분 영역을 \(\{g(x) \geq r\}\) 로 줄이면 값이 줄어든다:

\[ E[g(X)] \geq \int_{\{g(x) \geq r\}} g(x) f(x) dx \]

그 영역에서 \(g(x) \geq r\) 이므로 \(g(x)\) 를 \(r\) 로 대체하면 더 줄어든다:

\[ \geq r \int_{\{g(x) \geq r\}} f(x) dx = r \cdot P(g(X) \geq r) \]

양변을 \(r\) 로 나누면 부등식이 완성된다. “적분 영역 축소 + 피적분함수 축소 = 상한 도출”이 핵심이다.

\(g(X) = X\) 로 놓으면 고전적 마르코프 부등식이 된다: \(P(X \geq r) \leq E[X]/r\) (단, \(X \geq 0\) ).

2.2 체비셰프 부등식 (Chebyshev’s Inequality)

\(g(X) = (X - \mu)^2 / \sigma^2\) , \(r = t^2\) 으로 놓으면:

\[ P(|X - \mu| \geq t\sigma) \leq \frac{1}{t^2} \]

이 부등식은 분포에 관계없이 적용된다. \(t = 2\) 이면 어떤 분포든 평균에서 \(2\sigma\) 이상 벗어날 확률이 25% 이하이고, \(t = 3\) 이면 약 11% 이하이다.

2.3 체비셰프 부등식의 의미와 한계

체비셰프 부등식은 보편성(universality)이 장점이다. 분포를 전혀 모르는 상태에서도 적용할 수 있다. 그러나 이 보편성의 대가는 보수성(conservatism)이다.

정규분포에서 \(P(|Z| \geq 2) = 0.0455\) 이지만, 체비셰프 바운드는 \(1/4 = 0.25\) 를 준다. 실제 값보다 약 5.5배 느슨하다. 분포에 대한 추가 정보가 있으면 더 타이트한 바운드를 얻을 수 있다. 예를 들어 표준 정규분포에 대해 (Casella & Berger, 2002, Example 3.6.3):

\[ P(|Z| \geq t) \leq \sqrt{\frac{2}{\pi}} \cdot \frac{e^{-t^2/2}}{t} \]

이 바운드는 \(t\) 가 커질수록 체비셰프보다 훨씬 타이트해진다.

3 수치 부등식 (Numerical Inequalities)

3.1 횔더 부등식 (Holder’s Inequality)

정리: 횔더 부등식 (Casella & Berger, 2002, Theorem 4.7.2)

\(X\) , \(Y\) 가 확률변수이고 \(1/p + 1/q = 1\) ( \(p, q > 1\) )이면:

\[ |E[XY]| \leq E|XY| \leq \left(E|X|^p\right)^{1/p} \left(E|Y|^q\right)^{1/q} \]

횔더 부등식은 두 확률변수의 곱의 기댓값을 각각의 \(L^p\) 노름으로 바운딩한다. 이 부등식에서 세 가지 중요한 특수 경우가 파생된다.

3.2 코시-슈바르츠 부등식 (Cauchy-Schwarz Inequality)

횔더 부등식에서 \(p = q = 2\) 로 놓으면 (Casella & Berger, 2002, Theorem 4.7.3):

\[ |E[XY]| \leq \left(E[X^2]\right)^{1/2} \left(E[Y^2]\right)^{1/2} \]

이 부등식의 가장 중요한 응용은 상관계수의 범위를 증명하는 것이다. \(X - \mu_X\) 와 \(Y - \mu_Y\) 에 적용하면 (Casella & Berger, 2002, Example 4.7.4):

\[ |\text{Cov}(X, Y)|^2 \leq \sigma_X^2 \sigma_Y^2 \implies |\rho_{XY}| \leq 1 \]

등호 조건은 \(X - \mu_X = c(Y - \mu_Y)\) 일 때, 즉 \(X\) 와 \(Y\) 가 완전한 선형 관계일 때이다.

3.3 리아푸노프 부등식 (Liapounov’s Inequality)

횔더 부등식에서 \(Y \equiv 1\) 로 놓고 변환하면 (Casella & Berger, 2002, Ch.4):

\[ \left(E|X|^r\right)^{1/r} \leq \left(E|X|^s\right)^{1/s}, \quad 1 < r < s < \infty \]

더 높은 차수의 적률이 존재하면 더 낮은 차수의 적률도 존재한다는 것을 보장한다. 실무적으로는 “분산이 존재하면 평균도 존재한다”는 직관의 일반화이다.

3.4 민코프스키 부등식 (Minkowski’s Inequality)

정리: 민코프스키 부등식 (Casella & Berger, 2002, Theorem 4.7.5)

\(X\) , \(Y\) 가 확률변수이고 \(1 \leq p < \infty\) 이면:

\[ \left(E|X + Y|^p\right)^{1/p} \leq \left(E|X|^p\right)^{1/p} + \left(E|Y|^p\right)^{1/p} \]

이 부등식은 \(L^p\) 공간에서의 삼각 부등식(triangle inequality)이다. \(p = 2\) 이면 “두 확률변수 합의 \(L^2\) 노름은 각각의 \(L^2\) 노름의 합 이하”라는 의미이다.

3.5 부등식 간의 관계

영의 부등식 (기본 보조정리)
    ↓
횔더 부등식 (가장 일반적)
    ├── p=q=2 → 코시-슈바르츠 부등식
    ├── Y≡1   → 리아푸노프 부등식
    └── 삼각부등식과 결합 → 민코프스키 부등식

이 계층 구조를 아는 것이 중요한 이유: 특정 문제에서 어떤 부등식이 적용 가능한지, 그리고 더 타이트한 바운드를 얻으려면 어떤 부등식으로 올라가야 하는지 판단할 수 있다.

4 함수 부등식 (Functional Inequalities)

4.1 젠센 부등식 (Jensen’s Inequality)

정리: 젠센 부등식 (Casella & Berger, 2002, Theorem 4.7.7)

\(g(x)\) 가 볼록(convex) 함수이면:

\[ E[g(X)] \geq g(E[X]) \]

\(g(x)\) 가 오목(concave) 함수이면 부등호가 반전된다. 등호 조건: \(P(g(X) = a + bX) = 1\) , 즉 \(g\) 가 사실상 선형인 경우.

증명의 핵심: 볼록 함수의 그래프는 모든 접선 위에 놓인다. \(x = EX\) 에서의 접선 \(l(x) = a + bx\) 에 대해 \(g(x) \geq l(x)\) 이므로, 기댓값을 취하면 \(E[g(X)] \geq E[l(X)] = l(EX) = g(EX)\) 이다.

4.2 젠센 부등식의 핵심 응용

볼록/오목 함수	부등식	응용
\(g(x) = x^2\) (볼록)	\(E[X^2] \geq (EX)^2\)	분산의 비음수성: \(\text{Var}X = E[X^2] - (EX)^2 \geq 0\)
\(g(x) = -\log x\) (볼록)	\(E[-\log X] \geq -\log EX\)	KL 발산의 비음수성
\(g(x) = \log x\) (오목)	\(E[\log X] \leq \log EX\)	AM-GM 부등식: \(a_G \leq a_A\)
\(g(x) = 1/x\) (볼록, \(x > 0\) )	\(E[1/X] \geq 1/EX\)	조화평균 \(\leq\) 산술평균

4.3 산술-기하-조화 평균 부등식

양수 \(a_1, \ldots, a_n\) 에 대해 (Casella & Berger, 2002, Example 4.7.8):

\[ a_H \leq a_G \leq a_A \]

여기서 \(a_A = \frac{1}{n}\sum a_i\) (산술평균), \(a_G = (\prod a_i)^{1/n}\) (기하평균), \(a_H = n / \sum(1/a_i)\) (조화평균)이다. 증명은 \(\log x\) 가 오목 함수라는 사실과 젠센 부등식만으로 완성된다.

4.4 공분산 부등식 (Covariance Inequality)

정리: 공분산 부등식 (Casella & Berger, 2002, Theorem 4.7.9)

\(g(x)\) 가 단조증가이고 \(h(x)\) 가 단조감소이면:

\[ E[g(X)h(X)] \leq E[g(X)] \cdot E[h(X)] \]

둘 다 같은 방향(증가 또는 감소)이면 부등호가 반전된다.

직관: 같은 방향으로 변하는 함수들의 곱은 양의 상관, 반대 방향이면 음의 상관이다. 이 부등식은 고차 적률 없이 기댓값의 곱을 바운딩할 수 있게 해준다.

5 항등식 (Identities)

확률 부등식이 “바운드”를 제공한다면, 항등식은 “정확한 값”을 효율적으로 계산하는 도구이다.

5.1 재귀 관계 (Recursion Relations)

포아송 분포에서 (Casella & Berger, 2002, Ch.3):

\[ P(X = x + 1) = \frac{\lambda}{x + 1} P(X = x) \]

\(P(X = 0) = e^{-\lambda}\) 에서 시작하면 모든 확률을 재귀적으로 계산할 수 있다. 팩토리얼 오버플로우 없이 안정적으로 계산할 수 있어 수치적으로 유용하다.

5.2 스타인 보조정리 (Stein’s Lemma)

보조정리: 스타인 보조정리 (Casella & Berger, 2002, Lemma 3.6.5)

\(X \sim N(\theta, \sigma^2)\) 이고 \(g\) 가 미분가능한 함수( \(E|g'(X)| < \infty\) )이면:

\[ E[g(X)(X - \theta)] = \sigma^2 E[g'(X)] \]

이 보조정리의 의미: 정규분포에서 곱의 기댓값을 미분의 기댓값으로 변환한다. 복잡한 적분을 피하고 미분만으로 적률을 계산할 수 있다.

증명은 부분적분에 기반한다. \(u = g(x)\) , \(dv = (x - \theta) e^{-(x-\theta)^2/(2\sigma^2)} dx\) 로 놓으면 \(v = -\sigma^2 e^{-(x-\theta)^2/(2\sigma^2)}\) 이 되어 결과가 따라 나온다 (Casella & Berger, 2002, Ch.3).

5.3 예시: 정규분포의 3차 적률

\(X \sim N(\theta, \sigma^2)\) 에서 \(E[X^3]\) 을 스타인 보조정리로 구한다 (Casella & Berger, 2002, Example 3.6.6):

\[ \begin{aligned} E[X^3] &= E[X^2(X - \theta + \theta)] \\ &= E[X^2(X - \theta)] + \theta E[X^2] \\ &= 2\sigma^2 E[X] + \theta(\sigma^2 + \theta^2) \quad \text{(스타인 보조정리: } g(x) = x^2 \text{)} \\ &= 2\sigma^2\theta + \theta\sigma^2 + \theta^3 \\ &= 3\theta\sigma^2 + \theta^3 \end{aligned} \]

적분 한 번 없이, 이미 알고 있는 1차, 2차 적률과 스타인 보조정리만으로 3차 적률을 유도하였다.

5.4 카이제곱 항등식

정리 3.6.7 (Casella & Berger, 2002, Ch.3)

\(\chi_p^2\) 가 자유도 \(p\) 인 카이제곱 확률변수이면, 임의의 함수 \(h(x)\) 에 대해:

\[ E[h(\chi_p^2)] = p \, E\!\left[\frac{h(\chi_{p+2}^2)}{\chi_{p+2}^2}\right] \]

이 항등식으로 카이제곱 분포의 적률을 간단히 구할 수 있다:

\(h(x) = x\) : \(E[\chi_p^2] = p \cdot E[1] = p\)
\(h(x) = x^2\) : \(E[(\chi_p^2)^2] = p \cdot E[\chi_{p+2}^2] = p(p + 2)\) , 따라서 \(\text{Var}(\chi_p^2) = 2p\)

5.5 황 항등식 (Hwang’s Identity)

정리 3.6.8 (Casella & Berger, 2002, Ch.3)

\(X \sim \text{Poi}(\lambda)\) 이면: \(E[\lambda g(X)] = E[X g(X - 1)]\)
\(X \sim \text{NB}(r, p)\) 이면: \(E[(1-p) g(X)] = E\!\left[\frac{X}{r + X - 1} g(X - 1)\right]\)

황 항등식은 스타인 보조정리의 이산 분포 버전이다. 연속 분포에서 부분적분이 하는 역할을, 이산 분포에서 합의 인덱스 변환이 수행한다.

5.6 예시: 포아송의 3차 적률

\(X \sim \text{Poi}(\lambda)\) 에서 \(g(x) = x^2\) 으로 황 항등식을 적용하면 (Casella & Berger, 2002, Example 3.6.9):

\[ E[\lambda X^2] = E[X(X-1)^2] = E[X^3 - 2X^2 + X] \]

정리하면:

\[ E[X^3] = \lambda E[X^2] + 2E[X^2] - E[X] = \lambda^3 + 3\lambda^2 + \lambda \]

6 왜 이 부등식과 항등식이 중요한가

6.1 분포를 모를 때의 추론

체비셰프 부등식은 분포의 형태를 전혀 가정하지 않는다. 평균과 분산만 알면 꼬리 확률의 상한을 구할 수 있다. 이것이 비모수적 이상 탐지의 기반이다: 관측값이 \(\bar{X} \pm k \cdot S\) 밖에 있으면, 분포에 관계없이 그 확률이 \(1/k^2\) 이하임을 보장한다.

6.2 최적화와 바운드

젠센 부등식은 EM 알고리즘의 ELBO(Evidence Lower Bound)를 구성하는 핵심 도구이다. \(\log\) 가 오목 함수이므로:

\[ \log E[f(X)] \geq E[\log f(X)] \]

이 부등식이 E-step에서 하한을 만들고, M-step에서 그 하한을 최대화하는 구조를 가능하게 한다.

6.3 적률 계산의 단순화

스타인 보조정리와 황 항등식은 고차 적률을 저차 적률로 재귀적으로 환원한다. 적분(또는 합산)을 직접 수행하는 대신, 이미 알고 있는 적률을 재활용하여 계산 비용을 줄인다.

7 응용 분야

분야	부등식/항등식	활용
이상 탐지	체비셰프	분포 무관 이상치 기준: \(\|x - \bar{x}\| > k \cdot s\)
EM 알고리즘	젠센	ELBO 구성, E-step/M-step 분리
변분 추론	젠센	ELBO \(\leq \log p(\mathbf{x})\) 의 근거
정보이론	젠센	KL 발산 비음수성: \(D_{KL}(p \\| q) \geq 0\)
상관 분석	코시-슈바르츠	\(\|\rho\| \leq 1\) 의 증명, 피처 선택의 이론적 근거
대수의 법칙	체비셰프	약한 대수의 법칙 증명
중심극한정리	리아푸노프	리아푸노프 CLT의 조건
추정 이론	스타인 보조정리	James-Stein 추정량의 위험도 계산
수치 계산	포아송 재귀, 황 항등식	오버플로우 없는 확률/적률 계산

8 코드 예시

8.1 Step 1: 순수 Python 구현 (원리 이해)

체비셰프 바운드와 실제 확률을 비교하여 바운드의 보수성을 확인한다.

import math

def chebyshev_bound(k):
    """체비셰프 부등식: P(|X - mu| >= k*sigma) <= 1/k^2"""
    return 1 / k**2

def normal_tail_exact(k):
    """표준 정규분포의 정확한 꼬리 확률"""
    return 2 * (1 - 0.5 * (1 + math.erf(k / math.sqrt(2))))

def normal_tail_bound(k):
    """정규분포 전용 바운드 (Casella Example 3.6.3)"""
    return math.sqrt(2 / math.pi) * math.exp(-k**2 / 2) / k

print(f"{'k':>4} | {'Chebyshev':>12} | {'Normal bound':>12} | {'Exact':>12} | {'Cheb/Exact':>10}")
print("-" * 65)
for k in [1, 2, 3, 4, 5]:
    cheb = chebyshev_bound(k)
    norm_bound = normal_tail_bound(k)
    exact = normal_tail_exact(k)
    ratio = cheb / exact if exact > 0 else float('inf')
    print(f"{k:>4} | {cheb:>12.4f} | {norm_bound:>12.6f} | {exact:>12.6f} | {ratio:>10.1f}x")

핵심 확인: \(k\) 가 커질수록 체비셰프 바운드는 실제 값 대비 수백~수천 배 느슨해진다. 분포 정보가 있으면 훨씬 타이트한 바운드를 얻을 수 있다.

8.2 스타인 보조정리 검증

import math

# X ~ N(theta, sigma^2)에서 스타인 보조정리 검증
# E[g(X)(X - theta)] = sigma^2 * E[g'(X)]

theta = 2.0
sigma = 1.5
n_samples = 500000

# 난수 생성 (Box-Muller 변환)
import random
random.seed(42)

samples = [theta + sigma * ((-2 * math.log(random.random()))**0.5 *
           math.cos(2 * math.pi * random.random())) for _ in range(n_samples)]

# g(x) = x^2, g'(x) = 2x
lhs = sum(x**2 * (x - theta) for x in samples) / n_samples  # E[g(X)(X - theta)]
rhs = sigma**2 * sum(2 * x for x in samples) / n_samples     # sigma^2 * E[g'(X)]

print(f"스타인 보조정리 검증 (g(x) = x^2):")
print(f"  좌변 E[X^2(X - theta)] = {lhs:.4f}")
print(f"  우변 sigma^2 * E[2X]   = {rhs:.4f}")
print(f"  이론값                  = {sigma**2 * 2 * theta:.4f}")
print(f"  상대 오차: {abs(lhs - rhs) / abs(rhs) * 100:.2f}%")

8.3 Step 2: scipy/numpy 구현 (실무 활용)

젠센 부등식의 시각적 확인과 실무 응용을 시연한다.

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

np.random.seed(42)

# --- 젠센 부등식 시각화 ---
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 왼쪽: 볼록 함수 g(x) = x^2
x_range = np.linspace(-3, 3, 300)
X_samples = np.random.normal(0, 1, 10000)

ax = axes[0]
ax.plot(x_range, x_range**2, 'b-', linewidth=2, label=r'$g(x) = x^2$ (convex)')

# E[X] 지점과 g(E[X])
ex = np.mean(X_samples)
egx = np.mean(X_samples**2)
ax.plot(ex, ex**2, 'go', markersize=10, label=rf'$g(E[X]) = {ex**2:.3f}$')
ax.plot(ex, egx, 'r^', markersize=10, label=rf'$E[g(X)] = {egx:.3f}$')
ax.axhline(y=egx, color='red', linestyle='--', alpha=0.3)
ax.axhline(y=ex**2, color='green', linestyle='--', alpha=0.3)
ax.set_title("Jensen: E[g(X)] >= g(E[X])")
ax.legend(fontsize=9)
ax.set_xlabel("x")
ax.set_ylabel("g(x)")

# 오른쪽: 체비셰프 vs 실제 꼬리 확률
ax = axes[1]
k_values = np.linspace(0.5, 6, 100)
cheb_bounds = 1 / k_values**2

# 여러 분포의 실제 꼬리 확률
for name, dist, params in [
    ("Normal", stats.norm, {}),
    ("Uniform", stats.uniform, {"loc": -np.sqrt(3), "scale": 2*np.sqrt(3)}),
    ("Laplace", stats.laplace, {"scale": 1/np.sqrt(2)}),
]:
    tail_probs = []
    for k in k_values:
        # P(|X - mu| >= k*sigma) — 표준화된 분포(mean=0, var=1)
        p = 1 - (dist.cdf(k, **params) - dist.cdf(-k, **params))
        tail_probs.append(p)
    ax.plot(k_values, tail_probs, linewidth=1.5, label=name)

ax.plot(k_values, cheb_bounds, 'k--', linewidth=2, label="Chebyshev bound")
ax.set_xlabel(r"$k$ (multiples of $\sigma$)")
ax.set_ylabel(r"$P(|X - \mu| \geq k\sigma)$")
ax.set_title("Chebyshev Bound vs Actual Tail Probabilities")
ax.set_yscale("log")
ax.set_ylim(1e-6, 2)
ax.legend(fontsize=9)

plt.tight_layout()
plt.show()

8.4 황 항등식으로 포아송 적률 계산

import numpy as np
from scipy import stats

lam = 3.5
n_sim = 500000

# 황 항등식: E[lambda * g(X)] = E[X * g(X-1)]
X = stats.poisson.rvs(mu=lam, size=n_sim)

# g(x) = x^2 → E[X^3] 계산
lhs_hwang = np.mean(lam * X**2)           # E[lambda * X^2]
rhs_hwang = np.mean(X * (X - 1)**2)       # E[X * (X-1)^2]
theoretical = lam**3 + 3*lam**2 + lam     # 이론값

print(f"황 항등식 검증: Poi(lambda={lam})")
print(f"  E[lambda * X^2]  = {lhs_hwang:.2f}")
print(f"  E[X * (X-1)^2]   = {rhs_hwang:.2f}")
print(f"  E[X^3] (from identity) = {lhs_hwang + 2*np.mean(X**2) - np.mean(X):.2f}")
print(f"  E[X^3] (theoretical)   = {theoretical:.2f}")
print(f"  E[X^3] (direct)        = {np.mean(X**3):.2f}")

9 부등식 요약 테이블

부등식	조건	결과	증명 기법
마르코프	\(g(X) \geq 0\)	\(P(g(X) \geq r) \leq E[g(X)]/r\)	적분 영역 축소
체비셰프	\(E[X]\) , \(\text{Var}(X)\) 존재	\(P(\|X - \mu\| \geq k\sigma) \leq 1/k^2\)	마르코프의 특수 경우
횔더	\(1/p + 1/q = 1\)	\(\|E[XY]\| \leq (E\|X\|^p)^{1/p}(E\|Y\|^q)^{1/q}\)	영의 부등식
코시-슈바르츠	—	\(\|E[XY]\| \leq (E[X^2])^{1/2}(E[Y^2])^{1/2}\)	횔더 ( \(p = q = 2\) )
리아푸노프	\(1 < r < s\)	\((E\|X\|^r)^{1/r} \leq (E\|X\|^s)^{1/s}\)	횔더 ( \(Y = 1\) )
민코프스키	\(p \geq 1\)	\((E\|X+Y\|^p)^{1/p} \leq (E\|X\|^p)^{1/p} + (E\|Y\|^p)^{1/p}\)	횔더 + 삼각부등식
젠센	\(g\) 볼록	\(E[g(X)] \geq g(E[X])\)	접선 부등식
공분산	\(g\) 증가, \(h\) 감소	\(E[g(X)h(X)] \leq E[g(X)]E[h(X)]\)	단조성 분할

10 관련 주제

선행 지식

기댓값과 분산 — 젠센 부등식의 기초 소개
적률과 적률생성함수 — 적률 개념

후속 주제

대수의 법칙 — 체비셰프 부등식으로 증명
충분통계량 — 데이터 축소와 피셔 정보 부등식

관련 개념

분포 가족 개요 — 부등식 요약
지수족 (Exponential Family) — 적률 단축 공식과의 비교