1 개요
통계적 추론에서 분포의 정확한 형태를 아는 경우는 드물다. 그러나 평균, 분산, 또는 적률에 대한 부분적 정보만으로도 확률에 대한 상한(upper bound)을 구하거나 적률을 효율적으로 계산할 수 있다. 이것이 확률 부등식(probability inequalities)과 항등식(identities)의 역할이다.
직관적 비유: 분포를 “블랙박스”라고 생각하자. 블랙박스 내부의 정확한 구조를 모르더라도, 평균과 분산이라는 “외부 측정치”만으로 블랙박스가 극단값을 얼마나 자주 뱉어낼 수 있는지 상한을 정할 수 있다. 이것이 체비셰프 부등식의 아이디어이다. 반면 항등식은 “복잡한 계산을 단축하는 공식”으로, 적분 대신 미분을 사용하거나(스타인 보조정리) 재귀 관계를 이용하여(황 항등식) 적률을 효율적으로 구한다.
이 포스트는 두 가지 축으로 구성된다:
- 부등식: 불완전한 정보에서 확률의 경계를 설정한다 (체비셰프, 젠센, 코시-슈바르츠, 횔더, 민코프스키)
- 항등식: 적분을 미분이나 재귀 관계로 대체하여 적률 계산을 단순화한다 (스타인 보조정리, 황 항등식)
부등식은 확률적 관점(§3.6)과 함수적 관점(§4.7)으로 나뉘며, 항등식은 부분적분(integration by parts)에 기반한다 (Casella & Berger, 2002, Ch.3, Ch.4).
2 확률 부등식 (Probability Inequalities)
2.1 마르코프 부등식 (Markov’s Inequality)
\(X\) 가 확률변수이고 \(g(x)\) 가 비음수 함수이면, 임의의 \(r > 0\) 에 대해:
\[ P(g(X) \geq r) \leq \frac{E[g(X)]}{r} \]
핵심 아이디어: “평균이 3이면, 5 이상인 값이 전체의 절반 이상을 차지할 수 없다.” 왜냐하면 5 이상인 값들만으로 평균을 3까지 끌어내릴 수 없기 때문이다. 이를 수식으로 엄밀히 표현한 것이 마르코프 부등식이다.
증명의 핵심 아이디어는 놀랍도록 간단하다. \(E[g(X)] = \int g(x) f(x) dx\) 에서 적분 영역을 \(\{g(x) \geq r\}\) 로 줄이면 값이 줄어든다:
\[ E[g(X)] \geq \int_{\{g(x) \geq r\}} g(x) f(x) dx \]
그 영역에서 \(g(x) \geq r\) 이므로 \(g(x)\) 를 \(r\) 로 대체하면 더 줄어든다:
\[ \geq r \int_{\{g(x) \geq r\}} f(x) dx = r \cdot P(g(X) \geq r) \]
양변을 \(r\) 로 나누면 부등식이 완성된다. “적분 영역 축소 + 피적분함수 축소 = 상한 도출”이 핵심이다.
\(g(X) = X\) 로 놓으면 고전적 마르코프 부등식이 된다: \(P(X \geq r) \leq E[X]/r\) (단, \(X \geq 0\) ).
2.2 체비셰프 부등식 (Chebyshev’s Inequality)
\(g(X) = (X - \mu)^2 / \sigma^2\) , \(r = t^2\) 으로 놓으면:
\[ P(|X - \mu| \geq t\sigma) \leq \frac{1}{t^2} \]
이 부등식은 분포에 관계없이 적용된다. \(t = 2\) 이면 어떤 분포든 평균에서 \(2\sigma\) 이상 벗어날 확률이 25% 이하이고, \(t = 3\) 이면 약 11% 이하이다.
2.3 체비셰프 부등식의 의미와 한계
체비셰프 부등식은 보편성(universality)이 장점이다. 분포를 전혀 모르는 상태에서도 적용할 수 있다. 그러나 이 보편성의 대가는 보수성(conservatism)이다.
정규분포에서 \(P(|Z| \geq 2) = 0.0455\) 이지만, 체비셰프 바운드는 \(1/4 = 0.25\) 를 준다. 실제 값보다 약 5.5배 느슨하다. 분포에 대한 추가 정보가 있으면 더 타이트한 바운드를 얻을 수 있다. 예를 들어 표준 정규분포에 대해 (Casella & Berger, 2002, Example 3.6.3):
\[ P(|Z| \geq t) \leq \sqrt{\frac{2}{\pi}} \cdot \frac{e^{-t^2/2}}{t} \]
이 바운드는 \(t\) 가 커질수록 체비셰프보다 훨씬 타이트해진다.
3 수치 부등식 (Numerical Inequalities)
3.1 횔더 부등식 (Holder’s Inequality)
\(X\) , \(Y\) 가 확률변수이고 \(1/p + 1/q = 1\) ( \(p, q > 1\) )이면:
\[ |E[XY]| \leq E|XY| \leq \left(E|X|^p\right)^{1/p} \left(E|Y|^q\right)^{1/q} \]
횔더 부등식은 두 확률변수의 곱의 기댓값을 각각의 \(L^p\) 노름으로 바운딩한다. 이 부등식에서 세 가지 중요한 특수 경우가 파생된다.
3.2 코시-슈바르츠 부등식 (Cauchy-Schwarz Inequality)
횔더 부등식에서 \(p = q = 2\) 로 놓으면 (Casella & Berger, 2002, Theorem 4.7.3):
\[ |E[XY]| \leq \left(E[X^2]\right)^{1/2} \left(E[Y^2]\right)^{1/2} \]
이 부등식의 가장 중요한 응용은 상관계수의 범위를 증명하는 것이다. \(X - \mu_X\) 와 \(Y - \mu_Y\) 에 적용하면 (Casella & Berger, 2002, Example 4.7.4):
\[ |\text{Cov}(X, Y)|^2 \leq \sigma_X^2 \sigma_Y^2 \implies |\rho_{XY}| \leq 1 \]
등호 조건은 \(X - \mu_X = c(Y - \mu_Y)\) 일 때, 즉 \(X\) 와 \(Y\) 가 완전한 선형 관계일 때이다.
3.3 리아푸노프 부등식 (Liapounov’s Inequality)
횔더 부등식에서 \(Y \equiv 1\) 로 놓고 변환하면 (Casella & Berger, 2002, Ch.4):
\[ \left(E|X|^r\right)^{1/r} \leq \left(E|X|^s\right)^{1/s}, \quad 1 < r < s < \infty \]
더 높은 차수의 적률이 존재하면 더 낮은 차수의 적률도 존재한다는 것을 보장한다. 실무적으로는 “분산이 존재하면 평균도 존재한다”는 직관의 일반화이다.
3.4 민코프스키 부등식 (Minkowski’s Inequality)
\(X\) , \(Y\) 가 확률변수이고 \(1 \leq p < \infty\) 이면:
\[ \left(E|X + Y|^p\right)^{1/p} \leq \left(E|X|^p\right)^{1/p} + \left(E|Y|^p\right)^{1/p} \]
이 부등식은 \(L^p\) 공간에서의 삼각 부등식(triangle inequality)이다. \(p = 2\) 이면 “두 확률변수 합의 \(L^2\) 노름은 각각의 \(L^2\) 노름의 합 이하”라는 의미이다.
3.5 부등식 간의 관계
영의 부등식 (기본 보조정리)
↓
횔더 부등식 (가장 일반적)
├── p=q=2 → 코시-슈바르츠 부등식
├── Y≡1 → 리아푸노프 부등식
└── 삼각부등식과 결합 → 민코프스키 부등식
이 계층 구조를 아는 것이 중요한 이유: 특정 문제에서 어떤 부등식이 적용 가능한지, 그리고 더 타이트한 바운드를 얻으려면 어떤 부등식으로 올라가야 하는지 판단할 수 있다.
4 함수 부등식 (Functional Inequalities)
4.1 젠센 부등식 (Jensen’s Inequality)
\(g(x)\) 가 볼록(convex) 함수이면:
\[ E[g(X)] \geq g(E[X]) \]
\(g(x)\) 가 오목(concave) 함수이면 부등호가 반전된다. 등호 조건: \(P(g(X) = a + bX) = 1\) , 즉 \(g\) 가 사실상 선형인 경우.
증명의 핵심: 볼록 함수의 그래프는 모든 접선 위에 놓인다. \(x = EX\) 에서의 접선 \(l(x) = a + bx\) 에 대해 \(g(x) \geq l(x)\) 이므로, 기댓값을 취하면 \(E[g(X)] \geq E[l(X)] = l(EX) = g(EX)\) 이다.
4.2 젠센 부등식의 핵심 응용
| 볼록/오목 함수 | 부등식 | 응용 |
|---|---|---|
| \(g(x) = x^2\) (볼록) | \(E[X^2] \geq (EX)^2\) | 분산의 비음수성: \(\text{Var}X = E[X^2] - (EX)^2 \geq 0\) |
| \(g(x) = -\log x\) (볼록) | \(E[-\log X] \geq -\log EX\) | KL 발산의 비음수성 |
| \(g(x) = \log x\) (오목) | \(E[\log X] \leq \log EX\) | AM-GM 부등식: \(a_G \leq a_A\) |
| \(g(x) = 1/x\) (볼록, \(x > 0\) ) | \(E[1/X] \geq 1/EX\) | 조화평균 \(\leq\) 산술평균 |
4.3 산술-기하-조화 평균 부등식
양수 \(a_1, \ldots, a_n\) 에 대해 (Casella & Berger, 2002, Example 4.7.8):
\[ a_H \leq a_G \leq a_A \]
여기서 \(a_A = \frac{1}{n}\sum a_i\) (산술평균), \(a_G = (\prod a_i)^{1/n}\) (기하평균), \(a_H = n / \sum(1/a_i)\) (조화평균)이다. 증명은 \(\log x\) 가 오목 함수라는 사실과 젠센 부등식만으로 완성된다.
4.4 공분산 부등식 (Covariance Inequality)
\(g(x)\) 가 단조증가이고 \(h(x)\) 가 단조감소이면:
\[ E[g(X)h(X)] \leq E[g(X)] \cdot E[h(X)] \]
둘 다 같은 방향(증가 또는 감소)이면 부등호가 반전된다.
직관: 같은 방향으로 변하는 함수들의 곱은 양의 상관, 반대 방향이면 음의 상관이다. 이 부등식은 고차 적률 없이 기댓값의 곱을 바운딩할 수 있게 해준다.
5 항등식 (Identities)
확률 부등식이 “바운드”를 제공한다면, 항등식은 “정확한 값”을 효율적으로 계산하는 도구이다.
5.1 재귀 관계 (Recursion Relations)
포아송 분포에서 (Casella & Berger, 2002, Ch.3):
\[ P(X = x + 1) = \frac{\lambda}{x + 1} P(X = x) \]
\(P(X = 0) = e^{-\lambda}\) 에서 시작하면 모든 확률을 재귀적으로 계산할 수 있다. 팩토리얼 오버플로우 없이 안정적으로 계산할 수 있어 수치적으로 유용하다.
5.2 스타인 보조정리 (Stein’s Lemma)
\(X \sim N(\theta, \sigma^2)\) 이고 \(g\) 가 미분가능한 함수( \(E|g'(X)| < \infty\) )이면:
\[ E[g(X)(X - \theta)] = \sigma^2 E[g'(X)] \]
이 보조정리의 의미: 정규분포에서 곱의 기댓값을 미분의 기댓값으로 변환한다. 복잡한 적분을 피하고 미분만으로 적률을 계산할 수 있다.
증명은 부분적분에 기반한다. \(u = g(x)\) , \(dv = (x - \theta) e^{-(x-\theta)^2/(2\sigma^2)} dx\) 로 놓으면 \(v = -\sigma^2 e^{-(x-\theta)^2/(2\sigma^2)}\) 이 되어 결과가 따라 나온다 (Casella & Berger, 2002, Ch.3).
5.3 예시: 정규분포의 3차 적률
\(X \sim N(\theta, \sigma^2)\) 에서 \(E[X^3]\) 을 스타인 보조정리로 구한다 (Casella & Berger, 2002, Example 3.6.6):
\[ \begin{aligned} E[X^3] &= E[X^2(X - \theta + \theta)] \\ &= E[X^2(X - \theta)] + \theta E[X^2] \\ &= 2\sigma^2 E[X] + \theta(\sigma^2 + \theta^2) \quad \text{(스타인 보조정리: } g(x) = x^2 \text{)} \\ &= 2\sigma^2\theta + \theta\sigma^2 + \theta^3 \\ &= 3\theta\sigma^2 + \theta^3 \end{aligned} \]
적분 한 번 없이, 이미 알고 있는 1차, 2차 적률과 스타인 보조정리만으로 3차 적률을 유도하였다.
5.4 카이제곱 항등식
\(\chi_p^2\) 가 자유도 \(p\) 인 카이제곱 확률변수이면, 임의의 함수 \(h(x)\) 에 대해:
\[ E[h(\chi_p^2)] = p \, E\!\left[\frac{h(\chi_{p+2}^2)}{\chi_{p+2}^2}\right] \]
이 항등식으로 카이제곱 분포의 적률을 간단히 구할 수 있다:
- \(h(x) = x\) : \(E[\chi_p^2] = p \cdot E[1] = p\)
- \(h(x) = x^2\) : \(E[(\chi_p^2)^2] = p \cdot E[\chi_{p+2}^2] = p(p + 2)\) , 따라서 \(\text{Var}(\chi_p^2) = 2p\)
5.5 황 항등식 (Hwang’s Identity)
\(X \sim \text{Poi}(\lambda)\) 이면: \(E[\lambda g(X)] = E[X g(X - 1)]\)
\(X \sim \text{NB}(r, p)\) 이면: \(E[(1-p) g(X)] = E\!\left[\frac{X}{r + X - 1} g(X - 1)\right]\)
황 항등식은 스타인 보조정리의 이산 분포 버전이다. 연속 분포에서 부분적분이 하는 역할을, 이산 분포에서 합의 인덱스 변환이 수행한다.
5.6 예시: 포아송의 3차 적률
\(X \sim \text{Poi}(\lambda)\) 에서 \(g(x) = x^2\) 으로 황 항등식을 적용하면 (Casella & Berger, 2002, Example 3.6.9):
\[ E[\lambda X^2] = E[X(X-1)^2] = E[X^3 - 2X^2 + X] \]
정리하면:
\[ E[X^3] = \lambda E[X^2] + 2E[X^2] - E[X] = \lambda^3 + 3\lambda^2 + \lambda \]
6 왜 이 부등식과 항등식이 중요한가
6.1 분포를 모를 때의 추론
체비셰프 부등식은 분포의 형태를 전혀 가정하지 않는다. 평균과 분산만 알면 꼬리 확률의 상한을 구할 수 있다. 이것이 비모수적 이상 탐지의 기반이다: 관측값이 \(\bar{X} \pm k \cdot S\) 밖에 있으면, 분포에 관계없이 그 확률이 \(1/k^2\) 이하임을 보장한다.
6.2 최적화와 바운드
젠센 부등식은 EM 알고리즘의 ELBO(Evidence Lower Bound)를 구성하는 핵심 도구이다. \(\log\) 가 오목 함수이므로:
\[ \log E[f(X)] \geq E[\log f(X)] \]
이 부등식이 E-step에서 하한을 만들고, M-step에서 그 하한을 최대화하는 구조를 가능하게 한다.
6.3 적률 계산의 단순화
스타인 보조정리와 황 항등식은 고차 적률을 저차 적률로 재귀적으로 환원한다. 적분(또는 합산)을 직접 수행하는 대신, 이미 알고 있는 적률을 재활용하여 계산 비용을 줄인다.
7 응용 분야
| 분야 | 부등식/항등식 | 활용 |
|---|---|---|
| 이상 탐지 | 체비셰프 | 분포 무관 이상치 기준: \(|x - \bar{x}| > k \cdot s\) |
| EM 알고리즘 | 젠센 | ELBO 구성, E-step/M-step 분리 |
| 변분 추론 | 젠센 | ELBO \(\leq \log p(\mathbf{x})\) 의 근거 |
| 정보이론 | 젠센 | KL 발산 비음수성: \(D_{KL}(p \| q) \geq 0\) |
| 상관 분석 | 코시-슈바르츠 | \(|\rho| \leq 1\) 의 증명, 피처 선택의 이론적 근거 |
| 대수의 법칙 | 체비셰프 | 약한 대수의 법칙 증명 |
| 중심극한정리 | 리아푸노프 | 리아푸노프 CLT의 조건 |
| 추정 이론 | 스타인 보조정리 | James-Stein 추정량의 위험도 계산 |
| 수치 계산 | 포아송 재귀, 황 항등식 | 오버플로우 없는 확률/적률 계산 |
8 코드 예시
8.1 Step 1: 순수 Python 구현 (원리 이해)
체비셰프 바운드와 실제 확률을 비교하여 바운드의 보수성을 확인한다.
import math
def chebyshev_bound(k):
"""체비셰프 부등식: P(|X - mu| >= k*sigma) <= 1/k^2"""
return 1 / k**2
def normal_tail_exact(k):
"""표준 정규분포의 정확한 꼬리 확률"""
return 2 * (1 - 0.5 * (1 + math.erf(k / math.sqrt(2))))
def normal_tail_bound(k):
"""정규분포 전용 바운드 (Casella Example 3.6.3)"""
return math.sqrt(2 / math.pi) * math.exp(-k**2 / 2) / k
print(f"{'k':>4} | {'Chebyshev':>12} | {'Normal bound':>12} | {'Exact':>12} | {'Cheb/Exact':>10}")
print("-" * 65)
for k in [1, 2, 3, 4, 5]:
cheb = chebyshev_bound(k)
norm_bound = normal_tail_bound(k)
exact = normal_tail_exact(k)
ratio = cheb / exact if exact > 0 else float('inf')
print(f"{k:>4} | {cheb:>12.4f} | {norm_bound:>12.6f} | {exact:>12.6f} | {ratio:>10.1f}x")핵심 확인: \(k\) 가 커질수록 체비셰프 바운드는 실제 값 대비 수백~수천 배 느슨해진다. 분포 정보가 있으면 훨씬 타이트한 바운드를 얻을 수 있다.
8.2 스타인 보조정리 검증
import math
# X ~ N(theta, sigma^2)에서 스타인 보조정리 검증
# E[g(X)(X - theta)] = sigma^2 * E[g'(X)]
theta = 2.0
sigma = 1.5
n_samples = 500000
# 난수 생성 (Box-Muller 변환)
import random
random.seed(42)
samples = [theta + sigma * ((-2 * math.log(random.random()))**0.5 *
math.cos(2 * math.pi * random.random())) for _ in range(n_samples)]
# g(x) = x^2, g'(x) = 2x
lhs = sum(x**2 * (x - theta) for x in samples) / n_samples # E[g(X)(X - theta)]
rhs = sigma**2 * sum(2 * x for x in samples) / n_samples # sigma^2 * E[g'(X)]
print(f"스타인 보조정리 검증 (g(x) = x^2):")
print(f" 좌변 E[X^2(X - theta)] = {lhs:.4f}")
print(f" 우변 sigma^2 * E[2X] = {rhs:.4f}")
print(f" 이론값 = {sigma**2 * 2 * theta:.4f}")
print(f" 상대 오차: {abs(lhs - rhs) / abs(rhs) * 100:.2f}%")8.3 Step 2: scipy/numpy 구현 (실무 활용)
젠센 부등식의 시각적 확인과 실무 응용을 시연한다.
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
np.random.seed(42)
# --- 젠센 부등식 시각화 ---
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
# 왼쪽: 볼록 함수 g(x) = x^2
x_range = np.linspace(-3, 3, 300)
X_samples = np.random.normal(0, 1, 10000)
ax = axes[0]
ax.plot(x_range, x_range**2, 'b-', linewidth=2, label=r'$g(x) = x^2$ (convex)')
# E[X] 지점과 g(E[X])
ex = np.mean(X_samples)
egx = np.mean(X_samples**2)
ax.plot(ex, ex**2, 'go', markersize=10, label=rf'$g(E[X]) = {ex**2:.3f}$')
ax.plot(ex, egx, 'r^', markersize=10, label=rf'$E[g(X)] = {egx:.3f}$')
ax.axhline(y=egx, color='red', linestyle='--', alpha=0.3)
ax.axhline(y=ex**2, color='green', linestyle='--', alpha=0.3)
ax.set_title("Jensen: E[g(X)] >= g(E[X])")
ax.legend(fontsize=9)
ax.set_xlabel("x")
ax.set_ylabel("g(x)")
# 오른쪽: 체비셰프 vs 실제 꼬리 확률
ax = axes[1]
k_values = np.linspace(0.5, 6, 100)
cheb_bounds = 1 / k_values**2
# 여러 분포의 실제 꼬리 확률
for name, dist, params in [
("Normal", stats.norm, {}),
("Uniform", stats.uniform, {"loc": -np.sqrt(3), "scale": 2*np.sqrt(3)}),
("Laplace", stats.laplace, {"scale": 1/np.sqrt(2)}),
]:
tail_probs = []
for k in k_values:
# P(|X - mu| >= k*sigma) — 표준화된 분포(mean=0, var=1)
p = 1 - (dist.cdf(k, **params) - dist.cdf(-k, **params))
tail_probs.append(p)
ax.plot(k_values, tail_probs, linewidth=1.5, label=name)
ax.plot(k_values, cheb_bounds, 'k--', linewidth=2, label="Chebyshev bound")
ax.set_xlabel(r"$k$ (multiples of $\sigma$)")
ax.set_ylabel(r"$P(|X - \mu| \geq k\sigma)$")
ax.set_title("Chebyshev Bound vs Actual Tail Probabilities")
ax.set_yscale("log")
ax.set_ylim(1e-6, 2)
ax.legend(fontsize=9)
plt.tight_layout()
plt.show()8.4 황 항등식으로 포아송 적률 계산
import numpy as np
from scipy import stats
lam = 3.5
n_sim = 500000
# 황 항등식: E[lambda * g(X)] = E[X * g(X-1)]
X = stats.poisson.rvs(mu=lam, size=n_sim)
# g(x) = x^2 → E[X^3] 계산
lhs_hwang = np.mean(lam * X**2) # E[lambda * X^2]
rhs_hwang = np.mean(X * (X - 1)**2) # E[X * (X-1)^2]
theoretical = lam**3 + 3*lam**2 + lam # 이론값
print(f"황 항등식 검증: Poi(lambda={lam})")
print(f" E[lambda * X^2] = {lhs_hwang:.2f}")
print(f" E[X * (X-1)^2] = {rhs_hwang:.2f}")
print(f" E[X^3] (from identity) = {lhs_hwang + 2*np.mean(X**2) - np.mean(X):.2f}")
print(f" E[X^3] (theoretical) = {theoretical:.2f}")
print(f" E[X^3] (direct) = {np.mean(X**3):.2f}")9 부등식 요약 테이블
| 부등식 | 조건 | 결과 | 증명 기법 |
|---|---|---|---|
| 마르코프 | \(g(X) \geq 0\) | \(P(g(X) \geq r) \leq E[g(X)]/r\) | 적분 영역 축소 |
| 체비셰프 | \(E[X]\) , \(\text{Var}(X)\) 존재 | \(P(|X - \mu| \geq k\sigma) \leq 1/k^2\) | 마르코프의 특수 경우 |
| 횔더 | \(1/p + 1/q = 1\) | \(|E[XY]| \leq (E|X|^p)^{1/p}(E|Y|^q)^{1/q}\) | 영의 부등식 |
| 코시-슈바르츠 | — | \(|E[XY]| \leq (E[X^2])^{1/2}(E[Y^2])^{1/2}\) | 횔더 ( \(p = q = 2\) ) |
| 리아푸노프 | \(1 < r < s\) | \((E|X|^r)^{1/r} \leq (E|X|^s)^{1/s}\) | 횔더 ( \(Y = 1\) ) |
| 민코프스키 | \(p \geq 1\) | \((E|X+Y|^p)^{1/p} \leq (E|X|^p)^{1/p} + (E|Y|^p)^{1/p}\) | 횔더 + 삼각부등식 |
| 젠센 | \(g\) 볼록 | \(E[g(X)] \geq g(E[X])\) | 접선 부등식 |
| 공분산 | \(g\) 증가, \(h\) 감소 | \(E[g(X)h(X)] \leq E[g(X)]E[h(X)]\) | 단조성 분할 |
10 관련 주제
선행 지식
- 기댓값과 분산 — 젠센 부등식의 기초 소개
- 적률과 적률생성함수 — 적률 개념
후속 주제
관련 개념
- 분포 가족 개요 — 부등식 요약
- 지수족 (Exponential Family) — 적률 단축 공식과의 비교