1 왜 기대값인가
확률변수의 분포는 PDF/PMF 또는 CDF로 완전히 기술되지만, 분포 전체를 항상 다룰 수는 없다. 분포를 몇 개의 숫자로 요약해야 할 때 가장 먼저 필요한 것이 기대값이다.
- 손실 함수 최적화: ML 모델 학습은 \(\min_\theta E[L(Y, f_\theta(X))]\) — 기대값이 정의되지 않으면 목적 함수 자체가 성립하지 않는다
- 비편향 추정: \(E[\hat{\theta}] = \theta\) — “평균적으로 맞힌다”는 개념이 기대값이다
- MSE 분해: \(\text{MSE} = \text{Bias}^2 + \text{Var}\) — 편향과 분산 모두 기대값으로 정의된다
- 보험료 산정: 순보험료 = \(E[\text{손해액}]\) — 기대값이 공정 가격의 기준이다
- 의사결정 이론: 기대 효용 최대화, 기대 손실 최소화 — 모든 최적 행동의 기준이 기대값이다
2 기대값의 정의
2.1 이산형
\(X\) 가 이산형이고 PMF가 \(p_X(x)\) 이면:
\[ E[X] = \sum_{x \in \mathcal{X}} x \, p_X(x) \]
단, \(\sum_x |x| \, p_X(x) < \infty\) 일 때 기대값이 존재한다.
2.2 연속형
\(X\) 가 연속형이고 PDF가 \(f_X(x)\) 이면:
\[ E[X] = \int_{-\infty}^{\infty} x \, f_X(x) \, dx \]
단, \(\int |x| \, f_X(x) \, dx < \infty\) 일 때 기대값이 존재한다.
주사위 기대값: \(E[X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + \cdots + 6 \cdot \frac{1}{6} = 3.5\)
3.5는 주사위의 가능한 값이 아니지만, 무한히 반복하면 평균이 3.5에 수렴한다. 큰 수의 법칙이 이를 보장한다:
\[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} E[X] \quad \text{as } n \to \infty \]
2.3 기대값이 존재하지 않는 경우
코시 분포 \(X \sim \text{Cauchy}(0,1)\):
\[ f(x) = \frac{1}{\pi(1 + x^2)}, \quad x \in \mathbb{R} \]
\(\int |x| \cdot \frac{1}{\pi(1+x^2)} dx = \infty\) 이므로 \(E[X]\) 가 존재하지 않는다.
이는 단순한 이론적 호기심이 아니다. 코시 분포를 따르는 데이터의 표본 평균은 \(n\) 이 아무리 커도 수렴하지 않는다 — 큰 수의 법칙이 적용되지 않는다.
금융 수익률, 보험 손해액, 네트워크 트래픽 등 “극단값이 잦은” 데이터는 꼬리가 두꺼운 분포를 따를 수 있다. 꼬리가 충분히 두꺼우면 기대값이나 분산이 존재하지 않을 수 있으며, 이 경우 표본 평균 기반 추론이 신뢰할 수 없다. 중앙값이나 절사 평균(trimmed mean) 등 로버스트 통계량을 사용해야 한다.
3 LOTUS (Law of the Unconscious Statistician)
\(Y = g(X)\) 의 기대값을 \(Y\) 의 분포를 모르고도 계산할 수 있다:
\[ E[g(X)] = \begin{cases} \displaystyle\sum_x g(x) \, p_X(x) & \text{이산형} \\[8pt] \displaystyle\int_{-\infty}^{\infty} g(x) \, f_X(x) \, dx & \text{연속형} \end{cases} \]
LOTUS는 “무의식적 통계학자의 법칙”이라는 이름과 달리, 확률론에서 가장 실용적인 정리 중 하나이다.
왜 강력한가: \(Y = g(X)\) 의 분포를 먼저 구한 뒤 \(E[Y] = \int y \, f_Y(y) \, dy\) 를 계산하는 대신, \(X\) 의 분포만으로 직접 계산할 수 있다. 변수변환법(야코비안)을 거칠 필요가 없다.
예시: \(X \sim \text{Uniform}(0, 1)\), \(g(X) = X^2\).
\[ E[X^2] = \int_0^1 x^2 \cdot 1 \, dx = \frac{1}{3} \]
\(Y = X^2\) 의 분포를 구하지 않고 바로 답을 얻었다.
- 분산 계산: \(\text{Var}(X) = E[X^2] - (E[X])^2\) 에서 \(E[X^2]\) 를 LOTUS로 구한다
- MGF 계산: \(M_X(t) = E[e^{tX}]\) 에서 \(g(X) = e^{tX}\) 를 LOTUS로 처리한다
- 보험수리: \(E[\min(X, d)]\) (보상 한도 \(d\) 가 있는 손해액의 기대값)를 \(X\) 의 분포로 직접 계산한다
- 위험 측정: \(E[\max(X - K, 0)]\) (콜 옵션의 기대 수익)을 기초 자산 분포로 계산한다
4 기대값의 성질
4.1 선형성 (Linearity)
임의의 확률변수 \(X, Y\) 와 상수 \(a, b, c\) 에 대해:
\[ E[aX + bY + c] = aE[X] + bE[Y] + c \]
이 성질은 독립성을 요구하지 않는다 — \(X\) 와 \(Y\) 가 종속이어도 성립한다.
선형성은 기대값의 가장 강력한 성질이다. 복잡한 확률변수의 기대값을 단순한 부분들의 합으로 분해할 수 있기 때문이다.
예시: 쿠폰 수집 문제
\(n\) 종류의 쿠폰을 모두 모으는 데 필요한 구매 횟수 \(T\) 의 기대값은?
\(T = T_1 + T_2 + \cdots + T_n\) 으로 분해한다. \(T_i\) 는 \((i-1)\) 종류를 모은 상태에서 새로운 종류를 얻기까지의 대기 횟수이다.
\(T_i \sim \text{Geometric}\!\left(\frac{n - i + 1}{n}\right)\) 이므로 \(E[T_i] = \frac{n}{n - i + 1}\).
선형성에 의해 (\(T_i\) 들이 독립이 아닐 수 있지만 상관없다):
\[ E[T] = \sum_{i=1}^n \frac{n}{n - i + 1} = n \sum_{k=1}^n \frac{1}{k} = n \, H_n \approx n \ln n \]
선형성의 가장 강력한 응용은 지표 확률변수 \(I_A\) 를 이용하는 것이다:
\[ E[I_A] = P(A), \quad I_A = \begin{cases} 1 & \text{if } A \text{ 발생} \\ 0 & \text{otherwise}\end{cases} \]
“개수의 기대값” 문제를 선형성 + 지표 확률변수로 즉시 풀 수 있다:
- 표본 \(n\) 명 중 조건을 만족하는 사람 수의 기대값 = \(n \cdot P(\text{조건})\)
- 해시 테이블의 충돌 기대값 = \(\sum_{i<j} P(\text{key } i, j \text{ 충돌})\)
4.2 단조성 (Monotonicity)
\(X \geq 0\) a.s. 이면 \(E[X] \geq 0\).
\(X \leq Y\) a.s. 이면 \(E[X] \leq E[Y]\).
4.3 기대값의 곱
\(X\) 와 \(Y\) 가 독립일 때만 성립한다:
\[ X \perp Y \implies E[XY] = E[X] \cdot E[Y] \]
독립이 아니면 \(E[XY] = E[X]E[Y] + \text{Cov}(X,Y)\) 이다.
5 분산 (Variance)
5.1 정의
\[ \text{Var}(X) = E\!\left[(X - E[X])^2\right] = E[X^2] - (E[X])^2 \]
표준편차: \(\text{SD}(X) = \sigma = \sqrt{\text{Var}(X)}\)
기대값이 분포의 위치(location) 를 요약한다면, 분산은 분포의 산포(spread) 를 요약한다.
두 번째 등식은 계산에서 핵심적으로 사용된다:
\[ \text{Var}(X) = E[X^2] - (E[X])^2 \quad\text{← LOTUS로 } E[X^2] \text{를 구한 뒤 사용} \]
5.2 분산의 성질
- \(\text{Var}(X) \geq 0\), 등호는 \(P(X = c) = 1\) 일 때만
- \(\text{Var}(aX + b) = a^2 \text{Var}(X)\) — 상수 이동은 분산에 영향 없음
- \(X \perp Y \implies \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)
- 일반: \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y)\)
성질 2의 증명:
\[ \text{Var}(aX+b) = E[(aX+b)^2] - (E[aX+b])^2 = E[a^2X^2 + 2abX + b^2] - (aE[X]+b)^2 \]
전개하면 \(b\) 가 상쇄되어 \(a^2(E[X^2] - (E[X])^2) = a^2\text{Var}(X)\). \(\quad\blacksquare\)
| 응용 | 수식 | 의미 |
|---|---|---|
| 표본 평균의 정밀도 | \(\text{Var}(\bar{X}) = \sigma^2/n\) | 표본 4배 → 표준 오차 반감 |
| 편향-분산 트레이드오프 | \(\text{MSE} = \text{Bias}^2 + \text{Var}\) | 모델 복잡도 조절의 수학적 근거 |
| 포트폴리오 리스크 | \(\text{Var}(R_p) = \mathbf{w}^\top \Sigma \mathbf{w}\) | 공분산 행렬로 전체 위험 계산 |
| 표본 크기 결정 | \(n = z_{\alpha/2}^2 \sigma^2 / \epsilon^2\) | 원하는 정밀도에 필요한 관측 수 |
| 체비셰프 부등식 | \(P(\lvert X-\mu \rvert \geq k\sigma) \leq 1/k^2\) | 분포 모를 때 확률 상한 |
6 공분산과 상관계수
6.1 공분산
\[ \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] \]
공분산의 부호는 두 확률변수의 동반 움직임 방향을 나타낸다:
- \(\text{Cov}(X,Y) > 0\): \(X\) 가 크면 \(Y\) 도 큰 경향
- \(\text{Cov}(X,Y) < 0\): \(X\) 가 크면 \(Y\) 는 작은 경향
- \(\text{Cov}(X,Y) = 0\): 비상관(uncorrelated)
6.2 공분산의 성질
- \(\text{Cov}(X, X) = \text{Var}(X)\)
- \(\text{Cov}(X, Y) = \text{Cov}(Y, X)\) (대칭)
- \(\text{Cov}(aX + b, \, cY + d) = ac \, \text{Cov}(X, Y)\) (이선형성)
- \(\text{Var}\!\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \text{Var}(X_i) + 2\sum_{i<j} \text{Cov}(X_i, X_j)\)
6.3 상관계수
\[ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)} \cdot \sqrt{\text{Var}(Y)}}, \quad -1 \leq \rho \leq 1 \]
\(|\rho| = 1 \iff Y = aX + b\) (완전 선형 관계). \(\rho = 0\) 은 선형 관계 없음이지 독립이 아니다.
\(X \sim N(0,1)\), \(Y = X^2\) 이면:
\[ \text{Cov}(X, X^2) = E[X^3] - E[X]E[X^2] = 0 - 0 = 0 \]
\(X\) 와 \(X^2\) 는 비상관이지만, \(Y\) 는 \(X\) 의 결정적 함수이므로 완전히 종속이다. 상관계수만 보면 이 관계를 놓친다.
- PCA: 공분산 행렬의 고유값 분해가 주성분의 방향과 크기를 결정한다
- 다변량 정규 분포: 비상관 = 독립이 성립하는 유일한 경우 — 정규 가정의 강력함이 여기서 나온다
- EDA: 상관 행렬 히트맵은 변수 간 선형 관계의 조감도이다. 비선형 관계는 Spearman 순위 상관, MIC 등으로 보완한다
7 적률 (Moments)
7.1 정의
- \(r\) 차 원점 적률: \(\mu_r' = E[X^r]\)
- \(r\) 차 중심 적률: \(\mu_r = E[(X - \mu)^r]\), \(\mu = E[X]\)
| 적률 | 표기 | 의미 | 실무 용도 |
|---|---|---|---|
| \(\mu_1' = E[X]\) | 평균 | 중심 위치 | 점추정, 기대 수익 |
| \(\mu_2 = \text{Var}(X)\) | 분산 | 산포 | 리스크 측정, 표본 크기 설정 |
| \(\gamma_1 = \mu_3/\sigma^3\) | 왜도(skewness) | 비대칭 정도 | 소득 분포(양의 왜도), 수익률 분석 |
| \(\gamma_2 = \mu_4/\sigma^4 - 3\) | 초과 첨도(excess kurtosis) | 꼬리 두께 | 극단값 빈도, 금융 위험 평가 |
- 왜도 \(\gamma_1 > 0\): 오른쪽 꼬리가 긴 분포 — 소득, 보험 손해액, 웹 페이지 체류 시간
- 왜도 \(\gamma_1 < 0\): 왼쪽 꼬리가 긴 분포 — 제품 수명(대부분 오래 가지만 일부 조기 고장)
- 초과 첨도 \(\gamma_2 > 0\): 정규보다 꼬리가 두꺼움 — 금융 수익률, 지진 크기
- 초과 첨도 \(\gamma_2 < 0\): 정규보다 꼬리가 얇음 — 균등분포
정규분포는 \(\gamma_1 = 0\), \(\gamma_2 = 0\) 이므로 비대칭과 꼬리 두께의 기준점이 된다.
8 적률생성함수 (MGF)
8.1 정의
\[ M_X(t) = E[e^{tX}], \quad t \in (-h, h) \text{ for some } h > 0 \]
“적률을 생성한다”는 이름의 이유:
\[ M_X(t) = E[e^{tX}] = E\!\left[\sum_{r=0}^{\infty} \frac{(tX)^r}{r!}\right] = \sum_{r=0}^{\infty} \frac{t^r}{r!} E[X^r] \]
따라서 \(M_X^{(r)}(0) = E[X^r]\) — \(r\) 번 미분하고 \(t=0\) 을 대입하면 \(r\) 차 적률을 얻는다.
8.2 MGF의 세 가지 핵심 역할
역할 1: 적률 계산의 자동화
예시: \(X \sim \text{Poisson}(\lambda)\)
\[ M_X(t) = E[e^{tX}] = \sum_{k=0}^{\infty} e^{tk} \frac{e^{-\lambda}\lambda^k}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda e^t)^k}{k!} = e^{-\lambda} \cdot e^{\lambda e^t} = e^{\lambda(e^t - 1)} \]
\[ M_X'(t) = \lambda e^t \cdot e^{\lambda(e^t-1)} \implies E[X] = M_X'(0) = \lambda \]
\[ M_X''(t) = (\lambda e^t + \lambda^2 e^{2t}) e^{\lambda(e^t-1)} \implies E[X^2] = M_X''(0) = \lambda + \lambda^2 \]
\[ \text{Var}(X) = E[X^2] - (E[X])^2 = \lambda + \lambda^2 - \lambda^2 = \lambda \]
역할 2: 독립 확률변수 합의 분포
\(X \perp Y\) 이면:
\[ M_{X+Y}(t) = M_X(t) \cdot M_Y(t) \]
증명: \(M_{X+Y}(t) = E[e^{t(X+Y)}] = E[e^{tX} \cdot e^{tY}] = E[e^{tX}] \cdot E[e^{tY}]\) (독립). \(\quad\blacksquare\)
핵심 응용:
| 전제 | 결과 | MGF 증명 |
|---|---|---|
| \(X_i \overset{iid}{\sim} N(\mu, \sigma^2)\) | \(\bar{X} \sim N(\mu, \sigma^2/n)\) | MGF 곱 후 선형변환 |
| \(X_i \overset{iid}{\sim} \text{Exp}(\lambda)\) | \(\sum_{i=1}^n X_i \sim \text{Gamma}(n, 1/\lambda)\) | \((\lambda/(\lambda-t))^n\) |
| \(X_i \sim \text{Poisson}(\lambda_i)\) 독립 | \(\sum X_i \sim \text{Poisson}(\sum \lambda_i)\) | MGF의 지수 합산 |
| \(X_i \sim \text{Binomial}(n_i, p)\) 독립 | \(\sum X_i \sim \text{Binomial}(\sum n_i, p)\) | MGF 곱 |
역할 3: 분포의 유일한 결정
\(M_X(t) = M_Y(t)\) 가 \(0\) 을 포함하는 열린 구간에서 성립하면 \(X\) 와 \(Y\) 는 같은 분포를 가진다.
이 성질 덕분에 MGF를 계산하고 알려진 분포의 MGF와 대조하는 것만으로 분포를 식별할 수 있다.
- 중심극한정리(CLT): \(\bar{X}_n\) 의 MGF가 정규분포의 MGF로 수렴함을 보인다
- 충분통계량: 지수족에서 충분통계량의 분포를 MGF로 유도한다
- 체르노프 바운드: \(P(X \geq a) \leq \inf_{t>0} e^{-ta} M_X(t)\) — 꼬리 확률의 상한을 MGF로 구한다. ML 이론의 일반화 오차 바운드에 사용된다
8.3 주요 분포의 MGF 요약
| 분포 | \(M_X(t)\) | \(E[X]\) | \(\text{Var}(X)\) |
|---|---|---|---|
| \(\text{Bernoulli}(p)\) | \((1-p) + pe^t\) | \(p\) | \(p(1-p)\) |
| \(\text{Binomial}(n,p)\) | \(((1-p)+pe^t)^n\) | \(np\) | \(np(1-p)\) |
| \(\text{Poisson}(\lambda)\) | \(e^{\lambda(e^t - 1)}\) | \(\lambda\) | \(\lambda\) |
| \(\text{Geometric}(p)\) | \(\frac{pe^t}{1-(1-p)e^t}\) | \(1/p\) | \((1-p)/p^2\) |
| \(N(\mu, \sigma^2)\) | \(e^{\mu t + \sigma^2 t^2/2}\) | \(\mu\) | \(\sigma^2\) |
| \(\text{Exp}(\lambda)\) | \(\frac{\lambda}{\lambda - t}\) | \(1/\lambda\) | \(1/\lambda^2\) |
| \(\text{Gamma}(\alpha, \beta)\) | \((1 - \beta t)^{-\alpha}\) | \(\alpha\beta\) | \(\alpha\beta^2\) |
| \(\text{Uniform}(a,b)\) | \(\frac{e^{tb} - e^{ta}}{t(b-a)}\) | \(\frac{a+b}{2}\) | \(\frac{(b-a)^2}{12}\) |
9 부등식: 기대값과 분산의 응용
9.1 체비셰프 부등식
\(E[X] = \mu\), \(\text{Var}(X) = \sigma^2 < \infty\) 이면, 임의의 \(k > 0\) 에 대해:
\[ P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2} \]
증명 (마르코프 부등식에서):
\(Y = (X - \mu)^2 \geq 0\) 에 마르코프 부등식을 적용:
\[ P((X-\mu)^2 \geq k^2\sigma^2) \leq \frac{E[(X-\mu)^2]}{k^2\sigma^2} = \frac{\sigma^2}{k^2\sigma^2} = \frac{1}{k^2} \quad\blacksquare \]
- \(k=2\): 평균에서 \(2\sigma\) 이상 벗어날 확률 \(\leq 25\%\) (분포 무관)
- \(k=3\): 평균에서 \(3\sigma\) 이상 벗어날 확률 \(\leq 11.1\%\)
- 이상 탐지: 분포를 모를 때 체비셰프 부등식으로 보수적 임계값을 설정한다
- 큰 수의 법칙 증명: 체비셰프 부등식 \(P(|\bar{X}_n - \mu| \geq \epsilon) \leq \sigma^2/(n\epsilon^2) \to 0\) 으로 약한 큰 수의 법칙을 증명한다
9.2 옌센 부등식
\(g\) 가 볼록(convex) 함수이면:
\[ E[g(X)] \geq g(E[X]) \]
\(g\) 가 오목(concave) 이면 부등호가 뒤집힌다.
- \(g(x) = x^2\) (볼록): \(E[X^2] \geq (E[X])^2\) → \(\text{Var}(X) \geq 0\)
- \(g(x) = \log x\) (오목): \(E[\log X] \leq \log E[X]\) → 기하평균 \(\leq\) 산술평균
- \(g(x) = -\log x\) (볼록): KL 발산의 비음성 \(D_{KL}(P \| Q) \geq 0\) 의 증명에 사용
- EM 알고리즘: E-step에서 옌센 부등식으로 로그우도의 하한(ELBO)을 구성한다
10 코드 예시
10.1 Step 1: 순수 Python 구현 (원리 이해)
import math
def expected_value(values, probs):
"""E[X] = Σ x * p(x)"""
return sum(x * p for x, p in zip(values, probs))
def expected_g(values, probs, g):
"""LOTUS: E[g(X)] = Σ g(x) * p(x)"""
return sum(g(x) * p for x, p in zip(values, probs))
def variance(values, probs):
"""Var(X) = E[X²] - (E[X])²"""
ex = expected_value(values, probs)
ex2 = expected_g(values, probs, lambda x: x**2)
return ex2 - ex**2
def covariance_sim(x_samples, y_samples):
"""Cov(X,Y) = E[XY] - E[X]E[Y] (표본 기반)"""
n = len(x_samples)
mean_x = sum(x_samples) / n
mean_y = sum(y_samples) / n
mean_xy = sum(x * y for x, y in zip(x_samples, y_samples)) / n
return mean_xy - mean_x * mean_y
def mgf_discrete(values, probs, t):
"""M(t) = E[e^{tX}] = Σ e^{tx} * p(x)"""
return sum(math.exp(t * x) * p for x, p in zip(values, probs))
# --- 주사위 ---
vals = list(range(1, 7))
probs = [1/6] * 6
print("=== 공정 주사위 ===")
print(f"E[X] = {expected_value(vals, probs):.4f}")
print(f"E[X²] = {expected_g(vals, probs, lambda x: x**2):.4f}")
print(f"Var(X) = {variance(vals, probs):.4f}")
print(f"SD(X) = {math.sqrt(variance(vals, probs)):.4f}")
# --- MGF로 적률 추출 (수치 미분) ---
h = 1e-5
m0 = mgf_discrete(vals, probs, 0)
mp = mgf_discrete(vals, probs, h)
mn = mgf_discrete(vals, probs, -h)
first = (mp - mn) / (2 * h)
second = (mp - 2*m0 + mn) / h**2
print(f"\nMGF → E[X] = {first:.4f}")
print(f"MGF → E[X²] = {second:.4f}")
print(f"MGF → Var(X) = {second - first**2:.4f}")
# --- 비상관 ≠ 독립 검증 ---
import random
random.seed(42)
n = 100_000
x_samples = [random.gauss(0, 1) for _ in range(n)]
y_samples = [x**2 for x in x_samples]
cov_xy = covariance_sim(x_samples, y_samples)
print(f"\nX ~ N(0,1), Y = X²:")
print(f"Cov(X, X²) ≈ {cov_xy:.4f} (이론값: 0)")
print(f"하지만 Y는 X의 결정적 함수 → 완전 종속")10.2 Step 2: scipy/numpy 구현 (실무 활용)
import numpy as np
from scipy import stats
np.random.seed(42)
n = 100_000
# --- 기대값, 분산, 왜도, 첨도 ---
X = stats.norm(loc=5, scale=2)
print(f"N(5, 4): E={X.mean():.1f}, Var={X.var():.1f}, "
f"Skew={X.stats('s')[0]:.1f}, Kurt={X.stats('k')[0]:.1f}")
X_exp = stats.expon(scale=2) # Exp(0.5)
print(f"Exp(0.5): E={X_exp.mean():.1f}, Var={X_exp.var():.1f}, "
f"Skew={X_exp.stats('s')[0]:.1f}, Kurt={X_exp.stats('k')[0]:.1f}")
# --- 체비셰프 부등식 검증 ---
samples = stats.norm.rvs(loc=0, scale=1, size=n)
for k in [1, 2, 3]:
empirical = np.mean(np.abs(samples) >= k)
chebyshev = 1 / k**2
print(f"P(|X| >= {k}σ): 실제={empirical:.4f}, 체비셰프 상한={chebyshev:.4f}")
# --- MGF로 독립 확률변수 합의 분포 확인 ---
X1 = stats.poisson.rvs(mu=3, size=n)
X2 = stats.poisson.rvs(mu=7, size=n)
S = X1 + X2
print(f"\nPoisson(3) + Poisson(7) = Poisson(10):")
print(f" 평균: {S.mean():.2f} (이론: 10)")
print(f" 분산: {S.var():.2f} (이론: 10)")
# --- 옌센 부등식 검증 ---
X_unif = stats.uniform.rvs(loc=1, scale=4, size=n) # Uniform(1, 5)
print(f"\n옌센 부등식 (g=log, X~Uniform(1,5)):")
print(f" E[log(X)] = {np.log(X_unif).mean():.4f}")
print(f" log(E[X]) = {np.log(X_unif.mean()):.4f}")
print(f" E[log(X)] <= log(E[X]): {np.log(X_unif).mean() <= np.log(X_unif.mean())}")11 관련 주제
선행 지식
- 변환과 기대값 개요 — Ch.2 전체 조감
- 확률변수 — PMF, PDF, CDF
- 밀도 함수와 질량 함수 — PDF/PMF 존재 조건
- 확률변수 함수의 분포 — \(Y = g(X)\) 의 분포 유도
후속 주제
- 연속확률변수와 확률밀도함수 — 기댓값과 분산의 심화
- Moment Generating Function — MGF의 추가 응용
- 피어슨 상관계수 — 상관계수의 정의와 한계
- 수렴 이론 — 큰 수의 법칙, 중심극한정리
- MLE — 기대값 기반 추정량 평가 (비편향, 효율, MSE)
- BLUE — 최소 분산 비편향 추정량
관련 개념
- 지수족 — 지수족의 기대값·분산은 로그 정규화 상수의 미분으로 구해진다
- GLM — \(E[Y \mid X] = g^{-1}(X\beta)\) 에서 기대값이 모형의 핵심
- 데이터 축소의 원리 — 충분통계량과 기대값의 관계
참고 교재
- Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.), Ch.2.2-2.3. Cengage.