Kwangmin Kim - 기대값 (Expected Values)

1 왜 기대값인가

확률변수의 분포는 PDF/PMF 또는 CDF로 완전히 기술되지만, 분포 전체를 항상 다룰 수는 없다. 분포를 몇 개의 숫자로 요약해야 할 때 가장 먼저 필요한 것이 기대값이다.

기대값 없이는 불가능한 것들

손실 함수 최적화: ML 모델 학습은 \(\min_\theta E[L(Y, f_\theta(X))]\) — 기대값이 정의되지 않으면 목적 함수 자체가 성립하지 않는다
비편향 추정: \(E[\hat{\theta}] = \theta\) — “평균적으로 맞힌다”는 개념이 기대값이다
MSE 분해: \(\text{MSE} = \text{Bias}^2 + \text{Var}\) — 편향과 분산 모두 기대값으로 정의된다
보험료 산정: 순보험료 = \(E[\text{손해액}]\) — 기대값이 공정 가격의 기준이다
의사결정 이론: 기대 효용 최대화, 기대 손실 최소화 — 모든 최적 행동의 기준이 기대값이다

2 기대값의 정의

2.1 이산형

정의: 이산형 확률변수의 기대값

\(X\) 가 이산형이고 PMF가 \(p_X(x)\) 이면:

\[ E[X] = \sum_{x \in \mathcal{X}} x \, p_X(x) \]

단, \(\sum_x |x| \, p_X(x) < \infty\) 일 때 기대값이 존재한다.

2.2 연속형

정의: 연속형 확률변수의 기대값

\(X\) 가 연속형이고 PDF가 \(f_X(x)\) 이면:

\[ E[X] = \int_{-\infty}^{\infty} x \, f_X(x) \, dx \]

단, \(\int |x| \, f_X(x) \, dx < \infty\) 일 때 기대값이 존재한다.

직관: 기대값은 “확률로 가중한 평균”

주사위 기대값: \(E[X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + \cdots + 6 \cdot \frac{1}{6} = 3.5\)

3.5는 주사위의 가능한 값이 아니지만, 무한히 반복하면 평균이 3.5에 수렴한다. 큰 수의 법칙이 이를 보장한다:

\[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} E[X] \quad \text{as } n \to \infty \]

2.3 기대값이 존재하지 않는 경우

주의: 모든 확률변수에 기대값이 존재하는 것은 아니다

코시 분포 \(X \sim \text{Cauchy}(0,1)\):

\[ f(x) = \frac{1}{\pi(1 + x^2)}, \quad x \in \mathbb{R} \]

\(\int |x| \cdot \frac{1}{\pi(1+x^2)} dx = \infty\) 이므로 \(E[X]\) 가 존재하지 않는다.

이는 단순한 이론적 호기심이 아니다. 코시 분포를 따르는 데이터의 표본 평균은 \(n\) 이 아무리 커도 수렴하지 않는다 — 큰 수의 법칙이 적용되지 않는다.

실무 연결: 두꺼운 꼬리와 기대값

금융 수익률, 보험 손해액, 네트워크 트래픽 등 “극단값이 잦은” 데이터는 꼬리가 두꺼운 분포를 따를 수 있다. 꼬리가 충분히 두꺼우면 기대값이나 분산이 존재하지 않을 수 있으며, 이 경우 표본 평균 기반 추론이 신뢰할 수 없다. 중앙값이나 절사 평균(trimmed mean) 등 로버스트 통계량을 사용해야 한다.

3 LOTUS (Law of the Unconscious Statistician)

정리: LOTUS

\(Y = g(X)\) 의 기대값을 \(Y\) 의 분포를 모르고도 계산할 수 있다:

\[ E[g(X)] = \begin{cases} \displaystyle\sum_x g(x) \, p_X(x) & \text{이산형} \\[8pt] \displaystyle\int_{-\infty}^{\infty} g(x) \, f_X(x) \, dx & \text{연속형} \end{cases} \]

LOTUS는 “무의식적 통계학자의 법칙”이라는 이름과 달리, 확률론에서 가장 실용적인 정리 중 하나이다.

왜 강력한가: \(Y = g(X)\) 의 분포를 먼저 구한 뒤 \(E[Y] = \int y \, f_Y(y) \, dy\) 를 계산하는 대신, \(X\) 의 분포만으로 직접 계산할 수 있다. 변수변환법(야코비안)을 거칠 필요가 없다.

예시: \(X \sim \text{Uniform}(0, 1)\), \(g(X) = X^2\).

\[ E[X^2] = \int_0^1 x^2 \cdot 1 \, dx = \frac{1}{3} \]

\(Y = X^2\) 의 분포를 구하지 않고 바로 답을 얻었다.

실무 연결: LOTUS가 사용되는 곳

분산 계산: \(\text{Var}(X) = E[X^2] - (E[X])^2\) 에서 \(E[X^2]\) 를 LOTUS로 구한다
MGF 계산: \(M_X(t) = E[e^{tX}]\) 에서 \(g(X) = e^{tX}\) 를 LOTUS로 처리한다
보험수리: \(E[\min(X, d)]\) (보상 한도 \(d\) 가 있는 손해액의 기대값)를 \(X\) 의 분포로 직접 계산한다
위험 측정: \(E[\max(X - K, 0)]\) (콜 옵션의 기대 수익)을 기초 자산 분포로 계산한다

4 기대값의 성질

4.1 선형성 (Linearity)

정리: 기대값의 선형성

임의의 확률변수 \(X, Y\) 와 상수 \(a, b, c\) 에 대해:

\[ E[aX + bY + c] = aE[X] + bE[Y] + c \]

이 성질은 독립성을 요구하지 않는다 — \(X\) 와 \(Y\) 가 종속이어도 성립한다.

선형성은 기대값의 가장 강력한 성질이다. 복잡한 확률변수의 기대값을 단순한 부분들의 합으로 분해할 수 있기 때문이다.

예시: 쿠폰 수집 문제

\(n\) 종류의 쿠폰을 모두 모으는 데 필요한 구매 횟수 \(T\) 의 기대값은?

\(T = T_1 + T_2 + \cdots + T_n\) 으로 분해한다. \(T_i\) 는 \((i-1)\) 종류를 모은 상태에서 새로운 종류를 얻기까지의 대기 횟수이다.

\(T_i \sim \text{Geometric}\!\left(\frac{n - i + 1}{n}\right)\) 이므로 \(E[T_i] = \frac{n}{n - i + 1}\).

선형성에 의해 (\(T_i\) 들이 독립이 아닐 수 있지만 상관없다):

\[ E[T] = \sum_{i=1}^n \frac{n}{n - i + 1} = n \sum_{k=1}^n \frac{1}{k} = n \, H_n \approx n \ln n \]

실무 연결: 지표 확률변수 (Indicator Random Variable)

선형성의 가장 강력한 응용은 지표 확률변수 \(I_A\) 를 이용하는 것이다:

\[ E[I_A] = P(A), \quad I_A = \begin{cases} 1 & \text{if } A \text{ 발생} \\ 0 & \text{otherwise}\end{cases} \]

“개수의 기대값” 문제를 선형성 + 지표 확률변수로 즉시 풀 수 있다:

표본 \(n\) 명 중 조건을 만족하는 사람 수의 기대값 = \(n \cdot P(\text{조건})\)
해시 테이블의 충돌 기대값 = \(\sum_{i<j} P(\text{key } i, j \text{ 충돌})\)

4.2 단조성 (Monotonicity)

\(X \geq 0\) a.s. 이면 \(E[X] \geq 0\).

\(X \leq Y\) a.s. 이면 \(E[X] \leq E[Y]\).

4.3 기대값의 곱

주의: 일반적으로 \(E[XY] \neq E[X] \cdot E[Y]\)

\(X\) 와 \(Y\) 가 독립일 때만 성립한다:

\[ X \perp Y \implies E[XY] = E[X] \cdot E[Y] \]

독립이 아니면 \(E[XY] = E[X]E[Y] + \text{Cov}(X,Y)\) 이다.

5 분산 (Variance)

5.1 정의

정의: 분산

\[ \text{Var}(X) = E\!\left[(X - E[X])^2\right] = E[X^2] - (E[X])^2 \]

표준편차: \(\text{SD}(X) = \sigma = \sqrt{\text{Var}(X)}\)

기대값이 분포의 위치(location) 를 요약한다면, 분산은 분포의 산포(spread) 를 요약한다.

두 번째 등식은 계산에서 핵심적으로 사용된다:

\[ \text{Var}(X) = E[X^2] - (E[X])^2 \quad\text{← LOTUS로 } E[X^2] \text{를 구한 뒤 사용} \]

5.2 분산의 성질

정리: 분산의 성질

\(\text{Var}(X) \geq 0\), 등호는 \(P(X = c) = 1\) 일 때만
\(\text{Var}(aX + b) = a^2 \text{Var}(X)\) — 상수 이동은 분산에 영향 없음
\(X \perp Y \implies \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)
일반: \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y)\)

성질 2의 증명:

\[ \text{Var}(aX+b) = E[(aX+b)^2] - (E[aX+b])^2 = E[a^2X^2 + 2abX + b^2] - (aE[X]+b)^2 \]

전개하면 \(b\) 가 상쇄되어 \(a^2(E[X^2] - (E[X])^2) = a^2\text{Var}(X)\). \(\quad\blacksquare\)

실무 연결: 분산의 핵심 응용

응용	수식	의미
표본 평균의 정밀도	\(\text{Var}(\bar{X}) = \sigma^2/n\)	표본 4배 → 표준 오차 반감
편향-분산 트레이드오프	\(\text{MSE} = \text{Bias}^2 + \text{Var}\)	모델 복잡도 조절의 수학적 근거
포트폴리오 리스크	\(\text{Var}(R_p) = \mathbf{w}^\top \Sigma \mathbf{w}\)	공분산 행렬로 전체 위험 계산
표본 크기 결정	\(n = z_{\alpha/2}^2 \sigma^2 / \epsilon^2\)	원하는 정밀도에 필요한 관측 수
체비셰프 부등식	\(P(\lvert X-\mu \rvert \geq k\sigma) \leq 1/k^2\)	분포 모를 때 확률 상한

6 공분산과 상관계수

6.1 공분산

정의: 공분산

\[ \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] \]

공분산의 부호는 두 확률변수의 동반 움직임 방향을 나타낸다:

\(\text{Cov}(X,Y) > 0\): \(X\) 가 크면 \(Y\) 도 큰 경향
\(\text{Cov}(X,Y) < 0\): \(X\) 가 크면 \(Y\) 는 작은 경향
\(\text{Cov}(X,Y) = 0\): 비상관(uncorrelated)

6.2 공분산의 성질

\(\text{Cov}(X, X) = \text{Var}(X)\)
\(\text{Cov}(X, Y) = \text{Cov}(Y, X)\) (대칭)
\(\text{Cov}(aX + b, \, cY + d) = ac \, \text{Cov}(X, Y)\) (이선형성)
\(\text{Var}\!\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \text{Var}(X_i) + 2\sum_{i<j} \text{Cov}(X_i, X_j)\)

6.3 상관계수

정의: 피어슨 상관계수

\[ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)} \cdot \sqrt{\text{Var}(Y)}}, \quad -1 \leq \rho \leq 1 \]

\(|\rho| = 1 \iff Y = aX + b\) (완전 선형 관계). \(\rho = 0\) 은 선형 관계 없음이지 독립이 아니다.

비상관 \(\neq\) 독립

\(X \sim N(0,1)\), \(Y = X^2\) 이면:

\[ \text{Cov}(X, X^2) = E[X^3] - E[X]E[X^2] = 0 - 0 = 0 \]

\(X\) 와 \(X^2\) 는 비상관이지만, \(Y\) 는 \(X\) 의 결정적 함수이므로 완전히 종속이다. 상관계수만 보면 이 관계를 놓친다.

실무 연결

PCA: 공분산 행렬의 고유값 분해가 주성분의 방향과 크기를 결정한다
다변량 정규 분포: 비상관 = 독립이 성립하는 유일한 경우 — 정규 가정의 강력함이 여기서 나온다
EDA: 상관 행렬 히트맵은 변수 간 선형 관계의 조감도이다. 비선형 관계는 Spearman 순위 상관, MIC 등으로 보완한다

7 적률 (Moments)

7.1 정의

정의: 적률

\(r\) 차 원점 적률: \(\mu_r' = E[X^r]\)
\(r\) 차 중심 적률: \(\mu_r = E[(X - \mu)^r]\), \(\mu = E[X]\)

적률	표기	의미	실무 용도
\(\mu_1' = E[X]\)	평균	중심 위치	점추정, 기대 수익
\(\mu_2 = \text{Var}(X)\)	분산	산포	리스크 측정, 표본 크기 설정
\(\gamma_1 = \mu_3/\sigma^3\)	왜도(skewness)	비대칭 정도	소득 분포(양의 왜도), 수익률 분석
\(\gamma_2 = \mu_4/\sigma^4 - 3\)	초과 첨도(excess kurtosis)	꼬리 두께	극단값 빈도, 금융 위험 평가

왜도와 첨도의 실무적 의미

왜도 \(\gamma_1 > 0\): 오른쪽 꼬리가 긴 분포 — 소득, 보험 손해액, 웹 페이지 체류 시간
왜도 \(\gamma_1 < 0\): 왼쪽 꼬리가 긴 분포 — 제품 수명(대부분 오래 가지만 일부 조기 고장)
초과 첨도 \(\gamma_2 > 0\): 정규보다 꼬리가 두꺼움 — 금융 수익률, 지진 크기
초과 첨도 \(\gamma_2 < 0\): 정규보다 꼬리가 얇음 — 균등분포

정규분포는 \(\gamma_1 = 0\), \(\gamma_2 = 0\) 이므로 비대칭과 꼬리 두께의 기준점이 된다.

8 적률생성함수 (MGF)

8.1 정의

정의: 적률생성함수 (Moment Generating Function)

\[ M_X(t) = E[e^{tX}], \quad t \in (-h, h) \text{ for some } h > 0 \]

“적률을 생성한다”는 이름의 이유:

\[ M_X(t) = E[e^{tX}] = E\!\left[\sum_{r=0}^{\infty} \frac{(tX)^r}{r!}\right] = \sum_{r=0}^{\infty} \frac{t^r}{r!} E[X^r] \]

따라서 \(M_X^{(r)}(0) = E[X^r]\) — \(r\) 번 미분하고 \(t=0\) 을 대입하면 \(r\) 차 적률을 얻는다.

8.2 MGF의 세 가지 핵심 역할

역할 1: 적률 계산의 자동화

예시: \(X \sim \text{Poisson}(\lambda)\)

\[ M_X(t) = E[e^{tX}] = \sum_{k=0}^{\infty} e^{tk} \frac{e^{-\lambda}\lambda^k}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda e^t)^k}{k!} = e^{-\lambda} \cdot e^{\lambda e^t} = e^{\lambda(e^t - 1)} \]

\[ M_X'(t) = \lambda e^t \cdot e^{\lambda(e^t-1)} \implies E[X] = M_X'(0) = \lambda \]

\[ M_X''(t) = (\lambda e^t + \lambda^2 e^{2t}) e^{\lambda(e^t-1)} \implies E[X^2] = M_X''(0) = \lambda + \lambda^2 \]

\[ \text{Var}(X) = E[X^2] - (E[X])^2 = \lambda + \lambda^2 - \lambda^2 = \lambda \]

역할 2: 독립 확률변수 합의 분포

정리: 독립 확률변수 합의 MGF

\(X \perp Y\) 이면:

\[ M_{X+Y}(t) = M_X(t) \cdot M_Y(t) \]

증명: \(M_{X+Y}(t) = E[e^{t(X+Y)}] = E[e^{tX} \cdot e^{tY}] = E[e^{tX}] \cdot E[e^{tY}]\) (독립). \(\quad\blacksquare\)

핵심 응용:

전제	결과	MGF 증명
\(X_i \overset{iid}{\sim} N(\mu, \sigma^2)\)	\(\bar{X} \sim N(\mu, \sigma^2/n)\)	MGF 곱 후 선형변환
\(X_i \overset{iid}{\sim} \text{Exp}(\lambda)\)	\(\sum_{i=1}^n X_i \sim \text{Gamma}(n, 1/\lambda)\)	\((\lambda/(\lambda-t))^n\)
\(X_i \sim \text{Poisson}(\lambda_i)\) 독립	\(\sum X_i \sim \text{Poisson}(\sum \lambda_i)\)	MGF의 지수 합산
\(X_i \sim \text{Binomial}(n_i, p)\) 독립	\(\sum X_i \sim \text{Binomial}(\sum n_i, p)\)	MGF 곱

역할 3: 분포의 유일한 결정

정리: MGF의 유일성

\(M_X(t) = M_Y(t)\) 가 \(0\) 을 포함하는 열린 구간에서 성립하면 \(X\) 와 \(Y\) 는 같은 분포를 가진다.

이 성질 덕분에 MGF를 계산하고 알려진 분포의 MGF와 대조하는 것만으로 분포를 식별할 수 있다.

실무 연결: MGF가 사용되는 곳

중심극한정리(CLT): \(\bar{X}_n\) 의 MGF가 정규분포의 MGF로 수렴함을 보인다
충분통계량: 지수족에서 충분통계량의 분포를 MGF로 유도한다
체르노프 바운드: \(P(X \geq a) \leq \inf_{t>0} e^{-ta} M_X(t)\) — 꼬리 확률의 상한을 MGF로 구한다. ML 이론의 일반화 오차 바운드에 사용된다

8.3 주요 분포의 MGF 요약

분포	\(M_X(t)\)	\(E[X]\)	\(\text{Var}(X)\)
\(\text{Bernoulli}(p)\)	\((1-p) + pe^t\)	\(p\)	\(p(1-p)\)
\(\text{Binomial}(n,p)\)	\(((1-p)+pe^t)^n\)	\(np\)	\(np(1-p)\)
\(\text{Poisson}(\lambda)\)	\(e^{\lambda(e^t - 1)}\)	\(\lambda\)	\(\lambda\)
\(\text{Geometric}(p)\)	\(\frac{pe^t}{1-(1-p)e^t}\)	\(1/p\)	\((1-p)/p^2\)
\(N(\mu, \sigma^2)\)	\(e^{\mu t + \sigma^2 t^2/2}\)	\(\mu\)	\(\sigma^2\)
\(\text{Exp}(\lambda)\)	\(\frac{\lambda}{\lambda - t}\)	\(1/\lambda\)	\(1/\lambda^2\)
\(\text{Gamma}(\alpha, \beta)\)	\((1 - \beta t)^{-\alpha}\)	\(\alpha\beta\)	\(\alpha\beta^2\)
\(\text{Uniform}(a,b)\)	\(\frac{e^{tb} - e^{ta}}{t(b-a)}\)	\(\frac{a+b}{2}\)	\(\frac{(b-a)^2}{12}\)

9 부등식: 기대값과 분산의 응용

9.1 체비셰프 부등식

정리: 체비셰프 부등식

\(E[X] = \mu\), \(\text{Var}(X) = \sigma^2 < \infty\) 이면, 임의의 \(k > 0\) 에 대해:

\[ P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2} \]

증명 (마르코프 부등식에서):

\(Y = (X - \mu)^2 \geq 0\) 에 마르코프 부등식을 적용:

\[ P((X-\mu)^2 \geq k^2\sigma^2) \leq \frac{E[(X-\mu)^2]}{k^2\sigma^2} = \frac{\sigma^2}{k^2\sigma^2} = \frac{1}{k^2} \quad\blacksquare \]

실무 연결

\(k=2\): 평균에서 \(2\sigma\) 이상 벗어날 확률 \(\leq 25\%\) (분포 무관)
\(k=3\): 평균에서 \(3\sigma\) 이상 벗어날 확률 \(\leq 11.1\%\)
이상 탐지: 분포를 모를 때 체비셰프 부등식으로 보수적 임계값을 설정한다
큰 수의 법칙 증명: 체비셰프 부등식 \(P(|\bar{X}_n - \mu| \geq \epsilon) \leq \sigma^2/(n\epsilon^2) \to 0\) 으로 약한 큰 수의 법칙을 증명한다

9.2 옌센 부등식

정리: 옌센 부등식 (Jensen’s Inequality)

\(g\) 가 볼록(convex) 함수이면:

\[ E[g(X)] \geq g(E[X]) \]

\(g\) 가 오목(concave) 이면 부등호가 뒤집힌다.

실무 연결

\(g(x) = x^2\) (볼록): \(E[X^2] \geq (E[X])^2\) → \(\text{Var}(X) \geq 0\)
\(g(x) = \log x\) (오목): \(E[\log X] \leq \log E[X]\) → 기하평균 \(\leq\) 산술평균
\(g(x) = -\log x\) (볼록): KL 발산의 비음성 \(D_{KL}(P \| Q) \geq 0\) 의 증명에 사용
EM 알고리즘: E-step에서 옌센 부등식으로 로그우도의 하한(ELBO)을 구성한다

10 코드 예시

10.1 Step 1: 순수 Python 구현 (원리 이해)

import math

def expected_value(values, probs):
    """E[X] = Σ x * p(x)"""
    return sum(x * p for x, p in zip(values, probs))

def expected_g(values, probs, g):
    """LOTUS: E[g(X)] = Σ g(x) * p(x)"""
    return sum(g(x) * p for x, p in zip(values, probs))

def variance(values, probs):
    """Var(X) = E[X²] - (E[X])²"""
    ex = expected_value(values, probs)
    ex2 = expected_g(values, probs, lambda x: x**2)
    return ex2 - ex**2

def covariance_sim(x_samples, y_samples):
    """Cov(X,Y) = E[XY] - E[X]E[Y] (표본 기반)"""
    n = len(x_samples)
    mean_x = sum(x_samples) / n
    mean_y = sum(y_samples) / n
    mean_xy = sum(x * y for x, y in zip(x_samples, y_samples)) / n
    return mean_xy - mean_x * mean_y

def mgf_discrete(values, probs, t):
    """M(t) = E[e^{tX}] = Σ e^{tx} * p(x)"""
    return sum(math.exp(t * x) * p for x, p in zip(values, probs))

# --- 주사위 ---
vals = list(range(1, 7))
probs = [1/6] * 6

print("=== 공정 주사위 ===")
print(f"E[X] = {expected_value(vals, probs):.4f}")
print(f"E[X²] = {expected_g(vals, probs, lambda x: x**2):.4f}")
print(f"Var(X) = {variance(vals, probs):.4f}")
print(f"SD(X) = {math.sqrt(variance(vals, probs)):.4f}")

# --- MGF로 적률 추출 (수치 미분) ---
h = 1e-5
m0 = mgf_discrete(vals, probs, 0)
mp = mgf_discrete(vals, probs, h)
mn = mgf_discrete(vals, probs, -h)

first = (mp - mn) / (2 * h)
second = (mp - 2*m0 + mn) / h**2

print(f"\nMGF → E[X] = {first:.4f}")
print(f"MGF → E[X²] = {second:.4f}")
print(f"MGF → Var(X) = {second - first**2:.4f}")

# --- 비상관 ≠ 독립 검증 ---
import random
random.seed(42)
n = 100_000
x_samples = [random.gauss(0, 1) for _ in range(n)]
y_samples = [x**2 for x in x_samples]

cov_xy = covariance_sim(x_samples, y_samples)
print(f"\nX ~ N(0,1), Y = X²:")
print(f"Cov(X, X²) ≈ {cov_xy:.4f} (이론값: 0)")
print(f"하지만 Y는 X의 결정적 함수 → 완전 종속")

10.2 Step 2: scipy/numpy 구현 (실무 활용)

import numpy as np
from scipy import stats

np.random.seed(42)
n = 100_000

# --- 기대값, 분산, 왜도, 첨도 ---
X = stats.norm(loc=5, scale=2)
print(f"N(5, 4): E={X.mean():.1f}, Var={X.var():.1f}, "
      f"Skew={X.stats('s')[0]:.1f}, Kurt={X.stats('k')[0]:.1f}")

X_exp = stats.expon(scale=2)  # Exp(0.5)
print(f"Exp(0.5): E={X_exp.mean():.1f}, Var={X_exp.var():.1f}, "
      f"Skew={X_exp.stats('s')[0]:.1f}, Kurt={X_exp.stats('k')[0]:.1f}")

# --- 체비셰프 부등식 검증 ---
samples = stats.norm.rvs(loc=0, scale=1, size=n)
for k in [1, 2, 3]:
    empirical = np.mean(np.abs(samples) >= k)
    chebyshev = 1 / k**2
    print(f"P(|X| >= {k}σ): 실제={empirical:.4f}, 체비셰프 상한={chebyshev:.4f}")

# --- MGF로 독립 확률변수 합의 분포 확인 ---
X1 = stats.poisson.rvs(mu=3, size=n)
X2 = stats.poisson.rvs(mu=7, size=n)
S = X1 + X2

print(f"\nPoisson(3) + Poisson(7) = Poisson(10):")
print(f"  평균: {S.mean():.2f} (이론: 10)")
print(f"  분산: {S.var():.2f} (이론: 10)")

# --- 옌센 부등식 검증 ---
X_unif = stats.uniform.rvs(loc=1, scale=4, size=n)  # Uniform(1, 5)
print(f"\n옌센 부등식 (g=log, X~Uniform(1,5)):")
print(f"  E[log(X)] = {np.log(X_unif).mean():.4f}")
print(f"  log(E[X]) = {np.log(X_unif.mean()):.4f}")
print(f"  E[log(X)] <= log(E[X]): {np.log(X_unif).mean() <= np.log(X_unif.mean())}")

11 관련 주제

선행 지식

변환과 기대값 개요 — Ch.2 전체 조감
확률변수 — PMF, PDF, CDF
밀도 함수와 질량 함수 — PDF/PMF 존재 조건
확률변수 함수의 분포 — \(Y = g(X)\) 의 분포 유도

후속 주제

연속확률변수와 확률밀도함수 — 기댓값과 분산의 심화
Moment Generating Function — MGF의 추가 응용
피어슨 상관계수 — 상관계수의 정의와 한계
수렴 이론 — 큰 수의 법칙, 중심극한정리
MLE — 기대값 기반 추정량 평가 (비편향, 효율, MSE)
BLUE — 최소 분산 비편향 추정량

관련 개념

지수족 — 지수족의 기대값·분산은 로그 정규화 상수의 미분으로 구해진다
GLM — \(E[Y \mid X] = g^{-1}(X\beta)\) 에서 기대값이 모형의 핵심
데이터 축소의 원리 — 충분통계량과 기대값의 관계

참고 교재

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.), Ch.2.2-2.3. Cengage.