1 동기: CDF만으로는 부족한가?
CDF는 분포를 완전히 특성화하지만, 계산에는 불편하다.
\[ P(a < X \leq b) = F(b) - F(a) \quad\text{← CDF 사용} \]
연속형이면 이것을 적분으로 쓰고 싶다:
\[ P(a < X \leq b) = \int_a^b f(x)\,dx \quad\text{← PDF 사용} \]
PDF는 “CDF를 미분한 것”이지만, 미분이 항상 존재하는가? PMF와 PDF는 어떻게 통합적으로 이해할 수 있는가? 이 질문들이 이 포스트의 출발점이다.
2 측도론적 배경 (직관 위주)
확률 측도 \(P_X\) 가 르베그 측도 \(\lambda\) 에 대해 절대연속이면 (\(P_X \ll \lambda\)):
\[ \lambda(A) = 0 \Rightarrow P_X(A) = 0 \quad\text{for all Borel set } A \]
즉, 르베그 측도 0인 집합(점, 유한 집합)에 확률이 집중되지 않는다.
\(P_X \ll \lambda\) 이면, 적분 표현을 가능하게 하는 함수 \(f_X\) 가 존재한다:
\[ P_X(A) = \int_A f_X(x)\,d\lambda(x) = \int_A f_X(x)\,dx \]
이때 \(f_X\) 를 라돈-니코딤 도함수(Radon-Nikodym derivative) 또는 PDF 라 한다.
“밀도”는 확률이 공간에 어떻게 퍼져 있는지를 나타낸다. \(f_X(x)\) 가 크다 = 그 근방에 확률이 빽빽하게 집중되어 있다. \(f_X(x)\) 가 0에 가깝다 = 그 근방에 확률이 희박하다.
PDF가 존재하지 않는 경우 = 확률이 특정 점에 집중 (이산형, 혼합형).
“절대연속이 아니면 PDF가 없다”는 말은 추상적이지만, 실무에서 자주 만난다:
- 보험금 청구: 대부분의 고객은 청구하지 않는다 (\(X=0\) 에 확률 집중). 청구한 경우 금액은 연속 분포. → 혼합형이므로 PDF가 존재하지 않는다
- 제조 결함: 결함 없음(0) vs 결함 크기(연속) → 0에 점 질량(point mass)이 있어 순수 PDF로 표현 불가
- 소비자 지출: 구매 안 함(0) vs 구매 금액(연속) → 역시 혼합형
이런 데이터를 PDF만으로 모델링하면 0에 집중된 확률 질량을 놓친다. 해결책은 두 가지다:
- 혼합 분포(mixture): 이산 부분 + 연속 부분을 분리해 모델링
- CDF 기반 접근: CDF는 항상 존재하므로, CDF로 직접 작업
이것이 심화편(48-distribution-families)에서 혼합 분포를 별도로 다루는 이유다.
3 확률밀도함수 (PDF)
3.1 엄밀한 정의
연속형 확률변수 \(X\) 의 PDF \(f_X: \mathbb{R} \to \mathbb{R}\) 은 다음을 만족한다:
\[ P(X \in A) = \int_A f_X(x)\,dx \quad\text{for all Borel set } A \subseteq \mathbb{R} \]
동치 조건 (CDF와의 관계):
\[ F_X(x) = \int_{-\infty}^x f_X(t)\,dt \quad \Longleftrightarrow \quad f_X(x) = F_X'(x) \;\text{(a.e.)} \]
3.2 PDF의 필요충분조건
\(f: \mathbb{R} \to \mathbb{R}\) 이 어떤 연속형 확률변수의 PDF가 되기 위한 필요충분조건:
- \(f(x) \geq 0\) for all \(x\) (거의 모든 점에서)
- \(\displaystyle\int_{-\infty}^{\infty} f(x)\,dx = 1\)
증명 (필요성):
조건 1: \(P(A) \geq 0\) 이어야 하므로, \(f(x) < 0\) 인 집합이 르베그 측도 양수를 가지면 \(P < 0\) 이 되어 모순.
조건 2: \(P(\mathbb{R}) = \int_{-\infty}^\infty f(x)dx = 1\) (공리 2). \(\quad\blacksquare\)
충분성: 조건 1, 2를 만족하는 임의의 \(f\) 에 대해 \(F(x) = \int_{-\infty}^x f(t)dt\) 를 CDF로 정의하면, 이는 CDF의 3조건을 만족한다.
3.3 PDF는 점 확률이 아니다
\[ P(X = x) = \int_x^x f(t)\,dt = 0 \]
\(f(x) > 1\) 이 가능하다. \(f\) 는 확률이 아니라 밀도다.
무한소 구간에서만 의미가 있다: \[ P(x \leq X \leq x + dx) \approx f(x)\,dx \]
예시: \(\text{Beta}(0.5, 0.5)\) 의 PDF는 \(x=0\) 또는 \(x=1\) 근방에서 \(\infty\) 로 발산한다.
\[ f(x) = \frac{1}{\pi\sqrt{x(1-x)}}, \quad 0 < x < 1 \]
\(f(0.01) \approx \frac{1}{\pi\sqrt{0.01 \times 0.99}} \approx 3.18 > 1\) ← 합법적인 PDF
3.4 PDF의 비유일성
PDF는 르베그 측도 0인 집합에서의 값을 바꿔도 같은 분포를 나타낸다. (거의 모든 점에서 동일하면 동일한 PDF)
\[ f(x) = \frac{1}{2\sqrt{x}} \cdot \mathbf{1}_{(0,1)}(x) \quad\text{와}\quad g(x) = f(x) \cdot \mathbf{1}_{x \neq 0.5} \]
두 함수는 서로 다르지만 같은 분포를 정의한다.
4 확률질량함수 (PMF)
4.1 정의
이산형 확률변수 \(X\) (치역 \(\mathcal{X} = \{x_1, x_2, \ldots\}\))의 PMF:
\[ p_X(x) = P(X = x) = P(\{\omega \in \Omega : X(\omega) = x\}) \]
이산 측도 기반으로 쓰면:
\[ P(X \in A) = \sum_{x \in A \cap \mathcal{X}} p_X(x) \]
4.2 PMF의 필요충분조건
\(p: \mathcal{X} \to \mathbb{R}\) 이 어떤 이산형 확률변수의 PMF가 되기 위한 필요충분조건:
- \(p(x) \geq 0\) for all \(x \in \mathcal{X}\)
- \(\displaystyle\sum_{x \in \mathcal{X}} p(x) = 1\)
4.3 PMF와 CDF의 관계
\[ F_X(x) = \sum_{k \leq x,\, k \in \mathcal{X}} p_X(k) \]
\[ p_X(x) = F_X(x) - F_X(x^-) = P(X \leq x) - P(X < x) \]
5 PDF·PMF의 통합: 르베그-스틸체스 적분
PMF와 PDF를 통합하는 표기법:
\[ E[g(X)] = \begin{cases} \displaystyle\sum_x g(x)\,p_X(x) & \text{이산형} \\[8pt] \displaystyle\int g(x)\,f_X(x)\,dx & \text{연속형} \end{cases} = \int g(x)\,dF_X(x) \]
\(dF_X(x)\) 는 르베그-스틸체스 측도(Lebesgue-Stieltjes measure) 로, 이산형과 연속형을 통합하는 표기다.
하나의 수식으로 이산·연속·혼합형 모두를 표현한다. 고급 통계학 교재(Casella & Berger 등)에서 이 표기를 자주 사용한다.
6 지지 집합 (Support)
확률변수 \(X\) 의 지지 집합(support) \(\mathcal{X}\):
\[ \mathcal{X} = \{x \in \mathbb{R} : f_X(x) > 0\} \quad\text{(연속형)} \] \[ \mathcal{X} = \{x \in \mathbb{R} : p_X(x) > 0\} \quad\text{(이산형)} \]
직관: \(X\) 가 실제로 값을 가질 수 있는 범위.
| 분포 | 지지 집합 \(\mathcal{X}\) |
|---|---|
| \(\text{Uniform}(a,b)\) | \((a,b)\) 또는 \([a,b]\) |
| \(\text{Normal}(\mu,\sigma^2)\) | \((-\infty, +\infty)\) |
| \(\text{Exp}(\lambda)\) | \((0, +\infty)\) |
| \(\text{Beta}(\alpha,\beta)\) | \((0,1)\) |
| \(\text{Poisson}(\lambda)\) | \(\{0,1,2,\ldots\}\) |
| \(\text{Binomial}(n,p)\) | \(\{0,1,\ldots,n\}\) |
| \(\text{Geometric}(p)\) | \(\{1,2,3,\ldots\}\) |
7 커널 표현 (Kernel Representation)
정규화 상수를 제거한 PDF의 비례식:
\[ f_X(x) \propto k(x) \quad\Leftrightarrow\quad f_X(x) = \frac{k(x)}{\int k(x)\,dx} \]
\(k(x)\) 를 분포의 커널(kernel) 이라 한다.
베이지안 추론에서 사후 분포를 구할 때 정규화 상수 계산이 어렵거나 불필요하다.
\[ p(\theta \mid \mathbf{x}) = \frac{p(\mathbf{x} \mid \theta)\,p(\theta)}{p(\mathbf{x})} \propto \underbrace{p(\mathbf{x} \mid \theta)\,p(\theta)}_{\text{커널만 계산}} \]
커널만으로 분포의 형태를 파악하고, MCMC 등으로 표본을 생성한다.
예시
| 분포 | PDF \(f(x)\) | 커널 \(k(x)\) |
|---|---|---|
| \(N(\mu,\sigma^2)\) | \(\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) | \(e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) |
| \(\text{Beta}(\alpha,\beta)\) | \(\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}\) | \(x^{\alpha-1}(1-x)^{\beta-1}\) |
| \(\text{Gamma}(\alpha,\beta)\) | \(\frac{x^{\alpha-1}e^{-x/\beta}}{\beta^\alpha\Gamma(\alpha)}\) | \(x^{\alpha-1}e^{-x/\beta}\) |
| \(\text{Poisson}(\lambda)\) | \(\frac{e^{-\lambda}\lambda^x}{x!}\) | \(\frac{\lambda^x}{x!}\) |
8 관련 주제
선행 지식
심화 주제
- 주요 분포의 밀도 함수 — 이산·연속 분포 PDF·PMF, 검증 증명, 혼합 분포, 코드 예시
후속 주제
- 연속확률변수와 확률밀도함수 — 기댓값·분산·MGF
- Exponential Family — PDF의 통합 체계
- Transformation of Random Variables — 변수변환 후 PDF 계산
관련 개념
- MLE — 우도 함수 = PDF의 곱 (독립 표본)
- Bayes’ Rule — 커널 표현으로 사후 분포 도출
- Convergence in Probability — 밀도 함수의 수렴