1 동기: CDF만으로는 부족한가?

CDF는 분포를 완전히 특성화하지만, 계산에는 불편하다.

\[ P(a < X \leq b) = F(b) - F(a) \quad\text{← CDF 사용} \]

연속형이면 이것을 적분으로 쓰고 싶다:

\[ P(a < X \leq b) = \int_a^b f(x)\,dx \quad\text{← PDF 사용} \]

PDF는 “CDF를 미분한 것”이지만, 미분이 항상 존재하는가? PMF와 PDF는 어떻게 통합적으로 이해할 수 있는가? 이 질문들이 이 포스트의 출발점이다.

2 측도론적 배경 (직관 위주)

개념: 절대연속성 (Absolute Continuity)

확률 측도 \(P_X\) 가 르베그 측도 \(\lambda\) 에 대해 절대연속이면 (\(P_X \ll \lambda\)):

\[ \lambda(A) = 0 \Rightarrow P_X(A) = 0 \quad\text{for all Borel set } A \]

즉, 르베그 측도 0인 집합(점, 유한 집합)에 확률이 집중되지 않는다.

정리: 라돈-니코딤 정리 (Radon-Nikodym, 직관)

\(P_X \ll \lambda\) 이면, 적분 표현을 가능하게 하는 함수 \(f_X\) 가 존재한다:

\[ P_X(A) = \int_A f_X(x)\,d\lambda(x) = \int_A f_X(x)\,dx \]

이때 \(f_X\) 를 라돈-니코딤 도함수(Radon-Nikodym derivative) 또는 PDF 라 한다.

직관

“밀도”는 확률이 공간에 어떻게 퍼져 있는지를 나타낸다. \(f_X(x)\) 가 크다 = 그 근방에 확률이 빽빽하게 집중되어 있다. \(f_X(x)\) 가 0에 가깝다 = 그 근방에 확률이 희박하다.

PDF가 존재하지 않는 경우 = 확률이 특정 점에 집중 (이산형, 혼합형).

왜 PDF가 존재하지 않을 수 있는가 — 실무적 의미

“절대연속이 아니면 PDF가 없다”는 말은 추상적이지만, 실무에서 자주 만난다:

보험금 청구: 대부분의 고객은 청구하지 않는다 (\(X=0\) 에 확률 집중). 청구한 경우 금액은 연속 분포. → 혼합형이므로 PDF가 존재하지 않는다
제조 결함: 결함 없음(0) vs 결함 크기(연속) → 0에 점 질량(point mass)이 있어 순수 PDF로 표현 불가
소비자 지출: 구매 안 함(0) vs 구매 금액(연속) → 역시 혼합형

이런 데이터를 PDF만으로 모델링하면 0에 집중된 확률 질량을 놓친다. 해결책은 두 가지다:

혼합 분포(mixture): 이산 부분 + 연속 부분을 분리해 모델링
CDF 기반 접근: CDF는 항상 존재하므로, CDF로 직접 작업

이것이 심화편(48-distribution-families)에서 혼합 분포를 별도로 다루는 이유다.

3 확률밀도함수 (PDF)

3.1 엄밀한 정의

정의: 확률밀도함수 (PDF)

연속형 확률변수 \(X\) 의 PDF \(f_X: \mathbb{R} \to \mathbb{R}\) 은 다음을 만족한다:

\[ P(X \in A) = \int_A f_X(x)\,dx \quad\text{for all Borel set } A \subseteq \mathbb{R} \]

동치 조건 (CDF와의 관계):

\[ F_X(x) = \int_{-\infty}^x f_X(t)\,dt \quad \Longleftrightarrow \quad f_X(x) = F_X'(x) \;\text{(a.e.)} \]

3.2 PDF의 필요충분조건

정리: PDF 조건

\(f: \mathbb{R} \to \mathbb{R}\) 이 어떤 연속형 확률변수의 PDF가 되기 위한 필요충분조건:

\(f(x) \geq 0\) for all \(x\) (거의 모든 점에서)
\(\displaystyle\int_{-\infty}^{\infty} f(x)\,dx = 1\)

증명 (필요성):

조건 1: \(P(A) \geq 0\) 이어야 하므로, \(f(x) < 0\) 인 집합이 르베그 측도 양수를 가지면 \(P < 0\) 이 되어 모순.

조건 2: \(P(\mathbb{R}) = \int_{-\infty}^\infty f(x)dx = 1\) (공리 2). \(\quad\blacksquare\)

충분성: 조건 1, 2를 만족하는 임의의 \(f\) 에 대해 \(F(x) = \int_{-\infty}^x f(t)dt\) 를 CDF로 정의하면, 이는 CDF의 3조건을 만족한다.

3.3 PDF는 점 확률이 아니다

핵심 주의사항

\[ P(X = x) = \int_x^x f(t)\,dt = 0 \]

\(f(x) > 1\) 이 가능하다. \(f\) 는 확률이 아니라 밀도다.

무한소 구간에서만 의미가 있다: \[ P(x \leq X \leq x + dx) \approx f(x)\,dx \]

예시: \(\text{Beta}(0.5, 0.5)\) 의 PDF는 \(x=0\) 또는 \(x=1\) 근방에서 \(\infty\) 로 발산한다.

\[ f(x) = \frac{1}{\pi\sqrt{x(1-x)}}, \quad 0 < x < 1 \]

\(f(0.01) \approx \frac{1}{\pi\sqrt{0.01 \times 0.99}} \approx 3.18 > 1\) ← 합법적인 PDF

3.4 PDF의 비유일성

PDF는 르베그 측도 0인 집합에서의 값을 바꿔도 같은 분포를 나타낸다. (거의 모든 점에서 동일하면 동일한 PDF)

\[ f(x) = \frac{1}{2\sqrt{x}} \cdot \mathbf{1}_{(0,1)}(x) \quad\text{와}\quad g(x) = f(x) \cdot \mathbf{1}_{x \neq 0.5} \]

두 함수는 서로 다르지만 같은 분포를 정의한다.

4 확률질량함수 (PMF)

4.1 정의

정의: 확률질량함수 (PMF)

이산형 확률변수 \(X\) (치역 \(\mathcal{X} = \{x_1, x_2, \ldots\}\))의 PMF:

\[ p_X(x) = P(X = x) = P(\{\omega \in \Omega : X(\omega) = x\}) \]

이산 측도 기반으로 쓰면:

\[ P(X \in A) = \sum_{x \in A \cap \mathcal{X}} p_X(x) \]

4.2 PMF의 필요충분조건

정리: PMF 조건

\(p: \mathcal{X} \to \mathbb{R}\) 이 어떤 이산형 확률변수의 PMF가 되기 위한 필요충분조건:

\(p(x) \geq 0\) for all \(x \in \mathcal{X}\)
\(\displaystyle\sum_{x \in \mathcal{X}} p(x) = 1\)

4.3 PMF와 CDF의 관계

\[ F_X(x) = \sum_{k \leq x,\, k \in \mathcal{X}} p_X(k) \]

\[ p_X(x) = F_X(x) - F_X(x^-) = P(X \leq x) - P(X < x) \]

5 PDF·PMF의 통합: 르베그-스틸체스 적분

PMF와 PDF를 통합하는 표기법:

\[ E[g(X)] = \begin{cases} \displaystyle\sum_x g(x)\,p_X(x) & \text{이산형} \\[8pt] \displaystyle\int g(x)\,f_X(x)\,dx & \text{연속형} \end{cases} = \int g(x)\,dF_X(x) \]

\(dF_X(x)\) 는 르베그-스틸체스 측도(Lebesgue-Stieltjes measure) 로, 이산형과 연속형을 통합하는 표기다.

통합 표기의 장점

하나의 수식으로 이산·연속·혼합형 모두를 표현한다. 고급 통계학 교재(Casella & Berger 등)에서 이 표기를 자주 사용한다.

6 지지 집합 (Support)

정의: 지지 집합

확률변수 \(X\) 의 지지 집합(support) \(\mathcal{X}\):

\[ \mathcal{X} = \{x \in \mathbb{R} : f_X(x) > 0\} \quad\text{(연속형)} \] \[ \mathcal{X} = \{x \in \mathbb{R} : p_X(x) > 0\} \quad\text{(이산형)} \]

직관: \(X\) 가 실제로 값을 가질 수 있는 범위.

분포	지지 집합 \(\mathcal{X}\)
\(\text{Uniform}(a,b)\)	\((a,b)\) 또는 \([a,b]\)
\(\text{Normal}(\mu,\sigma^2)\)	\((-\infty, +\infty)\)
\(\text{Exp}(\lambda)\)	\((0, +\infty)\)
\(\text{Beta}(\alpha,\beta)\)	\((0,1)\)
\(\text{Poisson}(\lambda)\)	\(\{0,1,2,\ldots\}\)
\(\text{Binomial}(n,p)\)	\(\{0,1,\ldots,n\}\)
\(\text{Geometric}(p)\)	\(\{1,2,3,\ldots\}\)

7 커널 표현 (Kernel Representation)

정의: 커널

정규화 상수를 제거한 PDF의 비례식:

\[ f_X(x) \propto k(x) \quad\Leftrightarrow\quad f_X(x) = \frac{k(x)}{\int k(x)\,dx} \]

\(k(x)\) 를 분포의 커널(kernel) 이라 한다.

왜 커널인가?

베이지안 추론에서 사후 분포를 구할 때 정규화 상수 계산이 어렵거나 불필요하다.

\[ p(\theta \mid \mathbf{x}) = \frac{p(\mathbf{x} \mid \theta)\,p(\theta)}{p(\mathbf{x})} \propto \underbrace{p(\mathbf{x} \mid \theta)\,p(\theta)}_{\text{커널만 계산}} \]

커널만으로 분포의 형태를 파악하고, MCMC 등으로 표본을 생성한다.

예시

분포	PDF \(f(x)\)	커널 \(k(x)\)
\(N(\mu,\sigma^2)\)	\(\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)	\(e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
\(\text{Beta}(\alpha,\beta)\)	\(\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}\)	\(x^{\alpha-1}(1-x)^{\beta-1}\)
\(\text{Gamma}(\alpha,\beta)\)	\(\frac{x^{\alpha-1}e^{-x/\beta}}{\beta^\alpha\Gamma(\alpha)}\)	\(x^{\alpha-1}e^{-x/\beta}\)
\(\text{Poisson}(\lambda)\)	\(\frac{e^{-\lambda}\lambda^x}{x!}\)	\(\frac{\lambda^x}{x!}\)

8 관련 주제

선행 지식

확률변수 — PMF·PDF 기본 소개
분포 함수 — CDF와 PDF의 관계, 분위수 함수

심화 주제

주요 분포의 밀도 함수 — 이산·연속 분포 PDF·PMF, 검증 증명, 혼합 분포, 코드 예시

후속 주제

연속확률변수와 확률밀도함수 — 기댓값·분산·MGF
Exponential Family — PDF의 통합 체계
Transformation of Random Variables — 변수변환 후 PDF 계산

관련 개념

MLE — 우도 함수 = PDF의 곱 (독립 표본)
Bayes’ Rule — 커널 표현으로 사후 분포 도출
Convergence in Probability — 밀도 함수의 수렴