1 왜 확률론인가
통계적 추론의 모든 도구 — 추정량의 분포, 검정의 유의수준, 신뢰구간의 포함 확률 — 는 확률론 위에 구축된다.
- p-value: “\(H_0\) 하에서 이 데이터 이상으로 극단적인 결과가 나올 확률” — 확률의 정의가 없으면 이 문장 자체가 성립하지 않는다
- 신뢰구간: “반복 표본 추출 시 95%의 구간이 모수를 포함” — 확률 측도의 성질이 보장한다
- MLE: \(L(\theta) = \prod_i f(x_i \mid \theta)\) — 밀도 함수(PDF)의 존재와 성질을 전제한다
- 베이즈 추론: \(p(\theta \mid \mathbf{x}) \propto p(\mathbf{x} \mid \theta)\,p(\theta)\) — 조건부 확률과 베이즈 정리가 핵심이다
확률론은 “데이터에 내재된 불확실성을 수학적으로 다루는 언어”이며, 이 언어 없이는 통계학도, 머신러닝도 엄밀하게 정의될 수 없다.
2 확률론의 구조: 네 개의 층
확률론은 아래에서 위로 쌓아 올리는 구조를 가진다. 각 층은 이전 층 없이는 정의할 수 없다.
Layer 4: 분포 함수와 밀도 함수 ← PDF, PMF, CDF, 주요 분포
Layer 3: 확률변수 ← 표본공간 → 실수 매핑
Layer 2: 확률의 계산 ← 조건부 확률, 독립성, 베이즈 정리
Layer 1: 확률의 정의 ← 표본공간, 사건, σ-대수, 콜모고로프 공리
| 층 | 핵심 질문 | 데이터 사이언스 연결 |
|---|---|---|
| Layer 1 | “확률이란 무엇인가?” | 모든 확률 모형의 논리적 기반 |
| Layer 2 | “새 정보가 확률을 어떻게 바꾸는가?” | 베이즈 갱신, A/B 테스트, 나이브 베이즈 |
| Layer 3 | “결과를 숫자로 어떻게 표현하는가?” | 손실 함수, 기댓값, 분포 가정 |
| Layer 4 | “분포를 어떻게 기술하고 구분하는가?” | 모델 선택 = 분포 선택 (GLM, 생존 분석) |
3 Layer 1: 확률의 정의 — 집합론과 공리
3.1 표본공간, 사건, 시그마 대수
확률 공간 \((\Omega, \mathcal{F}, P)\) 는 세 구성 요소로 이루어진다:
- \(\Omega\): 표본공간 — 가능한 모든 결과의 집합
- \(\mathcal{F}\): 사건 공간(σ-대수) — 확률을 부여할 수 있는 사건들의 모음
- \(P\): 확률 측도 — \(\mathcal{F}\) 의 각 사건에 \([0,1]\) 값을 배정하는 함수
표본공간을 잘못 설정하면 확률 자체가 틀린다. 예를 들어, 주사위 두 개를 구분하지 않으면(비순서 쌍) \((1,2)\) 와 \((2,1)\) 을 하나로 세어 확률이 왜곡된다.
σ-대수 \(\mathcal{F}\) 는 추상적이지만, 실무에서는 “데이터로 답할 수 있는 질문의 범위”에 해당한다.
- SQL에서
WHERE age > 30은 사건 \(\{X > 30\}\) 이 \(\mathcal{F}\) 에 속해야 의미가 있다 - ML 분류기의 결정 경계는 보렐 집합(Borel set) — σ-대수의 원소 — 으로 표현된다
3.2 콜모고로프 공리
확률 측도 \(P\) 는 세 가지 공리를 만족한다:
- 비음성: \(P(A) \geq 0\)
- 정규화: \(P(\Omega) = 1\)
- 가산 가법성: 서로소인 사건열에 대해 \(P\!\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)\)
이 세 공리로부터 여사건 법칙, 포함-배제 원리, 부울 부등식(Union Bound), 확률의 연속성 등 모든 확률 성질이 유도된다.
상세 포스트:
- 확률론의 언어: 집합론 — 표본공간, 사건, σ-대수
- 확률론의 공리적 기초 — 콜모고로프 공리, 포함-배제, 연속성 정리
4 Layer 2: 확률의 계산 — 조건부 확률과 독립성
4.1 조건부 확률과 베이즈 정리
\(P(B) > 0\) 일 때:
\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]
조건부 확률은 “새로운 정보가 불확실성을 어떻게 바꾸는가”를 수학적으로 표현한다. 이로부터 곱셈 법칙, 전확률 정리, 베이즈 정리가 도출된다.
\[ \underbrace{P(B_j \mid A)}_{\text{사후 확률}} = \frac{\overbrace{P(A \mid B_j)}^{\text{우도}} \times \overbrace{P(B_j)}^{\text{사전 확률}}}{\underbrace{\sum_i P(A \mid B_i)\,P(B_i)}_{\text{주변 우도}}} \]
- 의료 진단: 양성 검사 결과가 나왔을 때 실제 질병 확률 — 기저율(base rate)을 무시하면 과대추정한다
- 스팸 필터: 나이브 베이즈 분류기는 베이즈 정리 + 조건부 독립 가정의 직접적 응용이다
- A/B 테스트: 베이지안 A/B 테스트에서 사후 분포 갱신은 베이즈 정리의 반복 적용이다
4.2 독립성
\[ A \perp B \iff P(A \cap B) = P(A)\,P(B) \iff P(A \mid B) = P(A) \]
독립성은 현대 통계와 ML의 거의 모든 방법론을 지탱하는 가정이다:
| 방법론 | 독립성 가정 | 위반 시 결과 |
|---|---|---|
| MLE, t-검정, ANOVA | iid 표본 | 표준 오차 과소추정, p-value 왜곡 |
| 나이브 베이즈 | 조건부 독립 | 확률 추정 편향 (실무에서는 놀랍도록 잘 작동) |
| 인과 추론 | 조건부 독립 (ignorability) | 교란 변수에 의한 편향 |
| 시계열 잔차 진단 | 잔차 독립 | 자기상관 → 모델 불완전 |
4.3 조합론과 열거법
유한 표본공간에서 확률을 구하려면 경우의 수를 세야 한다. 순열, 조합, 이항 정리가 기본 도구이며, 별과 막대, 비둘기집 원리, 포함-배제 원리가 심화 도구다.
상세 포스트:
- 확률의 계산 규칙 — 조건부 확률, 독립성 개요
- 경우의 수와 조합론 — 순열, 조합, 이항 정리
- 조합론 심화 — 중복조합, 다항계수, 비둘기집 원리
- 결과 열거법 — 트리 다이어그램, 추출 방식
- 조건부 확률과 베이즈 정리 — 곱셈 법칙, 전확률 정리
- 독립성 심화 — 상호독립, 조건부독립
5 Layer 3: 확률변수 — 결과를 숫자로
확률 공간 \((\Omega, \mathcal{F}, P)\) 위의 가측 함수 \(X: \Omega \to \mathbb{R}\)
\[ \forall\, B \in \mathcal{B}(\mathbb{R}): \quad \{X \in B\} \in \mathcal{F} \]
확률변수는 “표본공간의 결과”를 “실수”로 변환하는 다리다. 이 변환이 있어야 기댓값, 분산, 분포 함수를 정의할 수 있다.
| 유형 | 치역 | 주요 함수 | 예시 |
|---|---|---|---|
| 이산형 | 가산 집합 | PMF \(p(x) = P(X=x)\) | 불량품 수, 클릭 수 |
| 연속형 | 구간 | PDF \(f(x)\), \(P(X=x)=0\) | 키, 대기 시간, 수익률 |
| 혼합형 | 가산 + 구간 | CDF만 존재 | 보험금 (미발생 0 + 발생 시 연속) |
확률변수의 유형에 따라 모델링 도구가 결정된다:
- 이산형 → 포아송 회귀, 로지스틱 회귀
- 연속형 → 선형 회귀, 감마 회귀
- 혼합형 → 영과잉 모형(Zero-inflated), Tweedie 분포
상세 포스트:
- 확률변수 — 가측함수, PMF, PDF, CDF, 혼합형
6 Layer 4: 분포 함수와 밀도 함수
6.1 CDF — 모든 확률변수에 대해 존재하는 유일한 함수
\[ F_X(x) = P(X \leq x), \quad x \in \mathbb{R} \]
CDF의 세 가지 특성: (1) \(\lim_{x\to-\infty} F(x) = 0\), \(\lim_{x\to+\infty} F(x) = 1\), (2) 단조 비감소, (3) 우연속.
CDF에서 파생되는 함수들:
| 함수 | 정의 | 실무 용도 |
|---|---|---|
| 분위수 \(Q(p) = F^{-1}(p)\) | CDF의 역함수 | 소득 상위 1% 기준선, VaR |
| 생존 함수 \(S(t) = 1 - F(t)\) | 시점 \(t\) 이후 생존 확률 | 임상시험, 고객 이탈 분석 |
| 위험 함수 \(h(t) = f(t)/S(t)\) | 순간 고장률 | 장비 유지보수, 보험 위험 평가 |
6.2 PDF와 PMF — 분포의 “모양”
\[ \text{PDF}: \quad F_X(x) = \int_{-\infty}^x f_X(t)\,dt \qquad \text{PMF}: \quad p_X(x) = P(X = x) \]
PDF는 확률이 아니라 밀도다. \(f(x) > 1\) 이 가능하며, \(P(X=x) = 0\) 이다. PDF가 존재하지 않는 경우(혼합형)에는 CDF 또는 르베그-스틸체스 측도로 작업한다.
6.3 주요 분포 카탈로그
| 분포 | 유형 | PDF/PMF 커널 | 대표 응용 |
|---|---|---|---|
| \(\text{Bernoulli}(p)\) | 이산 | \(p^x(1-p)^{1-x}\) | 이진 분류, 전환율 |
| \(\text{Binomial}(n,p)\) | 이산 | \(\binom{n}{k}p^k(1-p)^{n-k}\) | 성공 횟수, 불량품 수 |
| \(\text{Poisson}(\lambda)\) | 이산 | \(\lambda^k / k!\) | 이벤트 발생 횟수 |
| \(N(\mu,\sigma^2)\) | 연속 | \(e^{-(x-\mu)^2/(2\sigma^2)}\) | 측정 오차, CLT 근사 |
| \(\text{Exp}(\lambda)\) | 연속 | \(e^{-\lambda x}\) | 대기 시간, 고장까지 시간 |
| \(\text{Beta}(\alpha,\beta)\) | 연속 | \(x^{\alpha-1}(1-x)^{\beta-1}\) | 베이지안 사전 분포 (비율) |
| \(\text{Gamma}(\alpha,\beta)\) | 연속 | \(x^{\alpha-1}e^{-x/\beta}\) | 양의 연속 데이터 (보험금) |
상세 포스트:
- 분포 함수 — CDF, 분위수, 생존 함수, 위험 함수, PIT
- 밀도 함수와 질량 함수 — PDF/PMF 이론, 커널 표현
- 주요 분포의 밀도 함수 — 이산/연속 분포, 정규화 증명, 혼합 분포
7 확률론이 데이터 사이언스에 미치는 영향
확률론의 각 개념이 실무 도구에 어떻게 직결되는지를 정리한다.
| 확률론 개념 | 실무 도구/방법론 | 구체적 역할 |
|---|---|---|
| 확률 공간 \((\Omega, \mathcal{F}, P)\) | 모든 확률 모형 | 데이터 생성 메커니즘의 수학적 기반 |
| 조건부 확률 | 베이지안 추론, 나이브 베이즈 | 사후 분포 계산, 분류 |
| 독립성 | iid 가정, 우도 함수 | \(L(\theta) = \prod_i f(x_i \mid \theta)\) 의 전제 |
| 베이즈 정리 | 베이지안 A/B 테스트, MCMC | 사전 → 사후 갱신 |
| 확률변수 | 손실 함수, 기댓값 | \(E[L(\hat{\theta}, \theta)]\) 최소화 |
| CDF / 분위수 | VaR, 백분위, 이상 탐지 | 극단값 임계치 설정 |
| PDF / PMF | MLE, GLM | 우도 함수 구성, 링크 함수 선택 |
| 주요 분포 | 모델 선택 | 정규 → 선형회귀, 포아송 → 카운트 회귀, 베타 → 사전 분포 |
8 학습 경로
이 블로그에서 확률론(Ch.1)의 학습 경로는 다음과 같다:
기초 집합론 (37)
↓
공리와 성질 (38) → 계산 규칙 (39)
↓ ↓
조합론 (40, 46) 열거법 (41)
↓ ↓
조건부 확률·베이즈 (42) → 독립성 (47)
↓
확률변수 (43) → 분포 함수 (44) → 밀도 함수 (45, 48)
↓
[Ch.2: 변환과 기대값으로 이동]
9 관련 주제
이 섹션의 포스트 (확률론, Ch.1)
- 집합론 — 표본공간, 사건, σ-대수
- 공리적 기초 — 콜모고로프 공리, 연속성 정리
- 계산 규칙 — 조건부 확률, 독립성
- 조합론 / 조합론 심화
- 열거법 — 트리 다이어그램, 추출 방식
- 조건부 확률과 베이즈 / 독립성
- 확률변수 / 분포 함수
- 밀도 함수 / 주요 분포
선행 지식
- 통계학 개요 — 통계학 전체의 진입점
후속 주제
- 변환과 기대값 개요 — Ch.2: 기댓값, 분산, MGF, 변수변환
- 지수족 개요 — Ch.3: 분포 가족의 통합 체계
- 수렴 이론 — 확률 수렴, 분포 수렴
참고 교재
- Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.), Ch.1. Cengage.