확률론 개요 (Probability Theory)

집합론에서 분포 함수까지 — 통계적 추론의 수학적 기반을 조감한다

확률론은 통계학 전체의 언어이다. 표본공간과 사건의 집합론적 구조, 콜모고로프 공리, 조건부 확률과 독립성, 확률변수와 분포 함수, 밀도 함수와 주요 분포까지 — Casella & Berger Ch.1의 흐름을 조감하고 각 주제가 데이터 사이언스 실무에서 왜 중요한지를 연결한다.

Statistics
저자

Kwangmin Kim

공개

2026년 03월 28일

1 왜 확률론인가

통계적 추론의 모든 도구 — 추정량의 분포, 검정의 유의수준, 신뢰구간의 포함 확률 — 는 확률론 위에 구축된다.

확률론 없이는 불가능한 것들
  • p-value: “\(H_0\) 하에서 이 데이터 이상으로 극단적인 결과가 나올 확률” — 확률의 정의가 없으면 이 문장 자체가 성립하지 않는다
  • 신뢰구간: “반복 표본 추출 시 95%의 구간이 모수를 포함” — 확률 측도의 성질이 보장한다
  • MLE: \(L(\theta) = \prod_i f(x_i \mid \theta)\) — 밀도 함수(PDF)의 존재와 성질을 전제한다
  • 베이즈 추론: \(p(\theta \mid \mathbf{x}) \propto p(\mathbf{x} \mid \theta)\,p(\theta)\) — 조건부 확률과 베이즈 정리가 핵심이다

확률론은 “데이터에 내재된 불확실성을 수학적으로 다루는 언어”이며, 이 언어 없이는 통계학도, 머신러닝도 엄밀하게 정의될 수 없다.


2 확률론의 구조: 네 개의 층

확률론은 아래에서 위로 쌓아 올리는 구조를 가진다. 각 층은 이전 층 없이는 정의할 수 없다.

Layer 4: 분포 함수와 밀도 함수  ← PDF, PMF, CDF, 주요 분포
Layer 3: 확률변수              ← 표본공간 → 실수 매핑
Layer 2: 확률의 계산           ← 조건부 확률, 독립성, 베이즈 정리
Layer 1: 확률의 정의           ← 표본공간, 사건, σ-대수, 콜모고로프 공리
핵심 질문 데이터 사이언스 연결
Layer 1 “확률이란 무엇인가?” 모든 확률 모형의 논리적 기반
Layer 2 “새 정보가 확률을 어떻게 바꾸는가?” 베이즈 갱신, A/B 테스트, 나이브 베이즈
Layer 3 “결과를 숫자로 어떻게 표현하는가?” 손실 함수, 기댓값, 분포 가정
Layer 4 “분포를 어떻게 기술하고 구분하는가?” 모델 선택 = 분포 선택 (GLM, 생존 분석)

3 Layer 1: 확률의 정의 — 집합론과 공리

3.1 표본공간, 사건, 시그마 대수

정의: 확률 공간

확률 공간 \((\Omega, \mathcal{F}, P)\) 는 세 구성 요소로 이루어진다:

  • \(\Omega\): 표본공간 — 가능한 모든 결과의 집합
  • \(\mathcal{F}\): 사건 공간(σ-대수) — 확률을 부여할 수 있는 사건들의 모음
  • \(P\): 확률 측도\(\mathcal{F}\) 의 각 사건에 \([0,1]\) 값을 배정하는 함수

표본공간을 잘못 설정하면 확률 자체가 틀린다. 예를 들어, 주사위 두 개를 구분하지 않으면(비순서 쌍) \((1,2)\)\((2,1)\) 을 하나로 세어 확률이 왜곡된다.

실무 연결: σ-대수는 “측정 가능한 질문의 모음”

σ-대수 \(\mathcal{F}\) 는 추상적이지만, 실무에서는 “데이터로 답할 수 있는 질문의 범위”에 해당한다.

  • SQL에서 WHERE age > 30 은 사건 \(\{X > 30\}\)\(\mathcal{F}\) 에 속해야 의미가 있다
  • ML 분류기의 결정 경계는 보렐 집합(Borel set) — σ-대수의 원소 — 으로 표현된다

3.2 콜모고로프 공리

확률 측도 \(P\) 는 세 가지 공리를 만족한다:

  1. 비음성: \(P(A) \geq 0\)
  2. 정규화: \(P(\Omega) = 1\)
  3. 가산 가법성: 서로소인 사건열에 대해 \(P\!\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)\)

이 세 공리로부터 여사건 법칙, 포함-배제 원리, 부울 부등식(Union Bound), 확률의 연속성 등 모든 확률 성질이 유도된다.

상세 포스트:


4 Layer 2: 확률의 계산 — 조건부 확률과 독립성

4.1 조건부 확률과 베이즈 정리

정의: 조건부 확률

\(P(B) > 0\) 일 때:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]

조건부 확률은 “새로운 정보가 불확실성을 어떻게 바꾸는가”를 수학적으로 표현한다. 이로부터 곱셈 법칙, 전확률 정리, 베이즈 정리가 도출된다.

\[ \underbrace{P(B_j \mid A)}_{\text{사후 확률}} = \frac{\overbrace{P(A \mid B_j)}^{\text{우도}} \times \overbrace{P(B_j)}^{\text{사전 확률}}}{\underbrace{\sum_i P(A \mid B_i)\,P(B_i)}_{\text{주변 우도}}} \]

실무 연결
  • 의료 진단: 양성 검사 결과가 나왔을 때 실제 질병 확률 — 기저율(base rate)을 무시하면 과대추정한다
  • 스팸 필터: 나이브 베이즈 분류기는 베이즈 정리 + 조건부 독립 가정의 직접적 응용이다
  • A/B 테스트: 베이지안 A/B 테스트에서 사후 분포 갱신은 베이즈 정리의 반복 적용이다

4.2 독립성

\[ A \perp B \iff P(A \cap B) = P(A)\,P(B) \iff P(A \mid B) = P(A) \]

독립성은 현대 통계와 ML의 거의 모든 방법론을 지탱하는 가정이다:

방법론 독립성 가정 위반 시 결과
MLE, t-검정, ANOVA iid 표본 표준 오차 과소추정, p-value 왜곡
나이브 베이즈 조건부 독립 확률 추정 편향 (실무에서는 놀랍도록 잘 작동)
인과 추론 조건부 독립 (ignorability) 교란 변수에 의한 편향
시계열 잔차 진단 잔차 독립 자기상관 → 모델 불완전

4.3 조합론과 열거법

유한 표본공간에서 확률을 구하려면 경우의 수를 세야 한다. 순열, 조합, 이항 정리가 기본 도구이며, 별과 막대, 비둘기집 원리, 포함-배제 원리가 심화 도구다.

상세 포스트:


5 Layer 3: 확률변수 — 결과를 숫자로

정의: 확률변수

확률 공간 \((\Omega, \mathcal{F}, P)\) 위의 가측 함수 \(X: \Omega \to \mathbb{R}\)

\[ \forall\, B \in \mathcal{B}(\mathbb{R}): \quad \{X \in B\} \in \mathcal{F} \]

확률변수는 “표본공간의 결과”를 “실수”로 변환하는 다리다. 이 변환이 있어야 기댓값, 분산, 분포 함수를 정의할 수 있다.

유형 치역 주요 함수 예시
이산형 가산 집합 PMF \(p(x) = P(X=x)\) 불량품 수, 클릭 수
연속형 구간 PDF \(f(x)\), \(P(X=x)=0\) 키, 대기 시간, 수익률
혼합형 가산 + 구간 CDF만 존재 보험금 (미발생 0 + 발생 시 연속)
실무 연결

확률변수의 유형에 따라 모델링 도구가 결정된다:

  • 이산형 → 포아송 회귀, 로지스틱 회귀
  • 연속형 → 선형 회귀, 감마 회귀
  • 혼합형 → 영과잉 모형(Zero-inflated), Tweedie 분포

상세 포스트:


6 Layer 4: 분포 함수와 밀도 함수

6.1 CDF — 모든 확률변수에 대해 존재하는 유일한 함수

\[ F_X(x) = P(X \leq x), \quad x \in \mathbb{R} \]

CDF의 세 가지 특성: (1) \(\lim_{x\to-\infty} F(x) = 0\), \(\lim_{x\to+\infty} F(x) = 1\), (2) 단조 비감소, (3) 우연속.

CDF에서 파생되는 함수들:

함수 정의 실무 용도
분위수 \(Q(p) = F^{-1}(p)\) CDF의 역함수 소득 상위 1% 기준선, VaR
생존 함수 \(S(t) = 1 - F(t)\) 시점 \(t\) 이후 생존 확률 임상시험, 고객 이탈 분석
위험 함수 \(h(t) = f(t)/S(t)\) 순간 고장률 장비 유지보수, 보험 위험 평가

6.2 PDF와 PMF — 분포의 “모양”

\[ \text{PDF}: \quad F_X(x) = \int_{-\infty}^x f_X(t)\,dt \qquad \text{PMF}: \quad p_X(x) = P(X = x) \]

PDF는 확률이 아니라 밀도다. \(f(x) > 1\) 이 가능하며, \(P(X=x) = 0\) 이다. PDF가 존재하지 않는 경우(혼합형)에는 CDF 또는 르베그-스틸체스 측도로 작업한다.

6.3 주요 분포 카탈로그

분포 유형 PDF/PMF 커널 대표 응용
\(\text{Bernoulli}(p)\) 이산 \(p^x(1-p)^{1-x}\) 이진 분류, 전환율
\(\text{Binomial}(n,p)\) 이산 \(\binom{n}{k}p^k(1-p)^{n-k}\) 성공 횟수, 불량품 수
\(\text{Poisson}(\lambda)\) 이산 \(\lambda^k / k!\) 이벤트 발생 횟수
\(N(\mu,\sigma^2)\) 연속 \(e^{-(x-\mu)^2/(2\sigma^2)}\) 측정 오차, CLT 근사
\(\text{Exp}(\lambda)\) 연속 \(e^{-\lambda x}\) 대기 시간, 고장까지 시간
\(\text{Beta}(\alpha,\beta)\) 연속 \(x^{\alpha-1}(1-x)^{\beta-1}\) 베이지안 사전 분포 (비율)
\(\text{Gamma}(\alpha,\beta)\) 연속 \(x^{\alpha-1}e^{-x/\beta}\) 양의 연속 데이터 (보험금)

상세 포스트:


7 확률론이 데이터 사이언스에 미치는 영향

확률론의 각 개념이 실무 도구에 어떻게 직결되는지를 정리한다.

확률론 개념 실무 도구/방법론 구체적 역할
확률 공간 \((\Omega, \mathcal{F}, P)\) 모든 확률 모형 데이터 생성 메커니즘의 수학적 기반
조건부 확률 베이지안 추론, 나이브 베이즈 사후 분포 계산, 분류
독립성 iid 가정, 우도 함수 \(L(\theta) = \prod_i f(x_i \mid \theta)\) 의 전제
베이즈 정리 베이지안 A/B 테스트, MCMC 사전 → 사후 갱신
확률변수 손실 함수, 기댓값 \(E[L(\hat{\theta}, \theta)]\) 최소화
CDF / 분위수 VaR, 백분위, 이상 탐지 극단값 임계치 설정
PDF / PMF MLE, GLM 우도 함수 구성, 링크 함수 선택
주요 분포 모델 선택 정규 → 선형회귀, 포아송 → 카운트 회귀, 베타 → 사전 분포

8 학습 경로

이 블로그에서 확률론(Ch.1)의 학습 경로는 다음과 같다:

기초 집합론 (37)
    ↓
공리와 성질 (38) → 계산 규칙 (39)
    ↓                   ↓
조합론 (40, 46)    열거법 (41)
    ↓                   ↓
조건부 확률·베이즈 (42) → 독립성 (47)
    ↓
확률변수 (43) → 분포 함수 (44) → 밀도 함수 (45, 48)
    ↓
[Ch.2: 변환과 기대값으로 이동]

9 관련 주제

이 섹션의 포스트 (확률론, Ch.1)

선행 지식

후속 주제

참고 교재

  • Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.), Ch.1. Cengage.

Subscribe

Enjoy this blog? Get notified of new posts by email: