Kwangmin Kim - 확률론 개요 (Probability Theory)

1 왜 확률론인가

통계적 추론의 모든 도구 — 추정량의 분포, 검정의 유의수준, 신뢰구간의 포함 확률 — 는 확률론 위에 구축된다.

확률론 없이는 불가능한 것들

p-value: “\(H_0\) 하에서 이 데이터 이상으로 극단적인 결과가 나올 확률” — 확률의 정의가 없으면 이 문장 자체가 성립하지 않는다
신뢰구간: “반복 표본 추출 시 95%의 구간이 모수를 포함” — 확률 측도의 성질이 보장한다
MLE: \(L(\theta) = \prod_i f(x_i \mid \theta)\) — 밀도 함수(PDF)의 존재와 성질을 전제한다
베이즈 추론: \(p(\theta \mid \mathbf{x}) \propto p(\mathbf{x} \mid \theta)\,p(\theta)\) — 조건부 확률과 베이즈 정리가 핵심이다

확률론은 “데이터에 내재된 불확실성을 수학적으로 다루는 언어”이며, 이 언어 없이는 통계학도, 머신러닝도 엄밀하게 정의될 수 없다.

2 확률론의 구조: 네 개의 층

확률론은 아래에서 위로 쌓아 올리는 구조를 가진다. 각 층은 이전 층 없이는 정의할 수 없다.

Layer 4: 분포 함수와 밀도 함수  ← PDF, PMF, CDF, 주요 분포
Layer 3: 확률변수              ← 표본공간 → 실수 매핑
Layer 2: 확률의 계산           ← 조건부 확률, 독립성, 베이즈 정리
Layer 1: 확률의 정의           ← 표본공간, 사건, σ-대수, 콜모고로프 공리

층	핵심 질문	데이터 사이언스 연결
Layer 1	“확률이란 무엇인가?”	모든 확률 모형의 논리적 기반
Layer 2	“새 정보가 확률을 어떻게 바꾸는가?”	베이즈 갱신, A/B 테스트, 나이브 베이즈
Layer 3	“결과를 숫자로 어떻게 표현하는가?”	손실 함수, 기댓값, 분포 가정
Layer 4	“분포를 어떻게 기술하고 구분하는가?”	모델 선택 = 분포 선택 (GLM, 생존 분석)

3 Layer 1: 확률의 정의 — 집합론과 공리

3.1 표본공간, 사건, 시그마 대수

정의: 확률 공간

확률 공간 \((\Omega, \mathcal{F}, P)\) 는 세 구성 요소로 이루어진다:

\(\Omega\): 표본공간 — 가능한 모든 결과의 집합
\(\mathcal{F}\): 사건 공간(σ-대수) — 확률을 부여할 수 있는 사건들의 모음
\(P\): 확률 측도 — \(\mathcal{F}\) 의 각 사건에 \([0,1]\) 값을 배정하는 함수

표본공간을 잘못 설정하면 확률 자체가 틀린다. 예를 들어, 주사위 두 개를 구분하지 않으면(비순서 쌍) \((1,2)\) 와 \((2,1)\) 을 하나로 세어 확률이 왜곡된다.

실무 연결: σ-대수는 “측정 가능한 질문의 모음”

σ-대수 \(\mathcal{F}\) 는 추상적이지만, 실무에서는 “데이터로 답할 수 있는 질문의 범위”에 해당한다.

SQL에서 WHERE age > 30 은 사건 \(\{X > 30\}\) 이 \(\mathcal{F}\) 에 속해야 의미가 있다
ML 분류기의 결정 경계는 보렐 집합(Borel set) — σ-대수의 원소 — 으로 표현된다

3.2 콜모고로프 공리

확률 측도 \(P\) 는 세 가지 공리를 만족한다:

비음성: \(P(A) \geq 0\)
정규화: \(P(\Omega) = 1\)
가산 가법성: 서로소인 사건열에 대해 \(P\!\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)\)

이 세 공리로부터 여사건 법칙, 포함-배제 원리, 부울 부등식(Union Bound), 확률의 연속성 등 모든 확률 성질이 유도된다.

상세 포스트:

확률론의 언어: 집합론 — 표본공간, 사건, σ-대수
확률론의 공리적 기초 — 콜모고로프 공리, 포함-배제, 연속성 정리

4 Layer 2: 확률의 계산 — 조건부 확률과 독립성

4.1 조건부 확률과 베이즈 정리

정의: 조건부 확률

\(P(B) > 0\) 일 때:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]

조건부 확률은 “새로운 정보가 불확실성을 어떻게 바꾸는가”를 수학적으로 표현한다. 이로부터 곱셈 법칙, 전확률 정리, 베이즈 정리가 도출된다.

\[ \underbrace{P(B_j \mid A)}_{\text{사후 확률}} = \frac{\overbrace{P(A \mid B_j)}^{\text{우도}} \times \overbrace{P(B_j)}^{\text{사전 확률}}}{\underbrace{\sum_i P(A \mid B_i)\,P(B_i)}_{\text{주변 우도}}} \]

실무 연결

의료 진단: 양성 검사 결과가 나왔을 때 실제 질병 확률 — 기저율(base rate)을 무시하면 과대추정한다
스팸 필터: 나이브 베이즈 분류기는 베이즈 정리 + 조건부 독립 가정의 직접적 응용이다
A/B 테스트: 베이지안 A/B 테스트에서 사후 분포 갱신은 베이즈 정리의 반복 적용이다

4.2 독립성

\[ A \perp B \iff P(A \cap B) = P(A)\,P(B) \iff P(A \mid B) = P(A) \]

독립성은 현대 통계와 ML의 거의 모든 방법론을 지탱하는 가정이다:

방법론	독립성 가정	위반 시 결과
MLE, t-검정, ANOVA	iid 표본	표준 오차 과소추정, p-value 왜곡
나이브 베이즈	조건부 독립	확률 추정 편향 (실무에서는 놀랍도록 잘 작동)
인과 추론	조건부 독립 (ignorability)	교란 변수에 의한 편향
시계열 잔차 진단	잔차 독립	자기상관 → 모델 불완전

4.3 조합론과 열거법

유한 표본공간에서 확률을 구하려면 경우의 수를 세야 한다. 순열, 조합, 이항 정리가 기본 도구이며, 별과 막대, 비둘기집 원리, 포함-배제 원리가 심화 도구다.

상세 포스트:

확률의 계산 규칙 — 조건부 확률, 독립성 개요
경우의 수와 조합론 — 순열, 조합, 이항 정리
조합론 심화 — 중복조합, 다항계수, 비둘기집 원리
결과 열거법 — 트리 다이어그램, 추출 방식
조건부 확률과 베이즈 정리 — 곱셈 법칙, 전확률 정리
독립성 심화 — 상호독립, 조건부독립

5 Layer 3: 확률변수 — 결과를 숫자로

정의: 확률변수

확률 공간 \((\Omega, \mathcal{F}, P)\) 위의 가측 함수 \(X: \Omega \to \mathbb{R}\)

\[ \forall\, B \in \mathcal{B}(\mathbb{R}): \quad \{X \in B\} \in \mathcal{F} \]

확률변수는 “표본공간의 결과”를 “실수”로 변환하는 다리다. 이 변환이 있어야 기댓값, 분산, 분포 함수를 정의할 수 있다.

유형	치역	주요 함수	예시
이산형	가산 집합	PMF \(p(x) = P(X=x)\)	불량품 수, 클릭 수
연속형	구간	PDF \(f(x)\), \(P(X=x)=0\)	키, 대기 시간, 수익률
혼합형	가산 + 구간	CDF만 존재	보험금 (미발생 0 + 발생 시 연속)

실무 연결

확률변수의 유형에 따라 모델링 도구가 결정된다:

이산형 → 포아송 회귀, 로지스틱 회귀
연속형 → 선형 회귀, 감마 회귀
혼합형 → 영과잉 모형(Zero-inflated), Tweedie 분포

상세 포스트:

확률변수 — 가측함수, PMF, PDF, CDF, 혼합형

6 Layer 4: 분포 함수와 밀도 함수

6.1 CDF — 모든 확률변수에 대해 존재하는 유일한 함수

\[ F_X(x) = P(X \leq x), \quad x \in \mathbb{R} \]

CDF의 세 가지 특성: (1) \(\lim_{x\to-\infty} F(x) = 0\), \(\lim_{x\to+\infty} F(x) = 1\), (2) 단조 비감소, (3) 우연속.

CDF에서 파생되는 함수들:

함수	정의	실무 용도
분위수 \(Q(p) = F^{-1}(p)\)	CDF의 역함수	소득 상위 1% 기준선, VaR
생존 함수 \(S(t) = 1 - F(t)\)	시점 \(t\) 이후 생존 확률	임상시험, 고객 이탈 분석
위험 함수 \(h(t) = f(t)/S(t)\)	순간 고장률	장비 유지보수, 보험 위험 평가

6.2 PDF와 PMF — 분포의 “모양”

\[ \text{PDF}: \quad F_X(x) = \int_{-\infty}^x f_X(t)\,dt \qquad \text{PMF}: \quad p_X(x) = P(X = x) \]

PDF는 확률이 아니라 밀도다. \(f(x) > 1\) 이 가능하며, \(P(X=x) = 0\) 이다. PDF가 존재하지 않는 경우(혼합형)에는 CDF 또는 르베그-스틸체스 측도로 작업한다.

6.3 주요 분포 카탈로그

분포	유형	PDF/PMF 커널	대표 응용
\(\text{Bernoulli}(p)\)	이산	\(p^x(1-p)^{1-x}\)	이진 분류, 전환율
\(\text{Binomial}(n,p)\)	이산	\(\binom{n}{k}p^k(1-p)^{n-k}\)	성공 횟수, 불량품 수
\(\text{Poisson}(\lambda)\)	이산	\(\lambda^k / k!\)	이벤트 발생 횟수
\(N(\mu,\sigma^2)\)	연속	\(e^{-(x-\mu)^2/(2\sigma^2)}\)	측정 오차, CLT 근사
\(\text{Exp}(\lambda)\)	연속	\(e^{-\lambda x}\)	대기 시간, 고장까지 시간
\(\text{Beta}(\alpha,\beta)\)	연속	\(x^{\alpha-1}(1-x)^{\beta-1}\)	베이지안 사전 분포 (비율)
\(\text{Gamma}(\alpha,\beta)\)	연속	\(x^{\alpha-1}e^{-x/\beta}\)	양의 연속 데이터 (보험금)

상세 포스트:

분포 함수 — CDF, 분위수, 생존 함수, 위험 함수, PIT
밀도 함수와 질량 함수 — PDF/PMF 이론, 커널 표현
주요 분포의 밀도 함수 — 이산/연속 분포, 정규화 증명, 혼합 분포

7 확률론이 데이터 사이언스에 미치는 영향

확률론의 각 개념이 실무 도구에 어떻게 직결되는지를 정리한다.

확률론 개념	실무 도구/방법론	구체적 역할
확률 공간 \((\Omega, \mathcal{F}, P)\)	모든 확률 모형	데이터 생성 메커니즘의 수학적 기반
조건부 확률	베이지안 추론, 나이브 베이즈	사후 분포 계산, 분류
독립성	iid 가정, 우도 함수	\(L(\theta) = \prod_i f(x_i \mid \theta)\) 의 전제
베이즈 정리	베이지안 A/B 테스트, MCMC	사전 → 사후 갱신
확률변수	손실 함수, 기댓값	\(E[L(\hat{\theta}, \theta)]\) 최소화
CDF / 분위수	VaR, 백분위, 이상 탐지	극단값 임계치 설정
PDF / PMF	MLE, GLM	우도 함수 구성, 링크 함수 선택
주요 분포	모델 선택	정규 → 선형회귀, 포아송 → 카운트 회귀, 베타 → 사전 분포

8 학습 경로

이 블로그에서 확률론(Ch.1)의 학습 경로는 다음과 같다:

기초 집합론 (37)
    ↓
공리와 성질 (38) → 계산 규칙 (39)
    ↓                   ↓
조합론 (40, 46)    열거법 (41)
    ↓                   ↓
조건부 확률·베이즈 (42) → 독립성 (47)
    ↓
확률변수 (43) → 분포 함수 (44) → 밀도 함수 (45, 48)
    ↓
[Ch.2: 변환과 기대값으로 이동]

9 관련 주제

이 섹션의 포스트 (확률론, Ch.1)

집합론 — 표본공간, 사건, σ-대수
공리적 기초 — 콜모고로프 공리, 연속성 정리
계산 규칙 — 조건부 확률, 독립성
조합론 / 조합론 심화
열거법 — 트리 다이어그램, 추출 방식
조건부 확률과 베이즈 / 독립성
확률변수 / 분포 함수
밀도 함수 / 주요 분포

선행 지식

통계학 개요 — 통계학 전체의 진입점

후속 주제

변환과 기대값 개요 — Ch.2: 기댓값, 분산, MGF, 변수변환
지수족 개요 — Ch.3: 분포 가족의 통합 체계
수렴 이론 — 확률 수렴, 분포 수렴

참고 교재

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.), Ch.1. Cengage.