1 조건부 확률: 정보가 불확실성을 바꾼다
1.1 동기
주사위를 굴렸다. 결과를 보기 전: \(P(\text{6이 나옴}) = 1/6\). 누군가 “짝수가 나왔다”고 알려줬다. 이제: \(P(\text{6이 나옴} \mid \text{짝수}) = 1/3\).
새로운 정보가 확률을 바꿨다. 이 “갱신”을 수학적으로 표현한 것이 조건부 확률이다.
\(P(B) > 0\) 인 사건 \(B\) 에 대해, \(B\) 가 주어졌을 때 \(A\) 의 조건부 확률:
\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]
\(B\) 가 발생했다는 정보는 표본공간을 \(\Omega\) 에서 \(B\) 로 축소한다. \(A\) 의 “새로운 확률”은 이 축소된 공간 \(B\) 안에서 \(A \cap B\) 가 차지하는 비율이다.
\[ P(A \mid B) = \frac{|A \cap B|}{|B|} \quad \text{(균등 분포일 때)} \]
\(P(A \mid B) > P(A)\): \(B\) 라는 정보가 \(A\) 를 더 가능하게 만든다. \(P(A \mid B) < P(A)\): \(B\) 라는 정보가 \(A\) 를 덜 가능하게 만든다. \(P(A \mid B) = P(A)\): \(B\) 라는 정보가 \(A\) 에 아무 영향이 없다 → 독립(independence)
2 조건부 확률의 성질
2.1 조건부 확률도 확률이다
고정된 \(B\) (\(P(B)>0\))에 대해 \(P(\cdot \mid B)\) 는 표본공간 \(B\) 위에서 콜모고로프 3공리를 만족한다:
- \(P(A \mid B) \geq 0\)
- \(P(B \mid B) = 1\)
- \(A_i \cap A_j = \emptyset \Rightarrow P\!\left(\bigcup_i A_i \;\middle|\; B\right) = \sum_i P(A_i \mid B)\)
증명 (공리 3):
\[ P\!\left(\bigcup_i A_i \;\middle|\; B\right) = \frac{P\!\left(\left(\bigcup_i A_i\right) \cap B\right)}{P(B)} = \frac{P\!\left(\bigcup_i (A_i \cap B)\right)}{P(B)} = \frac{\sum_i P(A_i \cap B)}{P(B)} = \sum_i P(A_i \mid B) \quad\blacksquare \]
따라서 앞 포스트에서 유도한 모든 확률 성질이 조건부 확률에도 그대로 적용된다:
\[ P(A^c \mid B) = 1 - P(A \mid B), \quad P(A \cup C \mid B) = P(A \mid B) + P(C \mid B) - P(A \cap C \mid B) \]
2.2 조건의 순서와 비대칭성
일반적으로 \(P(A \mid B) \neq P(B \mid A)\).
예시: 질병 \(D\), 양성 검사 \(T^+\)
\[ P(D \mid T^+) = \frac{P(T^+ \mid D)\,P(D)}{P(T^+)} \quad\neq\quad P(T^+ \mid D) \]
- \(P(T^+ \mid D) = 0.99\) (민감도): 질병이 있으면 양성 확률
- \(P(D \mid T^+)\): 양성이면 질병이 있을 확률 ← 베이즈 정리로 계산
이 비대칭성을 혼동하면 기저율 무시(base rate neglect) 오류가 발생한다.
3 곱셈 법칙 (Multiplication Rule)
\[ P(A \cap B) = P(A \mid B)\,P(B) = P(B \mid A)\,P(A) \]
\(n\) 개 사건의 일반화:
\[ P\!\left(\bigcap_{i=1}^n A_i\right) = P(A_1)\,P(A_2 \mid A_1)\,P(A_3 \mid A_1 \cap A_2) \cdots P\!\left(A_n \;\middle|\; \bigcap_{i=1}^{n-1} A_i\right) \]
예시: 트럼프 카드에서 비복원으로 3장 순서대로 뽑을 때 모두 하트일 확률
\[ P(\text{하트}_1 \cap \text{하트}_2 \cap \text{하트}_3) = \frac{13}{52} \times \frac{12}{51} \times \frac{11}{50} = \frac{1716}{132600} = \frac{11}{850} \approx 0.0129 \]
4 전확률 정리 (Law of Total Probability)
\(\{B_1, B_2, \ldots, B_k\}\) 가 \(\Omega\) 의 분할 (\(B_i\) 쌍마다 서로소, \(\bigcup B_i = \Omega\), \(P(B_i)>0\))이면:
\[ P(A) = \sum_{i=1}^k P(A \mid B_i)\,P(B_i) \]
증명: \(A = \bigcup_{i=1}^k (A \cap B_i)\) 이고 \(A \cap B_i\) 들이 쌍마다 서로소이므로:
\[ P(A) = \sum_{i=1}^k P(A \cap B_i) = \sum_{i=1}^k P(A \mid B_i)\,P(B_i) \quad\blacksquare \]
\(B_i\) 를 원인(cause), \(A\) 를 결과(effect)로 보면:
\[ P(\text{결과}) = \sum_{\text{모든 원인}} P(\text{결과} \mid \text{원인})\times P(\text{원인}) \]
각 원인 경로의 기여를 모두 더한다.
예시: 제조 공장 A·B·C가 각각 50%, 30%, 20% 생산. 불량률은 A: 1%, B: 3%, C: 5%.
\[ P(\text{불량}) = 0.01\times0.5 + 0.03\times0.3 + 0.05\times0.2 = 0.005 + 0.009 + 0.010 = 0.024 \]
5 베이즈 정리 (Bayes’ Theorem)
\(\{B_1, \ldots, B_k\}\) 가 \(\Omega\) 의 분할이고 \(P(A) > 0\) 이면:
\[ P(B_j \mid A) = \frac{P(A \mid B_j)\,P(B_j)}{\displaystyle\sum_{i=1}^k P(A \mid B_i)\,P(B_i)} \]
전확률 정리: 원인 → 결과 방향 (\(P(A \mid B_j)\) 알면 \(P(A)\) 계산)
베이즈 정리: 결과 → 원인 방향 (\(A\) 가 발생했을 때 원인이 \(B_j\) 일 확률)
\[ \underbrace{P(B_j \mid A)}_{\text{사후 확률}} \propto \underbrace{P(A \mid B_j)}_{\text{우도}} \times \underbrace{P(B_j)}_{\text{사전 확률}} \]
위 공장 예시 계속: 불량품이 발견됐을 때 공장 A에서 생산됐을 확률?
\[ P(A \mid \text{불량}) = \frac{0.01\times0.5}{0.024} = \frac{0.005}{0.024} \approx 0.208 \]
6 관련 주제
선행 지식
- 확률론의 공리적 기초 — 콜모고로프 공리, 기본 성질
- 확률의 계산 규칙 — 조건부 확률·독립의 개요
- 결과 열거법 — 트리 다이어그램으로 조건부 확률 시각화
심화 주제
- 독립성 심화 — 독립의 엄밀한 정의, 상호독립, 조건부독립, 코드 예시
후속 주제
- Bayes’ Rule — 베이즈 정리 심화
- Random Variable — 확률변수와 분포의 독립성
- Convergence in Probability — 독립 확률변수의 수렴 이론
관련 개념
- Binomial Distribution — 독립 베르누이 시행의 합
- MLE — 독립 표본 가정: \(L(\theta) = \prod_i f(x_i \mid \theta)\)
- Mixed Models — 비독립 데이터(반복 측정)의 모델링