1 개요
단변량 변환에서 \(Y = g(X)\) 의 분포를 구하는 방법을 다루었다. 이제 이를 이변량으로 확장한다. \((X, Y)\) 의 결합분포를 알 때, \((U, V) = (g_1(X, Y), g_2(X, Y))\) 의 결합분포를 어떻게 구하는가?
왜 이 질문이 중요한가? 실무에서 우리가 직접 관측하는 변수보다는, 관측값을 변환한 통계량(statistics)의 분포가 필요한 경우가 많다. 예를 들어:
- 두 독립 포아송 변수를 관측할 때, 우리가 관심 있는 것은 그 합이다 (전체 사건 수).
- 두 독립 정규 변수가 있을 때, 그 합과 차의 분포가 여전히 정규이고 독립인지 알아야 한다.
- 두 표준 정규 변수의 비율이 무슨 분포인지 알아야 t-통계량을 이해할 수 있다.
이 질문은 통계학의 핵심 문제에 직결된다 (Casella & Berger, 2002, Ch.4):
- 독립 포아송의 합은 무슨 분포인가?
- 독립 정규의 합과 차는 독립인가?
- 독립 표준 정규의 비율은 무슨 분포인가?
이 포스트에서 다루는 두 가지 방법:
| 경우 | 방법 | 핵심 도구 |
|---|---|---|
| 이산 | 확률 직접 합산 | \(f_{U,V}(u,v) = \sum_{A_{uv}} f_{X,Y}(x,y)\) |
| 연속 | 야코비안 방법 | \(f_{U,V}(u,v) = f_{X,Y}(h_1, h_2) \cdot |J|\) |
2 이산 경우: 확률 직접 합산
이산 확률벡터 \((X, Y)\) 에서 \((U, V) = (g_1(X, Y), g_2(X, Y))\) 로 변환하면 (Casella & Berger, 2002, Ch.4):
\[ f_{U,V}(u, v) = \sum_{(x, y) \in A_{uv}} f_{X,Y}(x, y) \]
여기서 \(A_{uv} = \{(x, y) : g_1(x, y) = u, \, g_2(x, y) = v\}\) 이다. 같은 \((u, v)\) 를 만드는 모든 \((x, y)\) 의 확률을 합산한다.
2.1 예시: 독립 포아송의 합
\(X \sim \text{Poi}(\theta)\) , \(Y \sim \text{Poi}(\lambda)\) 가 독립일 때, \(U = X + Y\) 의 분포를 구한다 (Casella & Berger, 2002, Example 4.3.1).
\(V = Y\) 로 보조 변환을 정의하면, 주어진 \((u, v)\) 에 대해 \(x = u - v\) , \(y = v\) 가 유일하게 결정된다:
\[ f_{U,V}(u, v) = \frac{\theta^{u-v} e^{-\theta}}{(u-v)!} \cdot \frac{\lambda^v e^{-\lambda}}{v!} \]
주변분포 \(f_U(u)\) 를 구하면:
\[ f_U(u) = \sum_{v=0}^{u} f_{U,V}(u, v) = \frac{e^{-(\theta + \lambda)}}{u!} \sum_{v=0}^{u} \binom{u}{v} \lambda^v \theta^{u-v} = \frac{e^{-(\theta + \lambda)} (\theta + \lambda)^u}{u!} \]
마지막 등호는 이항정리에 의한 것이다.
\(X \sim \text{Poi}(\theta)\) , \(Y \sim \text{Poi}(\lambda)\) 가 독립이면 \(X + Y \sim \text{Poi}(\theta + \lambda)\) 이다.
이 결과의 실무적 의미: 독립적인 포아송 사건 두 개를 합치면, 합친 사건도 포아송을 따른다. 웹사이트의 두 페이지에서 각각 독립적으로 발생하는 클릭을 합산하면 전체 클릭 수도 포아송이다.
3 연속 경우: 야코비안 방법
3.1 일대일 변환
\((U, V) = (g_1(X, Y), g_2(X, Y))\) 가 \(\mathcal{A}\) 에서 \(\mathcal{B}\) 로의 일대일 변환이면, 역변환 \(x = h_1(u, v)\) , \(y = h_2(u, v)\) 가 존재한다. 이때 (Casella & Berger, 2002, Ch.4):
\[ f_{U,V}(u, v) = f_{X,Y}(h_1(u, v), \, h_2(u, v)) \cdot |J| \]
야코비안 \(J\) 는 역변환의 편미분 행렬식이다:
\[ J = \det \begin{pmatrix} \dfrac{\partial x}{\partial u} & \dfrac{\partial x}{\partial v} \\[6pt] \dfrac{\partial y}{\partial u} & \dfrac{\partial y}{\partial v} \end{pmatrix} = \frac{\partial x}{\partial u} \frac{\partial y}{\partial v} - \frac{\partial y}{\partial u} \frac{\partial x}{\partial v} \]
\(|J|\) 의 직관적 의미: 변환이 \((u, v)\) 공간의 미소 영역을 얼마나 늘이거나 줄이는지를 나타내는 면적 보정 계수이다. 단변량에서 \(|dx/du|\) 가 길이 보정을 했던 것과 같은 원리이다.
3.2 변환 적용 절차
1. 변환 정의: (U, V) = (g1(X, Y), g2(X, Y))
2. 상 집합 B 결정: (u, v)의 가능한 범위
3. 역변환: x = h1(u, v), y = h2(u, v)
4. 야코비안 J 계산
5. 공식 적용: f_{U,V} = f_{X,Y}(h1, h2) |J|
6. (필요시) 주변분포 유도: f_U(u) = int f_{U,V}(u, v) dv
4 예시: 독립 표준 정규의 합과 차
\(X, Y \sim N(0, 1)\) 가 독립일 때 \(U = X + Y\) , \(V = X - Y\) 의 분포를 구한다 (Casella & Berger, 2002, Example 4.3.4).
역변환: \(x = (u + v)/2\) , \(y = (u - v)/2\)
야코비안:
\[ J = \det \begin{pmatrix} 1/2 & 1/2 \\ 1/2 & -1/2 \end{pmatrix} = -\frac{1}{2}, \quad |J| = \frac{1}{2} \]
결합 PDF:
\[ f_{U,V}(u, v) = \frac{1}{2\pi} \exp\!\left(-\frac{(u+v)^2/4 + (u-v)^2/4}{2}\right) \cdot \frac{1}{2} \]
지수부를 전개하면 \(uv\) 항이 상쇄되어:
\[ f_{U,V}(u, v) = \underbrace{\frac{1}{\sqrt{2\pi}\sqrt{2}} e^{-u^2/4}}_{\text{U만의 함수}} \cdot \underbrace{\frac{1}{\sqrt{2\pi}\sqrt{2}} e^{-v^2/4}}_{\text{V만의 함수}} \]
분리 보조정리에 의해 \(U\) 와 \(V\) 는 독립이고, 각각 \(N(0, 2)\) 를 따른다.
독립 표준 정규의 합과 차는 독립이다. 이 결과는 \(\text{Var}(X) = \text{Var}(Y)\) 이기만 하면 평균에 관계없이 성립한다.
5 예시: 정규비 = 코시
\(X, Y \sim N(0, 1)\) 가 독립일 때 \(U = X/Y\) 의 분포를 구한다 (Casella & Berger, 2002, Example 4.3.6).
이 변환은 다대일이다: \((x, y)\) 와 \((-x, -y)\) 가 같은 \((u, v)\) 로 사상된다. 영역을 \(A_1 = \{y > 0\}\) 과 \(A_2 = \{y < 0\}\) 으로 분할하여 각각에서 일대일 변환을 적용한다.
\(V = |Y|\) 로 보조 변환을 정의하면, 두 역변환의 야코비안이 모두 \(|J_i| = v\) 이다. 공식 (4.3.6)을 적용하면:
\[ f_{U,V}(u, v) = \frac{v}{\pi} \exp\!\left(-\frac{(u^2 + 1) v^2}{2}\right), \quad -\infty < u < \infty, \; v > 0 \]
\(U\) 의 주변 PDF:
\[ f_U(u) = \int_0^{\infty} \frac{v}{\pi} e^{-(u^2 + 1)v^2/2} \, dv = \frac{1}{\pi(1 + u^2)} \]
이것은 표준 코시분포의 PDF이다.
독립 표준 정규의 비율 \(X/Y\) 는 코시분포를 따른다. 코시분포는 평균이 존재하지 않으므로, 정규분포 비율의 표본평균은 대수의 법칙을 따르지 않는다.
6 다대일 변환의 일반 공식
변환이 일대일이 아닌 경우, 양수 영역 \(\mathcal{A}\) 를 \(A_0, A_1, \ldots, A_k\) 로 분할하여 각 \(A_i\) 에서 일대일이 되도록 한다. \(P((X,Y) \in A_0) = 0\) 이면 (Casella & Berger, 2002, Ch.4):
\[ f_{U,V}(u, v) = \sum_{i=1}^{k} f_{X,Y}(h_{1i}(u, v), \, h_{2i}(u, v)) \, |J_i| \]
각 역변환 \((h_{1i}, h_{2i})\) 과 그에 대응하는 야코비안 \(J_i\) 를 모두 합산한다. 단변량에서의 다대일 변환 공식(Theorem 2.1.8)의 자연스러운 확장이다.
7 독립 변환의 독립성 보존
\(X\) 와 \(Y\) 가 독립이고, \(U = g(X)\) , \(V = h(Y)\) 이면 \(U\) 와 \(V\) 도 독립이다.
직관: \(U\) 는 \(X\) 에만, \(V\) 는 \(Y\) 에만 의존하므로, \(X\) 와 \(Y\) 의 독립성이 \(U\) 와 \(V\) 로 전달된다.
이 정리가 적용되지 않는 경우를 주의해야 한다: \(U = X + Y\) , \(V = X - Y\) 처럼 두 변수가 뒤섞이는 변환에서는 이 정리를 쓸 수 없다. 이 경우 야코비안 방법으로 결합분포를 직접 구한 뒤 분리 여부를 확인해야 한다 (위의 정규 합/차 예시).
8 응용 분야
| 분야 | 변환 | 결과 |
|---|---|---|
| 표본 이론 | \(U = X + Y\) | 독립 정규의 합은 정규 |
| 검정 통계량 | \(U = X/Y\) | t-분포, F-분포, 코시분포의 유도 |
| 시뮬레이션 | 극좌표 변환 | Box-Muller: 균등분포에서 정규분포 생성 |
| 순서통계량 | 최소/최대 함수 | \(\min(X, Y)\) , \(\max(X, Y)\) 의 분포 |
| 합성곱 | \(U = X + Y\) , \(V = X\) | 합성곱(convolution) 공식 유도 |
| 베이지안 | 비율 변환 | 사후 오즈비의 분포 |
9 코드 예시
9.1 Step 1: 순수 Python 구현 (원리 이해)
독립 포아송의 합이 포아송임을 직접 합산으로 확인한다.
import math
def poisson_pmf(x, lam):
if x < 0:
return 0.0
return math.exp(-lam) * lam**x / math.factorial(x)
theta, lam = 3.0, 2.0
# U = X + Y의 PMF를 직접 합산으로 계산
print("독립 포아송 합: X ~ Poi(3), Y ~ Poi(2), U = X + Y")
print(f"{'u':>3} | {'직접합산':>10} | {'Poi(5)':>10} | {'일치':>5}")
print("-" * 45)
for u in range(11):
# f_U(u) = sum_{v=0}^{u} f_X(u-v) * f_Y(v)
p_direct = sum(poisson_pmf(u - v, theta) * poisson_pmf(v, lam)
for v in range(u + 1))
p_theory = poisson_pmf(u, theta + lam)
match = abs(p_direct - p_theory) < 1e-12
print(f"{u:>3} | {p_direct:>10.6f} | {p_theory:>10.6f} | {str(match):>5}")9.2 야코비안 계산 검증
import math
# 정규 합/차 변환: U = X + Y, V = X - Y
# 역변환: x = (u+v)/2, y = (u-v)/2
# J = det[[1/2, 1/2], [1/2, -1/2]] = -1/2, |J| = 1/2
# 검증: f_{U,V}(u, v)가 g(u)*h(v)로 분리되는가?
def f_uv(u, v):
x = (u + v) / 2
y = (u - v) / 2
f_xy = (1 / (2 * math.pi)) * math.exp(-(x**2 + y**2) / 2)
jacobian_abs = 0.5
return f_xy * jacobian_abs
def g_u(u):
return (1 / (math.sqrt(2 * math.pi) * math.sqrt(2))) * math.exp(-u**2 / 4)
def h_v(v):
return (1 / (math.sqrt(2 * math.pi) * math.sqrt(2))) * math.exp(-v**2 / 4)
# 여러 점에서 f_{U,V}(u,v) = g(u) * h(v) 확인
print("합/차 변환: f_{U,V}(u,v) = g(u)*h(v) 분리 확인")
test_points = [(0, 0), (1, -1), (2, 0.5), (-1, 2)]
for u, v in test_points:
f_val = f_uv(u, v)
gh_val = g_u(u) * h_v(v)
print(f" ({u:>4.1f}, {v:>4.1f}): f={f_val:.8f}, g*h={gh_val:.8f}, "
f"match={abs(f_val - gh_val) < 1e-15}")
print("\n결론: U = X+Y 와 V = X-Y 는 독립이다")
print(f" U ~ N(0, 2), V ~ N(0, 2)")9.3 Step 2: scipy/numpy 구현 (실무 활용)
야코비안 변환의 결과를 시뮬레이션으로 검증한다.
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
np.random.seed(42)
n = 100000
X = np.random.standard_normal(n)
Y = np.random.standard_normal(n)
fig, axes = plt.subplots(1, 3, figsize=(14, 4))
# 1) 합과 차: U = X+Y, V = X-Y
U_sum = X + Y
V_diff = X - Y
ax = axes[0]
ax.scatter(U_sum[:3000], V_diff[:3000], alpha=0.1, s=1)
ax.set_xlabel("U = X + Y")
ax.set_ylabel("V = X - Y")
ax.set_title(f"Sum vs Diff (corr = {np.corrcoef(U_sum, V_diff)[0,1]:.3f})")
ax.set_xlim(-6, 6)
ax.set_ylim(-6, 6)
# 2) 합의 분포: N(0, 2) 확인
ax = axes[1]
ax.hist(U_sum, bins=80, density=True, alpha=0.6, label="U = X + Y (sim)")
u_grid = np.linspace(-6, 6, 200)
ax.plot(u_grid, stats.norm.pdf(u_grid, 0, np.sqrt(2)), 'r-',
linewidth=2, label=r"$N(0, 2)$ theory")
ax.set_title("Sum Distribution")
ax.legend(fontsize=9)
# 3) 비율: U = X/Y -> Cauchy
ratio = X / Y
ratio_clipped = ratio[np.abs(ratio) < 10] # 시각화를 위해 절단
ax = axes[2]
ax.hist(ratio_clipped, bins=200, density=True, alpha=0.6, label="X/Y (sim)")
u_grid = np.linspace(-10, 10, 500)
ax.plot(u_grid, stats.cauchy.pdf(u_grid), 'r-', linewidth=2, label="Cauchy theory")
ax.set_title("Ratio X/Y = Cauchy")
ax.set_ylim(0, 0.4)
ax.legend(fontsize=9)
plt.tight_layout()
plt.show()
print(f"U=X+Y: mean={np.mean(U_sum):.3f}, var={np.var(U_sum):.3f} (theory: 0, 2)")
print(f"corr(U, V) = {np.corrcoef(U_sum, V_diff)[0,1]:.4f} (theory: 0)")10 관련 주제
선행 지식
- 단변량 변환 – 단변량 변환 방법
- 결합분포와 주변분포 – 결합 PDF와 주변 PDF
- 조건부분포와 독립성 – 독립성 판별
후속 주제
- 계층모형과 혼합분포 – 결합분포의 계층적 분해
- 확률 표본의 성질 – 표본 합의 분포 (Ch.5)
관련 개념