1 왜 적분과 미분을 교환해야 하는가
통계학에서 “모수 \(\theta\) 에 대해 기댓값을 미분한다”는 연산은 매우 빈번하게 등장한다.
\[ \frac{d}{d\theta} E_\theta[g(X)] = \frac{d}{d\theta} \int g(x) f(x|\theta) \, dx \]
이 연산이 자연스러워 보이지만, 미분과 적분의 순서를 바꾸는 것은 수학적으로 항상 허용되지 않는다. 유한 구간에서의 적분은 문제가 없으나, 무한 구간에서의 적분은 조건 없이 교환하면 틀린 결과를 얻을 수 있다.
| 분야 | 구체적 사용 | 교환이 필요한 이유 |
|---|---|---|
| MLE | 스코어 함수 \(\frac{\partial}{\partial\theta} \log f(x|\theta)\) 의 기댓값이 0임을 증명 | \(\frac{d}{d\theta} \int f(x|\theta) dx = 0\) 에서 미분을 적분 안으로 이동 |
| 피셔 정보량 | \(I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2} \log f(X|\theta)\right]\) 유도 | 2차 미분과 적분의 교환 |
| 지수족 | \(E[T(X)] = \frac{d}{d\eta} A(\eta)\) 관계 유도 | 로그 분배함수의 미분이 충분통계량의 기댓값 |
| MGF | \(M_X'(t) = E[Xe^{tX}]\) — 적률 계산 | MGF 미분이 적률을 생성 |
| 베이지안 | 사후분포의 정규화 상수 미분 | 사전-가능도 적분과 모수 미분의 교환 |
2 라이프니츠 규칙 (Leibniz’s Rule)
\(f(x, \theta)\) , \(a(\theta)\) , \(b(\theta)\) 가 모두 \(\theta\) 에 대해 미분 가능하면,
\[ \frac{d}{d\theta} \int_{a(\theta)}^{b(\theta)} f(x, \theta) \, dx = f(b(\theta), \theta) \cdot b'(\theta) - f(a(\theta), \theta) \cdot a'(\theta) + \int_{a(\theta)}^{b(\theta)} \frac{\partial}{\partial\theta} f(x, \theta) \, dx \]
이 공식은 미적분학의 기본정리와 연쇄법칙의 결합이다. 세 항의 직관은 다음과 같다.
- 첫째 항 \(f(b(\theta), \theta) \cdot b'(\theta)\) : 적분 상한이 \(\theta\) 에 따라 움직이면서 생기는 변화
- 둘째 항 \(-f(a(\theta), \theta) \cdot a'(\theta)\) : 적분 하한이 움직이면서 생기는 변화
- 셋째 항 \(\int \frac{\partial}{\partial\theta} f(x, \theta) dx\) : 적분 구간은 고정된 채로, 피적분함수 자체가 \(\theta\) 에 대해 변하면서 생기는 변화
적분을 “수조에 담긴 물의 총량”으로 생각하면, 모수 \(\theta\) 를 변화시킬 때 총량이 바뀌는 경로는 세 가지이다. (1) 수조의 오른쪽 벽이 움직인다 (상한 변화), (2) 왼쪽 벽이 움직인다 (하한 변화), (3) 벽은 고정인데 내부의 수위 분포가 달라진다 (피적분함수 변화). 라이프니츠 규칙은 이 세 효과를 정확히 분리한다.
2.1 특수한 경우: 고정 적분 구간
적분 한계가 \(\theta\) 에 의존하지 않으면 첫째, 둘째 항이 사라진다.
\[ \frac{d}{d\theta} \int_a^b f(x, \theta) \, dx = \int_a^b \frac{\partial}{\partial\theta} f(x, \theta) \, dx \]
유한 구간에서 미분 가능한 함수의 적분이라면, 이 교환은 항상 정당화된다. 통계학에서 문제가 되는 것은 적분 구간이 무한인 경우이다.
3 무한 구간에서의 교환: 지배수렴정리
적분 구간이 \((-\infty, \infty)\) 이면, 미분은 극한이므로 극한과 적분의 교환 문제로 환원된다.
\[ \frac{d}{d\theta} \int_{-\infty}^{\infty} f(x, \theta) \, dx = \lim_{\delta \to 0} \int_{-\infty}^{\infty} \frac{f(x, \theta+\delta) - f(x, \theta)}{\delta} \, dx \]
이것이 \(\int_{-\infty}^{\infty} \lim_{\delta \to 0} \frac{f(x, \theta+\delta) - f(x, \theta)}{\delta} \, dx\) 와 같으려면, 극한과 적분의 순서를 바꿀 수 있어야 한다. 이를 보장하는 핵심 도구가 르베그 지배수렴정리(Lebesgue’s Dominated Convergence Theorem)이다.
함수 \(h(x, y)\) 가 각 \(x\) 에 대해 \(y_0\) 에서 연속이고, 다음을 만족하는 함수 \(g(x)\) 가 존재하면:
- \(|h(x, y)| \leq g(x)\) (모든 \(x, y\) 에 대해)
- \(\int_{-\infty}^{\infty} g(x) \, dx < \infty\)
\[ \lim_{y \to y_0} \int_{-\infty}^{\infty} h(x, y) \, dx = \int_{-\infty}^{\infty} \lim_{y \to y_0} h(x, y) \, dx \]
핵심 조건은 지배함수(dominating function) \(g(x)\) 의 존재이다. “적분이 아무리 나쁘게 행동해도 \(g(x)\) 아래에서 통제된다”는 보장이 있으면 극한과 적분을 교환할 수 있다.
ML 학습에서 그래디언트 추정이 유효하려면 손실 함수의 기댓값과 미분을 교환해야 한다. 지배함수 조건이 만족되지 않으면 — 예를 들어 꼬리가 매우 두꺼운 손실 — 확률적 경사 하강법(SGD)의 그래디언트 추정이 불안정해진다. 이것이 실무에서 그래디언트 클리핑이 필요한 이론적 근거이다.
4 미분과 적분 교환의 정밀한 조건
\(f(x, \theta)\) 가 \(\theta = \theta_0\) 에서 모든 \(x\) 에 대해 미분 가능하고, 함수 \(g(x, \theta_0)\) 와 상수 \(\delta_0 > 0\) 이 존재하여 다음을 만족하면:
- \(\left| \frac{f(x, \theta_0 + \delta) - f(x, \theta_0)}{\delta} \right| \leq g(x, \theta_0)\) (모든 \(x\) 와 \(|\delta| \leq \delta_0\) 에 대해)
- \(\int_{-\infty}^{\infty} g(x, \theta_0) \, dx < \infty\)
\[ \frac{d}{d\theta} \int_{-\infty}^{\infty} f(x, \theta) \, dx \bigg|_{\theta = \theta_0} = \int_{-\infty}^{\infty} \frac{\partial}{\partial\theta} f(x, \theta) \bigg|_{\theta = \theta_0} \, dx \]
조건 (i)은 리프시츠(Lipschitz) 조건의 일종으로, \(f\) 의 1차 도함수의 변동성을 제한한다. 실질적으로 “피적분함수가 \(\theta\) 방향으로 너무 급격하게 변하지 않는다”는 매끄러움(smoothness) 요구이다.
4.1 실용적 따름정리 (Corollary 2.4.4)
\(f(x, \theta)\) 가 \(\theta\) 전체 구간에서 미분 가능할 때, 평균값 정리를 적용하면 조건 (i)을 편미분으로 대체할 수 있다.
\(f(x, \theta)\) 가 \(\theta\) 에 대해 미분 가능하고, \(g(x, \theta)\) 가 존재하여 다음을 만족하면:
\[ \left| \frac{\partial}{\partial\theta} f(x, \theta) \bigg|_{\theta = \theta'} \right| \leq g(x, \theta) \quad \text{for all } \theta' \text{ s.t. } |\theta' - \theta| \leq \delta_0 \]
\[ \int_{-\infty}^{\infty} g(x, \theta) \, dx < \infty \]
교환이 정당화된다:
\[ \frac{d}{d\theta} \int_{-\infty}^{\infty} f(x, \theta) \, dx = \int_{-\infty}^{\infty} \frac{\partial}{\partial\theta} f(x, \theta) \, dx \]
실무에서는 Theorem 2.4.3보다 이 따름정리를 더 자주 사용한다. “편미분의 절댓값을 적분 가능한 함수로 바운딩할 수 있는가?”만 확인하면 된다.
5 예시: 지수 분포의 적률 재귀
\(X \sim \text{Exp}(\lambda)\) , 즉 \(f(x) = \frac{1}{\lambda} e^{-x/\lambda}\) ( \(x > 0\) )일 때, \(E[X^n]\) 의 \(\lambda\) 에 대한 미분을 구한다.
\[ \frac{d}{d\lambda} E[X^n] = \frac{d}{d\lambda} \int_0^{\infty} x^n \cdot \frac{1}{\lambda} e^{-x/\lambda} \, dx \]
미분을 적분 안으로 이동하면:
\[ \frac{d}{d\lambda} E[X^n] = \int_0^{\infty} \frac{\partial}{\partial\lambda} \left( \frac{x^n e^{-x/\lambda}}{\lambda} \right) dx = \int_0^{\infty} \frac{x^n e^{-x/\lambda}}{\lambda^2} \left( \frac{x}{\lambda} - 1 \right) dx = \frac{1}{\lambda^2} E[X^{n+1}] - \frac{1}{\lambda} E[X^n] \]
이를 정리하면 적률의 재귀 관계(recursion)를 얻는다.
\[ E[X^{n+1}] = \lambda \, E[X^n] + \lambda^2 \frac{d}{d\lambda} E[X^n] \]
\(E[X^0] = 1\) 에서 출발하여 \(E[X] = \lambda\) , \(E[X^2] = 2\lambda^2\) , \(E[X^3] = 6\lambda^3\) 등을 순차적으로 구할 수 있다. 적분과 미분의 교환 하나로 복잡한 적률 적분을 대수적 재귀로 환원한 것이다.
5.1 교환의 정당화
\(\left| \frac{\partial}{\partial\lambda} \frac{x^n e^{-x/\lambda}}{\lambda} \right| \leq \frac{x^n e^{-x/\lambda}}{\lambda^2} \left( \frac{x}{\lambda} + 1 \right)\) 이고, \(0 < \delta_0 < \lambda\) 에 대해
\[ g(x, \lambda) = \frac{x^n e^{-x/(\lambda + \delta_0)}}{(\lambda - \delta_0)^2} \left( \frac{x}{\lambda - \delta_0} + 1 \right) \]
로 두면 \(\int_0^{\infty} g(x, \lambda) dx < \infty\) 이다. 지수 분포는 모든 적률이 존재하므로 지배함수의 적분 가능성이 보장된다.
6 예시: 정규 분포 MGF 미분의 정당화
\(X \sim N(\mu, 1)\) 의 MGF \(M_X(t) = E[e^{tX}]\) 에서 적률을 구하려면:
\[ M_X'(t) = \frac{d}{dt} \int_{-\infty}^{\infty} e^{tx} \cdot \frac{1}{\sqrt{2\pi}} e^{-(x-\mu)^2/2} \, dx = \int_{-\infty}^{\infty} x e^{tx} \cdot \frac{1}{\sqrt{2\pi}} e^{-(x-\mu)^2/2} \, dx = E[Xe^{tX}] \]
교환을 정당화하려면 \(\left| \frac{\partial}{\partial t} e^{tx} e^{-(x-\mu)^2/2} \right| = |x| e^{tx} e^{-(x-\mu)^2/2}\) 를 바운딩하는 지배함수가 필요하다. \(x \geq 0\) 과 \(x < 0\) 을 분리하여:
\[ g(x, t) = \begin{cases} |x| \, e^{(t-\delta_0)x} \, e^{-(x-\mu)^2/2} & x < 0 \\ |x| \, e^{(t+\delta_0)x} \, e^{-(x-\mu)^2/2} & x \geq 0 \end{cases} \]
각 경우에서 지수 부분을 완전제곱식으로 정리하면, \(g\) 의 적분은 본질적으로 정규 분포의 평균을 구하는 것과 같다. 정규 분포의 모든 적률이 유한하므로 \(\int g(x, t) dx < \infty\) 가 보장된다.
모든 분포에서 교환이 가능한 것은 아니다. 로그정규(LogNormal) 분포는 모든 적률 \(E[X^n]\) 이 존재하지만 MGF \(E[e^{tX}]\) 는 \(t > 0\) 에서 발산한다. 이 경우 \(e^{tx} f(x)\) 의 꼬리가 어떤 지배함수로도 바운딩되지 않으므로, MGF의 미분과 적분 교환이 정당화되지 않는다. 따라서 MGF가 존재하지 않는 분포에서는 적률 생성에 이 기법을 사용할 수 없다 — 이것이 특성함수(characteristic function)가 필요한 이유이다.
7 급수와 미분의 교환
이산 분포에서는 적분 대신 급수가 등장한다. 유한 합에서는 미분을 항상 안으로 넣을 수 있지만, 무한 급수에서는 별도의 정당화가 필요하다.
급수 \(\sum_{x=0}^{\infty} h(\theta, x)\) 가 구간 \((a, b)\) 의 모든 \(\theta\) 에서 수렴하고, 다음을 만족하면:
- \(\frac{\partial}{\partial\theta} h(\theta, x)\) 가 각 \(x\) 에 대해 \(\theta\) 에서 연속
- \(\sum_{x=0}^{\infty} \frac{\partial}{\partial\theta} h(\theta, x)\) 가 \((a, b)\) 의 모든 닫힌 유계 부분 구간에서 균등수렴(uniformly convergent)
\[ \frac{d}{d\theta} \sum_{x=0}^{\infty} h(\theta, x) = \sum_{x=0}^{\infty} \frac{\partial}{\partial\theta} h(\theta, x) \]
핵심 조건은 균등수렴이다. 각 점에서의 수렴(점별수렴)만으로는 부족하고, 수렴 속도가 \(\theta\) 값에 관계없이 균일해야 한다.
7.1 예시: 기하 분포의 기댓값
\(X \sim \text{Geometric}(\theta)\) , 즉 \(P(X = x) = \theta(1-\theta)^x\) ( \(x = 0, 1, 2, \ldots\) )에서 \(\sum_{x=0}^{\infty} \theta(1-\theta)^x = 1\) 이므로:
\[ \frac{d}{d\theta} \sum_{x=0}^{\infty} \theta(1-\theta)^x = 0 \]
미분을 합 안으로 넣으면:
\[ \sum_{x=0}^{\infty} \left[ (1-\theta)^x - \theta x (1-\theta)^{x-1} \right] = 0 \]
\[ \frac{1}{\theta} \underbrace{\sum_{x=0}^{\infty} \theta(1-\theta)^x}_{=1} - \frac{1}{1-\theta} \underbrace{\sum_{x=0}^{\infty} x \theta(1-\theta)^x}_{= E[X]} = 0 \]
따라서 \(E[X] = \frac{1-\theta}{\theta}\) 이다.
복잡한 급수 \(\sum x \theta(1-\theta)^x\) 를 직접 합산하지 않고, “전체 합이 상수 1”이라는 사실에 미분을 적용하여 기댓값을 대수적으로 도출한 것이다. 이것이 적분(급수) 기호 아래서의 미분이 제공하는 강력한 계산 도구이다.
8 통계학에서의 핵심 응용
8.1 스코어 함수의 기댓값이 0
\(\int f(x|\theta) dx = 1\) 의 양변을 \(\theta\) 로 미분하면 (교환 조건이 만족된다고 가정):
\[ \frac{d}{d\theta} \int f(x|\theta) \, dx = \int \frac{\partial}{\partial\theta} f(x|\theta) \, dx = 0 \]
\(\frac{\partial}{\partial\theta} f(x|\theta) = f(x|\theta) \cdot \frac{\partial}{\partial\theta} \log f(x|\theta)\) 이므로:
\[ \int \frac{\partial}{\partial\theta} \log f(x|\theta) \cdot f(x|\theta) \, dx = E_\theta\left[ \frac{\partial}{\partial\theta} \log f(X|\theta) \right] = 0 \]
스코어 함수 \(S(\theta) = \frac{\partial}{\partial\theta} \log f(X|\theta)\) 의 기댓값이 0이라는 결과이다. 이것이 MLE의 이론적 기반이다 — 참된 모수에서 스코어의 평균이 0이므로, 스코어를 0으로 만드는 \(\hat{\theta}\) 가 좋은 추정량이라는 논리가 성립한다.
8.2 피셔 정보량 유도
한 번 더 미분하면:
\[ \frac{d^2}{d\theta^2} \int f(x|\theta) \, dx = \int \frac{\partial^2}{\partial\theta^2} f(x|\theta) \, dx = 0 \]
이를 전개하면:
\[ E_\theta\left[ \frac{\partial^2}{\partial\theta^2} \log f(X|\theta) \right] + E_\theta\left[ \left( \frac{\partial}{\partial\theta} \log f(X|\theta) \right)^2 \right] = 0 \]
따라서 피셔 정보량은:
\[ I(\theta) = E_\theta\left[ S(\theta)^2 \right] = -E_\theta\left[ \frac{\partial^2}{\partial\theta^2} \log f(X|\theta) \right] \]
“스코어의 분산 = 로그 가능도 2차 미분의 기댓값의 음수”라는 관계가 적분과 미분의 교환으로부터 직접 도출된다.
- 크래머-라오 하한: \(\text{Var}(\hat{\theta}) \geq \frac{1}{n \cdot I(\theta)}\) — 어떤 비편향 추정량도 이보다 정밀할 수 없다. 실험 설계에서 필요한 표본 크기를 결정하는 데 사용된다.
- MLE의 점근 분산: \(\sqrt{n}(\hat{\theta}_{MLE} - \theta) \xrightarrow{d} N(0, 1/I(\theta))\) — MLE의 신뢰구간 폭이 피셔 정보량에 의해 결정된다.
- 실험 설계 최적화: 피셔 정보량을 최대화하는 설계(D-optimal design)가 정보 수집 효율을 극대화한다.
8.3 지수족에서의 적률 관계
지수족 \(f(x|\eta) = h(x) \exp(\eta T(x) - A(\eta))\) 에서 \(\int f(x|\eta) dx = 1\) 을 \(\eta\) 로 미분하면:
\[ E[T(X)] = A'(\eta), \qquad \text{Var}(T(X)) = A''(\eta) \]
로그 분배함수(log-partition function) \(A(\eta)\) 의 미분만으로 충분통계량의 기댓값과 분산을 구할 수 있다. 이것이 지수족이 통계학에서 중심적 역할을 하는 이유 중 하나이며, 적분과 미분의 교환이 그 배후에 있다.
9 코드 예시
9.1 Step 1: 순수 Python 구현 (원리 이해)
수치 미분으로 “적분의 미분”과 “미분의 적분”이 일치하는지 직접 확인한다.
import math
# 지수 분포 f(x|lambda) = (1/lam) * exp(-x/lam)
def exp_pdf(x, lam):
return (1.0 / lam) * math.exp(-x / lam)
# 수치 적분 (사다리꼴 규칙)
def numerical_integrate(func, a, b, n_points=10000):
dx = (b - a) / n_points
total = 0.5 * (func(a) + func(b))
for i in range(1, n_points):
total += func(a + i * dx)
return total * dx
# 방법 1: d/d(lambda) integral x^2 * f(x|lambda) dx (적분 후 수치 미분)
lam = 2.0
delta = 1e-6
def moment2(lam_val):
return numerical_integrate(lambda x: x**2 * exp_pdf(x, lam_val), 0, 50, 20000)
deriv_outside = (moment2(lam + delta) - moment2(lam - delta)) / (2 * delta)
# 방법 2: integral (d/d(lambda) x^2 * f(x|lambda)) dx (미분 후 적분)
def partial_deriv(x, lam_val):
# d/d(lam) [x^2 * (1/lam) * exp(-x/lam)]
# = x^2 * exp(-x/lam) / lam^2 * (x/lam - 1)
return x**2 * math.exp(-x / lam_val) / lam_val**2 * (x / lam_val - 1)
deriv_inside = numerical_integrate(lambda x: partial_deriv(x, lam), 0, 50, 20000)
# 해석적 결과: d/d(lam) E[X^2] = d/d(lam) 2*lam^2 = 4*lam
analytic = 4 * lam
print(f"적분 후 미분 (수치): {deriv_outside:.6f}")
print(f"미분 후 적분 (수치): {deriv_inside:.6f}")
print(f"해석적 결과: {analytic:.6f}")9.2 Step 2: scipy/numpy 구현 (실무 활용)
import numpy as np
from scipy import integrate, misc
lam = 2.0
# 방법 1: 적분 후 수치 미분
def moment2_scipy(lam_val):
result, _ = integrate.quad(
lambda x: x**2 * (1/lam_val) * np.exp(-x/lam_val), 0, np.inf
)
return result
deriv_outside = misc.derivative(moment2_scipy, lam, dx=1e-6)
# 방법 2: 미분 후 적분 (편미분을 직접 적분)
def partial_deriv_integrand(x, lam_val):
return x**2 * np.exp(-x/lam_val) / lam_val**2 * (x/lam_val - 1)
deriv_inside, _ = integrate.quad(partial_deriv_integrand, 0, np.inf, args=(lam,))
# 해석적 결과
analytic = 4 * lam
print(f"적분 후 미분: {deriv_outside:.6f}")
print(f"미분 후 적분: {deriv_inside:.6f}")
print(f"해석적 결과: {analytic:.6f}")
# 기하 분포 기댓값: d/d(theta) [sum theta*(1-theta)^x] = 0 활용
theta = 0.3
# 직접 급수로 E[X] 계산
N = 1000
EX_direct = sum(x * theta * (1 - theta)**x for x in range(N))
EX_formula = (1 - theta) / theta
print(f"\n기하 분포 E[X] (급수): {EX_direct:.6f}")
print(f"기하 분포 E[X] (공식): {EX_formula:.6f}")10 교환 가능 여부 판별 요약
| 상황 | 교환 가능 여부 | 근거 |
|---|---|---|
| 유한 구간 \([a, b]\) , \(f\) 미분 가능 | 항상 가능 | 라이프니츠 규칙 직접 적용 |
| 무한 구간, 지배함수 존재 | 가능 | Theorem 2.4.3 / Corollary 2.4.4 |
| 무한 구간, 지배함수 없음 | 불가 (일반적으로) | 지배수렴정리 조건 미충족 |
| 유한 급수 | 항상 가능 | 유한 합과 미분은 항상 교환 가능 |
| 무한 급수, 균등수렴 | 가능 | Theorem 2.4.8 |
| 지수족 | 항상 가능 (자연모수 공간 내부) | 지수족의 구조적 성질이 지배함수를 자동 보장 |
대부분의 표준 분포(정규, 지수, 감마, 베타, 포아송, 이항 등)와 지수족에서는 교환이 성립한다. 실무에서 주의해야 할 경우는 다음과 같다.
- 꼬리가 매우 두꺼운 분포 (코시, 안정 분포 등): 적률 자체가 존재하지 않을 수 있다
- 지지(support)가 모수에 의존하는 분포 (균등 \(U(0, \theta)\) 등): 적분 한계가 \(\theta\) 함수이므로 라이프니츠 규칙의 전체 형태를 사용해야 한다
- 혼합 모형의 정규화 상수: EM 알고리즘에서 교환을 정당화하는 것이 수렴 보장의 기초이다
11 관련 주제
선행 지식
- 기대값 — 정의, LOTUS, 선형성, 분산, 공분산, 적률, MGF, 부등식
- 적률과 적률생성함수 — 적률 체계, MGF 존재 유일성, 큐뮬런트, 특성함수, 체르노프 바운드
- 확률변수 함수의 분포 — CDF법, 변수변환법(야코비안), MGF법
후속 주제
- 지수족 — Exponential Family Overview — 지수족에서 적분-미분 교환이 자동 보장되는 구조
- Maximum Likelihood Estimation — 스코어 함수와 피셔 정보량의 유도
- 데이터 축소의 원리 (Sufficiency, Likelihood, Equivariance) — 충분통계량과 지수족의 연결
관련 개념
- 변환과 기대값 개요 — Ch.2 전체 구조 조감