Kwangmin Kim - 적분 기호 아래서의 미분 (Differentiating Under an Integral Sign)

1 왜 적분과 미분을 교환해야 하는가

통계학에서 “모수 \(\theta\) 에 대해 기댓값을 미분한다”는 연산은 매우 빈번하게 등장한다.

\[ \frac{d}{d\theta} E_\theta[g(X)] = \frac{d}{d\theta} \int g(x) f(x|\theta) \, dx \]

이 연산이 자연스러워 보이지만, 미분과 적분의 순서를 바꾸는 것은 수학적으로 항상 허용되지 않는다. 유한 구간에서의 적분은 문제가 없으나, 무한 구간에서의 적분은 조건 없이 교환하면 틀린 결과를 얻을 수 있다.

이 연산이 필수적인 곳들

분야	구체적 사용	교환이 필요한 이유
MLE	스코어 함수 \(\frac{\partial}{\partial\theta} \log f(x\|\theta)\) 의 기댓값이 0임을 증명	\(\frac{d}{d\theta} \int f(x\|\theta) dx = 0\) 에서 미분을 적분 안으로 이동
피셔 정보량	\(I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2} \log f(X\|\theta)\right]\) 유도	2차 미분과 적분의 교환
지수족	\(E[T(X)] = \frac{d}{d\eta} A(\eta)\) 관계 유도	로그 분배함수의 미분이 충분통계량의 기댓값
MGF	\(M_X'(t) = E[Xe^{tX}]\) — 적률 계산	MGF 미분이 적률을 생성
베이지안	사후분포의 정규화 상수 미분	사전-가능도 적분과 모수 미분의 교환

2 라이프니츠 규칙 (Leibniz’s Rule)

정리: 라이프니츠 규칙 (Casella & Berger, Theorem 2.4.1)

\(f(x, \theta)\) , \(a(\theta)\) , \(b(\theta)\) 가 모두 \(\theta\) 에 대해 미분 가능하면,

\[ \frac{d}{d\theta} \int_{a(\theta)}^{b(\theta)} f(x, \theta) \, dx = f(b(\theta), \theta) \cdot b'(\theta) - f(a(\theta), \theta) \cdot a'(\theta) + \int_{a(\theta)}^{b(\theta)} \frac{\partial}{\partial\theta} f(x, \theta) \, dx \]

이 공식은 미적분학의 기본정리와 연쇄법칙의 결합이다. 세 항의 직관은 다음과 같다.

첫째 항 \(f(b(\theta), \theta) \cdot b'(\theta)\) : 적분 상한이 \(\theta\) 에 따라 움직이면서 생기는 변화
둘째 항 \(-f(a(\theta), \theta) \cdot a'(\theta)\) : 적분 하한이 움직이면서 생기는 변화
셋째 항 \(\int \frac{\partial}{\partial\theta} f(x, \theta) dx\) : 적분 구간은 고정된 채로, 피적분함수 자체가 \(\theta\) 에 대해 변하면서 생기는 변화

직관 – 수조에 흐르는 물

적분을 “수조에 담긴 물의 총량”으로 생각하면, 모수 \(\theta\) 를 변화시킬 때 총량이 바뀌는 경로는 세 가지이다. (1) 수조의 오른쪽 벽이 움직인다 (상한 변화), (2) 왼쪽 벽이 움직인다 (하한 변화), (3) 벽은 고정인데 내부의 수위 분포가 달라진다 (피적분함수 변화). 라이프니츠 규칙은 이 세 효과를 정확히 분리한다.

2.1 특수한 경우: 고정 적분 구간

적분 한계가 \(\theta\) 에 의존하지 않으면 첫째, 둘째 항이 사라진다.

\[ \frac{d}{d\theta} \int_a^b f(x, \theta) \, dx = \int_a^b \frac{\partial}{\partial\theta} f(x, \theta) \, dx \]

유한 구간에서 미분 가능한 함수의 적분이라면, 이 교환은 항상 정당화된다. 통계학에서 문제가 되는 것은 적분 구간이 무한인 경우이다.

3 무한 구간에서의 교환: 지배수렴정리

적분 구간이 \((-\infty, \infty)\) 이면, 미분은 극한이므로 극한과 적분의 교환 문제로 환원된다.

\[ \frac{d}{d\theta} \int_{-\infty}^{\infty} f(x, \theta) \, dx = \lim_{\delta \to 0} \int_{-\infty}^{\infty} \frac{f(x, \theta+\delta) - f(x, \theta)}{\delta} \, dx \]

이것이 \(\int_{-\infty}^{\infty} \lim_{\delta \to 0} \frac{f(x, \theta+\delta) - f(x, \theta)}{\delta} \, dx\) 와 같으려면, 극한과 적분의 순서를 바꿀 수 있어야 한다. 이를 보장하는 핵심 도구가 르베그 지배수렴정리(Lebesgue’s Dominated Convergence Theorem)이다.

정리: 극한과 적분의 교환 (Casella & Berger, Theorem 2.4.2)

함수 \(h(x, y)\) 가 각 \(x\) 에 대해 \(y_0\) 에서 연속이고, 다음을 만족하는 함수 \(g(x)\) 가 존재하면:

\(|h(x, y)| \leq g(x)\) (모든 \(x, y\) 에 대해)
\(\int_{-\infty}^{\infty} g(x) \, dx < \infty\)

\[ \lim_{y \to y_0} \int_{-\infty}^{\infty} h(x, y) \, dx = \int_{-\infty}^{\infty} \lim_{y \to y_0} h(x, y) \, dx \]

핵심 조건은 지배함수(dominating function) \(g(x)\) 의 존재이다. “적분이 아무리 나쁘게 행동해도 \(g(x)\) 아래에서 통제된다”는 보장이 있으면 극한과 적분을 교환할 수 있다.

지배함수의 역할 – DS 관점

ML 학습에서 그래디언트 추정이 유효하려면 손실 함수의 기댓값과 미분을 교환해야 한다. 지배함수 조건이 만족되지 않으면 — 예를 들어 꼬리가 매우 두꺼운 손실 — 확률적 경사 하강법(SGD)의 그래디언트 추정이 불안정해진다. 이것이 실무에서 그래디언트 클리핑이 필요한 이론적 근거이다.

4 미분과 적분 교환의 정밀한 조건

정리: 적분과 미분의 교환 (Casella & Berger, Theorem 2.4.3)

\(f(x, \theta)\) 가 \(\theta = \theta_0\) 에서 모든 \(x\) 에 대해 미분 가능하고, 함수 \(g(x, \theta_0)\) 와 상수 \(\delta_0 > 0\) 이 존재하여 다음을 만족하면:

\(\left| \frac{f(x, \theta_0 + \delta) - f(x, \theta_0)}{\delta} \right| \leq g(x, \theta_0)\) (모든 \(x\) 와 \(|\delta| \leq \delta_0\) 에 대해)
\(\int_{-\infty}^{\infty} g(x, \theta_0) \, dx < \infty\)

\[ \frac{d}{d\theta} \int_{-\infty}^{\infty} f(x, \theta) \, dx \bigg|_{\theta = \theta_0} = \int_{-\infty}^{\infty} \frac{\partial}{\partial\theta} f(x, \theta) \bigg|_{\theta = \theta_0} \, dx \]

조건 (i)은 리프시츠(Lipschitz) 조건의 일종으로, \(f\) 의 1차 도함수의 변동성을 제한한다. 실질적으로 “피적분함수가 \(\theta\) 방향으로 너무 급격하게 변하지 않는다”는 매끄러움(smoothness) 요구이다.

4.1 실용적 따름정리 (Corollary 2.4.4)

\(f(x, \theta)\) 가 \(\theta\) 전체 구간에서 미분 가능할 때, 평균값 정리를 적용하면 조건 (i)을 편미분으로 대체할 수 있다.

따름정리 (Casella & Berger, Corollary 2.4.4)

\(f(x, \theta)\) 가 \(\theta\) 에 대해 미분 가능하고, \(g(x, \theta)\) 가 존재하여 다음을 만족하면:

\[ \left| \frac{\partial}{\partial\theta} f(x, \theta) \bigg|_{\theta = \theta'} \right| \leq g(x, \theta) \quad \text{for all } \theta' \text{ s.t. } |\theta' - \theta| \leq \delta_0 \]

\[ \int_{-\infty}^{\infty} g(x, \theta) \, dx < \infty \]

교환이 정당화된다:

\[ \frac{d}{d\theta} \int_{-\infty}^{\infty} f(x, \theta) \, dx = \int_{-\infty}^{\infty} \frac{\partial}{\partial\theta} f(x, \theta) \, dx \]

실무에서는 Theorem 2.4.3보다 이 따름정리를 더 자주 사용한다. “편미분의 절댓값을 적분 가능한 함수로 바운딩할 수 있는가?”만 확인하면 된다.

5 예시: 지수 분포의 적률 재귀

\(X \sim \text{Exp}(\lambda)\) , 즉 \(f(x) = \frac{1}{\lambda} e^{-x/\lambda}\) ( \(x > 0\) )일 때, \(E[X^n]\) 의 \(\lambda\) 에 대한 미분을 구한다.

\[ \frac{d}{d\lambda} E[X^n] = \frac{d}{d\lambda} \int_0^{\infty} x^n \cdot \frac{1}{\lambda} e^{-x/\lambda} \, dx \]

미분을 적분 안으로 이동하면:

\[ \frac{d}{d\lambda} E[X^n] = \int_0^{\infty} \frac{\partial}{\partial\lambda} \left( \frac{x^n e^{-x/\lambda}}{\lambda} \right) dx = \int_0^{\infty} \frac{x^n e^{-x/\lambda}}{\lambda^2} \left( \frac{x}{\lambda} - 1 \right) dx = \frac{1}{\lambda^2} E[X^{n+1}] - \frac{1}{\lambda} E[X^n] \]

이를 정리하면 적률의 재귀 관계(recursion)를 얻는다.

\[ E[X^{n+1}] = \lambda \, E[X^n] + \lambda^2 \frac{d}{d\lambda} E[X^n] \]

\(E[X^0] = 1\) 에서 출발하여 \(E[X] = \lambda\) , \(E[X^2] = 2\lambda^2\) , \(E[X^3] = 6\lambda^3\) 등을 순차적으로 구할 수 있다. 적분과 미분의 교환 하나로 복잡한 적률 적분을 대수적 재귀로 환원한 것이다.

5.1 교환의 정당화

\(\left| \frac{\partial}{\partial\lambda} \frac{x^n e^{-x/\lambda}}{\lambda} \right| \leq \frac{x^n e^{-x/\lambda}}{\lambda^2} \left( \frac{x}{\lambda} + 1 \right)\) 이고, \(0 < \delta_0 < \lambda\) 에 대해

\[ g(x, \lambda) = \frac{x^n e^{-x/(\lambda + \delta_0)}}{(\lambda - \delta_0)^2} \left( \frac{x}{\lambda - \delta_0} + 1 \right) \]

로 두면 \(\int_0^{\infty} g(x, \lambda) dx < \infty\) 이다. 지수 분포는 모든 적률이 존재하므로 지배함수의 적분 가능성이 보장된다.

6 예시: 정규 분포 MGF 미분의 정당화

\(X \sim N(\mu, 1)\) 의 MGF \(M_X(t) = E[e^{tX}]\) 에서 적률을 구하려면:

\[ M_X'(t) = \frac{d}{dt} \int_{-\infty}^{\infty} e^{tx} \cdot \frac{1}{\sqrt{2\pi}} e^{-(x-\mu)^2/2} \, dx = \int_{-\infty}^{\infty} x e^{tx} \cdot \frac{1}{\sqrt{2\pi}} e^{-(x-\mu)^2/2} \, dx = E[Xe^{tX}] \]

교환을 정당화하려면 \(\left| \frac{\partial}{\partial t} e^{tx} e^{-(x-\mu)^2/2} \right| = |x| e^{tx} e^{-(x-\mu)^2/2}\) 를 바운딩하는 지배함수가 필요하다. \(x \geq 0\) 과 \(x < 0\) 을 분리하여:

\[ g(x, t) = \begin{cases} |x| \, e^{(t-\delta_0)x} \, e^{-(x-\mu)^2/2} & x < 0 \\ |x| \, e^{(t+\delta_0)x} \, e^{-(x-\mu)^2/2} & x \geq 0 \end{cases} \]

각 경우에서 지수 부분을 완전제곱식으로 정리하면, \(g\) 의 적분은 본질적으로 정규 분포의 평균을 구하는 것과 같다. 정규 분포의 모든 적률이 유한하므로 \(\int g(x, t) dx < \infty\) 가 보장된다.

교환이 실패하는 경우

모든 분포에서 교환이 가능한 것은 아니다. 로그정규(LogNormal) 분포는 모든 적률 \(E[X^n]\) 이 존재하지만 MGF \(E[e^{tX}]\) 는 \(t > 0\) 에서 발산한다. 이 경우 \(e^{tx} f(x)\) 의 꼬리가 어떤 지배함수로도 바운딩되지 않으므로, MGF의 미분과 적분 교환이 정당화되지 않는다. 따라서 MGF가 존재하지 않는 분포에서는 적률 생성에 이 기법을 사용할 수 없다 — 이것이 특성함수(characteristic function)가 필요한 이유이다.

7 급수와 미분의 교환

이산 분포에서는 적분 대신 급수가 등장한다. 유한 합에서는 미분을 항상 안으로 넣을 수 있지만, 무한 급수에서는 별도의 정당화가 필요하다.

정리: 급수와 미분의 교환 (Casella & Berger, Theorem 2.4.8)

급수 \(\sum_{x=0}^{\infty} h(\theta, x)\) 가 구간 \((a, b)\) 의 모든 \(\theta\) 에서 수렴하고, 다음을 만족하면:

\(\frac{\partial}{\partial\theta} h(\theta, x)\) 가 각 \(x\) 에 대해 \(\theta\) 에서 연속
\(\sum_{x=0}^{\infty} \frac{\partial}{\partial\theta} h(\theta, x)\) 가 \((a, b)\) 의 모든 닫힌 유계 부분 구간에서 균등수렴(uniformly convergent)

\[ \frac{d}{d\theta} \sum_{x=0}^{\infty} h(\theta, x) = \sum_{x=0}^{\infty} \frac{\partial}{\partial\theta} h(\theta, x) \]

핵심 조건은 균등수렴이다. 각 점에서의 수렴(점별수렴)만으로는 부족하고, 수렴 속도가 \(\theta\) 값에 관계없이 균일해야 한다.

7.1 예시: 기하 분포의 기댓값

\(X \sim \text{Geometric}(\theta)\) , 즉 \(P(X = x) = \theta(1-\theta)^x\) ( \(x = 0, 1, 2, \ldots\) )에서 \(\sum_{x=0}^{\infty} \theta(1-\theta)^x = 1\) 이므로:

\[ \frac{d}{d\theta} \sum_{x=0}^{\infty} \theta(1-\theta)^x = 0 \]

미분을 합 안으로 넣으면:

\[ \sum_{x=0}^{\infty} \left[ (1-\theta)^x - \theta x (1-\theta)^{x-1} \right] = 0 \]

\[ \frac{1}{\theta} \underbrace{\sum_{x=0}^{\infty} \theta(1-\theta)^x}_{=1} - \frac{1}{1-\theta} \underbrace{\sum_{x=0}^{\infty} x \theta(1-\theta)^x}_{= E[X]} = 0 \]

따라서 \(E[X] = \frac{1-\theta}{\theta}\) 이다.

복잡한 급수 \(\sum x \theta(1-\theta)^x\) 를 직접 합산하지 않고, “전체 합이 상수 1”이라는 사실에 미분을 적용하여 기댓값을 대수적으로 도출한 것이다. 이것이 적분(급수) 기호 아래서의 미분이 제공하는 강력한 계산 도구이다.

8 통계학에서의 핵심 응용

8.1 스코어 함수의 기댓값이 0

\(\int f(x|\theta) dx = 1\) 의 양변을 \(\theta\) 로 미분하면 (교환 조건이 만족된다고 가정):

\[ \frac{d}{d\theta} \int f(x|\theta) \, dx = \int \frac{\partial}{\partial\theta} f(x|\theta) \, dx = 0 \]

\(\frac{\partial}{\partial\theta} f(x|\theta) = f(x|\theta) \cdot \frac{\partial}{\partial\theta} \log f(x|\theta)\) 이므로:

\[ \int \frac{\partial}{\partial\theta} \log f(x|\theta) \cdot f(x|\theta) \, dx = E_\theta\left[ \frac{\partial}{\partial\theta} \log f(X|\theta) \right] = 0 \]

스코어 함수 \(S(\theta) = \frac{\partial}{\partial\theta} \log f(X|\theta)\) 의 기댓값이 0이라는 결과이다. 이것이 MLE의 이론적 기반이다 — 참된 모수에서 스코어의 평균이 0이므로, 스코어를 0으로 만드는 \(\hat{\theta}\) 가 좋은 추정량이라는 논리가 성립한다.

8.2 피셔 정보량 유도

한 번 더 미분하면:

\[ \frac{d^2}{d\theta^2} \int f(x|\theta) \, dx = \int \frac{\partial^2}{\partial\theta^2} f(x|\theta) \, dx = 0 \]

이를 전개하면:

\[ E_\theta\left[ \frac{\partial^2}{\partial\theta^2} \log f(X|\theta) \right] + E_\theta\left[ \left( \frac{\partial}{\partial\theta} \log f(X|\theta) \right)^2 \right] = 0 \]

따라서 피셔 정보량은:

\[ I(\theta) = E_\theta\left[ S(\theta)^2 \right] = -E_\theta\left[ \frac{\partial^2}{\partial\theta^2} \log f(X|\theta) \right] \]

“스코어의 분산 = 로그 가능도 2차 미분의 기댓값의 음수”라는 관계가 적분과 미분의 교환으로부터 직접 도출된다.

피셔 정보량이 DS에서 중요한 이유

크래머-라오 하한: \(\text{Var}(\hat{\theta}) \geq \frac{1}{n \cdot I(\theta)}\) — 어떤 비편향 추정량도 이보다 정밀할 수 없다. 실험 설계에서 필요한 표본 크기를 결정하는 데 사용된다.
MLE의 점근 분산: \(\sqrt{n}(\hat{\theta}_{MLE} - \theta) \xrightarrow{d} N(0, 1/I(\theta))\) — MLE의 신뢰구간 폭이 피셔 정보량에 의해 결정된다.
실험 설계 최적화: 피셔 정보량을 최대화하는 설계(D-optimal design)가 정보 수집 효율을 극대화한다.

8.3 지수족에서의 적률 관계

지수족 \(f(x|\eta) = h(x) \exp(\eta T(x) - A(\eta))\) 에서 \(\int f(x|\eta) dx = 1\) 을 \(\eta\) 로 미분하면:

\[ E[T(X)] = A'(\eta), \qquad \text{Var}(T(X)) = A''(\eta) \]

로그 분배함수(log-partition function) \(A(\eta)\) 의 미분만으로 충분통계량의 기댓값과 분산을 구할 수 있다. 이것이 지수족이 통계학에서 중심적 역할을 하는 이유 중 하나이며, 적분과 미분의 교환이 그 배후에 있다.

9 코드 예시

9.1 Step 1: 순수 Python 구현 (원리 이해)

수치 미분으로 “적분의 미분”과 “미분의 적분”이 일치하는지 직접 확인한다.

import math

# 지수 분포 f(x|lambda) = (1/lam) * exp(-x/lam)
def exp_pdf(x, lam):
    return (1.0 / lam) * math.exp(-x / lam)

# 수치 적분 (사다리꼴 규칙)
def numerical_integrate(func, a, b, n_points=10000):
    dx = (b - a) / n_points
    total = 0.5 * (func(a) + func(b))
    for i in range(1, n_points):
        total += func(a + i * dx)
    return total * dx

# 방법 1: d/d(lambda) integral x^2 * f(x|lambda) dx (적분 후 수치 미분)
lam = 2.0
delta = 1e-6

def moment2(lam_val):
    return numerical_integrate(lambda x: x**2 * exp_pdf(x, lam_val), 0, 50, 20000)

deriv_outside = (moment2(lam + delta) - moment2(lam - delta)) / (2 * delta)

# 방법 2: integral (d/d(lambda) x^2 * f(x|lambda)) dx (미분 후 적분)
def partial_deriv(x, lam_val):
    # d/d(lam) [x^2 * (1/lam) * exp(-x/lam)]
    # = x^2 * exp(-x/lam) / lam^2 * (x/lam - 1)
    return x**2 * math.exp(-x / lam_val) / lam_val**2 * (x / lam_val - 1)

deriv_inside = numerical_integrate(lambda x: partial_deriv(x, lam), 0, 50, 20000)

# 해석적 결과: d/d(lam) E[X^2] = d/d(lam) 2*lam^2 = 4*lam
analytic = 4 * lam

print(f"적분 후 미분 (수치): {deriv_outside:.6f}")
print(f"미분 후 적분 (수치): {deriv_inside:.6f}")
print(f"해석적 결과:         {analytic:.6f}")

9.2 Step 2: scipy/numpy 구현 (실무 활용)

import numpy as np
from scipy import integrate, misc

lam = 2.0

# 방법 1: 적분 후 수치 미분
def moment2_scipy(lam_val):
    result, _ = integrate.quad(
        lambda x: x**2 * (1/lam_val) * np.exp(-x/lam_val), 0, np.inf
    )
    return result

deriv_outside = misc.derivative(moment2_scipy, lam, dx=1e-6)

# 방법 2: 미분 후 적분 (편미분을 직접 적분)
def partial_deriv_integrand(x, lam_val):
    return x**2 * np.exp(-x/lam_val) / lam_val**2 * (x/lam_val - 1)

deriv_inside, _ = integrate.quad(partial_deriv_integrand, 0, np.inf, args=(lam,))

# 해석적 결과
analytic = 4 * lam

print(f"적분 후 미분: {deriv_outside:.6f}")
print(f"미분 후 적분: {deriv_inside:.6f}")
print(f"해석적 결과:  {analytic:.6f}")

# 기하 분포 기댓값: d/d(theta) [sum theta*(1-theta)^x] = 0 활용
theta = 0.3
# 직접 급수로 E[X] 계산
N = 1000
EX_direct = sum(x * theta * (1 - theta)**x for x in range(N))
EX_formula = (1 - theta) / theta

print(f"\n기하 분포 E[X] (급수):  {EX_direct:.6f}")
print(f"기하 분포 E[X] (공식):  {EX_formula:.6f}")

10 교환 가능 여부 판별 요약

상황	교환 가능 여부	근거
유한 구간 \([a, b]\) , \(f\) 미분 가능	항상 가능	라이프니츠 규칙 직접 적용
무한 구간, 지배함수 존재	가능	Theorem 2.4.3 / Corollary 2.4.4
무한 구간, 지배함수 없음	불가 (일반적으로)	지배수렴정리 조건 미충족
유한 급수	항상 가능	유한 합과 미분은 항상 교환 가능
무한 급수, 균등수렴	가능	Theorem 2.4.8
지수족	항상 가능 (자연모수 공간 내부)	지수족의 구조적 성질이 지배함수를 자동 보장

실무적 판단 기준

대부분의 표준 분포(정규, 지수, 감마, 베타, 포아송, 이항 등)와 지수족에서는 교환이 성립한다. 실무에서 주의해야 할 경우는 다음과 같다.

꼬리가 매우 두꺼운 분포 (코시, 안정 분포 등): 적률 자체가 존재하지 않을 수 있다
지지(support)가 모수에 의존하는 분포 (균등 \(U(0, \theta)\) 등): 적분 한계가 \(\theta\) 함수이므로 라이프니츠 규칙의 전체 형태를 사용해야 한다
혼합 모형의 정규화 상수: EM 알고리즘에서 교환을 정당화하는 것이 수렴 보장의 기초이다

11 관련 주제

선행 지식

후속 주제

지수족 — Exponential Family Overview — 지수족에서 적분-미분 교환이 자동 보장되는 구조
Maximum Likelihood Estimation — 스코어 함수와 피셔 정보량의 유도
데이터 축소의 원리 (Sufficiency, Likelihood, Equivariance) — 충분통계량과 지수족의 연결

관련 개념

변환과 기대값 개요 — Ch.2 전체 구조 조감