Kwangmin Kim - 정규 분포 (Normal Distribution)

1 왜 정규 분포인가

Casella & Berger(2002, Ch.3.3)는 정규 분포가 통계학의 중심에 있는 이유를 세 가지로 정리한다:

분석적 다루기 쉬움(analytic tractability): 선형변환, 합, 조건부 분포 등 대부분의 연산이 닫힌 형식을 유지한다.
대칭 종 모양(symmetric bell shape): 측정 오차, 자연 현상의 변동성 모델로 직관적으로 적합하다.
중심극한정리(CLT): 유한 분산을 가진 임의의 분포에서 추출한 iid 표본의 표준화 합이 정규 분포로 수렴한다 — 정규 분포는 특정 현상의 분포가 아니라 반복 측정의 극한 거동이다.

2 정의

정의: 정규 분포 (Casella & Berger, 2002, Ch.3.3)

\(X \sim N(\mu, \sigma^2)\) 이면 PDF는:

\[ f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\,\sigma} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R} \]

직관: 정규 PDF의 각 항이 하는 역할

\[\underbrace{\frac{1}{\sqrt{2\pi}\,\sigma}}_{\text{정규화 상수}} \cdot \underbrace{\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)}_{\text{종 모양 핵심}}\]

지수 항 \(\exp(-\frac{(x-\mu)^2}{2\sigma^2})\):

\((x-\mu)^2\) — 제곱 덕분에 \(\mu\) 양쪽 방향으로 동일하게 감소한다. 절댓값 \(|x-\mu|\) 을 썼다면 \(\mu\) 에서 날카로운 꺾임이 생기고(라플라스 분포), \(|x-\mu|^3\) 이상의 거듭제곱을 쓰면 꼬리가 더 두꺼워진다. \((x-\mu)^2\) 이 가장 자연스럽고 분석하기 쉬운 형태이다.
\(-\) 부호 — “중심에서 멀수록 확률이 줄어든다”는 효과를 만든다. 이 부호가 없으면 \(\exp((x-\mu)^2/\ldots)\) 가 되어 중심에서 멀수록 밀도가 폭발적으로 커지므로 정규화가 불가능하다.
\(2\sigma^2\) 분모 — \(\sigma\) 가 클수록 지수 인수가 천천히 감소 → 곡선이 옆으로 넓게 퍼진다. \(\sigma\) 가 작을수록 급격히 감소 → 날카로운 봉우리.

정규화 상수 \(\frac{1}{\sqrt{2\pi}\sigma}\): 가우시안 적분 \(\int_{-\infty}^\infty e^{-z^2/2} dz = \sqrt{2\pi}\) 가 이 상수의 출처이다. 이 상수 없이는 전체 면적이 \(\sqrt{2\pi}\sigma\) 이므로, 이를 나눠줘야 확률 밀도가 된다.

\(\mu \in \mathbb{R}\): 위치 모수 (평균, 중위수, 최빈값 모두 \(\mu\) — 대칭 분포)
\(\sigma^2 > 0\): 척도 모수 (분산)

표준 정규 분포: \(\mu = 0\), \(\sigma^2 = 1\) 인 경우를 \(Z \sim N(0,1)\) 로 표기하고, PDF를 \(\phi(z)\), CDF를 \(\Phi(z)\) 로 표기한다.

3 PDF 정규화 증명 — 가우시안 적분

\(\int_{-\infty}^\infty f(x) dx = 1\) 임을 증명한다. 표준화 변환 \(z = (x-\mu)/\sigma\) 를 적용하면 다음을 보이는 것으로 충분하다:

\[ I = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^\infty e^{-z^2/2} \, dz = 1 \]

즉, \(\int_{-\infty}^\infty e^{-z^2/2} dz = \sqrt{2\pi}\) 를 증명한다.

피적분함수 \(e^{-z^2/2}\) 는 닫힌 부정적분이 없으므로 직접 계산이 불가능하다. 극좌표 변환을 사용한다.

대칭성에 의해 \(\int_0^\infty e^{-z^2/2} dz = \sqrt{\pi/2}\) 임을 보인다. 이 적분을 \(J\) 로 놓으면:

\[ J^2 = \left(\int_0^\infty e^{-t^2/2} dt\right)\left(\int_0^\infty e^{-u^2/2} du\right) = \int_0^\infty\int_0^\infty e^{-(t^2+u^2)/2} \, dt\, du \]

직관: 왜 극좌표 변환이 효과적인가

\(e^{-t^2/2}\) 는 1차원에서 직접 적분할 수 없다. 핵심 아이디어는 같은 적분을 두 번 곱해서 2차원 문제로 바꾸는 것이다.

\(J^2\) 는 2차원 평면 전체에서 \(e^{-(t^2+u^2)/2}\) 를 적분하는 것과 같다. 이 피적분함수는 \(t^2 + u^2 = r^2\) (원점에서의 거리 제곱)에만 의존한다 — 완전한 원 대칭(rotational symmetry)을 갖는다.

원 대칭이 있으면 극좌표 \((r, \theta)\) 가 자연스럽다: 반지름 \(r\) 과 각도 \(\theta\) 를 독립적으로 적분할 수 있기 때문이다. 직교좌표에서는 \(t\) 와 \(u\) 가 \(t^2 + u^2\) 을 통해 얽혀 있어서 분리가 불가능하다.

이 “제곱해서 2차원으로” 트릭은 확률 계산의 핵심 도구이다. 가우시안 적분이 기초가 되는 정규 분포의 정규화 상수, 감마 함수, 스털링 근사 등 곳곳에 등장한다.

\(t = r\cos\theta\), \(u = r\sin\theta\) 로 극좌표 변환하면 \(t^2 + u^2 = r^2\), \(dt\,du = r\,d\theta\,dr\), 적분 범위는 \(0 < r < \infty\), \(0 < \theta < \pi/2\):

\[ J^2 = \int_0^{\pi/2}\int_0^\infty r e^{-r^2/2} \, dr\, d\theta = \frac{\pi}{2} \int_0^\infty r e^{-r^2/2} \, dr = \frac{\pi}{2}\left[-e^{-r^2/2}\right]_0^\infty = \frac{\pi}{2} \]

따라서 \(J = \sqrt{\pi/2}\) 이고, \(\int_{-\infty}^\infty e^{-z^2/2} dz = 2J = \sqrt{2\pi}\). \(\square\)

이 적분은 감마 함수와 연결된다: \(w = z^2/2\) 치환을 적용하면 \(\Gamma(1/2) = \sqrt{\pi}\) 임을 얻는다 (Casella & Berger, 2002, Ch.3.3).

4 표준화와 CDF

\(X \sim N(\mu, \sigma^2)\) 이면:

\[ Z = \frac{X - \mu}{\sigma} \sim N(0,1) \]

직관: 표준화가 하는 일

표준화 변환 \(Z = (X-\mu)/\sigma\) 는 두 가지 조정을 동시에 한다:

위치 이동 \((X - \mu)\): 분포의 중심을 \(\mu\) 에서 0으로 이동시킨다. “평균에서 얼마나 벗어났는가”를 묻는 것이다.
척도 조정 \((\cdots / \sigma)\): 흩어짐의 단위를 표준편차로 측정한다. 이제 \(Z = 1\) 은 “평균보다 정확히 1 표준편차 위”를 뜻한다.

이 두 조정으로 어떤 정규 분포든 동일한 표준 정규 분포로 환원된다. 평균 170cm, 표준편차 6cm인 키 분포나, 평균 3.0, 표준편차 0.4인 GPA 분포나, 표준화 후에는 모두 \(N(0,1)\) 이 된다 — 하나의 표를 공유할 수 있는 이유이다.

반사실: 만약 \(\sigma\) 로 나누지 않으면 \(X - \mu\) 는 여전히 분산이 \(\sigma^2\) 이므로 표준 정규가 되지 않는다. \(\mu\) 로 빼지 않으면 분포가 0 대신 \(\mu\) 에 중심을 둔 채로 남는다.

증명: \(P(Z \le z) = P\!\left(\frac{X-\mu}{\sigma} \le z\right) = P(X \le z\sigma + \mu) = \frac{1}{\sqrt{2\pi}\,\sigma}\int_{-\infty}^{z\sigma+\mu} e^{-(x-\mu)^2/(2\sigma^2)} dx\)

\(t = (x-\mu)/\sigma\) 로 치환하면 \(= \frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-t^2/2} dt = \Phi(z)\).

따라서 모든 정규 확률은 표준 정규 CDF \(\Phi(\cdot)\) 로 환산된다:

\[ P(a \le X \le b) = \Phi\!\left(\frac{b-\mu}{\sigma}\right) - \Phi\!\left(\frac{a-\mu}{\sigma}\right) \]

\(\Phi\) 는 닫힌 형식이 없어 수치적으로 계산한다.

5 평균과 분산 유도

5.1 평균

\(Z \sim N(0,1)\) 에서:

\[ E[Z] = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^\infty z e^{-z^2/2} dz = \left[-\frac{1}{\sqrt{2\pi}} e^{-z^2/2}\right]_{-\infty}^\infty = 0 \]

피적분함수 \(z e^{-z^2/2}\) 가 홀함수(odd function)이므로 적분이 0이다.

선형성에 의해 \(X = \mu + \sigma Z\) 이면:

\[ E[X] = E[\mu + \sigma Z] = \mu + \sigma \cdot 0 = \mu \]

5.2 분산

\(\text{Var}(Z) = E[Z^2] - (E[Z])^2 = E[Z^2]\). 부분적분으로:

\[ E[Z^2] = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^\infty z^2 e^{-z^2/2} dz = \frac{1}{\sqrt{2\pi}} \left[-z e^{-z^2/2}\right]_{-\infty}^\infty + \frac{1}{\sqrt{2\pi}} \int_{-\infty}^\infty e^{-z^2/2} dz = 0 + 1 = 1 \]

따라서 \(\text{Var}(Z) = 1\) 이고, \(\text{Var}(X) = \sigma^2 \text{Var}(Z) = \sigma^2\).

6 적률생성함수 (MGF)

\(X \sim N(\mu, \sigma^2)\) 의 MGF를 유도한다:

\[ M_X(t) = E[e^{tX}] = \frac{1}{\sqrt{2\pi}\,\sigma} \int_{-\infty}^\infty e^{tx} e^{-(x-\mu)^2/(2\sigma^2)} dx \]

지수 부분을 \(t\) 에 대해 제곱완성(complete the square)한다:

\[ tx - \frac{(x-\mu)^2}{2\sigma^2} = -\frac{1}{2\sigma^2}\left[x^2 - 2x(\mu + \sigma^2 t) + \mu^2\right] \]

\[ = -\frac{(x - (\mu + \sigma^2 t))^2}{2\sigma^2} + \mu t + \frac{\sigma^2 t^2}{2} \]

직관: 제곱완성이 MGF 유도에서 하는 역할

제곱완성의 핵심 아이디어는 “\(e^{tX}\)를 곱해서 생긴 항을 지수 부분에 흡수시키면, 적분은 다시 정규 PDF의 적분이 된다”는 것이다.

\(tx - \frac{(x-\mu)^2}{2\sigma^2}\) 를 하나의 이차식으로 합친 후 제곱완성하면, 새로운 평균 \(\mu + \sigma^2 t\) 를 갖는 정규 분포의 지수 항과, 순수하게 \(t\) 만 포함하는 상수 항으로 분리된다:

\[\underbrace{-\frac{(x-(\mu+\sigma^2 t))^2}{2\sigma^2}}_{\text{새로운 정규 PDF의 지수 항}} + \underbrace{\mu t + \frac{\sigma^2 t^2}{2}}_{\text{t만 포함하는 상수}}\]

이후 적분 내 \(\exp(-\frac{(x-(\mu+\sigma^2 t))^2}{2\sigma^2})\) 는 평균이 \(\mu + \sigma^2 t\) 인 정규 분포의 핵(kernel)이므로, 정규화 상수를 곱하면 적분값이 1이 된다. 결국 \(e^{\mu t + \sigma^2 t^2/2}\) 만 남는다.

\(\mu t\) 항은 평균을 반영하고, \(\sigma^2 t^2/2\) 항은 분산을 반영한다. 이 두 항이 정규 분포의 모든 적률 정보를 MGF에 담는 방식이다.

따라서:

\[ M_X(t) = \exp\!\left(\mu t + \frac{\sigma^2 t^2}{2}\right) \cdot \underbrace{\frac{1}{\sqrt{2\pi}\,\sigma}\int_{-\infty}^\infty \exp\!\left(-\frac{(x-(\mu+\sigma^2 t))^2}{2\sigma^2}\right) dx}_{= 1 \text{ (정규 PDF 적분)}} \]

\[ \boxed{M_X(t) = \exp\!\left(\mu t + \frac{\sigma^2 t^2}{2}\right), \quad t \in \mathbb{R}} \]

MGF에서 적률 읽기

\(M_X(t) = \exp(\mu t + \sigma^2 t^2/2)\) 를 \(t=0\) 에서 미분:

\(M_X'(0) = E[X] = \mu\)
\(M_X''(0) = E[X^2] = \mu^2 + \sigma^2\) → \(\text{Var}(X) = E[X^2] - (E[X])^2 = \sigma^2\)

고차 홀수 중심적률 = 0 (대칭), 짝수 중심적률: \(E[(X-\mu)^{2k}] = (2k-1)!! \cdot \sigma^{2k}\) 여기서 \((2k-1)!! = 1 \cdot 3 \cdot 5 \cdots (2k-1)\). 예: \(E[(X-\mu)^4] = 3\sigma^4\), 초과 첨도(excess kurtosis) = \(\frac{3\sigma^4}{\sigma^4} - 3 = 0\).

7 성질

7.1 선형 변환 닫힘성

\(X \sim N(\mu, \sigma^2)\), \(a \ne 0\), \(b \in \mathbb{R}\) 이면:

\[ aX + b \sim N(a\mu + b,\ a^2\sigma^2) \]

증명 개요: \(M_{aX+b}(t) = e^{bt} M_X(at) = e^{bt} e^{\mu(at) + \sigma^2(at)^2/2} = e^{(a\mu+b)t + a^2\sigma^2 t^2/2}\). 이것이 \(N(a\mu+b, a^2\sigma^2)\) 의 MGF이다. \(\square\)

7.2 독립 정규의 합

\(X_i \sim N(\mu_i, \sigma_i^2)\) 독립이면:

\[ \sum_{i=1}^n X_i \sim N\!\left(\sum_{i=1}^n \mu_i,\ \sum_{i=1}^n \sigma_i^2\right) \]

증명: MGF의 곱 \(M_{\sum X_i}(t) = \prod M_{X_i}(t) = \exp\!\left(t\sum\mu_i + \frac{t^2}{2}\sum\sigma_i^2\right)\). \(\square\)

실무 함의: iid \(N(\mu, \sigma^2)\) 표본의 표본 평균 \(\bar{X}_n \sim N(\mu, \sigma^2/n)\) — 표본 크기가 커질수록 분산이 \(1/n\) 으로 감소한다.

7.3 위치-척도족 (Location-Scale Family)

\(\mu\) 와 \(\sigma\) 가 정규 분포의 모양을 완전히 결정한다. \(f(x|\mu,\sigma^2) = \frac{1}{\sigma}\phi\!\left(\frac{x-\mu}{\sigma}\right)\) — 위치-척도족(Casella & Berger, 2002, Ch.3.5).

이 성질을 통해 모든 정규 확률 계산은 표준 정규표 하나로 환원된다.

8 68-95-99.7 규칙

정규 PDF의 최댓값은 \(x = \mu\), 변곡점(inflection point)은 \(\mu \pm \sigma\) 에 있다. 표준편차 배수에 따른 확률 구간:

\[ P(|X - \mu| \le k\sigma) = \begin{cases} 0.6826 & k = 1 \\ 0.9544 & k = 2 \\ 0.9974 & k = 3 \end{cases} \]

직관: 68-95-99.7 규칙의 의미

이 세 숫자를 직관적으로 기억하는 방법:

1\(\sigma\) (68%): 관측값의 약 2/3이 평균 근처 \([\mu-\sigma, \mu+\sigma]\) 에 집중된다. 3번 중 2번은 이 구간 안에 있다.
2\(\sigma\) (95%): 20번 중 19번은 \([\mu-2\sigma, \mu+2\sigma]\) 안에 있다. “2 표준편차 밖에 있으면 이상하다”는 직관이 여기서 나온다.
3\(\sigma\) (99.7%): 1000번 중 3번만 이 구간 밖으로 나간다. 품질 관리의 “6 시그마”나 물리학의 “3 시그마 증거” 기준이 여기서 유래한다.

이 값들이 왜 이렇게 되는가: 정규 PDF의 변곡점이 \(\mu \pm \sigma\) 에 있다. 변곡점 안쪽은 위로 오목(빠른 집중), 바깥쪽은 아래로 오목(빠른 감소)이다. 이 구조 때문에 \(1\sigma\) 내에 이미 전체 확률의 68%가 집중된다.

주의: \(P(|X-\mu| \le 2\sigma) = 0.9544\) 이지 \(0.95\) 가 아니다. 정확히 95%를 포함하는 구간은 \(\mu \pm 1.96\sigma\) 이다.

(Casella & Berger, 2002, Ch.3.3 — 수치는 표준 정규표에서 얻는다)

실무에서 \(.68\), \(.95\), \(.99\) 로 반올림하여 사용하기도 한다. 이 값들이 반올림된 값이 아님에 주의한다 — \(.9544\) 의 반올림은 \(.95\) 이지만, 정확한 값은 \(.9544\) 이다.

9 이항 분포의 정규 근사와 연속성 수정

\(X \sim \text{Binomial}(n, p)\) 이면 \(E[X] = np\), \(\text{Var}(X) = np(1-p)\). 조건이 갖춰지면 \(Y \sim N(np, np(1-p))\) 로 근사한다.

근사 조건: \(\min(np, n(1-p)) \ge 5\) (보수적 기준).

9.1 연속성 수정 (Continuity Correction)

이산 분포를 연속 분포로 근사할 때, 이산 값 \(k\) 에 해당하는 막대의 폭( \(\pm 0.5\) )을 반영한다:

\[ P(X \le k) \approx P\!\left(Y \le k + \tfrac{1}{2}\right) = \Phi\!\left(\frac{k + 0.5 - np}{\sqrt{np(1-p)}}\right) \]

\[ P(X \ge k) \approx P\!\left(Y \ge k - \tfrac{1}{2}\right) = 1 - \Phi\!\left(\frac{k - 0.5 - np}{\sqrt{np(1-p)}}\right) \]

예시 (Casella & Berger, 2002, Ch.3.3): \(X \sim \text{Binomial}(25, 0.6)\), \(\mu = 15\), \(\sigma = 2.45\).

연속성 수정 없이: \(P(X \le 13) \approx \Phi\!\left(\frac{13-15}{2.45}\right) = \Phi(-0.82) = 0.206\)
연속성 수정 포함: \(P(X \le 13) \approx \Phi\!\left(\frac{13.5-15}{2.45}\right) = \Phi(-0.61) = 0.271\)
정확한 이항 값: \(0.267\)

연속성 수정이 훨씬 정확하다.

10 관련 분포 — 정규에서 유도되는 분포들

10.1 카이제곱 분포

\(Z_1, \ldots, Z_\nu \sim N(0,1)\) 독립이면:

\[ \sum_{i=1}^\nu Z_i^2 \sim \chi^2(\nu) = \text{Gamma}(\nu/2, 2) \]

직관: 왜 표준정규의 제곱합이 카이제곱 분포인가

\(Z \sim N(0,1)\) 일 때 \(Z^2\) 를 생각해보자. \(Z\) 는 양수도 음수도 될 수 있지만, \(Z^2\) 는 항상 양수이다. \(Z\) 가 0 근처에 많이 있고 0에서 멀어질수록 드물어지므로, \(Z^2\) 는 0 근처에 밀집하고 오른쪽으로 긴 꼬리를 갖는 — 이것이 \(\chi^2(1)\) 의 형태이다.

\(\nu\) 개의 독립 표준정규 제곱을 더하면 분산 방향으로 \(\nu\) 차원의 “거리 제곱”이 된다. 이를 감마 분포와 연결하면: \(\chi^2(\nu) = \text{Gamma}(\nu/2, 2)\) — \(\alpha = \nu/2\) 는 더하는 변수의 수(의 절반), \(\beta = 2\) 는 표준정규 분산의 2배라는 스케일이다.

실용적 의미: 표본 분산 \(S^2\) 을 계산하면 \(n-1\) 개의 독립적인 편차 제곱 \((X_i - \bar{X})^2/\sigma^2\) 의 합이 생기므로, \(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\) 이 된다.

특히 \(Z^2 \sim \chi^2(1)\). 표본 분산의 분포: \(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\) (정규 모집단 가정 하에).

10.2 t 분포

\(Z \sim N(0,1)\), \(V \sim \chi^2(\nu)\) 독립이면:

\[ T = \frac{Z}{\sqrt{V/\nu}} \sim t(\nu) \]

직관: t 분포 — 왜 표준편차를 모를 때 이 분포를 쓰는가

실전에서 모표준편차 \(\sigma\) 를 모르면 표본표준편차 \(S\) 로 대체한다. 그러면 \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\) 대신 \(\frac{\bar{X}-\mu}{S/\sqrt{n}}\) 를 사용하게 된다.

\(T = Z / \sqrt{V/\nu}\) 에서: - 분자 \(Z \sim N(0,1)\) 는 표본 평균의 변동을 대표한다. - 분모 \(\sqrt{V/\nu}\) 는 \(\sigma\) 를 \(S\) 로 추정할 때 생기는 추가 불확실성이다. \(V \sim \chi^2(\nu)\) 이 \(S^2\) 의 분포에서 오므로, \(S\) 의 변동이 이 항에 담긴다.

이 두 불확실성(평균 추정 + 분산 추정)이 합쳐져 정규보다 꼬리가 두꺼운 \(t\) 분포가 된다. \(\nu\) (자유도)가 클수록 \(S\) 가 \(\sigma\) 에 가까워지고 꼬리가 얇아져 \(N(0,1)\) 에 수렴한다.

\(t\) 분포는 정규보다 꼬리가 두껍고, \(\nu \to \infty\) 이면 \(N(0,1)\) 으로 수렴한다. 소표본에서 모평균 추론에 사용된다.

10.3 F 분포

\(U \sim \chi^2(m)\), \(V \sim \chi^2(n)\) 독립이면:

\[ F = \frac{U/m}{V/n} \sim F(m, n) \]

분산 비율 검정, ANOVA에서 사용된다.

11 코드 예시

11.1 Step 1: 순수 Python — 가우시안 적분, PDF, MGF 직접 구현

import math

# 표준 정규 PDF
def phi(z):
    return math.exp(-z**2 / 2) / math.sqrt(2 * math.pi)

# 정규 PDF (일반형)
def normal_pdf(x, mu=0, sigma=1):
    return phi((x - mu) / sigma) / sigma

# 정규 MGF
def normal_mgf(t, mu=0, sigma=1):
    return math.exp(mu * t + 0.5 * sigma**2 * t**2)

# MGF로부터 E[X], E[X²] 수치 미분으로 확인
h = 1e-5
mu, sigma = 3.0, 2.0

# E[X] = M'(0)
E_X_numerical = (normal_mgf(h, mu, sigma) - normal_mgf(-h, mu, sigma)) / (2 * h)
# E[X²] = M''(0)
E_X2_numerical = (normal_mgf(h, mu, sigma) - 2 * normal_mgf(0, mu, sigma) + normal_mgf(-h, mu, sigma)) / h**2
Var_X_numerical = E_X2_numerical - E_X_numerical**2

print(f"=== N({mu}, {sigma}²) MGF 검증 ===")
print(f"E[X]  = {E_X_numerical:.6f}  (이론: {mu})")
print(f"Var(X) = {Var_X_numerical:.6f}  (이론: {sigma**2})")

# 가우시안 적분 수치 근사 — 심프슨 방법
def numerical_integral(f, a, b, n=10000):
    h = (b - a) / n
    x = [a + i * h for i in range(n + 1)]
    y = [f(xi) for xi in x]
    s = y[0] + y[-1] + 4 * sum(y[i] for i in range(1, n, 2)) + 2 * sum(y[i] for i in range(2, n-1, 2))
    return s * h / 3

# ∫phi(z)dz = 1 확인
integral = numerical_integral(phi, -10, 10)
print(f"\n가우시안 적분 ∫phi(z)dz = {integral:.8f}  (이론: 1.0)")

=== N(3, 4) MGF 검증 ===
E[X]  = 3.000000  (이론: 3)
Var(X) = 4.000000  (이론: 4)

가우시안 적분 ∫phi(z)dz = 1.00000000  (이론: 1.0)

11.2 Step 2: scipy.stats — 정규 분포 성질과 근사

import numpy as np
from scipy import stats

# ── 68-95-99.7 규칙 정확한 값 계산 ──────────────────────────
z = stats.norm()
print("=== 68-95-99.7 규칙 (정확한 값) ===")
for k in [1, 2, 3]:
    prob = z.cdf(k) - z.cdf(-k)
    print(f"P(|Z| ≤ {k}) = {prob:.6f}  (≈ {prob*100:.2f}%)")

# ── 선형변환 닫힘성 ──────────────────────────────────────────
np.random.seed(0)
X = np.random.normal(loc=3, scale=2, size=100000)
Y = 5 * X + 1  # Y ~ N(5*3+1, 5²*4) = N(16, 100)
print(f"\n=== 선형변환: Y = 5X+1, X~N(3,4) ===")
print(f"Y 표본 평균: {Y.mean():.3f}  (이론: {5*3+1})")
print(f"Y 표본 분산: {Y.var():.3f}  (이론: {5**2 * 4})")

# ── 이항 근사와 연속성 수정 ──────────────────────────────────
n, p = 25, 0.6
mu_b, sigma_b = n * p, np.sqrt(n * p * (1 - p))

# 정확한 이항 확률
exact = stats.binom.cdf(13, n, p)
# 연속성 수정 없음
no_cc = stats.norm.cdf(13, mu_b, sigma_b)
# 연속성 수정 포함
with_cc = stats.norm.cdf(13.5, mu_b, sigma_b)

print(f"\n=== Binomial(25,0.6), P(X≤13) ===")
print(f"정확한 이항:      {exact:.4f}")
print(f"정규 근사 (수정X): {no_cc:.4f}  (오차: {abs(exact - no_cc):.4f})")
print(f"정규 근사 (수정O): {with_cc:.4f}  (오차: {abs(exact - with_cc):.4f})")

# ── 표본 평균의 분포 ─────────────────────────────────────────
print(f"\n=== X̄_n ~ N(μ, σ²/n) 확인 ===")
mu_pop, sigma_pop = 5.0, 3.0
for n in [5, 30, 100]:
    means = [np.random.normal(mu_pop, sigma_pop, n).mean() for _ in range(10000)]
    print(f"n={n:3d}: E[X̄]={np.mean(means):.3f} (이론:{mu_pop}), "
          f"Var(X̄)={np.var(means):.4f} (이론:{sigma_pop**2/n:.4f})")

=== 68-95-99.7 규칙 (정확한 값) ===
P(|Z| ≤ 1) = 0.682689  (≈ 68.27%)
P(|Z| ≤ 2) = 0.954500  (≈ 95.45%)
P(|Z| ≤ 3) = 0.997300  (≈ 99.73%)

=== 선형변환: Y = 5X+1, X~N(3,4) ===
Y 표본 평균: 16.008  (이론: 16)
Y 표본 분산: 99.865  (이론: 100)

=== Binomial(25,0.6), P(X≤13) ===
정확한 이항:      0.2677
정규 근사 (수정X): 0.2061  (오차: 0.0616)
정규 근사 (수정O): 0.2711  (오차: 0.0034)

=== X̄_n ~ N(μ, σ²/n) 확인 ===
n=  5: E[X̄]=5.004 (이론:5.0), Var(X̄)=1.8125 (이론:1.8000)
n= 30: E[X̄]=5.001 (이론:5.0), Var(X̄)=0.3016 (이론:0.3000)
n=100: E[X̄]=4.999 (이론:5.0), Var(X̄)=0.0902 (이론:0.0900)

11.3 Step 3: 카이제곱·t·F 분포와의 관계 확인

import numpy as np
from scipy import stats

np.random.seed(42)
N = 100000

# Z² ~ χ²(1) 검증
Z = np.random.normal(0, 1, N)
Z2 = Z ** 2
ks_stat, p_val = stats.kstest(Z2, 'chi2', args=(1,))
print(f"=== Z² ~ χ²(1) KS 검정 ===")
print(f"KS stat = {ks_stat:.5f}, p-value = {p_val:.4f}  ({'OK' if p_val > 0.05 else 'FAIL'})")

# T = Z/sqrt(V/nu) ~ t(nu) 검증
nu = 5
Z = np.random.normal(0, 1, N)
V = np.random.chisquare(nu, N)
T = Z / np.sqrt(V / nu)
ks_stat, p_val = stats.kstest(T, 't', args=(nu,))
print(f"\n=== T = Z/sqrt(V/{nu}) ~ t({nu}) KS 검정 ===")
print(f"KS stat = {ks_stat:.5f}, p-value = {p_val:.4f}  ({'OK' if p_val > 0.05 else 'FAIL'})")

# t 분포 → N(0,1) 수렴 확인 (nu 증가)
print(f"\n=== t(ν) 분산 → 1 as ν → ∞ ===")
for nu in [1, 5, 30, 100, 1000]:
    if nu > 2:
        var_t = nu / (nu - 2)  # t(nu)의 분산 = nu/(nu-2)
        print(f"ν={nu:4d}: Var(t) = {var_t:.6f}")
    else:
        print(f"ν={nu:4d}: 분산 미존재 (ν ≤ 2)")

=== Z² ~ χ²(1) KS 검정 ===
KS stat = 0.00178, p-value = 0.9217  (OK)

=== T = Z/sqrt(V/5) ~ t(5) KS 검정 ===
KS stat = 0.00195, p-value = 0.8815  (OK)

=== t(ν) 분산 → 1 as ν → ∞ ===
ν=   1: 분산 미존재 (ν ≤ 2)
ν=   5: Var(t) = 1.666667
ν=  30: Var(t) = 1.071429
ν= 100: Var(t) = 1.020408
ν=1000: Var(t) = 1.002004

\(t(\nu)\) 의 분산은 \(\nu/(\nu-2)\) 이며, \(\nu \to \infty\) 일 때 1에 수렴한다 — \(N(0,1)\) 의 분산과 일치.

12 응용 분야

분야	활용	정규 분포가 적합한 이유
측정 오차 모델링	실험 측정값의 반복 오차	CLT — 반복 오차의 합
가설 검정	모평균 \(t\)-검정, \(z\)-검정	표본 평균의 분포
회귀 분석	잔차 분포 가정	Gauss-Markov 조건
품질 관리	SPC 관리도	공정 측정값의 분포
금융	로그 수익률 근사	단기 수익률의 분포
베이지안 추론	켤레 사전분포	정규 가능도 + 정규 사전 = 정규 사후

13 관련 주제

선행 지식

후속 주제

관련 개념

MLE — 정규 분포의 MLE: \(\hat{\mu} = \bar{x}\), \(\hat{\sigma}^2 = \frac{1}{n}\sum(x_i - \bar{x})^2\)
BLUE — 정규 가정 하에서 OLS는 UMVUE