1 개요
정규분포 \(N(\mu, \sigma^2)\) 에서 z-score \(Z = (X - \mu)/\sigma\) 를 구하면, \(Z\) 는 항상 \(N(0, 1)\) 을 따른다. 이 변환이 가능한 이유는 정규분포가 위치-척도족(location-scale family)에 속하기 때문이다.
위치-척도족이란, 하나의 “표준 PDF” \(f(x)\) 에 위치 이동( \(\mu\) )과 척도 변환( \(\sigma\) )을 적용하여 전체 분포 가족을 생성하는 구조이다. 이 단순한 정의에서 다음 결과가 따라 나온다:
- 표준화: \(Z = (X - \mu)/\sigma\) 의 분포가 모수에 의존하지 않는다
- 피벗 양(pivotal quantity): 신뢰구간과 검정 통계량의 구성 원리
- 분포표의 사용 가능성: 표준 분포 하나만 표로 만들면 모든 멤버의 확률을 계산할 수 있다
정규, 코시, 라플라스, 로지스틱 분포가 위치-척도족의 대표적 예시이며, 지수족과는 독립적인 분류 기준이다(양쪽에 모두 속하는 분포도 있다).
2 위치족 (Location Family)
\(f(x)\) 가 임의의 PDF이면, \(f(x - \mu)\) ( \(-\infty < \mu < \infty\) )로 이루어진 PDF 모임을 위치족(location family)이라 하고, \(\mu\) 를 위치 모수(location parameter)라 한다.
이 정의가 말하는 것: \(x\) 에서 \(\mu\) 를 빼면, PDF 그래프가 오른쪽으로 \(\mu\) 만큼 이동한다. 마치 수평선 위의 종모양 커브를 원점에서 시작하여 원하는 위치로 슬라이드하는 것과 같다.
위치 모수 \(\mu\) 는 PDF의 그래프를 수평으로 이동시킨다. 그래프의 모양(shape)은 전혀 변하지 않고, \(x = 0\) 위에 있던 점이 \(x = \mu\) 위로 옮겨진다. 실무적으로는, 같은 모양의 분포를 서로 다른 중심에 배치할 수 있다는 의미이다.
2.1 직관: 측정 오차 모형
실험에서 물리 상수 \(\mu\) (예: 용액의 온도)를 측정한다고 하자. 측정 기기에는 오차 \(Z\) 가 있어서 실제 관측값은 \(X = Z + \mu\) 이다. 오차 \(Z\) 의 분포 \(f(z)\) 를 알고 있다면, \(X\) 의 분포는 \(f(x - \mu)\) — 즉 위치족이다 (Casella & Berger, 2002, Ch.3).
2.2 예시: 지수 위치족
\(f(x) = e^{-x}\) ( \(x \geq 0\) )인 표준 지수분포로 위치족을 구성하면 (Casella & Berger, 2002, Example 3.5.3):
\[ f(x|\mu) = \begin{cases} e^{-(x - \mu)} & x \geq \mu \\ 0 & x < \mu \end{cases} \]
지지(support)가 \([\mu, \infty)\) 로 \(\mu\) 에 의존한다. 이 경우 \(\mu\) 는 문턱 모수(threshold parameter)라고도 부르며, 시간 변수에서 최소 반응 시간 같은 의미를 가진다.
3 척도족 (Scale Family)
\(f(x)\) 가 임의의 PDF이면, \(\frac{1}{\sigma} f\!\left(\frac{x}{\sigma}\right)\) ( \(\sigma > 0\) )로 이루어진 PDF 모임을 척도족(scale family)이라 하고, \(\sigma\) 를 척도 모수(scale parameter)라 한다.
척도 모�� \(\sigma\) 는 PDF의 그래프를 수평으로 늘이거나( \(\sigma > 1\) ) 줄인다( \(\sigma < 1\) ). 모양의 비례 관계는 유지되면서 펼침의 정도만 변한다. \(1/\sigma\) 를 곱하는 이유는 면적(확률)을 1로 보존하기 위해서이다.
3.1 척도족의 예시
| 분포 | 표준 PDF | 척도 모수 | 조건 |
|---|---|---|---|
| 감마 \(\text{Ga}(\alpha, \beta)\) | \(\text{Ga}(\alpha, 1)\) | \(\beta\) | \(\alpha\) 고정 |
| 정규 \(N(0, \sigma^2)\) | \(N(0, 1)\) | \(\sigma\) | \(\mu = 0\) |
| 지수 \(\text{Exp}(\lambda)\) | \(\text{Exp}(1)\) | \(1/\lambda\) | — |
| 라플라스 \(\text{Laplace}(0, \sigma)\) | \(\text{Laplace}(0, 1)\) | \(\sigma\) | \(\mu = 0\) |
4 위치-척도족 (Location-Scale Family)
\(f(x)\) 가 임의의 PDF이면, \(\frac{1}{\sigma} f\!\left(\frac{x - \mu}{\sigma}\right)\) ( \(-\infty < \mu < \infty\) , \(\sigma > 0\) )로 이루어진 PDF 모임을 위치-척도족(location-scale family)이라 한다. \(\mu\) 는 위치 모수, \(\sigma\) 는 척도 모수이다.
위치-척도 변환은 두 단계로 이루어진다:
- 척도 변환: 그래프를 \(\sigma\) 배 늘이거나 줄인다
- 위치 이동: \(x = 0\) 위의 점을 \(x = \mu\) 위로 옮긴다
4.1 주요 위치-척도족
| 분포 | 표준 PDF \(f_0(x)\) | 위치 모수 | 척도 모수 |
|---|---|---|---|
| 정규 \(N(\mu, \sigma^2)\) | \(\frac{1}{\sqrt{2\pi}} e^{-x^2/2}\) | \(\mu\) | \(\sigma\) |
| 코시 \(\text{Cauchy}(\mu, \sigma)\) | \(\frac{1}{\pi(1 + x^2)}\) | \(\mu\) | \(\sigma\) |
| 라플라스 \(\text{Laplace}(\mu, \sigma)\) | \(\frac{1}{2} e^{-|x|}\) | \(\mu\) | \(\sigma\) |
| 로지스틱 \(\text{Logistic}(\mu, \sigma)\) | \(\frac{e^{-x}}{(1 + e^{-x})^2}\) | \(\mu\) | \(\sigma\) |
이 분포들은 모두 같은 원리를 공유한다: 표준 분포 하나만 알면, 위치와 척도를 조절하여 모든 멤버의 확률을 계산할 수 있다.
5 핵심 정리: 확률변수 표현
\(f(\cdot)\) 가 임의의 PDF, \(\mu\) 가 실수, \(\sigma > 0\) 일 때:
\(X\) 가 PDF \(\frac{1}{\sigma} f\!\left(\frac{x - \mu}{\sigma}\right)\) 를 가지는 것은, PDF \(f(z)\) 를 가지는 확률변수 \(Z\) 가 존재하여 \(X = \sigma Z + \mu\) 인 것과 동치이다.
핵심 아이디어: 위치-척도족의 모든 멤버는 “표준 형태 \(Z\) 를 \(\sigma\) 배 늘인 후 \(\mu\) 만큼 이동”한 것이다. 반대로, 임의의 \(X\) 를 \((X - \mu)/\sigma\) 로 역변환하면 표준 형태 \(Z\) 로 돌아온다. 이것이 z-score 변환의 원리이다.
이 정리가 핵심인 이유: \(X\) 를 관측한 뒤 \(Z = (X - \mu)/\sigma\) 로 변환하면, \(Z\) 의 분포는 표준 PDF \(f(z)\) — 즉 모수 \(\mu\) , \(\sigma\) 에 의존하지 않는다. \(\mu\) 와 \(\sigma\) 가 무엇이든, 표준화 후에는 모두 같은 분포가 된다. 이것이 표준화(standardization)의 수학적 근거이다.
5.1 적률 정리
\(Z\) 가 표준 PDF \(f(z)\) 를 따르고 \(EZ\) , \(\text{Var}Z\) 가 존재하면:
\[ EX = \sigma \, EZ + \mu, \quad \text{Var}X = \sigma^2 \, \text{Var}Z \]
특히 \(EZ = 0\) , \(\text{Var}Z = 1\) 이면 \(EX = \mu\) , \(\text{Var}X = \sigma^2\) 이다.
표준 PDF를 \(EZ = 0\) , \(\text{Var}Z = 1\) 이 되도록 선택하면, 위치 모수 \(\mu\) 가 곧 평균이고 \(\sigma^2\) 이 곧 분산이 된다. 정규분포가 이 관례를 따르지만, 라플라스 분포는 표준 형태에서 \(\text{Var}Z = 2\) 이므로 \(\sigma\) 가 표준편차와 일치하지 않는다 (Casella & Berger, 2002, Ch.3).
6 왜 위치-척도족이 중요한가
6.1 표준화와 분포표
위치-척도족의 가장 직접적인 응용은 표준화(standardization)이다:
\[ P(X \leq x) = P\!\left(\frac{X - \mu}{\sigma} \leq \frac{x - \mu}{\sigma}\right) = P\!\left(Z \leq \frac{x - \mu}{\sigma}\right) \]
\(Z\) 의 분포는 모수에 의존하지 않으므로, 표준 정규 분포표 하나만 있으면 임의의 \(N(\mu, \sigma^2)\) 에 대한 확률을 계산할 수 있다. z-score 표준화, t-검정의 t-통계량, 표준 정규표의 사용이 모두 이 원리에 기반한다.
6.2 피벗 양 (Pivotal Quantity)
위치-척도 구조에서 자연스럽게 피벗 양이 등장한다 (Casella & Berger, 2002, Example 9.2.7). 피벗 양이란 데이터와 모수의 함수이면서 그 분포가 모수에 의존하지 않는 양이다.
| 분포 유형 | 형태 | 피벗 양 | 원리 |
|---|---|---|---|
| 위치족 \(f(x - \mu)\) | 차이(difference) | \(\bar{X} - \mu\) | 위치 모수는 차이로 상쇄 |
| 척도족 \(\frac{1}{\sigma} f\!\left(\frac{x}{\sigma}\right)\) | 비율(ratio) | \(\bar{X}/\sigma\) | 척도 모수는 비율로 상쇄 |
| 위치-척도족 \(\frac{1}{\sigma} f\!\left(\frac{x - \mu}{\sigma}\right)\) | 차이의 비율 | \((\bar{X} - \mu)/S\) | 위치는 차이로, 척도는 비율로 상쇄 |
정규분포에서 \((\bar{X} - \mu)/(S/\sqrt{n})\) 이 \(t_{n-1}\) 분포를 따르는 것은, 이 양이 위치-척도 피벗이기 때문이다. 피벗 양은 신뢰구간 구성의 핵심 도구이다.
6.3 모수 해석의 보편성
위치-척도족에서 \(\mu\) 와 \(\sigma\) 의 해석은 분포에 관계없이 동일하다:
- \(\mu\) 는 분포를 수평으로 이동시키는 양 (중심)
- \(\sigma\) 는 분포의 펼침 정도를 결정하는 양 (산포)
이 보편성 덕분에 “중심과 산포”라는 통계적 사고 틀이 정규분포를 넘어 코시, 라플라스 등에도 일관되게 적용된다.
7 응용 분야
| 분야 | 활용 | 구체적 예시 |
|---|---|---|
| 검정 통계량 | 피벗 양 구성 | t-검정, z-검정, F-검정의 이론적 기반 |
| 신뢰구간 | 피벗 기반 구간 추정 | \(\bar{X} \pm t_{\alpha/2} \cdot S/\sqrt{n}\) |
| 딥러닝 | 배치 정규화 | \(\hat{x}_i = (x_i - \mu_B)/\sigma_B\) — 위치-척도 표준화 |
| 데이터 전처리 | z-score 표준화 | 변수 간 스케일 통일 |
| 강건 통계 | 위치-척도 추정 | 중위수(위치) + MAD(척도) — 정규 가정 불필요 |
| 품질관리 | 관리도(control chart) | 중심선( \(\mu\) ) + 관리한계( \(k\sigma\) ) |
8 예시: 위치-척도 변환의 기하학적 이해
8.1 손계산: 라플라스 분포의 확률 계산
\(X \sim \text{Laplace}(3, 2)\) 일 때 \(P(X > 5)\) 를 구한다.
표준 라플라스의 PDF는 \(f(z) = \frac{1}{2} e^{-|z|}\) 이다. 위치-척도 변환 \(Z = (X - 3)/2\) 를 적용하면:
\[ P(X > 5) = P\!\left(Z > \frac{5 - 3}{2}\right) = P(Z > 1) = \int_1^{\infty} \frac{1}{2} e^{-z} dz = \frac{1}{2} e^{-1} \approx 0.184 \]
핵심: \(\mu = 3\) , \(\sigma = 2\) 라는 특정 모수에 대한 확률을 표준 분포( \(\mu = 0\) , \(\sigma = 1\) )에서의 계산으로 환원하였다.
9 코드 예시
9.1 Step 1: 순수 Python 구현 (원리 이해)
위치-척도 변환이 PDF를 어떻게 변환하는지 직접 확인한다.
import math
def standard_normal_pdf(z):
"""표준 정규 PDF f(z)"""
return (1 / math.sqrt(2 * math.pi)) * math.exp(-z**2 / 2)
def location_scale_pdf(x, mu, sigma, standard_pdf):
"""위치-척도 변환: (1/sigma) * f((x - mu) / sigma)"""
z = (x - mu) / sigma
return (1 / sigma) * standard_pdf(z)
# 확인: N(3, 4) = 위치-척도 변환된 N(0,1)
mu, sigma = 3.0, 2.0 # N(3, 4)
x_test = 5.0
# 직접 계산
direct = (1 / (sigma * math.sqrt(2 * math.pi))) * math.exp(-(x_test - mu)**2 / (2 * sigma**2))
# 위치-척도 변환
transformed = location_scale_pdf(x_test, mu, sigma, standard_normal_pdf)
print(f"N({mu}, {sigma**2}) at x={x_test}:")
print(f" 직접 계산: {direct:.6f}")
print(f" 위치-척도 변환: {transformed:.6f}")
print(f" 일치 여부: {abs(direct - transformed) < 1e-15}")
# 표준화: Z = (X - mu) / sigma
z = (x_test - mu) / sigma
print(f"\n표준화: Z = ({x_test} - {mu}) / {sigma} = {z}")
print(f"f_Z({z}) = {standard_normal_pdf(z):.6f}")
print(f"(1/sigma) * f_Z(z) = {(1/sigma) * standard_normal_pdf(z):.6f}")9.2 Step 2: scipy/numpy 구현 (실무 활용)
여러 분포의 위치-척도 구조를 확인하고 시각화한다.
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
x = np.linspace(-8, 12, 500)
# 위치-척도족 4개 분포
families = [
("Normal", stats.norm, {"loc": 0, "scale": 1}),
("Cauchy", stats.cauchy, {"loc": 0, "scale": 1}),
("Laplace", stats.laplace, {"loc": 0, "scale": 1}),
("Logistic", stats.logistic, {"loc": 0, "scale": 1}),
]
params_list = [
(0, 1, "standard"),
(2, 1, r"$\mu=2, \sigma=1$ (shift)"),
(0, 2, r"$\mu=0, \sigma=2$ (stretch)"),
(2, 2, r"$\mu=2, \sigma=2$ (both)"),
]
colors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728']
for idx, (name, dist, _) in enumerate(families):
ax = axes[idx // 2][idx % 2]
for (mu, sigma, label), color in zip(params_list, colors):
y = dist.pdf(x, loc=mu, scale=sigma)
ax.plot(x, y, color=color, linewidth=1.5, label=label)
ax.set_title(f"{name} Location-Scale Family")
ax.set_xlabel("x")
ax.set_ylabel("f(x)")
ax.legend(fontsize=8)
ax.set_xlim(-8, 12)
plt.tight_layout()
plt.show()9.3 표준화와 피벗의 실증
표본에서 피벗 양 \((\bar{X} - \mu)/(S/\sqrt{n})\) 의 분포가 모수에 의존하지 않음을 시뮬레이션으로 확인한다.
np.random.seed(42)
n_sim = 10000
n_sample = 30
# 서로 다른 (mu, sigma) 조합에서 피벗 양의 분포 비교
param_sets = [(0, 1), (5, 3), (-10, 0.5)]
fig, ax = plt.subplots(figsize=(8, 4))
for mu, sigma in param_sets:
pivots = []
for _ in range(n_sim):
sample = np.random.normal(loc=mu, scale=sigma, size=n_sample)
x_bar = np.mean(sample)
s = np.std(sample, ddof=1)
pivot = (x_bar - mu) / (s / np.sqrt(n_sample))
pivots.append(pivot)
ax.hist(pivots, bins=80, density=True, alpha=0.4,
label=rf"$\mu={mu}, \sigma={sigma}$")
# 이론적 t-분포
t_x = np.linspace(-5, 5, 300)
ax.plot(t_x, stats.t.pdf(t_x, df=n_sample - 1), 'k--',
linewidth=2, label=f"$t_{{29}}$ (theory)")
ax.set_xlabel("Pivot value")
ax.set_ylabel("Density")
ax.set_title(r"Pivot $(\bar{X} - \mu)/(S/\sqrt{n})$ : distribution is parameter-free")
ax.legend()
ax.set_xlim(-5, 5)
plt.tight_layout()
plt.show()핵심 확인: \(\mu = 0, \sigma = 1\) 이든 \(\mu = -10, \sigma = 0.5\) 이든, 피벗 양의 분포는 동일한 \(t_{29}\) 분포에 겹친다. 이것이 위치-척도 피벗의 핵심 성질이다.
10 지수족과의 관계
위치-척도족과 지수족(Exponential Family)은 독립적인 분류 기준이다. 두 기준이 교차하는 영역을 정리한다.
| 지수족 O | 지수족 X | |
|---|---|---|
| 위치-척도족 O | 정규 \(N(\mu, \sigma^2)\) | 코시 \(\text{Cauchy}(\mu, \sigma)\) |
| 위치-척도족 X | 이항 \(\text{Bin}(n, p)\) , 포아송 \(\text{Poi}(\lambda)\) | 균등 \(U(0, \theta)\) |
- 정규분포는 양쪽 모두에 속하여, 통계학에서 가장 “잘 행동하는” 분포이다
- 코시분포는 위치-척도족이지만 지수족이 아니다: 표준화는 가능하지만 MLE의 닫힌 형태가 없다
- 이항, 포아송 등은 지수족이지만 위치-척도족이 아니다: 충분통계량은 존재하지만 표준화의 의미가 다르다
11 위치-척도 추정의 강건 버전
정규분포를 가정할 때 위치와 척도의 자연스러운 추정량은 \(\bar{X}\) 와 \(S\) 이다. 그러나 이상치가 있으면 이 추정량은 크게 흔들린다. 강건 통계학에서는 위치-척도 구조를 유지하면서 이상치에 덜 민감한 추정량을 사용한다:
| 모수 | 고전적 추정량 | 강건 추정량 | 강건 추정의 이점 |
|---|---|---|---|
| 위치 \(\mu\) | \(\bar{X}\) (표본평균) | median (중위수) | 붕괴점(breakdown point) 50% |
| 척��� \(\sigma\) | \(S\) (표본표준편차) | MAD = \(1.4826 \cdot \text{median}(|X_i - \text{median}|)\) | 이상치 하나에 무한대로 발산하지 않음 |
MAD(Median Absolute Deviation)에 1.4826을 곱하는 이유는, 정규분포에서 MAD가 \(\sigma\) 의 일치 추정량이 되도록 보정하는 상수이다.
12 관련 주제
선행 지식
후속 주제
관련 개념
- 지수족 (Exponential Family) — 독립적 분류 기준, 교차 관계
- 분포 가족 개요 — 위치-척도족 요약
- 코시 분포 — 위치-척도족이지만 지수족이 아닌 예시
- 라플라스 분포 — 위치-척도족 + 강건 통계 응용