위치-척도족 (Location-Scale Family)

표준화, 피벗, 검정 통계량의 수학적 기반 — 위치족, 척도족, 위치-척도족의 정의와 응용

위치-척도족은 하나의 표준 PDF로부터 위치와 척도 변환을 통해 분포 가족을 생성하는 구조이다. z-score 표준화, t-통계량, 배치 정규화 등 실무에서 흔히 사용하는 기법이 모두 이 구조에 기반한다. 이 포스트에서는 위치족, 척도족, 위치-척도족의 정의를 교재 기반으로 엄밀히 다루고, 표준화 정리, 피벗 양, 그리고 데이터 사이언스 응용까지 코드와 함께 살펴본다.

Statistics
저자

Kwangmin Kim

공개

2026년 03월 30일

1 개요

정규분포 \(N(\mu, \sigma^2)\) 에서 z-score \(Z = (X - \mu)/\sigma\) 를 구하면, \(Z\) 는 항상 \(N(0, 1)\) 을 따른다. 이 변환이 가능한 이유는 정규분포가 위치-척도족(location-scale family)에 속하기 때문이다.

위치-척도족이란, 하나의 “표준 PDF” \(f(x)\) 에 위치 이동( \(\mu\) )과 척도 변환( \(\sigma\) )을 적용하여 전체 분포 가족을 생성하는 구조이다. 이 단순한 정의에서 다음 결과가 따라 나온다:

  • 표준화: \(Z = (X - \mu)/\sigma\) 의 분포가 모수에 의존하지 않는다
  • 피벗 양(pivotal quantity): 신뢰구간과 검정 통계량의 구성 원리
  • 분포표의 사용 가능성: 표준 분포 하나만 표로 만들면 모든 멤버의 확률을 계산할 수 있다

정규, 코시, 라플라스, 로지스틱 분포가 위치-척도족의 대표적 예시이며, 지수족과는 독립적인 분류 기준이다(양쪽에 모두 속하는 분포도 있다).


2 위치족 (Location Family)

정의: 위치족 (Casella & Berger, 2002, Definition 3.5.2)

\(f(x)\) 가 임의의 PDF이면, \(f(x - \mu)\) ( \(-\infty < \mu < \infty\) )로 이루어진 PDF 모임을 위치족(location family)이라 하고, \(\mu\)위치 모수(location parameter)라 한다.

이 정의가 말하는 것: \(x\) 에서 \(\mu\) 를 빼면, PDF 그래프가 오른쪽으로 \(\mu\) 만큼 이동한다. 마치 수평선 위의 종모양 커브를 원점에서 시작하여 원하는 위치로 슬라이드하는 것과 같다.

위치 모수 \(\mu\) 는 PDF의 그래프를 수평으로 이동시킨다. 그래프의 모양(shape)은 전혀 변하지 않고, \(x = 0\) 위에 있던 점이 \(x = \mu\) 위로 옮겨진다. 실무적으로는, 같은 모양의 분포를 서로 다른 중심에 배치할 수 있다는 의미이다.

2.1 직관: 측정 오차 모형

실험에서 물리 상수 \(\mu\) (예: 용액의 온도)를 측정한다고 하자. 측정 기기에는 오차 \(Z\) 가 있어서 실제 관측값은 \(X = Z + \mu\) 이다. 오차 \(Z\) 의 분포 \(f(z)\) 를 알고 있다면, \(X\) 의 분포는 \(f(x - \mu)\) — 즉 위치족이다 (Casella & Berger, 2002, Ch.3).

2.2 예시: 지수 위치족

\(f(x) = e^{-x}\) ( \(x \geq 0\) )인 표준 지수분포로 위치족을 구성하면 (Casella & Berger, 2002, Example 3.5.3):

\[ f(x|\mu) = \begin{cases} e^{-(x - \mu)} & x \geq \mu \\ 0 & x < \mu \end{cases} \]

지지(support)가 \([\mu, \infty)\)\(\mu\) 에 의존한다. 이 경우 \(\mu\)문턱 모수(threshold parameter)라고도 부르며, 시간 변수에서 최소 반응 시간 같은 의미를 가진다.


3 척도족 (Scale Family)

정의: 척도족 (Casella & Berger, 2002, Definition 3.5.4)

\(f(x)\) 가 임의의 PDF이면, \(\frac{1}{\sigma} f\!\left(\frac{x}{\sigma}\right)\) ( \(\sigma > 0\) )로 이루어진 PDF 모임을 척도족(scale family)이라 하고, \(\sigma\)척도 모수(scale parameter)라 한다.

척도 모�� \(\sigma\) 는 PDF의 그래프를 수평으로 늘이거나( \(\sigma > 1\) ) 줄인다( \(\sigma < 1\) ). 모양의 비례 관계는 유지되면서 펼침의 정도만 변한다. \(1/\sigma\) 를 곱하는 이유는 면적(확률)을 1로 보존하기 위해서이다.

3.1 척도족의 예시

분포 표준 PDF 척도 모수 조건
감마 \(\text{Ga}(\alpha, \beta)\) \(\text{Ga}(\alpha, 1)\) \(\beta\) \(\alpha\) 고정
정규 \(N(0, \sigma^2)\) \(N(0, 1)\) \(\sigma\) \(\mu = 0\)
지수 \(\text{Exp}(\lambda)\) \(\text{Exp}(1)\) \(1/\lambda\)
라플라스 \(\text{Laplace}(0, \sigma)\) \(\text{Laplace}(0, 1)\) \(\sigma\) \(\mu = 0\)

4 위치-척도족 (Location-Scale Family)

정의: 위치-척도족 (Casella & Berger, 2002, Definition 3.5.5)

\(f(x)\) 가 임의의 PDF이면, \(\frac{1}{\sigma} f\!\left(\frac{x - \mu}{\sigma}\right)\) ( \(-\infty < \mu < \infty\) , \(\sigma > 0\) )로 이루어진 PDF 모임을 위치-척도족(location-scale family)이라 한다. \(\mu\) 는 위치 모수, \(\sigma\) 는 척도 모수이다.

위치-척도 변환은 두 단계로 이루어진다:

  1. 척도 변환: 그래프를 \(\sigma\) 배 늘이거나 줄인다
  2. 위치 이동: \(x = 0\) 위의 점을 \(x = \mu\) 위로 옮긴다

4.1 주요 위치-척도족

분포 표준 PDF \(f_0(x)\) 위치 모수 척도 모수
정규 \(N(\mu, \sigma^2)\) \(\frac{1}{\sqrt{2\pi}} e^{-x^2/2}\) \(\mu\) \(\sigma\)
코시 \(\text{Cauchy}(\mu, \sigma)\) \(\frac{1}{\pi(1 + x^2)}\) \(\mu\) \(\sigma\)
라플라스 \(\text{Laplace}(\mu, \sigma)\) \(\frac{1}{2} e^{-|x|}\) \(\mu\) \(\sigma\)
로지스틱 \(\text{Logistic}(\mu, \sigma)\) \(\frac{e^{-x}}{(1 + e^{-x})^2}\) \(\mu\) \(\sigma\)

이 분포들은 모두 같은 원리를 공유한다: 표준 분포 하나만 알면, 위치와 척도를 조절하여 모든 멤버의 확률을 계산할 수 있다.


5 핵심 정리: 확률변수 표현

정리 3.5.6 (Casella & Berger, 2002, Ch.3)

\(f(\cdot)\) 가 임의의 PDF, \(\mu\) 가 실수, \(\sigma > 0\) 일 때:

\(X\) 가 PDF \(\frac{1}{\sigma} f\!\left(\frac{x - \mu}{\sigma}\right)\) 를 가지는 것은, PDF \(f(z)\) 를 가지는 확률변수 \(Z\) 가 존재하여 \(X = \sigma Z + \mu\) 인 것과 동치이다.

핵심 아이디어: 위치-척도족의 모든 멤버는 “표준 형태 \(Z\)\(\sigma\) 배 늘인 후 \(\mu\) 만큼 이동”한 것이다. 반대로, 임의의 \(X\)\((X - \mu)/\sigma\) 로 역변환하면 표준 형태 \(Z\) 로 돌아온다. 이것이 z-score 변환의 원리이다.

이 정리가 핵심인 이유: \(X\) 를 관측한 뒤 \(Z = (X - \mu)/\sigma\) 로 변환하면, \(Z\) 의 분포는 표준 PDF \(f(z)\) — 즉 모수 \(\mu\) , \(\sigma\) 에 의존하지 않는다. \(\mu\)\(\sigma\) 가 무엇이든, 표준화 후에는 모두 같은 분포가 된다. 이것이 표준화(standardization)의 수학적 근거이다.

5.1 적률 정리

정리 3.5.7 (Casella & Berger, 2002, Ch.3)

\(Z\) 가 표준 PDF \(f(z)\) 를 따르고 \(EZ\) , \(\text{Var}Z\) 가 존재하면:

\[ EX = \sigma \, EZ + \mu, \quad \text{Var}X = \sigma^2 \, \text{Var}Z \]

특히 \(EZ = 0\) , \(\text{Var}Z = 1\) 이면 \(EX = \mu\) , \(\text{Var}X = \sigma^2\) 이다.

표준 PDF를 \(EZ = 0\) , \(\text{Var}Z = 1\) 이 되도록 선택하면, 위치 모수 \(\mu\) 가 곧 평균이고 \(\sigma^2\) 이 곧 분산이 된다. 정규분포가 이 관례를 따르지만, 라플라스 분포는 표준 형태에서 \(\text{Var}Z = 2\) 이므로 \(\sigma\) 가 표준편차와 일치하지 않는다 (Casella & Berger, 2002, Ch.3).


6 왜 위치-척도족이 중요한가

6.1 표준화와 분포표

위치-척도족의 가장 직접적인 응용은 표준화(standardization)이다:

\[ P(X \leq x) = P\!\left(\frac{X - \mu}{\sigma} \leq \frac{x - \mu}{\sigma}\right) = P\!\left(Z \leq \frac{x - \mu}{\sigma}\right) \]

\(Z\) 의 분포는 모수에 의존하지 않으므로, 표준 정규 분포표 하나만 있으면 임의의 \(N(\mu, \sigma^2)\) 에 대한 확률을 계산할 수 있다. z-score 표준화, t-검정의 t-통계량, 표준 정규표의 사용이 모두 이 원리에 기반한다.

6.2 피벗 양 (Pivotal Quantity)

위치-척도 구조에서 자연스럽게 피벗 양이 등장한다 (Casella & Berger, 2002, Example 9.2.7). 피벗 양이란 데이터와 모수의 함수이면서 그 분포가 모수에 의존하지 않는 양이다.

분포 유형 형태 피벗 양 원리
위치족 \(f(x - \mu)\) 차이(difference) \(\bar{X} - \mu\) 위치 모수는 차이로 상쇄
척도족 \(\frac{1}{\sigma} f\!\left(\frac{x}{\sigma}\right)\) 비율(ratio) \(\bar{X}/\sigma\) 척도 모수는 비율로 상쇄
위치-척도족 \(\frac{1}{\sigma} f\!\left(\frac{x - \mu}{\sigma}\right)\) 차이의 비율 \((\bar{X} - \mu)/S\) 위치는 차이로, 척도는 비율로 상쇄

정규분포에서 \((\bar{X} - \mu)/(S/\sqrt{n})\)\(t_{n-1}\) 분포를 따르는 것은, 이 양이 위치-척도 피벗이기 때문이다. 피벗 양은 신뢰구간 구성의 핵심 도구이다.

6.3 모수 해석의 보편성

위치-척도족에서 \(\mu\)\(\sigma\) 의 해석은 분포에 관계없이 동일하다:

  • \(\mu\) 는 분포를 수평으로 이동시키는 양 (중심)
  • \(\sigma\) 는 분포의 펼침 정도를 결정하는 양 (산포)

이 보편성 덕분에 “중심과 산포”라는 통계적 사고 틀이 정규분포를 넘어 코시, 라플라스 등에도 일관되게 적용된다.


7 응용 분야

분야 활용 구체적 예시
검정 통계량 피벗 양 구성 t-검정, z-검정, F-검정의 이론적 기반
신뢰구간 피벗 기반 구간 추정 \(\bar{X} \pm t_{\alpha/2} \cdot S/\sqrt{n}\)
딥러닝 배치 정규화 \(\hat{x}_i = (x_i - \mu_B)/\sigma_B\) — 위치-척도 표준화
데이터 전처리 z-score 표준화 변수 간 스케일 통일
강건 통계 위치-척도 추정 중위수(위치) + MAD(척도) — 정규 가정 불필요
품질관리 관리도(control chart) 중심선( \(\mu\) ) + 관리한계( \(k\sigma\) )

8 예시: 위치-척도 변환의 기하학적 이해

8.1 손계산: 라플라스 분포의 확률 계산

\(X \sim \text{Laplace}(3, 2)\) 일 때 \(P(X > 5)\) 를 구한다.

표준 라플라스의 PDF는 \(f(z) = \frac{1}{2} e^{-|z|}\) 이다. 위치-척도 변환 \(Z = (X - 3)/2\) 를 적용하면:

\[ P(X > 5) = P\!\left(Z > \frac{5 - 3}{2}\right) = P(Z > 1) = \int_1^{\infty} \frac{1}{2} e^{-z} dz = \frac{1}{2} e^{-1} \approx 0.184 \]

핵심: \(\mu = 3\) , \(\sigma = 2\) 라는 특정 모수에 대한 확률을 표준 분포( \(\mu = 0\) , \(\sigma = 1\) )에서의 계산으로 환원하였다.


9 코드 예시

9.1 Step 1: 순수 Python 구현 (원리 이해)

위치-척도 변환이 PDF를 어떻게 변환하는지 직접 확인한다.

import math

def standard_normal_pdf(z):
    """표준 정규 PDF f(z)"""
    return (1 / math.sqrt(2 * math.pi)) * math.exp(-z**2 / 2)

def location_scale_pdf(x, mu, sigma, standard_pdf):
    """위치-척도 변환: (1/sigma) * f((x - mu) / sigma)"""
    z = (x - mu) / sigma
    return (1 / sigma) * standard_pdf(z)

# 확인: N(3, 4) = 위치-척도 변환된 N(0,1)
mu, sigma = 3.0, 2.0  # N(3, 4)
x_test = 5.0

# 직접 계산
direct = (1 / (sigma * math.sqrt(2 * math.pi))) * math.exp(-(x_test - mu)**2 / (2 * sigma**2))

# 위치-척도 변환
transformed = location_scale_pdf(x_test, mu, sigma, standard_normal_pdf)

print(f"N({mu}, {sigma**2}) at x={x_test}:")
print(f"  직접 계산:      {direct:.6f}")
print(f"  위치-척도 변환: {transformed:.6f}")
print(f"  일치 여부: {abs(direct - transformed) < 1e-15}")

# 표준화: Z = (X - mu) / sigma
z = (x_test - mu) / sigma
print(f"\n표준화: Z = ({x_test} - {mu}) / {sigma} = {z}")
print(f"f_Z({z}) = {standard_normal_pdf(z):.6f}")
print(f"(1/sigma) * f_Z(z) = {(1/sigma) * standard_normal_pdf(z):.6f}")

9.2 Step 2: scipy/numpy 구현 (실무 활용)

여러 분포의 위치-척도 구조를 확인하고 시각화한다.

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

fig, axes = plt.subplots(2, 2, figsize=(12, 8))
x = np.linspace(-8, 12, 500)

# 위치-척도족 4개 분포
families = [
    ("Normal", stats.norm, {"loc": 0, "scale": 1}),
    ("Cauchy", stats.cauchy, {"loc": 0, "scale": 1}),
    ("Laplace", stats.laplace, {"loc": 0, "scale": 1}),
    ("Logistic", stats.logistic, {"loc": 0, "scale": 1}),
]

params_list = [
    (0, 1, "standard"),
    (2, 1, r"$\mu=2, \sigma=1$ (shift)"),
    (0, 2, r"$\mu=0, \sigma=2$ (stretch)"),
    (2, 2, r"$\mu=2, \sigma=2$ (both)"),
]

colors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728']

for idx, (name, dist, _) in enumerate(families):
    ax = axes[idx // 2][idx % 2]
    for (mu, sigma, label), color in zip(params_list, colors):
        y = dist.pdf(x, loc=mu, scale=sigma)
        ax.plot(x, y, color=color, linewidth=1.5, label=label)
    ax.set_title(f"{name} Location-Scale Family")
    ax.set_xlabel("x")
    ax.set_ylabel("f(x)")
    ax.legend(fontsize=8)
    ax.set_xlim(-8, 12)

plt.tight_layout()
plt.show()

9.3 표준화와 피벗의 실증

표본에서 피벗 양 \((\bar{X} - \mu)/(S/\sqrt{n})\) 의 분포가 모수에 의존하지 않음을 시뮬레이션으로 확인한다.

np.random.seed(42)
n_sim = 10000
n_sample = 30

# 서로 다른 (mu, sigma) 조합에서 피벗 양의 분포 비교
param_sets = [(0, 1), (5, 3), (-10, 0.5)]

fig, ax = plt.subplots(figsize=(8, 4))

for mu, sigma in param_sets:
    pivots = []
    for _ in range(n_sim):
        sample = np.random.normal(loc=mu, scale=sigma, size=n_sample)
        x_bar = np.mean(sample)
        s = np.std(sample, ddof=1)
        pivot = (x_bar - mu) / (s / np.sqrt(n_sample))
        pivots.append(pivot)
    ax.hist(pivots, bins=80, density=True, alpha=0.4,
            label=rf"$\mu={mu}, \sigma={sigma}$")

# 이론적 t-분포
t_x = np.linspace(-5, 5, 300)
ax.plot(t_x, stats.t.pdf(t_x, df=n_sample - 1), 'k--',
        linewidth=2, label=f"$t_{{29}}$ (theory)")

ax.set_xlabel("Pivot value")
ax.set_ylabel("Density")
ax.set_title(r"Pivot $(\bar{X} - \mu)/(S/\sqrt{n})$ : distribution is parameter-free")
ax.legend()
ax.set_xlim(-5, 5)
plt.tight_layout()
plt.show()

핵심 확인: \(\mu = 0, \sigma = 1\) 이든 \(\mu = -10, \sigma = 0.5\) 이든, 피벗 양의 분포는 동일한 \(t_{29}\) 분포에 겹친다. 이것이 위치-척도 피벗의 핵심 성질이다.


10 지수족과의 관계

위치-척도족과 지수족(Exponential Family)독립적인 분류 기준이다. 두 기준이 교차하는 영역을 정리한다.

지수족 O 지수족 X
위치-척도족 O 정규 \(N(\mu, \sigma^2)\) 코시 \(\text{Cauchy}(\mu, \sigma)\)
위치-척도족 X 이항 \(\text{Bin}(n, p)\) , 포아송 \(\text{Poi}(\lambda)\) 균등 \(U(0, \theta)\)
  • 정규분포는 양쪽 모두에 속하여, 통계학에서 가장 “잘 행동하는” 분포이다
  • 코시분포는 위치-척도족이지만 지수족이 아니다: 표준화는 가능하지만 MLE의 닫힌 형태가 없다
  • 이항, 포아송 등은 지수족이지만 위치-척도족이 아니다: 충분통계량은 존재하지만 표준화의 의미가 다르다

11 위치-척도 추정의 강건 버전

정규분포를 가정할 때 위치와 척도의 자연스러운 추정량은 \(\bar{X}\)\(S\) 이다. 그러나 이상치가 있으면 이 추정량은 크게 흔들린다. 강건 통계학에서는 위치-척도 구조를 유지하면서 이상치에 덜 민감한 추정량을 사용한다:

모수 고전적 추정량 강건 추정량 강건 추정의 이점
위치 \(\mu\) \(\bar{X}\) (표본평균) median (중위수) 붕괴점(breakdown point) 50%
척��� \(\sigma\) \(S\) (표본표준편차) MAD = \(1.4826 \cdot \text{median}(|X_i - \text{median}|)\) 이상치 하나에 무한대로 발산하지 않음

MAD(Median Absolute Deviation)에 1.4826을 곱하는 이유는, 정규분포에서 MAD가 \(\sigma\) 의 일치 추정량이 되도록 보정하는 상수이다.


12 관련 주제

선행 지식

후속 주제

관련 개념

Subscribe

Enjoy this blog? Get notified of new posts by email: