1 정의
통계학은 불확실성(uncertainty)이 존재하는 상황에서 데이터를 수집, 정리, 분석, 해석하여 합리적 결론을 도출하는 학문이다.
- 핵심: 관측된 데이터(표본)로부터 관측하지 못한 전체(모집단)에 대해 추론한다
- 수학적 기반: 확률론(probability theory)
- 목적: 의사결정의 근거를 제공하고, 결론의 불확실성을 정량화한다
통계학은 단순히 “숫자를 다루는 기술”이 아니다. 데이터에 내재된 변동성(variability)을 인정하고, 그 변동성 속에서 체계적 패턴(systematic pattern)을 분리하는 논리 체계이다 (Casella & Berger, 2002).
2 개념 및 원리
2.1 통계학의 두 기둥: 기술통계와 추론통계
| 구분 | 기술통계 (Descriptive Statistics) | 추론통계 (Inferential Statistics) |
|---|---|---|
| 목적 | 데이터를 요약하고 시각화 | 표본에서 모집단의 특성을 추론 |
| 질문 | “이 데이터에서 무엇이 보이는가?” | “이 결과가 모집단에서도 성립하는가?” |
| 도구 | 평균, 분산, 히스토그램, 상관계수 | 추정, 검정, 신뢰구간, 회귀 |
| 불확실성 | 다루지 않음 | 핵심적으로 다룸 (p-value, 신뢰구간) |
기술통계는 데이터를 이해하는 첫 단계이고, 추론통계는 그 이해를 일반화하는 단계이다. 실무에서는 EDA(탐색적 데이터 분석)가 기술통계에 해당하고, 가설 검정과 모형화가 추론통계에 해당한다.
2.2 모집단과 표본
- 모집단(Population): 관심 대상 전체의 집합. 모수(parameter) \(\theta\) 로 특성을 기술한다.
- 표본(Sample): 모집단에서 추출한 부분 집합. 통계량(statistic) \(\hat{\theta}\) 으로 모수를 추정한다.
\[ \underbrace{\text{모집단}}_{\text{모수 } \theta \text{ (미지)}} \xrightarrow{\text{표본 추출}} \underbrace{\text{표본} \; X_1, X_2, \ldots, X_n}_{\text{통계량 } \hat{\theta} \text{ (관측 가능)}} \xrightarrow{\text{추론}} \underbrace{\text{모집단에 대한 결론}}_{\text{추정, 검정, 예측}} \]
통계적 추론의 핵심 문제는 다음과 같다:
- 추정(Estimation): \(\theta\) 의 값은 무엇인가? → 점추정, 구간추정
- 검정(Testing): \(\theta\) 에 대한 가설이 옳은가? → 가설 검정
- 예측(Prediction): 새로운 관측값은 어떤 값을 가질 것인가?
2.3 통계적 추론의 전체 파이프라인
1. 문제 정의
└── 연구 질문, 관심 모수 설정
2. 데이터 수집
└── 표본 추출 설계 (무작위, 층화, 군집)
3. 확률 모형 설정
└── 데이터 생성 메커니즘 가정 (분포 가정)
└── X_1, ..., X_n ~ iid f(x|θ)
4. 기술통계 & EDA
└── 요약 통계량, 시각화, 패턴 탐색
5. 통계적 추론
├── 점추정: θ̂ = g(X_1, ..., X_n)
│ ├── 적률추정법 (Method of Moments)
│ └── 최대우도추정법 (MLE)
├── 구간추정: P(L ≤ θ ≤ U) = 1 - α
│ └── 신뢰구간 (Confidence Interval)
└── 가설검정: H_0: θ = θ_0 vs H_1: θ ≠ θ_0
├── 검정통계량
├── p-value
└── 검정력 (Power)
6. 모형 진단
└── 잔차 분석, 적합도 검정, 가정 검토
7. 결론 및 의사결정
└── 결과 해석, 한계 인정, 실무 적용
2.4 확률론: 통계학의 수학적 기반
확률론은 통계학의 언어이다. 통계적 추론의 모든 도구 — 추정량의 분포, 검정의 유의수준, 신뢰구간의 포함 확률 — 는 확률론 위에 구축된다.
| 확률론 개념 | 통계학에서의 역할 |
|---|---|
| 확률 공간 \((\Omega, \mathcal{F}, P)\) | 데이터 생성 메커니즘의 수학적 모형 |
| 확률 변수 \(X: \Omega \to \mathbb{R}\) | 관측 가능한 데이터의 추상화 |
| 확률 분포 \(F(x) = P(X \leq x)\) | 모집단의 특성을 기술 |
| 기대값 \(E[X]\), 분산 \(\text{Var}(X)\) | 모수(평균, 산포)의 정의 |
| 큰 수의 법칙, 중심극한정리 | 표본 통계량의 점근적 성질 → 추론의 이론적 정당화 |
| 조건부 확률 \(P(A \mid B)\) | 베이즈 추론, 회귀 분석의 기반 |
2.5 통계적 추정의 핵심 개념
2.5.1 추정량의 평가 기준
좋은 추정량 \(\hat{\theta}\) 이란 무엇인가? 다음 기준으로 평가한다:
| 기준 | 정의 | 직관 |
|---|---|---|
| 비편향성(Unbiasedness) | \(E[\hat{\theta}] = \theta\) | 평균적으로 맞힌다 |
| 일치성(Consistency) | \(\hat{\theta} \xrightarrow{P} \theta\) as \(n \to \infty\) | 데이터가 많을수록 정확해진다 |
| 효율성(Efficiency) | \(\text{Var}(\hat{\theta})\) 가 최소 | 추정의 흔들림이 작다 |
| 충분성(Sufficiency) | \(\hat{\theta}\) 가 \(\theta\) 에 대한 모든 정보를 담는다 | 데이터를 요약해도 정보 손실이 없다 |
2.5.2 최대우도추정 (MLE)
관측 데이터 \(\mathbf{x} = (x_1, \ldots, x_n)\) 이 주어졌을 때, 우도 함수를 최대화하는 모수 값:
\[ \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta \mid \mathbf{x}) = \arg\max_{\theta} \prod_{i=1}^n f(x_i \mid \theta) \]
MLE는 통계학에서 가장 널리 쓰이는 추정 방법이다. 일치성, 점근적 정규성, 점근적 효율성 등 바람직한 대표본 성질을 갖는다 (Casella & Berger, 2002, Ch.7).
2.5.3 가설 검정 프레임워크
\[ H_0: \theta = \theta_0 \quad \text{(귀무가설)} \qquad \text{vs} \qquad H_1: \theta \neq \theta_0 \quad \text{(대립가설)} \]
| 개념 | 정의 | 비유 |
|---|---|---|
| 유의수준 \(\alpha\) | \(H_0\) 가 참인데 기각할 확률 (제1종 오류) | 무고한 사람을 유죄로 판결 |
| 검정력 \(1 - \beta\) | \(H_1\) 이 참일 때 \(H_0\) 를 기각할 확률 | 유죄인 사람을 유죄로 판결 |
| p-value | 관측된 결과 이상으로 극단적인 결과가 \(H_0\) 하에서 나올 확률 | 증거의 강도 |
p-value는 “\(H_0\) 가 참일 확률”이 아니다. “\(H_0\) 가 참이라는 가정 하에 관측된 데이터 이상으로 극단적인 결과가 나올 확률”이다. 이 구분은 실무에서 빈번히 혼동된다.
3 직관적 설명
직관: 통계학은 “부분을 보고 전체를 판단하는 기술”이다. 수프의 간을 볼 때 냄비 전체를 마시지 않는다 — 잘 저은 후 한 숟갈만 맛보면 된다. 이때 “잘 젓는 것”이 무작위 표본 추출이고, “한 숟갈”이 표본이며, “간이 맞다/안 맞다”를 판단하는 것이 통계적 추론이다. 통계학이 특별한 이유는 “내 판단이 틀릴 확률”까지 계산해준다는 점이다.
3.1 변동성과 불확실성
통계학이 필요한 근본 이유는 데이터에 변동성(variability)이 있기 때문이다.
같은 조건에서 실험을 반복해도 결과가 달라진다. 이 변동성의 원천은:
- 측정 오차: 도구의 한계, 인간의 부주의
- 자연적 변이: 사람마다 다른 키, 체중, 유전자
- 표본 추출의 무작위성: 다른 표본을 뽑으면 다른 통계량을 얻는다
통계학은 이 변동성을 확률 모형으로 형식화하고, 변동성 속에서 신호(signal)와 잡음(noise)을 분리한다.
4 왜 필요한가
4.1 데이터만으로는 결론을 내릴 수 없다
신약 임상시험에서 처치군의 평균 혈압이 대조군보다 5mmHg 낮았다고 하자.
| 질문 | 통계 없이 | 통계로 |
|---|---|---|
| 이 차이가 실제인가? | “5mmHg면 효과 있는 거 아닌가?” | 95% 신뢰구간: [1.2, 8.8]mmHg → 0을 포함하지 않으므로 유의하다 |
| 표본이 달랐어도 같은 결론? | 알 수 없다 | p-value = 0.012 → 우연일 확률이 1.2% |
| 얼마나 확신할 수 있는가? | 주관적 판단 | 검정력 85% → 실제 효과가 있다면 85% 확률로 탐지 가능 |
| 몇 명을 모아야 하는가? | 경험적 감 | 표본 크기 계산: n = 128명/군 (MDE=3mmHg, α=0.05, power=0.80) |
통계학 없이는 “차이가 있다/없다”는 직감에 의존하게 되고, 그 직감의 신뢰도를 정량화할 방법이 없다.
4.2 통계학의 역할 영역
데이터 과학 전체 파이프라인에서 통계학의 위치:
문제 정의 → 데이터 수집 → [통계학 시작]
├── EDA (기술통계)
├── 모형화 (회귀, GLM, 혼합 모형)
├── 추론 (추정, 검정)
├── 진단 (잔차, 적합도)
└── 해석 (효과 크기, 인과) → [통계학 끝]
→ 의사결정 → 배포
5 응용 분야
| 분야 | 통계적 방법 | 구체적 예시 |
|---|---|---|
| 임상의학 | 생존 분석, 임상시험 설계 | 신약 Phase III 시험의 효능 평가 |
| 역학 | 코호트 연구, 교차비/상대위험 | 흡연과 폐암 발생률의 연관성 |
| 품질관리 | 관리도, 공정능력지수 | 반도체 제조 공정의 불량률 관리 |
| 경제학 | 시계열 분석, 패널 데이터 | GDP 성장률 예측, 정책 효과 평가 |
| 생태학 | 포획-재포획, 종 다양성 지수 | 야생 동물 개체 수 추정 |
| 심리학 | ANOVA, 구조방정식 모형 | 인지 실험에서의 조건 간 차이 검정 |
| 마케팅 | A/B 테스트, 다변량 분석 | 광고 캠페인 효과 측정 |
| 보험수리 | GLM, 신뢰도 이론 | 보험료 산정, 손해액 분포 추정 |
| 유전학 | 다중 검정 보정, GWAS | 유전자 변이와 질병의 연관성 분석 |
| 스포츠 | 베이지안 추론, 랭킹 모형 | 선수 성적 예측, 전략 최적화 |
6 예시
6.1 예시: 정규 분포의 모수 추정
주어진 데이터로부터 모집단의 평균과 분산을 추정하는 가장 기본적인 통계 문제를 다룬다.
문제: 5명의 환자의 혈압 변화량(mmHg)이 다음과 같다.
\[x_1 = -8, \quad x_2 = -3, \quad x_3 = -5, \quad x_4 = -7, \quad x_5 = -2\]
데이터가 \(X_i \overset{iid}{\sim} N(\mu, \sigma^2)\) 를 따른다고 가정할 때, \(\mu\) 와 \(\sigma^2\) 를 추정하고, \(\mu = 0\) 인지 검정하라.
풀이:
- 점추정
\[ \hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{-8 + (-3) + (-5) + (-7) + (-2)}{5} = -5.0 \]
\[ \hat{\sigma}^2 = S^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2 = \frac{(-3)^2 + 2^2 + 0^2 + (-2)^2 + 3^2}{4} = \frac{26}{4} = 6.5 \]
- 가설 검정: \(H_0: \mu = 0\) vs \(H_1: \mu \neq 0\)
\[ t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}} = \frac{-5.0 - 0}{\sqrt{6.5} / \sqrt{5}} = \frac{-5.0}{1.140} = -4.386 \]
\(t_{0.025, 4} = 2.776\) 이므로 \(|t| = 4.386 > 2.776\), 유의수준 0.05에서 \(H_0\) 를 기각한다.
- 95% 신뢰구간
\[ \bar{X} \pm t_{0.025, 4} \cdot \frac{S}{\sqrt{n}} = -5.0 \pm 2.776 \times 1.140 = [-8.16, -1.84] \]
0이 포함되지 않으므로, 혈압 변화량이 통계적으로 유의하게 0이 아니다 (즉, 약이 효과가 있다).
7 코드 예시
7.1 Step 1: 순수 Python 구현 (원리 이해)
import math
def mean(data):
"""표본 평균: x̄ = (1/n) Σx_i"""
return sum(data) / len(data)
def variance(data, ddof=1):
"""표본 분산: S² = Σ(x_i - x̄)² / (n - ddof)"""
m = mean(data)
return sum((x - m) ** 2 for x in data) / (len(data) - ddof)
def t_test_one_sample(data, mu_0=0):
"""
단일 표본 t-검정을 순수 Python으로 구현한다.
t = (x̄ - μ₀) / (S / √n)
"""
n = len(data)
x_bar = mean(data)
s = math.sqrt(variance(data, ddof=1))
se = s / math.sqrt(n) # 표준 오차
t_stat = (x_bar - mu_0) / se
df = n - 1
# 95% 신뢰구간
# t 임계값 (df=4, alpha=0.05, 양측): 직접 계산 대신 테이블 값 사용
t_crit = {1: 12.706, 2: 4.303, 3: 3.182, 4: 2.776,
5: 2.571, 10: 2.228, 20: 2.086, 30: 2.042}
ci_lower = x_bar - t_crit[df] * se
ci_upper = x_bar + t_crit[df] * se
return {
"x_bar": x_bar,
"s": s,
"se": se,
"t_statistic": t_stat,
"df": df,
"ci_95": (ci_lower, ci_upper),
"t_critical": t_crit[df],
"reject_H0": abs(t_stat) > t_crit[df]
}
# 혈압 변화량 데이터
data = [-8, -3, -5, -7, -2]
result = t_test_one_sample(data, mu_0=0)
print(f"표본 평균: {result['x_bar']:.1f}")
print(f"표본 표준편차: {result['s']:.3f}")
print(f"표준 오차: {result['se']:.3f}")
print(f"t 통계량: {result['t_statistic']:.3f}")
print(f"자유도: {result['df']}")
print(f"95% 신뢰구간: [{result['ci_95'][0]:.2f}, {result['ci_95'][1]:.2f}]")
print(f"H₀ 기각 여부: {result['reject_H0']}")7.2 Step 2: scipy 구현 (실무 활용)
import numpy as np
from scipy import stats
data = np.array([-8, -3, -5, -7, -2])
# 기술통계
print(f"평균: {data.mean():.1f}")
print(f"표준편차: {data.std(ddof=1):.3f}")
print(f"중앙값: {np.median(data):.1f}")
# 단일 표본 t-검정: H₀: μ = 0
t_stat, p_value = stats.ttest_1samp(data, popmean=0)
print(f"\nt 통계량: {t_stat:.3f}")
print(f"p-value: {p_value:.4f}")
# 95% 신뢰구간
ci = stats.t.interval(
confidence=0.95,
df=len(data) - 1,
loc=data.mean(),
scale=stats.sem(data)
)
print(f"95% 신뢰구간: [{ci[0]:.2f}, {ci[1]:.2f}]")
# 효과 크기 (Cohen's d)
cohens_d = data.mean() / data.std(ddof=1)
print(f"Cohen's d: {cohens_d:.3f}")8 통계학의 주요 분야 체계
이 블로그의 Statistics 카테고리에서 다루는 분야를 체계적으로 정리한다.
통계학
├── 확률론 (Probability Theory)
│ ├── 확률 공리, 조건부 확률, 베이즈 정리
│ ├── 확률 변수, 확률 분포 (이산/연속)
│ ├── 기대값, 분산, 적률생성함수
│ ├── 지수족 (Exponential Family)
│ └── 수렴 (확률 수렴, 분포 수렴, 중심극한정리)
│
├── 통계적 추론 (Statistical Inference)
│ ├── 점추정 (MLE, 적률법, 베이지안 추정)
│ ├── 구간추정 (신뢰구간, 피벗량)
│ ├── 가설검정 (우도비 검정, p-value, 검정력)
│ └── 데이터 축약 원리 (충분성, 우도 원리)
│
├── 회귀 분석 (Regression)
│ ├── 단순/다중 선형 회귀
│ ├── 일반화 선형 모형 (GLM)
│ │ ├── 로지스틱 회귀 (이항)
│ │ ├── 포아송 회귀 (카운트)
│ │ └── 감마 회귀 (양의 연속)
│ └── 모형 진단 및 선택
│
├── 분산 분석 (ANOVA)
│ ├── 일원/다원 ANOVA
│ ├── ANCOVA, 반복측정 ANOVA, MANOVA
│ └── 사후 검정 (Tukey, Bonferroni)
│
├── 종단 데이터 분석 (Longitudinal Data Analysis)
│ ├── 선형 혼합 모형 (LMM)
│ ├── 일반화 선형 혼합 모형 (GLMM)
│ ├── 일반화 추정 방정식 (GEE)
│ ├── 일반화 가법 모형 (GAM/GAMM)
│ └── 패널 데이터 (고정효과, DiD)
│
├── 생존 분석 (Survival Analysis)
│ ├── Kaplan-Meier, Log-rank 검정
│ ├── Cox 비례위험 모형
│ ├── 모수적 생존 모형 (Weibull, 지수)
│ └── 경쟁 위험, 재발 사건
│
├── 시계열 분석 (Time Series)
│ ├── 정상성, ACF/PACF
│ ├── ARIMA, SARIMA
│ └── 상태 공간 모형
│
├── 함수형 데이터 분석 (FDA)
│ ├── 기저 함수, 평활화
│ ├── 함수적 주성분 분석 (FPCA)
│ └── 함수 회귀
│
├── 범주형 데이터 분석
│ ├── 카이제곱 검정
│ ├── Fisher 정확검정
│ └── 로그선형 모형
│
└── 점근 이론 (Asymptotics)
├── 일치성, 점근적 효율성
├── 델타 방법
└── 점근적 가설 검정
8.1 학습 경로 제안
Phase 1: 기초 (확률론 + 기술통계)
├── 확률론: 공리, 분포, 기대값, 수렴
├── 기술통계: 요약 통계, 시각화
└── 선행 수학: 선형대수, 미적분
Phase 2: 추론의 핵심 (추정 + 검정)
├── 점추정: MLE, 적률법, 추정량 평가
├── 구간추정: 신뢰구간, 피벗량
├── 가설검정: t-검정, ANOVA, 카이제곱
└── 데이터 축약: 충분통계량
Phase 3: 회귀와 모형화
├── 선형 회귀 → GLM → 혼합 모형
├── 모형 진단과 선택
└── 비모수/반모수 방법
Phase 4: 특화 분야
├── 생존 분석, 시계열, FDA
├── 종단 데이터, 패널 데이터
└── 베이지안 통계
9 이 카테고리의 구성
이 블로그의 Statistics 카테고리는 Casella & Berger (2002)의 체계를 뼈대로, 응용 분야를 확장하는 구조로 구성되어 있다. 전체 목차는 Statistics Contents List에서 확인할 수 있다.
| 영역 | 주요 주제 | 교재 기반 |
|---|---|---|
| Part I: 확률과 분포 | 확률론, 변환, 지수족, 다변량 확률 변수 | Casella & Berger Ch.1-4 |
| Part II: 표본과 데이터 축소 | 확률 표본의 성질, 충분통계량, 우도원리 | Casella & Berger Ch.5-6 |
| Part III: 통계적 추론 | 점추정, 가설검정, 구간추정 | Casella & Berger Ch.7-9 |
| Part IV: 점근 이론 | 일치성, 효율성, 점근적 검정 | Casella & Berger Ch.10 |
| 회귀 분석 | 선형 회귀, GLM | McCullagh & Nelder |
| 분산 분석 | ANOVA, ANCOVA, MANOVA | — |
| 범주형 데이터 | 카이제곱 검정, 로그선형 모형 | — |
| 종단 데이터 분석 | LMM, GLMM, GEE, GAM, 패널 데이터 | Hedeker & Gibbons |
| 생존 분석 | Kaplan-Meier, Cox 모형, 경쟁 위험 | Kleinbaum & Klein |
| 시계열 분석 | 정상성, ARIMA | — |
| 함수형 데이터 분석 | FPCA, 함수 회귀 | Ramsay |
10 관련 주제
카테고리 내 핵심 포스트
선행 지식 (Math 카테고리)
- 벡터와 행렬 기초
- 미분 개념
- 테일러 급수
- 볼록 조합과 최적화
- 최적화 기초 — 아직 미작성, MLE의 수학적 기반
다른 카테고리 연결
- 데이터 과학 방법론 — 통계학의 실무 적용 맥락
- 머신러닝 개요 — 통계적 학습으로의 확장
- A/B 테스트 — 가설 검정의 실무 적용
- 역학 연구 설계 — 통계적 추론의 연구 설계 맥락
- 베이지안 통계 — 아직 미작성, 빈도주의와의 비교
참고 교재
- Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.). Cengage.
- McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models (2nd Ed.). Chapman & Hall.
- Hedeker, D. & Gibbons, R.D. (2006). Longitudinal Data Analysis. Wiley.
- Kleinbaum, D.G. & Klein, M. (2012). Survival Analysis: A Self-Learning Text (3rd Ed.). Springer.