Kwangmin Kim - 통계학 개요

1 정의

정의: 통계학 (Statistics)

통계학은 불확실성(uncertainty)이 존재하는 상황에서 데이터를 수집, 정리, 분석, 해석하여 합리적 결론을 도출하는 학문이다.

핵심: 관측된 데이터(표본)로부터 관측하지 못한 전체(모집단)에 대해 추론한다
수학적 기반: 확률론(probability theory)
목적: 의사결정의 근거를 제공하고, 결론의 불확실성을 정량화한다

통계학은 단순히 “숫자를 다루는 기술”이 아니다. 데이터에 내재된 변동성(variability)을 인정하고, 그 변동성 속에서 체계적 패턴(systematic pattern)을 분리하는 논리 체계이다 (Casella & Berger, 2002).

2 개념 및 원리

2.1 통계학의 두 기둥: 기술통계와 추론통계

구분	기술통계 (Descriptive Statistics)	추론통계 (Inferential Statistics)
목적	데이터를 요약하고 시각화	표본에서 모집단의 특성을 추론
질문	“이 데이터에서 무엇이 보이는가?”	“이 결과가 모집단에서도 성립하는가?”
도구	평균, 분산, 히스토그램, 상관계수	추정, 검정, 신뢰구간, 회귀
불확실성	다루지 않음	핵심적으로 다룸 (p-value, 신뢰구간)

기술통계는 데이터를 이해하는 첫 단계이고, 추론통계는 그 이해를 일반화하는 단계이다. 실무에서는 EDA(탐색적 데이터 분석)가 기술통계에 해당하고, 가설 검정과 모형화가 추론통계에 해당한다.

2.2 모집단과 표본

정의: 모집단과 표본

모집단(Population): 관심 대상 전체의 집합. 모수(parameter) \(\theta\) 로 특성을 기술한다.
표본(Sample): 모집단에서 추출한 부분 집합. 통계량(statistic) \(\hat{\theta}\) 으로 모수를 추정한다.

\[ \underbrace{\text{모집단}}_{\text{모수 } \theta \text{ (미지)}} \xrightarrow{\text{표본 추출}} \underbrace{\text{표본} \; X_1, X_2, \ldots, X_n}_{\text{통계량 } \hat{\theta} \text{ (관측 가능)}} \xrightarrow{\text{추론}} \underbrace{\text{모집단에 대한 결론}}_{\text{추정, 검정, 예측}} \]

통계적 추론의 핵심 문제는 다음과 같다:

추정(Estimation): \(\theta\) 의 값은 무엇인가? → 점추정, 구간추정
검정(Testing): \(\theta\) 에 대한 가설이 옳은가? → 가설 검정
예측(Prediction): 새로운 관측값은 어떤 값을 가질 것인가?

2.3 통계적 추론의 전체 파이프라인

1. 문제 정의
   └── 연구 질문, 관심 모수 설정

2. 데이터 수집
   └── 표본 추출 설계 (무작위, 층화, 군집)

3. 확률 모형 설정
   └── 데이터 생성 메커니즘 가정 (분포 가정)
   └── X_1, ..., X_n ~ iid f(x|θ)

4. 기술통계 & EDA
   └── 요약 통계량, 시각화, 패턴 탐색

5. 통계적 추론
   ├── 점추정: θ̂ = g(X_1, ..., X_n)
   │   ├── 적률추정법 (Method of Moments)
   │   └── 최대우도추정법 (MLE)
   ├── 구간추정: P(L ≤ θ ≤ U) = 1 - α
   │   └── 신뢰구간 (Confidence Interval)
   └── 가설검정: H_0: θ = θ_0 vs H_1: θ ≠ θ_0
       ├── 검정통계량
       ├── p-value
       └── 검정력 (Power)

6. 모형 진단
   └── 잔차 분석, 적합도 검정, 가정 검토

7. 결론 및 의사결정
   └── 결과 해석, 한계 인정, 실무 적용

2.4 확률론: 통계학의 수학적 기반

확률론은 통계학의 언어이다. 통계적 추론의 모든 도구 — 추정량의 분포, 검정의 유의수준, 신뢰구간의 포함 확률 — 는 확률론 위에 구축된다.

확률론 개념	통계학에서의 역할
확률 공간 \((\Omega, \mathcal{F}, P)\)	데이터 생성 메커니즘의 수학적 모형
확률 변수 \(X: \Omega \to \mathbb{R}\)	관측 가능한 데이터의 추상화
확률 분포 \(F(x) = P(X \leq x)\)	모집단의 특성을 기술
기대값 \(E[X]\), 분산 \(\text{Var}(X)\)	모수(평균, 산포)의 정의
큰 수의 법칙, 중심극한정리	표본 통계량의 점근적 성질 → 추론의 이론적 정당화
조건부 확률 \(P(A \mid B)\)	베이즈 추론, 회귀 분석의 기반

2.5 통계적 추정의 핵심 개념

2.5.1 추정량의 평가 기준

좋은 추정량 \(\hat{\theta}\) 이란 무엇인가? 다음 기준으로 평가한다:

기준	정의	직관
비편향성(Unbiasedness)	\(E[\hat{\theta}] = \theta\)	평균적으로 맞힌다
일치성(Consistency)	\(\hat{\theta} \xrightarrow{P} \theta\) as \(n \to \infty\)	데이터가 많을수록 정확해진다
효율성(Efficiency)	\(\text{Var}(\hat{\theta})\) 가 최소	추정의 흔들림이 작다
충분성(Sufficiency)	\(\hat{\theta}\) 가 \(\theta\) 에 대한 모든 정보를 담는다	데이터를 요약해도 정보 손실이 없다

2.5.2 최대우도추정 (MLE)

정의: 최대우도추정량 (Maximum Likelihood Estimator)

관측 데이터 \(\mathbf{x} = (x_1, \ldots, x_n)\) 이 주어졌을 때, 우도 함수를 최대화하는 모수 값:

\[ \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta \mid \mathbf{x}) = \arg\max_{\theta} \prod_{i=1}^n f(x_i \mid \theta) \]

MLE는 통계학에서 가장 널리 쓰이는 추정 방법이다. 일치성, 점근적 정규성, 점근적 효율성 등 바람직한 대표본 성질을 갖는다 (Casella & Berger, 2002, Ch.7).

2.5.3 가설 검정 프레임워크

\[ H_0: \theta = \theta_0 \quad \text{(귀무가설)} \qquad \text{vs} \qquad H_1: \theta \neq \theta_0 \quad \text{(대립가설)} \]

개념	정의	비유
유의수준 \(\alpha\)	\(H_0\) 가 참인데 기각할 확률 (제1종 오류)	무고한 사람을 유죄로 판결
검정력 \(1 - \beta\)	\(H_1\) 이 참일 때 \(H_0\) 를 기각할 확률	유죄인 사람을 유죄로 판결
p-value	관측된 결과 이상으로 극단적인 결과가 \(H_0\) 하에서 나올 확률	증거의 강도

경고

p-value는 “\(H_0\) 가 참일 확률”이 아니다. “\(H_0\) 가 참이라는 가정 하에 관측된 데이터 이상으로 극단적인 결과가 나올 확률”이다. 이 구분은 실무에서 빈번히 혼동된다.

3 직관적 설명

직관: 통계학은 “부분을 보고 전체를 판단하는 기술”이다. 수프의 간을 볼 때 냄비 전체를 마시지 않는다 — 잘 저은 후 한 숟갈만 맛보면 된다. 이때 “잘 젓는 것”이 무작위 표본 추출이고, “한 숟갈”이 표본이며, “간이 맞다/안 맞다”를 판단하는 것이 통계적 추론이다. 통계학이 특별한 이유는 “내 판단이 틀릴 확률”까지 계산해준다는 점이다.

3.1 변동성과 불확실성

통계학이 필요한 근본 이유는 데이터에 변동성(variability)이 있기 때문이다.

같은 조건에서 실험을 반복해도 결과가 달라진다. 이 변동성의 원천은:

측정 오차: 도구의 한계, 인간의 부주의
자연적 변이: 사람마다 다른 키, 체중, 유전자
표본 추출의 무작위성: 다른 표본을 뽑으면 다른 통계량을 얻는다

통계학은 이 변동성을 확률 모형으로 형식화하고, 변동성 속에서 신호(signal)와 잡음(noise)을 분리한다.

4 왜 필요한가

4.1 데이터만으로는 결론을 내릴 수 없다

신약 임상시험에서 처치군의 평균 혈압이 대조군보다 5mmHg 낮았다고 하자.

질문	통계 없이	통계로
이 차이가 실제인가?	“5mmHg면 효과 있는 거 아닌가?”	95% 신뢰구간: [1.2, 8.8]mmHg → 0을 포함하지 않으므로 유의하다
표본이 달랐어도 같은 결론?	알 수 없다	p-value = 0.012 → 우연일 확률이 1.2%
얼마나 확신할 수 있는가?	주관적 판단	검정력 85% → 실제 효과가 있다면 85% 확률로 탐지 가능
몇 명을 모아야 하는가?	경험적 감	표본 크기 계산: n = 128명/군 (MDE=3mmHg, α=0.05, power=0.80)

통계학 없이는 “차이가 있다/없다”는 직감에 의존하게 되고, 그 직감의 신뢰도를 정량화할 방법이 없다.

4.2 통계학의 역할 영역

데이터 과학 전체 파이프라인에서 통계학의 위치:

문제 정의 → 데이터 수집 → [통계학 시작]
                            ├── EDA (기술통계)
                            ├── 모형화 (회귀, GLM, 혼합 모형)
                            ├── 추론 (추정, 검정)
                            ├── 진단 (잔차, 적합도)
                            └── 해석 (효과 크기, 인과) → [통계학 끝]
                                                        → 의사결정 → 배포

5 응용 분야

분야	통계적 방법	구체적 예시
임상의학	생존 분석, 임상시험 설계	신약 Phase III 시험의 효능 평가
역학	코호트 연구, 교차비/상대위험	흡연과 폐암 발생률의 연관성
품질관리	관리도, 공정능력지수	반도체 제조 공정의 불량률 관리
경제학	시계열 분석, 패널 데이터	GDP 성장률 예측, 정책 효과 평가
생태학	포획-재포획, 종 다양성 지수	야생 동물 개체 수 추정
심리학	ANOVA, 구조방정식 모형	인지 실험에서의 조건 간 차이 검정
마케팅	A/B 테스트, 다변량 분석	광고 캠페인 효과 측정
보험수리	GLM, 신뢰도 이론	보험료 산정, 손해액 분포 추정
유전학	다중 검정 보정, GWAS	유전자 변이와 질병의 연관성 분석
스포츠	베이지안 추론, 랭킹 모형	선수 성적 예측, 전략 최적화

6 예시

6.1 예시: 정규 분포의 모수 추정

주어진 데이터로부터 모집단의 평균과 분산을 추정하는 가장 기본적인 통계 문제를 다룬다.

문제: 5명의 환자의 혈압 변화량(mmHg)이 다음과 같다.

\[x_1 = -8, \quad x_2 = -3, \quad x_3 = -5, \quad x_4 = -7, \quad x_5 = -2\]

데이터가 \(X_i \overset{iid}{\sim} N(\mu, \sigma^2)\) 를 따른다고 가정할 때, \(\mu\) 와 \(\sigma^2\) 를 추정하고, \(\mu = 0\) 인지 검정하라.

풀이:

점추정

\[ \hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n x_i = \frac{-8 + (-3) + (-5) + (-7) + (-2)}{5} = -5.0 \]

\[ \hat{\sigma}^2 = S^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2 = \frac{(-3)^2 + 2^2 + 0^2 + (-2)^2 + 3^2}{4} = \frac{26}{4} = 6.5 \]

가설 검정: \(H_0: \mu = 0\) vs \(H_1: \mu \neq 0\)

\[ t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}} = \frac{-5.0 - 0}{\sqrt{6.5} / \sqrt{5}} = \frac{-5.0}{1.140} = -4.386 \]

\(t_{0.025, 4} = 2.776\) 이므로 \(|t| = 4.386 > 2.776\), 유의수준 0.05에서 \(H_0\) 를 기각한다.

95% 신뢰구간

\[ \bar{X} \pm t_{0.025, 4} \cdot \frac{S}{\sqrt{n}} = -5.0 \pm 2.776 \times 1.140 = [-8.16, -1.84] \]

0이 포함되지 않으므로, 혈압 변화량이 통계적으로 유의하게 0이 아니다 (즉, 약이 효과가 있다).

7 코드 예시

7.1 Step 1: 순수 Python 구현 (원리 이해)

import math

def mean(data):
    """표본 평균: x̄ = (1/n) Σx_i"""
    return sum(data) / len(data)

def variance(data, ddof=1):
    """표본 분산: S² = Σ(x_i - x̄)² / (n - ddof)"""
    m = mean(data)
    return sum((x - m) ** 2 for x in data) / (len(data) - ddof)

def t_test_one_sample(data, mu_0=0):
    """
    단일 표본 t-검정을 순수 Python으로 구현한다.
    t = (x̄ - μ₀) / (S / √n)
    """
    n = len(data)
    x_bar = mean(data)
    s = math.sqrt(variance(data, ddof=1))
    se = s / math.sqrt(n)  # 표준 오차

    t_stat = (x_bar - mu_0) / se
    df = n - 1

    # 95% 신뢰구간
    # t 임계값 (df=4, alpha=0.05, 양측): 직접 계산 대신 테이블 값 사용
    t_crit = {1: 12.706, 2: 4.303, 3: 3.182, 4: 2.776,
              5: 2.571, 10: 2.228, 20: 2.086, 30: 2.042}
    ci_lower = x_bar - t_crit[df] * se
    ci_upper = x_bar + t_crit[df] * se

    return {
        "x_bar": x_bar,
        "s": s,
        "se": se,
        "t_statistic": t_stat,
        "df": df,
        "ci_95": (ci_lower, ci_upper),
        "t_critical": t_crit[df],
        "reject_H0": abs(t_stat) > t_crit[df]
    }

# 혈압 변화량 데이터
data = [-8, -3, -5, -7, -2]
result = t_test_one_sample(data, mu_0=0)

print(f"표본 평균: {result['x_bar']:.1f}")
print(f"표본 표준편차: {result['s']:.3f}")
print(f"표준 오차: {result['se']:.3f}")
print(f"t 통계량: {result['t_statistic']:.3f}")
print(f"자유도: {result['df']}")
print(f"95% 신뢰구간: [{result['ci_95'][0]:.2f}, {result['ci_95'][1]:.2f}]")
print(f"H₀ 기각 여부: {result['reject_H0']}")

7.2 Step 2: scipy 구현 (실무 활용)

import numpy as np
from scipy import stats

data = np.array([-8, -3, -5, -7, -2])

# 기술통계
print(f"평균: {data.mean():.1f}")
print(f"표준편차: {data.std(ddof=1):.3f}")
print(f"중앙값: {np.median(data):.1f}")

# 단일 표본 t-검정: H₀: μ = 0
t_stat, p_value = stats.ttest_1samp(data, popmean=0)
print(f"\nt 통계량: {t_stat:.3f}")
print(f"p-value: {p_value:.4f}")

# 95% 신뢰구간
ci = stats.t.interval(
    confidence=0.95,
    df=len(data) - 1,
    loc=data.mean(),
    scale=stats.sem(data)
)
print(f"95% 신뢰구간: [{ci[0]:.2f}, {ci[1]:.2f}]")

# 효과 크기 (Cohen's d)
cohens_d = data.mean() / data.std(ddof=1)
print(f"Cohen's d: {cohens_d:.3f}")

8 통계학의 주요 분야 체계

이 블로그의 Statistics 카테고리에서 다루는 분야를 체계적으로 정리한다.

통계학
├── 확률론 (Probability Theory)
│   ├── 확률 공리, 조건부 확률, 베이즈 정리
│   ├── 확률 변수, 확률 분포 (이산/연속)
│   ├── 기대값, 분산, 적률생성함수
│   ├── 지수족 (Exponential Family)
│   └── 수렴 (확률 수렴, 분포 수렴, 중심극한정리)
│
├── 통계적 추론 (Statistical Inference)
│   ├── 점추정 (MLE, 적률법, 베이지안 추정)
│   ├── 구간추정 (신뢰구간, 피벗량)
│   ├── 가설검정 (우도비 검정, p-value, 검정력)
│   └── 데이터 축약 원리 (충분성, 우도 원리)
│
├── 회귀 분석 (Regression)
│   ├── 단순/다중 선형 회귀
│   ├── 일반화 선형 모형 (GLM)
│   │   ├── 로지스틱 회귀 (이항)
│   │   ├── 포아송 회귀 (카운트)
│   │   └── 감마 회귀 (양의 연속)
│   └── 모형 진단 및 선택
│
├── 분산 분석 (ANOVA)
│   ├── 일원/다원 ANOVA
│   ├── ANCOVA, 반복측정 ANOVA, MANOVA
│   └── 사후 검정 (Tukey, Bonferroni)
│
├── 종단 데이터 분석 (Longitudinal Data Analysis)
│   ├── 선형 혼합 모형 (LMM)
│   ├── 일반화 선형 혼합 모형 (GLMM)
│   ├── 일반화 추정 방정식 (GEE)
│   ├── 일반화 가법 모형 (GAM/GAMM)
│   └── 패널 데이터 (고정효과, DiD)
│
├── 생존 분석 (Survival Analysis)
│   ├── Kaplan-Meier, Log-rank 검정
│   ├── Cox 비례위험 모형
│   ├── 모수적 생존 모형 (Weibull, 지수)
│   └── 경쟁 위험, 재발 사건
│
├── 시계열 분석 (Time Series)
│   ├── 정상성, ACF/PACF
│   ├── ARIMA, SARIMA
│   └── 상태 공간 모형
│
├── 함수형 데이터 분석 (FDA)
│   ├── 기저 함수, 평활화
│   ├── 함수적 주성분 분석 (FPCA)
│   └── 함수 회귀
│
├── 범주형 데이터 분석
│   ├── 카이제곱 검정
│   ├── Fisher 정확검정
│   └── 로그선형 모형
│
└── 점근 이론 (Asymptotics)
    ├── 일치성, 점근적 효율성
    ├── 델타 방법
    └── 점근적 가설 검정

8.1 학습 경로 제안

Phase 1: 기초 (확률론 + 기술통계)
├── 확률론: 공리, 분포, 기대값, 수렴
├── 기술통계: 요약 통계, 시각화
└── 선행 수학: 선형대수, 미적분

Phase 2: 추론의 핵심 (추정 + 검정)
├── 점추정: MLE, 적률법, 추정량 평가
├── 구간추정: 신뢰구간, 피벗량
├── 가설검정: t-검정, ANOVA, 카이제곱
└── 데이터 축약: 충분통계량

Phase 3: 회귀와 모형화
├── 선형 회귀 → GLM → 혼합 모형
├── 모형 진단과 선택
└── 비모수/반모수 방법

Phase 4: 특화 분야
├── 생존 분석, 시계열, FDA
├── 종단 데이터, 패널 데이터
└── 베이지안 통계

9 이 카테고리의 구성

이 블로그의 Statistics 카테고리는 Casella & Berger (2002)의 체계를 뼈대로, 응용 분야를 확장하는 구조로 구성되어 있다. 전체 목차는 Statistics Contents List에서 확인할 수 있다.

영역	주요 주제	교재 기반
Part I: 확률과 분포	확률론, 변환, 지수족, 다변량 확률 변수	Casella & Berger Ch.1-4
Part II: 표본과 데이터 축소	확률 표본의 성질, 충분통계량, 우도원리	Casella & Berger Ch.5-6
Part III: 통계적 추론	점추정, 가설검정, 구간추정	Casella & Berger Ch.7-9
Part IV: 점근 이론	일치성, 효율성, 점근적 검정	Casella & Berger Ch.10
회귀 분석	선형 회귀, GLM	McCullagh & Nelder
분산 분석	ANOVA, ANCOVA, MANOVA	—
범주형 데이터	카이제곱 검정, 로그선형 모형	—
종단 데이터 분석	LMM, GLMM, GEE, GAM, 패널 데이터	Hedeker & Gibbons
생존 분석	Kaplan-Meier, Cox 모형, 경쟁 위험	Kleinbaum & Klein
시계열 분석	정상성, ARIMA	—
함수형 데이터 분석	FPCA, 함수 회귀	Ramsay

10 관련 주제

카테고리 내 핵심 포스트

선행 지식 (Math 카테고리)

다른 카테고리 연결

데이터 과학 방법론 — 통계학의 실무 적용 맥락
머신러닝 개요 — 통계적 학습으로의 확장
A/B 테스트 — 가설 검정의 실무 적용
역학 연구 설계 — 통계적 추론의 연구 설계 맥락
베이지안 통계 — 아직 미작성, 빈도주의와의 비교

참고 교재

Casella, G. & Berger, R.L. (2002). Statistical Inference (2nd Ed.). Cengage.
McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models (2nd Ed.). Chapman & Hall.
Hedeker, D. & Gibbons, R.D. (2006). Longitudinal Data Analysis. Wiley.
Kleinbaum, D.G. & Klein, M. (2012). Survival Analysis: A Self-Learning Text (3rd Ed.). Springer.