Kwangmin Kim - Bootstrap 의 원리와 도입

1 도입 — Bootstrap 의 통계적 정당성

A-BUI7-* 시리즈가 부트스트랩을 비즈니스 행동 시각에서 다뤘다면, 이 시리즈는 역학 자료 와 수학적 정당성 시각이다.

Woodward Ch.14 의 핵심 메시지: 부트스트랩은 반복 표집의 컴퓨터 시뮬레이션. 통계적 추론의 근본 원리 (CLT, 표집 분포) 를 직접 모방.

2 정규 가정의 한계

2.1 책 전체에서의 가정

Woodward 의 책 전체 (Ch.2~13) 에서 사용한 CI 공식은 모두 정규 분포 가정 또는 근사 에 의존:

단일 평균 CI: \(\bar{X} \pm z_{1-\alpha/2} \sigma / \sqrt{n}\)
회귀 계수 CI: \(\hat{\beta} \pm z_{1-\alpha/2} \cdot \text{SE}(\hat{\beta})\)
비율 CI: \(\hat{p} \pm z_{1-\alpha/2} \sqrt{\hat{p}(1-\hat{p})/n}\)

2.2 현실의 자료

“현실 세계에서 어떤 자료도 정확히 정규 분포를 따르지 않는다. 그러나 CLT 가 큰 표본 에서 robust 근사를 제공한다는 경험이 있다.” (Woodward Ch.14.1)

문제는 얼마나 robust 한가. 작은 표본, 강한 비대칭, 두꺼운 꼬리에서 정규 근사가 깨질 수 있다.

2.3 닫힌 공식이 없는 통계량

Woodward 가 명시한 사례:

중앙값 — 분산의 닫힌 공식 복잡 (자료 분포 형태에 의존)
두 평균의 비율 (\(\bar{X}_1 / \bar{X}_2\)) — Delta method 또는 Fieller 공식 필요
두 강한 비대칭 변수의 차이 — 정규 근사 부정확

이 통계량들의 전통 CI 가 부정확하거나 없음. 부트스트랩이 해법.

3 Bootstrap 의 정당성

3.1 왜 복원 추출인가

정의: 복원 vs 비복원

복원 추출 (with replacement): 추출한 것을 돌려놓고 다시 추출. 같은 항목이 여러 번 가능.
비복원 추출 (without replacement): 추출 후 제외. 같은 항목 한 번만.

Woodward 의 강조:

“복원 추출이 필수. 비복원 추출은 원 자료의 순서만 바꿈 — 평균, 중앙값 등 통계량이 동일. 변동성이 없어 추론 불가.”

3.2 Bootstrap 의 통계적 의미

부트스트랩의 기본 가정: 각 부트스트랩 표본이 모집단으로부터의 가능한 표본 의 valid 표현.

복원 추출의 의미:

“원 자료의 각 사람이 모집단의 특정 유형 을 대표. 모집단에는 각 유형의 여러 사람 이 있을 수 있으므로, 무작위 표본이 같은 유형을 여러 번 포함할 수 있다.” (Woodward Ch.14.2)

이것이 복원 의 정당성. 유형의 반복 표집 모방.

3.3 CLT 와의 연결

전통 통계학은 반복 표집 의 가상 시나리오를 통해 추론:

같은 모집단에서 무한히 많은 표본 추출
각 표본의 통계량 (예: 평균) 분포가 표집 분포
표집 분포의 표준 편차가 SE
CLT 가 표집 분포의 정규 근사 보장

부트스트랩은 이 가상 절차를 컴퓨터로 직접 모방. CLT 같은 정규 가정 없이.

직관 — Bootstrap 의 “표집의 표집” 의미

전통 통계 추론을 상상의 절차 로 본다:

우리가 본 자료는 한 표본 (예: 50 명)
상상 — 같은 모집단에서 다른 50 명을 또 표집
그 50 명의 평균은 약간 다름
이 상상의 반복 이 표집 분포

문제: 실제로 다시 표집할 수 없음.

부트스트랩의 통찰: 상상을 컴퓨터 시뮬레이션으로 대체. 원 표본을 모집단의 작은 모형 으로 보고, 그 모형에서 새 표본 (복원 추출) 을 만들어 상상의 반복 을 재현.

이 절차의 수학적 정당성 이 Efron (1979, 1982) 의 정리. 큰 표본에서 부트스트랩 표집 분포가 진짜 표집 분포 에 수렴.

4 Bootstrap 의 절차

4.1 7 단계

원 자료 \(X = (x_1, x_2, \ldots, x_n)\)
복원 추출 로 \(X^* = (x_1^*, x_2^*, \ldots, x_n^*)\) 생성
통계량 \(\hat{\theta}^* = T(X^*)\) 계산
2, 3 을 \(B\) 회 반복 → \(B\) 개 \(\hat{\theta}^*_b\) (\(b = 1, \ldots, B\))
\(\hat{\theta}^*_b\) 의 분포 = 부트스트랩 표집 분포
표집 분포의 평균, SD, 분위수로 추론
CI: percentile, BCa, normal, t 중 선택

4.2 Woodward 의 시각화

Woodward Fig. 14.1 의 도식:

원 자료 (n = 50)
    각 사람이 1 번 등장
        ↓
1 번째 부트스트랩 표본 (n = 50)
    사람 1: 0 번 (포함 X)
    사람 2: 2 번
    사람 3: 1 번
    ...
        ↓
2 번째 부트스트랩 표본 (n = 50)
    ...
        ↓
10000 번째 부트스트랩 표본
        ↓
각 표본의 통계량 → 10000 개 값
        ↓
이 분포가 부트스트랩 표집 분포

원 자료에서 어떤 사람은 여러 번 등장, 어떤 사람은 빠짐. 이 변동이 모집단에서의 무작위 표집 을 모방.

5 표본 크기와 부트스트랩

5.1 큰 표본의 정당성

부트스트랩의 정당성은 원 표본이 모집단의 좋은 대표 라는 가정. 이 가정은:

\(n\) 큼: 자료가 다양 → 부트스트랩이 모집단 잘 모방
\(n\) 작음: 자료의 표현력 한정 → 부트스트랩도 한정

5.2 매우 작은 표본의 한계

\(n = 5\) 같은 매우 작은 표본:

가능한 부트스트랩 표본 종류: \(\binom{2n-1}{n} = \binom{9}{5} = 126\) 가지
같은 자료가 반복 → 추정 부정확

“부트스트랩은 표본 크기가 적절히 클 때 신뢰. 매우 작은 표본에서는 베이즈 분석 이나 모수 가정 이 더 적절.” (Woodward 권고)

5.3 권장

\(n\)	부트스트랩 적합성
\(\geq 30\)	적합
15 ~ 30	가능, 신중
< 15	부적합

A/B 테스트의 segment 분석 에서 작은 segment 의 부트스트랩 신중.

6 Efron 의 1979 발견

6.1 역사적 맥락

Bradley Efron 의 1979 논문 Bootstrap Methods: Another Look at the Jackknife:

Jackknife (Quenouille 1949, Tukey 1958) 의 일반화로 시작
복원 추출 + 컴퓨팅 의 결합
처음에는 수학적 호기심 으로 받아들여짐

1980 년대 컴퓨팅 발전이 부트스트랩을 실용 도구 로 만들었다. 1990 년대 표준 통계 도구로 정착.

6.2 Computer-Intensive 라는 용어

Efron 자신이 “computer-intensive methods” 용어 도입. 이 표현이 현대 통계학의 새 패러다임 을 상징.

직관 — Computer-Intensive 의 패러다임 전환

20 세기 전반 통계학:

닫힌 공식 (closed-form) 우선
점근 이론 (asymptotic theory)
정규 근사
손계산 가능

20 세기 후반 + 21 세기 통계학:

시뮬레이션 우선 (when possible)
유한 표본 정확성
분포 가정 약화
컴퓨터 의존

이 전환이 베이즈 분석, 머신러닝, 부트스트랩, MCMC 모두를 가능케 했다.

A/B 테스트의 빅데이터 분석은 이 전환의 실용 응용. 1 분에 \(10^9\) 자료 부트스트랩 가능.

7 Bootstrap 자료 시각화 — Woodward 사례

7.1 자료 — Table 2.10 (Woodward)

\(n = 50\) 명의 연속 변수 (예: 콜레스테롤, 트리글리세라이드 등). 부트스트랩으로 평균과 중앙값의 CI 계산.

7.2 단일 부트스트랩 표본

원 자료 (정렬됨):
3.2, 3.8, 4.1, 4.5, 4.9, 5.0, ..., 9.1, 12.5
(50 개)

복원 추출 부트스트랩 표본 (예시):
4.5, 5.0, 4.5, 8.2, 3.2, 4.5, ..., 5.0, 7.1
(50 개, 같은 값 반복 가능)

평균: 5.34 (예시)

7.3 10000 회 반복 후

부트스트랩 평균 분포 (10000 개):
  평균: 5.42 (원 자료 평균과 가까움)
  SD: 0.31 (= bootstrap SE)
  2.5 % 분위수: 4.85
  97.5 % 분위수: 6.02
  → 95 % Percentile CI: (4.85, 6.02)

이 분포 모양 이 부트스트랩 분석의 핵심.

8 Bootstrap 분포의 특성

8.1 큰 표본의 특성

부트스트랩 분포의 평균 ≈ 원 표본 통계량
부트스트랩 분포의 SD ≈ 진짜 SE
부트스트랩 분포의 형태 ≈ 진짜 표집 분포

8.2 작은 표본 특성

부트스트랩 분포가 원 자료의 이산 구조 반영
자료에 없는 값 생성 불가
분포가 덜 매끈

직관 — Bootstrap 분포의 한계

원 자료가 5 명 (3, 5, 7, 9, 11) 이라 하자. 가능한 부트스트랩 평균 은:

모두 같은 값 5 번: \(3, 5, 7, 9, 11\) (5 가지)
두 값 혼합: 매우 다양
…

총 \(\binom{9}{5} = 126\) 가지 다른 표본. 이 중 가능한 평균 값이 제한적. 작은 표본에서 부트스트랩 분포가 매우 거칠다.

큰 표본 (\(n = 1000\)) 에서는 가능한 표본 수 \(\binom{1999}{1000}\) — 천문학적. 부트스트랩 분포가 부드럽고 정확.

따라서 부트스트랩의 정확성은 원 표본 크기 에 의존.

9 코드 예시 — Bootstrap 의 통계적 정당성 점검

import numpy as np
from scipy.stats import norm

np.random.seed(42)

# 가상 모집단 (정규)
true_mean = 100
true_sd = 15
population = np.random.normal(true_mean, true_sd, 1000000)

# 1. 진짜 표집 분포 (모집단에서 직접 표집 시뮬레이션)
n_sample = 50
n_simulations = 10000
true_sampling_dist = []
for _ in range(n_simulations):
    sample = np.random.choice(population, n_sample, replace=False)
    true_sampling_dist.append(sample.mean())

true_se = np.std(true_sampling_dist, ddof=1)
true_ci = np.percentile(true_sampling_dist, [2.5, 97.5])

# 2. Bootstrap 표집 분포 (한 표본에서 시작)
single_sample = np.random.choice(population, n_sample, replace=False)
B = 10000
bootstrap_dist = []
for _ in range(B):
    boot_sample = np.random.choice(single_sample, n_sample, replace=True)
    bootstrap_dist.append(boot_sample.mean())

boot_se = np.std(bootstrap_dist, ddof=1)
boot_ci = np.percentile(bootstrap_dist, [2.5, 97.5])

# 3. 비교
print(f"진짜 모집단 평균: {true_mean}")
print(f"한 표본의 평균: {single_sample.mean():.2f}")
print()
print(f"진짜 표집 분포의 SE: {true_se:.3f}")
print(f"부트스트랩 SE:        {boot_se:.3f}")
print(f"이론적 SE (σ/√n):     {true_sd / np.sqrt(n_sample):.3f}")
print()
print(f"진짜 95 % CI: ({true_ci[0]:.2f}, {true_ci[1]:.2f})")
print(f"부트스트랩 CI: ({boot_ci[0]:.2f}, {boot_ci[1]:.2f})")

이 코드가 부트스트랩이 진짜 표집 분포를 잘 근사 함을 직접 보여줌. 차이는 한 표본의 우연한 변동.

10 Bootstrap 의 정확성 — 수학적 정리

10.1 Singh 1981, Bickel & Freedman 1981

이 두 논문이 부트스트랩의 수학적 정당성 정립.

정리: Bootstrap Consistency (Singh 1981)

표본 평균의 부트스트랩 분포가 진짜 표집 분포 에 분포 수렴.

조건: - 자료가 유한 분산 - 자료가 i.i.d. - 표본 크기 \(n \to \infty\)

수렴률: 정규 근사보다 2 차 (한 차원 더 정확).

10.2 2 차 정확성 (Second-Order Accuracy)

부트스트랩의 정밀도가 전통 정규 근사보다 향상:

정규 근사: 오차 \(O(1/\sqrt{n})\)
Bootstrap: 오차 \(O(1/n)\) (BCa 의 경우)

작은 표본에서 부트스트랩이 상대적으로 더 정확.

10.3 함의

전통 t 검정 vs 부트스트랩의 정확성 차이가 작은 표본 에서 두드러짐.

\(n\)	t 검정 정확도	Bootstrap 정확도
10	약 87 %	약 92 %
30	약 94 %	약 95 %
100	약 95 %	약 95 %

큰 표본에서는 거의 같음. 작은 표본 + 비대칭에서 차이.

11 부트스트랩의 직관적 비유

직관 — Bootstrap 의 “Pull yourself up by your bootstraps”

영어 표현 “bootstraps 으로 자신을 들어 올린다” — 외부 도움 없이 자신의 자원으로 일어선다.

부트스트랩의 의미: 외부 모집단 정보 없이 자료 자체 로 추론. 자료가 작은 모집단 모형 처럼 작동.

이 비유가 부트스트랩의 본질을 한 단어로 압축. 1979 Efron 의 명명이 적절.

A/B 테스트의 부트스트랩: 자료에서 표집 가상하여 모든 추론 자료에서 도출. 외부 가정 없이도 신뢰 구간, 검정 가능.

12 Bootstrap 표본의 통계적 특성

12.1 동일 자료의 반복

복원 추출에서 같은 자료가 여러 번 등장 할 확률:

표본 크기 \(n\) 의 부트스트랩 표본에서 원 자료의 \(i\) 번째 자료가 0 번 등장 할 확률:

\[ P(\text{0 번 등장}) = \left(1 - \frac{1}{n}\right)^n \to e^{-1} \approx 0.368 \]

따라서 큰 표본에서 약 36.8 % 의 원 자료가 부트스트랩 표본에 미포함.

이 사실이 Out-of-Bag (OOB) 추정 의 토대 (Random Forest 의 OOB error).

12.2 부트스트랩 표본의 분포

원 자료의 경험 분포 함수 (empirical distribution function, EDF) 를 모집단 모형으로 사용. 부트스트랩 표본은 EDF 에서 추출.

EDF 가 진짜 분포에 수렴 (Glivenko-Cantelli 정리) → 부트스트랩 추론도 수렴.

13 부트스트랩의 Plug-in Estimation

Plug-in Principle

어떤 모수 \(\theta = T(F)\) 의 추정은 EDF 를 plug in:

\[ \hat{\theta} = T(\hat{F}_n) \]

여기서 \(\hat{F}_n\) 은 EDF.

부트스트랩 표본은 \(\hat{F}_n\) 에서 추출.

13.1 사례

평균: \(T(F) = \int x \, dF\), plug-in: \(\hat{\theta} = \bar{X}\)
분산: \(T(F) = \int (x - \mu)^2 \, dF\), plug-in: \(\hat{\sigma}^2\)
분위수: \(T(F) = F^{-1}(\alpha)\), plug-in: 표본 분위수
회귀 계수: \(T(F) = \arg\min E[(Y - X\beta)^2]\), plug-in: OLS

이 plug-in 방법이 어떤 모수에도 적용 가능. 부트스트랩의 일반성.

14 부트스트랩의 한계 — 수렴이 깨지는 경우

직관 — Bootstrap 이 작동 안 하는 시나리오

부트스트랩 일관성 (consistency) 가 깨지는 경우:

분산 무한: Cauchy 분포 등. 부트스트랩 분포가 수렴 X.
극단 통계량: max, min, 극단 분위수.
경계 모수: 경계에서 평가 (예: 분산 = 0 가설).
의존성 강함: 시계열, 클러스터.
매우 작은 표본: \(n \leq 5\).

이 경우 대안 도구 필요 (m-out-of-n bootstrap, 베이즈, 모수적 가정).

15 Bootstrap 과 Cross-Validation

15.1 Cross-Validation

머신러닝 모형 평가의 표준. 자료를 훈련/검증 분할 + 반복.

15.2 0.632 Bootstrap (Efron 1983)

부트스트랩의 ML 응용. Optimism 보정 으로 정확한 generalization error 추정.

# 0.632 estimator
# err = 0.368 * (in-sample error) + 0.632 * (OOB error)

15.3 비교

측면	Bootstrap	Cross-Validation
자료 활용	같은 자료 재사용	자료 분할
사용 시점	추정 + 검정	모형 평가
컴퓨팅	더 비쌈 (B 회)	빠름 (K 회)

머신러닝의 표준은 CV. 통계 추론의 표준은 부트스트랩.

16 후속 — Bootstrap CI 의 4 유형

다음 글 A-WOO14-2 는 4 가지 부트스트랩 CI 형태 (normal, percentile, BC, BCa) 를 자세히 다룬다. A-BUI7-1 의 보강 + 역학 시각.

17 관련 주제

선행 지식

후속 주제 (Phase A)

A-WOO14-2 Bootstrap CI 4 유형
A-WOO14-3 실무 이슈

다른 카테고리 연결