Kwangmin Kim - Ch.4.4~4.7 — 빈도주의 평가·베이즈 해석·연습문제 풀이 심화

1 이 포스트의 위치 — Ch.4 심화의 두 번째 조각

§ 4.1~4.3 심화 가 정규 근사와 점근 이론의 수학적 장치 를 다뤘다면, 이 포스트는 그 장치가 빈도주의와 어떻게 만나고 갈라지는지의 해석과 응용 이다. Ch.4 가 Part I 을 닫는 실용적 매뉴얼인 이유가 여기 있다.

§ 4.4~4.7 의 한 줄 요약

“대표본에서 베이즈와 빈도주의는 수치적으로 합류하지만, 소표본에서는 사전 정보의 역할이 갈라짐을 만든다. Galton 의 키 회귀 예제 하나가 비편향 추정의 한계를 드러내며, 손실 함수가 점 추정을 정당화한다.”

이 네 절은 “왜 베이즈를 쓰는가” 의 실용적 답 — 대표본에서는 결과가 같지만, 소표본·다중 비교·예측·정보 통합 에서 베이즈가 자연스러운 해결 (Gelman et al., 2013, Ch.4.4~4.7).

2 § 4.4 베이즈 추론의 빈도주의적 평가

2.1 반복 표본 관점

“베이즈 패러다임이 단순 ‘고전’ 기법을 정당화할 수 있듯이, 빈도주의 방법은 베이즈 추론의 속성 (operating characteristics) — 반복 표본 수열에 묻어 있을 때 — 을 평가하는 유용한 접근 이다.” (교재)

“베이즈 구간이 반복 표본에서 얼마나 자주 참값을 포함하는가” 를 빈도주의 기준으로 평가. 이것이 Ch.4 의 핵심 연결 고리.

2.2 안정 추정 (stable estimation) 개념

“표본이 충분히 많으면 사후가 참값 근처로 수축” 이라는 직관의 수식화. 가정된 모델이 진짜 분포를 포함하면 (적절한 사전 밀도 부여 하에), \(\theta\) 에 대한 더 많은 정보가 도착할수록 사후가 참 \(\theta\) 로 수렴.

“stable” 이라는 이름 — 더 많은 데이터가 추가돼도 결론이 안정적 이라는 뜻.

2.3 대표본 대응 (large-sample correspondence)

정규 근사 (4.2) 가 성립할 때 표준화.

\[ [I(\hat\theta)]^{1/2}(\theta - \hat\theta) \mid y \sim N(0, I) \tag{4.3} \]

여기서 \([I(\hat\theta)]^{1/2}\) 는 \(I(\hat\theta)\) 의 행렬 제곱근. \(\hat\theta \to \theta_0\) 이므로 \(I(\hat\theta)\) 를 \(I(\theta_0)\) 로 대체해도 무방.

반면 반복 표본 에서 (고정된 \(\theta_0\), \(n \to \infty\)).

\[ [I(\hat\theta)]^{1/2}(\theta_0 - \hat\theta) \mid \theta_0 \sim N(0, I) \tag{4.4} \]

이것은 고전 통계 이론 의 결과 — MLE 의 점근 정규성.

2.4 두 분포의 대칭성

(4.3) 과 (4.4) 의 좌변이 부호만 다르고 같은 분포. 함의 — \((\theta - \hat\theta)\) 의 어떤 함수든 사후 분포와 반복 표본 분포가 점근적으로 동일.

\[ \text{baby} \quad P(\theta \in A \mid y) \approx P(\hat\theta \in A' \mid \theta_0) \]

구체적으로 — 95% 중앙 사후 구간이 반복 표본에서 95% 의 경우 참값 \(\theta_0\) 을 포함. 베이즈 신용 구간 = 빈도주의 신뢰 구간 이 대표본에서.

직관 — 왜 두 관점이 합류하는가

빈도주의에서는 “추정량 \(\hat\theta\) 이 고정된 \(\theta\) 주변에 분포” 한다고 본다. 베이즈에서는 “모수 \(\theta\) 가 고정된 \(\hat\theta\) 주변에 분포” 한다고 본다.

수학적으로는 \(\theta - \hat\theta\) 의 분포 가 같다. 하나는 \(\theta\) 를 고정하고 \(\hat\theta\) 를 변동시키고, 다른 하나는 \(\hat\theta\) 를 고정하고 \(\theta\) 를 변동시킨다. 수치는 같고, 해석이 다르다.

이것이 실무 통계학자가 “대표본에서 베이즈 구간과 신뢰 구간을 구분하지 않는” 이유.

2.5 점 추정 · 일관성 · 효율성

점 추정 (point estimation). 베이즈 관점에서 점 추정은 큰 표본에서 주로 의미가 있다 — 사후 모드 \(\hat\theta\) 가 사후 중심이고 \(I(\hat\theta)^{-1}\) 가 작으면 실용적으로 불확실성이 무시 될 때.

소표본 에서는 전체 사후 분포 (50%, 95% 중앙 구간) 의 표현이 점 추정보다 유용. 그러나 대표본 빈도주의 속성 은 추정량의 출처와 무관하게 평가 가능.

일관성 (consistency). 추정량 \(\hat\theta(y)\) 가 표본 분포 에서 \(n \to \infty\) 에서 \(\theta_0\) 에 점 질량 수렴.

\[ \hat\theta(y) \xrightarrow{P} \theta_0 \quad \text{under} \quad p(y \mid \theta_0) \]

진짜 모델 포함 조건 하에서 사후 모드·평균·중앙값 모두 일관.

점근 비편향성. \((\mathrm{E}(\hat\theta \mid \theta_0) - \theta_0)/\text{sd}(\hat\theta \mid \theta_0) \to 0\). 편향이 표준편차보다 빠르게 사라진다.

효율성 (efficiency). 추정량 \(\hat\theta\) 가 최소 MSE 달성. \(\mathrm{E}((\hat\theta - \theta_0)^2 \mid \theta_0)\) 가 Cramér-Rao 하한 에 도달.

점근 효율성 — 효율성이 \(n \to \infty\) 에서 1. 규칙성 조건 하에서 사후 평균·중앙값·모드 모두 점근 효율적.

2.6 신뢰 포괄 (confidence coverage)

정의. \(C(y)\) 가 어떤 \(\theta_0\) 에 대해서도 반복 표본에서 최소 \(100(1-\alpha)\%\) 확률로 \(\theta_0\) 포함 하면 \(C(y)\) 는 \(100(1-\alpha)\%\) 신뢰 영역.

“confidence” 의 행동적 의미. \(\alpha\) 가 작으면 (예 0.05) — 신뢰 영역이 반복 사용에서 \((1 - \alpha)\) 이상 참값을 포함하므로, 각 적용에서 “진실이 영역 내” 라고 믿고 행동 해도 된다.

대표본 결과 — 95% 중앙 사후 구간이 \(100(1-\alpha)\%\) 신뢰 영역의 성질을 자동 보유.

직관 — 소표본에서도 대개 거의 맞는다

교재가 강조 — “소표본에서도 베이즈 \((1-\alpha)\) 사후 구간이 종종 거의 \((1-\alpha)\) 신뢰 포괄 을 보유” (반복 표본 하).

즉 \(n = 20\) 같은 작은 표본에서도 95% 베이즈 구간이 대략 95% 의 경우 참값을 포함한다는 것 — Bioassay 예제에서 확인 가능. 완벽한 대응은 아니지만 실무적으로 수용 가능한 근사.

빈도주의 정통파에게는 이것이 베이즈 방법의 신뢰성 정당화, 베이즈 관점에서는 빈도 속성이 부수적 검증.

3 § 4.5 빈도주의 기법의 베이즈 해석

3.1 세 가지 비교 수준

“베이즈 통계 방법을 다른 방법과 비교할 수 있는 세 가지 수준. 첫째, 이미 언급했듯이 고정된 확률 모델에서 큰 표본 일 때 베이즈 방법은 다른 통계 접근과 종종 유사. 둘째, 작은 표본에서도 많은 고전 기법이 특정 사전 하의 베이즈 추론 근사 로 해석 가능. 셋째, 고전 통계의 일부 기법 (특히 가설검정) 은 베이즈 결과와 크게 다를 수 있다.” (교재)

3.2 최대 가능도와 점 추정

핵심 결과. 큰 표본에서 MLE \(\hat\theta\) 는 사후 모드·평균·중앙값의 근사 이자 충분통계량.

\[ p(\hat\theta(y) \mid \theta = \theta_0) \approx N(\hat\theta(y) \mid \theta_0, (nJ(\theta_0))^{-1}) \tag{빈도주의} \]

\[ p(\theta \mid \hat\theta) \approx N(\theta \mid \hat\theta, (nJ(\hat\theta))^{-1}) \tag{베이즈} \]

같은 공식의 좌우 반전. 사전이 “국소적으로 균등” 이면 두 결과가 수치 일치.

3.3 비편향성의 한계 — Galton 의 키 회귀

교재의 가장 유명한 반례. 딸 키 \(\theta\), 엄마 키 \(y\). 공동 정규 \(\mu = 160\) (두 평균 같음), 표준편차 같음, 상관 0.5.

베이즈 사후 평균 (조건부 공식).

\[ E(\theta \mid y) = 160 + 0.5(y - 160) \tag{4.5} \]

엄마 키가 평균보다 10 cm 크면, 딸의 예측 키는 5 cm 크다 — 평균으로의 회귀.

이 추정이 비편향인가? — \(\theta\) 고정하고 \(y\) 반복 하에서.

\(y \mid \theta \sim N(160 + 0.5(\theta - 160), \sigma^2)\) (공동 정규에서 반대 조건부).

\[ E(E(\theta \mid y) \mid \theta) = 160 + 0.5 \cdot E(y - 160 \mid \theta) = 160 + 0.5 \cdot 0.5(\theta - 160) = 160 + 0.25(\theta - 160) \]

편향 — 참 \(\theta\) 가 170 (10 cm 큼) 이면 추정량 기댓값이 162.5 — 중앙으로의 편향.

3.4 “비편향” 대안

\(\theta\) 고정 \(y\) 반복 하에 비편향 추정량.

\[ \hat\theta_\text{unbiased} = 160 + 2(y - 160) \]

확인 — \(E(\hat\theta_\text{unbiased} \mid \theta) = 160 + 2 \cdot 0.5(\theta - 160) = \theta\). ✓

하지만 — 엄마가 170 cm (10 cm 큼) 이면 딸 예측 180 cm (20 cm 큼). 현실과 동떨어진 예측.

직관 — 비편향 추정의 근본적 한계

“비편향” 은 무조건 좋은 속성이 아니다. 소표본·다모수·예측 문제에서 합리적 추정을 거부 한다.

Galton 키 예제가 보여주는 것.

베이즈 추정: 엄마 170cm → 딸 165cm (중앙 회귀, 편향 있음, 현실적)
비편향 추정: 엄마 170cm → 딸 180cm (비편향, 비현실적)

빈도주의 전통이 이런 상황을 “prediction” 과 “estimation” 으로 구분 해 비편향 원리를 유지. 베이즈는 구분 없이 사후 평균 사용 — 개념적 단순성.

“중앙으로의 회귀” 는 Galton 이 19 세기 말에 통계학에서 ‘regression’ 이라는 용어를 만들 때의 원래 의미. 베이즈가 그 원리를 수학적으로 완성.

3.5 다파라미터에서 비편향성 문제

교재의 일반화.

“한꺼번에 여러 모수를 근사적으로라도 비편향으로 추정하는 것이 종종 불가능. 예 — \(\theta_1, \ldots, \theta_J\) 의 비편향 추정은 \(\theta_j\) 들의 분산의 위로 편향된 추정을 낳는다 (\(\theta_j\) 가 정확히 알려진 trivial 경우 제외).” (교재)

즉 개별 비편향이 집합 통계량의 편향 을 만든다. 계층 모형 (Ch.5) 이 이 trade-off 를 체계적으로 해결.

3.6 신뢰 구간 vs 사후 구간

소표본에서도 대체로 일치. 예외 — 사전 정보가 크게 영향, 또는 특이한 신뢰 구간 (무의미한 것도 있음).

교재의 극단 예 — “5% 확률로 공집합, 95% 확률로 전체 실수 축” 인 “신뢰 구간”. 이것은 95% 포괄률을 만족하지만 실용 가치 0.

“포괄 (coverage) 만으로는 합리적 추론의 근거가 되기에 충분하지 않다.” (교재)

3.7 가설검정의 문제점

교재의 비판적 관점.

“이 책의 관점에서 비베이즈 가설검정 개념은 큰 역할이 없다, 특히 \(\theta = \theta_0\) 형태의 점 영가설 에 대한 검정. 베이즈 분석에서 점 영가설에 0 이 아닌 확률 을 부여하려면 사전에 0 이 아닌 확률 (\(\theta_0\) 에 이산 질량 0.5, 나머지에 연속 밀도) 을 줘야 한다 — 이는 인위적.” (교재)

연속 모수 \(\theta\) (예 두 평균 차) 에서 \(\theta = 0\) 가설은 거의 항상 부적절 — 효과가 정확히 0 인 경우는 드물다. “\(\theta\) 의 사후 분포는 무엇인가?” 가 훨씬 유용한 질문.

3.8 단측 검정과 \(p\)-값

일부 경우 \(p\)-값이 사후 확률과 일치.

교재의 예. \(y \sim N(\theta, 1)\), \(y = 1\) 관측, 균등 사전.

빈도주의 단측 \(p\)-값: \(\Pr(Y \geq 1 \mid \theta = 0) = 0.16\) — “기각 못함”
빈도주의 양측 \(p\)-값: 0.32 — “기각 못함”
베이즈 사후 확률: \(\Pr(\theta > 0 \mid y) = 0.84\) — “84% 확률로 \(\theta > 0\)”

같은 정보를 세 가지 방식으로 표현. 베이즈의 84% 가 가장 정보적.

직관 — “유의성” 의 이분법 대안

“\(p < 0.05\) 이므로 기각” 또는 “\(p \geq 0.05\) 이므로 기각 못함” 의 이분법이 현대 통계학의 가장 큰 문제.

베이즈 대안 — 사후 확률 그 자체를 보고. “\(\theta > 0\) 확률 84%” 는 정확한 불확실성 정량화. 의사결정자가 자기 임계 \(\alpha\) 를 선택.

이것이 ASA (American Statistical Association) 의 2016 년 \(p\)-값 성명과 일치하는 방향 — “\(p\)-값을 이분법으로 쓰지 말라”.

3.9 사후 예측 점검 — 베이즈 스타일의 검정

“개별 모델 내 모수 추론 문제와는 대조적으로, 확률 모델의 적합도 평가 에 가설검정 형태가 유용. 베이즈 프레임워크에서는 관측 데이터를 가능한 예측 결과와 비교 하는 것이 모델 점검의 유용한 방식. Ch.6 에서 상세 다룬다.” (교재)

“\(\theta = 0\) vs \(\theta \neq 0\)” 이 아니라 “데이터가 모델 하에서 그럴듯한가” 가 베이즈의 검정 대상.

3.10 다중 비교와 계층 모형

교재의 예 — \(y_j \sim N(\theta_j, 1)\), \(j = 1, \ldots, J\). 여러 \(\theta_j\) 비교가 목적.

빈도주의 접근. Bonferroni, Tukey HSD, Scheffé 등 다중 비교 보정. 검정 수 \(J(J-1)/2\) 에 따라 유의 수준 조정.

베이즈 접근. 공동 사후에서 \(\theta_j\) 들의 순서 (ranking) 의 사후 확률 계산. \(J!\) 가지 순서 각각에 확률 부여.

계층 모형 이 자동으로 다중 비교를 해결.

\[ \theta_j \sim N(\mu, \tau^2), \quad \mu, \tau^2 \text{ 미지} \]

부분 풀링 (partial pooling) 으로 서로 가까운 \(\theta_j\) 들을 자동으로 shrink. “진짜 같은 효과” 가 있어도 단순 비교의 false positive 가 감소.

3.11 8 schools 예제 예고

교재가 Ch.5.5 에서 상세히 다룰 8 schools 예제. \(J = 8\) 개 교육 프로그램 효과.

28 개 짝 비교 가능
빈도주의 Bonferroni: 각 유의 수준 \(0.05/28 \approx 0.002\)
베이즈 계층 모형: 자동 shrinkage → 모든 짝 차이의 95% 사후 구간이 0 을 포함

빈도주의 다중 비교가 “모두 유의” 를 선언할 상황에서 베이즈가 “자동 보정” 을 제공.

3.12 비모수 방법 · Wilcoxon · 붓스트랩

비모수 방법 — 완전 확률 모델을 피하는 접근. 순위 검정, 부호 검정, 잭나이프, 붓스트랩 등.

교재의 평가.

“완전 확률 모델이 명세되지 않으면 특정 비모수 방법의 가정을 검정하기 어렵다. 이런 문제에서 우리는 결합 확률 분포를 구성하고 데이터에 대조하는 것 (Ch.6) 이 추정량을 만들고 그 빈도 속성을 평가하는 것보다 만족스럽다고 본다.” (교재)

3.13 Wilcoxon 순위 검정의 베이즈 해석

고전 Wilcoxon. 두 표본 \((y_1, \ldots, y_{n_y}), (z_1, \ldots, z_{n_z})\) 을 결합 후 1~n 순위, \(y\) 의 평균 순위와 \(z\) 의 평균 순위 차이가 검정 통계량.

베이즈 재해석. 순위 \(1, \ldots, n\) 을 분위수 \(1/(2n), 3/(2n), \ldots, (2n-1)/(2n)\) 로 변환. 두 평균의 차이는 결합 분포의 분위수 스케일에서의 평균 거리.

CLT 적용 — 평균 차이가 정규 근사. 고전 정규 이론 신뢰 구간이 베이즈 사후 확률 진술로 해석 가능.

직관 — 비모수 검정 → 비선형 변환 + 선형 모델

Wilcoxon 의 본질은 “데이터를 비선형 변환 (순위) 후 선형 비교”. 베이즈 프레임워크에서는.

비선형 변환 자유 — 순위 대신 로그·제곱근·Box-Cox 등
공변량 추가 가능 — 회귀·혼합 모형으로 확장
검열·결측 처리 — 비모수에서 어려운 상황
사전 정보 통합

고전 비모수의 실용적 이점 (가정에 robust) 을 베이즈가 모델 기반으로 재현 할 수 있다.

4 § 4.6 참고문헌 주해

4.1 점근 이론

Edwards, Lindman, Savage (1963) — “안정 추정 (stable estimation)” 원리의 원전. 비정보 사전이 데이터에 지배되는 조건.
van der Vaart (1998) — 점근 통계학 현대 표준.
Le Cam (1986) — 점근 결정 이론.

4.2 베이즈 대 빈도주의 철학

Lindley (1958), Pratt (1965) — 두 관점의 비교.
Berger & Wolpert (1984) — 우도 원리의 체계적 옹호.
Jaynes (1976) — 비베이즈 방법의 단점 비판.
Gelman (2008a) — 현대 베이즈 철학 논쟁.

4.3 \(p\)-값과 가설검정

Berger & Sellke (1987) — \(p\)-값의 해석 문제 (양측 \(p = 0.05\) 가 \(\Pr(H_0 \mid y) \gg 0.05\) 가능).
Krantz (1999) — \(p\)-값 사용의 강점과 약점.
Greenland & Poole (2013), Gelman (2013a) — 최근 논의.

4.4 다중 비교

Gelman & Tuerlinckx (2000) — 계층 모형 기반 베이즈 다중 비교.
Efron & Tibshirani (2002) — False Discovery Rate 의 베이즈 해석.

4.5 Galton 회귀

Stigler (1983, 1986) — “regression to the mean” 의 역사적 기원.

5 § 4.7 선정 연습문제 풀이

5.1 Exercise 1 — Cauchy 분포의 정규 근사

문제. \(y_1, \ldots, y_5 \sim \text{Cauchy}(\theta, 1)\), 균등 사전 \(\theta \in [0, 1]\). 관측 \(y = (-2, -1, 0, 1.5, 2.5)\).

(a) 로그 사후의 1, 2 차 미분.

\(\log p(\theta \mid y) = -\sum_{i=1}^5 \log(1 + (y_i - \theta)^2)\) (비정규화, 균등 사전 기여 상수).

1 차.

\[ \frac{d}{d\theta}\log p = \sum_{i=1}^5 \frac{2(y_i - \theta)}{1 + (y_i - \theta)^2} \]

2 차.

\[ \frac{d^2}{d\theta^2}\log p = \sum_{i=1}^5 \frac{-2 + 2(y_i - \theta)^2}{[1 + (y_i - \theta)^2]^2} \]

(b) 사후 모드.

1 차 = 0 을 Newton 반복 으로 푼다. 초기값 \(\theta_0 = \bar{y} = 0.2\) 근처.

Newton 업데이트 \(\theta^{(k+1)} = \theta^{(k)} - f'/f''\) (\(f = \log p\)).

수치적으로 \(\hat\theta \approx 0.3\) 근처 (정확한 값은 반복으로).

(c) 정규 근사.

\(\hat\theta\) 에서 2 차 미분 \(= -I(\hat\theta)\). \(\theta \mid y \approx N(\hat\theta, 1/I(\hat\theta))\).

실제 사후와 비교. Cauchy 가능도는 꼬리가 두꺼워 정규 근사가 중심에선 좋지만 꼬리에서 부정확.

직관 — Cauchy 가능도의 견고성

Cauchy 는 이상치에 강건 (robust) — 극단값 \(y_5 = 2.5\) 가 정규 분포에서는 영향이 크지만 Cauchy 에서는 kernel \(1/(1 + (y-\theta)^2)\) 가 극단값의 영향을 자동 제한.

정규 가능도와의 대조 — \(y_5 = 2.5\) 가 정규 모드를 오른쪽으로 크게 당기지만, Cauchy 에서는 소폭.

이것이 Ch.17 robust 추론의 원형. 꼬리 두꺼운 가능도 → 이상치 영향 감쇠.

5.2 Exercise 4 — 변환 아래의 점근 정규성

문제. 규칙성 조건 하에서 \(p(\theta \mid y)\) 가 정규 수렴. \(\phi = f(\theta)\) 인 1-대-1 연속 변환에서 \(p(\phi \mid y)\) 도 정규 수렴. 하지만 정규 분포의 비선형 변환은 정규가 아니다. 어떻게 두 극한 정규가 모두 성립하나?

풀이. 핵심 — “\(\phi\) 의 분포가 정규로 수렴” 과 “정규 \(\theta\) 의 변환” 은 다른 주장.

점근 정규성은 \(\sqrt{n}(\theta - \theta_0) \mid y \to N(0, J^{-1})\) 의 형태. 즉 \(\theta\) 가 \(\theta_0\) 에 수축 하면서 수축 속도가 정규.

\(\phi = f(\theta)\) 에서 델타 방법.

\[ \sqrt{n}(\phi - \phi_0) \approx \sqrt{n} \cdot f'(\theta_0)(\theta - \theta_0) \to N(0, f'(\theta_0)^2 J^{-1}) \]

즉 \(\phi\) 의 분포도 \(\phi_0 = f(\theta_0)\) 주변에서 정규로 수축. 두 정규 극한이 모두 정당.

함정 — “정규의 비선형 변환” 이라 함은 분포의 모양을 잃지 않고 변환 하는 경우. 점근은 분포가 점 질량으로 수축 하면서의 정규 구조 — 비선형 변환이 국소적으로 선형 (접선 근사) 이라 정규성 유지.

5.3 Exercise 5 — 델타 방법

문제. \(x, y\) 독립, \(x \sim N(4, 1), y \sim N(3, 2)\).

(a) \(y/x\) 시뮬로 평균·표준편차.

\(S = 10000\) 시뮬 — 평균 \(\approx 3/4 = 0.75\), 표준편차 \(\approx 0.51\).

(b) 근사 (델타 방법).

\(g(x, y) = y/x\). 테일러 전개.

\[ E(y/x) \approx \frac{E(y)}{E(x)} = \frac{3}{4} = 0.75 \]

\[ \text{var}(y/x) \approx \left(\frac{\partial g}{\partial x}\right)^2 \text{var}(x) + \left(\frac{\partial g}{\partial y}\right)^2 \text{var}(y) = \frac{y^2}{x^4}\bigg|_{(4,3)} \cdot 1 + \frac{1}{x^2}\bigg|_{(4,3)} \cdot 4 \]

\[ = \frac{9}{256} + \frac{4}{16} = 0.0352 + 0.25 = 0.2852 \]

표준편차 \(\approx \sqrt{0.2852} \approx 0.534\).

(c) 근사의 가정.

변환 \(g\) 가 \((E(x), E(y))\) 근처에서 smooth
분산이 기댓값 대비 작다 (상대 분산 \(\sigma/\mu \ll 1\))
고차 모멘트 무시 가능

\(x\) 의 상대 분산 \(1/4 = 0.25\) (경계). 델타 방법이 대략 맞지만 약간 underestimate.

5.4 Exercise 6 — Bayes 손실 함수 추정

문제. 손실 함수 \(L(\theta, a)\) 하에서 사후 기댓값 최소화.

(a) 제곱 오차 \(L = (\theta - a)^2\) → 사후 평균.

\[ \frac{d}{da}E[(\theta - a)^2 \mid y] = -2E(\theta \mid y) + 2a = 0 \Rightarrow a = E(\theta \mid y) \]

사후 평균이 유일 Bayes 추정. ✓

(b) 절대값 손실 \(L = |\theta - a|\) → 사후 중앙값.

\(\frac{d}{da}E[|\theta - a| \mid y] = -\Pr(\theta > a \mid y) + \Pr(\theta < a \mid y) = 0\).

즉 \(\Pr(\theta > a \mid y) = \Pr(\theta < a \mid y) = 1/2\) — 중앙값.

(c) 비대칭 선형 손실.

\[ L(\theta, a) = \begin{cases} k_0(\theta - a) & \theta \geq a \\ k_1(a - \theta) & \theta < a \end{cases} \]

최소화 → \(\Pr(\theta \geq a) / \Pr(\theta < a) = k_1 / k_0\).

즉 \(\Pr(\theta < a) = k_0/(k_0 + k_1)\) → \(k_0/(k_0 + k_1)\) 분위수.

직관 — 세 손실이 주는 세 요약

제곱 손실 → 평균 (이상치에 민감)
절대 손실 → 중앙값 (이상치에 견고)
비대칭 손실 → 분위수 (과대추정 vs 과소추정 비용 차이)

이것이 “베이즈 점 추정은 손실 함수에 의존” 의 핵심. 실무에서 손실 구조를 먼저 결정하고 대응 분위수를 보고.

예 — 재고 관리: 과대 재고 \(k_0\), 과소 재고 \(k_1\). 수요 분포의 \(k_1/(k_0 + k_1)\) 분위수가 최적 주문량. 유통 분석 실무의 표준 (“newsvendor problem”).

5.5 Exercise 7 — Bayes 사후 평균은 비편향 불가능

문제. Proper 사전 하의 베이즈 사후 평균은 degenerate 문제 외에는 비편향일 수 없음 을 증명.

증명 스케치. \(\hat\theta(y) = E(\theta \mid y)\) 가 비편향이면.

\[ E(\hat\theta(y) \mid \theta) = \theta \quad \forall \theta \]

양변을 \(p(\theta)\) 로 적분.

\[ \int E(\hat\theta(y) \mid \theta) p(\theta) d\theta = \int \theta p(\theta) d\theta = E(\theta) \]

좌변 = \(E(E(\hat\theta(y) \mid \theta)) = E(\hat\theta(y)) = E(E(\theta \mid y)) = E(\theta)\) (반복 기댓값).

같은 식이 나오므로 모순 아님 — 보통은 성립. 하지만 Cov 를 보자.

\(\text{Cov}(\hat\theta, \theta) = E(\hat\theta \theta) - E(\hat\theta)E(\theta)\). 비편향 → \(E(\hat\theta \theta) = E(\theta^2)\), 따라서 \(\text{Cov}(\hat\theta, \theta) = \text{Var}(\theta)\).

반면 \(\text{Cov}(\hat\theta, \theta) = \text{Cov}(E(\theta \mid y), \theta) = \text{Var}(E(\theta \mid y))\) (반복 분산 공식).

반복 분산 공식 \(\text{Var}(\theta) = E(\text{Var}(\theta \mid y)) + \text{Var}(E(\theta \mid y))\).

비편향 → \(\text{Var}(E(\theta \mid y)) = \text{Var}(\theta)\) → \(E(\text{Var}(\theta \mid y)) = 0\).

\(\text{Var}(\theta \mid y) = 0\) 사후 확률 1 → 사후가 점 질량 — degenerate.

결론 — Proper 사전 + 비판적 문제 외에는 베이즈 사후 평균이 편향. Galton 의 결론을 일반화.

5.6 Exercise 9 — 범위 제약 추정

문제. \(y \sim N(\theta, \sigma^2)\), \(\theta \in [0, 1]\). 두 추정.

제약된 MLE \(\hat\theta_1 = \text{clip}(y, 0, 1)\)
균등 사전 \(U(0, 1)\) 하의 사후 평균 \(\hat\theta_2 = E(\theta \mid y)\)

증명 — \(\sigma\) 가 충분히 크면 \(\hat\theta_2\) 의 MSE 가 \(\hat\theta_1\) 의 MSE 보다 작다, 모든 \(\theta \in [0, 1]\) 에서.

직관. \(\sigma\) 가 크면 \(y\) 가 \([0, 1]\) 밖으로 자주 떨어진다. \(\hat\theta_1\) 은 경계 0 또는 1 로 clip — 경계에 질량 집중. \(\hat\theta_2\) 는 사전에 의해 shrinkage — 중앙 (0.5) 쪽으로. 큰 \(\sigma\) 에서 0.5 가 평균에 가까워 MSE 작다.

5.7 Exercise 10 — Bioassay 의 빈도주의 분석

(a-b) MLE. Ch.3.7 로지스틱 회귀 — \((\hat\alpha, \hat\beta) = (0.8, 7.7)\), SE \((1.0, 4.9)\).

(c) 95% 신뢰 구간. Wald 구간 \(\hat\theta \pm 1.96 \cdot \text{SE}\).

\(\alpha\): \([-1.16, 2.76]\)
\(\beta\): \([-1.90, 17.30]\)

LD50 은 \(-\alpha/\beta\) 의 비 — 델타 방법 또는 Fieller 구간 필요.

(d) 정규 근사의 부정확성이 구간 포괄을 의심케 하는가?

네. 정규 근사가 실제 사후의 skewness 를 놓쳐 — 특히 \(\beta \approx 0\) 근처. \(\text{LD50} = -\alpha/\beta\) 의 비선형성이 근사 오차를 증폭 (Ch.4.1 관찰).

(e) 붓스트랩 구간.

원자료 \((x_i, n_i, y_i)\) 에서 부트스트랩 표본 생성 (각 용량에서 이항 재샘플)
각 부트스트랩에서 \((\hat\alpha^*, \hat\beta^*)\) MLE
\(-\hat\alpha^*/\hat\beta^*\) 의 2.5·97.5 분위수

(f) 네 구간 비교. 정규 근사 구간 (c, 대칭 넓음) < 붓스트랩 (e, 비대칭) < 실제 사후 (그림 3.4, 좁음).

실제 사후 기반이 가장 정확 — 작은 표본에 맞게 skewness 반영.

직관 — 구간 선택의 실무 가이드

구간 유형	언제 쓰나
Wald (정규 근사)	큰 표본, 간단한 보고
붓스트랩	중간 표본, 비모수 원할 때
프로파일 우도	비선형 모델, 큰 표본
실제 베이즈 사후	작은 표본, 사전 정보 있을 때, 파생량 추론

Gelman 의 권장 — 전체 사후 분포를 보고하고 여러 요약 (50%, 95% 구간) 제공. 단일 구간에 과도하게 의존하지 말 것.

6 네 절의 구조적 통합

절	주제	핵심 메시지
§ 4.4	빈도주의 평가	95% 사후 구간 ≈ 95% 신뢰 구간 (대표본)
§ 4.5	빈도주의의 베이즈 해석	MLE·비편향·신뢰·가설검정·다중 비교의 베이즈 해석
§ 4.6	지적 계보	Savage → 현대
§ 4.7	연습	Ch.4 전체 기법 훈련

7 빈도주의와의 최종 정리

상황	베이즈	빈도주의	수치 차이
대표본 점 추정	사후 평균	MLE	무시
95% 구간 (대표본)	사후 분위수	Wald	무시
다중 비교	계층 + 자동 shrinkage	Bonferroni	큼
소표본 예측	중앙 회귀	비편향 MLE	중간~큼
점 가설검정	사후 확률	\(p\)-값	해석 다름
복잡 모델	MCMC	가능도 최대화	유사

대표본 + 단순 모델에서 합류, 소표본·다모수·예측에서 갈라진다 — Ch.4 의 최종 교훈.

8 코드 예제 — 비편향성의 한계와 Galton 회귀

8.1 Step 1: 순수 Python — 키 회귀 시뮬레이션

import random
import statistics

random.seed(42)

# 참 엄마 키 분포: N(160, 5²), 딸은 이에 상관 0.5
true_theta_range = [150, 160, 170, 180]  # 딸의 참 키 후보

print("참 θ (딸)  | 베이즈 E(θ|y)  | 비편향 추정  | 진짜 값")
for true_theta in true_theta_range:
    # y | θ ~ N(160 + 0.5*(θ-160), σ²*(1-0.5²))
    sigma_y_given_theta = 5 * (1 - 0.25) ** 0.5
    y_samples = [random.gauss(160 + 0.5 * (true_theta - 160), sigma_y_given_theta) for _ in range(10000)]

    # 베이즈 사후 평균
    bayes_est = [160 + 0.5 * (y - 160) for y in y_samples]
    # 비편향 추정
    unbiased_est = [160 + 2 * (y - 160) for y in y_samples]

    print(f"{true_theta:<10} | {statistics.mean(bayes_est):<14.3f} | {statistics.mean(unbiased_est):<12.3f} | {true_theta}")

예상 출력 — 비편향 추정의 평균이 정확히 참 \(\theta\). 베이즈 추정은 160 쪽으로 중앙 회귀.

해석.

비편향 평균 = 참값, 하지만 개별 추정값은 극단 (엄마 170cm → 딸 180cm 예측)
베이즈 평균 = 편향, 하지만 개별 추정값이 현실적 (엄마 170cm → 딸 165cm)

MSE 관점에서 베이즈가 더 나을 수도 (편향² + 분산).

8.2 Step 2: 손실 함수별 Bayes 추정량 차이

import numpy as np
from scipy import stats

np.random.seed(42)

# 비대칭 사후 — 지수 분포 예
post_samples = stats.expon.rvs(scale=2.0, size=10000)

# 제곱 손실 → 사후 평균
mean_est = post_samples.mean()
# 절대값 손실 → 사후 중앙값
median_est = np.median(post_samples)
# 비대칭 선형 손실 (k_0 = 1, k_1 = 3) → 0.25 분위수
quantile_est = np.quantile(post_samples, 0.25)
# 반대 (k_0 = 3, k_1 = 1) → 0.75 분위수
quantile_est2 = np.quantile(post_samples, 0.75)

print(f"지수 사후 (mean=2) 예제:")
print(f"  제곱 손실 최적 (평균):        {mean_est:.3f}")
print(f"  절대 손실 최적 (중앙값):      {median_est:.3f}")
print(f"  비대칭 k_0=1, k_1=3 (0.25 분위): {quantile_est:.3f}")
print(f"  비대칭 k_0=3, k_1=1 (0.75 분위): {quantile_est2:.3f}")

예상 출력 — 지수 분포는 우로 치우쳐 평균 (2.0) > 중앙값 (약 1.4) > 0.25 분위수 (약 0.58) < 0.75 분위수 (약 2.77). 손실 함수 선택이 최적 추정을 크게 바꾼다.

9 관련 주제

Ch.4 의 다른 심화 포스트

Ch.4 개요
§ 4.1~4.3 심화 — 정규 근사·대표본·반례

Ch.1~3 심화 (선행)

Ch.1 개요 + 세 심화
Ch.2 개요 + 세 심화
Ch.3 개요 + 세 심화

Part I~V 전체

Part I · Part II · Part III · Part IV · Part V

빈도주의 대응

MLE · 점 추정 — James-Stein shrinkage
신뢰 구간
베이즈 검정 — Bayes 팩터 · 사후 확률
가설검정의 한계

10 참고자료

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press. Ch.4 (§ 4.4~4.7).
Edwards, W., Lindman, H., & Savage, L. J. (1963). Bayesian statistical inference for psychological research. Psychological Review, 70(3), 193–242.
Stigler, S. M. (1983). A historical view of statistical concepts in psychology and educational research. American Journal of Education, 92(1), 60–70.
Berger, J. O., & Sellke, T. (1987). Testing a point null hypothesis: The irreconcilability of p-values and evidence. Journal of the American Statistical Association, 82(397), 112–122.
Gelman, A., & Tuerlinckx, F. (2000). Type S error rates for classical and Bayesian single and multiple comparison procedures. Computational Statistics, 15(3), 373–390.
Efron, B., & Tibshirani, R. (1993). An Introduction to the Bootstrap. Chapman & Hall.