Kwangmin Kim - Simple Linear Regression: Estimation and Prediction at a Specified x = x₀

1 개요

이전 포스트에서 기울기 \(\beta\) 에 대한 \(t\)-검정, \(F\)-검정, 회귀 ANOVA, 결정계수 \(R^2\), 그리고 \(\beta\) 의 신뢰구간까지 유도했다. 그 도구들은 회귀직선의 기울기에 관한 추론이었다. 그런데 회귀 분석의 궁극적 목적은 대부분 기울기 자체가 아니라, 특정 \(x\) 값에서 \(Y\) 가 어떻게 될 것인가에 답하는 것이다.

이 질문에는 두 가지 버전이 있다:

\(E(Y \mid x_0)\) 를 추정한다 — “\(x_0\) 에서의 모집단 평균 반응은 얼마인가?”
\(Y_0\) 를 예측한다 — “\(x_0\) 에서 실제로 관측될 다음 한 값은 얼마인가?”

두 질문은 점추정은 같지만(\(\hat y_0 = \hat\alpha + \hat\beta x_0\)) 불확실성의 크기가 근본적으로 다르다. 이 포스트는 Casella & Berger(2002, §11.3.5)의 유도를 따라 그 차이를 엄밀히 풀어내고, §11.3.6의 동시 추론(Bonferroni 보정, Scheffé 신뢰대)까지 다룬다.

2 전제: Theorem 11.3.3 복기

§11.3.3 포스트의 핵심 결과를 압축한다. 조건부 정규 모형 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) (독립) 하에서:

결과	내용
(a)	\(\hat\alpha \sim N(\alpha, \;\sigma^2\sum x_i^2/(n S_{xx}))\), \(\hat\beta \sim N(\beta,\;\sigma^2/S_{xx})\), \(\mathrm{Cov}(\hat\alpha,\hat\beta) = -\sigma^2\bar x/S_{xx}\)
(b)	\((n-2)S^2/\sigma^2 \sim \chi^2_{n-2}\)
(c)	\((\hat\alpha, \hat\beta) \perp S^2\)

이 세 결과가 아래 모든 유도의 재료이다.

3 평균 반응의 점추정

3.1 추정량과 불편성

\(x = x_0\) 에서의 모집단 평균 반응:

\[ \mu(x_0) := E(Y \mid x_0) = \alpha + \beta x_0. \]

자연스러운 점추정량:

\[ \hat\mu(x_0) = \hat\alpha + \hat\beta x_0. \]

불편성은 기대값의 선형성에서 바로 따른다:

\[ E(\hat\alpha + \hat\beta x_0) = E\hat\alpha + (E\hat\beta)\,x_0 = \alpha + \beta x_0 = \mu(x_0). \]

3.2 분산의 유도 (11.3.39 상세)

\(\hat\mu(x_0)\) 의 분산을 단계별로 유도한다. Theorem 11.3.3(a)에서:

\[ \mathrm{Var}(\hat\alpha + \hat\beta x_0) = \mathrm{Var}\,\hat\alpha + x_0^2\,\mathrm{Var}\,\hat\beta + 2 x_0\,\mathrm{Cov}(\hat\alpha, \hat\beta). \]

각 항을 대입:

\[ = \frac{\sigma^2 \sum x_i^2}{n\,S_{xx}} + \frac{\sigma^2 x_0^2}{S_{xx}} - \frac{2\sigma^2 x_0 \bar x}{S_{xx}}. \]

\(\sigma^2/S_{xx}\) 을 공통 인수로 묶으면:

\[ = \frac{\sigma^2}{S_{xx}} \left(\frac{\sum x_i^2}{n} + x_0^2 - 2 x_0 \bar x\right). \]

핵심 트릭: \(\pm \bar x^2\) 을 삽입한다.

\[ \frac{\sum x_i^2}{n} + x_0^2 - 2 x_0 \bar x = \underbrace{\frac{\sum x_i^2}{n} - \bar x^2}_{= S_{xx}/n} + \underbrace{\bar x^2 - 2 x_0 \bar x + x_0^2}_{= (x_0 - \bar x)^2}. \]

첫 번째 항에서 \(\sum x_i^2/n - (\sum x_i/n)^2 = \sum(x_i - \bar x)^2/n = S_{xx}/n\) 을 사용했다.

따라서:

\[ \boxed{\; \mathrm{Var}(\hat\alpha + \hat\beta x_0) = \sigma^2\!\left(\frac{1}{n} + \frac{(x_0 - \bar x)^2}{S_{xx}}\right). \;} \]

3.3 분산의 구조 해석

이 공식은 두 개의 독립적 불확실성 원천을 드러낸다:

항	의미	작아지는 조건
\(1/n\)	절편(수준) 추정의 불확실성 — 회귀직선의 “높이”를 모르는 것	\(n \uparrow\)
\((x_0 - \bar x)^2 / S_{xx}\)	기울기 추정의 불확실성이 \(x_0\) 에서 증폭된 것 — 직선의 “기울어짐”을 모르는 것	\(x_0 \to \bar x\) 또는 \(S_{xx} \uparrow\)

직관적으로: 기울기의 작은 추정 오차가 \(\bar x\) 에서 멀어질수록 지렛대 효과(leverage)로 증폭된다. \(x_0 = \bar x\) 이면 기울기 오차가 예측에 기여하지 않으므로 분산이 최소가 된다.

모래시계 직관

\(\mathrm{Var}(\hat\mu(x_0))\) 를 \(x_0\) 의 함수로 그리면 포물선(위로 볼록의 역수형)이다. \(x_0 = \bar x\) 에서 최소, 양 끝으로 갈수록 증가. 이를 반영한 신뢰구간의 폭은 모래시계(hourglass) 또는 나비넥타이(bowtie) 모양이 된다. 회귀직선은 \((\bar x, \bar Y)\) 를 반드시 지나므로, 이 점에서 직선이 가장 “안정적”이고 양 끝으로 갈수록 흔들림이 커진다.

3.4 분포 (11.3.39)

\(\hat\alpha\) 와 \(\hat\beta\) 는 독립 정규변수의 선형 결합이므로 \(\hat\mu(x_0)\) 도 정규이다:

\[ \hat\alpha + \hat\beta x_0 \sim N\!\left(\alpha + \beta x_0, \;\sigma^2\!\left(\frac{1}{n} + \frac{(x_0 - \bar x)^2}{S_{xx}}\right)\right). \]

4 평균 반응의 신뢰구간 (11.3.40)

4.1 피벗 구성

신뢰구간을 만들려면, 추정량에서 모수를 빼고 표준편차로 나눈 피벗(미지 모수에 의존하지 않는 통계량)을 구성해야 한다. \(\sigma\) 를 알면 표준정규가 되지만, 실제로는 \(\sigma\) 를 모르므로 \(S\) 로 대체한다.

\(\hat\mu(x_0)\) 를 표준화하면 \(N(0,1)\) 이지만, \(\sigma\) 를 모르므로 \(S\) 로 대체한다. Theorem 11.3.3(c)에 의해 \(S^2 \perp (\hat\alpha, \hat\beta)\) 이므로 \(S^2 \perp \hat\mu(x_0)\) 도 성립한다(Theorem 4.6.12). 따라서:

\[ T_{x_0} = \frac{(\hat\alpha + \hat\beta x_0) - (\alpha + \beta x_0)}{S\sqrt{1/n + (x_0 - \bar x)^2/S_{xx}}} \sim t_{n-2}. \]

4.2 신뢰구간

\(T_{x_0}\) 를 뒤집으면 \(100(1-\alpha)\%\) 신뢰구간:

\[ \boxed{\; \hat\mu(x_0) \pm t_{n-2,\;\alpha/2} \cdot S\sqrt{\frac{1}{n} + \frac{(x_0 - \bar x)^2}{S_{xx}}}. \;} \]

4.3 폭의 \(x_0\)-의존성

상황	폭	해석
\(x_0 = \bar x\)	\(2 t \cdot S / \sqrt{n}\) (최소)	데이터 중심에서 가장 정밀
\(x_0\) 가 \(\bar x\) 에서 멀어짐	포물선적 증가	지렛대 효과로 불확실성 증폭
\(x_0\) 가 관측 범위 밖 (외삽)	급격히 증가	수학적 경고 + 모형 적합성 의문

4.4 설계 함의

실험자가 특정 \(x_0\) 에서의 평균 반응을 가장 정밀하게 추정하고 싶다면, \(x_1, \ldots, x_n\) 을 \(x_0\) 가 \(\bar x\) 에 가까워지도록 설계해야 한다. 즉, 관심 영역의 중심에 데이터를 집중한다. 이것은 §11.3.2의 이점 설계와 역방향이다. 이점 설계는 기울기를 정밀하게 추정하지만, 특정 점에서의 평균은 중심 배치가 더 낫다. 상충하는 두 목표를 절충하는 것이 실험 설계의 핵심이다.

5 예측구간 (11.3.41)

5.1 문제의 전환: 모수 → 확률변수

평균 반응 \(\mu(x_0) = \alpha + \beta x_0\) 는 모수(상수)이다. 데이터를 많이 모으면 얼마든지 정밀하게 추정할 수 있다. 하지만 실제로 관측될 새 값 \(Y_0\) 는 확률변수이다:

\[ Y_0 \sim N(\alpha + \beta x_0, \;\sigma^2). \]

\(Y_0\) 는 아직 관측되지 않았고, 기존 데이터 \((x_1, Y_1), \ldots, (x_n, Y_n)\) 과 독립이다.

5.2 예측 오차의 분포

예측 오차 \(Y_0 - \hat\mu(x_0)\) 의 분산은 두 개의 독립적 불확실성이 합산된 결과이다. 첫째는 \(Y_0\) 자체가 \(\mu(x_0)\) 주위에서 \(\sigma^2\) 만큼 흩어지는 관측 내재 변동이고, 둘째는 \(\hat\mu(x_0)\) 가 \(\mu(x_0)\) 를 정확히 맞추지 못하는 추정 불확실성이다. 비유하면, 과녁의 위치를 정확히 모르는 상태(추정 오차)에서 화살이 바람에 흔들리는 것(관측 변동)까지 겹치는 상황이다.

\[ Y_0 - \hat\mu(x_0) \sim N(0, \;\sigma^2_{\text{pred}}), \]

여기서

\[ \sigma^2_{\text{pred}} = \underbrace{\mathrm{Var}\,Y_0}_{\sigma^2\;(\text{관측 변동})} + \underbrace{\mathrm{Var}\,\hat\mu(x_0)}_{\sigma^2(1/n + (x_0-\bar x)^2/S_{xx})\;(\text{추정 오차})} = \sigma^2\!\left(1 + \frac{1}{n} + \frac{(x_0 - \bar x)^2}{S_{xx}}\right). \]

\(\mathrm{Var}\,Y_0\) 와 \(\mathrm{Var}\,\hat\mu(x_0)\) 를 더할 수 있는 이유: \(Y_0\) 는 기존 데이터와 독립이고, \(\hat\mu(x_0)\) 는 기존 데이터의 함수이다. 따라서 \(\mathrm{Cov}(Y_0, \hat\mu(x_0)) = 0\) 이므로 분산이 그대로 더해진다.

5.3 피벗과 예측구간

\(S^2 \perp (Y_0 - \hat\mu(x_0))\) 이므로:

\[ T_{\text{pred}} = \frac{Y_0 - (\hat\alpha + \hat\beta x_0)}{S\sqrt{1 + 1/n + (x_0 - \bar x)^2/S_{xx}}} \sim t_{n-2}. \]

\(100(1-\alpha)\%\) 예측구간:

\[ \boxed{\; \hat\mu(x_0) \pm t_{n-2,\;\alpha/2} \cdot S\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar x)^2}{S_{xx}}}. \;} \]

정의: 예측구간 (Casella, Definition 11.3.5)

신뢰구간이 “미지의 상수(모수)가 어디에 있는가”를 포착하는 것이라면, 예측구간은 “아직 일어나지 않은 확률적 사건이 어디에 떨어질 것인가”를 포착한다. 대상이 상수가 아니라 확률변수이므로, 모수를 완벽히 알더라도 구간이 사라지지 않는다는 점에서 근본적으로 다르다.

관측된 데이터 \(\mathbf{X}\) 에 기반해 아직 관측되지 않은 확률변수 \(Y\) 에 대한 \(100(1-\alpha)\%\) 예측구간은 확률구간 \([L(\mathbf{X}), U(\mathbf{X})]\) 로서

\[ P_\theta(L(\mathbf{X}) \leq Y \leq U(\mathbf{X})) \geq 1 - \alpha \]

를 모든 \(\theta\) 에 대해 만족한다.

6 신뢰구간 vs 예측구간: 근본적 차이

6.1 분산 비교

	신뢰구간 (평균 \(\mu(x_0)\))	예측구간 (관측 \(Y_0\))
분산	\(\sigma^2(1/n + (x_0-\bar x)^2/S_{xx})\)	\(\sigma^2(\mathbf{1} + 1/n + (x_0-\bar x)^2/S_{xx})\)
차이		+1 (미래 관측의 내재적 변동)
대상	상수 \(\alpha + \beta x_0\)	확률변수 \(Y_0\)
\(n \to \infty\)	폭 \(\to 0\)	폭 \(\to 2 t_{\infty,\alpha/2} \cdot \sigma = 2 z_{\alpha/2} \cdot \sigma\)

6.2 핵심 교훈: 예측 불확실성의 비소거성

\(n \to \infty\) 이면 \(1/n \to 0\), \((x_0-\bar x)^2/S_{xx} \to 0\) (적절한 설계 하)이므로 추정 불확실성은 사라진다. 하지만 “1” 항은 절대 사라지지 않는다. 이것은 \(Y_0\) 가 \(\mu(x_0)\) 주위에서 \(\sigma^2\) 만큼 변동하는 본질적 랜덤니스이다.

예측의 근본적 한계

아무리 많은 데이터를 모아도 개별 관측의 예측구간은 최소 \(\pm z_{\alpha/2}\sigma\) 만큼의 폭을 갖는다. 이것은 통계적 방법의 한계가 아니라 확률적 세계의 본질이다. 직선의 위치를 완벽히 안다 해도, 그 직선 위의 “한 점”이 아닌 그 주변에 흩뿌려지는 관측들의 산포를 줄일 수는 없다.

실무적으로 이것은 중요한 함의를 가진다. 예를 들어 대학이 고교 성적(\(x\))으로 대학 GPA(\(Y\))를 예측할 때, 모형이 아무리 정확해도 개별 학생의 GPA 예측에는 항상 상당한 불확실성이 남는다. 이 한계를 인식하지 못한 채 점추정(\(\hat y_0\))만으로 의사결정하면 과신에 빠진다.

6.3 \(x_0\) 위치에 따른 두 구간의 비교

\(x_0 = \bar x\) 에서:

신뢰구간 반폭: \(t \cdot S/\sqrt{n}\)
예측구간 반폭: \(t \cdot S\sqrt{1 + 1/n}\)

\(n\) 이 크면 신뢰구간은 거의 0이지만, 예측구간은 \(\approx t \cdot S\) 로 여전히 크다. 두 구간의 비율 \(\sqrt{1 + 1/n} / (1/\sqrt{n}) = \sqrt{n + 1}\) 은 \(n\) 이 커질수록 극적으로 벌어진다.

7 레버리지(Leverage)와 \(x_0\) 의 영향

7.1 Hat matrix 관점

레버리지(leverage)는 “\(x\)-공간에서 이 점이 얼마나 외진 위치에 있는가”를 하나의 숫자로 요약한 것이다. 시소에서 받침점(중심)에서 멀리 앉을수록 같은 무게라도 더 큰 힘을 발휘하듯, \(\bar x\) 에서 먼 관측점은 회귀직선의 기울기를 더 크게 좌우할 잠재력을 갖는다. 이 잠재력을 정량화한 것이 hat matrix의 대각 원소이다.

§11.3.1 포스트에서 사영행렬(hat matrix) \(\mathbf{H} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\) 를 도입했다. 그 대각 원소 \(h_{ii}\) 는 \(i\) 번째 관측의 레버리지이다:

\[ h_{ii} = \frac{1}{n} + \frac{(x_i - \bar x)^2}{S_{xx}}. \]

이것은 정확히 신뢰구간 분산의 \(\sigma^2\) 밖 인수이다. 즉:

\[ \mathrm{Var}(\hat y_i) = \sigma^2 h_{ii}, \qquad \mathrm{Var}(\hat y_0) = \sigma^2 h_{00}, \]

여기서 \(h_{00} = 1/n + (x_0 - \bar x)^2/S_{xx}\) 는 “\(x_0\) 점의 가상적 레버리지”이다.

7.2 레버리지의 해석

\(h_{00}\) 가 크다는 것은 \(x_0\) 가 \(\bar x\) 에서 멀리 떨어져 있어서, 회귀직선의 위치가 \(x_0\) 에서 크게 흔들린다는 뜻이다. 레버리지가 높은 점은:

추정 불확실성이 크다 (넓은 신뢰구간)
영향력(influence)이 클 가능성이 있다 — 한 점이 기울기를 크게 바꿀 수 있다
외삽 영역에 해당하는 경우가 많다

레버리지 ≠ 영향력

레버리지는 \(x\)-공간에서의 위치만으로 결정되는 잠재적 영향력이다. 실제로 관측값이 회귀직선에 가까우면 레버리지가 높아도 영향력은 작다. 반대로 레버리지가 중간이면서 잔차가 크면 영향력이 클 수 있다. 이를 정량화한 것이 Cook’s distance 등의 영향력 진단 지표이다.

8 외삽의 위험

8.1 수학적 경고와 모형적 위험

\(|x_0 - \bar x|\) 가 커질수록 \((x_0 - \bar x)^2/S_{xx}\) 가 커지고 구간이 넓어진다. 이것은 수학이 불확실성을 솔직히 표현하는 것이다. 그러나 실제 위험은 이보다 더 크다.

수학적 구간은 모형이 \(x_0\) 에서도 성립한다는 가정 하에서만 유효하다. 관측 범위 \([\min x_i, \max x_i]\) 밖에서는:

회귀함수가 비선형일 가능성을 검증할 데이터가 없다
구간이 넓어지는 것은 수학의 경고이지만, 모형 오명세의 위험은 구간에 반영되지 않는다
외삽 영역에서 예측이 완전히 틀릴 수 있으며, 구간이 이를 포착하지 못한다

Casella & Berger(2002, §11.3.6 말미)도 명시한다: “관측 범위 밖으로의 외삽은 대개 현명하지 않다.”

8.2 안전한 외삽의 조건

완전히 안전한 외삽은 없지만, 덜 위험한 상황이 있다:

조건	이유
물리 법칙에 의한 선형성 보장 (Hooke 법칙, Ohm 법칙)	모형이 이론적으로 정확
관측 범위 끝에서 잔차에 패턴이 없음	비선형 이탈 징후가 없음
외삽 거리가 \(S_{xx}\) 대비 작음	레버리지 증가가 완만

9 동시 추론: Bonferroni 보정 (§11.3.6)

9.1 문제: 다중 \(x_0\) 에서의 추론

한 번에 \(m\) 개의 점 \(x_{01}, \ldots, x_{0m}\) 에서 평균 반응의 신뢰구간을 구하면, 각 구간의 커버리지는 \(1-\alpha\) 이지만 동시 커버리지는 \(1-\alpha\) 미만이다. 직관적으로, 동전을 한 번 던져 앞면이 나올 확률은 0.5이지만 10번 모두 앞면일 확률은 \(0.5^{10}\) 으로 급감하는 것과 같은 원리이다. 각 구간이 독립적으로 95% 를 맞추더라도, “전부 동시에 맞출” 확률은 그보다 낮아진다.

9.2 Bonferroni 해법 (11.3.42)

Bonferroni 부등식을 적용하면, \(t\)-분위수를 \(t_{n-2,\alpha/(2m)}\) 으로 교체하여 동시 커버리지 \(\geq 1 - \alpha\) 를 보장한다:

\[ \hat\mu(x_{0i}) \pm t_{n-2,\;\alpha/(2m)} \cdot S\sqrt{\frac{1}{n} + \frac{(x_{0i} - \bar x)^2}{S_{xx}}}, \quad i = 1, \ldots, m. \]

\(m\) 이 커지면 \(\alpha/(2m)\) 이 작아지고, \(t\)-분위수가 커지며, 구간이 넓어진다. 이것은 “동시에 더 많은 약속을 하면, 각 약속이 덜 정밀해져야 한다”는 직관의 수학적 표현이다.

10 Scheffé 동시 신뢰대 (Theorem 11.3.6)

10.1 문제의 확장: 유한 → 무한

Bonferroni 는 유한 \(m\) 개의 \(x_0\) 에 대한 것이다. 만약 모든 \(x\) 에 대해 동시에 유효한 구간을 원한다면? 이것은 단일 직선이 아닌 구간의 대(band)가 된다.

Theorem 11.3.6 (Scheffé 동시 신뢰대)

조건부 정규 회귀 모형 하에서, 확률 \(\geq 1-\alpha\) 로 모든 \(x\) 에 대해 동시에:

\[ \hat\alpha + \hat\beta x \pm M_\alpha \cdot S\sqrt{\frac{1}{n} + \frac{(x - \bar x)^2}{S_{xx}}} \]

이 \(\alpha + \beta x\) 를 포함한다. 여기서

\[ M_\alpha = \sqrt{2 F_{2,\;n-2,\;\alpha}}. \]

10.2 증명 개요

기하학적으로 생각하면, 하나의 직선 \(\alpha + \beta x\) 는 2차원 모수 공간 \((\alpha, \beta)\) 의 한 점에 대응한다. “모든 \(x\) 에서 동시에 커버한다”는 것은 모수 공간에서 \((\hat\alpha, \hat\beta)\) 를 중심으로 한 타원형 신뢰영역 안에 참값 \((\alpha, \beta)\) 가 들어가는 것과 동치이다. 2차원 타원이므로 자유도 2의 \(F\)-분포가 등장하는 것이 자연스럽다.

증명의 핵심 아이디어는 “모든 \(x\) 에 대한 동시 커버리지”를 하나의 최대화 문제로 변환하는 것이다.

Step 1: \(t = x - \bar x\) 로 치환하고, \(\hat\alpha + \hat\beta x = \bar Y + \hat\beta t\), \(\alpha + \beta x = \mu_{\bar Y} + \beta t\) 로 재매개화한다.

Step 2: 모든 \(t\) 에 대해 동시에 커버하려면:

\[ \max_t \frac{[(\bar Y - \mu_{\bar Y}) + (\hat\beta - \beta)t]^2} {S^2[1/n + t^2/S_{xx}]} \leq M_\alpha^2 \]

가 \(1 - \alpha\) 확률로 성립해야 한다.

Step 3: 미적분으로 최대화를 수행하면(Exercise 11.40):

\[ \max_t (\cdots) = \frac{n(\bar Y - \mu_{\bar Y})^2 + S_{xx}(\hat\beta - \beta)^2}{S^2}. \]

Step 4: 분자를 \(\sigma^2\) 으로 나누면:

\[ \frac{(\bar Y - \mu_{\bar Y})^2}{\sigma^2/n} + \frac{(\hat\beta - \beta)^2}{\sigma^2/S_{xx}} \sim \chi^2_1 + \chi^2_1 = \chi^2_2. \]

\(\bar Y\) 와 \(\hat\beta\) 가 독립(Exercise 11.32, \(\bar x\) 에서 재매개화)이고 각각 \(\chi^2_1\) 이므로 합은 \(\chi^2_2\) 이다.

Step 5: 전체 비는 \(\chi^2_2 / (\chi^2_{n-2}/(n-2)) = 2 F_{2,n-2}\) 이다. 따라서 \(M_\alpha = \sqrt{2 F_{2,n-2,\alpha}}\) 로 놓으면 정확히 \(1-\alpha\) 커버리지가 된다. \(\square\)

10.3 Scheffé 대 vs 개별 \(t\)-구간

	개별 \(t\)-구간	Scheffé 대
적용 범위	단일 \(x_0\)	모든 \(x\) 동시
반폭 곱수	\(t_{n-2,\alpha/2}\)	\(\sqrt{2 F_{2,n-2,\alpha}}\)
크기 관계	항상 더 좁다	더 넓다 (무한 개 점 커버의 대가)

\(t^2_{n-2,\alpha/2}\) vs \(2F_{2,n-2,\alpha}\): 일반적으로 \(2F > t^2\) 이므로 Scheffé 가 넓다. 하지만 Bonferroni 와 비교하면, \(m\) 이 충분히 크면 \(t_{n-2,\alpha/(2m)} > \sqrt{2F_{2,n-2,\alpha}}\) 이 되어 Bonferroni 가 더 넓어진다. 이 지점에서 Scheffé 로 전환하는 것이 유리하다.

실무 가이드: 어떤 방법을 쓸 것인가

상황	추천
\(x_0\) 가 하나	개별 \(t\)-구간
\(x_0\) 가 2~5개	Bonferroni
\(x_0\) 가 많거나, 전체 직선에 대한 대가 필요	Scheffé
탐색적 분석 (사전에 \(x_0\) 미정)	Scheffé (사후적으로 어떤 \(x_0\) 를 골라도 유효)

11 응용 분야

분야	추론 유형	구체적 예시
임상 약리학	예측구간	새 환자에게 용량 \(x_0\) 투여 시 반응 \(Y_0\) 의 범위 예측
센서 캘리브레이션	신뢰대	참값-측정값 보정 곡선 전체에 대한 동시 불확실성
대학 입시	예측구간	고교 성적 \(x_0\) 로 대학 GPA \(Y_0\) 예측
품질 관리	관리한계	공정 변수 \(x_0\) 에서 제품 특성의 예측 범위
재무	외삽 위험	과거 수익률-위험 관계의 미래 적용 한계
기후 과학	Scheffé 대	CO₂ 농도-기온 관계의 동시 신뢰대

12 수치 예시

12.1 손 계산

\(n = 5\), \(x = (1, 2, 3, 4, 5)\), \(y = (2.1, 3.9, 6.2, 7.8, 10.1)\). 이전 포스트의 수량: \(\hat\beta = 1.99\), \(\hat\alpha = 0.05\), \(S_{xx} = 10\), \(S^2 = 0.0357\), \(S = 0.1889\), \(\bar x = 3\). \(t_{3, 0.025} = 3.182\).

평균 반응의 구간 (\(x_0 = 1, 3, 5\)):

\(x_0\)	\(\hat y_0\)	\((x_0-\bar x)^2/S_{xx}\)	\(h_{00}\)	\(\text{SE}_{\text{mean}}\)	95% CI
1	2.04	0.4	0.6	\(0.1889\sqrt{0.6} = 0.1463\)	\(2.04 \pm 0.466\)
3	6.02	0.0	0.2	\(0.1889\sqrt{0.2} = 0.0845\)	\(6.02 \pm 0.269\)
5	10.00	0.4	0.6	\(0.1889\sqrt{0.6} = 0.1463\)	\(10.00 \pm 0.466\)

\(x_0 = \bar x = 3\) 에서 구간이 가장 좁고(\(\pm 0.269\)), 양 끝에서 넓어진다(\(\pm 0.466\)).

예측구간 (\(x_0 = 3\)):

\(\text{SE}_{\text{pred}} = 0.1889\sqrt{1 + 0.2} = 0.1889 \times 1.0954 = 0.2069\).

\(6.02 \pm 3.182 \times 0.2069 = 6.02 \pm 0.658\).

신뢰구간 폭 0.269 vs 예측구간 폭 0.658: 예측구간이 2.4배 넓다.

13 코드 예시

13.1 Step 1: 순수 Python — 분산 구조 분해

import math

x = [1, 2, 3, 4, 5]
y = [2.1, 3.9, 6.2, 7.8, 10.1]
n = len(x)

x_bar = sum(x) / n
y_bar = sum(y) / n
S_xx = sum((xi - x_bar) ** 2 for xi in x)
S_xY = sum((xi - x_bar) * (yi - y_bar) for xi, yi in zip(x, y))

beta_hat = S_xY / S_xx
alpha_hat = y_bar - beta_hat * x_bar
resid = [yi - alpha_hat - beta_hat * xi for xi, yi in zip(x, y)]
s2 = sum(r ** 2 for r in resid) / (n - 2)
s = math.sqrt(s2)

t_crit = 3.182  # t_{3, 0.025}

# 여러 x0 에서 분산 분해
for x0 in [1, 2, 3, 4, 5, 6]:
    y0_hat = alpha_hat + beta_hat * x0
    h00 = 1/n + (x0 - x_bar)**2 / S_xx
    se_mean = s * math.sqrt(h00)
    se_pred = s * math.sqrt(1 + h00)

    ci_half = t_crit * se_mean
    pi_half = t_crit * se_pred

    print(f"x0={x0}: y_hat={y0_hat:.2f}, h00={h00:.3f}, "
          f"CI=[{y0_hat-ci_half:.2f}, {y0_hat+ci_half:.2f}], "
          f"PI=[{y0_hat-pi_half:.2f}, {y0_hat+pi_half:.2f}]")
    # x0=6: 관측 범위 밖 — 구간이 급격히 넓어짐을 확인

13.2 Step 2: 시뮬레이션 — 커버리지 확인

import numpy as np
from scipy import stats
rng = np.random.default_rng(42)

alpha_true, beta_true, sigma = 1.0, 2.0, 1.0
x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
n = len(x)
S_xx = ((x - x.mean()) ** 2).sum()
t_crit = stats.t.ppf(0.975, df=n - 2)
n_sim = 50_000

# 세 위치: 중심(3), 끝(5), 외삽(7)
x0_list = [3.0, 5.0, 7.0]
cover_ci = {x0: 0 for x0 in x0_list}
cover_pi = {x0: 0 for x0 in x0_list}

for _ in range(n_sim):
    y = alpha_true + beta_true * x + rng.normal(0, sigma, n)
    b = ((x - x.mean()) * (y - y.mean())).sum() / S_xx
    a = y.mean() - b * x.mean()
    s = np.sqrt(((y - a - b * x) ** 2).sum() / (n - 2))

    for x0 in x0_list:
        y0_hat = a + b * x0
        h00 = 1/n + (x0 - x.mean())**2 / S_xx
        mu_true = alpha_true + beta_true * x0

        # CI coverage (평균에 대해)
        half_ci = t_crit * s * np.sqrt(h00)
        if abs(y0_hat - mu_true) <= half_ci:
            cover_ci[x0] += 1

        # PI coverage (새 관측에 대해)
        y0_new = mu_true + rng.normal(0, sigma)
        half_pi = t_crit * s * np.sqrt(1 + h00)
        if abs(y0_new - y0_hat) <= half_pi:
            cover_pi[x0] += 1

for x0 in x0_list:
    print(f"x0={x0}: CI coverage={cover_ci[x0]/n_sim:.4f}, "
          f"PI coverage={cover_pi[x0]/n_sim:.4f}")
# 세 위치 모두 ~0.95 에 근접해야 한다
# x0=7 (외삽)에서도 모형이 참이면 커버리지는 유지된다 — 위험은 모형 오명세

13.3 Step 3: Scheffé 대 vs Bonferroni vs 개별 \(t\)

import numpy as np
from scipy import stats

x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y = np.array([2.1, 3.9, 6.2, 7.8, 10.1])
n = len(x)
x_bar = x.mean()
S_xx = ((x - x_bar) ** 2).sum()
b = ((x - x_bar) * (y - y.mean())).sum() / S_xx
a = y.mean() - b * x_bar
s = np.sqrt(((y - a - b * x) ** 2).sum() / (n - 2))

alpha_level = 0.05
df = n - 2

# 곱수 비교
t_indiv = stats.t.ppf(1 - alpha_level/2, df)
m = 3  # Bonferroni 에서 3개 점
t_bonf = stats.t.ppf(1 - alpha_level/(2*m), df)
f_val = stats.f.ppf(1 - alpha_level, 2, df)
m_scheffe = np.sqrt(2 * f_val)

print(f"개별 t:      {t_indiv:.4f}")
print(f"Bonferroni (m={m}): {t_bonf:.4f}")
print(f"Scheffé:     {m_scheffe:.4f}")

# x 격자에서 세 방법의 대 폭 비교
x_grid = np.linspace(0, 6, 100)
se_grid = s * np.sqrt(1/n + (x_grid - x_bar)**2 / S_xx)
y_hat_grid = a + b * x_grid

print("\n-- x0=1 에서의 반폭 비교 --")
x0 = 1.0
se0 = s * np.sqrt(1/n + (x0 - x_bar)**2 / S_xx)
print(f"개별 t:  ±{t_indiv * se0:.4f}")
print(f"Bonf(3): ±{t_bonf * se0:.4f}")
print(f"Scheffé: ±{m_scheffe * se0:.4f}")

13.4 Step 4: 시각화 — 세 가지 대를 한 그림에

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y = np.array([2.1, 3.9, 6.2, 7.8, 10.1])
n = len(x)
x_bar = x.mean()
S_xx = ((x - x_bar) ** 2).sum()
b = ((x - x_bar) * (y - y.mean())).sum() / S_xx
a = y.mean() - b * x_bar
s = np.sqrt(((y - a - b * x) ** 2).sum() / (n - 2))
df = n - 2

x_grid = np.linspace(0, 6, 200)
y_hat = a + b * x_grid
se_mean = s * np.sqrt(1/n + (x_grid - x_bar)**2 / S_xx)
se_pred = s * np.sqrt(1 + 1/n + (x_grid - x_bar)**2 / S_xx)

t_crit = stats.t.ppf(0.975, df)
f_crit = stats.f.ppf(0.95, 2, df)
m_sch = np.sqrt(2 * f_crit)

fig, ax = plt.subplots(figsize=(9, 6))
ax.scatter(x, y, color="black", zorder=5, label="observed")
ax.plot(x_grid, y_hat, "k-", label="fitted line")

# 개별 t 신뢰구간 (평균)
ax.fill_between(x_grid, y_hat - t_crit*se_mean, y_hat + t_crit*se_mean,
                alpha=0.25, color="steelblue", label="95% CI (pointwise)")

# Scheffé 대 (평균)
ax.fill_between(x_grid, y_hat - m_sch*se_mean, y_hat + m_sch*se_mean,
                alpha=0.15, color="green", label=f"95% Scheffé band")

# 예측구간
ax.fill_between(x_grid, y_hat - t_crit*se_pred, y_hat + t_crit*se_pred,
                alpha=0.10, color="coral", label="95% PI (pointwise)")

ax.set_xlabel("x")
ax.set_ylabel("Y")
ax.set_title("Confidence Band, Scheffé Band, and Prediction Band")
ax.legend(loc="upper left")
plt.tight_layout()
plt.show()

13.5 결과 해석

Step 1: \(x_0\) 가 \(\bar x = 3\) 에서 멀어질수록 \(h_{00}\) 가 커지고 두 구간 모두 넓어진다. \(x_0 = 6\) (외삽)에서 폭이 급증하는 것을 확인한다.
Step 2: 50,000 회 시뮬레이션에서 세 위치 모두 CI·PI 커버리지가 명목 0.95 에 근접한다. 외삽(\(x_0 = 7\))에서도 모형이 참이면 커버리지가 유지되지만, 실무에서는 모형이 참이라는 보장이 없으므로 외삽은 위험하다.
Step 3: Scheffé 곱수 > Bonferroni 곱수 > 개별 \(t\) 곱수. \(m\) 이 커지면 Bonferroni 가 Scheffé 를 넘어서는 전환점이 존재한다.
Step 4: 시각화에서 예측대(외곽) > Scheffé 대(중간) > 개별 신뢰대(내곽)의 크기 관계를 직관적으로 확인한다. 모래시계 모양이 뚜렷하다.

14 핵심 정리

평균 반응 추정: \(\hat\mu(x_0) = \hat\alpha + \hat\beta x_0\) 의 분산은 \(\sigma^2(1/n + (x_0-\bar x)^2/S_{xx})\) 로, \(x_0 = \bar x\) 에서 최소이다.
신뢰구간: \(\hat\mu(x_0) \pm t_{n-2,\alpha/2} \cdot S\sqrt{1/n + (x_0-\bar x)^2/S_{xx}}\). 폭은 \(x_0\) 에 따라 변하여 모래시계 모양의 대를 형성한다.
예측구간: 분산에 \(\sigma^2 \cdot 1\) 이 추가된다. 이 항은 미래 관측의 내재적 변동이며, \(n \to \infty\) 에서도 사라지지 않는다.
레버리지 \(h_{00} = 1/n + (x_0-\bar x)^2/S_{xx}\) 는 \(x_0\) 의 “영향 잠재력”을 정량화한다. 외삽 영역에서 급증한다.
Bonferroni 보정: 유한 \(m\) 개의 \(x_0\) 에 대해 \(t_{n-2,\alpha/(2m)}\) 으로 동시 커버리지 확보.
Scheffé 동시 신뢰대: \(M_\alpha = \sqrt{2F_{2,n-2,\alpha}}\) 로 모든 \(x\) 에 대해 동시 유효. 증명은 최대화를 \(\chi^2_2 / \chi^2_{n-2}\) 비로 환원한다.
외삽은 위험하다: 수학적 구간은 모형 가정 하의 불확실성만 반영한다. 모형 오명세의 위험은 별도이다.

15 §11.3 시리즈 위치

§11.3.1 Mathematical Solution              ← 133
§11.3.2 Statistical Solution (BLUE)         ← 134
§11.3.3 Models and Distribution             ← 135
§11.3.4 Estimation and Testing              ← 136
§11.3.5 Estimation and Prediction at x₀     ← 이 포스트 (137)
§11.3.6 Simultaneous Estimation and Bands   ← 이 포스트 (137)

16 참고 문헌

Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.), §11.3.5–§11.3.6, Theorem 11.3.6. Duxbury.
Scheffé, H. (1959). The Analysis of Variance. Wiley.
Working, H., & Hotelling, H. (1929). Applications of the theory of error to the interpretation of trends. Journal of the American Statistical Association, 24(165A), 73–85.

17 관련 주제

선행 지식

SLR: Least Squares — §11.3.1, 사영행렬·레버리지의 기하학
SLR: BLUE — §11.3.2, 실험 설계 함의
SLR: Models and Distribution Assumptions — §11.3.3, Theorem 11.3.3
SLR: Estimation and Testing — §11.3.4, \(t\)/\(F\)-검정, \(R^2\)
Simultaneous Contrasts — Scheffé, Tukey, Bonferroni — ANOVA 에서의 동시 추론

후속 주제

Multiple Linear Regression
GLS 와 WLS — 이분산 하의 예측구간 확장

관련 개념

정규분포
기대값과 실현값의 구별 — 추정 vs 예측의 철학적 배경
ANOVA F-test