Kwangmin Kim - Simple Linear Regression: Best Linear Unbiased Estimators

1 개요

이전 포스트에서 최소제곱 해 \(\hat\alpha, \hat\beta\) 를 확률 가정 없는 순수 최적화로 유도했다(Casella & Berger, 2002, §11.3.1). 그 결과는 “주어진 점들에 대해 제곱 잔차합을 최소화하는 직선” 이상의 의미를 갖지 않았다. 표준오차도, 신뢰구간도, 검정도 말할 수 없었다. “왜 하필 제곱인가?”에 대한 답도 미분 가능성·볼록성·유클리드 기하 같은 수학적 편의뿐이었다.

이 포스트는 그 공백을 채운다. 아주 약한 통계적 가정(확률분포는 지정하지 않고, 오직 평균과 분산·공분산에 대한 가정)만 추가하면, 바로 그 최소제곱 추정량이 “선형 불편 추정량 중 분산이 가장 작은 것”으로 승격된다. 즉, BLUE(Best Linear Unbiased Estimator) 이다.

이 결과의 놀라운 점은 세 가지다.

정규성이 필요 없다. \(Y_i\) 가 어떤 분포든, 평균과 분산 구조만 맞으면 된다.
단 두 개의 모멘트 가정만으로 최적성이 나온다. 3차·4차 모멘트, 꼬리 행동, 독립성(무상관보다 강함)은 전혀 쓰이지 않는다.
최소제곱은 우연이 아니다. 수학적 편의로 고른 손실함수가, 통계적 모형을 얹는 순간 최적 추정량으로 재해석된다.

Casella & Berger §11.3.2의 핵심 논증을 한 문장으로 요약하면 다음과 같다. “불편성 제약 \(\sum d_i=0, \sum d_i x_i = 1\) 하에서 \(\sum d_i^2\) 을 최소화하는 선형 추정량의 계수는 \(d_i = (x_i - \bar x)/S_{xx}\) 이고, 이것은 정확히 최소제곱해의 계수와 일치한다.”

§11.3.1 vs §11.3.2 — 두 가지 “해”의 관계

항목	§11.3.1 Mathematical Solution	§11.3.2 Statistical Solution
데이터	실수 쌍 \((x_i, y_i)\)	\(x_i\) 고정, \(Y_i\) 확률변수
가정	없음	\(E Y_i = \alpha+\beta x_i\), \(\mathrm{Var}\,Y_i = \sigma^2\), 무상관
목표	제곱합 최소화	선형 불편 추정량 중 최소 분산
해	\(\hat\beta = S_{xy}/S_{xx}\)	\(b = \sum d_i Y_i\), \(d_i = (x_i-\bar x)/S_{xx}\)
결론	두 해가 완전히 같다	수학적 편의가 통계적 최적성으로 번역됨

2 직관: “좋은 추정량”이란 — 과녁 비유

추정량의 품질을 이해하는 가장 직관적인 비유는 활쏘기이다. 참값(모수 \(\beta\) )이 과녁의 정중앙이라고 하자. 동일한 데이터 생성 과정을 반복하면 매번 다른 추정값 \(\hat{\beta}\) 이 나온다.

              편향 없음 (Unbiased)        편향 있음 (Biased)
              ┌─────────────────┐        ┌─────────────────┐
분산 작음     │    · · ·        │        │                 │
(Best)        │    ·(*)·        │        │      · · ·      │
              │    · · ·        │        │      ·(*)·      │
              │                 │        │      · ·(o)     │
              └─────────────────┘        └─────────────────┘
              이상적: BLUE                편향 추정량 (작은 분산)

              ┌─────────────────┐        ┌─────────────────┐
분산 큼       │  ·           ·  │        │·             ·  │
(Not Best)    │      ·  (*)     │        │    ·    (o)     │
              │  ·      ·       │        │ ·      ·    ·   │
              │           ·     │        │                 │
              └─────────────────┘        └─────────────────┘
              불편이지만 비효율적          최악: 편향 + 큰 분산

              (*) = 참값(과녁 중앙)       (o) = 추정량의 평균

이 그림이 전달하는 핵심은 세 가지다.

불편성(Unbiased): 화살들의 평균 위치가 정중앙이다. 과대/과소 추정 경향이 없다.
최소 분산(Best): 화살들이 밀집해 있다. 추정이 안정적이다.
BLUE: 불편이면서 가장 밀집한 추정량이다. 왼쪽 위 사분면에 해당한다.

실제 데이터는 한 번만 관측한다. 추정량의 분산이 크면 운에 따라 참값과 멀리 떨어진 추정값이 나올 확률이 높다. 같은 불편 추정량이라면 분산이 작은 쪽이 더 신뢰할 수 있는 추정량이다. §11.3.2는 바로 이 “불편이면서 가장 밀집한” 추정량을 수학적으로 찾는 과정이다.

3 통계 모형: 1·2차 모멘트만

3.1 모형의 정식화 (11.3.11–11.3.12)

설명변수 \(x_1, \ldots, x_n\) 은 알려진 고정 상수로 둔다. 실험자가 실험실에서 선택·설정한 값이라고 생각하면 된다. 반응변수 \(Y_1, \ldots, Y_n\) 은 무상관 확률변수이며 다음 두 가지만 가정한다.

\[ E Y_i = \alpha + \beta x_i, \qquad \mathrm{Var}\, Y_i = \sigma^2, \qquad i = 1, \ldots, n. \]

\(\sigma^2\) 에 아래첨자 \(i\) 가 없다는 점에 주목한다. 모든 \(Y_i\) 가 같은 분산을 갖는다고 가정한다(등분산). 그리고 \(\mathrm{Cov}(Y_i, Y_j) = 0\) for \(i \ne j\) — 독립은 아니고 무상관이다.

\(Y_i\) 의 확률분포는 지정하지 않는다. 정규, 감마, 혼합분포, 꼬리가 두꺼운 분포, 심지어 분포 자체가 특정되지 않아도 아래 유도는 성립한다.

3.2 오차항 형태 (11.3.13–11.3.14)

같은 모형을 오차항으로 다시 쓰면:

\[ Y_i = \alpha + \beta x_i + \epsilon_i, \qquad E\epsilon_i = 0, \quad \mathrm{Var}\,\epsilon_i = \sigma^2, \quad \mathrm{Cov}(\epsilon_i,\epsilon_j) = 0. \]

오차 \(\epsilon_i\) 는 “무엇이든 될 수 있는” 확률적 변동이다. 측정 오차일 수도, 모형이 포착 못한 누락 변수일 수도, 본질적 랜덤니스일 수도 있다. 유도는 이 해석에 의존하지 않는다.

3.3 왜 이렇게 약한 가정으로도 충분한가

이 질문이 §11.3.2의 심장이다. 뒤에서 보일 분산 최소화 문제는 \(\mathrm{Var}\sum d_i Y_i = \sigma^2 \sum d_i^2\) 이라는 등식에만 의존한다. 이 등식을 성립시키는 데 필요한 것은 등분산과 무상관 두 가지뿐이다. 분포의 모양은 이 등식과 무관하다.

직관: 최적성의 “비용”

분포 가정이 강해질수록 얻는 것도 많아진다. 정규성을 가정하면 UMVUE(Uniformly Minimum Variance Unbiased Estimator)까지 확장되고(Ch.7), MLE가 \(\hat\beta\) 와 일치하며, \(t\) · \(F\) 검정을 엄밀하게 유도할 수 있다. 하지만 §11.3.2는 최소의 가정으로 최대의 결론을 얻는 우아함을 보여준다. “분포를 모른다” 는 제약 하에서 얻을 수 있는 최선의 추정량이 바로 최소제곱이다.

4 선형 추정량과 불편성 제약

4.1 선형 추정량의 정의 (11.3.15)

기울기 \(\beta\) 의 추정량을 다음 형태로 제한한다:

\[ T = \sum_{i=1}^n d_i Y_i, \]

여기서 \(d_1, \ldots, d_n\) 은 \(x_i\) 만의 함수인 알려진 고정 상수이다. 이 제약이 왜 자연스러운가? 세 가지 이유가 있다.

계산 가능성: \(Y_i\) 들의 가중합만 계산하면 끝난다. 비선형 변환이나 반복 알고리즘이 불필요하다.
해석 가능성: 각 \(d_i\) 는 \(i\) 번째 관측이 추정에 얼마나 기여하는지 직접 보여준다.
이론적 접근성: 선형 추정량의 평균과 분산은 \(Y_i\) 의 1·2차 모멘트만으로 완전히 결정된다.

이 제약은 손실이기도 하다. 비선형 추정량(중위수 기반 LAD, M-추정 등)을 쓰면 이상치에 더 강건해질 수 있다. 하지만 그 대가로 닫힌 해와 분산 공식의 단순함을 잃는다.

4.2 불편성 제약 (11.3.16)

\(T\) 가 \(\beta\) 의 불편 추정량이 되려면 모든 \(\alpha, \beta\) 에 대해 \(E T = \beta\) 여야 한다. 계산하면:

\[ \begin{aligned} E\sum_{i=1}^n d_i Y_i &= \sum_{i=1}^n d_i \,E Y_i = \sum_{i=1}^n d_i (\alpha + \beta x_i) \\ &= \alpha \underbrace{\sum_{i=1}^n d_i}_{=: A} + \beta \underbrace{\sum_{i=1}^n d_i x_i}_{=: B}. \end{aligned} \]

이 값이 모든 \(\alpha, \beta\) 에 대해 \(\beta\) 와 같으려면 \(A \cdot \alpha\) 항은 어떤 \(\alpha\) 에 대해서도 사라져야 하고, \(B \cdot \beta\) 항은 정확히 \(\beta\) 가 되어야 한다. 따라서:

\[ \boxed{\;\sum_{i=1}^n d_i = 0, \qquad \sum_{i=1}^n d_i x_i = 1.\;} \]

이 두 식을 불편성 제약이라 부른다. 하나는 “\(Y\) 들의 가중합 중심이 0” 이라는 조건, 다른 하나는 “\(x\) 들에 대해 가중평균이 1” 이라는 정규화 조건이다.

왜 하필 1인가? 불편성 조건 \(E\sum d_i Y_i = \beta\) 를 전개하면 \(\alpha \sum d_i + \beta \sum d_i x_i = \beta\) 가 나온다. 이것이 모든 \(\alpha, \beta\) 에 대해 성립하려면 \(\alpha\) 의 계수가 0, \(\beta\) 의 계수가 1이어야 한다. 즉 1은 ’추정 대상이 \(\beta\) 의 1배’라는 뜻이다. 만약 \(2\beta\) 를 추정하고 싶다면 \(\sum d_i x_i = 2\) 가 된다.

기하학적으로 이는 \(\mathbb{R}^n\) 에서 \((d_1, \ldots, d_n)\) 벡터가 두 평면의 교선 (1차원 affine subspace)에 속해야 함을 의미한다. 평면 하나는 원점을 지나는 \(\{d : \mathbf{1}^\top d = 0\}\), 다른 하나는 원점을 지나지 않는 \(\{d : \mathbf{x}^\top d = 1\}\) 이다. 그 교선 위의 점들이 바로 “모든 가능한 기울기의 선형 불편 추정량의 계수벡터들” 이다.

4.3 절편에 대한 불편성 제약 (11.3.21)

\(\alpha\) 의 선형 불편 추정량에 대해서도 같은 계산을 하면

\[ \sum_{i=1}^n d_i = 1, \qquad \sum_{i=1}^n d_i x_i = 0 \]

가 된다. 기울기와 절편이 \(x\) 와 \(\mathbf{1}\) 에 대해 대칭적인 역할을 함을 보여준다.

5 분산 최소화 문제

5.1 선형 추정량의 분산 공식

무상관·등분산 가정에서 선형 추정량의 분산은:

\[ \mathrm{Var}\sum_{i=1}^n d_i Y_i = \sum_{i=1}^n d_i^2 \,\mathrm{Var}\,Y_i = \sigma^2 \sum_{i=1}^n d_i^2. \]

첫 등식에서 무상관이, 두 번째 등식에서 등분산이 쓰인다. \(\sigma^2\) 는 모든 선형 추정량에 공통으로 곱해지는 상수이므로, 분산을 최소화하는 문제는 다음과 동치다:

\[ \min_{d_1, \ldots, d_n} \sum_{i=1}^n d_i^2 \quad \text{subject to} \quad \sum d_i = 0, \; \sum d_i x_i = 1. \]

5.2 기하학적 재서술

위 문제는 “원점에서 \(\mathbb{R}^n\) 의 1차원 affine 교선까지의 최소 거리를 만드는 점을 찾아라” 와 정확히 같다. 왜냐하면 \(\sum d_i^2 = \|d\|_2^2\) 이고, 이는 원점과 \(d\) 사이의 유클리드 거리의 제곱이기 때문이다.

Casella & Berger(2002, Figure 11.3.2)는 \(n=3\) 일 때 이를 3차원 공간에 그린다. 두 평면이 교차해 직선이 되고, 원점에 가장 가까운 직선 위의 점이 BLUE 의 계수벡터다. 이 점은 원점에서 직선에 내린 수선의 발이며, 기하학에서 잘 알려진 방식으로 구할 수 있다.

왜 \(\|d\|^2\) 이 작아야 하는가

\(\|d\|^2\) 가 작다는 것은 각 관측에 주는 가중치가 “고르게 작다”는 뜻이다. 특정 관측 하나가 추정값을 좌우하지 않으므로, 관측 하나가 튈 때 추정량도 크게 튀지 않는다. 즉, 가중치 집중 = 분산 폭발, 가중치 분산 = 추정 안정. 이 직관이 BLUE 가 “안정적”인 이유를 설명한다.

6 핵심 유도: Lemma 11.2.7 활용

Casella & Berger 는 ANOVA 장에서 이미 증명한 Lemma 11.2.7을 재활용한다. 이 보조정리는 다음과 같은 제약부 최적화 문제를 해결한다.

Lemma 11.2.7 (축약 형태)

상수 \(v_1, \ldots, v_k\) 와 \(c_1, \ldots, c_k > 0\) 이 주어지고, \(\bar v_c = \sum c_i v_i / \sum c_i\) 라 하자. \(\sum c_i a_i = 0\) 제약 하에서

\[ \frac{\left(\sum a_i v_i\right)^2}{\sum a_i^2 / c_i} \]

를 최대화하는 \(a_i\) 는 \(a_i = K c_i (v_i - \bar v_c)\) 형태이다(\(K\) 는 임의 상수).

여기에 \(k = n\), \(v_i = x_i\), \(c_i = 1\), \(a_i = d_i\) 를 대입하면 \(\bar v_c = \bar x\) 이고, 제약 \(\sum d_i = 0\) 하에서

\[ \frac{\left(\sum d_i x_i\right)^2}{\sum d_i^2} \]

를 최대화하는 \(d_i\) 가 \(d_i = K(x_i - \bar x)\) 형태임을 얻는다.

왜 최대화 보조정리로 최소화 문제를 푸는가? 핵심 관찰: 두 번째 제약 \(\sum d_i x_i = 1\) 이 분자를 1로 고정한다. 분자가 고정되면 비율 \((\sum d_i x_i)^2 / \sum d_i^2 = 1/\sum d_i^2\) 이 되고, 이 비율의 최대화는 분모 \(\sum d_i^2\) 의 최소화와 동치이다. 제약이 분자를 고정하는 순간, 최대화 문제가 최소화 문제로 뒤집히는 것이다.

6.1 최대화 → 최소화 변환

우리의 목표는 \(\sum d_i^2\) 최소화인데 왜 위 식의 최대화가 나왔는가? 핵심 트릭은 두 번째 제약 \(\sum d_i x_i = 1\) 을 이용한 재표현이다. 이 제약이 성립하면 분자 \((\sum d_i x_i)^2 = 1\) 이고, 따라서

\[ \frac{\left(\sum d_i x_i\right)^2}{\sum d_i^2} = \frac{1}{\sum d_i^2}. \]

\(1 / \sum d_i^2\) 를 최대화하는 것은 \(\sum d_i^2\) 를 최소화하는 것과 동치다. 훌륭한 대입이다.

6.2 \(K\) 값 결정

\(d_i = K(x_i - \bar x)\) 가 두 번째 제약 \(\sum d_i x_i = 1\) 을 만족해야 한다.

\[ \sum d_i x_i = \sum K(x_i - \bar x) x_i = K \sum (x_i - \bar x)(x_i - \bar x + \bar x) = K S_{xx} + K \bar x \cdot \underbrace{\sum(x_i - \bar x)}_{=0} = K S_{xx}. \]

이 값이 1이 되려면 \(K = 1/S_{xx}\). 따라서

\[ \boxed{\;d_i = \frac{x_i - \bar x}{S_{xx}}, \quad i = 1, \ldots, n.\;} \]

첫 번째 제약 \(\sum d_i = 0\) 도 자동으로 만족된다(\(\sum (x_i - \bar x) = 0\)).

6.3 BLUE 의 식

이 \(d_i\) 들을 대입하면:

\[ b = \sum_{i=1}^n d_i Y_i = \sum_{i=1}^n \frac{x_i - \bar x}{S_{xx}} Y_i = \frac{S_{xY}}{S_{xx}}, \]

여기서 \(S_{xY} = \sum(x_i - \bar x)(Y_i - \bar Y) = \sum(x_i - \bar x) Y_i\) (두 표현이 같은 이유는 \(\sum(x_i - \bar x) = 0\) 이기 때문이다).

이 값은 §11.3.1의 최소제곱해와 완전히 일치한다. 즉, 수학적 최적화와 통계적 최적화가 같은 추정량을 낳는다.

7 BLUE 의 분산과 실험 설계

7.1 분산 공식 (11.3.20)

\(d_i = (x_i - \bar x)/S_{xx}\) 를 분산식에 대입:

\[ \mathrm{Var}\,b = \sigma^2 \sum_{i=1}^n d_i^2 = \sigma^2 \sum_{i=1}^n \frac{(x_i - \bar x)^2}{S_{xx}^2} = \frac{\sigma^2}{S_{xx}^2} \sum (x_i - \bar x)^2 = \frac{\sigma^2}{S_{xx}}. \]

즉:

\[ \boxed{\;\mathrm{Var}\,b = \frac{\sigma^2}{S_{xx}} = \frac{\sigma^2}{\sum(x_i - \bar x)^2}.\;} \]

7.2 실험 설계 함의

분산이 \(S_{xx}\) 에 반비례한다는 사실은 실험자가 \(x_i\) 를 선택할 수 있다면 즉각적인 전략을 제공한다. \(S_{xx} = \sum(x_i - \bar x)^2\) 를 키울수록 추정이 정밀해진다. \(x\) 값이 넓게 퍼져 있을수록 기울기 추정이 안정적이다.

극단적 최적 설계: \(x_i\) 들을 반드시 구간 \([e, f]\) 내에서 선택해야 한다면, \(n\) 이 짝수일 때 \(S_{xx}\) 를 가장 크게 만드는 방법은 절반을 \(e\) 에, 절반을 \(f\) 에 놓는 것이다(이점 설계, two-point design). 모든 관측을 양 끝점에 모아 넣는다.

이론적 최적 ≠ 실무적 최적

이점 설계는 이론상 최소 분산을 주지만, 실제로는 거의 쓰지 않는다. 왜 그럴까?

이점 설계는 \(E(Y|x)\) 를 단 두 값에서만 관측한다. 만약 진짜 회귀함수가 비선형 이라면(예: 곡선), 두 점으로는 선형성 가정 자체가 틀렸다는 사실을 검출할 수 없다. 두 점은 언제나 한 직선으로 완벽히 이어지기 때문이다.

이는 통계학에서 반복되는 교훈이다: 모형이 참이라는 강한 믿음 하의 최적 설계와 모형 진단이 가능한 설계는 다르다. 실무에서는 \(x\) 를 넓게 퍼뜨리되, 중간점에도 관측을 배치하여 선형성을 검증할 수 있게 한다.

7.3 절편의 BLUE

절편 \(\alpha\) 의 BLUE 는 유사한 유도로(연습문제 11.27) 다음과 같이 얻어진다:

\[ a = \bar Y - b \bar x, \]

이것도 역시 최소제곱해와 일치한다. 분산은 (연습문제 결과):

\[ \mathrm{Var}\,a = \sigma^2\left(\frac{1}{n} + \frac{\bar x^2}{S_{xx}}\right). \]

\(\bar x = 0\) 이면 \(\mathrm{Var}\,a = \sigma^2/n\) 으로 단순해진다. 이 때문에 \(x\) 를 중심화(centering)하는 것이 수치적·해석적으로 유리하다.

7.4 \(a\) 와 \(b\) 의 공분산

\(a = \bar Y - b \bar x\) 에서

\[ \mathrm{Cov}(a, b) = \mathrm{Cov}(\bar Y, b) - \bar x \,\mathrm{Var}\,b. \]

\(\mathrm{Cov}(\bar Y, b) = 0\) 임을 보일 수 있고(교재 연습), 따라서

\[ \mathrm{Cov}(a, b) = -\frac{\sigma^2 \bar x}{S_{xx}}. \]

\(\bar x > 0\) 이면 \(a\) 와 \(b\) 는 음의 상관이다. 직관적으로: 기울기를 조금 크게 추정하면, 회귀직선이 데이터 중심을 지나기 위해 절편은 작아져야 한다. 이 상관은 \(\bar x = 0\) 일 때 사라진다(중심화의 또 다른 이점).

8 기하학적 해석 (Figure 11.3.2)

Casella & Berger 는 \(n=3\) 일 때의 기하학적 그림을 제시한다. \(\mathbb{R}^3\) 공간에 좌표축 \(d_1, d_2, d_3\) 를 놓고, 두 개의 평면:

\(P_1 : \sum d_i = 0\) (원점 통과)
\(P_2 : \sum d_i x_i = 1\) (원점 미통과)

이 있다. 두 평면의 교집합은 1차원 직선이며, 이 직선 위의 모든 점이 “가능한 선형 불편 추정량의 계수벡터” 다.

\(\sum d_i^2 = \|d\|^2\) 은 원점과 점 \(d\) 사이의 거리 제곱이므로, 분산 최소화는 “이 직선 위에서 원점에 가장 가까운 점”을 찾는 문제다. 기하학적으로 이 점은 원점에서 직선에 내린 수선의 발이다.

Casella & Berger 가 그린 그림은 원점 중심의 구(sphere)를 점점 키워가며 처음 직선과 닿는 순간의 접점을 BLUE 로 제시한다. 그 점이 바로 \(d_i = (x_i - \bar x)/S_{xx}\) 이다.

왜 수선의 발이 최소 거리인가? 피타고라스 정리에 의해, 직선 위의 임의 점 \(\mathbf{p}\) 에 대해 \(\|\mathbf{d}\|^2 = \|\mathbf{d}_\perp\|^2 + \|\mathbf{p} - \mathbf{d}_\perp\|^2 \geq \|\mathbf{d}_\perp\|^2\) 이다. 등호는 \(\mathbf{p} = \mathbf{d}_\perp\) (수선의 발)일 때만 성립한다. 즉, 수직이 아닌 어떤 경로도 수선보다 길다.

두 가지 기하학 — 혼동 주의

§11.3.1 포스트에서 본 기하학은 \(Y\)-공간 \(\mathbb{R}^n\) 에서 “관측벡터 \(\mathbf{y}\) 를 열공간 \(\mathrm{col}(\mathbf{X})\) 에 사영”하는 그림이었다.

§11.3.2의 기하학은 다르다. 이것은 \(d\)-공간 \(\mathbb{R}^n\) 에서 “계수벡터 \(d\) 가 두 affine 제약의 교선 위에서 원점에 가장 가까운 점”을 찾는 그림이다.

두 그림 모두 \(\mathbb{R}^n\) 이지만, 사는 공간이 다르다. \(Y\)-공간은 “관측값의 공간”, \(d\)-공간은 “추정량의 계수 공간”이다. 두 관점은 쌍대(dual) 관계에 있고, 같은 \(\hat\beta\) 를 다른 각도에서 정당화한다.

9 Gauss-Markov 정리로의 일반화

§11.3.2의 결과는 단순 선형 회귀에 국한된 것처럼 보이지만, 일반 선형 모형 전체로 확장된다. 이 일반화가 바로 Gauss-Markov 정리이다.

Gauss-Markov 정리 (일반형)

선형 모형 \(\mathbf{Y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon\) 에서 \(E\boldsymbol\epsilon = 0\), \(\mathrm{Cov}(\boldsymbol\epsilon) = \sigma^2 \mathbf{I}\) 이면, 최소제곱 추정량 \(\hat{\boldsymbol\beta} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}\) 는 \(\mathbf{c}^\top \boldsymbol\beta\) 의 모든 선형 불편 추정량 중 최소 분산을 갖는다.

증명은 §11.3.2의 논리를 벡터 형태로 일반화한다. 기울기 하나가 아닌 계수 벡터 전체, 그리고 그들의 선형 결합 \(\mathbf{c}^\top \boldsymbol\beta\) 에 대해 같은 최소화 원리를 적용한다.
표준 레퍼런스: Christensen(1996), Lehmann & Casella(1998, Section 3.4), Harville(1981).
블로그 내 99-1-blue.qmd에서 일반 GM 정리의 증명과 가정 위반 시 대안 (GLS, WLS, 강건 추론)을 상세히 다룬다. §11.3.2의 단순 선형 사례는 그 일반형의 “가장 단순한 비자명 예” 이다.

10 BLUE 의 한계: 분산-편향 트레이드오프

§11.3.2의 결론은 선형 불편 추정량 안에서의 최적성이다. 이 제약을 풀면 “BLUE 보다 나은” 추정량이 존재할 수 있다. 핵심 메커니즘은 평균 제곱 오차(MSE)의 분해이다.

\[ \text{MSE}(\hat\beta) = \mathrm{Var}(\hat\beta) + \left[\text{Bias}(\hat\beta)\right]^2 \]

BLUE 는 \(\text{Bias} = 0\) 이므로 \(\text{MSE} = \mathrm{Var}\) 이다. 하지만 편향을 약간 허용하면 분산을 크게 줄일 수 있고, 결과적으로 MSE 가 더 낮아질 수 있다.

대표적인 예가 Ridge 회귀이다.

\[ \hat{\boldsymbol\beta}_{\text{Ridge}} = (\mathbf{X}^\top\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^\top\mathbf{Y} \]

\(\lambda > 0\) 은 \((\mathbf{X}^\top\mathbf{X})\) 에 양수를 더해 역행렬을 안정시키지만, 그 대가로 추정량에 편향을 도입한다.

비교 기준	OLS (BLUE)	Ridge
편향	0	\(\neq 0\)
분산	더 큼	더 작음
MSE (저차원)	더 작거나 비슷	더 크거나 비슷
MSE (고차원)	더 클 수 있음	더 작을 수 있음

이 관찰은 BLUE 를 상대화하는 데 중요하다. Gauss-Markov 정리는 “불편성 + 선형성”이라는 게임 규칙 안에서의 승자를 선언하는 것이다. 규칙을 바꾸면(편향 허용, 비선형 허용) 다른 추정량이 MSE 관점에서 우세할 수 있다. 특히 \(p\) (설명변수 수)가 \(n\) 에 비해 큰 고차원 상황에서 Ridge · LASSO 같은 정규화 추정량이 실무적으로 더 나은 성능을 보이는 이유가 여기에 있다.

정규화 추정량과 §11.3.2의 관계

§11.3.2가 제시하는 \(\|d\|^2\) 최소화 기하학을 Ridge 관점에서 다시 보면 흥미롭다. Ridge 는 “불편성 제약의 교선 위”가 아니라, 그 근처의 더 작은 \(\|d\|^2\) 를 갖는 점을 허용한다. 제약을 약간 벗어남으로써 원점에 더 가까워지고(= 분산 감소), 그 대가로 불편성이 깨진다(= 편향 도입). 이 trade-off 를 제어하는 것이 \(\lambda\) 이다.

11 분포 가정 없이 얻는 것과 못 얻는 것

§11.3.2의 약한 가정이 주는 한계를 명확히 할 필요가 있다. 얻는 것과 못 얻는 것을 구분하자.

얻는 것 (1·2차 모멘트만으로 충분):

점추정량 \(\hat\alpha, \hat\beta\) 와 그 불편성 증명
점추정량의 분산 공식과 상대적 최적성(BLUE)
분산 추정량 \(\hat\sigma^2\) (교재 Lemma 11.3.2에서 \(n-2\) 로 나눠 불편성 확보)
실험 설계 지침 (\(S_{xx}\) 최대화 전략)

얻지 못하는 것 (분포 가정이 추가로 필요):

\(\hat\beta\) 의 분포 — 어떤 모양인지 알 수 없음
신뢰구간 — 분위수를 계산하려면 분포가 필요
가설 검정 — \(p\)-value 는 분포에서 나옴
최대우도 해석 — 정규성이 있어야 MLE = OLS
UMVUE 최적성 — 정규성 + 충분통계량 + Lehmann-Scheffé 필요

이것이 Casella & Berger 가 §11.3.3(“Models and Distribution Assumptions”)에서 정규성 가정을 추가 도입하는 이유다. 거기서 \(t\)-분포 기반 신뢰구간·검정이 비로소 유도된다. §11.3.2는 그 상위 구조가 올라타기 전의 뼈대이다.

“왜 하필 제곱인가”에 대한 마침내의 답

§11.3.1에서 우리는 L2가 미분가능성·볼록성·기하학적 편의 때문에 쓰인다고 했다. 그것은 “수학자의 답”이다.

§11.3.2는 “통계학자의 답”을 준다: 무상관·등분산이라는 자연스러운 가정 하에서, L2 손실의 최소화 해가 선형 불편 추정량 중 최소 분산을 달성한다. 즉, 제곱은 단지 편의가 아니라 이 가정 아래에서 최적이다. 가정이 달라지면(이분산·상관) L2는 더 이상 최적이 아니고, GLS 나 WLS 가 그 자리를 차지한다. 손실함수의 선택은 데이터 생성 과정의 가정에 종속된다는 것이 핵심 교훈이다.

12 응용 분야

분야	활용	구체적 예시
생물학적 검정	용량-반응 곡선 기울기 추정	약물 농도 \(x\) 와 효과 \(Y\) 의 선형 구간에서 기울기
물리 실험	물리 법칙 계수 추정	Hooke 법칙 \(F = kx\) 의 \(k\) 를 BLUE 로 추정
계량경제	수요 곡선 탄력성	가격과 수량의 로그 선형 관계 기울기
공학 보정	센서 캘리브레이션	참값 \(x\) 와 측정값 \(Y\) 의 선형 관계
시뮬레이션 분산 감소	제어 변수(control variates)	상관된 보조 변수를 통한 분산 감소도 같은 BLUE 원리

이들 분야에서 공통점은 분포를 명확히 알 수 없는 잡음이 있고, 오직 “평균이 \(x\) 에 선형”과 “잡음의 분산이 일정”만 가정할 수 있는 상황이라는 점이다. §11.3.2는 이런 경우의 최적 추정 원리를 제공한다.

13 수치 예시

13.1 손 계산

\(n = 4\), \(x = (0, 1, 2, 3)\), \(Y = (1, 3, 2, 5)\) 로 가정하자.

Step 1: 기본 수량 계산

\(\bar x = 1.5\), \(\bar Y = 2.75\)
\(x_i - \bar x = (-1.5, -0.5, 0.5, 1.5)\)
\(S_{xx} = \sum (x_i - \bar x)^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5\)

Step 2: BLUE 계수 \(d_i\)

\[ d_i = \frac{x_i - \bar x}{S_{xx}} = \left(-\tfrac{1.5}{5}, -\tfrac{0.5}{5}, \tfrac{0.5}{5}, \tfrac{1.5}{5}\right) = (-0.3, -0.1, 0.1, 0.3). \]

불편성 제약 확인:

\(\sum d_i = -0.3 - 0.1 + 0.1 + 0.3 = 0\) ✓
\(\sum d_i x_i = 0 + (-0.1) + 0.2 + 0.9 = 1.0\) ✓

Step 3: 추정값

\[ b = \sum d_i Y_i = -0.3 \cdot 1 + (-0.1) \cdot 3 + 0.1 \cdot 2 + 0.3 \cdot 5 = -0.3 - 0.3 + 0.2 + 1.5 = 1.1. \]

\(a = \bar Y - b\bar x = 2.75 - 1.1 \cdot 1.5 = 1.1\).

Step 4: 분산

\(\sigma^2\) 를 알 수는 없지만, 분산 공식은 \(\mathrm{Var}\,b = \sigma^2/S_{xx} = \sigma^2/5\). 잔차 기반 추정치 \(\hat\sigma^2\) 을 대입하면 표준오차가 나온다.

14 코드 예시

14.1 Step 1: 순수 Python 구현 — 정의에 충실하게

# 순수 Python 으로 BLUE 를 정의 그대로 계산 — 공식 확인용
x = [0, 1, 2, 3]
y = [1, 3, 2, 5]
n = len(x)

x_bar = sum(x) / n
y_bar = sum(y) / n

# S_xx
S_xx = sum((xi - x_bar) ** 2 for xi in x)

# BLUE 계수 d_i = (x_i - x_bar) / S_xx
d = [(xi - x_bar) / S_xx for xi in x]

# 불편성 제약 검증 — 유한 정밀도 오차 감안
assert abs(sum(d)) < 1e-12, "sum(d) != 0"
assert abs(sum(di * xi for di, xi in zip(d, x)) - 1) < 1e-12, "sum(d*x) != 1"

# BLUE 추정값
b = sum(di * yi for di, yi in zip(d, y))
a = y_bar - b * x_bar

print(f"d  = {[round(di, 4) for di in d]}")
print(f"a  = {a:.4f}, b = {b:.4f}")
print(f"Var(b)/sigma^2 = 1/S_xx = {1 / S_xx:.4f}")

14.2 Step 2: numpy — 행렬 형태와 일치 확인

import numpy as np

x = np.array([0, 1, 2, 3], dtype=float)
y = np.array([1, 3, 2, 5], dtype=float)

# 설계행렬 — 절편 포함
X = np.column_stack([np.ones_like(x), x])

# 정규방정식 해 (최소제곱 = BLUE 의 계수)
beta_hat = np.linalg.solve(X.T @ X, X.T @ y)
print(f"a, b (normal equations) = {beta_hat}")

# BLUE 계수 벡터 방식으로도 같은 b 를 얻는가
d = (x - x.mean()) / ((x - x.mean()) ** 2).sum()
b_via_d = d @ y
print(f"b (via d_i formula)    = {b_via_d:.6f}")

14.3 Step 3: 시뮬레이션 — BLUE 의 불편성과 최소 분산

import numpy as np
rng = np.random.default_rng(42)

# 진짜 모수
alpha_true, beta_true, sigma = 1.0, 2.0, 1.0
x = np.linspace(0, 10, 20)
S_xx = ((x - x.mean()) ** 2).sum()

n_sim = 20_000

# 추정량 1: BLUE (= OLS)
b_blue = np.empty(n_sim)

# 추정량 2: 다른 선형 불편 추정량 — 양 끝점 기반 기울기
# b_endpt = (Y_last - Y_first) / (x_last - x_first)
# 이것도 sum d_i = 0, sum d_i x_i = 1 을 만족하는 선형 불편 추정량
b_endpt = np.empty(n_sim)

for k in range(n_sim):
    # 오차를 정규분포가 아닌 Laplace 로 — 정규성 없이도 BLUE 는 성립
    eps = rng.laplace(0, sigma / np.sqrt(2), size=x.size)
    y = alpha_true + beta_true * x + eps

    # BLUE
    d = (x - x.mean()) / S_xx
    b_blue[k] = d @ y

    # 양 끝점 추정량
    b_endpt[k] = (y[-1] - y[0]) / (x[-1] - x[0])

print(f"BLUE:     mean = {b_blue.mean():.4f}, var = {b_blue.var():.4f}")
print(f"Endpoint: mean = {b_endpt.mean():.4f}, var = {b_endpt.var():.4f}")
print(f"이론값 Var(BLUE) = sigma^2 / S_xx = {sigma**2 / S_xx:.4f}")
# 두 추정량 모두 불편(평균이 2에 가까움)
# 그러나 BLUE 의 분산이 훨씬 작다 — Laplace 오차에서도 성립

14.4 Step 4: statsmodels — 실무 활용

import numpy as np
import statsmodels.api as sm

x = np.array([0, 1, 2, 3], dtype=float)
y = np.array([1, 3, 2, 5], dtype=float)

X = sm.add_constant(x)
model = sm.OLS(y, X).fit()
print(model.summary())

# Var(b) = sigma^2 / S_xx 를 출력의 표준오차와 비교
S_xx = ((x - x.mean()) ** 2).sum()
sigma2_hat = model.mse_resid  # = RSS / (n - 2)
print(f"이론 Var(b) = {sigma2_hat / S_xx:.4f}")
print(f"summary SE^2 = {model.bse[1] ** 2:.4f}")

14.5 결과 해석

Step 1·2: 손 계산·정규방정식·\(d_i\) 공식이 정확히 같은 해를 준다. §11.3.1과 §11.3.2의 수학적 동치가 수치로 확인된다.
Step 3: 오차가 정규가 아닌 Laplace 분포일 때도 BLUE 는 불편이고, 단순한 “두 점 기반” 선형 불편 추정량보다 분산이 훨씬 작다. 분포 가정 없이 최적성이 유지됨을 경험적으로 확인한다.
Step 4: statsmodels 의 표준오차가 이론 공식 \(\sigma^2/S_{xx}\)(with \(\hat\sigma^2\) 대입)과 일치한다.

15 가정 위반 시: 무엇이 깨지고, 어떻게 대응하는가

§11.3.2의 세 가정(평균의 선형성, 등분산, 무상관)이 위반되면 OLS 는 BLUE 지위를 잃는다. 어떤 가정이 깨지는지에 따라 결과와 대안이 다르다.

위반 유형	현상	결과	대안 추정량
이분산 ( \(\mathrm{Var}(\epsilon_i) \neq \sigma^2\) )	소득이 높을수록 소비 분산도 큼	불편이지만 최소 분산 아님; 표준오차 과소/과대 추정	WLS, GLS, HC 표준오차
자기상관 ( \(\mathrm{Cov}(\epsilon_t, \epsilon_{t-k}) \neq 0\) )	시계열에서 충격이 지속	표준오차 과소 추정, \(t\) -검정 왜곡	GLS, HAC 표준오차
내생성 ( \(E[\epsilon \mid X] \neq 0\) )	누락변수, 측정오차, 역인과	OLS 불편성 자체가 무너짐; 추정량이 편향	IV 추정, 2SLS
다중공선성 ( \(\mathrm{rank}(\mathbf{X}) < p\) )	두 변수가 거의 같은 정보	OLS 분산 폭발; 추정 불안정	Ridge, LASSO, PCA 회귀

위반의 심각도 — 불편성 vs 효율성

가정 위반의 결과는 크게 두 유형으로 나뉜다.

이분산·자기상관: 불편성은 유지되지만 효율성이 떨어진다. 표준오차만 강건하게 교정하면(HC, HAC) 추론이 가능하다. 아니면 GLS/WLS 로 BLUE 를 복원할 수 있다.
내생성: 불편성 자체가 무너진다. 계수 해석이 근본적으로 틀리므로 도구변수(IV) 같은 전혀 다른 전략이 필요하다.

§11.3.2의 관점에서 보면, 이분산·자기상관은 “\(\mathrm{Var}\sum d_i Y_i = \sigma^2 \sum d_i^2\)” 등식이 성립하지 않게 만드는 위반이다. 등분산·무상관이 깨지면 각 \(d_i^2\) 에 곱해지는 분산이 달라지므로, \(\sum d_i^2\) 를 최소화하는 것이 더 이상 분산 최소화와 동치가 아니다. GLS 는 이를 교정하여 변형된 최소화 문제의 최적해를 구한다.

16 핵심 정리

§11.3.2의 통계적 가정은 \(E Y_i = \alpha + \beta x_i\), \(\mathrm{Var}\,Y_i = \sigma^2\), \(\mathrm{Cov}(Y_i, Y_j) = 0\) 세 가지. 분포는 지정되지 않는다.
선형 추정량의 불편성 제약은 \(\sum d_i = 0\) 과 \(\sum d_i x_i = 1\). 기하학적으로는 \(\mathbb{R}^n\) 의 두 affine 평면의 교선.
분산 최소화는 \(\sigma^2 \sum d_i^2\) 를 최소화하는 문제이며, 이는 \(\|d\|^2\) 최소화와 같다.
최소화 해는 \(d_i = (x_i - \bar x)/S_{xx}\) 로, 대입하면 \(b = S_{xY}/S_{xx}\) 가 되어 최소제곱해와 일치한다.
분산 공식 \(\mathrm{Var}\,b = \sigma^2 / S_{xx}\) 는 실험 설계 지침을 준다 — \(x\) 를 넓게 퍼뜨려라.
분포 가정이 없으므로 신뢰구간·검정은 얻지 못한다. 이는 §11.3.3의 정규성 가정으로 보완된다.
일반화: 이 결과는 Gauss-Markov 정리의 단순 선형 사례이며, 일반 선형 모형으로 확장된다.

§11.3.1 → §11.3.2 의 메타적 교훈

같은 추정량 \(\hat\beta\) 가 두 가지 독립된 정당화를 갖는다는 사실은 우연이 아니다. 이것이 최소제곱법이 통계학 전 분야에서 중심적 지위를 차지하는 이유다. 수학적 편의 (미분가능성·볼록성)와 통계적 최적성(BLUE)이 같은 점에서 만난다. 이 수렴 현상은 베이지안 관점의 정규-정규 결합, 정보이론의 엔트로피 관점 등 다른 경로에서도 반복된다. 한 대상이 여러 관점에서 최적이면, 그것은 도구가 아니라 구조적 발견이다.

17 §11.3 전체에서의 위치

§11.3.1 Mathematical Solution (수학적 최소화)       ← 133-slr-least-squares
    ↓ 통계 모형 도입
§11.3.2 Statistical Solution (BLUE)                  ← 이 포스트 (134)
    ↓ 분포 가정 추가
§11.3.3 Models and Distribution Assumptions (정규)   ← 다음 포스트
    ↓ 구체적 추론 절차
§11.3.4 Inference (t-test, CI)
§11.3.5 Correlation and Regression (이변량 정규)

이 포스트 이후 다음 단계는 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) 가정을 추가해 \(\hat\beta\) 의 정규분포, \(\hat\sigma^2\) 의 카이제곱 분포, 그리고 \(t\) 통계량을 유도하는 것이다. 그 지점에서 점추정이 완전한 추론 절차로 확장된다.

18 참고 문헌

Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.), §11.3.2. Duxbury.
Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.), Section 3.4. Springer.
Christensen, R. (1996). Plane Answers to Complex Questions. Springer.
Harville, D. A. (1981). Unbiased and minimum-variance unbiased estimation of estimable functions for fixed linear models with arbitrary covariance structure. The Annals of Statistics, 9(3), 633–637.

19 관련 주제

선행 지식

Simple Linear Regression: Overview — §11.3 로드맵
SLR: Least Squares — A Mathematical Solution — §11.3.1, 본 포스트의 짝
기대값과 분산
BLUE 와 Gauss-Markov 정리 (일반) — 일반 선형 모형 버전
점추정량의 평가 기준 — 불편성·분산·MSE
최량 불편 추정량 (UMVUE) — 분포 가정 하의 더 강한 최적성

후속 주제

관련 개념

Maximum Likelihood Estimators — 정규성 하에서 MLE = BLUE
ANOVA F-test — 회귀 ANOVA 로의 확장