Simple Linear Regression: Best Linear Unbiased Estimators — A Statistical Solution

1·2차 모멘트만으로 얻는 최적성 — Casella §11.3.2

단순 선형 회귀의 최소제곱 추정량을 확률분포 가정 없이, 오직 1·2차 모멘트 가정 (평균의 선형성과 등분산·무상관)만으로 “선형 불편 추정량 중 최소 분산”임을 증명한다. 선형 추정량의 정의와 불편성 제약, 분산 최소화 문제, Lemma 11.2.7 기반 유도, 기하학적 해석(Figure 11.3.2), 절편의 BLUE, 공분산, 실험설계 함의, 일반 Gauss-Markov 정리와의 관계까지 Casella & Berger §11.3.2를 완결적으로 풀어낸다.

Statistics
Regression
저자

Kwangmin Kim

공개

2026년 04월 06일

1 개요

이전 포스트에서 최소제곱 해 \(\hat\alpha, \hat\beta\)확률 가정 없는 순수 최적화로 유도했다(Casella & Berger, 2002, §11.3.1). 그 결과는 “주어진 점들에 대해 제곱 잔차합을 최소화하는 직선” 이상의 의미를 갖지 않았다. 표준오차도, 신뢰구간도, 검정도 말할 수 없었다. “왜 하필 제곱인가?”에 대한 답도 미분 가능성·볼록성·유클리드 기하 같은 수학적 편의뿐이었다.

이 포스트는 그 공백을 채운다. 아주 약한 통계적 가정(확률분포는 지정하지 않고, 오직 평균과 분산·공분산에 대한 가정)만 추가하면, 바로 그 최소제곱 추정량이 “선형 불편 추정량 중 분산이 가장 작은 것”으로 승격된다. 즉, BLUE(Best Linear Unbiased Estimator) 이다.

이 결과의 놀라운 점은 세 가지다.

  1. 정규성이 필요 없다. \(Y_i\) 가 어떤 분포든, 평균과 분산 구조만 맞으면 된다.
  2. 단 두 개의 모멘트 가정만으로 최적성이 나온다. 3차·4차 모멘트, 꼬리 행동, 독립성(무상관보다 강함)은 전혀 쓰이지 않는다.
  3. 최소제곱은 우연이 아니다. 수학적 편의로 고른 손실함수가, 통계적 모형을 얹는 순간 최적 추정량으로 재해석된다.

Casella & Berger §11.3.2의 핵심 논증을 한 문장으로 요약하면 다음과 같다. “불편성 제약 \(\sum d_i=0, \sum d_i x_i = 1\) 하에서 \(\sum d_i^2\) 을 최소화하는 선형 추정량의 계수는 \(d_i = (x_i - \bar x)/S_{xx}\) 이고, 이것은 정확히 최소제곱해의 계수와 일치한다.”

§11.3.1 vs §11.3.2 — 두 가지 “해”의 관계
항목 §11.3.1 Mathematical Solution §11.3.2 Statistical Solution
데이터 실수 쌍 \((x_i, y_i)\) \(x_i\) 고정, \(Y_i\) 확률변수
가정 없음 \(E Y_i = \alpha+\beta x_i\), \(\mathrm{Var}\,Y_i = \sigma^2\), 무상관
목표 제곱합 최소화 선형 불편 추정량 중 최소 분산
\(\hat\beta = S_{xy}/S_{xx}\) \(b = \sum d_i Y_i\), \(d_i = (x_i-\bar x)/S_{xx}\)
결론 두 해가 완전히 같다 수학적 편의가 통계적 최적성으로 번역됨

2 직관: “좋은 추정량”이란 — 과녁 비유

추정량의 품질을 이해하는 가장 직관적인 비유는 활쏘기이다. 참값(모수 \(\beta\) )이 과녁의 정중앙이라고 하자. 동일한 데이터 생성 과정을 반복하면 매번 다른 추정값 \(\hat{\beta}\) 이 나온다.

              편향 없음 (Unbiased)        편향 있음 (Biased)
              ┌─────────────────┐        ┌─────────────────┐
분산 작음     │    · · ·        │        │                 │
(Best)        │    ·(*)·        │        │      · · ·      │
              │    · · ·        │        │      ·(*)·      │
              │                 │        │      · ·(o)     │
              └─────────────────┘        └─────────────────┘
              이상적: BLUE                편향 추정량 (작은 분산)

              ┌─────────────────┐        ┌─────────────────┐
분산 큼       │  ·           ·  │        │·             ·  │
(Not Best)    │      ·  (*)     │        │    ·    (o)     │
              │  ·      ·       │        │ ·      ·    ·   │
              │           ·     │        │                 │
              └─────────────────┘        └─────────────────┘
              불편이지만 비효율적          최악: 편향 + 큰 분산

              (*) = 참값(과녁 중앙)       (o) = 추정량의 평균

이 그림이 전달하는 핵심은 세 가지다.

  • 불편성(Unbiased): 화살들의 평균 위치가 정중앙이다. 과대/과소 추정 경향이 없다.
  • 최소 분산(Best): 화살들이 밀집해 있다. 추정이 안정적이다.
  • BLUE: 불편이면서 가장 밀집한 추정량이다. 왼쪽 위 사분면에 해당한다.

실제 데이터는 한 번만 관측한다. 추정량의 분산이 크면 운에 따라 참값과 멀리 떨어진 추정값이 나올 확률이 높다. 같은 불편 추정량이라면 분산이 작은 쪽이 더 신뢰할 수 있는 추정량이다. §11.3.2는 바로 이 “불편이면서 가장 밀집한” 추정량을 수학적으로 찾는 과정이다.


3 통계 모형: 1·2차 모멘트만

3.1 모형의 정식화 (11.3.11–11.3.12)

설명변수 \(x_1, \ldots, x_n\)알려진 고정 상수로 둔다. 실험자가 실험실에서 선택·설정한 값이라고 생각하면 된다. 반응변수 \(Y_1, \ldots, Y_n\)무상관 확률변수이며 다음 두 가지만 가정한다.

\[ E Y_i = \alpha + \beta x_i, \qquad \mathrm{Var}\, Y_i = \sigma^2, \qquad i = 1, \ldots, n. \]

\(\sigma^2\) 에 아래첨자 \(i\) 가 없다는 점에 주목한다. 모든 \(Y_i\)같은 분산을 갖는다고 가정한다(등분산). 그리고 \(\mathrm{Cov}(Y_i, Y_j) = 0\) for \(i \ne j\) — 독립은 아니고 무상관이다.

\(Y_i\)확률분포는 지정하지 않는다. 정규, 감마, 혼합분포, 꼬리가 두꺼운 분포, 심지어 분포 자체가 특정되지 않아도 아래 유도는 성립한다.

3.2 오차항 형태 (11.3.13–11.3.14)

같은 모형을 오차항으로 다시 쓰면:

\[ Y_i = \alpha + \beta x_i + \epsilon_i, \qquad E\epsilon_i = 0, \quad \mathrm{Var}\,\epsilon_i = \sigma^2, \quad \mathrm{Cov}(\epsilon_i,\epsilon_j) = 0. \]

오차 \(\epsilon_i\) 는 “무엇이든 될 수 있는” 확률적 변동이다. 측정 오차일 수도, 모형이 포착 못한 누락 변수일 수도, 본질적 랜덤니스일 수도 있다. 유도는 이 해석에 의존하지 않는다.

3.3 왜 이렇게 약한 가정으로도 충분한가

이 질문이 §11.3.2의 심장이다. 뒤에서 보일 분산 최소화 문제는 \(\mathrm{Var}\sum d_i Y_i = \sigma^2 \sum d_i^2\) 이라는 등식에만 의존한다. 이 등식을 성립시키는 데 필요한 것은 등분산과 무상관 두 가지뿐이다. 분포의 모양은 이 등식과 무관하다.

직관: 최적성의 “비용”

분포 가정이 강해질수록 얻는 것도 많아진다. 정규성을 가정하면 UMVUE(Uniformly Minimum Variance Unbiased Estimator)까지 확장되고(Ch.7), MLE가 \(\hat\beta\) 와 일치하며, \(t\) · \(F\) 검정을 엄밀하게 유도할 수 있다. 하지만 §11.3.2는 최소의 가정으로 최대의 결론을 얻는 우아함을 보여준다. “분포를 모른다” 는 제약 하에서 얻을 수 있는 최선의 추정량이 바로 최소제곱이다.


4 선형 추정량과 불편성 제약

4.1 선형 추정량의 정의 (11.3.15)

기울기 \(\beta\) 의 추정량을 다음 형태로 제한한다:

\[ T = \sum_{i=1}^n d_i Y_i, \]

여기서 \(d_1, \ldots, d_n\)\(x_i\) 만의 함수인 알려진 고정 상수이다. 이 제약이 왜 자연스러운가? 세 가지 이유가 있다.

  • 계산 가능성: \(Y_i\) 들의 가중합만 계산하면 끝난다. 비선형 변환이나 반복 알고리즘이 불필요하다.
  • 해석 가능성: 각 \(d_i\)\(i\) 번째 관측이 추정에 얼마나 기여하는지 직접 보여준다.
  • 이론적 접근성: 선형 추정량의 평균과 분산은 \(Y_i\) 의 1·2차 모멘트만으로 완전히 결정된다.

이 제약은 손실이기도 하다. 비선형 추정량(중위수 기반 LAD, M-추정 등)을 쓰면 이상치에 더 강건해질 수 있다. 하지만 그 대가로 닫힌 해와 분산 공식의 단순함을 잃는다.

4.2 불편성 제약 (11.3.16)

\(T\)\(\beta\)불편 추정량이 되려면 모든 \(\alpha, \beta\) 에 대해 \(E T = \beta\) 여야 한다. 계산하면:

\[ \begin{aligned} E\sum_{i=1}^n d_i Y_i &= \sum_{i=1}^n d_i \,E Y_i = \sum_{i=1}^n d_i (\alpha + \beta x_i) \\ &= \alpha \underbrace{\sum_{i=1}^n d_i}_{=: A} + \beta \underbrace{\sum_{i=1}^n d_i x_i}_{=: B}. \end{aligned} \]

이 값이 모든 \(\alpha, \beta\) 에 대해 \(\beta\) 와 같으려면 \(A \cdot \alpha\) 항은 어떤 \(\alpha\) 에 대해서도 사라져야 하고, \(B \cdot \beta\) 항은 정확히 \(\beta\) 가 되어야 한다. 따라서:

\[ \boxed{\;\sum_{i=1}^n d_i = 0, \qquad \sum_{i=1}^n d_i x_i = 1.\;} \]

이 두 식을 불편성 제약이라 부른다. 하나는 “\(Y\) 들의 가중합 중심이 0” 이라는 조건, 다른 하나는 “\(x\) 들에 대해 가중평균이 1” 이라는 정규화 조건이다.

왜 하필 1인가? 불편성 조건 \(E\sum d_i Y_i = \beta\) 를 전개하면 \(\alpha \sum d_i + \beta \sum d_i x_i = \beta\) 가 나온다. 이것이 모든 \(\alpha, \beta\) 에 대해 성립하려면 \(\alpha\) 의 계수가 0, \(\beta\) 의 계수가 1이어야 한다. 즉 1은 ’추정 대상이 \(\beta\) 의 1배’라는 뜻이다. 만약 \(2\beta\) 를 추정하고 싶다면 \(\sum d_i x_i = 2\) 가 된다.

기하학적으로 이는 \(\mathbb{R}^n\) 에서 \((d_1, \ldots, d_n)\) 벡터가 두 평면의 교선 (1차원 affine subspace)에 속해야 함을 의미한다. 평면 하나는 원점을 지나는 \(\{d : \mathbf{1}^\top d = 0\}\), 다른 하나는 원점을 지나지 않는 \(\{d : \mathbf{x}^\top d = 1\}\) 이다. 그 교선 위의 점들이 바로 “모든 가능한 기울기의 선형 불편 추정량의 계수벡터들” 이다.

4.3 절편에 대한 불편성 제약 (11.3.21)

\(\alpha\) 의 선형 불편 추정량에 대해서도 같은 계산을 하면

\[ \sum_{i=1}^n d_i = 1, \qquad \sum_{i=1}^n d_i x_i = 0 \]

가 된다. 기울기와 절편이 \(x\)\(\mathbf{1}\) 에 대해 대칭적인 역할을 함을 보여준다.


5 분산 최소화 문제

5.1 선형 추정량의 분산 공식

무상관·등분산 가정에서 선형 추정량의 분산은:

\[ \mathrm{Var}\sum_{i=1}^n d_i Y_i = \sum_{i=1}^n d_i^2 \,\mathrm{Var}\,Y_i = \sigma^2 \sum_{i=1}^n d_i^2. \]

첫 등식에서 무상관이, 두 번째 등식에서 등분산이 쓰인다. \(\sigma^2\) 는 모든 선형 추정량에 공통으로 곱해지는 상수이므로, 분산을 최소화하는 문제는 다음과 동치다:

\[ \min_{d_1, \ldots, d_n} \sum_{i=1}^n d_i^2 \quad \text{subject to} \quad \sum d_i = 0, \; \sum d_i x_i = 1. \]

5.2 기하학적 재서술

위 문제는 “원점에서 \(\mathbb{R}^n\) 의 1차원 affine 교선까지의 최소 거리를 만드는 점을 찾아라” 와 정확히 같다. 왜냐하면 \(\sum d_i^2 = \|d\|_2^2\) 이고, 이는 원점과 \(d\) 사이의 유클리드 거리의 제곱이기 때문이다.

Casella & Berger(2002, Figure 11.3.2)는 \(n=3\) 일 때 이를 3차원 공간에 그린다. 두 평면이 교차해 직선이 되고, 원점에 가장 가까운 직선 위의 점이 BLUE 의 계수벡터다. 이 점은 원점에서 직선에 내린 수선의 발이며, 기하학에서 잘 알려진 방식으로 구할 수 있다.

\(\|d\|^2\) 이 작아야 하는가

\(\|d\|^2\) 가 작다는 것은 각 관측에 주는 가중치가 “고르게 작다”는 뜻이다. 특정 관측 하나가 추정값을 좌우하지 않으므로, 관측 하나가 튈 때 추정량도 크게 튀지 않는다. 즉, 가중치 집중 = 분산 폭발, 가중치 분산 = 추정 안정. 이 직관이 BLUE 가 “안정적”인 이유를 설명한다.


6 핵심 유도: Lemma 11.2.7 활용

Casella & Berger 는 ANOVA 장에서 이미 증명한 Lemma 11.2.7을 재활용한다. 이 보조정리는 다음과 같은 제약부 최적화 문제를 해결한다.

Lemma 11.2.7 (축약 형태)

상수 \(v_1, \ldots, v_k\)\(c_1, \ldots, c_k > 0\) 이 주어지고, \(\bar v_c = \sum c_i v_i / \sum c_i\) 라 하자. \(\sum c_i a_i = 0\) 제약 하에서

\[ \frac{\left(\sum a_i v_i\right)^2}{\sum a_i^2 / c_i} \]

를 최대화하는 \(a_i\)\(a_i = K c_i (v_i - \bar v_c)\) 형태이다(\(K\) 는 임의 상수).

여기에 \(k = n\), \(v_i = x_i\), \(c_i = 1\), \(a_i = d_i\) 를 대입하면 \(\bar v_c = \bar x\) 이고, 제약 \(\sum d_i = 0\) 하에서

\[ \frac{\left(\sum d_i x_i\right)^2}{\sum d_i^2} \]

최대화하는 \(d_i\)\(d_i = K(x_i - \bar x)\) 형태임을 얻는다.

왜 최대화 보조정리로 최소화 문제를 푸는가? 핵심 관찰: 두 번째 제약 \(\sum d_i x_i = 1\) 이 분자를 1로 고정한다. 분자가 고정되면 비율 \((\sum d_i x_i)^2 / \sum d_i^2 = 1/\sum d_i^2\) 이 되고, 이 비율의 최대화는 분모 \(\sum d_i^2\) 의 최소화와 동치이다. 제약이 분자를 고정하는 순간, 최대화 문제가 최소화 문제로 뒤집히는 것이다.

6.1 최대화 → 최소화 변환

우리의 목표는 \(\sum d_i^2\) 최소화인데 왜 위 식의 최대화가 나왔는가? 핵심 트릭은 두 번째 제약 \(\sum d_i x_i = 1\) 을 이용한 재표현이다. 이 제약이 성립하면 분자 \((\sum d_i x_i)^2 = 1\) 이고, 따라서

\[ \frac{\left(\sum d_i x_i\right)^2}{\sum d_i^2} = \frac{1}{\sum d_i^2}. \]

\(1 / \sum d_i^2\)최대화하는 것은 \(\sum d_i^2\)최소화하는 것과 동치다. 훌륭한 대입이다.

6.2 \(K\) 값 결정

\(d_i = K(x_i - \bar x)\)두 번째 제약 \(\sum d_i x_i = 1\) 을 만족해야 한다.

\[ \sum d_i x_i = \sum K(x_i - \bar x) x_i = K \sum (x_i - \bar x)(x_i - \bar x + \bar x) = K S_{xx} + K \bar x \cdot \underbrace{\sum(x_i - \bar x)}_{=0} = K S_{xx}. \]

이 값이 1이 되려면 \(K = 1/S_{xx}\). 따라서

\[ \boxed{\;d_i = \frac{x_i - \bar x}{S_{xx}}, \quad i = 1, \ldots, n.\;} \]

첫 번째 제약 \(\sum d_i = 0\) 도 자동으로 만족된다(\(\sum (x_i - \bar x) = 0\)).

6.3 BLUE 의 식

\(d_i\) 들을 대입하면:

\[ b = \sum_{i=1}^n d_i Y_i = \sum_{i=1}^n \frac{x_i - \bar x}{S_{xx}} Y_i = \frac{S_{xY}}{S_{xx}}, \]

여기서 \(S_{xY} = \sum(x_i - \bar x)(Y_i - \bar Y) = \sum(x_i - \bar x) Y_i\) (두 표현이 같은 이유는 \(\sum(x_i - \bar x) = 0\) 이기 때문이다).

이 값은 §11.3.1의 최소제곱해완전히 일치한다. 즉, 수학적 최적화와 통계적 최적화가 같은 추정량을 낳는다.


7 BLUE 의 분산과 실험 설계

7.1 분산 공식 (11.3.20)

\(d_i = (x_i - \bar x)/S_{xx}\) 를 분산식에 대입:

\[ \mathrm{Var}\,b = \sigma^2 \sum_{i=1}^n d_i^2 = \sigma^2 \sum_{i=1}^n \frac{(x_i - \bar x)^2}{S_{xx}^2} = \frac{\sigma^2}{S_{xx}^2} \sum (x_i - \bar x)^2 = \frac{\sigma^2}{S_{xx}}. \]

즉:

\[ \boxed{\;\mathrm{Var}\,b = \frac{\sigma^2}{S_{xx}} = \frac{\sigma^2}{\sum(x_i - \bar x)^2}.\;} \]

7.2 실험 설계 함의

분산이 \(S_{xx}\) 에 반비례한다는 사실은 실험자가 \(x_i\) 를 선택할 수 있다면 즉각적인 전략을 제공한다. \(S_{xx} = \sum(x_i - \bar x)^2\) 를 키울수록 추정이 정밀해진다. \(x\) 값이 넓게 퍼져 있을수록 기울기 추정이 안정적이다.

극단적 최적 설계: \(x_i\) 들을 반드시 구간 \([e, f]\) 내에서 선택해야 한다면, \(n\) 이 짝수일 때 \(S_{xx}\)가장 크게 만드는 방법은 절반을 \(e\) 에, 절반을 \(f\) 에 놓는 것이다(이점 설계, two-point design). 모든 관측을 양 끝점에 모아 넣는다.

이론적 최적 ≠ 실무적 최적

이점 설계는 이론상 최소 분산을 주지만, 실제로는 거의 쓰지 않는다. 왜 그럴까?

이점 설계는 \(E(Y|x)\)단 두 값에서만 관측한다. 만약 진짜 회귀함수가 비선형 이라면(예: 곡선), 두 점으로는 선형성 가정 자체가 틀렸다는 사실을 검출할 수 없다. 두 점은 언제나 한 직선으로 완벽히 이어지기 때문이다.

이는 통계학에서 반복되는 교훈이다: 모형이 참이라는 강한 믿음 하의 최적 설계모형 진단이 가능한 설계는 다르다. 실무에서는 \(x\) 를 넓게 퍼뜨리되, 중간점에도 관측을 배치하여 선형성을 검증할 수 있게 한다.

7.3 절편의 BLUE

절편 \(\alpha\) 의 BLUE 는 유사한 유도로(연습문제 11.27) 다음과 같이 얻어진다:

\[ a = \bar Y - b \bar x, \]

이것도 역시 최소제곱해와 일치한다. 분산은 (연습문제 결과):

\[ \mathrm{Var}\,a = \sigma^2\left(\frac{1}{n} + \frac{\bar x^2}{S_{xx}}\right). \]

\(\bar x = 0\) 이면 \(\mathrm{Var}\,a = \sigma^2/n\) 으로 단순해진다. 이 때문에 \(x\)중심화(centering)하는 것이 수치적·해석적으로 유리하다.

7.4 \(a\)\(b\) 의 공분산

\(a = \bar Y - b \bar x\) 에서

\[ \mathrm{Cov}(a, b) = \mathrm{Cov}(\bar Y, b) - \bar x \,\mathrm{Var}\,b. \]

\(\mathrm{Cov}(\bar Y, b) = 0\) 임을 보일 수 있고(교재 연습), 따라서

\[ \mathrm{Cov}(a, b) = -\frac{\sigma^2 \bar x}{S_{xx}}. \]

\(\bar x > 0\) 이면 \(a\)\(b\)음의 상관이다. 직관적으로: 기울기를 조금 크게 추정하면, 회귀직선이 데이터 중심을 지나기 위해 절편은 작아져야 한다. 이 상관은 \(\bar x = 0\) 일 때 사라진다(중심화의 또 다른 이점).


8 기하학적 해석 (Figure 11.3.2)

Casella & Berger 는 \(n=3\) 일 때의 기하학적 그림을 제시한다. \(\mathbb{R}^3\) 공간에 좌표축 \(d_1, d_2, d_3\) 를 놓고, 두 개의 평면:

  • \(P_1 : \sum d_i = 0\) (원점 통과)
  • \(P_2 : \sum d_i x_i = 1\) (원점 미통과)

이 있다. 두 평면의 교집합은 1차원 직선이며, 이 직선 위의 모든 점이 “가능한 선형 불편 추정량의 계수벡터” 다.

\(\sum d_i^2 = \|d\|^2\) 은 원점과 점 \(d\) 사이의 거리 제곱이므로, 분산 최소화는 “이 직선 위에서 원점에 가장 가까운 점”을 찾는 문제다. 기하학적으로 이 점은 원점에서 직선에 내린 수선의 발이다.

Casella & Berger 가 그린 그림은 원점 중심의 구(sphere)를 점점 키워가며 처음 직선과 닿는 순간의 접점을 BLUE 로 제시한다. 그 점이 바로 \(d_i = (x_i - \bar x)/S_{xx}\) 이다.

왜 수선의 발이 최소 거리인가? 피타고라스 정리에 의해, 직선 위의 임의 점 \(\mathbf{p}\) 에 대해 \(\|\mathbf{d}\|^2 = \|\mathbf{d}_\perp\|^2 + \|\mathbf{p} - \mathbf{d}_\perp\|^2 \geq \|\mathbf{d}_\perp\|^2\) 이다. 등호는 \(\mathbf{p} = \mathbf{d}_\perp\) (수선의 발)일 때만 성립한다. 즉, 수직이 아닌 어떤 경로도 수선보다 길다.

두 가지 기하학 — 혼동 주의

§11.3.1 포스트에서 본 기하학은 \(Y\)-공간 \(\mathbb{R}^n\) 에서 “관측벡터 \(\mathbf{y}\) 를 열공간 \(\mathrm{col}(\mathbf{X})\) 에 사영”하는 그림이었다.

§11.3.2의 기하학은 다르다. 이것은 \(d\)-공간 \(\mathbb{R}^n\) 에서 “계수벡터 \(d\) 가 두 affine 제약의 교선 위에서 원점에 가장 가까운 점”을 찾는 그림이다.

두 그림 모두 \(\mathbb{R}^n\) 이지만, 사는 공간이 다르다. \(Y\)-공간은 “관측값의 공간”, \(d\)-공간은 “추정량의 계수 공간”이다. 두 관점은 쌍대(dual) 관계에 있고, 같은 \(\hat\beta\)다른 각도에서 정당화한다.


9 Gauss-Markov 정리로의 일반화

§11.3.2의 결과는 단순 선형 회귀에 국한된 것처럼 보이지만, 일반 선형 모형 전체로 확장된다. 이 일반화가 바로 Gauss-Markov 정리이다.

Gauss-Markov 정리 (일반형)

선형 모형 \(\mathbf{Y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon\) 에서 \(E\boldsymbol\epsilon = 0\), \(\mathrm{Cov}(\boldsymbol\epsilon) = \sigma^2 \mathbf{I}\) 이면, 최소제곱 추정량 \(\hat{\boldsymbol\beta} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}\)\(\mathbf{c}^\top \boldsymbol\beta\) 의 모든 선형 불편 추정량 중 최소 분산을 갖는다.

  • 증명은 §11.3.2의 논리를 벡터 형태로 일반화한다. 기울기 하나가 아닌 계수 벡터 전체, 그리고 그들의 선형 결합 \(\mathbf{c}^\top \boldsymbol\beta\) 에 대해 같은 최소화 원리를 적용한다.
  • 표준 레퍼런스: Christensen(1996), Lehmann & Casella(1998, Section 3.4), Harville(1981).
  • 블로그 내 99-1-blue.qmd에서 일반 GM 정리의 증명과 가정 위반 시 대안 (GLS, WLS, 강건 추론)을 상세히 다룬다. §11.3.2의 단순 선형 사례는 그 일반형의 “가장 단순한 비자명 예” 이다.

10 BLUE 의 한계: 분산-편향 트레이드오프

§11.3.2의 결론은 선형 불편 추정량 안에서의 최적성이다. 이 제약을 풀면 “BLUE 보다 나은” 추정량이 존재할 수 있다. 핵심 메커니즘은 평균 제곱 오차(MSE)의 분해이다.

\[ \text{MSE}(\hat\beta) = \mathrm{Var}(\hat\beta) + \left[\text{Bias}(\hat\beta)\right]^2 \]

BLUE 는 \(\text{Bias} = 0\) 이므로 \(\text{MSE} = \mathrm{Var}\) 이다. 하지만 편향을 약간 허용하면 분산을 크게 줄일 수 있고, 결과적으로 MSE 가 더 낮아질 수 있다.

대표적인 예가 Ridge 회귀이다.

\[ \hat{\boldsymbol\beta}_{\text{Ridge}} = (\mathbf{X}^\top\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^\top\mathbf{Y} \]

\(\lambda > 0\)\((\mathbf{X}^\top\mathbf{X})\) 에 양수를 더해 역행렬을 안정시키지만, 그 대가로 추정량에 편향을 도입한다.

비교 기준 OLS (BLUE) Ridge
편향 0 \(\neq 0\)
분산 더 큼 더 작음
MSE (저차원) 더 작거나 비슷 더 크거나 비슷
MSE (고차원) 더 클 수 있음 더 작을 수 있음

이 관찰은 BLUE 를 상대화하는 데 중요하다. Gauss-Markov 정리는 “불편성 + 선형성”이라는 게임 규칙 안에서의 승자를 선언하는 것이다. 규칙을 바꾸면(편향 허용, 비선형 허용) 다른 추정량이 MSE 관점에서 우세할 수 있다. 특히 \(p\) (설명변수 수)가 \(n\) 에 비해 큰 고차원 상황에서 Ridge · LASSO 같은 정규화 추정량이 실무적으로 더 나은 성능을 보이는 이유가 여기에 있다.

정규화 추정량과 §11.3.2의 관계

§11.3.2가 제시하는 \(\|d\|^2\) 최소화 기하학을 Ridge 관점에서 다시 보면 흥미롭다. Ridge 는 “불편성 제약의 교선 위”가 아니라, 그 근처의 더 작은 \(\|d\|^2\) 를 갖는 점을 허용한다. 제약을 약간 벗어남으로써 원점에 더 가까워지고(= 분산 감소), 그 대가로 불편성이 깨진다(= 편향 도입). 이 trade-off 를 제어하는 것이 \(\lambda\) 이다.


11 분포 가정 없이 얻는 것과 못 얻는 것

§11.3.2의 약한 가정이 주는 한계를 명확히 할 필요가 있다. 얻는 것과 못 얻는 것을 구분하자.

얻는 것 (1·2차 모멘트만으로 충분):

  • 점추정량 \(\hat\alpha, \hat\beta\) 와 그 불편성 증명
  • 점추정량의 분산 공식과 상대적 최적성(BLUE)
  • 분산 추정량 \(\hat\sigma^2\) (교재 Lemma 11.3.2에서 \(n-2\) 로 나눠 불편성 확보)
  • 실험 설계 지침 (\(S_{xx}\) 최대화 전략)

얻지 못하는 것 (분포 가정이 추가로 필요):

  • \(\hat\beta\)분포 — 어떤 모양인지 알 수 없음
  • 신뢰구간 — 분위수를 계산하려면 분포가 필요
  • 가설 검정\(p\)-value 는 분포에서 나옴
  • 최대우도 해석 — 정규성이 있어야 MLE = OLS
  • UMVUE 최적성 — 정규성 + 충분통계량 + Lehmann-Scheffé 필요

이것이 Casella & Berger 가 §11.3.3(“Models and Distribution Assumptions”)에서 정규성 가정을 추가 도입하는 이유다. 거기서 \(t\)-분포 기반 신뢰구간·검정이 비로소 유도된다. §11.3.2는 그 상위 구조가 올라타기 전의 뼈대이다.

“왜 하필 제곱인가”에 대한 마침내의 답

§11.3.1에서 우리는 L2가 미분가능성·볼록성·기하학적 편의 때문에 쓰인다고 했다. 그것은 “수학자의 답”이다.

§11.3.2는 “통계학자의 답”을 준다: 무상관·등분산이라는 자연스러운 가정 하에서, L2 손실의 최소화 해가 선형 불편 추정량 중 최소 분산을 달성한다. 즉, 제곱은 단지 편의가 아니라 이 가정 아래에서 최적이다. 가정이 달라지면(이분산·상관) L2는 더 이상 최적이 아니고, GLS 나 WLS 가 그 자리를 차지한다. 손실함수의 선택은 데이터 생성 과정의 가정에 종속된다는 것이 핵심 교훈이다.


12 응용 분야

분야 활용 구체적 예시
생물학적 검정 용량-반응 곡선 기울기 추정 약물 농도 \(x\) 와 효과 \(Y\) 의 선형 구간에서 기울기
물리 실험 물리 법칙 계수 추정 Hooke 법칙 \(F = kx\)\(k\) 를 BLUE 로 추정
계량경제 수요 곡선 탄력성 가격과 수량의 로그 선형 관계 기울기
공학 보정 센서 캘리브레이션 참값 \(x\) 와 측정값 \(Y\) 의 선형 관계
시뮬레이션 분산 감소 제어 변수(control variates) 상관된 보조 변수를 통한 분산 감소도 같은 BLUE 원리

이들 분야에서 공통점은 분포를 명확히 알 수 없는 잡음이 있고, 오직 “평균이 \(x\) 에 선형”과 “잡음의 분산이 일정”만 가정할 수 있는 상황이라는 점이다. §11.3.2는 이런 경우의 최적 추정 원리를 제공한다.


13 수치 예시

13.1 손 계산

\(n = 4\), \(x = (0, 1, 2, 3)\), \(Y = (1, 3, 2, 5)\) 로 가정하자.

Step 1: 기본 수량 계산

  • \(\bar x = 1.5\), \(\bar Y = 2.75\)
  • \(x_i - \bar x = (-1.5, -0.5, 0.5, 1.5)\)
  • \(S_{xx} = \sum (x_i - \bar x)^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5\)

Step 2: BLUE 계수 \(d_i\)

\[ d_i = \frac{x_i - \bar x}{S_{xx}} = \left(-\tfrac{1.5}{5}, -\tfrac{0.5}{5}, \tfrac{0.5}{5}, \tfrac{1.5}{5}\right) = (-0.3, -0.1, 0.1, 0.3). \]

불편성 제약 확인:

  • \(\sum d_i = -0.3 - 0.1 + 0.1 + 0.3 = 0\)
  • \(\sum d_i x_i = 0 + (-0.1) + 0.2 + 0.9 = 1.0\)

Step 3: 추정값

\[ b = \sum d_i Y_i = -0.3 \cdot 1 + (-0.1) \cdot 3 + 0.1 \cdot 2 + 0.3 \cdot 5 = -0.3 - 0.3 + 0.2 + 1.5 = 1.1. \]

\(a = \bar Y - b\bar x = 2.75 - 1.1 \cdot 1.5 = 1.1\).

Step 4: 분산

\(\sigma^2\) 를 알 수는 없지만, 분산 공식은 \(\mathrm{Var}\,b = \sigma^2/S_{xx} = \sigma^2/5\). 잔차 기반 추정치 \(\hat\sigma^2\) 을 대입하면 표준오차가 나온다.


14 코드 예시

14.1 Step 1: 순수 Python 구현 — 정의에 충실하게

# 순수 Python 으로 BLUE 를 정의 그대로 계산 — 공식 확인용
x = [0, 1, 2, 3]
y = [1, 3, 2, 5]
n = len(x)

x_bar = sum(x) / n
y_bar = sum(y) / n

# S_xx
S_xx = sum((xi - x_bar) ** 2 for xi in x)

# BLUE 계수 d_i = (x_i - x_bar) / S_xx
d = [(xi - x_bar) / S_xx for xi in x]

# 불편성 제약 검증 — 유한 정밀도 오차 감안
assert abs(sum(d)) < 1e-12, "sum(d) != 0"
assert abs(sum(di * xi for di, xi in zip(d, x)) - 1) < 1e-12, "sum(d*x) != 1"

# BLUE 추정값
b = sum(di * yi for di, yi in zip(d, y))
a = y_bar - b * x_bar

print(f"d  = {[round(di, 4) for di in d]}")
print(f"a  = {a:.4f}, b = {b:.4f}")
print(f"Var(b)/sigma^2 = 1/S_xx = {1 / S_xx:.4f}")

14.2 Step 2: numpy — 행렬 형태와 일치 확인

import numpy as np

x = np.array([0, 1, 2, 3], dtype=float)
y = np.array([1, 3, 2, 5], dtype=float)

# 설계행렬 — 절편 포함
X = np.column_stack([np.ones_like(x), x])

# 정규방정식 해 (최소제곱 = BLUE 의 계수)
beta_hat = np.linalg.solve(X.T @ X, X.T @ y)
print(f"a, b (normal equations) = {beta_hat}")

# BLUE 계수 벡터 방식으로도 같은 b 를 얻는가
d = (x - x.mean()) / ((x - x.mean()) ** 2).sum()
b_via_d = d @ y
print(f"b (via d_i formula)    = {b_via_d:.6f}")

14.3 Step 3: 시뮬레이션 — BLUE 의 불편성과 최소 분산

import numpy as np
rng = np.random.default_rng(42)

# 진짜 모수
alpha_true, beta_true, sigma = 1.0, 2.0, 1.0
x = np.linspace(0, 10, 20)
S_xx = ((x - x.mean()) ** 2).sum()

n_sim = 20_000

# 추정량 1: BLUE (= OLS)
b_blue = np.empty(n_sim)

# 추정량 2: 다른 선형 불편 추정량 — 양 끝점 기반 기울기
# b_endpt = (Y_last - Y_first) / (x_last - x_first)
# 이것도 sum d_i = 0, sum d_i x_i = 1 을 만족하는 선형 불편 추정량
b_endpt = np.empty(n_sim)

for k in range(n_sim):
    # 오차를 정규분포가 아닌 Laplace 로 — 정규성 없이도 BLUE 는 성립
    eps = rng.laplace(0, sigma / np.sqrt(2), size=x.size)
    y = alpha_true + beta_true * x + eps

    # BLUE
    d = (x - x.mean()) / S_xx
    b_blue[k] = d @ y

    # 양 끝점 추정량
    b_endpt[k] = (y[-1] - y[0]) / (x[-1] - x[0])

print(f"BLUE:     mean = {b_blue.mean():.4f}, var = {b_blue.var():.4f}")
print(f"Endpoint: mean = {b_endpt.mean():.4f}, var = {b_endpt.var():.4f}")
print(f"이론값 Var(BLUE) = sigma^2 / S_xx = {sigma**2 / S_xx:.4f}")
# 두 추정량 모두 불편(평균이 2에 가까움)
# 그러나 BLUE 의 분산이 훨씬 작다 — Laplace 오차에서도 성립

14.4 Step 4: statsmodels — 실무 활용

import numpy as np
import statsmodels.api as sm

x = np.array([0, 1, 2, 3], dtype=float)
y = np.array([1, 3, 2, 5], dtype=float)

X = sm.add_constant(x)
model = sm.OLS(y, X).fit()
print(model.summary())

# Var(b) = sigma^2 / S_xx 를 출력의 표준오차와 비교
S_xx = ((x - x.mean()) ** 2).sum()
sigma2_hat = model.mse_resid  # = RSS / (n - 2)
print(f"이론 Var(b) = {sigma2_hat / S_xx:.4f}")
print(f"summary SE^2 = {model.bse[1] ** 2:.4f}")

14.5 결과 해석

  • Step 1·2: 손 계산·정규방정식·\(d_i\) 공식이 정확히 같은 해를 준다. §11.3.1과 §11.3.2의 수학적 동치가 수치로 확인된다.
  • Step 3: 오차가 정규가 아닌 Laplace 분포일 때도 BLUE 는 불편이고, 단순한 “두 점 기반” 선형 불편 추정량보다 분산이 훨씬 작다. 분포 가정 없이 최적성이 유지됨을 경험적으로 확인한다.
  • Step 4: statsmodels 의 표준오차가 이론 공식 \(\sigma^2/S_{xx}\)(with \(\hat\sigma^2\) 대입)과 일치한다.

15 가정 위반 시: 무엇이 깨지고, 어떻게 대응하는가

§11.3.2의 세 가정(평균의 선형성, 등분산, 무상관)이 위반되면 OLS 는 BLUE 지위를 잃는다. 어떤 가정이 깨지는지에 따라 결과와 대안이 다르다.

위반 유형 현상 결과 대안 추정량
이분산 ( \(\mathrm{Var}(\epsilon_i) \neq \sigma^2\) ) 소득이 높을수록 소비 분산도 큼 불편이지만 최소 분산 아님; 표준오차 과소/과대 추정 WLS, GLS, HC 표준오차
자기상관 ( \(\mathrm{Cov}(\epsilon_t, \epsilon_{t-k}) \neq 0\) ) 시계열에서 충격이 지속 표준오차 과소 추정, \(t\) -검정 왜곡 GLS, HAC 표준오차
내생성 ( \(E[\epsilon \mid X] \neq 0\) ) 누락변수, 측정오차, 역인과 OLS 불편성 자체가 무너짐; 추정량이 편향 IV 추정, 2SLS
다중공선성 ( \(\mathrm{rank}(\mathbf{X}) < p\) ) 두 변수가 거의 같은 정보 OLS 분산 폭발; 추정 불안정 Ridge, LASSO, PCA 회귀
위반의 심각도 — 불편성 vs 효율성

가정 위반의 결과는 크게 두 유형으로 나뉜다.

  • 이분산·자기상관: 불편성은 유지되지만 효율성이 떨어진다. 표준오차만 강건하게 교정하면(HC, HAC) 추론이 가능하다. 아니면 GLS/WLS 로 BLUE 를 복원할 수 있다.
  • 내생성: 불편성 자체가 무너진다. 계수 해석이 근본적으로 틀리므로 도구변수(IV) 같은 전혀 다른 전략이 필요하다.

§11.3.2의 관점에서 보면, 이분산·자기상관은 “\(\mathrm{Var}\sum d_i Y_i = \sigma^2 \sum d_i^2\)” 등식이 성립하지 않게 만드는 위반이다. 등분산·무상관이 깨지면 각 \(d_i^2\) 에 곱해지는 분산이 달라지므로, \(\sum d_i^2\) 를 최소화하는 것이 더 이상 분산 최소화와 동치가 아니다. GLS 는 이를 교정하여 변형된 최소화 문제의 최적해를 구한다.


16 핵심 정리

  1. §11.3.2의 통계적 가정\(E Y_i = \alpha + \beta x_i\), \(\mathrm{Var}\,Y_i = \sigma^2\), \(\mathrm{Cov}(Y_i, Y_j) = 0\) 세 가지. 분포는 지정되지 않는다.
  2. 선형 추정량의 불편성 제약\(\sum d_i = 0\)\(\sum d_i x_i = 1\). 기하학적으로는 \(\mathbb{R}^n\) 의 두 affine 평면의 교선.
  3. 분산 최소화\(\sigma^2 \sum d_i^2\) 를 최소화하는 문제이며, 이는 \(\|d\|^2\) 최소화와 같다.
  4. 최소화 해\(d_i = (x_i - \bar x)/S_{xx}\) 로, 대입하면 \(b = S_{xY}/S_{xx}\) 가 되어 최소제곱해와 일치한다.
  5. 분산 공식 \(\mathrm{Var}\,b = \sigma^2 / S_{xx}\) 는 실험 설계 지침을 준다 — \(x\) 를 넓게 퍼뜨려라.
  6. 분포 가정이 없으므로 신뢰구간·검정은 얻지 못한다. 이는 §11.3.3의 정규성 가정으로 보완된다.
  7. 일반화: 이 결과는 Gauss-Markov 정리의 단순 선형 사례이며, 일반 선형 모형으로 확장된다.
§11.3.1 → §11.3.2 의 메타적 교훈

같은 추정량 \(\hat\beta\)두 가지 독립된 정당화를 갖는다는 사실은 우연이 아니다. 이것이 최소제곱법이 통계학 전 분야에서 중심적 지위를 차지하는 이유다. 수학적 편의 (미분가능성·볼록성)와 통계적 최적성(BLUE)이 같은 점에서 만난다. 이 수렴 현상은 베이지안 관점의 정규-정규 결합, 정보이론의 엔트로피 관점 등 다른 경로에서도 반복된다. 한 대상이 여러 관점에서 최적이면, 그것은 도구가 아니라 구조적 발견이다.


17 §11.3 전체에서의 위치

§11.3.1 Mathematical Solution (수학적 최소화)       ← 133-slr-least-squares
    ↓ 통계 모형 도입
§11.3.2 Statistical Solution (BLUE)                  ← 이 포스트 (134)
    ↓ 분포 가정 추가
§11.3.3 Models and Distribution Assumptions (정규)   ← 다음 포스트
    ↓ 구체적 추론 절차
§11.3.4 Inference (t-test, CI)
§11.3.5 Correlation and Regression (이변량 정규)

이 포스트 이후 다음 단계는 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) 가정을 추가해 \(\hat\beta\)정규분포, \(\hat\sigma^2\)카이제곱 분포, 그리고 \(t\) 통계량을 유도하는 것이다. 그 지점에서 점추정이 완전한 추론 절차로 확장된다.


18 참고 문헌

  • Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.), §11.3.2. Duxbury.
  • Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.), Section 3.4. Springer.
  • Christensen, R. (1996). Plane Answers to Complex Questions. Springer.
  • Harville, D. A. (1981). Unbiased and minimum-variance unbiased estimation of estimable functions for fixed linear models with arbitrary covariance structure. The Annals of Statistics, 9(3), 633–637.

19 관련 주제

선행 지식

후속 주제

관련 개념

Subscribe

Enjoy this blog? Get notified of new posts by email: