Kwangmin Kim - BLUE: Best Linear Unbiased Estimator

1 개요

통계적 추정에서 “좋은” 추정량이란 무엇인가? 이 질문에 대한 고전적인 답변이 BLUE(Best Linear Unbiased Estimator)이다. BLUE는 선형 회귀 분석에서 OLS(Ordinary Least Squares) 추정량의 최적성을 보장하는 핵심 개념이다.

BLUE를 이해하면 다음 질문들에 답할 수 있다:

OLS 추정량이 왜 좋은 추정량인가?
언제 OLS를 써야 하고, 언제 다른 추정량을 써야 하는가?
가정이 위반되면 무슨 일이 생기는가?

2 직관: “좋은 추정량”이란 무엇인가

2.1 과녁 비유

추정량의 품질을 이해하는 가장 직관적인 비유는 활쏘기이다. 참값(모수 \(\beta\))이 과녁의 정중앙이라고 하자. 동일한 데이터 생성 과정을 반복하면 매번 다른 추정값 \(\hat{\beta}\)이 나온다.

              편향 없음 (Unbiased)    편향 있음 (Biased)
              ┌─────────────────┐    ┌─────────────────┐
분산 작음     │    · · ·        │    │                 │
(Best)        │    ·⊕·          │    │      · · ·      │
              │    · · ·        │    │      ·⊕·        │
              │                 │    │      · ·(⊙)     │
              └─────────────────┘    └─────────────────┘
              이상적: BLUE          편향 추정량 (작은 분산)

              ┌─────────────────┐    ┌─────────────────┐
분산 큼       │  ·           ·  │    │·             ·  │
(Not Best)    │      ·  ⊕      │    │    ·    (⊙)     │
              │  ·      ·       │    │ ·      ·    ·   │
              │           ·     │    │                 │
              └─────────────────┘    └─────────────────┘
              불편이지만 비효율적    최악: 편향 + 큰 분산

              ⊕ = 참값(과녁 중앙)   ⊙ = 추정량의 평균

불편성(Unbiased): 화살들의 평균 위치가 정중앙이다. 과대/과소 추정 경향이 없다.
최소 분산(Best): 화살들이 밀집해 있다. 추정이 안정적이다.
BLUE: 불편이면서 가장 밀집한 추정량이다.

2.2 왜 분산이 작아야 하는가

실제 데이터는 한 번만 관측한다. 추정량의 분산이 크면 운에 따라 참값과 멀리 떨어진 추정값이 나올 확률이 높다. 같은 불편 추정량이라면 분산이 작은 쪽이 더 신뢰할 수 있는 추정량이다.

노트

불편성 vs 분산의 트레이드오프

불편성과 최소 분산을 동시에 만족하는 추정량이 항상 존재하는 것은 아니다. BLUE는 선형 불편 추정량이라는 제약 안에서 분산을 최소화한다. 편향을 허용하면 분산을 더 줄일 수 있고 (예: Ridge 회귀), 전체 MSE가 작아질 수도 있다.

3 BLUE의 세 가지 조건

BLUE는 세 단어의 조합이다.

조건	의미
Best	동일 조건의 추정량 중 분산이 가장 작다
Linear	관측값의 선형 결합으로 표현된다
Unbiased	기댓값이 참값과 같다

선형 회귀 모형을 다음과 같이 정의한다:

\[ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} \]

여기서 \(\mathbf{y} \in \mathbb{R}^n\), \(\mathbf{X} \in \mathbb{R}^{n \times p}\), \(\boldsymbol{\beta} \in \mathbb{R}^p\), \(\boldsymbol{\varepsilon} \in \mathbb{R}^n\)이다.

3.1 조건 1: 선형성 (Linearity)

추정량 \(\hat{\boldsymbol{\beta}}\)이 관측값 \(\mathbf{y}\)의 선형 함수이다:

\[ \hat{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} \]

여기서 \(\mathbf{C}\)는 \(\mathbf{X}\)에만 의존하는 행렬이다. OLS 추정량은 \(\mathbf{C} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top\)이므로 선형이다.

직관: 선형 추정량은 각 관측값에 가중치를 부여한 가중 평균의 일반화이다. 표본 평균 \(\bar{y} = \frac{1}{n}\sum y_i\)도 선형 추정량이다 (모든 \(y_i\)에 동일한 가중치 \(\frac{1}{n}\)). OLS는 \(\mathbf{X}\)의 구조에 맞게 데이터 포인트마다 다른 가중치를 부여하여 \(\beta\)를 추정한다.

3.2 조건 2: 불편성 (Unbiasedness)

\[ E[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta} \]

추정량의 기댓값이 참 모수와 같아야 한다. 체계적인 과대 또는 과소 추정이 없다는 의미이다.

직관: 동일한 실험을 무한히 반복하면, 추정값들의 평균이 참값에 수렴한다. 어느 한 방향으로 일관되게 틀리지 않는다.

3.3 조건 3: 최소 분산 (Minimum Variance)

임의의 선형 불편 추정량 \(\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y}\)에 대해:

\[ \text{Var}(\hat{\boldsymbol{\beta}}) \leq \text{Var}(\tilde{\boldsymbol{\beta}}) \]

여기서 부등호는 행렬 의미에서의 양반정치(positive semi-definiteness)로 해석한다. 즉, \(\text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}})\)가 양반정치 행렬이다.

직관: 정보를 최대한 효율적으로 활용한다. 가용한 모든 데이터를 낭비 없이 쓴다.

4 구체적인 수치 예시

4.1 평균 추정: “어떤 선형 불편 추정량이 분산이 가장 작은가”

가장 단순한 설정으로 시작한다. 관측값이 4개라 하자: \(y_1, y_2, y_3, y_4 \sim (\mu, \sigma^2)\), 서로 독립. 목표는 \(\mu\)를 추정하는 것이다.

다음 세 가지 선형 추정량을 비교한다:

추정량	수식	설명
\(\hat{\mu}_1\)	\(\frac{y_1 + y_2 + y_3 + y_4}{4}\)	표본 평균
\(\hat{\mu}_2\)	\(\frac{y_1 + y_2}{2}\)	처음 두 관측값만 사용
\(\hat{\mu}_3\)	\(\frac{y_1}{4} + \frac{y_2}{4} + \frac{y_3}{4} + \frac{5y_4}{4} - \frac{\mu}{4}\)	\(\mu\)에 의존 → 사용 불가

불편성 확인:

\[ E[\hat{\mu}_1] = \frac{\mu + \mu + \mu + \mu}{4} = \mu \quad \checkmark \]

\[ E[\hat{\mu}_2] = \frac{\mu + \mu}{2} = \mu \quad \checkmark \]

두 추정량 모두 불편이다. 분산을 비교한다:

\[ \text{Var}(\hat{\mu}_1) = \frac{4\sigma^2}{16} = \frac{\sigma^2}{4} \]

\[ \text{Var}(\hat{\mu}_2) = \frac{2\sigma^2}{4} = \frac{\sigma^2}{2} \]

\(\text{Var}(\hat{\mu}_1) < \text{Var}(\hat{\mu}_2)\)이다. 표본 평균이 처음 두 관측값만 사용하는 추정량보다 분산이 2배 작다.

핵심: \(\hat{\mu}_2\)는 \(y_3, y_4\)의 정보를 버린다. BLUE인 표본 평균은 모든 관측값을 동등하게 활용하여 분산을 최소화한다.

4.2 단순 회귀의 손 계산 예시

다음 데이터로 \(y = \beta_0 + \beta_1 x + \varepsilon\) 를 추정한다:

\(i\)	\(x_i\)	\(y_i\)
1	1	2
2	2	4
3	3	5
4	4	7

OLS 공식: \(\hat{\beta}_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}\)

\[ \bar{x} = 2.5, \quad \bar{y} = 4.5 \]

\[ \sum(x_i - \bar{x})(y_i - \bar{y}) = (-1.5)(-2.5) + (-0.5)(-0.5) + (0.5)(0.5) + (1.5)(2.5) = 3.75 + 0.25 + 0.25 + 3.75 = 8 \]

\[ \sum(x_i - \bar{x})^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5 \]

\[ \hat{\beta}_1 = \frac{8}{5} = 1.6, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 4.5 - 1.6 \times 2.5 = 0.5 \]

OLS 추정 결과: \(\hat{y} = 0.5 + 1.6x\)

이제 OLS가 아닌 다른 선형 불편 추정량을 만들어본다. 예를 들어 첫 번째와 마지막 관측값만 이용한 기울기 추정량:

\[ \tilde{\beta}_1 = \frac{y_4 - y_1}{x_4 - x_1} = \frac{7 - 2}{4 - 1} = \frac{5}{3} \approx 1.67 \]

\(\tilde{\beta}_1\)도 불편 추정량이다 (\(E[\tilde{\beta}_1] = \beta_1\)). 하지만 \(y_2, y_3\)의 정보를 활용하지 않아 분산이 크다. Gauss-Markov 정리에 의해 OLS인 \(\hat{\beta}_1 = 1.6\)이 항상 이보다 작은 분산을 갖는다.

5 Gauss-Markov 정리

Gauss-Markov 정리는 OLS 추정량이 BLUE임을 보장한다.

5.1 가정 (Gauss-Markov Assumptions)

다음 네 가지 가정이 성립할 때, OLS 추정량 \(\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top \mathbf{y}\)는 BLUE이다:

번호	가정	수식	직관적 의미
GM1	선형 모형	\(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\)	\(y\)와 \(x\) 사이에 선형 관계가 있다
GM2	\(\mathbf{X}\)는 비확률적, 풀 랭크	\(\text{rank}(\mathbf{X}) = p\)	다중공선성이 없고, \(\mathbf{X}^\top\mathbf{X}\)가 가역이다
GM3	오차의 기댓값 = 0	\(E[\boldsymbol{\varepsilon}] = \mathbf{0}\)	측정 오차에 체계적 편향이 없다
GM4	오차의 등분산성과 비상관성	\(\text{Cov}(\boldsymbol{\varepsilon}) = \sigma^2 \mathbf{I}_n\)	모든 관측이 동등하게 신뢰할 수 있다

5.2 각 가정의 현실적 의미

GM1: 선형성

모형이 틀리면 OLS는 잘못된 것을 추정한다. \(y = \beta_0 + \beta_1 x^2 + \varepsilon\)인데 \(y \sim x\)로 회귀하면 추정량이 편향된다. 비선형 관계에는 변환(로그, 제곱 등) 또는 비선형 모형이 필요하다.

GM2: 풀 랭크 (다중공선성 없음)

두 예측 변수가 완전히 비례하면 (\(x_2 = 2x_1\)) 두 계수를 분리할 수 없다. 무수히 많은 \((\beta_1, \beta_2)\) 조합이 동일한 예측값을 만든다. 현실에서는 완전한 공선성은 드물지만, 강한 공선성도 분산을 크게 키운다.

GM3: 외생성 (오차 기댓값 = 0)

오차의 기댓값이 0이 아니면 (\(E[\varepsilon_i] = c \neq 0\)) 절편에 흡수되어 \(\hat{\beta}_0\)만 편향되고 나머지 계수는 괜찮다. 더 심각한 경우는 \(E[\varepsilon \mid X] \neq 0\) (내생성)으로, 이때는 모든 추정량이 편향된다. 예: 능력이 뛰어난 사람이 좋은 학교에 가는 경향이 있을 때, 학교의 효과를 추정하면 능력 효과가 오차에 포함되어 교육 계수가 과대 추정된다.

GM4: 등분산성과 비상관성 (Spherical Errors)

\(\text{Cov}(\boldsymbol{\varepsilon}) = \sigma^2\mathbf{I}\)는 두 가지를 동시에 요구한다:

등분산: 모든 \(i\)에 대해 \(\text{Var}(\varepsilon_i) = \sigma^2\) (일정) 위반 예: 소득이 높을수록 소비 지출의 분산도 커진다 → 이분산
비상관: \(i \neq j\)이면 \(\text{Cov}(\varepsilon_i, \varepsilon_j) = 0\) 위반 예: 시계열 데이터에서 오늘의 충격이 내일에도 영향을 미친다 → 자기상관

노트

Gauss-Markov 정리는 오차의 정규성을 요구하지 않는다. 정규성은 가설검정과 신뢰구간 구성에 필요하지만, OLS가 BLUE임을 보장하는 데는 위 네 가지 가정으로 충분하다.

5.3 정리 (Gauss-Markov Theorem)

GM1~GM4 하에서 \(\hat{\boldsymbol{\beta}}_{\text{OLS}}\)는 BLUE이다.

5.4 증명

임의의 선형 불편 추정량 \(\tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y}\)를 잡는다. \(\mathbf{C} = (\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top + \mathbf{D}\)로 분해할 수 있다. 여기서 \(\mathbf{D}\)는 임의의 행렬이다.

불편성 조건 적용:

\[ E[\tilde{\boldsymbol{\beta}}] = \mathbf{C}\mathbf{X}\boldsymbol{\beta} = \boldsymbol{\beta} \quad \Rightarrow \quad \mathbf{C}\mathbf{X} = \mathbf{I}_p \]

\[ \Rightarrow \left[(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top + \mathbf{D}\right]\mathbf{X} = \mathbf{I}_p \quad \Rightarrow \quad \mathbf{D}\mathbf{X} = \mathbf{0} \]

분산 계산:

\[ \text{Var}(\tilde{\boldsymbol{\beta}}) = \sigma^2 \mathbf{C}\mathbf{C}^\top = \sigma^2 \left[(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top + \mathbf{D}\right]\left[\mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1} + \mathbf{D}^\top\right] \]

전개하면:

\[ = \sigma^2 \left[(\mathbf{X}^\top \mathbf{X})^{-1} + \underbrace{(\mathbf{X}^\top \mathbf{X})^{-1}\mathbf{X}^\top\mathbf{D}^\top}_{=\,\mathbf{0}^\top} + \underbrace{\mathbf{D}\mathbf{X}}_{=\,\mathbf{0}}(\mathbf{X}^\top \mathbf{X})^{-1} + \mathbf{D}\mathbf{D}^\top\right] \]

\(\mathbf{D}\mathbf{X} = \mathbf{0}\) 조건에 의해 교차항이 소거된다:

\[ = \sigma^2 (\mathbf{X}^\top \mathbf{X})^{-1} + \sigma^2 \mathbf{D}\mathbf{D}^\top = \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}}) + \sigma^2 \mathbf{D}\mathbf{D}^\top \]

\(\mathbf{D}\mathbf{D}^\top\)는 항상 양반정치(PSD) 행렬이므로:

\[ \text{Var}(\tilde{\boldsymbol{\beta}}) - \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}}) = \sigma^2 \mathbf{D}\mathbf{D}^\top \succeq 0 \]

따라서 \(\hat{\boldsymbol{\beta}}_{\text{OLS}}\)는 임의의 선형 불편 추정량 중 분산이 가장 작다. \(\blacksquare\)

증명의 핵심 아이디어: OLS에서 벗어나는 정도(\(\mathbf{D}\))가 크면 클수록 분산이 추가로 늘어난다. 분산을 최소화하려면 \(\mathbf{D} = \mathbf{0}\), 즉 OLS를 사용해야 한다.

6 OLS의 기하학적 직관

OLS는 \(\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}}\)가 \(\mathbf{y}\)의 열공간(column space of \(\mathbf{X}\))으로의 직교 투영(orthogonal projection)이다.

\[ \hat{\mathbf{y}} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y} = \mathbf{H}\mathbf{y} \]

여기서 \(\mathbf{H} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\)는 햇 행렬(hat matrix)이다.

기하학적 의미:

\(\mathbf{y}\)를 \(\mathbf{X}\)의 열벡터들이 span하는 부분공간으로 투영한다
잔차 \(\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}\)는 그 부분공간에 수직이다: \(\mathbf{X}^\top \mathbf{e} = \mathbf{0}\)
직교 투영은 \(\ell^2\) 거리를 최소화한다 → 잔차 제곱합 최소화

이 직교성이 OLS의 효율성의 근거이다. 다른 선형 추정량은 최적 방향의 투영을 벗어나므로 잔차가 크고, 그 초과 분산이 \(\sigma^2\mathbf{D}\mathbf{D}^\top\) 항으로 나타난다.

7 직관적 이해: BLUE의 한계

7.1 분산-편향 트레이드오프

BLUE는 불편성과 최소 분산을 동시에 요구한다. 그러나 편향된 추정량이 분산을 충분히 줄이면 더 낮은 MSE를 가질 수 있다:

\[ \text{MSE}(\hat{\boldsymbol{\beta}}) = \text{Var}(\hat{\boldsymbol{\beta}}) + \text{Bias}^2(\hat{\boldsymbol{\beta}}) \]

Ridge 회귀의 추정량:

\[ \hat{\boldsymbol{\beta}}_{\text{Ridge}} = (\mathbf{X}^\top\mathbf{X} + \lambda\mathbf{I})^{-1}\mathbf{X}^\top\mathbf{y} \]

는 편향 추정량이지만, \(\lambda > 0\)이면 분산을 줄여 고차원에서 OLS보다 MSE가 낮을 수 있다.

비교 기준	OLS (BLUE)	Ridge
편향	0	\(\neq 0\)
분산	더 큼	더 작음
MSE (저차원)	더 작거나 비슷	더 크거나 비슷
MSE (고차원)	더 클 수 있음	더 작을 수 있음

7.2 선형 추정량의 제약

BLUE는 선형 추정량 안에서의 최선이다. 비선형 추정량까지 허용하면 더 효율적인 추정량이 있을 수 있다. 오차가 정규분포를 따르면 MLE가 UMVUE(Uniformly Minimum Variance Unbiased Estimator)와 일치하며, 이때 OLS = MLE = UMVUE이다.

8 Gauss-Markov 가정 위반 시

위반 유형	현상	결과	대안
이분산 (\(\text{Var}(\varepsilon_i) \neq \sigma^2\))	소득 높을수록 소비 분산도 큼	불편이지만 최소 분산 아님; 표준오차 과소/과대 추정	WLS, GLS, HC 표준오차
자기상관 (\(\text{Cov}(\varepsilon_t, \varepsilon_{t-k}) \neq 0\))	경제 시계열에서 충격이 지속	표준오차 과소 추정, t-검정 왜곡	GLS, HAC 표준오차
내생성 (\(E[\varepsilon \mid X] \neq 0\))	누락변수, 측정오차, 역인과	OLS 불편성 자체가 무너짐; 추정량이 편향	IV 추정, 2SLS
다중공선성 (\(\text{rank}(\mathbf{X}) < p\))	두 변수가 거의 같은 정보	OLS 분산 폭발; 추정 불안정	Ridge, LASSO, PCA 회귀

중요

가정 위반 시 OLS는 BLUE 지위를 잃는다. 단, 어떤 가정이 위반됐는지에 따라 결과가 다르다.

이분산/자기상관: 불편성은 유지되지만 효율성이 떨어진다 → 표준오차만 교정하면 추론은 가능하다
내생성: 불편성 자체가 무너진다 → 계수 해석 자체가 틀린다

9 일반 최소제곱법 (GLS)과의 관계

오차 공분산이 \(\text{Cov}(\boldsymbol{\varepsilon}) = \sigma^2\boldsymbol{\Omega}\) (\(\boldsymbol{\Omega} \neq \mathbf{I}\))인 경우, GLS 추정량이 BLUE가 된다:

\[ \hat{\boldsymbol{\beta}}_{\text{GLS}} = (\mathbf{X}^\top \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1} \mathbf{X}^\top \boldsymbol{\Omega}^{-1} \mathbf{y} \]

직관: \(\boldsymbol{\Omega}^{-1}\)은 분산이 큰 관측값에 낮은 가중치를 부여한다. 신뢰할 수 없는 관측값의 영향을 줄이는 것이다.

\(\boldsymbol{\Omega} = \mathbf{I}\)이면 GLS = OLS
\(\boldsymbol{\Omega} = \text{diag}(\sigma_1^2, \ldots, \sigma_n^2)\)이면 GLS = WLS (가중 최소제곱)
\(\boldsymbol{\Omega}\)를 알 수 없을 때는 추정하여 FGLS(Feasible GLS)를 사용한다

10 코드 예시

10.1 Python: OLS가 BLUE임을 시뮬레이션으로 확인

import numpy as np
import statsmodels.api as sm

np.random.seed(42)
n = 50
beta_true = np.array([2.0, 1.5])
n_sim = 10000  # 시뮬레이션 반복 횟수

ols_estimates = []
naive_estimates = []  # 처음 절반 데이터만 사용하는 추정량

for _ in range(n_sim):
    x = np.random.normal(0, 1, n)
    eps = np.random.normal(0, 1, n)  # GM 가정 충족
    y = beta_true[0] + beta_true[1] * x + eps

    X = sm.add_constant(x)

    # OLS (BLUE)
    ols = sm.OLS(y, X).fit()
    ols_estimates.append(ols.params[1])

    # 처음 n//2 관측값만 사용 (선형 불편이지만 비효율적)
    X_half = X[:n // 2]
    y_half = y[:n // 2]
    naive = sm.OLS(y_half, X_half).fit()
    naive_estimates.append(naive.params[1])

ols_arr = np.array(ols_estimates)
naive_arr = np.array(naive_estimates)

print(f"OLS   - 평균: {ols_arr.mean():.4f}, 분산: {ols_arr.var():.4f}")
print(f"Naive - 평균: {naive_arr.mean():.4f}, 분산: {naive_arr.var():.4f}")
print(f"참값: {beta_true[1]}")
# 두 추정량 모두 불편이지만 OLS의 분산이 약 2배 작음

10.2 Python: 이분산 상황에서 OLS vs WLS

import numpy as np
import statsmodels.api as sm

np.random.seed(42)
n = 200
x = np.random.uniform(1, 10, n)
# 이분산: Var(eps_i) = x_i^2 → 큰 x에서 잡음이 더 큼
eps = np.random.normal(0, x, n)
y = 3 + 2 * x + eps

X = sm.add_constant(x)

# OLS: GM4 위반 → 불편이지만 비효율적
ols = sm.OLS(y, X).fit()

# WLS: 이분산 구조를 알 때 → BLUE
weights = 1 / x**2
wls = sm.WLS(y, X, weights=weights).fit()

print("OLS 계수:", ols.params, "| 표준오차:", ols.bse)
print("WLS 계수:", wls.params, "| 표준오차:", wls.bse)
# WLS 표준오차가 더 작다 → WLS가 이 상황에서 더 효율적

10.3 R: Gauss-Markov 가정 진단

library(lmtest)    # 이분산, 자기상관 검정
library(sandwich)  # 강건 표준오차

set.seed(42)
n <- 200
x <- runif(n, 1, 10)
eps <- rnorm(n, 0, x)  # 이분산
y <- 3 + 2 * x + eps

model <- lm(y ~ x)

# Breusch-Pagan 이분산 검정
bptest(model)
# p-value < 0.05 → 이분산 의심

# HC3 강건 표준오차 (이분산에도 일관성 있는 추론)
library(lmtest)
coeftest(model, vcov = sandwich::vcovHC(model, type = "HC3"))

# WLS
wls_model <- lm(y ~ x, weights = 1 / x^2)
summary(wls_model)

11 추정량 비교 요약

추정량	불편성	효율성 (BLUE)	사용 조건
OLS	O	O (GM 가정 하)	GM1~GM4 충족
WLS	O	O (이분산 알 때)	분산 구조 알려진 경우
GLS	O	O (공분산 알 때)	등분산 위반 일반 경우
FGLS	근사 불편	점근적 효율	공분산 추정 필요
Ridge	X (편향)	X	고차원, 다중공선성
IV/2SLS	O	X (비효율)	내생성 있을 때

12 핵심 요약

힌트

BLUE 핵심 정리

정의: 선형 불편 추정량 중 분산이 최소인 추정량
OLS는 BLUE: Gauss-Markov 가정(선형, 풀 랭크, 외생성, 등분산·비상관) 하에서 성립
정규성 불필요: Gauss-Markov 정리는 정규 분포 가정을 요구하지 않는다
핵심 직관: OLS는 데이터의 모든 정보를 낭비 없이 사용하는 직교 투영이다
가정 위반 시: 위반 유형에 따라 불편성 또는 효율성 중 하나(또는 둘 다)를 잃는다
BLUE의 한계: 선형 불편 추정량 안에서의 최선이다. 편향을 허용하거나 비선형을 허용하면 더 나은 추정량이 존재할 수 있다

13 참고 문헌

Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Ch.11
Greene, W. H. (2018). Econometric Analysis (8th ed.). Pearson. Ch.4
Hayashi, F. (2000). Econometrics. Princeton University Press. Ch.1