1 왜 이 모형이 필요한가
단순 선형 회귀(SLR)에서는 설명변수 \(X\) 가 오차 없이 정확하게 관측된다고 가정한다. 실험 설계에서 연구자가 \(X\) 의 값을 직접 설정하는 경우(예: 약물 용량, 온도 조절)에는 이 가정이 합리적이다.
하지만 현실에서는 \(X\) 도 측정오차를 포함하는 경우가 많다:
- 혈압계로 측정한 혈압 → 실제 혈압과 차이
- IQ 테스트 점수 → 실제 지능과 차이
- 위성으로 관측한 기온 → 지상 실제 기온과 차이
이런 상황에서 통상 OLS를 적용하면 기울기 \(\hat{\beta}\) 가 체계적으로 0 방향으로 편향된다. 이것을 감쇠 편향(attenuation bias)이라 하며, 효과의 크기를 과소추정하게 된다. EIV(Errors-in-Variables) 모형은 이 문제를 명시적으로 모형화하여 편향을 교정한다 (Casella & Berger, 2002, §12.2). 교정 없이 OLS를 그대로 쓰면 실제 효과가 있어도 기울기가 0에 가깝게 추정되므로, 약물·교육·경제 정책의 효과를 체계적으로 과소평가하게 된다.
2 EIV 모형의 정의
2.1 잠재변수와 관측변수
“진짜 값” \(\xi_i\) (latent variable)와 “관측값” \(X_i\) 를 구분한다. \(Y\) 는 진짜 \(X\) 인 \(\xi_i\) 와 선형 관계에 있지만, 우리는 \(\xi_i\) 를 직접 관측할 수 없고 잡음이 섞인 \(X_i\) 만 관측한다.
독립적인 관측 쌍 \((X_i, Y_i)\), \(i = 1, \ldots, n\) 에 대해:
\[ Y_i = \alpha + \beta\xi_i + \epsilon_i, \quad \epsilon_i \sim N(0, \sigma_\epsilon^2) \] \[ X_i = \xi_i + \delta_i, \quad \delta_i \sim N(0, \sigma_\delta^2) \]
\(\epsilon_i\) 와 \(\delta_i\) 는 서로 독립이다. \(\xi_i\) 는 관측할 수 없는 잠재 변수이다.
(Casella & Berger, 2002, 식 12.2.4)
이 모형의 핵심은 두 종류의 오차가 존재한다는 것이다:
| 오차 | 기호 | 의미 | SLR에서 |
|---|---|---|---|
| 반응변수 오차 | \(\epsilon_i\) | \(Y\) 의 관측 잡음 + 모형 오차 | 존재 |
| 설명변수 오차 | \(\delta_i\) | \(X\) 의 측정 잡음 | 없다고 가정 |
SLR은 \(\delta_i = 0\) 인 특수 경우이다. \(\delta_i \neq 0\) 이면 근본적으로 다른 문제가 된다 — Casella & Berger는 “완전히 다른 주제로 생각하는 것이 최선”이라고 강조한다.
2.2 실제 예시: Forbes의 기압 추정
1800년대 스코틀랜드 물리학자 Forbes는 물의 끓는점(boiling temperature)을 측정하여 대기압(atmospheric pressure)을 추정하려 했다 (Casella & Berger, 2002, Example 12.2.1). 끓는점과 \(\log(\text{pressure})\) 모두 측정 오차를 포함하므로 EIV 모형이 자연스럽다.
3 Functional vs Structural Relationship
EIV 모형에서 잠재변수 \(\xi_i\) 를 어떻게 취급하느냐에 따라 두 가지 모형으로 나뉜다 (Casella & Berger, 2002, §12.2.1).
3.1 기능적 관계 (Functional Relationship)
\(\xi_1, \ldots, \xi_n\) 을 고정된 미지 모수(fixed unknown parameters)로 취급한다.
\[ Y_i = \alpha + \beta\xi_i + \epsilon_i, \quad X_i = \xi_i + \delta_i \]
추론은 \(\xi_1, \ldots, \xi_n\) 에 조건부(conditional)로 수행한다. 주된 관심사는 \(\alpha\) 와 \(\beta\) 이지만, \(\xi_1, \ldots, \xi_n\) 도 모수이므로 모수의 개수가 표본 크기에 비례하여 증가한다 (\(n + 4\) 개: \(\alpha, \beta, \sigma_\epsilon^2, \sigma_\delta^2, \xi_1, \ldots, \xi_n\)). 이것이 MLE에서 심각한 문제를 야기한다.
적합한 상황: 실험에서 \(X\) 의 “참값” \(\xi_i\) 가 고정되어 있지만 측정 장비의 한계로 정확히 읽을 수 없는 경우. 예: 실험실에서 온도를 200°C로 설정했지만 온도계의 오차로 198.5°C로 관측되는 경우.
3.2 구조적 관계 (Structural Relationship)
\(\xi_1, \ldots, \xi_n\) 을 공통 분포에서 나온 확률 변수(random variables)로 취급한다.
\[ \xi_i \overset{iid}{\sim} N(\mu_\xi, \sigma_\xi^2) \]
추론은 \(\xi_1, \ldots, \xi_n\) 을 적분으로 소거(marginalize)한 후의 주변 분포(marginal distribution)로 수행한다. 모수의 개수가 표본 크기와 무관하다 (\(\alpha, \beta, \sigma_\epsilon^2, \sigma_\delta^2, \mu_\xi, \sigma_\xi^2\) 의 6개).
적합한 상황: 모집단에서 랜덤하게 추출한 개체의 두 변수를 측정하는 경우. 예: 사람을 랜덤 추출하여 실제 혈압 \(\xi_i\) (미관측)와 혈압계 측정값 \(X_i\) 를 얻는 경우.
3.3 두 모형의 관계
| Functional | Structural | |
|---|---|---|
| \(\xi_i\) 의 성격 | 고정 모수 | 확률 변수 |
| 모수 수 | \(n + 4\) (표본 크기에 비례) | 6 (고정) |
| 추론 기반 | 조건부 분포 | 주변 분포 |
| 이론적 편의 | 낮음 | 높음 |
| 현실 적합성 | 실험 설계 | 관측 연구 |
Nussbaum (1976)에 따르면, functional 모형에서 일치(consistent)한 추정량은 structural 모형에서도 일치한다. 직관적 이유: functional 모형은 모든 \(\xi_i\) 값에 대해 일치성이 성립해야 하므로, \(\xi_i\) 를 평균한 structural 모형에서도 자동으로 성립한다. 역방향은 성립하지 않는다. 그러나 structural 모형에서 식별 불가능(non-identifiable)한 모수는 functional 모형에서도 식별 불가능하다 (Casella & Berger, 2002, §12.2.1).
4 통상 OLS의 감쇠 편향
4.1 왜 OLS가 실패하는가
\(X_i = \xi_i + \delta_i\) 를 무시하고 \(Y\) 를 \(X\) 에 대해 통상 OLS를 적용하면:
\[ \hat{\beta}_{OLS} = \frac{S_{XY}}{S_{XX}} = \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sum(X_i - \bar{X})^2} \]
\(n \to \infty\) 일 때 이 추정량의 확률 극한은:
\[ \hat{\beta}_{OLS} \xrightarrow{p} \beta \cdot \frac{\sigma_\xi^2}{\sigma_\xi^2 + \sigma_\delta^2} = \beta \cdot \lambda_{\text{reliability}} \]
\(\lambda_{\text{reliability}} = \sigma_\xi^2 / (\sigma_\xi^2 + \sigma_\delta^2) < 1\) 이므로 \(\hat{\beta}_{OLS}\) 는 \(|\beta|\) 보다 항상 작은 값으로 수렴한다.
예를 들어 \(\sigma_\xi^2 = \sigma_\delta^2\) (신호와 잡음이 동일한 크기)이면 \(\lambda = 0.5\) 이므로 OLS 기울기는 진짜 기울기의 절반만 추정한다. IQ를 혈압계로 측정하는 것처럼 측정 잡음이 클수록 추정량은 더욱 0에 가까워진다.
4.2 직관적 이해
\(X\) 에 잡음 \(\delta\) 가 섞이면 \(X\) 와 \(Y\) 의 상관이 약화된다. OLS는 이 약화된 상관만 포착하므로 기울기를 과소추정한다.
- \(\sigma_\delta^2 = 0\) (측정오차 없음): \(\lambda = 1\), OLS는 비편향
- \(\sigma_\delta^2 \to \infty\) (측정오차 극대): \(\lambda \to 0\), OLS 기울기 \(\to 0\) — \(X\) 가 순수 잡음이면 \(Y\) 와 무관하게 보임
- 일반적인 경우: 효과 크기를 체계적으로 과소추정 → 거짓 음성(false negative) 위험 증가
5 직교 최소제곱 (Orthogonal Least Squares)
5.1 핵심 아이디어
통상 OLS는 수직 거리(vertical distance, \(|y_i - \hat{y}_i|\))를 최소화한다. 이것은 \(X\) 에 오차가 없다는 암묵적 가정을 반영한다.
\(X\) 에도 오차가 있으면, 회귀 직선까지의 직교 거리(orthogonal/perpendicular distance)를 최소화하는 것이 더 합리적이다. 이를 전체 최소제곱(Total Least Squares)이라고도 한다 (Casella & Berger, 2002, §12.2.2).
5.2 해
직교 최소제곱의 기울기는 다음과 같다:
\[ \hat{b}_{OLS-\perp} = \frac{-(S_{XX} - S_{YY}) + \sqrt{(S_{XX} - S_{YY})^2 + 4S_{XY}^2}}{2S_{XY}} \]
여기서 \(S_{XX} = \sum(X_i - \bar{X})^2\), \(S_{YY} = \sum(Y_i - \bar{Y})^2\), \(S_{XY} = \sum(X_i - \bar{X})(Y_i - \bar{Y})\) 이다.
이 수식이 말하는 것: \(S_{XX} = S_{YY}\) 이면 분자의 첫 항이 0이 되고 \(\hat{b} = S_{XY}/|S_{XY}|\) 방향으로 단순화된다. \(S_{XX} \neq S_{YY}\) 인 일반적 경우, 판별식 \(\sqrt{\cdots}\) 이 분산의 비대칭성을 보정하여 \(Y\)-on-\(X\) OLS 직선과 \(X\)-on-\(Y\) OLS 직선의 기하평균에 해당하는 직선을 반환한다.
절편은 통상 OLS와 동일하다: \(\hat{a} = \bar{Y} - \hat{b}\bar{X}\).
5.3 OLS와의 비교
직교 최소제곱 직선은 항상 \(Y\) 를 \(X\) 에 대한 OLS 직선과 \(X\) 를 \(Y\) 에 대한 OLS 직선 사이에 놓인다 (Casella & Berger, 2002, Figure 12.2.2).
| 방법 | 최소화 대상 | \(X\) 오차 처리 |
|---|---|---|
| OLS (\(Y\) on \(X\)) | 수직 거리 \(\sum(Y_i - \hat{Y}_i)^2\) | 무시 |
| OLS (\(X\) on \(Y\)) | 수평 거리 \(\sum(X_i - \hat{X}_i)^2\) | 무시 (\(Y\) 오차 무시) |
| 직교 최소제곱 | 직교 거리 \(\sum d_i^2\) | \(X\), \(Y\) 대등 취급 |
6 최대우도추정 (MLE)
6.1 Functional 모형에서의 문제
Functional 모형의 우도함수를 직접 최대화하려 하면, \(\xi_i = X_i\) 로 설정하고 \(\sigma_\delta^2 \to 0\) 으로 보내면 우도가 무한대로 발산한다 (Casella & Berger, 2002, 식 12.2.12). Solari (1969)는 우도 방정식의 해가 극대점(maximum)이 아니라 안장점(saddle point)임을 보였다.
우도가 발산하는 직관적 이유: \(\xi_i = X_i\) 로 설정하면 \(X\) 측정오차가 0이 된다. 그러면 각 관측점 \((X_i, Y_i)\) 에서 \(Y_i = \alpha + \beta X_i + \varepsilon_i\) 만 남고, \(\sigma_\delta^2 \to 0\) 으로 보내면 \(\delta_i\) 의 분산이 0이 되어 정확 적합(perfect fit)에 가까워지므로 우도가 한없이 커진다. 모수를 늘려 과적합한 결과이다.
이것은 모수가 \(n + 4\) 개인데 관측은 \(2n\) 개뿐이므로, 모형이 과모수화(overparameterized)되어 발생하는 문제이다.
6.2 분산비 가정 (\(\lambda\) 가정)
이 문제를 해결하는 표준적 방법은 분산비를 알고 있다고 가정하는 것이다:
\[ \sigma_\delta^2 = \lambda \sigma_\epsilon^2, \quad \lambda > 0 \text{ (알려진 상수)} \]
\(\lambda\) 를 알면 미지 모수가 하나 줄어들어(\(\sigma_\delta^2\) 가 \(\sigma_\epsilon^2\) 에 종속), 우도함수가 유한한 최대값을 갖게 된다 (Casella & Berger, 2002, 식 12.2.13).
이 가정 하에서 \(\xi_i\) 를 먼저 최대화하면:
\[ \xi_i^* = \frac{X_i + \lambda\beta(Y_i - \alpha)}{1 + \lambda\beta^2} \]
대입 후 남은 우도를 \(\alpha\), \(\beta\) 에 대해 최대화하면, \(\lambda = 1\) 일 때 직교 최소제곱 해와 일치한다. 즉, 직교 최소제곱은 “\(X\) 오차와 \(Y\) 오차의 분산이 같다”는 가정 하의 MLE이다.
6.3 Structural 모형에서의 MLE
Structural 모형에서는 \(\xi_i\) 를 적분으로 소거하면 \((X_i, Y_i)\) 의 결합 분포가 이변량 정규분포가 된다:
\[ \begin{bmatrix} X_i \\ Y_i \end{bmatrix} \sim N\left(\begin{bmatrix} \mu_\xi \\ \alpha + \beta\mu_\xi \end{bmatrix}, \begin{bmatrix} \sigma_\xi^2 + \sigma_\delta^2 & \beta\sigma_\xi^2 \\ \beta\sigma_\xi^2 & \beta^2\sigma_\xi^2 + \sigma_\epsilon^2 \end{bmatrix}\right) \]
공분산 행렬에 모수 5개(\(\alpha, \beta, \sigma_\xi^2, \sigma_\delta^2, \sigma_\epsilon^2\))가 있지만, 이변량 정규분포의 공분산 행렬은 대칭이므로 자유 모수가 3개뿐이다. 따라서 \(\sigma_\delta^2\) 또는 \(\sigma_\epsilon^2\) 를 모르면 모수가 식별 불가능(non-identifiable)하다. 분산비 \(\lambda\) 를 알아야 식별 가능하다.
7 실무 대안: 도구변수와 Deming 회귀
7.1 도구변수 (Instrumental Variables, IV)
\(\xi_i\) 와 상관이 있지만 \(\delta_i\), \(\epsilon_i\) 와 상관이 없는 도구변수(instrument) \(Z_i\) 를 사용하면, 분산비를 모르더라도 \(\beta\) 를 일치추정할 수 있다.
\[ \hat{\beta}_{IV} = \frac{S_{ZY}}{S_{ZX}} = \frac{\sum(Z_i - \bar{Z})(Y_i - \bar{Y})}{\sum(Z_i - \bar{Z})(X_i - \bar{X})} \]
IV가 EIV 문제를 해결하는 직관: \(Z_i\) 는 \(\xi_i\) 와 상관이 있으므로 \(\beta\) 를 추정할 정보를 담고 있다. 그러나 \(Z_i\) 는 \(\delta_i\) (X의 측정오차)와 무관하므로, 분자 \(S_{ZY}\) 는 측정오차에 오염되지 않는다. 분모 \(S_{ZX}\) 역시 \(Z\) 와 \(\xi\) 의 공분산을 반영하여 분산비 없이 기울기를 식별한다. 교육년수를 추정할 때 부모 교육수준이나 지역 평균 임금을 도구변수로 쓰는 것이 전형적 예시이다.
도구변수는 계량경제학에서 내생성(endogeneity) 문제를 해결하는 표준 기법이기도 하다.
7.2 Deming 회귀
\(\lambda = \sigma_\delta^2 / \sigma_\epsilon^2\) 를 알 때, 가중 직교 최소제곱(weighted orthogonal least squares)을 Deming 회귀라 한다. 임상화학(clinical chemistry)에서 두 측정 방법의 일치도를 비교할 때 표준 방법으로 사용된다.
\[ \hat{\beta}_{Deming} = \frac{(S_{YY} - \lambda S_{XX}) + \sqrt{(S_{YY} - \lambda S_{XX})^2 + 4\lambda S_{XY}^2}}{2S_{XY}} \]
\(\lambda = 1\) 이면 직교 최소제곱과 동일하다.
8 코드 예시
8.1 Python
import numpy as np
import matplotlib.pyplot as plt
from scipy.odr import ODR, Model, RealData
np.random.seed(42)
# 진짜 관계: Y = 2 + 3*xi
n = 100
xi = np.random.uniform(1, 10, n)
sigma_eps = 1.0
sigma_del = 1.5
# 관측값 (측정오차 포함)
X = xi + np.random.normal(0, sigma_del, n)
Y = 2 + 3 * xi + np.random.normal(0, sigma_eps, n)
# 1. 통상 OLS (감쇠 편향 발생)
beta_ols = np.sum((X - X.mean()) * (Y - Y.mean())) / np.sum((X - X.mean())**2)
alpha_ols = Y.mean() - beta_ols * X.mean()
# 2. 직교 최소제곱 (Total Least Squares)
Sxx = np.sum((X - X.mean())**2)
Syy = np.sum((Y - Y.mean())**2)
Sxy = np.sum((X - X.mean()) * (Y - Y.mean()))
beta_orth = (-(Sxx - Syy) + np.sqrt((Sxx - Syy)**2 + 4 * Sxy**2)) / (2 * Sxy)
alpha_orth = Y.mean() - beta_orth * X.mean()
# 3. Deming 회귀 (lambda = sigma_del^2 / sigma_eps^2)
lam = sigma_del**2 / sigma_eps**2
beta_deming = ((Syy - lam * Sxx) + np.sqrt((Syy - lam * Sxx)**2 + 4 * lam * Sxy**2)) / (2 * Sxy)
alpha_deming = Y.mean() - beta_deming * X.mean()
# 감쇠 편향 확인
reliability = np.var(xi) / (np.var(xi) + sigma_del**2)
print(f"진짜 beta: 3.0")
print(f"OLS beta: {beta_ols:.3f} (감쇠 편향: {3.0 * reliability:.3f} 근처로 수렴)")
print(f"직교 LS: {beta_orth:.3f}")
print(f"Deming: {beta_deming:.3f}")
# 시각화
x_plot = np.linspace(0, 12, 100)
fig, ax = plt.subplots(figsize=(8, 6))
ax.scatter(X, Y, alpha=0.4, s=20, label='관측 데이터')
ax.plot(x_plot, 2 + 3 * x_plot, 'k--', linewidth=2, label=f'진짜 관계 (beta=3.0)')
ax.plot(x_plot, alpha_ols + beta_ols * x_plot, 'r-', label=f'OLS (beta={beta_ols:.2f})')
ax.plot(x_plot, alpha_orth + beta_orth * x_plot, 'b-', label=f'직교 LS (beta={beta_orth:.2f})')
ax.plot(x_plot, alpha_deming + beta_deming * x_plot, 'g-', label=f'Deming (beta={beta_deming:.2f})')
ax.set_xlabel('X (측정오차 포함)')
ax.set_ylabel('Y')
ax.set_title('EIV 모형: OLS vs 직교 최소제곱 vs Deming')
ax.legend()
plt.tight_layout()
plt.show()이 Python 코드가 보여주는 것: 진짜 기울기 3.0을 기준으로 OLS 추정값이 약 1.7~1.9 수준으로 과소추정됨을 확인할 수 있다. 직교 최소제곱과 Deming은 3.0에 훨씬 가깝게 복원한다. \(\lambda = (1.5/1.0)^2 = 2.25\) 이므로 OLS의 신뢰도 계수 \(\lambda_{\text{rel}} \approx 1/(1+2.25) \approx 0.31\) — 이론 예측과 시뮬레이션 결과가 일치함을 그림에서 직관적으로 확인한다.
8.2 R
library(mcr) # Method Comparison Regression (Deming)
set.seed(42)
n <- 100
xi <- runif(n, 1, 10)
sigma_eps <- 1.0
sigma_del <- 1.5
X <- xi + rnorm(n, 0, sigma_del)
Y <- 2 + 3 * xi + rnorm(n, 0, sigma_eps)
# OLS
fit_ols <- lm(Y ~ X)
cat("OLS beta:", coef(fit_ols)[2], "\n")
# Deming 회귀
fit_deming <- mcreg(X, Y, method.reg = "Deming",
error.ratio = sigma_del^2 / sigma_eps^2)
cat("Deming beta:", fit_deming@para[2], "\n")
# 시각화
plot(X, Y, pch = 20, col = "gray60", main = "EIV: OLS vs Deming")
abline(2, 3, lty = 2, lwd = 2) # 진짜 관계
abline(fit_ols, col = "red", lwd = 2) # OLS
abline(fit_deming@para, col = "blue", lwd = 2) # Deming
legend("topleft", legend = c("True (beta=3)",
paste0("OLS (beta=", round(coef(fit_ols)[2], 2), ")"),
paste0("Deming (beta=", round(fit_deming@para[2], 2), ")")),
col = c("black", "red", "blue"), lty = c(2, 1, 1), lwd = 2)이 R 코드는 mcr 패키지의 Deming 회귀를 OLS와 나란히 그려 시각화한다. 붉은 OLS 직선이 검정 진짜 직선보다 완만하게(0 방향으로 기울어져) 그려지고, 파란 Deming 직선이 진짜 직선에 훨씬 가까이 따라감을 확인한다.
9 요약
| 주제 | 핵심 내용 |
|---|---|
| EIV 모형 | \(X\) 에도 측정오차 \(\delta_i\) 가 존재; SLR과 근본적으로 다른 문제 |
| Functional | \(\xi_i\) = 고정 모수; 조건부 추론; 모수 수가 \(n\) 에 비례 |
| Structural | \(\xi_i\) = 확률 변수; 주변 분포 추론; 모수 수 고정 |
| 감쇠 편향 | OLS 기울기가 \(\beta \cdot \sigma_\xi^2 / (\sigma_\xi^2 + \sigma_\delta^2)\) 로 축소 |
| 직교 LS | 직교 거리 최소화; \(\lambda = 1\) 가정의 MLE |
| MLE | 분산비 \(\lambda = \sigma_\delta^2/\sigma_\epsilon^2\) 를 모르면 식별 불가능 |
| Deming | 가중 직교 LS; \(\lambda\) 를 알 때 MLE와 동등 |
| 도구변수 | \(\lambda\) 없이도 \(\beta\) 일치추정 가능 |
10 관련 주제
선행 지식
- Simple Linear Regression: Overview — SLR 가정과 OLS
- Regression Models Overview — 회귀 모형 전체 계보
후속 주제
- SLR: Least Squares — OLS의 기하학적 해석 (열 공간 정사영)
- EIV: A Least Squares Solution — 직교 LS 유도, 세 직선 비교, PCA 연결
- EIV: Maximum Likelihood Estimation — 우도 발산, 분산비 가정, 단계별 MLE
- EIV: Confidence Sets — Gleser-Hwang 불가능성, Creasy-Williams 신뢰 집합
- Logistic Regression: The Model — GLM 3요소, 로짓, 오즈비 (Casella §12.3)
- Robust Regression — OLS 취약성, LAD, M-추정, Huber ρ (Casella §12.4)
- Multiple Linear Regression — 행렬 OLS, Gauss-Markov, F-검정, 다중공선성
다른 카테고리 연결