1 개요
§11.3.1 포스트에서는 확률 가정 없이 최소제곱해를 구했고, §11.3.2 포스트에서는 1·2차 모멘트 가정만으로 그 해가 BLUE 임을 증명했다. 하지만 두 포스트 모두 한 가지 중요한 일을 하지 못했다: 추정량의 분포를 알려주는 것이다.
분포를 모르면 다음이 불가능하다:
- \(\hat\beta\) 가 얼마나 정확한지 확률적으로 진술할 수 없다 (신뢰구간)
- \(\beta = 0\) 인지 검정할 수 없다 (\(t\)-test, \(F\)-test)
- 새로운 관측의 예측 구간을 구할 수 없다
- 최대우도 추정(MLE)을 정의할 수 없다 — 우도함수 자체가 분포에 의존한다
직관적으로: 추정량이 불편이고 분산이 최소라는 것을 안다. 하지만 ’참값에서 2 표준오차 이내에 있을 확률이 95%인가?’를 답하려면 추정량의 꼬리 행동을 알아야 한다. 정규분포라면 이 확률이 정확히 계산되고, 자유도가 작으면 \(t\)-분포가 두꺼운 꼬리를 반영한다. 분포를 모르면 이런 확률적 진술이 불가능하다.
이 포스트는 그 공백을 채우는 분포 가정의 도입을 다룬다. Casella & Berger(2002, §11.3.3)는 두 가지 모형을 제시한다:
- 조건부 정규 모형(Conditional Normal Model): \(x_i\) 가 고정, \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) 독립
- 이변량 정규 모형(Bivariate Normal Model): \((X_i, Y_i)\) 가 iid 이변량 정규
두 모형은 서로 다른 출발점을 갖지만, 회귀 추론은 조건부 분포에 기초하므로 실질적으로 같은 결과를 낳는다. 이 구조를 이해하는 것이 §11.3.4(추론)로 넘어가기 전의 핵심이다.
2 가정의 계층 구조: 네 수준
Casella & Berger 가 §11.3 전체를 통해 구축하는 가정의 계층을 먼저 한 눈에 정리한다.
| 수준 | 가정 | 얻는 것 | 못 얻는 것 | 절 |
|---|---|---|---|---|
| 0 | 없음 (실수 쌍) | 최소제곱해 \(\hat\beta\), 대수적 성질 | 통계적 성질 전부 | §11.3.1 |
| 1 | \(E Y_i = \alpha + \beta x_i\), 등분산, 무상관 | 불편성, BLUE | 분포, CI, test | §11.3.2 |
| 2 | + 독립, + 정규분포 | MLE, \(\hat\beta\) 의 정규분포, \(S^2\) 의 \(\chi^2\), 독립성 | 대규모 표본 근사 불필요 | §11.3.3 |
| 3 | (이변량 정규) | 조건부로 환원 → 수준 2 와 동일 | \(X\) 의 주변분포 정보는 비활용 | §11.3.3 |
수준 0 → 1 → 2 로 올라갈수록 가정이 강해지고 결론도 강해진다. 이 관계를 이해하면 “왜 정규성이 필요한가”와 “정규성이 위반되면 무엇이 무너지는가”를 정확히 구분할 수 있다.
수준 0은 어둠 속에서 손전등 없이 더듬는 것이다. 직선이 어디에 있는지는 알지만, 그 직선이 얼마나 믿을 만한지 말할 수 없다. 수준 1은 약한 조명 — 방향(불편성)과 상대적 정밀도(BLUE)는 보이지만, 정확한 윤곽(분포)은 보이지 않는다. 수준 2(정규 가정)는 환한 조명이다. 추정량의 정확한 모양, 꼬리 확률, 신뢰대(band)가 모두 보인다. 대가는 “분포가 실제로 정규일 때만 정확하다”는 제약이다.
3 조건부 정규 모형 (Conditional Normal Model)
3.1 모형 정의 (11.3.22)
설명변수 \(x_1, \ldots, x_n\) 은 알려진 고정 상수이다. 반응변수 \(Y_1, \ldots, Y_n\) 은 독립 확률변수이며,
\[ Y_i \sim N(\alpha + \beta x_i, \;\sigma^2), \qquad i = 1, \ldots, n. \]
모수는 \(\alpha\) (절편), \(\beta\) (기울기), \(\sigma^2\) (오차 분산)의 세 개이다.
오차항 형태로 다시 쓰면:
\[ Y_i = \alpha + \beta x_i + \epsilon_i, \qquad \epsilon_1, \ldots, \epsilon_n \overset{\text{iid}}{\sim} N(0, \sigma^2). \]
3.2 §11.3.2 와의 관계
조건부 정규 모형은 §11.3.2 모형의 특수한 경우이다. §11.3.2에서는 \(E Y_i = \alpha + \beta x_i\), \(\mathrm{Var}\,Y_i = \sigma^2\), 무상관만 가정했다. 여기서 두 가지가 강화된다:
| §11.3.2 → §11.3.3 | 기존 가정 | 강화된 가정 |
|---|---|---|
| 상관 구조 | 무상관 (\(\mathrm{Cov}(Y_i,Y_j)=0\)) | 독립 (\(Y_i \perp Y_j\)) |
| 분포 형태 | 미지정 | 정규분포 |
왜 독립이 무상관보다 강한가: 무상관은 2차 모멘트 조건이다. 독립은 모든 차수의 모멘트(그리고 모든 비선형 함수)에 대한 조건이다. 정규분포 하에서는 무상관 = 독립이지만, 일반 분포에서는 무상관이면서 종속인 예가 존재한다(예: \(X \sim N(0,1)\), \(Y = X^2\) 는 무상관이지만 완전히 종속). 정규 가정을 얹으면 무상관이 자동으로 독립으로 승격되므로, §11.3.2의 무상관 가정은 사실상 독립으로 변한다.
3.3 결합 PDF (11.3.24)
\(Y_1, \ldots, Y_n\) 이 독립이므로 결합 밀도는 주변 밀도의 곱이다:
\[ \begin{aligned} f(\mathbf{y} \mid \alpha, \beta, \sigma^2) &= \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\,\sigma} \exp\!\left[-\frac{(y_i - \alpha - \beta x_i)^2}{2\sigma^2}\right] \\ &= \frac{1}{(2\pi)^{n/2}\,\sigma^n} \exp\!\left[-\frac{\sum_{i=1}^n (y_i - \alpha - \beta x_i)^2}{2\sigma^2}\right]. \]
주목할 점: 지수부에 \(\sum(y_i - \alpha - \beta x_i)^2\) 가 나타난다 — RSS 와 정확히 같은 형태이다. 이것이 정규분포의 선물이다. 정규분포의 지수부가 이차식(제곱합)이기 때문에, 우도 최대화가 곧 제곱합 최소화가 된다. 다른 분포(예: 라플라스)였다면 지수부가 \(\sum|y_i - \alpha - \beta x_i|\) 이 되어 전혀 다른 추정량이 나온다.
이 식이 §11.3.4에서 MLE, 검정, 신뢰구간의 출발점이 된다. 지수부의 분자 \(\sum(y_i - \alpha - \beta x_i)^2\) 는 정확히 §11.3.1의 RSS(잔차제곱합)이다.
\[ \log L(\alpha, \beta, \sigma^2 \mid \mathbf{y}) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\sigma^2 - \frac{\mathrm{RSS}(\alpha,\beta)}{2\sigma^2}. \]
고정된 \(\sigma^2\) 에 대해 \(\log L\) 를 \((\alpha, \beta)\) 로 최대화하는 것은 RSS 를 최소화하는 것과 동치이다. 즉, MLE = OLS. 세 번째로 같은 추정량이 나온다.
4 MLE 유도
4.1 \(\alpha, \beta\) 의 MLE
위 관찰에서 바로 나온다. \(\sigma^2\) 를 고정하면 로그우도는 \(-\mathrm{RSS}/2\sigma^2\) 에 의존하므로, RSS 를 최소화하는 값이 MLE 이다. 그런데 이것은 §11.3.1에서 이미 구한 최소제곱해이다:
\[ \hat\beta_{\text{MLE}} = b = \frac{S_{xY}}{S_{xx}}, \qquad \hat\alpha_{\text{MLE}} = a = \bar Y - b\bar x. \]
세 가지 경로(수학적 최적화, 통계적 BLUE, 최대우도)가 정확히 같은 추정량에 수렴한다는 사실은 이 추정량의 구조적 견고함을 보여준다.
4.2 \(\sigma^2\) 의 MLE
\(\hat\alpha, \hat\beta\) 를 대입한 뒤 \(\sigma^2\) 에 대해 미분하면:
\[ \frac{\partial}{\partial \sigma^2} \log L = -\frac{n}{2\sigma^2} + \frac{\mathrm{RSS}}{2(\sigma^2)^2} = 0 \quad \Longrightarrow \quad \hat\sigma^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n \hat\epsilon_i^2 = \frac{\mathrm{RSS}}{n}. \]
여기서 \(\hat\epsilon_i = Y_i - \hat\alpha - \hat\beta x_i\) 는 잔차(residual)이다.
이 추정량은 편향(biased)이다. 왜 그런지는 다음 절에서 본다.
5 잔차와 분산 추정
5.1 잔차의 정의 (11.3.27)
오차(error)와 잔차(residual)는 다르다. 이 구분은 회귀 분석 전체의 기초이다.
| 항목 | 기호 | 정의 | 관측 가능 여부 |
|---|---|---|---|
| 오차 | \(\epsilon_i\) | \(Y_i - \alpha - \beta x_i\) | 불가 (참 모수 미지) |
| 잔차 | \(\hat\epsilon_i\) | \(Y_i - \hat\alpha - \hat\beta x_i\) | 가능 (추정량으로 계산) |
오차는 “신이 아는” 참값으로부터의 편차이고, 잔차는 “우리가 추정한” 직선으로부터의 편차이다. 잔차는 오차의 대리물(proxy)이지만 오차와 같지 않다. 두 모수를 추정하느라 자유도 2를 소비한다.
5.2 \(\hat\sigma^2_{\text{MLE}}\) 는 왜 편향인가
Casella & Berger 는 길지만 결정적인 계산(11.3.28)을 통해 다음을 보인다:
\[ E\hat\sigma^2_{\text{MLE}} = E\!\left[\frac{1}{n}\sum_{i=1}^n \hat\epsilon_i^2\right] = \frac{n-2}{n}\,\sigma^2. \]
즉, MLE 는 \(\sigma^2\) 를 체계적으로 과소추정한다. 비율은 \((n-2)/n\) — 표본이 작을수록 과소추정이 심하다 (\(n=3\) 이면 \(1/3\) 만큼 과소).
직관적 이유: 잔차는 추정된 직선으로부터의 편차이다. 추정 직선은 데이터에 맞춰져 있으므로, 참 직선보다 데이터에 더 가깝다. 따라서 잔차의 크기가 오차의 크기보다 체계적으로 작다. 이 “과적합” 효과를 보정하는 것이 자유도 \(n-2\) 이다.
왜 하필 \(n-2\) 인가? 직관적으로: 직선을 확정하는 데 2개 점(데이터의 2차원 자유도)을 “소비”했으므로, 잔차에는 \(n-2\) 차원의 변동만 남는다. §11.3.1의 사영행렬 관점에서 \(\hat{\boldsymbol\epsilon} = (\mathbf{I} - \mathbf{H})\mathbf{Y}\) 이고, \(\mathrm{rank}(\mathbf{I} - \mathbf{H}) = n - 2\) 이다.
5.3 불편 추정량 \(S^2\) (11.3.29)
불편 보정은 \(n\) 을 \(n-2\) 로 교체하면 된다:
\[ \boxed{\;S^2 = \frac{1}{n-2}\sum_{i=1}^n \hat\epsilon_i^2 = \frac{\mathrm{RSS}}{n-2}.\;} \]
\(E S^2 = \sigma^2\) 이다. 이것이 실무에서 사용하는 “잔차 평균 제곱”(MSE, Mean Squared Error)이다.
자유도 \(n-p\) 에서 \(p\) 는 추정된 모수의 수이다. 단순 선형 회귀에서 \(p = 2\) (\(\alpha, \beta\)), 다중 회귀에서 \(p\) 는 설계행렬의 열 수, 일원 ANOVA 에서 \(p = k\) (집단 수). 이 패턴은 통계학 전체에 걸쳐 반복된다.
6 Lemma 11.3.2: 선형 추정량의 공분산
분포 가정 없이 성립하는 유용한 보조정리를 여기서 소개한다(증명에 정규성 불필요).
\(Y_1, \ldots, Y_n\) 이 무상관, \(\mathrm{Var}\,Y_i = \sigma^2\) 이면, 상수 \(c_1, \ldots, c_n\) 과 \(d_1, \ldots, d_n\) 에 대해
\[ \mathrm{Cov}\!\left(\sum_{i=1}^n c_i Y_i, \;\sum_{i=1}^n d_i Y_i\right) = \sigma^2 \sum_{i=1}^n c_i d_i. \]
증명: \(\mathrm{Cov}(Y_i, Y_j) = 0\) (\(i \ne j\))이므로
\[ \mathrm{Cov}\!\left(\sum c_i Y_i, \sum d_j Y_j\right) = \sum_i \sum_j c_i d_j \,\mathrm{Cov}(Y_i, Y_j) = \sum_i c_i d_i \,\mathrm{Var}\,Y_i = \sigma^2 \sum_i c_i d_i. \]
이 보조정리는 \(\hat\alpha, \hat\beta\) 의 분산과 공분산, 그리고 \(\hat\alpha, \hat\beta\) 와 \(S^2\) 의 독립성 증명에 핵심적으로 활용된다.
6.1 응용: \(\hat\alpha\) 와 \(\hat\beta\) 의 공분산
\(\hat\beta = \sum d_i Y_i\) (\(d_i = (x_i - \bar x)/S_{xx}\)), \(\hat\alpha = \sum c_i Y_i\) (\(c_i = 1/n - (x_i - \bar x)\bar x / S_{xx}\)) 이므로
\[ \mathrm{Cov}(\hat\alpha, \hat\beta) = \sigma^2 \sum_{i=1}^n c_i d_i = \sigma^2 \sum \left[\frac{1}{n} - \frac{(x_i - \bar x)\bar x}{S_{xx}}\right] \cdot \frac{x_i - \bar x}{S_{xx}}. \]
\(\sum(x_i - \bar x)/n = 0\) 이므로 첫 항은 소멸하고,
\[ \mathrm{Cov}(\hat\alpha, \hat\beta) = -\frac{\sigma^2 \bar x}{S_{xx}} \cdot \frac{1}{S_{xx}} \sum(x_i - \bar x)^2 = -\frac{\sigma^2 \bar x}{S_{xx}}. \]
이 결과는 §11.3.2 포스트에서 이미 언급한 것과 일치한다.
7 Theorem 11.3.3: 표본분포 정리
조건부 정규 모형의 추론 전체를 뒷받침하는 핵심 정리이다.
조건부 정규 회귀 모형 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) (독립) 하에서:
(a) 추정량의 분포
\[ \hat\alpha \sim N\!\left(\alpha, \;\frac{\sigma^2 \sum x_i^2}{n\,S_{xx}}\right), \qquad \hat\beta \sim N\!\left(\beta, \;\frac{\sigma^2}{S_{xx}}\right). \]
\[ \mathrm{Cov}(\hat\alpha, \hat\beta) = -\frac{\sigma^2 \bar x}{S_{xx}}. \]
(b) \(S^2\) 의 분포
\[ \frac{(n-2)\,S^2}{\sigma^2} \sim \chi^2_{n-2}. \]
(c) 독립성
\((\hat\alpha, \hat\beta)\) 와 \(S^2\) 는 독립이다.
7.1 증명 개요
(a) \(\hat\beta = \sum d_i Y_i\) 는 독립 정규 확률변수의 선형 결합이므로 정규분포이다 (Corollary 4.6.10). 평균과 분산은 §11.3.2에서 이미 유도했다. \(\hat\alpha\) 도 같은 논리.
(b) 정규 확률변수의 이차 형식의 분포에 관한 결과이다. \(\hat\epsilon_i = Y_i - \hat\alpha - \hat\beta x_i\) 는 원래 \(n\) 개의 독립 정규변수에서 2차원 사영 \(\mathbf{H}\) 를 빼낸 것이므로, 잔차 벡터 \(\hat{\boldsymbol\epsilon} = (\mathbf{I}-\mathbf{H})\mathbf{Y}\) 는 \(n-2\) 차원의 정규 벡터이고, \(\|\hat{\boldsymbol\epsilon}\|^2 / \sigma^2 = (n-2)S^2/\sigma^2 \sim \chi^2_{n-2}\) 이다.
독립성 (c) 가 왜 결정적인가? \(t\)-통계량은 \((\hat\beta - \beta) / (S/\sqrt{S_{xx}})\) 인데, 분자(정규)를 분모( \(\chi\) 기반)로 나눈 것이다. 만약 분자와 분모가 상관되어 있다면, 그 비의 분포가 \(t\) 가 아니라 알 수 없는 형태가 된다. 독립성이 \(t\)-분포를 보장하고, \(t\)-분포가 신뢰구간과 검정을 가능하게 한다.
(c) \((\hat\alpha, \hat\beta)\) 는 \(\mathbf{H}\mathbf{Y}\) 의 함수이고 \(S^2\) 는 \((\mathbf{I}-\mathbf{H})\mathbf{Y}\) 의 함수이다. 사영행렬 \(\mathbf{H}\) 와 \(\mathbf{I}-\mathbf{H}\) 는 직교 보사영이므로 \(\mathbf{H}(\mathbf{I}-\mathbf{H}) = \mathbf{0}\) 이다. 정규 벡터에서 직교 이차 형식 간의 공분산은 0이고, 정규 분포에서 무상관 = 독립이므로 결론이 따른다.
7.2 왜 이 정리가 중요한가
이 세 가지 결과는 §11.3.4에서 다음을 유도하는 재료이다:
- (a) + (b) + (c) → \(t\) 통계량: \[\frac{\hat\beta - \beta_0}{S / \sqrt{S_{xx}}} \sim t_{n-2}\] (정규 ÷ 독립 카이제곱의 제곱근 = \(t\)-분포)
- (a) → \(\hat\beta\) 의 신뢰구간
- (b) → \(\sigma^2\) 의 신뢰구간
- (a) + (b) → 회귀 계수의 \(F\)-검정 (ANOVA 분해)
독립성 (c) 가 빠지면 \(t\)-분포 유도가 성립하지 않는다. 분자(추정량)와 분모(표준오차)가 종속이면 그 비의 분포가 \(t\) 가 아니기 때문이다.
8 이변량 정규 모형 (Bivariate Normal Model)
8.1 모형 정의
조건부 정규 모형에서 \(x_i\) 는 고정 상수였다. 하지만 Galton 의 원래 예시(아버지와 아들의 키)에서처럼, \(x_i\) 도 확률변수의 관측값인 경우가 많다. 이때 자연스러운 모형이 이변량 정규 모형이다.
\((X_1, Y_1), \ldots, (X_n, Y_n)\) 이 iid 이변량 정규이다:
\[ (X_i, Y_i) \sim \text{Bivariate Normal}(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho). \]
모수는 5개: \(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho\).
8.2 조건부 분포로의 환원 (11.3.25–11.3.26)
이변량 정규 분포의 핵심 성질: \(X = x\) 가 주어졌을 때 \(Y\) 의 조건부 분포는 정규이다.
\[ E(Y \mid x) = \mu_Y + \rho \frac{\sigma_Y}{\sigma_X}(x - \mu_X) = \underbrace{\left[\mu_Y - \rho\frac{\sigma_Y}{\sigma_X}\mu_X\right]}_{= \alpha} + \underbrace{\left[\rho\frac{\sigma_Y}{\sigma_X}\right]}_{= \beta} x. \]
\[ \mathrm{Var}(Y \mid x) = \sigma_Y^2(1 - \rho^2). \]
조건부 분산이 \(x\) 에 의존하지 않는다는 점에 주목한다. 이것은 이변량 정규의 특수한 성질이며, 일반적인 결합 분포에서는 성립하지 않는다.
이것은 이변량 정규의 특수한 성질이다. 대부분의 결합 분포에서 조건부 분산은 \(x\) 에 따라 변한다. 예를 들어 이변량 로그정규에서는 \(x\) 가 클수록 \(\mathrm{Var}(Y|x)\) 도 커진다. 이변량 정규의 대칭적 구조가 조건부 분산을 \(x\) 와 무관하게 만들며, 이것이 ’정규 가정 하에서 등분산이 자동으로 성립한다’는 주장의 근거이다.
8.3 두 모형의 실질적 동치
\(X_1 = x_1, \ldots, X_n = x_n\) 으로 조건부를 잡으면, \(Y_1, \ldots, Y_n\) 은 조건부로 독립이고
\[ Y_i \mid X_i = x_i \sim N(\alpha + \beta x_i, \;\sigma_Y^2(1-\rho^2)), \]
이것은 조건부 정규 모형(11.3.22)과 정확히 같은 구조이다(\(\sigma^2 = \sigma_Y^2(1-\rho^2)\)).
따라서 회귀 추론(점추정, 구간추정, 가설검정)은 두 모형에서 동일하다. \(x\) 가 고정이든 확률변수이든, 조건부 분포에 기초한 추론은 같다. 이것이 회귀 분석에서 “조건부 사고”가 표준이 되는 이유다.
회귀에서 \(X\) 의 주변분포(marginal)는 무관하다. 관심은 항상 “\(X = x\) 를 안다면 \(Y\) 는 무엇인가”이다. 이변량 정규 모형에서도 \(X\) 의 주변분포 \(N(\mu_X, \sigma_X^2)\) 는 회귀 계수 추정에 쓰이지 않는다. 쓰이는 것은 조건부 \(Y \mid X\) 뿐이다. 이 관점은 단순 회귀를 넘어 모든 회귀 분석의 철학적 기초이다.
8.4 이변량 모형이 줄 수 있는 것과 줄 수 없는 것
| 이변량 정규 모형의 장점 | 한계 |
|---|---|
| 선형성을 가정하지 않고 도출한다 (이변량 정규 → \(E(Y \mid x)\) 자동 선형) | 정규성 가정이 더 강하다 (5개 모수 가정) |
| \(\rho\) 와 \(\beta\) 의 명시적 관계: \(\beta = \rho \sigma_Y / \sigma_X\) | \(X\) 의 주변분포 정보가 회귀에 쓰이지 않아 비효율적 |
| 두 변수의 대칭적 관계 해석 가능 (\(X\) 와 \(Y\) 의 역할 교환) | 실무에서 \(X\) 가 비정규이면 모형 전체가 부적합 |
\(X\) 와 \(Y\) 가 각각 주변적으로(marginally) 정규분포여도, 결합 분포가 이변량 정규라는 보장은 없다(Casella & Berger, Exercise 4.47). 따라서 QQ-plot 으로 \(X, Y\) 의 개별 정규성을 확인하는 것만으로는 이변량 정규 가정을 검증할 수 없다.
9 모수 관계의 재매핑
이변량 정규 모형의 5개 모수와 회귀 모형의 3개 모수 사이의 관계를 정리한다.
9.1 이변량 → 회귀
\[ \begin{aligned} \beta &= \rho \frac{\sigma_Y}{\sigma_X}, \\ \alpha &= \mu_Y - \beta \mu_X = \mu_Y - \rho \frac{\sigma_Y}{\sigma_X} \mu_X, \\ \sigma^2 &= \sigma_Y^2(1 - \rho^2). \end{aligned} \]
9.2 회귀 → 이변량
역방향은 유일하지 않다. \(\alpha, \beta, \sigma^2\) 만으로는 \(\mu_X\) 와 \(\sigma_X\) 를 복원할 수 없다. 이는 회귀 분석이 \(X\) 의 주변분포 정보를 사용하지 않는다는 사실의 대수적 반영이다.
9.3 \(\rho^2\) 와 \(R^2\) 의 관계
표본 상관계수의 제곱 \(r^2\) 는 결정계수 \(R^2\) 와 일치한다(§11.3.1에서 이미 확인):
\[ R^2 = r^2 = \frac{S_{xY}^2}{S_{xx} \cdot S_{YY}}. \]
모집단 수준에서 \(\rho^2 = \beta^2 S_{xx}^{\text{pop}} / S_{YY}^{\text{pop}}\) 이고, 이는 \(1 - \sigma^2/\sigma_Y^2\) 와 같다. 즉, \(\rho^2\) 는 “\(Y\) 의 총 변동 중 \(X\) 로 설명되는 비율”의 모집단 대응물이다.
10 분포 가정을 추가하면 무엇을 얻는가: 총정리
이 포스트의 메타적 교훈을 §11.3 전체 맥락에서 정리한다.
10.1 §11.3.1 → §11.3.2 (가정 없음 → 모멘트 가정)
- 투입: 등분산·무상관
- 획득: 불편성, BLUE 최적성, \(\mathrm{Var}\,b\) 공식
- 대가: 비선형 추정량을 배제
10.2 §11.3.2 → §11.3.3 (모멘트 가정 → 정규 가정)
- 투입: 독립성, 정규분포
- 획득: (a) \(\hat\beta\) 의 정규분포 → 신뢰구간, 검정 (b) \(S^2\) 의 \(\chi^2\) 분포 → \(\sigma^2\) 의 추론 (c) 독립성 → \(t\) 통계량 유도 MLE = OLS (우도 최대화의 정당화) BLUE → UMVUE 로 승격 (정규 지수족 + Rao-Blackwell)
- 대가: 분포가 정규가 아니면 정확한 분포가 무너짐
10.3 정규성 위반의 영향 계층
정규 가정이 약간 위반될 때와 심하게 위반될 때의 영향은 다르다:
| 항목 | 약한 비정규 | 심한 비정규 (중꼬리·이상치) |
|---|---|---|
| 점추정 (\(\hat\beta\)) | 여전히 불편, 여전히 BLUE | 불편이지만 효율 저하 (LAD, M-추정이 우수) |
| \(t\)-검정 | CLT 로 근사 유효 (\(n \geq 30\)) | 검정력 저하, 유의수준 왜곡 가능 |
| 신뢰구간 | 포함 확률 근사 유효 | 포함 확률 명목 아래로 하락 |
| \(S^2\) 의 \(\chi^2\) | 약간 왜곡 | 심하게 왜곡 (이상치에 민감) |
| MLE 최적성 | 근사 유효 | MLE ≠ OLS (비정규 우도에서) |
실무적 함의: 정규 가정은 점추정에는 필수가 아니다(BLUE 는 모멘트만 필요). 정규 가정이 결정적으로 필요한 곳은 정확한 추론(exact inference) — 소표본에서의 \(t\)-통계량, \(F\)-통계량, \(\chi^2\)-통계량이다. 대표본에서는 CLT 가 정규 가정을 대체한다.
11 응용 분야
| 분야 | 모형 선택 | 이유 |
|---|---|---|
| 통제 실험 (약물 용량, 물리 측정) | 조건부 정규 | \(x\) 를 실험자가 설정, 고정 상수로 취급 가능 |
| 관측 연구 (키-몸무게, 소득-소비) | 이변량 정규 | \(x\) 도 확률 변수, 둘 다 랜덤 |
| 시계열 예측 | 조건부 (조건부 이분산 모형) | \(x\) 는 과거 값(고정으로 조건부) |
| A/B 테스트 후속 분석 | 조건부 정규 | 처치를 할당한 후 결과를 관측 |
| 유전학 (Galton 류) | 이변량 정규 | 부모와 자녀 형질 모두 확률적 |
조건부 정규 모형은 실험적 연구 설계(experimental design)에 자연스럽고, 이변량 정규 모형은 관측 연구(observational study)에 자연스럽다. 그러나 두 경우 모두 조건부 추론은 동일하다.
12 수치 예시: MLE 와 \(S^2\) 의 자유도 보정
12.1 손 계산
\(n = 5\), \(x = (1, 2, 3, 4, 5)\), \(Y = (2.1, 3.9, 6.2, 7.8, 10.1)\).
Step 1: 기본 수량
- \(\bar x = 3\), \(\bar Y = 6.02\)
- \(S_{xx} = \sum(x_i - 3)^2 = 4 + 1 + 0 + 1 + 4 = 10\)
- \(S_{xY} = \sum(x_i - 3)(Y_i - 6.02) = (-2)(-3.92) + (-1)(-2.12) + (0)(0.18) + (1)(1.78) + (2)(4.08)\) \(= 7.84 + 2.12 + 0 + 1.78 + 8.16 = 19.9\)
Step 2: 추정량
- \(\hat\beta = S_{xY}/S_{xx} = 19.9/10 = 1.99\)
- \(\hat\alpha = 6.02 - 1.99 \times 3 = 0.05\)
Step 3: 잔차와 분산 추정
| \(i\) | \(x_i\) | \(Y_i\) | \(\hat Y_i = 0.05 + 1.99 x_i\) | \(\hat\epsilon_i\) | \(\hat\epsilon_i^2\) |
|---|---|---|---|---|---|
| 1 | 1 | 2.1 | 2.04 | 0.06 | 0.0036 |
| 2 | 2 | 3.9 | 4.03 | \(-0.13\) | 0.0169 |
| 3 | 3 | 6.2 | 6.02 | 0.18 | 0.0324 |
| 4 | 4 | 7.8 | 8.01 | \(-0.21\) | 0.0441 |
| 5 | 5 | 10.1 | 10.00 | 0.10 | 0.0100 |
- RSS \(= \sum \hat\epsilon_i^2 = 0.107\)
- \(\hat\sigma^2_{\text{MLE}} = 0.107/5 = 0.0214\) (편향)
- \(S^2 = 0.107/3 = 0.0357\) (불편, \(n-2 = 3\))
편향 비율: \(\hat\sigma^2_{\text{MLE}} / S^2 = (n-2)/n = 3/5 = 0.6\).
13 코드 예시
13.1 Step 1: 순수 Python — MLE vs 불편 추정, 자유도 보정
# 순수 Python — MLE 와 불편 추정량 비교
x = [1, 2, 3, 4, 5]
y = [2.1, 3.9, 6.2, 7.8, 10.1]
n = len(x)
x_bar = sum(x) / n
y_bar = sum(y) / n
S_xx = sum((xi - x_bar) ** 2 for xi in x)
S_xY = sum((xi - x_bar) * (yi - y_bar) for xi, yi in zip(x, y))
beta_hat = S_xY / S_xx
alpha_hat = y_bar - beta_hat * x_bar
# 잔차
resid = [yi - alpha_hat - beta_hat * xi for xi, yi in zip(x, y)]
rss = sum(r ** 2 for r in resid)
# MLE vs 불편 추정
sigma2_mle = rss / n # 편향
s2 = rss / (n - 2) # 불편
print(f"alpha = {alpha_hat:.4f}, beta = {beta_hat:.4f}")
print(f"RSS = {rss:.4f}")
print(f"sigma2_MLE = {sigma2_mle:.4f} (biased: E = {(n-2)/n:.2f} * sigma2)")
print(f"S^2 = {s2:.4f} (unbiased)")
print(f"SE(beta) = {(s2 / S_xx) ** 0.5:.4f}")13.2 Step 2: 시뮬레이션 — Theorem 11.3.3 검증
import numpy as np
rng = np.random.default_rng(42)
alpha_true, beta_true, sigma = 1.0, 2.0, 1.0
x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
n = len(x)
S_xx = ((x - x.mean()) ** 2).sum()
n_sim = 50_000
beta_hat_all = np.empty(n_sim)
s2_all = np.empty(n_sim)
for k in range(n_sim):
y = alpha_true + beta_true * x + rng.normal(0, sigma, n)
S_xY = ((x - x.mean()) * (y - y.mean())).sum()
b = S_xY / S_xx
a = y.mean() - b * x.mean()
resid = y - a - b * x
beta_hat_all[k] = b
s2_all[k] = (resid ** 2).sum() / (n - 2)
# (a) beta_hat ~ N(beta, sigma^2 / S_xx)
print(f"beta_hat: mean = {beta_hat_all.mean():.4f} (이론 {beta_true})")
print(f"beta_hat: var = {beta_hat_all.var():.4f} (이론 {sigma**2 / S_xx:.4f})")
# (b) (n-2)*S^2/sigma^2 ~ chi^2(n-2) → E = n-2, Var = 2(n-2)
chi2_stat = (n - 2) * s2_all / sigma ** 2
print(f"chi2 stat: mean = {chi2_stat.mean():.2f} (이론 {n - 2})")
print(f"chi2 stat: var = {chi2_stat.var():.2f} (이론 {2 * (n - 2)})")
# (c) 독립성: Corr(beta_hat, S^2) ≈ 0
corr = np.corrcoef(beta_hat_all, s2_all)[0, 1]
print(f"Corr(beta_hat, S^2) = {corr:.4f} (이론 0)")13.3 Step 3: statsmodels — 실무 출력과 이론 비교
import numpy as np
import statsmodels.api as sm
x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y = np.array([2.1, 3.9, 6.2, 7.8, 10.1])
X = sm.add_constant(x)
model = sm.OLS(y, X).fit()
print(model.summary())
# Theorem 11.3.3 확인
S_xx = ((x - x.mean()) ** 2).sum()
s2 = model.mse_resid # RSS / (n-2)
se_beta_theory = (s2 / S_xx) ** 0.5
print(f"\n이론 SE(beta) = sqrt(S^2/S_xx) = {se_beta_theory:.6f}")
print(f"summary SE = {model.bse[1]:.6f}")
# Var(alpha) = sigma^2 * sum(x_i^2) / (n * S_xx)
var_alpha_theory = s2 * (x ** 2).sum() / (len(x) * S_xx)
print(f"이론 SE(alpha) = {var_alpha_theory ** 0.5:.6f}")
print(f"summary SE = {model.bse[0]:.6f}")13.4 Step 4: 이변량 정규 → 조건부 회귀
import numpy as np
rng = np.random.default_rng(123)
# 이변량 정규 모집단
mu = [3.0, 7.0] # mu_X, mu_Y
rho = 0.9
sigma_X, sigma_Y = 1.0, 2.0
cov_XY = rho * sigma_X * sigma_Y
Sigma = [[sigma_X**2, cov_XY], [cov_XY, sigma_Y**2]]
# 표본 생성
data = rng.multivariate_normal(mu, Sigma, size=100)
X, Y = data[:, 0], data[:, 1]
# 모수 관계: beta = rho * sigma_Y / sigma_X
beta_pop = rho * sigma_Y / sigma_X
alpha_pop = mu[1] - beta_pop * mu[0]
sigma2_cond = sigma_Y**2 * (1 - rho**2)
print(f"모집단 회귀 모수: alpha = {alpha_pop:.3f}, beta = {beta_pop:.3f}")
print(f"조건부 분산: sigma^2 = {sigma2_cond:.3f}")
# OLS 로 추정 — 조건부 모형과 동일
import statsmodels.api as sm
model = sm.OLS(Y, sm.add_constant(X)).fit()
print(f"\nOLS alpha = {model.params[0]:.3f}, beta = {model.params[1]:.3f}")
print(f"OLS sigma^2 (MSE) = {model.mse_resid:.3f}")
# x 가 랜덤이어도 조건부 추론(OLS)이 모집단 모수를 잘 추정한다13.5 결과 해석
- Step 1: 손 계산으로 MLE 와 불편 추정의 차이를 확인한다. \(n=5\) 에서 편향 비율이 0.6 으로 상당히 크다.
- Step 2: 50,000 회 시뮬레이션으로 Theorem 11.3.3의 세 결과 — \(\hat\beta\) 의 정규성, \((n-2)S^2/\sigma^2\) 의 카이제곱, 그리고 \(\hat\beta\) 와 \(S^2\) 의 독립성 — 을 경험적으로 확인한다.
- Step 3: statsmodels 의 summary 출력이 이론 공식과 정확히 일치함을 검증한다.
- Step 4: 이변량 정규에서 \((X, Y)\) 쌍을 생성해도 OLS 추정이 조건부 정규 모형의 모수에 수렴함을 보인다. 두 모형의 실질적 동치를 경험적으로 확인한다.
14 핵심 정리
- 조건부 정규 모형 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) (독립)은 §11.3.2 의 모멘트 모형에 독립성 + 정규성을 추가한 것이다.
- MLE = OLS: 정규 모형의 로그우도를 최대화하면 RSS 최소화와 동치이므로, 세 번째 경로에서도 같은 추정량이 나온다.
- \(\hat\sigma^2_{\text{MLE}} = \mathrm{RSS}/n\) 은 편향이다. 불편 추정량은 \(S^2 = \mathrm{RSS}/(n-2)\) 이며, 자유도 \(n-2\) 는 추정된 모수 수를 반영한다.
- Theorem 11.3.3: \(\hat\beta \sim N\), \((n-2)S^2/\sigma^2 \sim \chi^2_{n-2}\), 그리고 \((\hat\alpha, \hat\beta) \perp S^2\). 이 세 결과가 \(t\)-검정과 신뢰구간의 근거이다.
- 이변량 정규 모형은 \(X\) 도 확률변수인 경우이다. 조건부로 잡으면 조건부 정규 모형과 동일한 추론이 나온다.
- 정규 가정이 결정적으로 필요한 곳은 정확한 추론(소표본 \(t, F, \chi^2\))이다. 점추정과 BLUE 최적성에는 모멘트 가정만으로 충분하다.
15 §11.3 전체에서의 위치
§11.3.1 Mathematical Solution (수학적 최소화) ← 133
↓ 통계 모형 도입 (1·2차 모멘트)
§11.3.2 Statistical Solution (BLUE) ← 134
↓ 분포 가정 추가 (정규)
§11.3.3 Models and Distribution Assumptions ← 이 포스트 (135)
↓ 분포로부터 추론 도구 유도
§11.3.4 Estimation and Testing (t-test, CI, F-test) ← 다음 포스트
§11.3.5 Correlation and Regression (이변량 정규)
이 포스트에서 도입한 조건부 정규 모형과 Theorem 11.3.3 이 다음 포스트의 추론 도구 전체를 떠받치는 기초이다.
16 참고 문헌
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.), §11.3.3, Lemma 11.3.2, Theorem 11.3.3. Duxbury.
- Brown, L. D. (1990). An ancillarity paradox which appears in multiple linear regression. The Annals of Statistics, 18(2), 471–493.
17 관련 주제
선행 지식
- SLR: Least Squares — A Mathematical Solution — §11.3.1, 분포 가정 없는 유도
- SLR: Best Linear Unbiased Estimators — A Statistical Solution — §11.3.2, BLUE
- 정규분포 — 정규분포의 성질
- 최대우도 추정 — MLE 일반론
- BLUE 와 Gauss-Markov 정리 (일반)
후속 주제
- SLR: Estimation and Testing with Normal Errors (Casella §11.3.4) — \(t\)-검정, 신뢰구간, \(F\)-검정
- Correlation and Regression (Casella §11.3.5)
- Multiple Linear Regression
관련 개념
- 기대값과 실현값의 구별
- 추정량 평가 기준 — 편향, MSE, 효율
- 최량 불편 추정량 (UMVUE) — 정규 가정 하의 최적성 확장
- ANOVA F-test — 제곱합 분해와 \(F\)-분포