Kwangmin Kim - Simple Linear Regression: Models and Distribution Assumptions

1 개요

§11.3.1 포스트에서는 확률 가정 없이 최소제곱해를 구했고, §11.3.2 포스트에서는 1·2차 모멘트 가정만으로 그 해가 BLUE 임을 증명했다. 하지만 두 포스트 모두 한 가지 중요한 일을 하지 못했다: 추정량의 분포를 알려주는 것이다.

분포를 모르면 다음이 불가능하다:

\(\hat\beta\) 가 얼마나 정확한지 확률적으로 진술할 수 없다 (신뢰구간)
\(\beta = 0\) 인지 검정할 수 없다 (\(t\)-test, \(F\)-test)
새로운 관측의 예측 구간을 구할 수 없다
최대우도 추정(MLE)을 정의할 수 없다 — 우도함수 자체가 분포에 의존한다

직관적으로: 추정량이 불편이고 분산이 최소라는 것을 안다. 하지만 ’참값에서 2 표준오차 이내에 있을 확률이 95%인가?’를 답하려면 추정량의 꼬리 행동을 알아야 한다. 정규분포라면 이 확률이 정확히 계산되고, 자유도가 작으면 \(t\)-분포가 두꺼운 꼬리를 반영한다. 분포를 모르면 이런 확률적 진술이 불가능하다.

이 포스트는 그 공백을 채우는 분포 가정의 도입을 다룬다. Casella & Berger(2002, §11.3.3)는 두 가지 모형을 제시한다:

조건부 정규 모형(Conditional Normal Model): \(x_i\) 가 고정, \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) 독립
이변량 정규 모형(Bivariate Normal Model): \((X_i, Y_i)\) 가 iid 이변량 정규

두 모형은 서로 다른 출발점을 갖지만, 회귀 추론은 조건부 분포에 기초하므로 실질적으로 같은 결과를 낳는다. 이 구조를 이해하는 것이 §11.3.4(추론)로 넘어가기 전의 핵심이다.

2 가정의 계층 구조: 네 수준

Casella & Berger 가 §11.3 전체를 통해 구축하는 가정의 계층을 먼저 한 눈에 정리한다.

수준	가정	얻는 것	못 얻는 것	절
0	없음 (실수 쌍)	최소제곱해 \(\hat\beta\), 대수적 성질	통계적 성질 전부	§11.3.1
1	\(E Y_i = \alpha + \beta x_i\), 등분산, 무상관	불편성, BLUE	분포, CI, test	§11.3.2
2	+ 독립, + 정규분포	MLE, \(\hat\beta\) 의 정규분포, \(S^2\) 의 \(\chi^2\), 독립성	대규모 표본 근사 불필요	§11.3.3
3	(이변량 정규)	조건부로 환원 → 수준 2 와 동일	\(X\) 의 주변분포 정보는 비활용	§11.3.3

수준 0 → 1 → 2 로 올라갈수록 가정이 강해지고 결론도 강해진다. 이 관계를 이해하면 “왜 정규성이 필요한가”와 “정규성이 위반되면 무엇이 무너지는가”를 정확히 구분할 수 있다.

직관: 가정은 “빛의 강도”이다

수준 0은 어둠 속에서 손전등 없이 더듬는 것이다. 직선이 어디에 있는지는 알지만, 그 직선이 얼마나 믿을 만한지 말할 수 없다. 수준 1은 약한 조명 — 방향(불편성)과 상대적 정밀도(BLUE)는 보이지만, 정확한 윤곽(분포)은 보이지 않는다. 수준 2(정규 가정)는 환한 조명이다. 추정량의 정확한 모양, 꼬리 확률, 신뢰대(band)가 모두 보인다. 대가는 “분포가 실제로 정규일 때만 정확하다”는 제약이다.

3 조건부 정규 모형 (Conditional Normal Model)

3.1 모형 정의 (11.3.22)

정의: 조건부 정규 회귀 모형

설명변수 \(x_1, \ldots, x_n\) 은 알려진 고정 상수이다. 반응변수 \(Y_1, \ldots, Y_n\) 은 독립 확률변수이며,

\[ Y_i \sim N(\alpha + \beta x_i, \;\sigma^2), \qquad i = 1, \ldots, n. \]

모수는 \(\alpha\) (절편), \(\beta\) (기울기), \(\sigma^2\) (오차 분산)의 세 개이다.

오차항 형태로 다시 쓰면:

\[ Y_i = \alpha + \beta x_i + \epsilon_i, \qquad \epsilon_1, \ldots, \epsilon_n \overset{\text{iid}}{\sim} N(0, \sigma^2). \]

3.2 §11.3.2 와의 관계

조건부 정규 모형은 §11.3.2 모형의 특수한 경우이다. §11.3.2에서는 \(E Y_i = \alpha + \beta x_i\), \(\mathrm{Var}\,Y_i = \sigma^2\), 무상관만 가정했다. 여기서 두 가지가 강화된다:

§11.3.2 → §11.3.3	기존 가정	강화된 가정
상관 구조	무상관 (\(\mathrm{Cov}(Y_i,Y_j)=0\))	독립 (\(Y_i \perp Y_j\))
분포 형태	미지정	정규분포

왜 독립이 무상관보다 강한가: 무상관은 2차 모멘트 조건이다. 독립은 모든 차수의 모멘트(그리고 모든 비선형 함수)에 대한 조건이다. 정규분포 하에서는 무상관 = 독립이지만, 일반 분포에서는 무상관이면서 종속인 예가 존재한다(예: \(X \sim N(0,1)\), \(Y = X^2\) 는 무상관이지만 완전히 종속). 정규 가정을 얹으면 무상관이 자동으로 독립으로 승격되므로, §11.3.2의 무상관 가정은 사실상 독립으로 변한다.

3.3 결합 PDF (11.3.24)

\(Y_1, \ldots, Y_n\) 이 독립이므로 결합 밀도는 주변 밀도의 곱이다:

\[ \begin{aligned} f(\mathbf{y} \mid \alpha, \beta, \sigma^2) &= \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\,\sigma} \exp\!\left[-\frac{(y_i - \alpha - \beta x_i)^2}{2\sigma^2}\right] \\ &= \frac{1}{(2\pi)^{n/2}\,\sigma^n} \exp\!\left[-\frac{\sum_{i=1}^n (y_i - \alpha - \beta x_i)^2}{2\sigma^2}\right]. \]

주목할 점: 지수부에 \(\sum(y_i - \alpha - \beta x_i)^2\) 가 나타난다 — RSS 와 정확히 같은 형태이다. 이것이 정규분포의 선물이다. 정규분포의 지수부가 이차식(제곱합)이기 때문에, 우도 최대화가 곧 제곱합 최소화가 된다. 다른 분포(예: 라플라스)였다면 지수부가 \(\sum|y_i - \alpha - \beta x_i|\) 이 되어 전혀 다른 추정량이 나온다.

이 식이 §11.3.4에서 MLE, 검정, 신뢰구간의 출발점이 된다. 지수부의 분자 \(\sum(y_i - \alpha - \beta x_i)^2\) 는 정확히 §11.3.1의 RSS(잔차제곱합)이다.

핵심 관찰: 로그우도와 RSS의 관계

\[ \log L(\alpha, \beta, \sigma^2 \mid \mathbf{y}) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log\sigma^2 - \frac{\mathrm{RSS}(\alpha,\beta)}{2\sigma^2}. \]

고정된 \(\sigma^2\) 에 대해 \(\log L\) 를 \((\alpha, \beta)\) 로 최대화하는 것은 RSS 를 최소화하는 것과 동치이다. 즉, MLE = OLS. 세 번째로 같은 추정량이 나온다.

4 MLE 유도

4.1 \(\alpha, \beta\) 의 MLE

위 관찰에서 바로 나온다. \(\sigma^2\) 를 고정하면 로그우도는 \(-\mathrm{RSS}/2\sigma^2\) 에 의존하므로, RSS 를 최소화하는 값이 MLE 이다. 그런데 이것은 §11.3.1에서 이미 구한 최소제곱해이다:

\[ \hat\beta_{\text{MLE}} = b = \frac{S_{xY}}{S_{xx}}, \qquad \hat\alpha_{\text{MLE}} = a = \bar Y - b\bar x. \]

세 가지 경로(수학적 최적화, 통계적 BLUE, 최대우도)가 정확히 같은 추정량에 수렴한다는 사실은 이 추정량의 구조적 견고함을 보여준다.

4.2 \(\sigma^2\) 의 MLE

\(\hat\alpha, \hat\beta\) 를 대입한 뒤 \(\sigma^2\) 에 대해 미분하면:

\[ \frac{\partial}{\partial \sigma^2} \log L = -\frac{n}{2\sigma^2} + \frac{\mathrm{RSS}}{2(\sigma^2)^2} = 0 \quad \Longrightarrow \quad \hat\sigma^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n \hat\epsilon_i^2 = \frac{\mathrm{RSS}}{n}. \]

여기서 \(\hat\epsilon_i = Y_i - \hat\alpha - \hat\beta x_i\) 는 잔차(residual)이다.

이 추정량은 편향(biased)이다. 왜 그런지는 다음 절에서 본다.

5 잔차와 분산 추정

5.1 잔차의 정의 (11.3.27)

오차(error)와 잔차(residual)는 다르다. 이 구분은 회귀 분석 전체의 기초이다.

항목	기호	정의	관측 가능 여부
오차	\(\epsilon_i\)	\(Y_i - \alpha - \beta x_i\)	불가 (참 모수 미지)
잔차	\(\hat\epsilon_i\)	\(Y_i - \hat\alpha - \hat\beta x_i\)	가능 (추정량으로 계산)

오차는 “신이 아는” 참값으로부터의 편차이고, 잔차는 “우리가 추정한” 직선으로부터의 편차이다. 잔차는 오차의 대리물(proxy)이지만 오차와 같지 않다. 두 모수를 추정하느라 자유도 2를 소비한다.

5.2 \(\hat\sigma^2_{\text{MLE}}\) 는 왜 편향인가

Casella & Berger 는 길지만 결정적인 계산(11.3.28)을 통해 다음을 보인다:

\[ E\hat\sigma^2_{\text{MLE}} = E\!\left[\frac{1}{n}\sum_{i=1}^n \hat\epsilon_i^2\right] = \frac{n-2}{n}\,\sigma^2. \]

즉, MLE 는 \(\sigma^2\) 를 체계적으로 과소추정한다. 비율은 \((n-2)/n\) — 표본이 작을수록 과소추정이 심하다 (\(n=3\) 이면 \(1/3\) 만큼 과소).

직관적 이유: 잔차는 추정된 직선으로부터의 편차이다. 추정 직선은 데이터에 맞춰져 있으므로, 참 직선보다 데이터에 더 가깝다. 따라서 잔차의 크기가 오차의 크기보다 체계적으로 작다. 이 “과적합” 효과를 보정하는 것이 자유도 \(n-2\) 이다.

왜 하필 \(n-2\) 인가? 직관적으로: 직선을 확정하는 데 2개 점(데이터의 2차원 자유도)을 “소비”했으므로, 잔차에는 \(n-2\) 차원의 변동만 남는다. §11.3.1의 사영행렬 관점에서 \(\hat{\boldsymbol\epsilon} = (\mathbf{I} - \mathbf{H})\mathbf{Y}\) 이고, \(\mathrm{rank}(\mathbf{I} - \mathbf{H}) = n - 2\) 이다.

5.3 불편 추정량 \(S^2\) (11.3.29)

불편 보정은 \(n\) 을 \(n-2\) 로 교체하면 된다:

\[ \boxed{\;S^2 = \frac{1}{n-2}\sum_{i=1}^n \hat\epsilon_i^2 = \frac{\mathrm{RSS}}{n-2}.\;} \]

\(E S^2 = \sigma^2\) 이다. 이것이 실무에서 사용하는 “잔차 평균 제곱”(MSE, Mean Squared Error)이다.

자유도 보정의 일반 원칙

자유도 \(n-p\) 에서 \(p\) 는 추정된 모수의 수이다. 단순 선형 회귀에서 \(p = 2\) (\(\alpha, \beta\)), 다중 회귀에서 \(p\) 는 설계행렬의 열 수, 일원 ANOVA 에서 \(p = k\) (집단 수). 이 패턴은 통계학 전체에 걸쳐 반복된다.

6 Lemma 11.3.2: 선형 추정량의 공분산

분포 가정 없이 성립하는 유용한 보조정리를 여기서 소개한다(증명에 정규성 불필요).

Lemma 11.3.2

\(Y_1, \ldots, Y_n\) 이 무상관, \(\mathrm{Var}\,Y_i = \sigma^2\) 이면, 상수 \(c_1, \ldots, c_n\) 과 \(d_1, \ldots, d_n\) 에 대해

\[ \mathrm{Cov}\!\left(\sum_{i=1}^n c_i Y_i, \;\sum_{i=1}^n d_i Y_i\right) = \sigma^2 \sum_{i=1}^n c_i d_i. \]

증명: \(\mathrm{Cov}(Y_i, Y_j) = 0\) (\(i \ne j\))이므로

\[ \mathrm{Cov}\!\left(\sum c_i Y_i, \sum d_j Y_j\right) = \sum_i \sum_j c_i d_j \,\mathrm{Cov}(Y_i, Y_j) = \sum_i c_i d_i \,\mathrm{Var}\,Y_i = \sigma^2 \sum_i c_i d_i. \]

이 보조정리는 \(\hat\alpha, \hat\beta\) 의 분산과 공분산, 그리고 \(\hat\alpha, \hat\beta\) 와 \(S^2\) 의 독립성 증명에 핵심적으로 활용된다.

6.1 응용: \(\hat\alpha\) 와 \(\hat\beta\) 의 공분산

\(\hat\beta = \sum d_i Y_i\) (\(d_i = (x_i - \bar x)/S_{xx}\)), \(\hat\alpha = \sum c_i Y_i\) (\(c_i = 1/n - (x_i - \bar x)\bar x / S_{xx}\)) 이므로

\[ \mathrm{Cov}(\hat\alpha, \hat\beta) = \sigma^2 \sum_{i=1}^n c_i d_i = \sigma^2 \sum \left[\frac{1}{n} - \frac{(x_i - \bar x)\bar x}{S_{xx}}\right] \cdot \frac{x_i - \bar x}{S_{xx}}. \]

\(\sum(x_i - \bar x)/n = 0\) 이므로 첫 항은 소멸하고,

\[ \mathrm{Cov}(\hat\alpha, \hat\beta) = -\frac{\sigma^2 \bar x}{S_{xx}} \cdot \frac{1}{S_{xx}} \sum(x_i - \bar x)^2 = -\frac{\sigma^2 \bar x}{S_{xx}}. \]

이 결과는 §11.3.2 포스트에서 이미 언급한 것과 일치한다.

7 Theorem 11.3.3: 표본분포 정리

조건부 정규 모형의 추론 전체를 뒷받침하는 핵심 정리이다.

Theorem 11.3.3 (Casella & Berger)

조건부 정규 회귀 모형 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) (독립) 하에서:

(a) 추정량의 분포

\[ \hat\alpha \sim N\!\left(\alpha, \;\frac{\sigma^2 \sum x_i^2}{n\,S_{xx}}\right), \qquad \hat\beta \sim N\!\left(\beta, \;\frac{\sigma^2}{S_{xx}}\right). \]

\[ \mathrm{Cov}(\hat\alpha, \hat\beta) = -\frac{\sigma^2 \bar x}{S_{xx}}. \]

(b) \(S^2\) 의 분포

\[ \frac{(n-2)\,S^2}{\sigma^2} \sim \chi^2_{n-2}. \]

(c) 독립성

\((\hat\alpha, \hat\beta)\) 와 \(S^2\) 는 독립이다.

7.1 증명 개요

(a) \(\hat\beta = \sum d_i Y_i\) 는 독립 정규 확률변수의 선형 결합이므로 정규분포이다 (Corollary 4.6.10). 평균과 분산은 §11.3.2에서 이미 유도했다. \(\hat\alpha\) 도 같은 논리.

(b) 정규 확률변수의 이차 형식의 분포에 관한 결과이다. \(\hat\epsilon_i = Y_i - \hat\alpha - \hat\beta x_i\) 는 원래 \(n\) 개의 독립 정규변수에서 2차원 사영 \(\mathbf{H}\) 를 빼낸 것이므로, 잔차 벡터 \(\hat{\boldsymbol\epsilon} = (\mathbf{I}-\mathbf{H})\mathbf{Y}\) 는 \(n-2\) 차원의 정규 벡터이고, \(\|\hat{\boldsymbol\epsilon}\|^2 / \sigma^2 = (n-2)S^2/\sigma^2 \sim \chi^2_{n-2}\) 이다.

독립성 (c) 가 왜 결정적인가? \(t\)-통계량은 \((\hat\beta - \beta) / (S/\sqrt{S_{xx}})\) 인데, 분자(정규)를 분모( \(\chi\) 기반)로 나눈 것이다. 만약 분자와 분모가 상관되어 있다면, 그 비의 분포가 \(t\) 가 아니라 알 수 없는 형태가 된다. 독립성이 \(t\)-분포를 보장하고, \(t\)-분포가 신뢰구간과 검정을 가능하게 한다.

(c) \((\hat\alpha, \hat\beta)\) 는 \(\mathbf{H}\mathbf{Y}\) 의 함수이고 \(S^2\) 는 \((\mathbf{I}-\mathbf{H})\mathbf{Y}\) 의 함수이다. 사영행렬 \(\mathbf{H}\) 와 \(\mathbf{I}-\mathbf{H}\) 는 직교 보사영이므로 \(\mathbf{H}(\mathbf{I}-\mathbf{H}) = \mathbf{0}\) 이다. 정규 벡터에서 직교 이차 형식 간의 공분산은 0이고, 정규 분포에서 무상관 = 독립이므로 결론이 따른다.

7.2 왜 이 정리가 중요한가

이 세 가지 결과는 §11.3.4에서 다음을 유도하는 재료이다:

(a) + (b) + (c) → \(t\) 통계량: \[\frac{\hat\beta - \beta_0}{S / \sqrt{S_{xx}}} \sim t_{n-2}\] (정규 ÷ 독립 카이제곱의 제곱근 = \(t\)-분포)
(a) → \(\hat\beta\) 의 신뢰구간
(b) → \(\sigma^2\) 의 신뢰구간
(a) + (b) → 회귀 계수의 \(F\)-검정 (ANOVA 분해)

독립성 (c) 가 빠지면 \(t\)-분포 유도가 성립하지 않는다. 분자(추정량)와 분모(표준오차)가 종속이면 그 비의 분포가 \(t\) 가 아니기 때문이다.

8 이변량 정규 모형 (Bivariate Normal Model)

8.1 모형 정의

조건부 정규 모형에서 \(x_i\) 는 고정 상수였다. 하지만 Galton 의 원래 예시(아버지와 아들의 키)에서처럼, \(x_i\) 도 확률변수의 관측값인 경우가 많다. 이때 자연스러운 모형이 이변량 정규 모형이다.

정의: 이변량 정규 회귀 모형

\((X_1, Y_1), \ldots, (X_n, Y_n)\) 이 iid 이변량 정규이다:

\[ (X_i, Y_i) \sim \text{Bivariate Normal}(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho). \]

모수는 5개: \(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho\).

8.2 조건부 분포로의 환원 (11.3.25–11.3.26)

이변량 정규 분포의 핵심 성질: \(X = x\) 가 주어졌을 때 \(Y\) 의 조건부 분포는 정규이다.

\[ E(Y \mid x) = \mu_Y + \rho \frac{\sigma_Y}{\sigma_X}(x - \mu_X) = \underbrace{\left[\mu_Y - \rho\frac{\sigma_Y}{\sigma_X}\mu_X\right]}_{= \alpha} + \underbrace{\left[\rho\frac{\sigma_Y}{\sigma_X}\right]}_{= \beta} x. \]

\[ \mathrm{Var}(Y \mid x) = \sigma_Y^2(1 - \rho^2). \]

조건부 분산이 \(x\) 에 의존하지 않는다는 점에 주목한다. 이것은 이변량 정규의 특수한 성질이며, 일반적인 결합 분포에서는 성립하지 않는다.

이것은 이변량 정규의 특수한 성질이다. 대부분의 결합 분포에서 조건부 분산은 \(x\) 에 따라 변한다. 예를 들어 이변량 로그정규에서는 \(x\) 가 클수록 \(\mathrm{Var}(Y|x)\) 도 커진다. 이변량 정규의 대칭적 구조가 조건부 분산을 \(x\) 와 무관하게 만들며, 이것이 ’정규 가정 하에서 등분산이 자동으로 성립한다’는 주장의 근거이다.

8.3 두 모형의 실질적 동치

\(X_1 = x_1, \ldots, X_n = x_n\) 으로 조건부를 잡으면, \(Y_1, \ldots, Y_n\) 은 조건부로 독립이고

\[ Y_i \mid X_i = x_i \sim N(\alpha + \beta x_i, \;\sigma_Y^2(1-\rho^2)), \]

이것은 조건부 정규 모형(11.3.22)과 정확히 같은 구조이다(\(\sigma^2 = \sigma_Y^2(1-\rho^2)\)).

따라서 회귀 추론(점추정, 구간추정, 가설검정)은 두 모형에서 동일하다. \(x\) 가 고정이든 확률변수이든, 조건부 분포에 기초한 추론은 같다. 이것이 회귀 분석에서 “조건부 사고”가 표준이 되는 이유다.

“조건부 사고”의 핵심

회귀에서 \(X\) 의 주변분포(marginal)는 무관하다. 관심은 항상 “\(X = x\) 를 안다면 \(Y\) 는 무엇인가”이다. 이변량 정규 모형에서도 \(X\) 의 주변분포 \(N(\mu_X, \sigma_X^2)\) 는 회귀 계수 추정에 쓰이지 않는다. 쓰이는 것은 조건부 \(Y \mid X\) 뿐이다. 이 관점은 단순 회귀를 넘어 모든 회귀 분석의 철학적 기초이다.

8.4 이변량 모형이 줄 수 있는 것과 줄 수 없는 것

이변량 정규 모형의 장점	한계
선형성을 가정하지 않고 도출한다 (이변량 정규 → \(E(Y \mid x)\) 자동 선형)	정규성 가정이 더 강하다 (5개 모수 가정)
\(\rho\) 와 \(\beta\) 의 명시적 관계: \(\beta = \rho \sigma_Y / \sigma_X\)	\(X\) 의 주변분포 정보가 회귀에 쓰이지 않아 비효율적
두 변수의 대칭적 관계 해석 가능 (\(X\) 와 \(Y\) 의 역할 교환)	실무에서 \(X\) 가 비정규이면 모형 전체가 부적합

“주변 정규 ≠ 결합 정규”에 주의

\(X\) 와 \(Y\) 가 각각 주변적으로(marginally) 정규분포여도, 결합 분포가 이변량 정규라는 보장은 없다(Casella & Berger, Exercise 4.47). 따라서 QQ-plot 으로 \(X, Y\) 의 개별 정규성을 확인하는 것만으로는 이변량 정규 가정을 검증할 수 없다.

9 모수 관계의 재매핑

이변량 정규 모형의 5개 모수와 회귀 모형의 3개 모수 사이의 관계를 정리한다.

9.1 이변량 → 회귀

\[ \begin{aligned} \beta &= \rho \frac{\sigma_Y}{\sigma_X}, \\ \alpha &= \mu_Y - \beta \mu_X = \mu_Y - \rho \frac{\sigma_Y}{\sigma_X} \mu_X, \\ \sigma^2 &= \sigma_Y^2(1 - \rho^2). \end{aligned} \]

9.2 회귀 → 이변량

역방향은 유일하지 않다. \(\alpha, \beta, \sigma^2\) 만으로는 \(\mu_X\) 와 \(\sigma_X\) 를 복원할 수 없다. 이는 회귀 분석이 \(X\) 의 주변분포 정보를 사용하지 않는다는 사실의 대수적 반영이다.

9.3 \(\rho^2\) 와 \(R^2\) 의 관계

표본 상관계수의 제곱 \(r^2\) 는 결정계수 \(R^2\) 와 일치한다(§11.3.1에서 이미 확인):

\[ R^2 = r^2 = \frac{S_{xY}^2}{S_{xx} \cdot S_{YY}}. \]

모집단 수준에서 \(\rho^2 = \beta^2 S_{xx}^{\text{pop}} / S_{YY}^{\text{pop}}\) 이고, 이는 \(1 - \sigma^2/\sigma_Y^2\) 와 같다. 즉, \(\rho^2\) 는 “\(Y\) 의 총 변동 중 \(X\) 로 설명되는 비율”의 모집단 대응물이다.

10 분포 가정을 추가하면 무엇을 얻는가: 총정리

이 포스트의 메타적 교훈을 §11.3 전체 맥락에서 정리한다.

10.1 §11.3.1 → §11.3.2 (가정 없음 → 모멘트 가정)

투입: 등분산·무상관
획득: 불편성, BLUE 최적성, \(\mathrm{Var}\,b\) 공식
대가: 비선형 추정량을 배제

10.2 §11.3.2 → §11.3.3 (모멘트 가정 → 정규 가정)

투입: 독립성, 정규분포
획득: (a) \(\hat\beta\) 의 정규분포 → 신뢰구간, 검정 (b) \(S^2\) 의 \(\chi^2\) 분포 → \(\sigma^2\) 의 추론 (c) 독립성 → \(t\) 통계량 유도 MLE = OLS (우도 최대화의 정당화) BLUE → UMVUE 로 승격 (정규 지수족 + Rao-Blackwell)
대가: 분포가 정규가 아니면 정확한 분포가 무너짐

10.3 정규성 위반의 영향 계층

정규 가정이 약간 위반될 때와 심하게 위반될 때의 영향은 다르다:

항목	약한 비정규	심한 비정규 (중꼬리·이상치)
점추정 (\(\hat\beta\))	여전히 불편, 여전히 BLUE	불편이지만 효율 저하 (LAD, M-추정이 우수)
\(t\)-검정	CLT 로 근사 유효 (\(n \geq 30\))	검정력 저하, 유의수준 왜곡 가능
신뢰구간	포함 확률 근사 유효	포함 확률 명목 아래로 하락
\(S^2\) 의 \(\chi^2\)	약간 왜곡	심하게 왜곡 (이상치에 민감)
MLE 최적성	근사 유효	MLE ≠ OLS (비정규 우도에서)

실무적 함의: 정규 가정은 점추정에는 필수가 아니다(BLUE 는 모멘트만 필요). 정규 가정이 결정적으로 필요한 곳은 정확한 추론(exact inference) — 소표본에서의 \(t\)-통계량, \(F\)-통계량, \(\chi^2\)-통계량이다. 대표본에서는 CLT 가 정규 가정을 대체한다.

11 응용 분야

분야	모형 선택	이유
통제 실험 (약물 용량, 물리 측정)	조건부 정규	\(x\) 를 실험자가 설정, 고정 상수로 취급 가능
관측 연구 (키-몸무게, 소득-소비)	이변량 정규	\(x\) 도 확률 변수, 둘 다 랜덤
시계열 예측	조건부 (조건부 이분산 모형)	\(x\) 는 과거 값(고정으로 조건부)
A/B 테스트 후속 분석	조건부 정규	처치를 할당한 후 결과를 관측
유전학 (Galton 류)	이변량 정규	부모와 자녀 형질 모두 확률적

조건부 정규 모형은 실험적 연구 설계(experimental design)에 자연스럽고, 이변량 정규 모형은 관측 연구(observational study)에 자연스럽다. 그러나 두 경우 모두 조건부 추론은 동일하다.

12 수치 예시: MLE 와 \(S^2\) 의 자유도 보정

12.1 손 계산

\(n = 5\), \(x = (1, 2, 3, 4, 5)\), \(Y = (2.1, 3.9, 6.2, 7.8, 10.1)\).

Step 1: 기본 수량

\(\bar x = 3\), \(\bar Y = 6.02\)
\(S_{xx} = \sum(x_i - 3)^2 = 4 + 1 + 0 + 1 + 4 = 10\)
\(S_{xY} = \sum(x_i - 3)(Y_i - 6.02) = (-2)(-3.92) + (-1)(-2.12) + (0)(0.18) + (1)(1.78) + (2)(4.08)\) \(= 7.84 + 2.12 + 0 + 1.78 + 8.16 = 19.9\)

Step 2: 추정량

\(\hat\beta = S_{xY}/S_{xx} = 19.9/10 = 1.99\)
\(\hat\alpha = 6.02 - 1.99 \times 3 = 0.05\)

Step 3: 잔차와 분산 추정

\(i\)	\(x_i\)	\(Y_i\)	\(\hat Y_i = 0.05 + 1.99 x_i\)	\(\hat\epsilon_i\)	\(\hat\epsilon_i^2\)
1	1	2.1	2.04	0.06	0.0036
2	2	3.9	4.03	\(-0.13\)	0.0169
3	3	6.2	6.02	0.18	0.0324
4	4	7.8	8.01	\(-0.21\)	0.0441
5	5	10.1	10.00	0.10	0.0100

RSS \(= \sum \hat\epsilon_i^2 = 0.107\)
\(\hat\sigma^2_{\text{MLE}} = 0.107/5 = 0.0214\) (편향)
\(S^2 = 0.107/3 = 0.0357\) (불편, \(n-2 = 3\))

편향 비율: \(\hat\sigma^2_{\text{MLE}} / S^2 = (n-2)/n = 3/5 = 0.6\).

13 코드 예시

13.1 Step 1: 순수 Python — MLE vs 불편 추정, 자유도 보정

# 순수 Python — MLE 와 불편 추정량 비교
x = [1, 2, 3, 4, 5]
y = [2.1, 3.9, 6.2, 7.8, 10.1]
n = len(x)

x_bar = sum(x) / n
y_bar = sum(y) / n
S_xx = sum((xi - x_bar) ** 2 for xi in x)
S_xY = sum((xi - x_bar) * (yi - y_bar) for xi, yi in zip(x, y))

beta_hat = S_xY / S_xx
alpha_hat = y_bar - beta_hat * x_bar

# 잔차
resid = [yi - alpha_hat - beta_hat * xi for xi, yi in zip(x, y)]
rss = sum(r ** 2 for r in resid)

# MLE vs 불편 추정
sigma2_mle = rss / n          # 편향
s2 = rss / (n - 2)           # 불편

print(f"alpha = {alpha_hat:.4f}, beta = {beta_hat:.4f}")
print(f"RSS = {rss:.4f}")
print(f"sigma2_MLE = {sigma2_mle:.4f}  (biased: E = {(n-2)/n:.2f} * sigma2)")
print(f"S^2        = {s2:.4f}  (unbiased)")
print(f"SE(beta)   = {(s2 / S_xx) ** 0.5:.4f}")

13.2 Step 2: 시뮬레이션 — Theorem 11.3.3 검증

import numpy as np
rng = np.random.default_rng(42)

alpha_true, beta_true, sigma = 1.0, 2.0, 1.0
x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
n = len(x)
S_xx = ((x - x.mean()) ** 2).sum()
n_sim = 50_000

beta_hat_all = np.empty(n_sim)
s2_all = np.empty(n_sim)

for k in range(n_sim):
    y = alpha_true + beta_true * x + rng.normal(0, sigma, n)
    S_xY = ((x - x.mean()) * (y - y.mean())).sum()
    b = S_xY / S_xx
    a = y.mean() - b * x.mean()
    resid = y - a - b * x
    beta_hat_all[k] = b
    s2_all[k] = (resid ** 2).sum() / (n - 2)

# (a) beta_hat ~ N(beta, sigma^2 / S_xx)
print(f"beta_hat: mean = {beta_hat_all.mean():.4f} (이론 {beta_true})")
print(f"beta_hat: var  = {beta_hat_all.var():.4f} (이론 {sigma**2 / S_xx:.4f})")

# (b) (n-2)*S^2/sigma^2 ~ chi^2(n-2) → E = n-2, Var = 2(n-2)
chi2_stat = (n - 2) * s2_all / sigma ** 2
print(f"chi2 stat: mean = {chi2_stat.mean():.2f} (이론 {n - 2})")
print(f"chi2 stat: var  = {chi2_stat.var():.2f} (이론 {2 * (n - 2)})")

# (c) 독립성: Corr(beta_hat, S^2) ≈ 0
corr = np.corrcoef(beta_hat_all, s2_all)[0, 1]
print(f"Corr(beta_hat, S^2) = {corr:.4f} (이론 0)")

13.3 Step 3: statsmodels — 실무 출력과 이론 비교

import numpy as np
import statsmodels.api as sm

x = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y = np.array([2.1, 3.9, 6.2, 7.8, 10.1])

X = sm.add_constant(x)
model = sm.OLS(y, X).fit()
print(model.summary())

# Theorem 11.3.3 확인
S_xx = ((x - x.mean()) ** 2).sum()
s2 = model.mse_resid  # RSS / (n-2)
se_beta_theory = (s2 / S_xx) ** 0.5
print(f"\n이론 SE(beta) = sqrt(S^2/S_xx) = {se_beta_theory:.6f}")
print(f"summary SE    = {model.bse[1]:.6f}")

# Var(alpha) = sigma^2 * sum(x_i^2) / (n * S_xx)
var_alpha_theory = s2 * (x ** 2).sum() / (len(x) * S_xx)
print(f"이론 SE(alpha) = {var_alpha_theory ** 0.5:.6f}")
print(f"summary SE     = {model.bse[0]:.6f}")

13.4 Step 4: 이변량 정규 → 조건부 회귀

import numpy as np
rng = np.random.default_rng(123)

# 이변량 정규 모집단
mu = [3.0, 7.0]           # mu_X, mu_Y
rho = 0.9
sigma_X, sigma_Y = 1.0, 2.0
cov_XY = rho * sigma_X * sigma_Y
Sigma = [[sigma_X**2, cov_XY], [cov_XY, sigma_Y**2]]

# 표본 생성
data = rng.multivariate_normal(mu, Sigma, size=100)
X, Y = data[:, 0], data[:, 1]

# 모수 관계: beta = rho * sigma_Y / sigma_X
beta_pop = rho * sigma_Y / sigma_X
alpha_pop = mu[1] - beta_pop * mu[0]
sigma2_cond = sigma_Y**2 * (1 - rho**2)

print(f"모집단 회귀 모수: alpha = {alpha_pop:.3f}, beta = {beta_pop:.3f}")
print(f"조건부 분산: sigma^2 = {sigma2_cond:.3f}")

# OLS 로 추정 — 조건부 모형과 동일
import statsmodels.api as sm
model = sm.OLS(Y, sm.add_constant(X)).fit()
print(f"\nOLS alpha = {model.params[0]:.3f}, beta = {model.params[1]:.3f}")
print(f"OLS sigma^2 (MSE) = {model.mse_resid:.3f}")
# x 가 랜덤이어도 조건부 추론(OLS)이 모집단 모수를 잘 추정한다

13.5 결과 해석

Step 1: 손 계산으로 MLE 와 불편 추정의 차이를 확인한다. \(n=5\) 에서 편향 비율이 0.6 으로 상당히 크다.
Step 2: 50,000 회 시뮬레이션으로 Theorem 11.3.3의 세 결과 — \(\hat\beta\) 의 정규성, \((n-2)S^2/\sigma^2\) 의 카이제곱, 그리고 \(\hat\beta\) 와 \(S^2\) 의 독립성 — 을 경험적으로 확인한다.
Step 3: statsmodels 의 summary 출력이 이론 공식과 정확히 일치함을 검증한다.
Step 4: 이변량 정규에서 \((X, Y)\) 쌍을 생성해도 OLS 추정이 조건부 정규 모형의 모수에 수렴함을 보인다. 두 모형의 실질적 동치를 경험적으로 확인한다.

14 핵심 정리

조건부 정규 모형 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\) (독립)은 §11.3.2 의 모멘트 모형에 독립성 + 정규성을 추가한 것이다.
MLE = OLS: 정규 모형의 로그우도를 최대화하면 RSS 최소화와 동치이므로, 세 번째 경로에서도 같은 추정량이 나온다.
\(\hat\sigma^2_{\text{MLE}} = \mathrm{RSS}/n\) 은 편향이다. 불편 추정량은 \(S^2 = \mathrm{RSS}/(n-2)\) 이며, 자유도 \(n-2\) 는 추정된 모수 수를 반영한다.
Theorem 11.3.3: \(\hat\beta \sim N\), \((n-2)S^2/\sigma^2 \sim \chi^2_{n-2}\), 그리고 \((\hat\alpha, \hat\beta) \perp S^2\). 이 세 결과가 \(t\)-검정과 신뢰구간의 근거이다.
이변량 정규 모형은 \(X\) 도 확률변수인 경우이다. 조건부로 잡으면 조건부 정규 모형과 동일한 추론이 나온다.
정규 가정이 결정적으로 필요한 곳은 정확한 추론(소표본 \(t, F, \chi^2\))이다. 점추정과 BLUE 최적성에는 모멘트 가정만으로 충분하다.

15 §11.3 전체에서의 위치

§11.3.1 Mathematical Solution (수학적 최소화)       ← 133
    ↓ 통계 모형 도입 (1·2차 모멘트)
§11.3.2 Statistical Solution (BLUE)                  ← 134
    ↓ 분포 가정 추가 (정규)
§11.3.3 Models and Distribution Assumptions          ← 이 포스트 (135)
    ↓ 분포로부터 추론 도구 유도
§11.3.4 Estimation and Testing (t-test, CI, F-test)  ← 다음 포스트
§11.3.5 Correlation and Regression (이변량 정규)

이 포스트에서 도입한 조건부 정규 모형과 Theorem 11.3.3 이 다음 포스트의 추론 도구 전체를 떠받치는 기초이다.

16 참고 문헌

Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.), §11.3.3, Lemma 11.3.2, Theorem 11.3.3. Duxbury.
Brown, L. D. (1990). An ancillarity paradox which appears in multiple linear regression. The Annals of Statistics, 18(2), 471–493.

17 관련 주제

선행 지식

SLR: Least Squares — A Mathematical Solution — §11.3.1, 분포 가정 없는 유도
SLR: Best Linear Unbiased Estimators — A Statistical Solution — §11.3.2, BLUE
정규분포 — 정규분포의 성질
최대우도 추정 — MLE 일반론
BLUE 와 Gauss-Markov 정리 (일반)

후속 주제

SLR: Estimation and Testing with Normal Errors (Casella §11.3.4) — \(t\)-검정, 신뢰구간, \(F\)-검정
Correlation and Regression (Casella §11.3.5)
Multiple Linear Regression

관련 개념

기대값과 실현값의 구별
추정량 평가 기준 — 편향, MSE, 효율
최량 불편 추정량 (UMVUE) — 정규 가정 하의 최적성 확장
ANOVA F-test — 제곱합 분해와 \(F\)-분포