Kwangmin Kim - 데이터는 스스로 말하지 않는다 + 모수적 조건부 평균 추정량

1 정의

정의: 일치 추정량 (Consistent Estimator)

추정량 \(\widehat{\mathrm{E}}[Y|A=a]\) 가 \(n \to \infty\) 일 때 모수 \(\mathrm{E}[Y|A=a]\) 로 확률 수렴할 때 일치 추정량이라 한다. 표본 평균은 일치 추정량이지만, “\(A=a\) 인 첫 관측치의 \(Y\) 값” 같은 추정량은 일치 추정량이 아니다 (Hernan & Robins, 2020, Ch.10).

직관 — 일치성은 “표본을 늘리면 답이 옳은 곳으로 모인다”는 약속이다. 표본 평균은 약속을 지킨다 — 16 명에서는 들쑥날쑥해도 1,600 명, 16 만 명으로 늘리면 진짜 평균에 점점 가까워진다. “첫 관측치의 값”은 약속을 지키지 않는다 — 표본을 무한히 늘려도 그저 첫 사람 한 명의 값일 뿐, 진짜 평균과 무관하다.

정의: 모수적 조건부 평균 모형 (Parametric Conditional Mean Model)

조건부 평균 함수 \(\mathrm{E}[Y|A]\) 의 형태를 유한개의 모수로 기술하는 모형이다.

\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\]

\(\theta_0, \theta_1\) 두 모수가 직선의 절편과 기울기를 정의한다. 모형은 “\(\mathrm{E}[Y|A]\) 가 직선이다”라는 사전 제약을 부과한다.

직관 — 두 숫자가 만 가지 평균을 결정한다: \(A\) 가 0~100 mg 정수 값이면 추정 대상은 \(\mathrm{E}[Y|A=0], \mathrm{E}[Y|A=1], \ldots, \mathrm{E}[Y|A=100]\) 즉 101 개이다. 모수적 모형은 “이 101 개가 직선 위에 놓여 있다”고 단언함으로써 2 개의 숫자만 알면 101 개를 모두 결정할 수 있게 만든다. 자유도를 99 만큼 줄이는 댓가로 추정 가능성을 얻는 것이다.

2 11.1 데이터는 스스로 말하지 않는다

2.1 표본 평균이라는 첫 도구의 위상

표본 평균 \(\bar{Y}_{A=a} = \frac{1}{n_a} \sum_{i: A_i=a} Y_i\) 는 통계학에서 가장 단순한 추정량이지만 세 가지 핵심 성질을 지닌다.

정의: 표본 평균의 통계적 성질

불편성(unbiasedness): \(\mathrm{E}[\bar{Y}_{A=a}] = \mathrm{E}[Y|A=a]\).
일치성(consistency): \(n_a \to \infty\) 이면 \(\bar{Y}_{A=a} \xrightarrow{p} \mathrm{E}[Y|A=a]\).
점근 정규성: \(\sqrt{n_a}(\bar{Y}_{A=a} - \mathrm{E}[Y|A=a]) \xrightarrow{d} \mathcal{N}(0, \mathrm{Var}(Y|A=a))\).

직관 — 세 성질의 의미: 불편성은 “추정 절차가 평균적으로 진짜 값을 맞춘다”, 일치성은 “표본을 늘리면 답이 진짜로 모인다”, 점근 정규성은 “표본이 충분히 크면 추정값의 분포가 정규분포로 근사된다 → 신뢰구간 구성 가능”. 표본 평균은 세 성질을 모두 지녀 통계 추정의 황금 표준이다. Ch.11 에서 모수 모형이 도입되는 이유는 이 황금 표준이 처치가 연속이거나 다차원 공변량 보정이 필요할 때 분모가 0 이 되어 무력해지기 때문이다.

2.2 16 명 표본의 세 가지 처치 형태

Hernan 의 본문은 동일한 16 명 HIV 환자에 처치 \(A\) 의 형태만 바꾸어 표본 평균이 점진적으로 무력화되는 모습을 보인다.

처치 형태	\(A\) 값 범위	그룹 수	그룹당 표본	표본 평균으로 추정 가능?
이항	\(\{0, 1\}\)	2	8	가능 — 신뢰구간 좁음
다범주 (4 단계)	\(\{1, 2, 3, 4\}\)	4	4	가능 — 신뢰구간 넓음
연속 (정수 mg)	\(\{0, 1, \ldots, 100\}\)	101	평균 0.16	대부분 불가능

이항 처치 의 경우 \(\widehat{\mathrm{E}}[Y|A=0] = 67.5\), \(\widehat{\mathrm{E}}[Y|A=1] = 146.25\) 가 바로 계산된다. 4 단계 처치 에서도 그룹별 표본 평균 \(70.0, 80.0, 117.5, 195.0\) 이 정의된다. 하지만 처치가 0~100 mg 범위의 연속 값이고 \(A=90\) 인 환자가 한 명도 없으면 \(\widehat{\mathrm{E}}[Y|A=90]\) 은 정의되지 않는다.

직관 — 그룹당 표본 수의 운명: 16 명을 2 그룹에 나누면 그룹당 8 명, 4 그룹에 나누면 4 명, 100 그룹이라면 평균 0.16 명이다. 0.16 명이라는 숫자는 “거의 모든 그룹이 비어 있다”는 뜻이다. 표본 평균이라는 도구는 분모(그룹별 인원수) 가 0 일 때 무력해진다.

직관 — 신뢰구간이 넓어지는 이유: 그룹당 인원이 줄면 그룹 평균의 표본 분산이 \(\sigma^2 / n_a\) 로 커진다. 8 명일 때 표준오차가 \(\sigma/\sqrt{8}\) 이라면 4 명일 때는 \(\sigma/\sqrt{4}\) — 약 \(1.41\) 배다. 같은 데이터에서 그룹을 더 잘게 쪼개는 순간 신뢰구간 폭이 그만큼 넓어진다. 잘게 쪼개면 정밀도가 희석된다.

2.3 표본 크기와 그룹 수의 균형

표본이 16 으로 고정된 상태에서 그룹 수가 늘어나면 그룹당 표본이 줄어들고 신뢰구간 폭이 넓어진다. 4 단계 처치의 신뢰구간은 이항 처치보다 넓다. 100 단계 처치에서는 한 그룹당 평균 0.16 명이 배정되므로 표본 평균 자체가 정의되는 그룹이 16 개 이하로 제한된다.

직관: 같은 16 개의 점을 2 개 상자에 나누면 상자당 8 개, 100 개 상자에 나누면 84 개 상자가 빈 채로 남는다. 빈 상자의 평균은 산술적으로 정의되지 않는다.

2.4 연속 처치가 야기하는 본질적 한계

연속 변수 \(A\) 는 셀 수 없이 많은 범주를 가진 범주형 변수와 같다 (Hernan & Robins, 2020, Ch.11.1). 이 경우 어떤 유한 표본에서도 거의 모든 \(A=a\) 에서 \(n_a = 0\) 이다. 이것은 “표본이 부족하다”는 문제가 아니라 표본 평균이라는 추정 전략 자체의 구조적 한계이다. 관측되지 않은 \(a\) 의 평균을 추정하려면 다른 \(a\) 값의 정보를 어떤 방식으로든 빌려와야 하며, 정보를 빌리는 규칙이 곧 모형이다.

3 11.2 모수적 조건부 평균 추정량

3.1 선형 조건부 평균 모형

\(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 는 처치 평균 결과 \(\mathrm{E}[Y|A=a]\) 가 \(a\) 에 대해 직선이라는 사전 제약을 부과한다.

\(\theta_0\): 절편 — \(A=0\) 일 때 평균 결과
\(\theta_1\): 기울기 — \(A\) 가 1 단위 증가할 때 평균 결과의 변화량

이 모형 아래에서 \(\mathrm{E}[Y|A=80]\) 과 \(\mathrm{E}[Y|A=100]\) 이 결정되면 \(\mathrm{E}[Y|A=90]\) 은 자동으로 그 사이의 직선 위 점이다. 데이터에 없는 영역이 모형의 함수 형태로 결정된다.

직관 — 두 모수의 기하학적 의미: 종이 위에 직선을 그리려면 출발점과 기울기, 두 정보만 있으면 된다. \(\theta_0\) 가 \(y\)-축에서 출발점을, \(\theta_1\) 이 옆으로 한 발짝 갈 때 위로 얼마나 올라갈지를 결정한다. 같은 식 \(\widehat{\mathrm{E}}[Y|A=90] = \widehat{\theta}_0 + 90 \widehat{\theta}_1\) 은 “출발점에서 90 발짝 옆으로 간 곳의 높이”로 읽으면 자연스럽다.

직관 — 외삽이 합법화되는 순간: 모형 없이는 \(A=90\) 의 추정은 불가능하지만, 모형은 “이 영역도 같은 직선이 지배한다”는 가정을 통해 추정을 합법화한다. 이때 외삽의 신뢰성은 데이터가 아니라 가정 에서 온다 — 가정이 옳다는 보증 없이는 외삽치를 기계적으로 신뢰할 수 없다.

모형 = 가정으로 정보를 보충

Hernan 의 표현을 빌리면 “공짜 점심은 없다(no free lunch)”. 모형은 데이터의 빈자리를 가정의 형태로 메워준다. 가정이 옳으면 부족한 정보를 얻고, 틀리면 체계적 편향을 얻는다.

3.2 Functional Form 과 Dose-Response 의 차이

직선 형태 같은 함수 모양 제약을 통계 문헌에서는 functional form 이라 부르고, 일부 문헌은 dose-response curve 라 부른다. Hernan 은 후자를 피한다 — “용량이 반응에 인과적으로 영향을 준다”는 어감이 있어서, 교란이 있을 때 잘못된 인과적 해석을 유도할 수 있기 때문이다 (Ch.11.2).

직관 — 용어가 함정인 이유: 관찰 데이터에서 흡연량 \(A\) 와 폐암 발생률 \(Y\) 의 회귀 직선을 그리고 “dose-response” 라고 부르면 마치 “흡연량을 증가시키면 폐암률이 그만큼 증가한다”는 인과적 함의로 들린다. 그러나 교란이 있다면 직선의 기울기는 인과 효과가 아니라 단지 관측된 연관일 뿐이다. functional form 이라는 중립 용어는 이 인과적 비약을 막아준다.

3.3 Ordinary Least Squares 추정

직선 위의 모든 가능한 후보 \((\theta_0, \theta_1)\) 에 대해 잔차 제곱의 합을 \(\sum_{i=1}^{16} (Y_i - \theta_0 - \theta_1 A_i)^2\) 로 정의하고, 이 합을 최소화하는 \((\widehat{\theta}_0, \widehat{\theta}_1)\) 가 OLS 추정량이다. 이 추정량은 \(\theta_0, \theta_1\) 의 비편향(unbiased) 추정량이다.

직관 — 왜 잔차 제곱인가? 잔차의 단순 합은 양수와 음수가 상쇄되어 0 이 되기 쉽다(부호 의미가 사라짐). 절댓값 합은 부호는 잡지만 미분 불가능해 미적분 도구가 막힌다. 제곱은 부호를 잡으면서 매끄러워 미분 가능하고, 큰 잔차에 더 큰 페널티를 부여해 outlier 를 강하게 잡아낸다. “수직 거리 의 제곱 합 최소화” 라는 정의는 부호 통제 + 미분 가능성 + 큰 오차 강조의 세 조건을 동시에 충족하는 최단 경로다.

수식으로 풀면

\[\widehat{\theta}_1 = \frac{\sum_i (A_i - \bar{A})(Y_i - \bar{Y})}{\sum_i (A_i - \bar{A})^2}, \qquad \widehat{\theta}_0 = \bar{Y} - \widehat{\theta}_1 \bar{A}\]

가 된다.

직관 — 분자·분모의 의미: 분자는 \(A\) 와 \(Y\) 의 공분산(같이 흔들리는 정도) 의 표본 추정량이고, 분모는 \(A\) 의 분산이다. 따라서 \(\widehat{\theta}_1 = \widehat{\mathrm{Cov}}(A, Y) / \widehat{\mathrm{Var}}(A)\) 이며, “\(A\) 가 1 단위 변할 때 \(Y\) 가 평균적으로 얼마나 변하는지”의 비율이다. \(\widehat{\theta}_0\) 는 직선이 \((\bar{A}, \bar{Y})\) 평균점을 지나도록 만드는 절편이다 — OLS 직선은 항상 데이터의 무게중심을 지나간다.

Hernan 의 Program 11.2 결과는 \(\widehat{\theta}_0 = 24.55\), \(\widehat{\theta}_1 = 2.14\) 이고, 이로부터

\[\widehat{\mathrm{E}}[Y|A=90] = 24.55 + 90 \times 2.14 = 216.9\]

가 얻어진다. 동분산성(homoscedasticity) 가정 아래 95% Wald 신뢰구간은 \(\theta_0\) 에 대해 \((-21.2, 70.3)\), \(\theta_1\) 에 대해 \((1.28, 2.99)\), \(\mathrm{E}[Y|A=90]\) 에 대해 \((172.1, 261.6)\) 이다.

직관 — 동분산성의 역할: “잔차의 분산이 \(A\) 와 무관”이라는 가정이 동분산성이다. 이 가정 아래에서 잔차 16 개로 노이즈 수준 \(\sigma^2\) 을 단일 숫자로 추정해 모든 \(A\) 에 적용한다. 가정이 깨지면(예: \(A\) 가 클수록 잔차가 커짐) 단일 \(\sigma^2\) 추정이 부적절해 신뢰구간이 일부 영역에서 너무 좁고 다른 영역에서 너무 넓어진다. Robust standard error(Huber-White)는 이 가정을 완화한 표준오차 추정 방식이다.

3.4 정보 차용(Borrowing) 의 메커니즘

OLS 는 16 개의 점 모두를 사용해 가장 잘 맞는 직선을 찾는다. 따라서 \(\mathrm{E}[Y|A=90]\) 의 추정에는 \(A_i \neq 90\) 인 다른 환자들의 정보가 직선의 절편·기울기를 통해 들어간다. 이것이 “정보 차용”의 핵심 메커니즘이다.

반사실: 만약 직선 가정이 틀렸다면 \(A=90\) 근처의 점이 실제로 직선 위가 아닌데도 직선을 끼워 맞춘 결과 \(216.9\) 가 나온 것이다. 진짜 평균이 \(200\) 이라면 편향이 약 17 이다.

직관 — 16 명 합의의 결과: 직선 모형의 점추정 \(216.9\) 는 16 명 환자 모두의 결과 \(Y_i\) 가 절편·기울기 추정에 동시에 영향을 주기 때문에 결정된다. 한 명을 빼면 \(\widehat{\theta}_0, \widehat{\theta}_1\) 둘 다 미세하게 흔들리고, 이에 따라 \(A=90\) 의 예측치도 흔들린다. \(A=3\) 의 환자조차 \(A=90\) 의 추정에 한 표를 던지는 셈이다 — 멀리 있을수록 영향력은 작지만 0 은 아니다.

직관 — Leverage 의 개념: \(A\) 가 평균에서 멀수록 그 점의 leverage 가 크다. \(A=97\) 같은 극단치는 직선의 기울기 결정에 큰 영향을 준다. 따라서 \(A=90\) 의 추정에는 가까운 위치 + 큰 leverage 를 가진 환자들의 영향이 가장 강하다. 회귀는 만장일치가 아니라 가중 투표다.

3.5 예측값(predicted value) 과 잔차

각 관측치 \(i\) 에 대해 \(\widehat{\mathrm{E}}[Y|A_i] = \widehat{\theta}_0 + \widehat{\theta}_1 A_i\) 를 예측값이라 하고, 이 값이 회귀 직선이 그 점에 부여하는 추정 평균이다. 예측값은 모수 \(\theta_0, \theta_1\) 을 추정한 후 임의의 \(A=a\) 에 대해 동일한 함수 형태로 산출된다.

잔차는 \(\widehat{\varepsilon}_i = Y_i - \widehat{\mathrm{E}}[Y|A_i]\) 로 정의되고, 다음 두 가지 의미를 가진다.

표본 잔차: 데이터의 점이 적합된 직선에서 수직으로 떨어진 거리. 부호가 있을 수 있다.
노이즈 추정: 진짜 분포의 오차항 \(\varepsilon = Y - \mathrm{E}[Y|A]\) 의 표본 버전.

정의: OLS 의 4 가지 표준 가정

OLS 추정량의 통계적 성질이 보장되려면 다음 가정이 필요하다 (Gauss-Markov 정리).

선형성: \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) — 함수 형태가 직선.
외생성(exogeneity): \(\mathrm{E}[\varepsilon | A] = 0\) — 오차항이 \(A\) 와 무관.
동분산성(homoscedasticity): \(\mathrm{Var}(\varepsilon | A) = \sigma^2\) — 잔차 분산이 \(A\) 에 무관.
독립성: 관측치 간 \(\varepsilon_i, \varepsilon_j\) 가 독립.

이 네 가정 아래에서 OLS 는 BLUE (Best Linear Unbiased Estimator) — 비편향 선형 추정량 중 분산이 가장 작은 추정량이 된다.

직관 — 네 가정의 인과적 의미: 선형성 = 모형 미명세 위험을 통제. 외생성 = 교란이 통제됨 (회귀에 보정 변수가 모두 포함됨). 동분산성 = 신뢰구간 폭이 모든 \(A\) 에서 일관되게 추정됨. 독립성 = 표본이 IID 또는 적어도 독립 추출. 인과 추론에서 외생성은 교환가능성 가정으로 번역되며, 이 가정 위반이 가장 위험하다 — 다른 세 가정의 위반은 신뢰구간 calibration 에 영향을 주지만, 외생성 위반은 점추정 자체를 편향시킨다.

직관 — 잔차 진단의 역할: 잔차 산점도(\(A\) 대 \(\widehat{\varepsilon}\)) 에서 (1) 곡선 패턴 → 선형성 위반 (이차항 필요) (2) 깔때기 모양(분산 증가) → 동분산성 위반 (robust SE 또는 가중 회귀) (3) 시간순 정렬 시 자기상관 → 독립성 위반 (시계열·패널 처리) 회귀를 적합한 후 잔차를 그리는 것은 모형의 4 가지 가정을 시각적으로 점검하는 표준 절차이다.

3.6 OLS 의 행렬 표현

다변량 공변량 \(\mathbf{X} = (1, X_1, \ldots, X_p)^\top\) 으로 일반화하면

\[\mathrm{E}[Y|\mathbf{X}] = \boldsymbol\theta^\top \mathbf{X}, \qquad \widehat{\boldsymbol\theta} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{Y}\]

가 OLS 추정량의 행렬 형태이다. 16 명 표본의 단변량 사례는 \(p=1\) 의 특수 경우다.

직관 — \((\mathbf{X}^\top \mathbf{X})^{-1}\) 의 의미: 공변량 행렬의 역분산 비슷한 양으로, “공변량 공간이 얼마나 정보를 풍부히 담고 있는지”를 나타낸다. 공변량들이 거의 일직선에 놓여 있으면(다중공선성) 이 역행렬이 폭발해 추정량의 분산이 커진다. 데이터의 다양성이 추정의 정밀도를 결정한다.

직관 — projection 으로서의 회귀: \(\widehat{\mathbf{Y}} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{Y} = \mathbf{H} \mathbf{Y}\) 에서 \(\mathbf{H}\) 는 데이터 \(\mathbf{Y}\) 를 공변량 공간으로 직교 사영한다. 회귀의 본질은 결과 벡터의 그림자를 공변량 평면에 떨어뜨리는 행위 — 그림자가 곧 예측값이다. 잔차는 결과 벡터에서 그림자를 뺀 수직 성분.

4 모형의 본질 — Hernan 정의

정의: 모형 (Hernan & Robins, 2020, Ch.11.2)

모형은 데이터의 결합 분포가 가질 수 있는 형태에 대한 사전(a priori) 제약이다 (Robins, Greenland 1986). 선형 조건부 평균 모형은 “조건부 평균 함수가 직선”이라는 제약이다. 모형은 모수에 자유도를 부여하지만, 함수 모양 자체는 고정한다.

이 정의는 두 결과를 함의한다.

추정 가능성 확장: 데이터 부족 영역에서도 추정이 가능해진다.
추정의 옳음은 가정에 종속: 모형이 옳을 때만 추정이 옳다 (correct specification).

Part II 의 모든 인과 추정 기법(IPW, g-공식, IV, ML 기반 추정) 은 이 두 명제 사이의 긴장을 어떻게 다루느냐의 문제로 환원된다.

5 왜 필요한가

문제	표본 평균	모수 모형
이항 처치, 그룹당 50 명	잘 동작	같은 결과 (saturated)
연속 처치, 그룹당 0~1 명	정의되지 않음	직선/곡선으로 추정 가능
다차원 공변량 보정	차원의 저주	회귀 형태로 표현 가능
외삽(extrapolation)	불가능	함수 형태로 외삽 가능

표본 평균은 강력하지만 한계가 명확하다. 모수 모형은 가정의 비용을 지불하고 추정 가능성을 확장한다.

6 응용 분야

임상시험: 용량-반응 관계의 회귀
마케팅: 광고비 vs 매출의 회귀
헬스케어 EHR: 연속 lab 값(혈압, eGFR) 과 결과의 회귀 관계
온라인 실험: 처치 강도(노출 횟수) 의 메트릭 영향 추정
정책: 최저임금 인상폭의 고용 효과 회귀

6.1 NHEFS 데이터 — Part II 의 공통 작업장

Hernan 의 Part II 12장 부터 22 장까지의 모든 사례는 NHEFS (National Health and Nutrition Examination Survey I Epidemiologic Followup Study) 데이터셋 위에서 진행된다. 이 데이터에서 “흡연 중단 \(A\) 가 체중 변화 \(Y\) 에 미치는 평균 인과 효과” 가 본문 전체의 단일 인과 질문이다.

변수	의미	형태
\(A\)	1971~1982 사이 흡연 중단 여부	이항
\(Y\)	같은 기간 체중 변화 (kg)	연속
\(L\)	성별·나이·인종·교육·운동량·체중 등 9 개 보정 변수	혼합

직관 — 이항 처치 + 연속 결과: 16 명 사례의 연속 처치 + 연속 결과와 다르게, NHEFS 는 이항 처치라 처치 자체에서는 saturation 가능. 그러나 공변량 \(L\) 의 9 개 변수가 다차원·연속이라 \(\mathrm{E}[Y|A,L]\) 추정에서 모수 모형이 필수가 된다. Ch.12 의 IPW 처치 모형과 Ch.13 의 g-formula 결과 모형은 이 회귀를 어떻게 짤지를 다룬다.

직관 — Ch.11 의 사례를 NHEFS 로 옮기면: Ch.11 의 16 명 표본은 회귀의 1 차원 데모이고, NHEFS 는 같은 회귀 도구를 다차원 인과 보정에 사용하는 무대다. Ch.11 에서 도구의 작동을 이해해야 Ch.12 부터 NHEFS 사례가 자연스럽게 따라온다.

7 한 줄 요약

표본 평균은 단순 강력하지만 분모가 0 이 되는 영역에서는 무력하다. 모수적 조건부 평균 모형은 “\(\mathrm{E}[Y|A]\) 가 직선이다”라는 사전 제약으로 데이터 부족 영역의 추정을 가능하게 하며, OLS 는 16 명 모두의 정보를 가중 투표 형태로 결합해 이 직선을 결정한다. 외삽의 신뢰성은 가정의 옳음에 의존하며, 잔차 진단은 가정의 시각적 점검 도구이다.

8 예시: Hernan 16 명 표본 재현

연속 처치 \(A \in [0, 100]\) 에서 \(\mathrm{E}[Y|A=90]\) 을 추정한다.

단계	조작	결과
1. 데이터 확보	16 개 \((A_i, Y_i)\) 점	산점도 (Figure 11.3)
2. 모형 가정	\(\mathrm{E}[Y\|A] = \theta_0 + \theta_1 A\)	직선
3. OLS 적합	잔차 제곱 합 최소화	\(\widehat{\theta}_0 = 24.55, \widehat{\theta}_1 = 2.14\)
4. 예측	\(\widehat{\mathrm{E}}[Y\|A=90] = 24.55 + 90 \times 2.14\)	\(216.9\)
5. 신뢰구간	동분산 가정 + Wald	\((172.1, 261.6)\)

이 결과의 신뢰성은 직선 가정의 정합성에 전적으로 의존한다. 가정이 깨지면 점추정과 신뢰구간 모두 해석이 무너진다.

9 코드: statsmodels OLS 로 재현

import numpy as np
import statsmodels.api as sm

# Hernan 본문 16 명 표본 (Figure 11.3 의 점)
A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 60, 67, 71, 79, 83, 97, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 230, 111, 217, 200, 140, 220, 11, 190])

# 2-모수 선형 모형 적합
X = sm.add_constant(A)
model = sm.OLS(Y, X).fit()

print(model.params)
# const   24.55
# x1       2.14

# A=90 에서 예측 + 95% 신뢰구간
pred = model.get_prediction([1, 90])
print(pred.summary_frame(alpha=0.05))
#    mean  mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  obs_ci_upper
# 0  216.9    20.7         172.1           261.6        ...           ...

# 잔차 분석으로 직선 가정 점검
residuals = model.resid
import matplotlib.pyplot as plt
plt.scatter(A, residuals)
plt.axhline(0, color='gray')
plt.xlabel('A'); plt.ylabel('residual')
plt.show()

잔차 패턴이 0 주변으로 무작위로 흩어져 있으면 직선 가정이 합리적이다. 체계적 곡선 패턴이 보이면 다음 글(10-2) 의 평활(smoothing) 기법이 필요하다.

10 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

선형 회귀의 통계적 기초 — OLS 의 분포 이론
차원의 저주 — 비모수 추정의 한계