1 정의
추정량 \(\widehat{\mathrm{E}}[Y|A=a]\) 가 \(n \to \infty\) 일 때 모수 \(\mathrm{E}[Y|A=a]\) 로 확률 수렴할 때 일치 추정량이라 한다. 표본 평균은 일치 추정량이지만, “\(A=a\) 인 첫 관측치의 \(Y\) 값” 같은 추정량은 일치 추정량이 아니다 (Hernan & Robins, 2020, Ch.10).
직관 — 일치성은 “표본을 늘리면 답이 옳은 곳으로 모인다”는 약속이다. 표본 평균은 약속을 지킨다 — 16 명에서는 들쑥날쑥해도 1,600 명, 16 만 명으로 늘리면 진짜 평균에 점점 가까워진다. “첫 관측치의 값”은 약속을 지키지 않는다 — 표본을 무한히 늘려도 그저 첫 사람 한 명의 값일 뿐, 진짜 평균과 무관하다.
조건부 평균 함수 \(\mathrm{E}[Y|A]\) 의 형태를 유한개의 모수로 기술하는 모형이다.
\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\]
\(\theta_0, \theta_1\) 두 모수가 직선의 절편과 기울기를 정의한다. 모형은 “\(\mathrm{E}[Y|A]\) 가 직선이다”라는 사전 제약을 부과한다.
직관 — 두 숫자가 만 가지 평균을 결정한다: \(A\) 가 0~100 mg 정수 값이면 추정 대상은 \(\mathrm{E}[Y|A=0], \mathrm{E}[Y|A=1], \ldots, \mathrm{E}[Y|A=100]\) 즉 101 개이다. 모수적 모형은 “이 101 개가 직선 위에 놓여 있다”고 단언함으로써 2 개의 숫자만 알면 101 개를 모두 결정할 수 있게 만든다. 자유도를 99 만큼 줄이는 댓가로 추정 가능성을 얻는 것이다.
2 11.1 데이터는 스스로 말하지 않는다
2.1 표본 평균이라는 첫 도구의 위상
표본 평균 \(\bar{Y}_{A=a} = \frac{1}{n_a} \sum_{i: A_i=a} Y_i\) 는 통계학에서 가장 단순한 추정량이지만 세 가지 핵심 성질을 지닌다.
- 불편성(unbiasedness): \(\mathrm{E}[\bar{Y}_{A=a}] = \mathrm{E}[Y|A=a]\).
- 일치성(consistency): \(n_a \to \infty\) 이면 \(\bar{Y}_{A=a} \xrightarrow{p} \mathrm{E}[Y|A=a]\).
- 점근 정규성: \(\sqrt{n_a}(\bar{Y}_{A=a} - \mathrm{E}[Y|A=a]) \xrightarrow{d} \mathcal{N}(0, \mathrm{Var}(Y|A=a))\).
직관 — 세 성질의 의미: 불편성은 “추정 절차가 평균적으로 진짜 값을 맞춘다”, 일치성은 “표본을 늘리면 답이 진짜로 모인다”, 점근 정규성은 “표본이 충분히 크면 추정값의 분포가 정규분포로 근사된다 → 신뢰구간 구성 가능”. 표본 평균은 세 성질을 모두 지녀 통계 추정의 황금 표준이다. Ch.11 에서 모수 모형이 도입되는 이유는 이 황금 표준이 처치가 연속이거나 다차원 공변량 보정이 필요할 때 분모가 0 이 되어 무력해지기 때문이다.
2.2 16 명 표본의 세 가지 처치 형태
Hernan 의 본문은 동일한 16 명 HIV 환자에 처치 \(A\) 의 형태만 바꾸어 표본 평균이 점진적으로 무력화되는 모습을 보인다.
| 처치 형태 | \(A\) 값 범위 | 그룹 수 | 그룹당 표본 | 표본 평균으로 추정 가능? |
|---|---|---|---|---|
| 이항 | \(\{0, 1\}\) | 2 | 8 | 가능 — 신뢰구간 좁음 |
| 다범주 (4 단계) | \(\{1, 2, 3, 4\}\) | 4 | 4 | 가능 — 신뢰구간 넓음 |
| 연속 (정수 mg) | \(\{0, 1, \ldots, 100\}\) | 101 | 평균 0.16 | 대부분 불가능 |
이항 처치 의 경우 \(\widehat{\mathrm{E}}[Y|A=0] = 67.5\), \(\widehat{\mathrm{E}}[Y|A=1] = 146.25\) 가 바로 계산된다. 4 단계 처치 에서도 그룹별 표본 평균 \(70.0, 80.0, 117.5, 195.0\) 이 정의된다. 하지만 처치가 0~100 mg 범위의 연속 값이고 \(A=90\) 인 환자가 한 명도 없으면 \(\widehat{\mathrm{E}}[Y|A=90]\) 은 정의되지 않는다.
직관 — 그룹당 표본 수의 운명: 16 명을 2 그룹에 나누면 그룹당 8 명, 4 그룹에 나누면 4 명, 100 그룹이라면 평균 0.16 명이다. 0.16 명이라는 숫자는 “거의 모든 그룹이 비어 있다”는 뜻이다. 표본 평균이라는 도구는 분모(그룹별 인원수) 가 0 일 때 무력해진다.
직관 — 신뢰구간이 넓어지는 이유: 그룹당 인원이 줄면 그룹 평균의 표본 분산이 \(\sigma^2 / n_a\) 로 커진다. 8 명일 때 표준오차가 \(\sigma/\sqrt{8}\) 이라면 4 명일 때는 \(\sigma/\sqrt{4}\) — 약 \(1.41\) 배다. 같은 데이터에서 그룹을 더 잘게 쪼개는 순간 신뢰구간 폭이 그만큼 넓어진다. 잘게 쪼개면 정밀도가 희석된다.
2.3 표본 크기와 그룹 수의 균형
표본이 16 으로 고정된 상태에서 그룹 수가 늘어나면 그룹당 표본이 줄어들고 신뢰구간 폭이 넓어진다. 4 단계 처치의 신뢰구간은 이항 처치보다 넓다. 100 단계 처치에서는 한 그룹당 평균 0.16 명이 배정되므로 표본 평균 자체가 정의되는 그룹이 16 개 이하로 제한된다.
직관: 같은 16 개의 점을 2 개 상자에 나누면 상자당 8 개, 100 개 상자에 나누면 84 개 상자가 빈 채로 남는다. 빈 상자의 평균은 산술적으로 정의되지 않는다.
2.4 연속 처치가 야기하는 본질적 한계
연속 변수 \(A\) 는 셀 수 없이 많은 범주를 가진 범주형 변수와 같다 (Hernan & Robins, 2020, Ch.11.1). 이 경우 어떤 유한 표본에서도 거의 모든 \(A=a\) 에서 \(n_a = 0\) 이다. 이것은 “표본이 부족하다”는 문제가 아니라 표본 평균이라는 추정 전략 자체의 구조적 한계이다. 관측되지 않은 \(a\) 의 평균을 추정하려면 다른 \(a\) 값의 정보를 어떤 방식으로든 빌려와야 하며, 정보를 빌리는 규칙이 곧 모형이다.
3 11.2 모수적 조건부 평균 추정량
3.1 선형 조건부 평균 모형
\(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 는 처치 평균 결과 \(\mathrm{E}[Y|A=a]\) 가 \(a\) 에 대해 직선이라는 사전 제약을 부과한다.
- \(\theta_0\): 절편 — \(A=0\) 일 때 평균 결과
- \(\theta_1\): 기울기 — \(A\) 가 1 단위 증가할 때 평균 결과의 변화량
이 모형 아래에서 \(\mathrm{E}[Y|A=80]\) 과 \(\mathrm{E}[Y|A=100]\) 이 결정되면 \(\mathrm{E}[Y|A=90]\) 은 자동으로 그 사이의 직선 위 점이다. 데이터에 없는 영역이 모형의 함수 형태로 결정된다.
직관 — 두 모수의 기하학적 의미: 종이 위에 직선을 그리려면 출발점과 기울기, 두 정보만 있으면 된다. \(\theta_0\) 가 \(y\)-축에서 출발점을, \(\theta_1\) 이 옆으로 한 발짝 갈 때 위로 얼마나 올라갈지를 결정한다. 같은 식 \(\widehat{\mathrm{E}}[Y|A=90] = \widehat{\theta}_0 + 90 \widehat{\theta}_1\) 은 “출발점에서 90 발짝 옆으로 간 곳의 높이”로 읽으면 자연스럽다.
직관 — 외삽이 합법화되는 순간: 모형 없이는 \(A=90\) 의 추정은 불가능하지만, 모형은 “이 영역도 같은 직선이 지배한다”는 가정을 통해 추정을 합법화한다. 이때 외삽의 신뢰성은 데이터가 아니라 가정 에서 온다 — 가정이 옳다는 보증 없이는 외삽치를 기계적으로 신뢰할 수 없다.
Hernan 의 표현을 빌리면 “공짜 점심은 없다(no free lunch)”. 모형은 데이터의 빈자리를 가정의 형태로 메워준다. 가정이 옳으면 부족한 정보를 얻고, 틀리면 체계적 편향을 얻는다.
3.2 Functional Form 과 Dose-Response 의 차이
직선 형태 같은 함수 모양 제약을 통계 문헌에서는 functional form 이라 부르고, 일부 문헌은 dose-response curve 라 부른다. Hernan 은 후자를 피한다 — “용량이 반응에 인과적으로 영향을 준다”는 어감이 있어서, 교란이 있을 때 잘못된 인과적 해석을 유도할 수 있기 때문이다 (Ch.11.2).
직관 — 용어가 함정인 이유: 관찰 데이터에서 흡연량 \(A\) 와 폐암 발생률 \(Y\) 의 회귀 직선을 그리고 “dose-response” 라고 부르면 마치 “흡연량을 증가시키면 폐암률이 그만큼 증가한다”는 인과적 함의로 들린다. 그러나 교란이 있다면 직선의 기울기는 인과 효과가 아니라 단지 관측된 연관일 뿐이다. functional form 이라는 중립 용어는 이 인과적 비약을 막아준다.
3.3 Ordinary Least Squares 추정
직선 위의 모든 가능한 후보 \((\theta_0, \theta_1)\) 에 대해 잔차 제곱의 합을 \(\sum_{i=1}^{16} (Y_i - \theta_0 - \theta_1 A_i)^2\) 로 정의하고, 이 합을 최소화하는 \((\widehat{\theta}_0, \widehat{\theta}_1)\) 가 OLS 추정량이다. 이 추정량은 \(\theta_0, \theta_1\) 의 비편향(unbiased) 추정량이다.
직관 — 왜 잔차 제곱인가? 잔차의 단순 합은 양수와 음수가 상쇄되어 0 이 되기 쉽다(부호 의미가 사라짐). 절댓값 합은 부호는 잡지만 미분 불가능해 미적분 도구가 막힌다. 제곱은 부호를 잡으면서 매끄러워 미분 가능하고, 큰 잔차에 더 큰 페널티를 부여해 outlier 를 강하게 잡아낸다. “수직 거리 의 제곱 합 최소화” 라는 정의는 부호 통제 + 미분 가능성 + 큰 오차 강조의 세 조건을 동시에 충족하는 최단 경로다.
수식으로 풀면
\[\widehat{\theta}_1 = \frac{\sum_i (A_i - \bar{A})(Y_i - \bar{Y})}{\sum_i (A_i - \bar{A})^2}, \qquad \widehat{\theta}_0 = \bar{Y} - \widehat{\theta}_1 \bar{A}\]
가 된다.
직관 — 분자·분모의 의미: 분자는 \(A\) 와 \(Y\) 의 공분산(같이 흔들리는 정도) 의 표본 추정량이고, 분모는 \(A\) 의 분산이다. 따라서 \(\widehat{\theta}_1 = \widehat{\mathrm{Cov}}(A, Y) / \widehat{\mathrm{Var}}(A)\) 이며, “\(A\) 가 1 단위 변할 때 \(Y\) 가 평균적으로 얼마나 변하는지”의 비율이다. \(\widehat{\theta}_0\) 는 직선이 \((\bar{A}, \bar{Y})\) 평균점을 지나도록 만드는 절편이다 — OLS 직선은 항상 데이터의 무게중심을 지나간다.
Hernan 의 Program 11.2 결과는 \(\widehat{\theta}_0 = 24.55\), \(\widehat{\theta}_1 = 2.14\) 이고, 이로부터
\[\widehat{\mathrm{E}}[Y|A=90] = 24.55 + 90 \times 2.14 = 216.9\]
가 얻어진다. 동분산성(homoscedasticity) 가정 아래 95% Wald 신뢰구간은 \(\theta_0\) 에 대해 \((-21.2, 70.3)\), \(\theta_1\) 에 대해 \((1.28, 2.99)\), \(\mathrm{E}[Y|A=90]\) 에 대해 \((172.1, 261.6)\) 이다.
직관 — 동분산성의 역할: “잔차의 분산이 \(A\) 와 무관”이라는 가정이 동분산성이다. 이 가정 아래에서 잔차 16 개로 노이즈 수준 \(\sigma^2\) 을 단일 숫자로 추정해 모든 \(A\) 에 적용한다. 가정이 깨지면(예: \(A\) 가 클수록 잔차가 커짐) 단일 \(\sigma^2\) 추정이 부적절해 신뢰구간이 일부 영역에서 너무 좁고 다른 영역에서 너무 넓어진다. Robust standard error(Huber-White)는 이 가정을 완화한 표준오차 추정 방식이다.
3.4 정보 차용(Borrowing) 의 메커니즘
OLS 는 16 개의 점 모두를 사용해 가장 잘 맞는 직선을 찾는다. 따라서 \(\mathrm{E}[Y|A=90]\) 의 추정에는 \(A_i \neq 90\) 인 다른 환자들의 정보가 직선의 절편·기울기를 통해 들어간다. 이것이 “정보 차용”의 핵심 메커니즘이다.
반사실: 만약 직선 가정이 틀렸다면 \(A=90\) 근처의 점이 실제로 직선 위가 아닌데도 직선을 끼워 맞춘 결과 \(216.9\) 가 나온 것이다. 진짜 평균이 \(200\) 이라면 편향이 약 17 이다.
직관 — 16 명 합의의 결과: 직선 모형의 점추정 \(216.9\) 는 16 명 환자 모두의 결과 \(Y_i\) 가 절편·기울기 추정에 동시에 영향을 주기 때문에 결정된다. 한 명을 빼면 \(\widehat{\theta}_0, \widehat{\theta}_1\) 둘 다 미세하게 흔들리고, 이에 따라 \(A=90\) 의 예측치도 흔들린다. \(A=3\) 의 환자조차 \(A=90\) 의 추정에 한 표를 던지는 셈이다 — 멀리 있을수록 영향력은 작지만 0 은 아니다.
직관 — Leverage 의 개념: \(A\) 가 평균에서 멀수록 그 점의 leverage 가 크다. \(A=97\) 같은 극단치는 직선의 기울기 결정에 큰 영향을 준다. 따라서 \(A=90\) 의 추정에는 가까운 위치 + 큰 leverage 를 가진 환자들의 영향이 가장 강하다. 회귀는 만장일치가 아니라 가중 투표다.
3.5 예측값(predicted value) 과 잔차
각 관측치 \(i\) 에 대해 \(\widehat{\mathrm{E}}[Y|A_i] = \widehat{\theta}_0 + \widehat{\theta}_1 A_i\) 를 예측값이라 하고, 이 값이 회귀 직선이 그 점에 부여하는 추정 평균이다. 예측값은 모수 \(\theta_0, \theta_1\) 을 추정한 후 임의의 \(A=a\) 에 대해 동일한 함수 형태로 산출된다.
잔차는 \(\widehat{\varepsilon}_i = Y_i - \widehat{\mathrm{E}}[Y|A_i]\) 로 정의되고, 다음 두 가지 의미를 가진다.
- 표본 잔차: 데이터의 점이 적합된 직선에서 수직으로 떨어진 거리. 부호가 있을 수 있다.
- 노이즈 추정: 진짜 분포의 오차항 \(\varepsilon = Y - \mathrm{E}[Y|A]\) 의 표본 버전.
OLS 추정량의 통계적 성질이 보장되려면 다음 가정이 필요하다 (Gauss-Markov 정리).
- 선형성: \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) — 함수 형태가 직선.
- 외생성(exogeneity): \(\mathrm{E}[\varepsilon | A] = 0\) — 오차항이 \(A\) 와 무관.
- 동분산성(homoscedasticity): \(\mathrm{Var}(\varepsilon | A) = \sigma^2\) — 잔차 분산이 \(A\) 에 무관.
- 독립성: 관측치 간 \(\varepsilon_i, \varepsilon_j\) 가 독립.
이 네 가정 아래에서 OLS 는 BLUE (Best Linear Unbiased Estimator) — 비편향 선형 추정량 중 분산이 가장 작은 추정량이 된다.
직관 — 네 가정의 인과적 의미: 선형성 = 모형 미명세 위험을 통제. 외생성 = 교란이 통제됨 (회귀에 보정 변수가 모두 포함됨). 동분산성 = 신뢰구간 폭이 모든 \(A\) 에서 일관되게 추정됨. 독립성 = 표본이 IID 또는 적어도 독립 추출. 인과 추론에서 외생성은 교환가능성 가정으로 번역되며, 이 가정 위반이 가장 위험하다 — 다른 세 가정의 위반은 신뢰구간 calibration 에 영향을 주지만, 외생성 위반은 점추정 자체를 편향시킨다.
직관 — 잔차 진단의 역할: 잔차 산점도(\(A\) 대 \(\widehat{\varepsilon}\)) 에서 (1) 곡선 패턴 → 선형성 위반 (이차항 필요) (2) 깔때기 모양(분산 증가) → 동분산성 위반 (robust SE 또는 가중 회귀) (3) 시간순 정렬 시 자기상관 → 독립성 위반 (시계열·패널 처리) 회귀를 적합한 후 잔차를 그리는 것은 모형의 4 가지 가정을 시각적으로 점검하는 표준 절차이다.
3.6 OLS 의 행렬 표현
다변량 공변량 \(\mathbf{X} = (1, X_1, \ldots, X_p)^\top\) 으로 일반화하면
\[\mathrm{E}[Y|\mathbf{X}] = \boldsymbol\theta^\top \mathbf{X}, \qquad \widehat{\boldsymbol\theta} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{Y}\]
가 OLS 추정량의 행렬 형태이다. 16 명 표본의 단변량 사례는 \(p=1\) 의 특수 경우다.
직관 — \((\mathbf{X}^\top \mathbf{X})^{-1}\) 의 의미: 공변량 행렬의 역분산 비슷한 양으로, “공변량 공간이 얼마나 정보를 풍부히 담고 있는지”를 나타낸다. 공변량들이 거의 일직선에 놓여 있으면(다중공선성) 이 역행렬이 폭발해 추정량의 분산이 커진다. 데이터의 다양성이 추정의 정밀도를 결정한다.
직관 — projection 으로서의 회귀: \(\widehat{\mathbf{Y}} = \mathbf{X}(\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{Y} = \mathbf{H} \mathbf{Y}\) 에서 \(\mathbf{H}\) 는 데이터 \(\mathbf{Y}\) 를 공변량 공간으로 직교 사영한다. 회귀의 본질은 결과 벡터의 그림자를 공변량 평면에 떨어뜨리는 행위 — 그림자가 곧 예측값이다. 잔차는 결과 벡터에서 그림자를 뺀 수직 성분.
4 모형의 본질 — Hernan 정의
모형은 데이터의 결합 분포가 가질 수 있는 형태에 대한 사전(a priori) 제약이다 (Robins, Greenland 1986). 선형 조건부 평균 모형은 “조건부 평균 함수가 직선”이라는 제약이다. 모형은 모수에 자유도를 부여하지만, 함수 모양 자체는 고정한다.
이 정의는 두 결과를 함의한다.
- 추정 가능성 확장: 데이터 부족 영역에서도 추정이 가능해진다.
- 추정의 옳음은 가정에 종속: 모형이 옳을 때만 추정이 옳다 (correct specification).
Part II 의 모든 인과 추정 기법(IPW, g-공식, IV, ML 기반 추정) 은 이 두 명제 사이의 긴장을 어떻게 다루느냐의 문제로 환원된다.
5 왜 필요한가
| 문제 | 표본 평균 | 모수 모형 |
|---|---|---|
| 이항 처치, 그룹당 50 명 | 잘 동작 | 같은 결과 (saturated) |
| 연속 처치, 그룹당 0~1 명 | 정의되지 않음 | 직선/곡선으로 추정 가능 |
| 다차원 공변량 보정 | 차원의 저주 | 회귀 형태로 표현 가능 |
| 외삽(extrapolation) | 불가능 | 함수 형태로 외삽 가능 |
표본 평균은 강력하지만 한계가 명확하다. 모수 모형은 가정의 비용을 지불하고 추정 가능성을 확장한다.
6 응용 분야
- 임상시험: 용량-반응 관계의 회귀
- 마케팅: 광고비 vs 매출의 회귀
- 헬스케어 EHR: 연속 lab 값(혈압, eGFR) 과 결과의 회귀 관계
- 온라인 실험: 처치 강도(노출 횟수) 의 메트릭 영향 추정
- 정책: 최저임금 인상폭의 고용 효과 회귀
6.1 NHEFS 데이터 — Part II 의 공통 작업장
Hernan 의 Part II 12장 부터 22 장까지의 모든 사례는 NHEFS (National Health and Nutrition Examination Survey I Epidemiologic Followup Study) 데이터셋 위에서 진행된다. 이 데이터에서 “흡연 중단 \(A\) 가 체중 변화 \(Y\) 에 미치는 평균 인과 효과” 가 본문 전체의 단일 인과 질문이다.
| 변수 | 의미 | 형태 |
|---|---|---|
| \(A\) | 1971~1982 사이 흡연 중단 여부 | 이항 |
| \(Y\) | 같은 기간 체중 변화 (kg) | 연속 |
| \(L\) | 성별·나이·인종·교육·운동량·체중 등 9 개 보정 변수 | 혼합 |
직관 — 이항 처치 + 연속 결과: 16 명 사례의 연속 처치 + 연속 결과와 다르게, NHEFS 는 이항 처치라 처치 자체에서는 saturation 가능. 그러나 공변량 \(L\) 의 9 개 변수가 다차원·연속이라 \(\mathrm{E}[Y|A,L]\) 추정에서 모수 모형이 필수가 된다. Ch.12 의 IPW 처치 모형과 Ch.13 의 g-formula 결과 모형은 이 회귀를 어떻게 짤지를 다룬다.
직관 — Ch.11 의 사례를 NHEFS 로 옮기면: Ch.11 의 16 명 표본은 회귀의 1 차원 데모이고, NHEFS 는 같은 회귀 도구를 다차원 인과 보정에 사용하는 무대다. Ch.11 에서 도구의 작동을 이해해야 Ch.12 부터 NHEFS 사례가 자연스럽게 따라온다.
7 한 줄 요약
표본 평균은 단순 강력하지만 분모가 0 이 되는 영역에서는 무력하다. 모수적 조건부 평균 모형은 “\(\mathrm{E}[Y|A]\) 가 직선이다”라는 사전 제약으로 데이터 부족 영역의 추정을 가능하게 하며, OLS 는 16 명 모두의 정보를 가중 투표 형태로 결합해 이 직선을 결정한다. 외삽의 신뢰성은 가정의 옳음에 의존하며, 잔차 진단은 가정의 시각적 점검 도구이다.
8 예시: Hernan 16 명 표본 재현
연속 처치 \(A \in [0, 100]\) 에서 \(\mathrm{E}[Y|A=90]\) 을 추정한다.
| 단계 | 조작 | 결과 |
|---|---|---|
| 1. 데이터 확보 | 16 개 \((A_i, Y_i)\) 점 | 산점도 (Figure 11.3) |
| 2. 모형 가정 | \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) | 직선 |
| 3. OLS 적합 | 잔차 제곱 합 최소화 | \(\widehat{\theta}_0 = 24.55, \widehat{\theta}_1 = 2.14\) |
| 4. 예측 | \(\widehat{\mathrm{E}}[Y|A=90] = 24.55 + 90 \times 2.14\) | \(216.9\) |
| 5. 신뢰구간 | 동분산 가정 + Wald | \((172.1, 261.6)\) |
이 결과의 신뢰성은 직선 가정의 정합성에 전적으로 의존한다. 가정이 깨지면 점추정과 신뢰구간 모두 해석이 무너진다.
9 코드: statsmodels OLS 로 재현
import numpy as np
import statsmodels.api as sm
# Hernan 본문 16 명 표본 (Figure 11.3 의 점)
A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 60, 67, 71, 79, 83, 97, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 230, 111, 217, 200, 140, 220, 11, 190])
# 2-모수 선형 모형 적합
X = sm.add_constant(A)
model = sm.OLS(Y, X).fit()
print(model.params)
# const 24.55
# x1 2.14
# A=90 에서 예측 + 95% 신뢰구간
pred = model.get_prediction([1, 90])
print(pred.summary_frame(alpha=0.05))
# mean mean_se mean_ci_lower mean_ci_upper obs_ci_lower obs_ci_upper
# 0 216.9 20.7 172.1 261.6 ... ...
# 잔차 분석으로 직선 가정 점검
residuals = model.resid
import matplotlib.pyplot as plt
plt.scatter(A, residuals)
plt.axhline(0, color='gray')
plt.xlabel('A'); plt.ylabel('residual')
plt.show()잔차 패턴이 0 주변으로 무작위로 흩어져 있으면 직선 가정이 합리적이다. 체계적 곡선 패턴이 보이면 다음 글(10-2) 의 평활(smoothing) 기법이 필요하다.
10 관련 주제
선행 지식
후속 주제
다른 카테고리 연결
- 선형 회귀의 통계적 기초 — OLS 의 분포 이론
- 차원의 저주 — 비모수 추정의 한계