1 정의
조건부 평균 모형의 모수 수가 추정 대상 평균의 수와 같은 모형이다. 모수가 평균을 1:1 로 결정하므로 모형은 평균값에 어떤 추가 제약도 부과하지 않는다.
예: 이항 처치 \(A \in \{0,1\}\) 에서 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 는 \(\theta_0 = \mathrm{E}[Y|A=0]\), \(\theta_0 + \theta_1 = \mathrm{E}[Y|A=1]\) 이므로 saturated.
직관 — 포화의 어원: “saturated” 는 화학에서 “더 이상 녹일 수 없는 상태”를 뜻한다. 통계에서는 “더 이상 가정을 부가할 수 없는 상태” — 모수가 추정 대상과 일대일이라 함수 형태로 추가 제약을 가할 여지가 없다. 두 점은 직선 하나로 잇거나 곡선 하나로 잇거나, 어느 가설로도 동등하게 설명된다.
직관 — 자유도(degrees of freedom) 0: 모수 수 = 미지수 수 → 잔차 자유도 0. 모형 잔차가 0 이고 추정량이 표본 평균과 정확히 일치한다. 이때 모형 적합 결과를 보여주는 \(R^2 = 1\) 같은 통계량은 가정 검증력이 0 임을 알려준다 — “직선이 완벽하게 맞는다”가 아니라 “직선·곡선·아무 함수로도 두 점을 잇는 데 모순이 없다”는 의미다.
조건부 평균 함수에 대한 어떤 사전 함수 형태 제약도 부과하지 않고 모수를 추정하는 추정량. 이항 처치의 표본 평균이 대표 사례이며, 이는 saturated 모형의 OLS 추정량과 동일하다 (Hernan & Robins, 2020, Ch.11.3).
데이터가 없는 처치 값 \(A=a\) 에서의 평균 결과를 다른 \(A\) 값의 정보를 빌려와 추정하는 절차. 모수 수가 작을수록(직선) 더 멀리서 정보를 빌려오고 결과 곡선이 더 매끄러워진다. 모수 수가 데이터 수와 같아지면(보간) 정보 차용이 사라지고 곡선이 모든 점을 통과한다.
2 11.3 비모수 조건부 평균 추정량
2.1 표본 평균 = Saturated 선형 모형의 OLS
이항 처치 \(A \in \{0, 1\}\) 에서 선형 모형 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 를 OLS 로 적합하면
\[\widehat{\theta}_0 = \overline{Y}_{A=0}, \qquad \widehat{\theta}_0 + \widehat{\theta}_1 = \overline{Y}_{A=1}\]
이 되어 두 그룹의 표본 평균과 정확히 일치한다 (Hernan & Robins, 2020, Ch.11.3). 따라서 이 모형은 데이터에 어떤 제약도 부과하지 않는다. 형식상 모형이지만 함수 형태 제약이 실효성을 잃은 상태이다.
같은 등식 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 도
- 이항 \(A\) 에서는 saturated → 비모수 → 가정 없음
- 연속 \(A\) 에서는 모수적 → 직선 가정 부과
처치 변수의 형태에 따라 같은 모형이 비모수일 수도 모수적일 수도 있다. saturation 은 모형 자체의 속성이 아니라 모형과 데이터의 관계의 속성이다.
2.2 Fisher 일치 추정량
비모수 추정량의 형식적 정의는 Fisher consistent estimator 이다 (Fisher 1922). \(\widehat{\theta}(P_n)\) 가 표본 분포 \(P_n\) 의 함수일 때, \(P_n\) 이 모집단 분포 \(P\) 와 같으면 \(\widehat{\theta}(P) = \theta(P)\) 가 정확히 성립한다는 의미이다. Hernan 의 비모수 추정량은 이 정의와 일치하며, saturated 모형의 최대가능도 추정량이 이 부류에 속한다.
직관: “데이터를 전수조사할 수 있다면 이 추정량이 모수와 똑같은 값을 줄까?”라는 질문에 “예”라고 답할 수 있는 추정량이 Fisher consistent 이다. 표본 평균은 만족하지만 “첫 관측치의 값” 같은 추정량은 만족하지 않는다.
직관 — Fisher 일치성 vs 점근 일치성: 점근 일치성은 “\(n \to \infty\) 일 때 확률 수렴”을 요구하는 약한 조건이다. Fisher 일치성은 “표본이 전체 모집단과 일치하는 즉시 추정량이 진짜 모수와 같다”는 강한 조건 — 무한 표본을 기다릴 필요 없다. 표본 평균은 둘 다 만족하지만, 정칙화(regularization) 가 들어간 ridge·lasso 추정량은 점근 일치는 가능해도 Fisher 일치는 일반적으로 만족하지 않는다(축소 편향이 남음).
2.3 모수 수 vs 미지수 수 — 일반화
Hernan 의 일반 원칙은 다음과 같다.
| 처치 | 모형 모수 수 | 미지 평균 수 | 관계 |
|---|---|---|---|
| 이항 \(A \in \{0,1\}\) | 2 (\(\theta_0, \theta_1\)) | 2 | saturated |
| 4 단계 \(A \in \{1,2,3,4\}\), 직선 | 2 | 4 | 부족 — 모수적 |
| 4 단계, 더미 코딩 | 4 | 4 | saturated |
| 연속 \(A \in [0,100]\), 직선 | 2 | 101 | 매우 부족 — 모수적, 매우 매끄러움 |
같은 100 단계 처치라도 더미 변수 99 개와 절편 1 개를 두면 saturated 가 된다 — 단, 각 그룹에 관측치가 있어야만 추정 가능하다.
2.4 다범주 처치의 더미 변수 코딩
4 단계 처치 \(A \in \{1,2,3,4\}\) 에 대해 saturated 모형을 회귀로 적합하려면
\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 \mathbb{1}\{A=2\} + \theta_2 \mathbb{1}\{A=3\} + \theta_3 \mathbb{1}\{A=4\}\]
처럼 더미 변수 3 개와 절편 1 개로 4 개의 미지 평균을 1:1 로 표현한다.
직관 — 더미 코딩의 의미: \(A=1\) 이 baseline (모든 더미 = 0). \(\theta_0\) 가 \(A=1\) 에서의 평균. \(\theta_1\) 은 \(A=2\) 와 \(A=1\) 의 평균 차이. 같은 식으로 \(\theta_2, \theta_3\) 가 다른 그룹의 baseline 대비 차이. 결국 그룹 평균을 4 개 직접 추정하는 것과 수학적으로 등가다 — 표현 방식의 차이일 뿐 정보 차용이 일어나지 않는다.
직관 — 직선 4-단계 모형이 saturated 가 아닌 이유: \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 에 \(A \in \{1,2,3,4\}\) 를 대입하면 4 개의 평균이 직선 위에 강제된다. 평균이 70, 80, 117.5, 195 처럼 직선에서 벗어나면 모형이 misspecified 된다. 더미 코딩은 비모수, 직선 코딩은 모수적 — 같은 데이터 같은 변수에 대해 코딩 선택이 saturation 여부를 결정한다.
2.5 Part I 의 모든 방법은 비모수 추정량
표준화(standardization), IP 가중(IP weighting), 매칭(matching), 층화(stratification) 는 모두 비모수 추정량이다. 이들은 saturated 모형 위에서 정의되며, 데이터의 결합 분포에 대한 함수 형태 제약을 부과하지 않는다 (Hernan & Robins, 2020, Ch.11.3).
Part II 의 차이점은 무엇인가? 표본이 부족하거나 공변량 차원이 클 때 비모수 추정이 무너지므로, 공변량 분포 또는 처치 모형의 일부에 함수 형태 가정을 도입한다는 점이다.
직관 — 비모수에서 모수로의 점진적 전환: Part I 의 표준화는 \(\sum_l \widehat{\mathrm{E}}[Y|A=a,L=l] \widehat{\Pr}(L=l)\) 처럼 셀별 표본 평균만을 사용한다(완전 비모수). Part II 의 모수적 표준화는 \(\widehat{\mathrm{E}}[Y|A,L]\) 을 회귀 모형으로 추정하고, \(\widehat{\Pr}(L)\) 은 표본 분포로 그대로 사용한다(부분 모수적). 두 사이에는 부분 모수적 / 세미 비모수 / 비모수 ML 같은 다양한 절충 지점이 존재한다.
분포의 일부분만 모수로 제약하고 나머지는 비제약으로 두는 모형. 예: \(\mathrm{E}[Y|\mathbf{X}] = \boldsymbol\theta^\top \mathbf{X}\) 는 조건부 평균만 모수화하고, 잔차의 분포·공변량의 결합 분포는 비제약. 인과 추론에서 이중 강건 추정량이 활용하는 핵심 구조이다.
직관 — 세미파라메트릭의 강점: “결과 분포의 모든 측면이 정규다” 같은 강한 가정 대신 “조건부 평균이 선형이다” 같은 부분 가정만으로 추정한다. 가정이 약할수록 misspecification 위험이 적지만 표본 효율은 줄어든다. 인과 추론의 핵심 추정량(IPW, g-formula, AIPW) 은 모두 세미파라메트릭이다.
3 11.4 평활 (Smoothing)
3.1 다항식 모형으로 곡선화
직선 모형이 부적절한 상황은 흔하다 — 처치 효과가 저용량에서는 가파르게 증가하다가 고용량에서 포화되는 비선형 관계라면 직선은 체계적 편향을 만든다. 이때 가장 단순한 확장은 이차 항을 더하는 것이다.
\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 A + \theta_2 A^2\]
이 모형은 모수 3 개로 정의된다. Hernan 의 16 명 표본에서 OLS 로 적합하면 \(\widehat{\theta}_0 = -7.41, \widehat{\theta}_1 = 4.11, \widehat{\theta}_2 = -0.02\) 가 되고, \(\widehat{\mathrm{E}}[Y|A=90] = -7.41 + 90 \times 4.11 + 90^2 \times (-0.02) = 197.1\) 이며 95% Wald 신뢰구간은 \((142.8, 251.5)\) 이다.
직관 — 이차항이 곡률을 흡수: \(\theta_2\) 의 부호가 곡선의 입을 결정한다. \(\theta_2 > 0\) 이면 위로 열린 포물선(저용량은 평평, 고용량으로 갈수록 가파르게 상승), \(\theta_2 < 0\) 이면 아래로 열린 포물선(저용량은 가파르게 상승, 고용량은 평평해짐 — 포화 효과). Hernan 사례의 \(\widehat{\theta}_2 = -0.02\) 는 약한 포화 곡선임을 나타낸다.
직관 — 직선과 이차의 격차: 직선 모형은 \(A\) 가 1 단위 변할 때 \(Y\) 가 어디서나 \(\theta_1\) 만큼 똑같이 변한다고 가정한다. 이차 모형은 \(A\) 의 위치마다 변화율이 다르다 — 미분하면 \(\theta_1 + 2 \theta_2 A\) 이므로 \(A=10\) 에서의 한계 효과와 \(A=90\) 에서의 한계 효과가 다르다. 직선 가정이 깨지는 곳에서 가장 큰 편향 위험이 생긴다.
3.2 “Linear” 의 두 가지 의미
“linear model” 은 두 가지 다른 의미로 쓰인다 (Hernan & Robins, 2020, Ch.11.4).
- 모수에 대해 선형: \(\mathrm{E}[Y|A] = \sum_j \theta_j f_j(A)\) — 모수와 변수 함수의 선형 결합. \(f_j\) 가 비선형(예: \(A^2\), \(\log A\)) 이어도 모수에 대해 선형이면 linear model 이다.
- 공변량에 대해 선형: \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) — 직선.
OLS 가 적용 가능한 부류는 의미 1 이다. 의미 2 는 의미 1 의 특수 경우이다.
3.3 모수 수와 곡선의 매끄러움
모수 수가 늘면 곡선의 가능한 모양이 풍부해진다.
| 모수 수 | 함수 형태 | 변곡점 수 | 매끄러움 |
|---|---|---|---|
| 2 | \(\theta_0 + \theta_1 A\) | 0 | 가장 매끄러움 |
| 3 | \(+ \theta_2 A^2\) | 1 | 한 번 굽음 |
| 4 | \(+ \theta_3 A^3\) | 2 | 두 번 굽음 |
| … | … | … | … |
| \(n\) | \(A^{n-1}\) 까지 | \(n-1\) | 보간 — 모든 점 통과 |
Hernan 의 16 명 표본에서 모수 16 개짜리 다항식을 적합하면 16 개 점을 정확히 통과하는 구불구불한 곡선이 된다. 이 곡선은 데이터 점에서는 정보를 빌리지 않지만, 점 사이의 영역에서는 보간(interpolation) 으로 값을 채운다.
직관 — 다항식의 자유도와 변곡점: 다항식의 차수가 \(d\) 이면 변곡점은 최대 \(d-1\) 개 (이차 도함수가 \(d-2\) 차 다항식이라 부호 변화 횟수의 상한이 \(d-1\)). 다항식의 점 결정력은 \(d+1\) 개의 점 — 즉 16 점을 정확히 잇는 다항식의 차수는 15 차이다. 차수가 높을수록 곡선이 풍부한 모양을 가질 수 있는 만큼, 데이터 점 사이에서 미친 듯이 흔들리는 Runge 현상도 일어난다.
직관 — 보간의 위험성: 16 점을 모두 정확히 잇는 15 차 다항식을 그리면, 점과 점 사이에서 \(Y\) 값이 음수로 내려가거나 1000 을 넘어가는 등 비현실적인 진동이 생길 수 있다. 이를 Runge 현상이라 한다. 데이터에 너무 충실하면 데이터 사이의 진리가 망가진다 — 평활은 이 위험을 회피하기 위한 안전장치다.
3.4 정보 차용의 원리
평활의 본질은 다른 \(A\) 값의 정보를 어느 정도까지 끌어다 쓰느냐이다.
- 2 모수 직선: 16 개 점 모두를 사용해 절편·기울기를 결정. \(A=90\) 의 추정에 가장 멀리 있는 \(A=3\) 의 점도 영향을 준다.
- 3 모수 이차: 다른 점들의 영향이 약화된다 — 이차항이 곡률을 흡수하므로.
- 16 모수 보간: \(A=A_i\) 인 점은 자신의 값으로만 결정, 점 사이는 보간식으로.
- 창(window) 기반 평활: \(A \in [80, 100]\) 인 점만 사용해 직선 적합 — 8 개 점 정도만 영향.
3.5 창(Window) 기반 평활의 직관
연속 처치에서 “\(A=90\) 근처의 정보만 사용”한다는 발상은 자연스럽다. 이 발상은 커널 회귀(kernel regression) 와 국소 회귀(local linear regression) 로 형식화된다.
- 창 폭이 좁으면: 변동에 민감(고분산), 편향이 작음
- 창 폭이 넓으면: 변동에 둔감(저분산), 편향이 큼
창 폭은 평활의 정도를 조절하는 hyperparameter 이다. Hernan 은 본문에서 \(A=90\) 주변의 \(\pm 10\) 폭을 예시로 제시한다 — 이는 다음 글의 편향-분산 트레이드오프로 이어진다.
직관 — 창 폭과 표본 수의 거래: 창 폭이 좁으면 그 창 안에 있는 데이터 포인트가 적다. \(\pm 5\) 창에 한 명만 들어 있으면 추정값은 그 한 명의 \(Y\) 값에 좌우되어 분산이 크다. \(\pm 30\) 창에 8 명이 들어 있으면 분산은 작지만, 멀리 있는 점까지 평균에 섞이므로 진짜 \(A=90\) 의 평균과 다를 수 있다(편향). 창 폭은 “몇 명의 정보를 빌릴까”의 문제다.
직관 — 다항식 차수 ↔︎ 창 폭의 등가성: 다항식 차수를 올리는 것과 창 폭을 좁히는 것은 같은 일을 다른 방식으로 한다. 둘 다 국소 정보의 비중을 높이고 전역 정보의 비중을 낮춘다. 머신러닝의 모델 복잡도 hyperparameter — neural network 의 hidden unit 수, decision tree 의 depth, lasso 의 \(\lambda\) — 도 모두 같은 평활 정도 조절 장치의 다른 표현이다.
3.6 다차원으로의 확장
본문 사례는 1 차원이라 곡선으로 시각화되지만, 실제 회귀에는 보통 여러 공변량이 등장한다. \(\mathrm{E}[Y|X_1, \ldots, X_p]\) 는 \(p+1\) 차원 공간의 표면이며, 평활의 개념은 동일하다 — 모수 수가 적을수록 표면이 매끄럽고, 표면의 한 점을 추정할 때 다른 점의 정보가 폭넓게 들어간다.
차원 \(p\) 가 늘면 같은 표본 크기에서 비모수 추정의 분산이 빠르게 증가한다. 이것이 차원의 저주(Hernan & Robins, 2020, Ch.10.5) 이며, Part II 에서 모수 가정을 도입하는 실용적 동기 중 하나이다.
3.7 다른 평활 도구의 짧은 지도
Hernan 은 본문에서 다항식과 창 기반 평활만 다루지만, 실무에서는 더 풍부한 평활 도구가 쓰인다.
| 도구 | 평활 메커니즘 | 매끄러움 hyperparameter |
|---|---|---|
| 다항식 회귀 | 차수 \(d\) 만큼 변곡점 허용 | 차수 |
| Cubic spline | 매듭점에서 3차 다항식을 부드럽게 이음 | 매듭점 수·위치 |
| Natural spline | 양 끝에서 직선으로 외삽 | 매듭점 수 |
| Smoothing spline | 매듭점을 데이터점마다 두고 wiggliness 페널티 | 페널티 모수 \(\lambda\) |
| Kernel regression | 가까운 점에 가중치 부여한 국소 평균 | 대역폭 \(h\) |
| Local linear regression | 가까운 점에서 국소 직선 적합 | 대역폭 \(h\) |
| GAM | 여러 변수에 대해 매끄러운 함수의 합 | 각 항의 평활 모수 |
| Random Forest | 결정 트리의 평균 | 트리 깊이·수 |
| Neural Network | 여러 층 비선형 합성 | 은닉 유닛 수·정규화 |
직관 — 같은 평활을 다른 방식으로: 다항식은 전역 함수 형태로, 스플라인은 구간별 다항식의 부드러운 이음으로, 커널은 국소 가중 평균으로, GAM 은 변수별 매끄러운 함수의 합으로, ML 은 유연한 표현 + 정규화로 평활을 구현한다. 도구가 다르지만 hyperparameter 가 매끄러움 정도를 조절한다는 본질은 동일하다.
직관 — Spline 이 다항식보다 자주 쓰이는 이유: 다항식은 차수가 높아지면 양 끝에서 Runge 현상으로 미친 듯이 흔들린다. Cubic spline 은 데이터를 구간으로 나누고 각 구간에서 3 차 다항식을 적합하되, 매듭점에서 함수·1차·2차 도함수가 연속이 되도록 강제한다 — 부드러운 곡선 + 양 끝의 안정성 이라는 두 마리 토끼를 잡는다. 의학·역학에서 restricted cubic spline 이 표준 도구가 된 이유이다.
매듭점 \(k_1 < k_2 < \ldots < k_K\) 를 둔 cubic spline 의 일종으로, 양 끝의 외삽을 직선으로 강제한 형태. 모수 수는 \(K - 1\) (절편 별도). 의학 통계에서 비선형 관계의 표준 도구이다.
\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 A + \sum_{j=2}^{K-1} \theta_j s_j(A)\]
여기서 \(s_j(A)\) 는 \(j\)-번째 매듭점부터 비영이 되는 truncated cubic 함수이다.
직관 — RCS 는 “직선 + 보정”: \(\theta_1 A\) 가 직선 부분을 잡고, 추가 항들이 매듭점 사이에서 곡선의 굴곡을 보정한다. 매듭점 수를 늘리면 더 유연해지고, 줄이면 직선에 가까워진다. 차수를 늘리는 다항식과 달리 차수는 항상 3 으로 고정 — Runge 현상을 차단하면서 유연성을 확보한다.
4 왜 필요한가
| 상황 | 비모수 추정 | 평활 모수 모형 |
|---|---|---|
| 이항 처치, 큰 표본 | 충분 | 동일 결과 |
| 연속 처치, 작은 표본 | 정의되지 않음 | 가능 |
| 비선형 관계, 작은 표본 | 정의되지 않음 | 다항식·spline 가능 |
| 다공변량, 큰 차원 | 차원의 저주 | 회귀로 압축 |
| 외삽 | 불가 | 가능 (가정 의존) |
평활은 표본 효율을 끌어올리는 동시에 가정 의존도를 높인다. 이 절충은 11.5 에서 정량화된다.
5 응용 분야
- 임상시험 용량-반응: 비선형 관계가 흔하므로 다항식 또는 spline 평활
- 광고 효과: 노출 횟수에 대한 반응 곡선의 평활
- EHR 코호트: 연속 lab 값과 결과의 비모수 함수 형태 추정
- A/B 테스트 다단계 처치: 처치 강도 효과의 회귀 평활
- 계량경제 정책 평가: 임계값 근처에서의 sharpest 평활(RDD 와 결합)
6 예시: 16 명 표본의 모수 수별 추정
| 모형 | 모수 수 | \(\widehat{\mathrm{E}}[Y|A=90]\) | 95% CI | 변곡점 |
|---|---|---|---|---|
| 직선 | 2 | 216.9 | (172.1, 261.6) | 0 |
| 이차 | 3 | 197.1 | (142.8, 251.5) | 1 |
| 삼차 | 4 | (값) | (더 넓은 CI) | 2 |
| 다항식 16 | 16 | (점 자체로 보간) | 정의 불가 | 15 |
직선과 이차에서 점추정이 약 19 차이, 신뢰구간이 약 22 더 넓다. 다음 글의 편향-분산 트레이드오프는 이 차이를 정량적으로 다룬다.
7 코드: 직선 vs 이차 vs 4차 비교
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 60, 67, 71, 79, 83, 97, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 230, 111, 217, 200, 140, 220, 11, 190])
# 모수 수별 모형 적합
def fit_poly(degree):
X_poly = np.column_stack([A**k for k in range(1, degree+1)])
X = sm.add_constant(X_poly)
return sm.OLS(Y, X).fit()
models = {d: fit_poly(d) for d in [1, 2, 3, 4]}
# A=90 에서 예측
A_grid = np.linspace(0, 100, 200)
fig, ax = plt.subplots()
ax.scatter(A, Y, color='black', label='data')
for d, m in models.items():
X_grid = sm.add_constant(np.column_stack([A_grid**k for k in range(1, d+1)]))
pred = m.predict(X_grid)
ax.plot(A_grid, pred, label=f'degree {d}')
ax.set_xlabel('A'); ax.set_ylabel('E[Y|A]')
ax.legend()
plt.show()
# 모수 수별 점추정 비교
for d, m in models.items():
x90 = np.array([1] + [90**k for k in range(1, d+1)])
pred = m.get_prediction(x90).summary_frame(alpha=0.05)
print(f"degree {d}: E[Y|A=90] = {pred['mean'].iloc[0]:.1f}, "
f"CI = ({pred['mean_ci_lower'].iloc[0]:.1f}, {pred['mean_ci_upper'].iloc[0]:.1f})")차수가 늘면 곡선이 데이터 점을 더 정확히 따라가지만 신뢰구간이 빠르게 넓어진다. 이것이 다음 글의 편향-분산 트레이드오프이다.
8 관련 주제
선행 지식
후속 주제
다른 카테고리 연결
- 차원의 저주 — 비모수 추정의 한계
- Spline 과 GAM — 평활의 통계적 기초