Kwangmin Kim - 비모수적 조건부 평균 추정량 + 평활

1 정의

정의: Saturated Model

조건부 평균 모형의 모수 수가 추정 대상 평균의 수와 같은 모형이다. 모수가 평균을 1:1 로 결정하므로 모형은 평균값에 어떤 추가 제약도 부과하지 않는다.

예: 이항 처치 \(A \in \{0,1\}\) 에서 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 는 \(\theta_0 = \mathrm{E}[Y|A=0]\), \(\theta_0 + \theta_1 = \mathrm{E}[Y|A=1]\) 이므로 saturated.

직관 — 포화의 어원: “saturated” 는 화학에서 “더 이상 녹일 수 없는 상태”를 뜻한다. 통계에서는 “더 이상 가정을 부가할 수 없는 상태” — 모수가 추정 대상과 일대일이라 함수 형태로 추가 제약을 가할 여지가 없다. 두 점은 직선 하나로 잇거나 곡선 하나로 잇거나, 어느 가설로도 동등하게 설명된다.

직관 — 자유도(degrees of freedom) 0: 모수 수 = 미지수 수 → 잔차 자유도 0. 모형 잔차가 0 이고 추정량이 표본 평균과 정확히 일치한다. 이때 모형 적합 결과를 보여주는 \(R^2 = 1\) 같은 통계량은 가정 검증력이 0 임을 알려준다 — “직선이 완벽하게 맞는다”가 아니라 “직선·곡선·아무 함수로도 두 점을 잇는 데 모순이 없다”는 의미다.

정의: 비모수 추정량 (Nonparametric Estimator) — Hernan 정의

조건부 평균 함수에 대한 어떤 사전 함수 형태 제약도 부과하지 않고 모수를 추정하는 추정량. 이항 처치의 표본 평균이 대표 사례이며, 이는 saturated 모형의 OLS 추정량과 동일하다 (Hernan & Robins, 2020, Ch.11.3).

정의: 평활 (Smoothing)

데이터가 없는 처치 값 \(A=a\) 에서의 평균 결과를 다른 \(A\) 값의 정보를 빌려와 추정하는 절차. 모수 수가 작을수록(직선) 더 멀리서 정보를 빌려오고 결과 곡선이 더 매끄러워진다. 모수 수가 데이터 수와 같아지면(보간) 정보 차용이 사라지고 곡선이 모든 점을 통과한다.

2 11.3 비모수 조건부 평균 추정량

2.1 표본 평균 = Saturated 선형 모형의 OLS

이항 처치 \(A \in \{0, 1\}\) 에서 선형 모형 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 를 OLS 로 적합하면

\[\widehat{\theta}_0 = \overline{Y}_{A=0}, \qquad \widehat{\theta}_0 + \widehat{\theta}_1 = \overline{Y}_{A=1}\]

이 되어 두 그룹의 표본 평균과 정확히 일치한다 (Hernan & Robins, 2020, Ch.11.3). 따라서 이 모형은 데이터에 어떤 제약도 부과하지 않는다. 형식상 모형이지만 함수 형태 제약이 실효성을 잃은 상태이다.

Saturated 의 본질

같은 등식 \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 도

이항 \(A\) 에서는 saturated → 비모수 → 가정 없음
연속 \(A\) 에서는 모수적 → 직선 가정 부과

처치 변수의 형태에 따라 같은 모형이 비모수일 수도 모수적일 수도 있다. saturation 은 모형 자체의 속성이 아니라 모형과 데이터의 관계의 속성이다.

2.2 Fisher 일치 추정량

비모수 추정량의 형식적 정의는 Fisher consistent estimator 이다 (Fisher 1922). \(\widehat{\theta}(P_n)\) 가 표본 분포 \(P_n\) 의 함수일 때, \(P_n\) 이 모집단 분포 \(P\) 와 같으면 \(\widehat{\theta}(P) = \theta(P)\) 가 정확히 성립한다는 의미이다. Hernan 의 비모수 추정량은 이 정의와 일치하며, saturated 모형의 최대가능도 추정량이 이 부류에 속한다.

직관: “데이터를 전수조사할 수 있다면 이 추정량이 모수와 똑같은 값을 줄까?”라는 질문에 “예”라고 답할 수 있는 추정량이 Fisher consistent 이다. 표본 평균은 만족하지만 “첫 관측치의 값” 같은 추정량은 만족하지 않는다.

직관 — Fisher 일치성 vs 점근 일치성: 점근 일치성은 “\(n \to \infty\) 일 때 확률 수렴”을 요구하는 약한 조건이다. Fisher 일치성은 “표본이 전체 모집단과 일치하는 즉시 추정량이 진짜 모수와 같다”는 강한 조건 — 무한 표본을 기다릴 필요 없다. 표본 평균은 둘 다 만족하지만, 정칙화(regularization) 가 들어간 ridge·lasso 추정량은 점근 일치는 가능해도 Fisher 일치는 일반적으로 만족하지 않는다(축소 편향이 남음).

2.3 모수 수 vs 미지수 수 — 일반화

Hernan 의 일반 원칙은 다음과 같다.

처치	모형 모수 수	미지 평균 수	관계
이항 \(A \in \{0,1\}\)	2 (\(\theta_0, \theta_1\))	2	saturated
4 단계 \(A \in \{1,2,3,4\}\), 직선	2	4	부족 — 모수적
4 단계, 더미 코딩	4	4	saturated
연속 \(A \in [0,100]\), 직선	2	101	매우 부족 — 모수적, 매우 매끄러움

같은 100 단계 처치라도 더미 변수 99 개와 절편 1 개를 두면 saturated 가 된다 — 단, 각 그룹에 관측치가 있어야만 추정 가능하다.

2.4 다범주 처치의 더미 변수 코딩

4 단계 처치 \(A \in \{1,2,3,4\}\) 에 대해 saturated 모형을 회귀로 적합하려면

\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 \mathbb{1}\{A=2\} + \theta_2 \mathbb{1}\{A=3\} + \theta_3 \mathbb{1}\{A=4\}\]

처럼 더미 변수 3 개와 절편 1 개로 4 개의 미지 평균을 1:1 로 표현한다.

직관 — 더미 코딩의 의미: \(A=1\) 이 baseline (모든 더미 = 0). \(\theta_0\) 가 \(A=1\) 에서의 평균. \(\theta_1\) 은 \(A=2\) 와 \(A=1\) 의 평균 차이. 같은 식으로 \(\theta_2, \theta_3\) 가 다른 그룹의 baseline 대비 차이. 결국 그룹 평균을 4 개 직접 추정하는 것과 수학적으로 등가다 — 표현 방식의 차이일 뿐 정보 차용이 일어나지 않는다.

직관 — 직선 4-단계 모형이 saturated 가 아닌 이유: \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) 에 \(A \in \{1,2,3,4\}\) 를 대입하면 4 개의 평균이 직선 위에 강제된다. 평균이 70, 80, 117.5, 195 처럼 직선에서 벗어나면 모형이 misspecified 된다. 더미 코딩은 비모수, 직선 코딩은 모수적 — 같은 데이터 같은 변수에 대해 코딩 선택이 saturation 여부를 결정한다.

2.5 Part I 의 모든 방법은 비모수 추정량

표준화(standardization), IP 가중(IP weighting), 매칭(matching), 층화(stratification) 는 모두 비모수 추정량이다. 이들은 saturated 모형 위에서 정의되며, 데이터의 결합 분포에 대한 함수 형태 제약을 부과하지 않는다 (Hernan & Robins, 2020, Ch.11.3).

Part II 의 차이점은 무엇인가? 표본이 부족하거나 공변량 차원이 클 때 비모수 추정이 무너지므로, 공변량 분포 또는 처치 모형의 일부에 함수 형태 가정을 도입한다는 점이다.

직관 — 비모수에서 모수로의 점진적 전환: Part I 의 표준화는 \(\sum_l \widehat{\mathrm{E}}[Y|A=a,L=l] \widehat{\Pr}(L=l)\) 처럼 셀별 표본 평균만을 사용한다(완전 비모수). Part II 의 모수적 표준화는 \(\widehat{\mathrm{E}}[Y|A,L]\) 을 회귀 모형으로 추정하고, \(\widehat{\Pr}(L)\) 은 표본 분포로 그대로 사용한다(부분 모수적). 두 사이에는 부분 모수적 / 세미 비모수 / 비모수 ML 같은 다양한 절충 지점이 존재한다.

정의: 부분 모수 모형 (Semiparametric Model)

분포의 일부분만 모수로 제약하고 나머지는 비제약으로 두는 모형. 예: \(\mathrm{E}[Y|\mathbf{X}] = \boldsymbol\theta^\top \mathbf{X}\) 는 조건부 평균만 모수화하고, 잔차의 분포·공변량의 결합 분포는 비제약. 인과 추론에서 이중 강건 추정량이 활용하는 핵심 구조이다.

직관 — 세미파라메트릭의 강점: “결과 분포의 모든 측면이 정규다” 같은 강한 가정 대신 “조건부 평균이 선형이다” 같은 부분 가정만으로 추정한다. 가정이 약할수록 misspecification 위험이 적지만 표본 효율은 줄어든다. 인과 추론의 핵심 추정량(IPW, g-formula, AIPW) 은 모두 세미파라메트릭이다.

3 11.4 평활 (Smoothing)

3.1 다항식 모형으로 곡선화

직선 모형이 부적절한 상황은 흔하다 — 처치 효과가 저용량에서는 가파르게 증가하다가 고용량에서 포화되는 비선형 관계라면 직선은 체계적 편향을 만든다. 이때 가장 단순한 확장은 이차 항을 더하는 것이다.

\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 A + \theta_2 A^2\]

이 모형은 모수 3 개로 정의된다. Hernan 의 16 명 표본에서 OLS 로 적합하면 \(\widehat{\theta}_0 = -7.41, \widehat{\theta}_1 = 4.11, \widehat{\theta}_2 = -0.02\) 가 되고, \(\widehat{\mathrm{E}}[Y|A=90] = -7.41 + 90 \times 4.11 + 90^2 \times (-0.02) = 197.1\) 이며 95% Wald 신뢰구간은 \((142.8, 251.5)\) 이다.

직관 — 이차항이 곡률을 흡수: \(\theta_2\) 의 부호가 곡선의 입을 결정한다. \(\theta_2 > 0\) 이면 위로 열린 포물선(저용량은 평평, 고용량으로 갈수록 가파르게 상승), \(\theta_2 < 0\) 이면 아래로 열린 포물선(저용량은 가파르게 상승, 고용량은 평평해짐 — 포화 효과). Hernan 사례의 \(\widehat{\theta}_2 = -0.02\) 는 약한 포화 곡선임을 나타낸다.

직관 — 직선과 이차의 격차: 직선 모형은 \(A\) 가 1 단위 변할 때 \(Y\) 가 어디서나 \(\theta_1\) 만큼 똑같이 변한다고 가정한다. 이차 모형은 \(A\) 의 위치마다 변화율이 다르다 — 미분하면 \(\theta_1 + 2 \theta_2 A\) 이므로 \(A=10\) 에서의 한계 효과와 \(A=90\) 에서의 한계 효과가 다르다. 직선 가정이 깨지는 곳에서 가장 큰 편향 위험이 생긴다.

3.2 “Linear” 의 두 가지 의미

용어 주의

“linear model” 은 두 가지 다른 의미로 쓰인다 (Hernan & Robins, 2020, Ch.11.4).

모수에 대해 선형: \(\mathrm{E}[Y|A] = \sum_j \theta_j f_j(A)\) — 모수와 변수 함수의 선형 결합. \(f_j\) 가 비선형(예: \(A^2\), \(\log A\)) 이어도 모수에 대해 선형이면 linear model 이다.
공변량에 대해 선형: \(\mathrm{E}[Y|A] = \theta_0 + \theta_1 A\) — 직선.

OLS 가 적용 가능한 부류는 의미 1 이다. 의미 2 는 의미 1 의 특수 경우이다.

3.3 모수 수와 곡선의 매끄러움

모수 수가 늘면 곡선의 가능한 모양이 풍부해진다.

모수 수	함수 형태	변곡점 수	매끄러움
2	\(\theta_0 + \theta_1 A\)	0	가장 매끄러움
3	\(+ \theta_2 A^2\)	1	한 번 굽음
4	\(+ \theta_3 A^3\)	2	두 번 굽음
…	…	…	…
\(n\)	\(A^{n-1}\) 까지	\(n-1\)	보간 — 모든 점 통과

Hernan 의 16 명 표본에서 모수 16 개짜리 다항식을 적합하면 16 개 점을 정확히 통과하는 구불구불한 곡선이 된다. 이 곡선은 데이터 점에서는 정보를 빌리지 않지만, 점 사이의 영역에서는 보간(interpolation) 으로 값을 채운다.

직관 — 다항식의 자유도와 변곡점: 다항식의 차수가 \(d\) 이면 변곡점은 최대 \(d-1\) 개 (이차 도함수가 \(d-2\) 차 다항식이라 부호 변화 횟수의 상한이 \(d-1\)). 다항식의 점 결정력은 \(d+1\) 개의 점 — 즉 16 점을 정확히 잇는 다항식의 차수는 15 차이다. 차수가 높을수록 곡선이 풍부한 모양을 가질 수 있는 만큼, 데이터 점 사이에서 미친 듯이 흔들리는 Runge 현상도 일어난다.

직관 — 보간의 위험성: 16 점을 모두 정확히 잇는 15 차 다항식을 그리면, 점과 점 사이에서 \(Y\) 값이 음수로 내려가거나 1000 을 넘어가는 등 비현실적인 진동이 생길 수 있다. 이를 Runge 현상이라 한다. 데이터에 너무 충실하면 데이터 사이의 진리가 망가진다 — 평활은 이 위험을 회피하기 위한 안전장치다.

3.4 정보 차용의 원리

평활의 본질은 다른 \(A\) 값의 정보를 어느 정도까지 끌어다 쓰느냐이다.

정의: 정보 차용 메커니즘

2 모수 직선: 16 개 점 모두를 사용해 절편·기울기를 결정. \(A=90\) 의 추정에 가장 멀리 있는 \(A=3\) 의 점도 영향을 준다.
3 모수 이차: 다른 점들의 영향이 약화된다 — 이차항이 곡률을 흡수하므로.
16 모수 보간: \(A=A_i\) 인 점은 자신의 값으로만 결정, 점 사이는 보간식으로.
창(window) 기반 평활: \(A \in [80, 100]\) 인 점만 사용해 직선 적합 — 8 개 점 정도만 영향.

3.5 창(Window) 기반 평활의 직관

연속 처치에서 “\(A=90\) 근처의 정보만 사용”한다는 발상은 자연스럽다. 이 발상은 커널 회귀(kernel regression) 와 국소 회귀(local linear regression) 로 형식화된다.

창 폭이 좁으면: 변동에 민감(고분산), 편향이 작음
창 폭이 넓으면: 변동에 둔감(저분산), 편향이 큼

창 폭은 평활의 정도를 조절하는 hyperparameter 이다. Hernan 은 본문에서 \(A=90\) 주변의 \(\pm 10\) 폭을 예시로 제시한다 — 이는 다음 글의 편향-분산 트레이드오프로 이어진다.

직관 — 창 폭과 표본 수의 거래: 창 폭이 좁으면 그 창 안에 있는 데이터 포인트가 적다. \(\pm 5\) 창에 한 명만 들어 있으면 추정값은 그 한 명의 \(Y\) 값에 좌우되어 분산이 크다. \(\pm 30\) 창에 8 명이 들어 있으면 분산은 작지만, 멀리 있는 점까지 평균에 섞이므로 진짜 \(A=90\) 의 평균과 다를 수 있다(편향). 창 폭은 “몇 명의 정보를 빌릴까”의 문제다.

직관 — 다항식 차수 ↔︎ 창 폭의 등가성: 다항식 차수를 올리는 것과 창 폭을 좁히는 것은 같은 일을 다른 방식으로 한다. 둘 다 국소 정보의 비중을 높이고 전역 정보의 비중을 낮춘다. 머신러닝의 모델 복잡도 hyperparameter — neural network 의 hidden unit 수, decision tree 의 depth, lasso 의 \(\lambda\) — 도 모두 같은 평활 정도 조절 장치의 다른 표현이다.

3.6 다차원으로의 확장

본문 사례는 1 차원이라 곡선으로 시각화되지만, 실제 회귀에는 보통 여러 공변량이 등장한다. \(\mathrm{E}[Y|X_1, \ldots, X_p]\) 는 \(p+1\) 차원 공간의 표면이며, 평활의 개념은 동일하다 — 모수 수가 적을수록 표면이 매끄럽고, 표면의 한 점을 추정할 때 다른 점의 정보가 폭넓게 들어간다.

차원 \(p\) 가 늘면 같은 표본 크기에서 비모수 추정의 분산이 빠르게 증가한다. 이것이 차원의 저주(Hernan & Robins, 2020, Ch.10.5) 이며, Part II 에서 모수 가정을 도입하는 실용적 동기 중 하나이다.

3.7 다른 평활 도구의 짧은 지도

Hernan 은 본문에서 다항식과 창 기반 평활만 다루지만, 실무에서는 더 풍부한 평활 도구가 쓰인다.

도구	평활 메커니즘	매끄러움 hyperparameter
다항식 회귀	차수 \(d\) 만큼 변곡점 허용	차수
Cubic spline	매듭점에서 3차 다항식을 부드럽게 이음	매듭점 수·위치
Natural spline	양 끝에서 직선으로 외삽	매듭점 수
Smoothing spline	매듭점을 데이터점마다 두고 wiggliness 페널티	페널티 모수 \(\lambda\)
Kernel regression	가까운 점에 가중치 부여한 국소 평균	대역폭 \(h\)
Local linear regression	가까운 점에서 국소 직선 적합	대역폭 \(h\)
GAM	여러 변수에 대해 매끄러운 함수의 합	각 항의 평활 모수
Random Forest	결정 트리의 평균	트리 깊이·수
Neural Network	여러 층 비선형 합성	은닉 유닛 수·정규화

직관 — 같은 평활을 다른 방식으로: 다항식은 전역 함수 형태로, 스플라인은 구간별 다항식의 부드러운 이음으로, 커널은 국소 가중 평균으로, GAM 은 변수별 매끄러운 함수의 합으로, ML 은 유연한 표현 + 정규화로 평활을 구현한다. 도구가 다르지만 hyperparameter 가 매끄러움 정도를 조절한다는 본질은 동일하다.

직관 — Spline 이 다항식보다 자주 쓰이는 이유: 다항식은 차수가 높아지면 양 끝에서 Runge 현상으로 미친 듯이 흔들린다. Cubic spline 은 데이터를 구간으로 나누고 각 구간에서 3 차 다항식을 적합하되, 매듭점에서 함수·1차·2차 도함수가 연속이 되도록 강제한다 — 부드러운 곡선 + 양 끝의 안정성 이라는 두 마리 토끼를 잡는다. 의학·역학에서 restricted cubic spline 이 표준 도구가 된 이유이다.

정의: Restricted Cubic Spline (RCS)

매듭점 \(k_1 < k_2 < \ldots < k_K\) 를 둔 cubic spline 의 일종으로, 양 끝의 외삽을 직선으로 강제한 형태. 모수 수는 \(K - 1\) (절편 별도). 의학 통계에서 비선형 관계의 표준 도구이다.

\[\mathrm{E}[Y|A] = \theta_0 + \theta_1 A + \sum_{j=2}^{K-1} \theta_j s_j(A)\]

여기서 \(s_j(A)\) 는 \(j\)-번째 매듭점부터 비영이 되는 truncated cubic 함수이다.

직관 — RCS 는 “직선 + 보정”: \(\theta_1 A\) 가 직선 부분을 잡고, 추가 항들이 매듭점 사이에서 곡선의 굴곡을 보정한다. 매듭점 수를 늘리면 더 유연해지고, 줄이면 직선에 가까워진다. 차수를 늘리는 다항식과 달리 차수는 항상 3 으로 고정 — Runge 현상을 차단하면서 유연성을 확보한다.

4 왜 필요한가

상황	비모수 추정	평활 모수 모형
이항 처치, 큰 표본	충분	동일 결과
연속 처치, 작은 표본	정의되지 않음	가능
비선형 관계, 작은 표본	정의되지 않음	다항식·spline 가능
다공변량, 큰 차원	차원의 저주	회귀로 압축
외삽	불가	가능 (가정 의존)

평활은 표본 효율을 끌어올리는 동시에 가정 의존도를 높인다. 이 절충은 11.5 에서 정량화된다.

5 응용 분야

임상시험 용량-반응: 비선형 관계가 흔하므로 다항식 또는 spline 평활
광고 효과: 노출 횟수에 대한 반응 곡선의 평활
EHR 코호트: 연속 lab 값과 결과의 비모수 함수 형태 추정
A/B 테스트 다단계 처치: 처치 강도 효과의 회귀 평활
계량경제 정책 평가: 임계값 근처에서의 sharpest 평활(RDD 와 결합)

6 예시: 16 명 표본의 모수 수별 추정

모형	모수 수	\(\widehat{\mathrm{E}}[Y\|A=90]\)	95% CI	변곡점
직선	2	216.9	(172.1, 261.6)	0
이차	3	197.1	(142.8, 251.5)	1
삼차	4	(값)	(더 넓은 CI)	2
다항식 16	16	(점 자체로 보간)	정의 불가	15

직선과 이차에서 점추정이 약 19 차이, 신뢰구간이 약 22 더 넓다. 다음 글의 편향-분산 트레이드오프는 이 차이를 정량적으로 다룬다.

7 코드: 직선 vs 이차 vs 4차 비교

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

A = np.array([3, 11, 17, 23, 29, 37, 41, 53, 60, 67, 71, 79, 83, 97, 15, 45])
Y = np.array([21, 54, 33, 101, 85, 65, 157, 120, 230, 111, 217, 200, 140, 220, 11, 190])

# 모수 수별 모형 적합
def fit_poly(degree):
    X_poly = np.column_stack([A**k for k in range(1, degree+1)])
    X = sm.add_constant(X_poly)
    return sm.OLS(Y, X).fit()

models = {d: fit_poly(d) for d in [1, 2, 3, 4]}

# A=90 에서 예측
A_grid = np.linspace(0, 100, 200)
fig, ax = plt.subplots()
ax.scatter(A, Y, color='black', label='data')

for d, m in models.items():
    X_grid = sm.add_constant(np.column_stack([A_grid**k for k in range(1, d+1)]))
    pred = m.predict(X_grid)
    ax.plot(A_grid, pred, label=f'degree {d}')

ax.set_xlabel('A'); ax.set_ylabel('E[Y|A]')
ax.legend()
plt.show()

# 모수 수별 점추정 비교
for d, m in models.items():
    x90 = np.array([1] + [90**k for k in range(1, d+1)])
    pred = m.get_prediction(x90).summary_frame(alpha=0.05)
    print(f"degree {d}: E[Y|A=90] = {pred['mean'].iloc[0]:.1f}, "
          f"CI = ({pred['mean_ci_lower'].iloc[0]:.1f}, {pred['mean_ci_upper'].iloc[0]:.1f})")

차수가 늘면 곡선이 데이터 점을 더 정확히 따라가지만 신뢰구간이 빠르게 넓어진다. 이것이 다음 글의 편향-분산 트레이드오프이다.

8 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

차원의 저주 — 비모수 추정의 한계
Spline 과 GAM — 평활의 통계적 기초