1 정의
\(Z\) 와 \(A\) 의 연관이 약한 IV. 형식적 임계값:
\[F_\text{first stage} = \frac{(\widehat{\alpha}_1)^2}{\widehat{\mathrm{Var}}(\widehat{\alpha}_1)} < 10\]
(Stock, Wright, Yogo 2002 의 rule of thumb).
NHEFS 의 가격 IV: F = 0.8 — 매우 약함.
직관 — Weak IV 의 위험: 분모가 작으면 Wald 추정량이 분모의 작은 변동에 매우 민감. 표본 다시 뽑으면 추정값이 폭발적으로 변동. 추정량의 분산이 1/분모² 형태로 폭발.
2 16.5 Weak IV 의 위험 — 자세히
2.1 Weak IV Bias
(1) Variance 폭발: Wald 추정량의 분산이 분모² 의 역수에 비례. 작은 분모 → 큰 분산 → 넓은 CI.
(2) Finite-sample bias: Weak IV 에서 2SLS 추정량이 finite sample 에서 OLS 방향으로 편향. 무한 표본에서는 일치하지만 작은 표본에서 OLS 와 비슷한 답. → IV 의 exogeneity 활용 못 함.
직관 — Variance 폭발의 메커니즘: 분모 = 처치-도구 연관. 0 에 가까우면 IV 가 처치를 거의 안 흔드므로 정보 부족. 그 작은 정보로 큰 효과를 추정하려니 분산 폭발. Weak IV 는 외생적 정보가 없는 IV.
직관 — Finite-sample bias 의 직관: 2SLS 의 1 단계 회귀에서 \(\widehat{A} = \widehat{\alpha}_0 + \widehat{\alpha}_1 Z\) 가 weak 일 때 노이즈가 큼. \(\widehat{A}\) 가 진짜 \(A\) 와 거의 같아짐 → 2 단계 회귀가 OLS 와 비슷. IV 의 보정 효과 사라짐.
2.2 F-Statistic 임계값 10 의 기원
F-statistic = first-stage 회귀의 도구 계수의 F-통계량.
| F 값 | 의미 |
|---|---|
| < 10 | Weak IV — 신뢰성 낮음 |
| 10~20 | 중간 강도 |
| > 20 | Strong IV |
임계 10 의 근거: 2SLS bias 가 OLS bias 의 10% 미만이 되는 표본 크기 기준. Stock, Wright, Yogo (2002) 의 시뮬레이션 결과.
직관 — F = 10 의 의미: 1 단계 회귀에서 도구 계수가 SE 의 약 3.16 배 (√10). t-test 로 매우 강한 통계적 유의성. 도구의 영향력이 노이즈를 충분히 압도하는 수준.
직관 — F = 10 이 절대 기준 아님: rule of thumb. 실제 표본에 따라 더 높은 F 가 필요할 수 있음. 다중 IV 일 때는 다른 검정 (Cragg-Donald F).
2.3 NHEFS 의 Weak IV
First-stage: P(A=1|Z) = α_0 + α_1 Z
α̂_1 = 0.0627 (= 6.3% point difference)
SE(α̂_1) ≈ 0.07
F = (0.0627 / 0.07)² ≈ 0.8
→ F = 0.8 << 10. 매우 약한 IV. 분석 결과의 신뢰성 매우 낮음.
직관 — 이 IV 가 부적합한 이유: 담배 가격이 흡연 결정에 영향 주지만 매우 약함. 다른 요인 (개인 결심, 사회적 압력) 이 더 큼. 가격이 처치를 충분히 흔들지 못해 IV 분석에 무용.
직관 — 더 강한 IV 후보: 무작위 무료 금연 프로그램 제공 (50% 받음 → 받지 않음 0% → 분모 50%, F 매우 큼) 같은 강한 도구. 그러나 관찰 데이터에서는 자연 실험에 의존하므로 강한 IV 가 드물다.
3 16.6 다른 도구와의 비교
3.1 IV 와 g-method 의 가정 비교
| 도구 | 핵심 가정 | 미관측 교란 처리 |
|---|---|---|
| IPW (Ch.12) | 측정된 \(L\) 이 모든 교란 보정 | 불가능 |
| 표준화 (Ch.13) | 측정된 \(L\) + 결과 모형 specification | 불가능 |
| G-estimation (Ch.14) | 측정된 \(L\) + processes models | 불가능 |
| PS (Ch.15) | 측정된 \(L\) + balancing | 불가능 |
| IV (Ch.16) | 3 IV 조건 + (iv) | 가능 (조건부) |
직관 — IV 의 독특함: g-method 는 모두 “측정된 \(L\) 이 충분” 가정. IV 는 이 가정 면제 — 대신 다른 untestable 가정 (exclusion + independence). 가정의 대체, 제거가 아님.
3.2 IV 와 g-method 의 보완적 사용
같은 인과 질문에 IV 와 g-method 의 결과가 비슷하면: - 두 가정 묶음 모두 합리적 → 결과 robust.
결과가 크게 다르면: - (a) g-method 의 “측정된 \(L\) 충분” 가정 위반 (미관측 교란). - (b) IV 의 3 조건 또는 (iv) 위반. - (c) 둘 다 위반.
→ Sensitivity analysis 필수.
직관 — 두 도구의 결과 일치는 가정의 교집합 이 합리적: g-method 와 IV 가 모두 약하게 위반되어 결과가 비슷할 가능성 적음. 둘 다 robust 한 답을 주면 어느 한쪽 가정이 큰 위반 가능성 작음.
직관 — Hernan 의 권장: “단일 도구의 점추정에 의존하지 말라. 여러 도구의 일치성으로 robust 추론.” NHEFS 의 IPW 3.4, 표준화 3.5, g-est 3.4, PS 3.5, IV 2.4 — IV 만 다름. IV 가 weak 라 신뢰성 낮음 → 다른 도구 결과 우선.
3.3 Mendelian Randomization 의 Special Case
유전자를 IV 로 사용: - (i) Relevance: 유전자가 phenotype 에 영향. - (ii) Exclusion: 유전자가 결과에 직접 영향 적음 (가정). - (iii) Independence: 부모 세대의 무작위 — Mendel 의 법칙.
- 이 mendelian 무작위로 자동 보장 — 매우 강한 정당화.
직관 — MR 의 도구적 매력: 관찰 데이터에서 무작위 실험과 비슷한 구조. 유전자가 실험적으로 바뀌지 않지만 무작위로 분배. 따라서 (iii) 가 강하게 정당화됨.
직관 — MR 의 약점: (ii) Pleiotropy — 유전자가 여러 phenotype 에 영향. 한 유전자 변이가 한 outcome 에만 영향이라는 가정 검증 어려움. Multiple IV (genetic risk score) + 이론적 검증이 표준.
3.4 자연 실험과 IV
시간 IV: 정책 변경 전후. 시점 자체가 외생적 (정책 결정의 시점이 다른 변수와 무관 가정).
거리 IV: 의료 시설까지의 거리. 개인의 거리는 다른 결정에서 외생적 (가정).
날씨 IV: 농작물 결과. 날씨는 다른 변수와 무관 (가정).
무작위 시험관: 시험관이 무작위 배정되면 시험관 특성이 외생적 도구.
직관 — 자연 실험의 매력: 무작위 실험을 못 하는 도메인에서 자연이 만든 무작위성을 활용. 정책·역학·교육에서 강력한 추론 도구.
직관 — 자연 실험의 함정: “외생적이라 가정” 의 검증 어려움. 시간 IV 의 경우 정책 시점이 다른 사건 (경기 변동) 과 동시 발생 가능 → confounding. 도메인 면밀 검토 필수.
4 Bound vs Point Identification 의 trade-off
| 가정 강도 | 결과 형태 | 정보성 |
|---|---|---|
| 가정 없음 | Bound (-1, 1) | 매우 낮음 |
| (i)~(iii) | Natural bound | 중간 |
| (i)~(iii) + Joint exch | Sharp bound | 더 좁음 |
| (i)~(iii) + Homogeneity | Point ATE | 높음 (가정 강함) |
| (i)~(iii) + Monotonicity | Point LATE | 높음 (대상 좁음) |
직관 — Bound 의 정직함: “가정이 약할 때 결과도 약하다” 는 정직성. Bound 가 0 을 포함 하면 효과 방향마저 결정 못 함 — 그러나 이것이 데이터의 정직한 한계.
5 Multiple IV — Over-identification Test
여러 IV 가 있으면:
- 각 IV 로 LATE 추정 → 결과 일치성 점검.
- Sargan-Hansen J-test 로 over-identification 검정.
- IV 결과가 불일치하면 적어도 하나의 IV 가정 위반.
직관 — J-test 의 메커니즘: 두 IV 모두 valid 면 같은 ATE 또는 같은 LATE 추정 → 결과 차이 0. 차이 크면 IV 가정 위반의 통계적 신호. 그러나 detection power 가 낮을 수 있다 — 약한 위반은 미감지.
6 응용 분야
- 임상시험 비순응: 무작위 배정이 강한 IV
- Mendelian Randomization: 강력한 자연 실험
- 노동경제학: 무작위 시험관, 군복무 IV
- 교육 효과: 학구 randomization
- 정책 평가: 정책 변경 시점 IV
7 IV 의 실무 권장 사항
- F-statistic > 20 선호. < 10 인 IV 는 분석 불가.
- (ii)·(iii) 의 도메인 정당화 명시. 가능한 모든 위반 시나리오 검토.
- Multiple IV 사용 — 결과 일치성으로 robustness.
- Sensitivity analysis — exclusion 위반 시나리오의 효과 변동 정량화.
- g-method 와의 결과 비교 — 다른 가정 묶음에서 같은 답 보면 robust.
- Bound 분석 도 보고 — 점추정만 의존하지 말고 정직한 구간 제시.
직관 — Robust IV 분석의 본질: 단일 점추정 + 95% CI 가 아닌, 가정의 다층적 검토 + 여러 도구의 결과 묶음. IV 는 마법 아닌 가정 검토의 도구.
8 코드 — Weak IV 진단 + Bound 분석
import pandas as pd
import numpy as np
import statsmodels.api as sm
# Hypothetical NHEFS data
np.random.seed(42)
n = 1566
U = np.random.normal(0, 1, n)
Z = np.random.binomial(1, 0.4, n)
# Weak IV 시나리오: 분모 작음
A = ((Z * 0.05 + U * 0.5 + np.random.normal(0, 1, n)) > 0).astype(int)
Y = 3.5 * A + U + np.random.normal(0, 5, n)
df = pd.DataFrame({"Z": Z, "A": A, "Y": Y})
# === First-stage F-statistic ===
first = sm.OLS(df["A"], sm.add_constant(df["Z"])).fit()
print(f"First-stage F: {first.fvalue:.2f}")
print(f" α_1 = {first.params['Z']:.4f}")
print(f" SE = {first.bse['Z']:.4f}")
if first.fvalue < 10:
print(" WARNING: Weak IV — 분석 신뢰성 낮음")
# === Wald 추정 ===
num = df[df.Z == 1].Y.mean() - df[df.Z == 0].Y.mean()
denom = first.params["Z"]
wald = num / denom
print(f"\nWald estimate: {wald:.2f}")
# === Anderson-Rubin Confidence Interval (weak-IV robust) ===
# (간단 구현 — 일반은 statsmodels 또는 linearmodels 사용)
def anderson_rubin_test(beta, df):
df["Y_adj"] = df["Y"] - beta * df["A"]
m = sm.OLS(df["Y_adj"], sm.add_constant(df["Z"])).fit()
return m.f_pvalue
# 격자 검색으로 95% AR-CI
betas = np.arange(-50, 50, 0.5)
ar_pvals = [anderson_rubin_test(b, df.copy()) for b in betas]
ar_ci_betas = [b for b, p in zip(betas, ar_pvals) if p > 0.05]
print(f"\nAR 95% CI: ({min(ar_ci_betas):.1f}, {max(ar_ci_betas):.1f})")
# === Bound 분석 (간단) ===
# Natural bound: (-1, 1) for binary Y. Continuous Y 는 min/max 지정
y_min, y_max = df.Y.min(), df.Y.max()
print(f"\nManski bound (data only): ({y_min - y_max:.1f}, {y_max - y_min:.1f})")9 한 줄 요약
Weak IV 는 분모가 작아 분산 폭발 + finite-sample bias. F < 10 은 분석 신뢰성의 임계값. NHEFS 가격 IV 의 F = 0.8 → 분석 무용. IV 와 g-method 는 가정 묶음이 다른 보완적 도구 — 결과 일치성으로 robust 추론. Mendelian Randomization, 자연 실험은 강한 IV 정당화. Multiple IV + over-identification test + sensitivity analysis 가 robust IV 분석의 표준. IV 는 마법 아닌 가정 검토 도구.
10 관련 주제
선행 지식
후속 주제
다른 카테고리 연결