약한 IV와 다른 도구와의 비교

Hernan Ch.16.5~16.6 — Weak IV bias, F-statistic, IV vs g-method 의 가정 비교

Hernan & Robins (2020) Ch.16.5~16.6 을 다룬다. 약한 IV 의 분산 폭발과 점추정 편향, F-statistic 임계값 10 의 기원, weak IV 진단의 다른 도구, 그리고 IV 가 g-method 의 대안으로 사용될 때의 가정 묶음 차이와 보완적 사용 전략을 정리한다.

Experimentation
Causal Inference
저자

Kwangmin Kim

공개

2026년 05월 08일

1 정의

정의: Weak IV

\(Z\)\(A\) 의 연관이 약한 IV. 형식적 임계값:

\[F_\text{first stage} = \frac{(\widehat{\alpha}_1)^2}{\widehat{\mathrm{Var}}(\widehat{\alpha}_1)} < 10\]

(Stock, Wright, Yogo 2002 의 rule of thumb).

NHEFS 의 가격 IV: F = 0.8 — 매우 약함.

직관 — Weak IV 의 위험: 분모가 작으면 Wald 추정량이 분모의 작은 변동에 매우 민감. 표본 다시 뽑으면 추정값이 폭발적으로 변동. 추정량의 분산이 1/분모² 형태로 폭발.

2 16.5 Weak IV 의 위험 — 자세히

2.1 Weak IV Bias

Weak IV 의 두 가지 문제

(1) Variance 폭발: Wald 추정량의 분산이 분모² 의 역수에 비례. 작은 분모 → 큰 분산 → 넓은 CI.

(2) Finite-sample bias: Weak IV 에서 2SLS 추정량이 finite sample 에서 OLS 방향으로 편향. 무한 표본에서는 일치하지만 작은 표본에서 OLS 와 비슷한 답. → IV 의 exogeneity 활용 못 함.

직관 — Variance 폭발의 메커니즘: 분모 = 처치-도구 연관. 0 에 가까우면 IV 가 처치를 거의 안 흔드므로 정보 부족. 그 작은 정보로 큰 효과를 추정하려니 분산 폭발. Weak IV 는 외생적 정보가 없는 IV.

직관 — Finite-sample bias 의 직관: 2SLS 의 1 단계 회귀에서 \(\widehat{A} = \widehat{\alpha}_0 + \widehat{\alpha}_1 Z\) 가 weak 일 때 노이즈가 큼. \(\widehat{A}\) 가 진짜 \(A\) 와 거의 같아짐 → 2 단계 회귀가 OLS 와 비슷. IV 의 보정 효과 사라짐.

2.2 F-Statistic 임계값 10 의 기원

Stock-Yogo (2005) 의 임계값

F-statistic = first-stage 회귀의 도구 계수의 F-통계량.

F 값 의미
< 10 Weak IV — 신뢰성 낮음
10~20 중간 강도
> 20 Strong IV

임계 10 의 근거: 2SLS bias 가 OLS bias 의 10% 미만이 되는 표본 크기 기준. Stock, Wright, Yogo (2002) 의 시뮬레이션 결과.

직관 — F = 10 의 의미: 1 단계 회귀에서 도구 계수가 SE 의 약 3.16 배 (√10). t-test 로 매우 강한 통계적 유의성. 도구의 영향력이 노이즈를 충분히 압도하는 수준.

직관 — F = 10 이 절대 기준 아님: rule of thumb. 실제 표본에 따라 더 높은 F 가 필요할 수 있음. 다중 IV 일 때는 다른 검정 (Cragg-Donald F).

2.3 NHEFS 의 Weak IV

First-stage: P(A=1|Z) = α_0 + α_1 Z
α̂_1 = 0.0627 (= 6.3% point difference)
SE(α̂_1) ≈ 0.07
F = (0.0627 / 0.07)² ≈ 0.8

→ F = 0.8 << 10. 매우 약한 IV. 분석 결과의 신뢰성 매우 낮음.

직관 — 이 IV 가 부적합한 이유: 담배 가격이 흡연 결정에 영향 주지만 매우 약함. 다른 요인 (개인 결심, 사회적 압력) 이 더 큼. 가격이 처치를 충분히 흔들지 못해 IV 분석에 무용.

직관 — 더 강한 IV 후보: 무작위 무료 금연 프로그램 제공 (50% 받음 → 받지 않음 0% → 분모 50%, F 매우 큼) 같은 강한 도구. 그러나 관찰 데이터에서는 자연 실험에 의존하므로 강한 IV 가 드물다.

3 16.6 다른 도구와의 비교

3.1 IV 와 g-method 의 가정 비교

도구 핵심 가정 미관측 교란 처리
IPW (Ch.12) 측정된 \(L\) 이 모든 교란 보정 불가능
표준화 (Ch.13) 측정된 \(L\) + 결과 모형 specification 불가능
G-estimation (Ch.14) 측정된 \(L\) + processes models 불가능
PS (Ch.15) 측정된 \(L\) + balancing 불가능
IV (Ch.16) 3 IV 조건 + (iv) 가능 (조건부)

직관 — IV 의 독특함: g-method 는 모두 “측정된 \(L\) 이 충분” 가정. IV 는 이 가정 면제 — 대신 다른 untestable 가정 (exclusion + independence). 가정의 대체, 제거가 아님.

3.2 IV 와 g-method 의 보완적 사용

결과 일치성으로 robust 추론

같은 인과 질문에 IV 와 g-method 의 결과가 비슷하면: - 두 가정 묶음 모두 합리적 → 결과 robust.

결과가 크게 다르면: - (a) g-method 의 “측정된 \(L\) 충분” 가정 위반 (미관측 교란). - (b) IV 의 3 조건 또는 (iv) 위반. - (c) 둘 다 위반.

→ Sensitivity analysis 필수.

직관 — 두 도구의 결과 일치는 가정의 교집합 이 합리적: g-method 와 IV 가 모두 약하게 위반되어 결과가 비슷할 가능성 적음. 둘 다 robust 한 답을 주면 어느 한쪽 가정이 큰 위반 가능성 작음.

직관 — Hernan 의 권장: “단일 도구의 점추정에 의존하지 말라. 여러 도구의 일치성으로 robust 추론.” NHEFS 의 IPW 3.4, 표준화 3.5, g-est 3.4, PS 3.5, IV 2.4 — IV 만 다름. IV 가 weak 라 신뢰성 낮음 → 다른 도구 결과 우선.

3.3 Mendelian Randomization 의 Special Case

Mendelian Randomization 의 강점

유전자를 IV 로 사용: - (i) Relevance: 유전자가 phenotype 에 영향. - (ii) Exclusion: 유전자가 결과에 직접 영향 적음 (가정). - (iii) Independence: 부모 세대의 무작위 — Mendel 의 법칙.

  1. 이 mendelian 무작위로 자동 보장 — 매우 강한 정당화.

직관 — MR 의 도구적 매력: 관찰 데이터에서 무작위 실험과 비슷한 구조. 유전자가 실험적으로 바뀌지 않지만 무작위로 분배. 따라서 (iii) 가 강하게 정당화됨.

직관 — MR 의 약점: (ii) Pleiotropy — 유전자가 여러 phenotype 에 영향. 한 유전자 변이가 한 outcome 에만 영향이라는 가정 검증 어려움. Multiple IV (genetic risk score) + 이론적 검증이 표준.

3.4 자연 실험과 IV

자연 실험의 IV 활용

시간 IV: 정책 변경 전후. 시점 자체가 외생적 (정책 결정의 시점이 다른 변수와 무관 가정).

거리 IV: 의료 시설까지의 거리. 개인의 거리는 다른 결정에서 외생적 (가정).

날씨 IV: 농작물 결과. 날씨는 다른 변수와 무관 (가정).

무작위 시험관: 시험관이 무작위 배정되면 시험관 특성이 외생적 도구.

직관 — 자연 실험의 매력: 무작위 실험을 못 하는 도메인에서 자연이 만든 무작위성을 활용. 정책·역학·교육에서 강력한 추론 도구.

직관 — 자연 실험의 함정: “외생적이라 가정” 의 검증 어려움. 시간 IV 의 경우 정책 시점이 다른 사건 (경기 변동) 과 동시 발생 가능 → confounding. 도메인 면밀 검토 필수.

4 Bound vs Point Identification 의 trade-off

가정 강도 결과 형태 정보성
가정 없음 Bound (-1, 1) 매우 낮음
(i)~(iii) Natural bound 중간
(i)~(iii) + Joint exch Sharp bound 더 좁음
(i)~(iii) + Homogeneity Point ATE 높음 (가정 강함)
(i)~(iii) + Monotonicity Point LATE 높음 (대상 좁음)

직관 — Bound 의 정직함: “가정이 약할 때 결과도 약하다” 는 정직성. Bound 가 0 을 포함 하면 효과 방향마저 결정 못 함 — 그러나 이것이 데이터의 정직한 한계.

5 Multiple IV — Over-identification Test

여러 IV 가 있으면:

  • 각 IV 로 LATE 추정 → 결과 일치성 점검.
  • Sargan-Hansen J-test 로 over-identification 검정.
  • IV 결과가 불일치하면 적어도 하나의 IV 가정 위반.

직관 — J-test 의 메커니즘: 두 IV 모두 valid 면 같은 ATE 또는 같은 LATE 추정 → 결과 차이 0. 차이 크면 IV 가정 위반의 통계적 신호. 그러나 detection power 가 낮을 수 있다 — 약한 위반은 미감지.

6 응용 분야

  • 임상시험 비순응: 무작위 배정이 강한 IV
  • Mendelian Randomization: 강력한 자연 실험
  • 노동경제학: 무작위 시험관, 군복무 IV
  • 교육 효과: 학구 randomization
  • 정책 평가: 정책 변경 시점 IV

7 IV 의 실무 권장 사항

강한 IV 분석을 위한 체크리스트
  1. F-statistic > 20 선호. < 10 인 IV 는 분석 불가.
  2. (ii)·(iii) 의 도메인 정당화 명시. 가능한 모든 위반 시나리오 검토.
  3. Multiple IV 사용 — 결과 일치성으로 robustness.
  4. Sensitivity analysis — exclusion 위반 시나리오의 효과 변동 정량화.
  5. g-method 와의 결과 비교 — 다른 가정 묶음에서 같은 답 보면 robust.
  6. Bound 분석 도 보고 — 점추정만 의존하지 말고 정직한 구간 제시.

직관 — Robust IV 분석의 본질: 단일 점추정 + 95% CI 가 아닌, 가정의 다층적 검토 + 여러 도구의 결과 묶음. IV 는 마법 아닌 가정 검토의 도구.

8 코드 — Weak IV 진단 + Bound 분석

import pandas as pd
import numpy as np
import statsmodels.api as sm

# Hypothetical NHEFS data
np.random.seed(42)
n = 1566
U = np.random.normal(0, 1, n)
Z = np.random.binomial(1, 0.4, n)
# Weak IV 시나리오: 분모 작음
A = ((Z * 0.05 + U * 0.5 + np.random.normal(0, 1, n)) > 0).astype(int)
Y = 3.5 * A + U + np.random.normal(0, 5, n)

df = pd.DataFrame({"Z": Z, "A": A, "Y": Y})

# === First-stage F-statistic ===
first = sm.OLS(df["A"], sm.add_constant(df["Z"])).fit()
print(f"First-stage F: {first.fvalue:.2f}")
print(f"  α_1 = {first.params['Z']:.4f}")
print(f"  SE = {first.bse['Z']:.4f}")
if first.fvalue < 10:
    print("  WARNING: Weak IV — 분석 신뢰성 낮음")

# === Wald 추정 ===
num = df[df.Z == 1].Y.mean() - df[df.Z == 0].Y.mean()
denom = first.params["Z"]
wald = num / denom
print(f"\nWald estimate: {wald:.2f}")

# === Anderson-Rubin Confidence Interval (weak-IV robust) ===
# (간단 구현 — 일반은 statsmodels 또는 linearmodels 사용)
def anderson_rubin_test(beta, df):
    df["Y_adj"] = df["Y"] - beta * df["A"]
    m = sm.OLS(df["Y_adj"], sm.add_constant(df["Z"])).fit()
    return m.f_pvalue

# 격자 검색으로 95% AR-CI
betas = np.arange(-50, 50, 0.5)
ar_pvals = [anderson_rubin_test(b, df.copy()) for b in betas]
ar_ci_betas = [b for b, p in zip(betas, ar_pvals) if p > 0.05]
print(f"\nAR 95% CI: ({min(ar_ci_betas):.1f}, {max(ar_ci_betas):.1f})")

# === Bound 분석 (간단) ===
# Natural bound: (-1, 1) for binary Y. Continuous Y 는 min/max 지정
y_min, y_max = df.Y.min(), df.Y.max()
print(f"\nManski bound (data only): ({y_min - y_max:.1f}, {y_max - y_min:.1f})")

9 한 줄 요약

Weak IV 는 분모가 작아 분산 폭발 + finite-sample bias. F < 10 은 분석 신뢰성의 임계값. NHEFS 가격 IV 의 F = 0.8 → 분석 무용. IV 와 g-method 는 가정 묶음이 다른 보완적 도구 — 결과 일치성으로 robust 추론. Mendelian Randomization, 자연 실험은 강한 IV 정당화. Multiple IV + over-identification test + sensitivity analysis 가 robust IV 분석의 표준. IV 는 마법 아닌 가정 검토 도구.

10 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

Subscribe

Enjoy this blog? Get notified of new posts by email: