Hernan & Robins (2020) Ch.23.3-23.4 를 다룬다. Separable effects 가정 (i)+(ii) 의 경험적 검증 절차 — 미래 3-arm 무작위 실험 (금연·계속 흡연·니코틴-free 담배) 으로 mediation formula 의 예측을 검증, 가정이 깨지면 (i) 니코틴 직접 효과 / (ii) 비-니코틴 매개자 효과 / (iii) 미측정 공통 원인 중 무엇이 문제인지 진단. 그리고 Robins-Richardson (2010) 의 interventionist mediation theory — cross-world counterfactual 없이 separable component effect 를 정의하는 자율 framework, 매개자에 대한 well-defined intervention 이 없어도 적용 가능, 6-arm 미래 실험으로 검증, surrogate mediator 와 path-specific effect 와 front-door formula 와의 연결을 다룬다.
Experimentation
Causal Inference
저자
Kwangmin Kim
공개
2026년 05월 08일
1 도입: 가정의 검증 가능성
Ch.23.2 의 옹호는 가정 (i)+(ii) 의 진실성 에 의존. Ch.23.3 의 핵심 통찰: 그 가정 자체가 경험적으로 검증 가능 (단, 미래 무작위 실험으로).
직관 — 옹호의 자가-검증 능력: 가정에 의존하는 옹호는 약점 — 가정이 거짓이면 무너짐. 그러나 가정의 진실성 자체를 실험으로 검증 할 수 있다면, 옹호는 더 이상 약점이 아님. Ch.23.3 의 핵심 — separable effect framework 의 가정은 검증 가능.
2 3-Arm 무작위 실험 (Ch.23.3)
2.1 실험 설계
니코틴-free 담배가 출시되면, 새 무작위 실험:
Arm
처치
표기
1
금연
\(A = N = O = 0\)
2
계속 흡연 (표준 담배)
\(A = N = O = 1\)
3
니코틴-free 담배
\(N = 0, O = 1\)
가정: 시간 추세 무시 (두 trial 표본 크기 충분히 커서 sampling variability 무시).
2.2 검증 절차
Step 1: Arm 1, 2 의 평균 결과가 원래 trial 과 같은지 확인 — 시간 추세 점검. 같다면 두 trial 비교 가능.
Step 2: Arm 3 의 평균 결과 \(\mathrm{E}[Y \mid N=0, O=1]\) 를 계산. 무작위 배정에 의해 \(=
\mathrm{E}[Y^{n=0, o=1}]\).
Step 3: 이 값을 원래 trial 의 mediation formula \(\sum_m \mathrm{E}[Y \mid A=1, M=m] \Pr[M=m
\mid A=0]\) 와 비교.
두 값 일치: 가정 (i)+(ii) 옹호. PDE 의 정책 의미 (니코틴-free 담배 효과) 확정.
두 값 불일치: 가정 중 적어도 하나가 거짓. 추가 진단 필요.
직관 — 검증의 본질: NPSEM-IE 의 cross-world 가정은 직접 검증 불가. 그러나 separable effect framework 의 가정 (i)+(ii) 는 간접 검증 가능 — 예측이 맞는지 본다. 예측이 틀리면 가정 중 무엇이 거짓인지 추가 실험으로 밝힘.
3 어떤 가정이 거짓인가? (Ch.23.3)
검증 실패 시 4 가지 추가 진단:
3.1 진단 1: 가정 (ii) 검증
질문: 비-니코틴 성분 \(O\) 가 매개자 \(M\) (혈압) 에 효과 있는가?
Test: \(N=0\) 인 사람들 중 (\(O\) 다양): \[\mathrm{E}[M \mid N=0, O=1] - \mathrm{E}[M \mid N=0, O=0] \neq 0\]
만일 차이 ≠ 0 → 가정 (ii) 거짓: \(O \to M\) 화살표 추가 필요.
직관 — 가정 (ii) 의 위반: 만일 비-니코틴 성분 (타르 등) 도 혈압을 올린다면, 니코틴-free 담배의 혈압 효과 ≠ 금연의 혈압 효과. 가정 (ii) 깨짐 → mediation formula 가 PDE 를 식별하지 못함.
3.2 진단 2: 가정 (i) 검증
질문: 니코틴 \(N\) 이 결과 \(Y\) 에 (매개자 \(M\) 외) 직접 효과 있는가?
Test: \(M\), \(O\) 의 모든 수준에서: \[\mathrm{E}[Y \mid N=1, O=1, M=m] - \mathrm{E}[Y \mid N=0, O=1, M=m] \neq 0\]
만일 어떤 \(m\) 에서 차이 ≠ 0 → 가정 (i) 거짓또는\(M\) 과 \(Y\) 의 미측정 공통 원인 \(U\) 존재.
직관 — 가정 (i) 의 위반 vs 미측정 공통 원인: 두 시나리오는 동일 데이터 패턴 산출 — “\(M\), \(O\) 통제 후 \(N\) 과 \(Y\) 가 연관”. 둘 중 무엇인지 구별하려면 추가 실험 필요 (Fine Point 23.1 — 8-arm 실험에서 \(M\) 도 무작위 배정).
3.3 진단 3: \(M\) 과 \(Y\) 의 미측정 공통 원인 \(U\)
Fine Point 23.1: 8-arm 실험 (3-arm 에 추가로 \(M\) 무작위 배정 5 arms) 으로 가정 (i) 와 미측정 공통 원인 \(U\) 분리 가능.
Test: 8-arm 에서 \(M\), \(O\) 통제 후 \(N\) 이 \(Y\) 와 독립이면 가정 (i) 옳음. 그러나 \(Y\) 의 조건부 분포가 3-arm 과 8-arm 에서 다르면 → 미측정 \(U\) 존재.
직관 — Fine Point 23.1 의 핵심: 매개자 \(M\) 을 통제 했을 때 (\(M\) 조건부) 와 intervene 했을 때 (\(M\) 무작위 배정) 의 차이는 \(M\) 과 \(Y\) 의 미측정 공통 원인 에서 나옴. 두 효과의 비교가 \(U\) 의 존재 여부를 polish.
3.4 진단 4: NPSEM-IE 가 보장하는 강한 결론
흥미롭게도, 미측정 공통 원인 \(U\) 가 유일한 위반 원인이라면: \[Y^{n=0, o=1} = Y^{a=1, M^{a=0}}\] 매 individual 에서 성립 (NPSEM-IE 하). 그러나 \(\mathrm{E}[Y^{n=0, o=1}] = \mathrm{E}[Y^{a=1,
M^{a=0}}]\) 가 mediation formula 와 같지는 않음 — formula 는 \(U\) 보정을 못함.
직관 — 강한 결론의 의미: \(U\) 만이 문제일 때, 두 cross-world quantity 는 individual 수준 에서 같음 — separable effect 와 PDE 가 물리적으로 같은 양. 단, mediation formula 는 그 양을 식별하지 못함 — \(U\) 보정 필요.
4 두 입장의 반응 (Ch.23.3)
3-arm 실험 결과 \(\mathrm{E}[Y \mid N=0, O=1] \neq\) mediation formula 인 경우:
입장
반응
NPSEM-IE 옹호
\(\mathrm{E}[Y^{a=1, M^{a=0}}]\) = mediation formula 그대로 인정. 단, separable effect 이야기는 거짓 → PDE 의 정책 의미 (니코틴-free 담배 효과) 옹호 못함.
FFRCISTG 옹호
원래 mediation formula 에 관심 없음. 3-arm 실험의 직접 추정값\(\mathrm{E}[Y \mid N=0, O=1]\) 가 진짜 정책 양. 추가로 가정 (i)/(ii)/(iii) 중 무엇이 깨졌는지 학습.
직관 — 입장의 본질: NPSEM-IE 는 수학적 형식주의 — cross-world quantity 가 mediation formula 와 같다는 정리에 매달림. FFRCISTG 는 과학적 실용주의 — 검증 가능한 single-world 양만 다루고, 검증 실험에서 나온 값을 정책에 활용.
5 일반 결과 (Ch.23.3 끝)
중요한 일반 결과: 처치 \(A\) 를 어떤 다른 separable components \(N'\), \(O'\) 로 분해해도, 모든 가정 (i)+(ii) + Figure 23.2 가 FFRCISTG 라는 가정이 항상 성립할 수는 없다.
증명 (간략): 만일 그것이 가능하다면 PDE 는 항상 mediation formula 로 점 식별. 그러나 Robins-Richardson (2010) 의 sharp bounds 는 PDE 가 mediation formula 와 다른 값을 가질 수 있음을 보임 → 모순.
직관 — 분해의 한계: 모든 처치를 separable components 로 항상 분해할 수는 없음. 어떤 처치는 진짜로 단일 한 효과 — 분리 불가능. 매개 분석은 substantively meaningful 한 분해가 가능할 때만 의미.
처치 분해: \(A\) 가 substantively meaningful 한 separable components (\(N\), \(O\), …) 로 분해.
개별 개입: 각 component 가 원리적으로 독립 개입 가능.
검증 가능 가정: 식별 가정은 미래 무작위 실험으로 원리적 검증 가능.
Mediator 개입 불필요: 매개자 \(M\) 자체에 대한 well-defined intervention 이 없어도 적용 가능 — substantively meaningful 한 separable components 만 있으면 됨.
핵심: cross-world quantities 와 nested counterfactual 을 사용하지 않고도 매개와 동등한 효과 를 정의·식별·검증 가능.
6.1 6-Arm 검증 실험
Robins-Richardson framework 의 검증을 위한 미래 6-arm 무작위 실험:
Arm
처치
1
\(a = 1\) (표준 처치)
2
\(a = 0\) (대조)
3
\(n = 1, o = 1\) (=arm 1 와 같음 — 일관성 검증용)
4
\(n = 0, o = 0\) (=arm 2 와 같음)
5
\(n = 0, o = 1\) (니코틴 제거, 다른 성분 유지)
6
\(n = 1, o = 0\) (니코틴만 유지)
검증 결과: separable effects framework 가 옳다면: - Arm 1 평균 = Arm 3 평균 (일관성) - Arm 2 평균 = Arm 4 평균 - \(\mathrm{E}[Y^{n=0, o=1}]\) = Arm 5 평균 - \(\mathrm{E}[Y^{n=1, o=0}]\) = Arm 6 평균
중요: 이 양들은 현재 데이터로 식별 안 되어도 미래 실험으로 식별 가능. 이는 cross-world counterfactual 보다 훨씬 강력한 empirical 보증.
직관 — 6-arm 의 강력함: \(\mathrm{E}[Y^{n=0, o=1}]\) 와 \(\mathrm{E}[Y^{n=1, o=0}]\) 는 각자 single-world quantity — 미래 실험에서 직접 추정 가능. Cross-world quantity 처럼 영원히 검증 불가가 아님.
6.2 현재 데이터로 식별
Hernán-Robins (2020, Ch.23.4): 가정 (i)+(ii) + 매개자 \(M\) 와 결과 \(Y\) 의 미측정 공통 원인 부재 하에서:
= mediation formula. 따라서 현재 데이터로 추정 가능. 미래 6-arm 실험은 가정 검증 용.
7 Surrogate Mediator (Fine Point 23.2)
매개자 \(M\) 에 대한 well-defined intervention 이 없는 경우:
시나리오: 약 \(A\) → 콜레스테롤 \(M\) (일반 검사값) → 심혈관 사건 \(Y\). \(M\) 자체 에 대한 직접 intervention (콜레스테롤 값을 강제 설정) 은 well-defined 하지 않음 — 약마다 다른 부작용. 진짜 매개자 \(H\) (예: 동맥 내피 기능) 는 측정 안 됨.
이 경우 Figure 23.4 의 DAG: \(A \to H, A \to ?\), \(H \to Y\), \(H \to M\), \(M\) 은 surrogate (h 의 대리).
문제: \(M\) 에 대한 controlled direct effect \(\mathrm{E}[Y^{a, m}]\) 이 meaningless — intervention 이 well-defined 하지 않으므로.
해결: Interventionist framework 는 \(M\) 대신 separable components \(N\), \(O\) 의 effect 에 초점 — \(H\) 가 측정 안 되어도 \(N \to H \to Y\) 경로의 효과 식별 가능 (가정 하).
직관 — Surrogate 의 강점: Controlled direct effect 는 매개자에 대한 strong assumption (well-defined intervention) 필요. Interventionist framework 는 약한 assumption — separable components 만 있으면 됨. 매개자 측정 정확도 문제도 우회.
8 Path-Specific Effects 와 Front-Door Formula (Technical Point 23.3)
Hernán-Robins (2020, Ch.9.5) 의 front-door formula:
DAG: \(L \to A \to Y\), \(L \to Y\) (직접 경로 + 매개 경로). \(L \to A \to Y\) 의 path-specific effect 식별:
이는 front-door formula. Technical Point 23.3 은 이를 interventionist reformulation — \(L\) 을 separable components \(N, O\) 로 분해 (BMI 보고값 vs BMI 측정값 같은 의미).
직관 — Front-Door 의 본질: Front-door 는 backdoor 가 막혀 있어도 매개를 통해 식별 가능 한 특수 상황. Interventionist framework 는 이를 일반화 — 어떤 변수든 substantively meaningful separable components 로 분해 가능하면 식별.
9 매개 분석은 Heroic Assumptions 의존
Ch.23.4 의 결론:
본문 Figure 23.1 은 교육 도구 — 실제 매개 연구는 더 복잡 (다중 confounder).
직관 — 가정 부담의 비대칭: ATE 분석에는 한 세트의 confounder \(L\) 만. 매개 분석에는 두-세 세트의 confounder + cross-world (or separable) 가정. 가정 부담이 기하급수 증가. 따라서 매개 분석 결과는 언제나 큰 sensitivity analysis 와 함께 보고해야 함.
10 코드: 3-Arm 검증 실험 시뮬레이션
코드
import numpy as npimport pandas as pdnp.random.seed(123)def simulate_smoking_trial(n_per_arm, gamma_NY=0.0, gamma_OM=0.0):""" 3-arm trial simulation. n_per_arm: 각 arm 표본 크기 gamma_NY: 니코틴 N 의 Y 직접 효과 (가정 i 위반 정도) gamma_OM: 비-니코틴 O 의 M 효과 (가정 ii 위반 정도) """ arms = []for arm in [(0, 0), (1, 1), (0, 1)]: # (N, O) N, O = arm# M depends on N (and possibly O if gamma_OM != 0) p_M =0.3+0.2* N + gamma_OM * O M = np.random.binomial(1, p_M, n_per_arm)# Y depends on O, M, and possibly N (if gamma_NY != 0) p_Y =0.05+0.05* O +0.10* M + gamma_NY * N Y = np.random.binomial(1, np.clip(p_Y, 0, 1), n_per_arm) arm_df = pd.DataFrame({'arm': f"N={N}_O={O}",'N': N, 'O': O, 'M': M, 'Y': Y }) arms.append(arm_df)return pd.concat(arms, ignore_index=True)def mediation_formula_estimate(df_arm1, df_arm2):""" 원래 2-arm trial 데이터에서 mediation formula 계산. df_arm1: A=N=O=1 (계속 흡연) df_arm2: A=N=O=0 (금연) """ PDE_first_term =0.0for m in [0, 1]: EY = df_arm1[df_arm1.M == m].Y.mean() if (df_arm1.M == m).sum() >0else0 PM = (df_arm2.M == m).mean() PDE_first_term += EY * PMreturn PDE_first_term# Scenario 1: 가정 (i)+(ii) 옳음print("=== Scenario 1: 가정 옳음 ===")df = simulate_smoking_trial(10000, gamma_NY=0.0, gamma_OM=0.0)df_smoke = df[df.arm =='N=1_O=1']df_quit = df[df.arm =='N=0_O=0']df_nicfree = df[df.arm =='N=0_O=1']med_form = mediation_formula_estimate(df_smoke, df_quit)arm3_direct = df_nicfree.Y.mean()print(f"Mediation formula: {med_form:.4f}")print(f"Arm 3 직접 추정 E[Y|N=0,O=1]: {arm3_direct:.4f}")print(f"두 값 일치 정도: {abs(med_form - arm3_direct):.4f}")# 두 값 거의 일치 → 가정 (i)+(ii) 옹호# Scenario 2: 가정 (i) 위반 (니코틴 직접 효과)print("\n=== Scenario 2: 가정 (i) 위반 (gamma_NY=0.03) ===")df = simulate_smoking_trial(10000, gamma_NY=0.03, gamma_OM=0.0)df_smoke = df[df.arm =='N=1_O=1']df_quit = df[df.arm =='N=0_O=0']df_nicfree = df[df.arm =='N=0_O=1']med_form = mediation_formula_estimate(df_smoke, df_quit)arm3_direct = df_nicfree.Y.mean()print(f"Mediation formula: {med_form:.4f}")print(f"Arm 3 직접 추정 E[Y|N=0,O=1]: {arm3_direct:.4f}")print(f"두 값 차이: {abs(med_form - arm3_direct):.4f}")# Arm 3 직접 추정 < mediation formula → 가정 (i) 거짓, 니코틴이 Y 에 직접 효과
결과 해석: Scenario 1 에서 mediation formula ≈ Arm 3 직접 추정 → separable effect 옹호 성공. Scenario 2 에서 두 값이 다름 → 가정 (i) 거짓, 니코틴이 직접 효과 보유. 추가 진단 (8- arm) 필요.
11 Interventionist Framework 의 다중 Components 확장
본문 Ch.23.4 끝: 단순화를 위해 2-component (\(N\), \(O\)) 만 다뤘으나, framework 는 임의의 수의 components 로 확장 — 시간 변동 components 도 포함.
시간 변동 separable effect: 한 처치 \(A_t\) 가 매 시점 \(t\) 에 두 components \(N_t\), \(O_t\) 로 분해. 이는 Ch.20-21 의 시간 변동 g-method 와 자연스럽게 통합.
직관 — 매개의 통합 framework: 매개 분석 = 시간 변동 인과추론의 특수 사례. Separable effect 도 시간 변동 처치의 components 로 일반화. 모든 인과 분석이 single-world 의 g- method 로 통일 — 이 책의 통합 비전.
12 매개 분석의 응용 영역
12.1 임상 시험
스타틴 → LDL 콜레스테롤 → 심혈관 사건: PDE = “스타틴이 LDL 외 경로로 (염증 감소 등) 가지는 효과.” Interventionist framework: separable components = (LDL 감소 effect, 항염증 effect). 미래 실험: 두 효과를 분리 약물로 검증.
12.2 유전 역학
SNP \(\to\) 단백질 발현 \(\to\) 질병: Mendelian randomization 의 매개 확장. SNP 는 자연 randomi- zation, 단백질 발현은 매개자.
12.3 사회과학
교육 \(\to\) 직업 \(\to\) 임금: Wright (1934) 의 path analysis 의 인과적 후예. 단, path coefficient 는 cross-world counterfactual 가정 의존.
12.4 행동 분석
A/B 테스트 funnel: UI 변경 (\(A\)) → 클릭 (\(M\)) → 구매 (\(Y\)). 마케팅 funnel 의 인과 해석. 단, “클릭 강제 intervention” 이 well-defined 하지 않을 수 있음 → interventionist framework 사용.
13 한 줄 요약
Ch.23.3 은 separable effect framework 의 가정 (i)+(ii) 가 미래 3-arm 무작위 실험 (금연· 흡연·니코틴-free 담배) 으로 경험적으로 검증 가능 함을 보임. 검증 실패 시 (i)/(ii)/(iii) 중 무엇이 거짓인지 추가 진단 (8-arm). Ch.23.4 는 Robins-Richardson (2010) 의 interventionist mediation theory — cross-world counterfactual 없이 separable component effect 를 자율적 으로 정의·식별·검증. 매개자 \(M\) 에 대한 well-defined intervention 이 없어도 적용 가능 (surrogate mediator). Front-door formula 도 interventionist 시각으로 재해석. 결론: 매개 분석은 heroic assumptions 의존 — 비-매개 분석보다 훨씬 약한 결론. 그러나 separable effect framework + 미래 실험 검증은 매개 분석을 과학적 으로 만듦.