Kwangmin Kim - 경험적 매개 + 개입주의 매개 이론

1 도입: 가정의 검증 가능성

Ch.23.2 의 옹호는 가정 (i)+(ii) 의 진실성 에 의존. Ch.23.3 의 핵심 통찰: 그 가정 자체가 경험적으로 검증 가능 (단, 미래 무작위 실험으로).

직관 — 옹호의 자가-검증 능력: 가정에 의존하는 옹호는 약점 — 가정이 거짓이면 무너짐. 그러나 가정의 진실성 자체를 실험으로 검증 할 수 있다면, 옹호는 더 이상 약점이 아님. Ch.23.3 의 핵심 — separable effect framework 의 가정은 검증 가능.

2 3-Arm 무작위 실험 (Ch.23.3)

2.1 실험 설계

니코틴-free 담배가 출시되면, 새 무작위 실험:

Arm	처치	표기
1	금연	\(A = N = O = 0\)
2	계속 흡연 (표준 담배)	\(A = N = O = 1\)
3	니코틴-free 담배	\(N = 0, O = 1\)

가정: 시간 추세 무시 (두 trial 표본 크기 충분히 커서 sampling variability 무시).

2.2 검증 절차

Step 1: Arm 1, 2 의 평균 결과가 원래 trial 과 같은지 확인 — 시간 추세 점검. 같다면 두 trial 비교 가능.

Step 2: Arm 3 의 평균 결과 \(\mathrm{E}[Y \mid N=0, O=1]\) 를 계산. 무작위 배정에 의해 \(= \mathrm{E}[Y^{n=0, o=1}]\).

Step 3: 이 값을 원래 trial 의 mediation formula \(\sum_m \mathrm{E}[Y \mid A=1, M=m] \Pr[M=m \mid A=0]\) 와 비교.

두 값 일치: 가정 (i)+(ii) 옹호. PDE 의 정책 의미 (니코틴-free 담배 효과) 확정.
두 값 불일치: 가정 중 적어도 하나가 거짓. 추가 진단 필요.

직관 — 검증의 본질: NPSEM-IE 의 cross-world 가정은 직접 검증 불가. 그러나 separable effect framework 의 가정 (i)+(ii) 는 간접 검증 가능 — 예측이 맞는지 본다. 예측이 틀리면 가정 중 무엇이 거짓인지 추가 실험으로 밝힘.

3 어떤 가정이 거짓인가? (Ch.23.3)

검증 실패 시 4 가지 추가 진단:

3.1 진단 1: 가정 (ii) 검증

질문: 비-니코틴 성분 \(O\) 가 매개자 \(M\) (혈압) 에 효과 있는가?

Test: \(N=0\) 인 사람들 중 (\(O\) 다양): \[\mathrm{E}[M \mid N=0, O=1] - \mathrm{E}[M \mid N=0, O=0] \neq 0\]

만일 차이 ≠ 0 → 가정 (ii) 거짓: \(O \to M\) 화살표 추가 필요.

직관 — 가정 (ii) 의 위반: 만일 비-니코틴 성분 (타르 등) 도 혈압을 올린다면, 니코틴-free 담배의 혈압 효과 ≠ 금연의 혈압 효과. 가정 (ii) 깨짐 → mediation formula 가 PDE 를 식별하지 못함.

3.2 진단 2: 가정 (i) 검증

질문: 니코틴 \(N\) 이 결과 \(Y\) 에 (매개자 \(M\) 외) 직접 효과 있는가?

Test: \(M\), \(O\) 의 모든 수준에서: \[\mathrm{E}[Y \mid N=1, O=1, M=m] - \mathrm{E}[Y \mid N=0, O=1, M=m] \neq 0\]

만일 어떤 \(m\) 에서 차이 ≠ 0 → 가정 (i) 거짓 또는 \(M\) 과 \(Y\) 의 미측정 공통 원인 \(U\) 존재.

직관 — 가정 (i) 의 위반 vs 미측정 공통 원인: 두 시나리오는 동일 데이터 패턴 산출 — “\(M\), \(O\) 통제 후 \(N\) 과 \(Y\) 가 연관”. 둘 중 무엇인지 구별하려면 추가 실험 필요 (Fine Point 23.1 — 8-arm 실험에서 \(M\) 도 무작위 배정).

3.3 진단 3: \(M\) 과 \(Y\) 의 미측정 공통 원인 \(U\)

Fine Point 23.1: 8-arm 실험 (3-arm 에 추가로 \(M\) 무작위 배정 5 arms) 으로 가정 (i) 와 미측정 공통 원인 \(U\) 분리 가능.

Test: 8-arm 에서 \(M\), \(O\) 통제 후 \(N\) 이 \(Y\) 와 독립이면 가정 (i) 옳음. 그러나 \(Y\) 의 조건부 분포가 3-arm 과 8-arm 에서 다르면 → 미측정 \(U\) 존재.

직관 — Fine Point 23.1 의 핵심: 매개자 \(M\) 을 통제 했을 때 (\(M\) 조건부) 와 intervene 했을 때 (\(M\) 무작위 배정) 의 차이는 \(M\) 과 \(Y\) 의 미측정 공통 원인 에서 나옴. 두 효과의 비교가 \(U\) 의 존재 여부를 polish.

3.4 진단 4: NPSEM-IE 가 보장하는 강한 결론

흥미롭게도, 미측정 공통 원인 \(U\) 가 유일한 위반 원인이라면: \[Y^{n=0, o=1} = Y^{a=1, M^{a=0}}\] 매 individual 에서 성립 (NPSEM-IE 하). 그러나 \(\mathrm{E}[Y^{n=0, o=1}] = \mathrm{E}[Y^{a=1, M^{a=0}}]\) 가 mediation formula 와 같지는 않음 — formula 는 \(U\) 보정을 못함.

직관 — 강한 결론의 의미: \(U\) 만이 문제일 때, 두 cross-world quantity 는 individual 수준 에서 같음 — separable effect 와 PDE 가 물리적으로 같은 양. 단, mediation formula 는 그 양을 식별하지 못함 — \(U\) 보정 필요.

4 두 입장의 반응 (Ch.23.3)

3-arm 실험 결과 \(\mathrm{E}[Y \mid N=0, O=1] \neq\) mediation formula 인 경우:

입장	반응
NPSEM-IE 옹호	\(\mathrm{E}[Y^{a=1, M^{a=0}}]\) = mediation formula 그대로 인정. 단, separable effect 이야기는 거짓 → PDE 의 정책 의미 (니코틴-free 담배 효과) 옹호 못함.
FFRCISTG 옹호	원래 mediation formula 에 관심 없음. 3-arm 실험의 직접 추정값 \(\mathrm{E}[Y \mid N=0, O=1]\) 가 진짜 정책 양. 추가로 가정 (i)/(ii)/(iii) 중 무엇이 깨졌는지 학습.

직관 — 입장의 본질: NPSEM-IE 는 수학적 형식주의 — cross-world quantity 가 mediation formula 와 같다는 정리에 매달림. FFRCISTG 는 과학적 실용주의 — 검증 가능한 single-world 양만 다루고, 검증 실험에서 나온 값을 정책에 활용.

5 일반 결과 (Ch.23.3 끝)

중요한 일반 결과: 처치 \(A\) 를 어떤 다른 separable components \(N'\), \(O'\) 로 분해해도, 모든 가정 (i)+(ii) + Figure 23.2 가 FFRCISTG 라는 가정이 항상 성립할 수는 없다.

증명 (간략): 만일 그것이 가능하다면 PDE 는 항상 mediation formula 로 점 식별. 그러나 Robins-Richardson (2010) 의 sharp bounds 는 PDE 가 mediation formula 와 다른 값을 가질 수 있음을 보임 → 모순.

직관 — 분해의 한계: 모든 처치를 separable components 로 항상 분해할 수는 없음. 어떤 처치는 진짜로 단일 한 효과 — 분리 불가능. 매개 분석은 substantively meaningful 한 분해가 가능할 때만 의미.

6 개입주의 매개 이론 (Ch.23.4)

Robins & Richardson (2010), 확장: Robins, Richardson, Shpitser (2022).

정의: Interventionist Mediation Theory

매개 분석을 cross-world counterfactual 없이 자율적으로 정의:

처치 분해: \(A\) 가 substantively meaningful 한 separable components (\(N\), \(O\), …) 로 분해.
개별 개입: 각 component 가 원리적으로 독립 개입 가능.
검증 가능 가정: 식별 가정은 미래 무작위 실험으로 원리적 검증 가능.
Mediator 개입 불필요: 매개자 \(M\) 자체에 대한 well-defined intervention 이 없어도 적용 가능 — substantively meaningful 한 separable components 만 있으면 됨.

핵심: cross-world quantities 와 nested counterfactual 을 사용하지 않고도 매개와 동등한 효과 를 정의·식별·검증 가능.

6.1 6-Arm 검증 실험

Robins-Richardson framework 의 검증을 위한 미래 6-arm 무작위 실험:

Arm	처치
1	\(a = 1\) (표준 처치)
2	\(a = 0\) (대조)
3	\(n = 1, o = 1\) (=arm 1 와 같음 — 일관성 검증용)
4	\(n = 0, o = 0\) (=arm 2 와 같음)
5	\(n = 0, o = 1\) (니코틴 제거, 다른 성분 유지)
6	\(n = 1, o = 0\) (니코틴만 유지)

검증 결과: separable effects framework 가 옳다면: - Arm 1 평균 = Arm 3 평균 (일관성) - Arm 2 평균 = Arm 4 평균 - \(\mathrm{E}[Y^{n=0, o=1}]\) = Arm 5 평균 - \(\mathrm{E}[Y^{n=1, o=0}]\) = Arm 6 평균

중요: 이 양들은 현재 데이터로 식별 안 되어도 미래 실험으로 식별 가능. 이는 cross-world counterfactual 보다 훨씬 강력한 empirical 보증.

직관 — 6-arm 의 강력함: \(\mathrm{E}[Y^{n=0, o=1}]\) 와 \(\mathrm{E}[Y^{n=1, o=0}]\) 는 각자 single-world quantity — 미래 실험에서 직접 추정 가능. Cross-world quantity 처럼 영원히 검증 불가가 아님.

6.2 현재 데이터로 식별

Hernán-Robins (2020, Ch.23.4): 가정 (i)+(ii) + 매개자 \(M\) 와 결과 \(Y\) 의 미측정 공통 원인 부재 하에서:

\[\mathrm{E}[Y^{n=0, o=1}] = \sum_m \mathrm{E}[Y \mid A=1, M=m] \Pr[M=m \mid A=0]\]

= mediation formula. 따라서 현재 데이터로 추정 가능. 미래 6-arm 실험은 가정 검증 용.

7 Surrogate Mediator (Fine Point 23.2)

매개자 \(M\) 에 대한 well-defined intervention 이 없는 경우:

시나리오: 약 \(A\) → 콜레스테롤 \(M\) (일반 검사값) → 심혈관 사건 \(Y\). \(M\) 자체 에 대한 직접 intervention (콜레스테롤 값을 강제 설정) 은 well-defined 하지 않음 — 약마다 다른 부작용. 진짜 매개자 \(H\) (예: 동맥 내피 기능) 는 측정 안 됨.

이 경우 Figure 23.4 의 DAG: \(A \to H, A \to ?\), \(H \to Y\), \(H \to M\), \(M\) 은 surrogate (h 의 대리).

문제: \(M\) 에 대한 controlled direct effect \(\mathrm{E}[Y^{a, m}]\) 이 meaningless — intervention 이 well-defined 하지 않으므로.

해결: Interventionist framework 는 \(M\) 대신 separable components \(N\), \(O\) 의 effect 에 초점 — \(H\) 가 측정 안 되어도 \(N \to H \to Y\) 경로의 효과 식별 가능 (가정 하).

직관 — Surrogate 의 강점: Controlled direct effect 는 매개자에 대한 strong assumption (well-defined intervention) 필요. Interventionist framework 는 약한 assumption — separable components 만 있으면 됨. 매개자 측정 정확도 문제도 우회.

8 Path-Specific Effects 와 Front-Door Formula (Technical Point 23.3)

Hernán-Robins (2020, Ch.9.5) 의 front-door formula:

DAG: \(L \to A \to Y\), \(L \to Y\) (직접 경로 + 매개 경로). \(L \to A \to Y\) 의 path-specific effect 식별:

\[\sum_{l, a} \mathrm{E}[Y \mid A=a, L=l] \Pr[L=l] \Pr[A=a \mid L=n]\]

이는 front-door formula. Technical Point 23.3 은 이를 interventionist reformulation — \(L\) 을 separable components \(N, O\) 로 분해 (BMI 보고값 vs BMI 측정값 같은 의미).

직관 — Front-Door 의 본질: Front-door 는 backdoor 가 막혀 있어도 매개를 통해 식별 가능 한 특수 상황. Interventionist framework 는 이를 일반화 — 어떤 변수든 substantively meaningful separable components 로 분해 가능하면 식별.

9 매개 분석은 Heroic Assumptions 의존

Ch.23.4 의 결론:

본문 Figure 23.1 은 교육 도구 — 실제 매개 연구는 더 복잡 (다중 confounder).
모든 매개 분석은 확장 exchangeability 필요: \(A \to Y\) confounder \(L_A\) + \(M \to Y\) confounder \(L_M\) + \(A \to M\) confounder \(L_{AM}\).
관찰 데이터 매개 분석은 sequential ignorability 가정 필요 — 실제로는 거의 검증 불가.
매개 분석의 결론은 비-매개 분석보다 훨씬 약함 — heroic assumptions 의존.

직관 — 가정 부담의 비대칭: ATE 분석에는 한 세트의 confounder \(L\) 만. 매개 분석에는 두-세 세트의 confounder + cross-world (or separable) 가정. 가정 부담이 기하급수 증가. 따라서 매개 분석 결과는 언제나 큰 sensitivity analysis 와 함께 보고해야 함.

10 코드: 3-Arm 검증 실험 시뮬레이션

코드

import numpy as np
import pandas as pd

np.random.seed(123)

def simulate_smoking_trial(n_per_arm, gamma_NY=0.0, gamma_OM=0.0):
    """
    3-arm trial simulation.
    n_per_arm: 각 arm 표본 크기
    gamma_NY: 니코틴 N 의 Y 직접 효과 (가정 i 위반 정도)
    gamma_OM: 비-니코틴 O 의 M 효과 (가정 ii 위반 정도)
    """
    arms = []
    for arm in [(0, 0), (1, 1), (0, 1)]:  # (N, O)
        N, O = arm
        # M depends on N (and possibly O if gamma_OM != 0)
        p_M = 0.3 + 0.2 * N + gamma_OM * O
        M = np.random.binomial(1, p_M, n_per_arm)
        # Y depends on O, M, and possibly N (if gamma_NY != 0)
        p_Y = 0.05 + 0.05 * O + 0.10 * M + gamma_NY * N
        Y = np.random.binomial(1, np.clip(p_Y, 0, 1), n_per_arm)
        arm_df = pd.DataFrame({
            'arm': f"N={N}_O={O}",
            'N': N, 'O': O, 'M': M, 'Y': Y
        })
        arms.append(arm_df)
    return pd.concat(arms, ignore_index=True)

def mediation_formula_estimate(df_arm1, df_arm2):
    """
    원래 2-arm trial 데이터에서 mediation formula 계산.
    df_arm1: A=N=O=1 (계속 흡연)
    df_arm2: A=N=O=0 (금연)
    """
    PDE_first_term = 0.0
    for m in [0, 1]:
        EY = df_arm1[df_arm1.M == m].Y.mean() if (df_arm1.M == m).sum() > 0 else 0
        PM = (df_arm2.M == m).mean()
        PDE_first_term += EY * PM
    return PDE_first_term

# Scenario 1: 가정 (i)+(ii) 옳음
print("=== Scenario 1: 가정 옳음 ===")
df = simulate_smoking_trial(10000, gamma_NY=0.0, gamma_OM=0.0)
df_smoke = df[df.arm == 'N=1_O=1']
df_quit = df[df.arm == 'N=0_O=0']
df_nicfree = df[df.arm == 'N=0_O=1']
med_form = mediation_formula_estimate(df_smoke, df_quit)
arm3_direct = df_nicfree.Y.mean()
print(f"Mediation formula: {med_form:.4f}")
print(f"Arm 3 직접 추정 E[Y|N=0,O=1]: {arm3_direct:.4f}")
print(f"두 값 일치 정도: {abs(med_form - arm3_direct):.4f}")
# 두 값 거의 일치 → 가정 (i)+(ii) 옹호

# Scenario 2: 가정 (i) 위반 (니코틴 직접 효과)
print("\n=== Scenario 2: 가정 (i) 위반 (gamma_NY=0.03) ===")
df = simulate_smoking_trial(10000, gamma_NY=0.03, gamma_OM=0.0)
df_smoke = df[df.arm == 'N=1_O=1']
df_quit = df[df.arm == 'N=0_O=0']
df_nicfree = df[df.arm == 'N=0_O=1']
med_form = mediation_formula_estimate(df_smoke, df_quit)
arm3_direct = df_nicfree.Y.mean()
print(f"Mediation formula: {med_form:.4f}")
print(f"Arm 3 직접 추정 E[Y|N=0,O=1]: {arm3_direct:.4f}")
print(f"두 값 차이: {abs(med_form - arm3_direct):.4f}")
# Arm 3 직접 추정 < mediation formula → 가정 (i) 거짓, 니코틴이 Y 에 직접 효과

결과 해석: Scenario 1 에서 mediation formula ≈ Arm 3 직접 추정 → separable effect 옹호 성공. Scenario 2 에서 두 값이 다름 → 가정 (i) 거짓, 니코틴이 직접 효과 보유. 추가 진단 (8- arm) 필요.

11 Interventionist Framework 의 다중 Components 확장

본문 Ch.23.4 끝: 단순화를 위해 2-component (\(N\), \(O\)) 만 다뤘으나, framework 는 임의의 수의 components 로 확장 — 시간 변동 components 도 포함.

시간 변동 separable effect: 한 처치 \(A_t\) 가 매 시점 \(t\) 에 두 components \(N_t\), \(O_t\) 로 분해. 이는 Ch.20-21 의 시간 변동 g-method 와 자연스럽게 통합.

직관 — 매개의 통합 framework: 매개 분석 = 시간 변동 인과추론의 특수 사례. Separable effect 도 시간 변동 처치의 components 로 일반화. 모든 인과 분석이 single-world 의 g- method 로 통일 — 이 책의 통합 비전.

12 매개 분석의 응용 영역

12.1 임상 시험

스타틴 → LDL 콜레스테롤 → 심혈관 사건: PDE = “스타틴이 LDL 외 경로로 (염증 감소 등) 가지는 효과.” Interventionist framework: separable components = (LDL 감소 effect, 항염증 effect). 미래 실험: 두 효과를 분리 약물로 검증.

12.2 유전 역학

SNP \(\to\) 단백질 발현 \(\to\) 질병: Mendelian randomization 의 매개 확장. SNP 는 자연 randomi- zation, 단백질 발현은 매개자.

12.3 사회과학

교육 \(\to\) 직업 \(\to\) 임금: Wright (1934) 의 path analysis 의 인과적 후예. 단, path coefficient 는 cross-world counterfactual 가정 의존.

12.4 행동 분석

A/B 테스트 funnel: UI 변경 (\(A\)) → 클릭 (\(M\)) → 구매 (\(Y\)). 마케팅 funnel 의 인과 해석. 단, “클릭 강제 intervention” 이 well-defined 하지 않을 수 있음 → interventionist framework 사용.

13 한 줄 요약

Ch.23.3 은 separable effect framework 의 가정 (i)+(ii) 가 미래 3-arm 무작위 실험 (금연· 흡연·니코틴-free 담배) 으로 경험적으로 검증 가능 함을 보임. 검증 실패 시 (i)/(ii)/(iii) 중 무엇이 거짓인지 추가 진단 (8-arm). Ch.23.4 는 Robins-Richardson (2010) 의 interventionist mediation theory — cross-world counterfactual 없이 separable component effect 를 자율적 으로 정의·식별·검증. 매개자 \(M\) 에 대한 well-defined intervention 이 없어도 적용 가능 (surrogate mediator). Front-door formula 도 interventionist 시각으로 재해석. 결론: 매개 분석은 heroic assumptions 의존 — 비-매개 분석보다 훨씬 약한 결론. 그러나 separable effect framework + 미래 실험 검증은 매개 분석을 과학적 으로 만듦.

14 관련 주제

선행: - 매개 분석의 비판과 옹호 — Ch.23.1-23.2 — Robins- Greenland PDE/TIE + NPSEM-IE 옹호 + separable effects 도입 - Causal Mediation 개관 — Ch.23 — 흐름과 4 소챕터 - Hernán & Robins (2020, Ch.7.5) — Front-door formula

후속 (다른 Phase): - Phase E (Buisson 행동 인과): 비즈니스 funnel 매개 분석 — 클릭 → 구매 - Phase J (HTE / 개인화): heterogeneous mediation effect

보충 자료: - Robins & Richardson (2010) “Alternative Graphical Causal Models and the Identification of Direct Effects” — Interventionist framework 원형 - Robins, Richardson, Shpitser (2022) “An interventionist approach to mediation analysis” — 확장 + SWIG Markov property - Stensrud, Hernán, Tchetgen-Tchetgen, Robins, Young (2021) “Generalized interventional effects for survival analysis” — 시간-사건 결과로 확장 - Didelez (2019) “Defining causal mediation with a longitudinal mediator and a survival outcome” — 시간 변동 매개 - Aalen, Stensrud, Didelez, Daniel, Røysland, Strohmaier (2020) “Time-dependent mediators in survival analysis” — additive hazard 확장 - Wen, Saarela, Mealli, Mattei (2023) “Causal mediation analysis with separable effects” — 독립 도출 - Stensrud, Robins, Sarvet, Tchetgen-Tchetgen, Young (2023) “Conditional separable effects” — 조건부 separable effect 확장 - VanderWeele (2015) “Explanation in Causal Inference” — 실무 매개 분석 종합