Kwangmin Kim - 매개 분석의 비판과 옹호

1 도입: Hernan 흡연 사례

Hernán & Robins (2020, Ch.23.1) 의 동기 시나리오:

무작위 시험: 흡연자 무작위 배정 — 금연 (\(A=0\)) 또는 계속 흡연 (\(A=1\)).
완전 순응: 모든 배정자가 지시대로 행동.
결과: 1 년 심근경색 위험 \(Y\) — 금연이 유익. \(\mathrm{E}[Y \mid A=1] > \mathrm{E}[Y \mid A=0]\).
추가 측정: 6 개월 시점 고혈압 상태 \(M\).
인과 질문: 금연의 유익은 고혈압 감소 를 통한 것인가, 아니면 다른 경로인가?

직관 — 매개 질문의 본질: 효과의 총량 을 알면 “약을 쓸까?” 결정에 충분. 효과의 경로 를 알면 “더 짧은 경로로 같은 효과를 낼 수 있을까?” — 새 약 개발의 단서. 매개 분석은 두번째 질문에 답하려는 시도.

2 Robins-Greenland (1992) 의 두 효과

정의: Pure Direct Effect (PDE)

\(A\) 가 \(Y\) 에 미치는 \(M\) 을 거치지 않는 효과:

\[\text{PDE} = \mathrm{E}[Y^{a=1, M^{a=0}}] - \mathrm{E}[Y^{a=0, M^{a=0}}]\]

각 사람에 대해, 매개자 \(M\) 의 값을 \(A=0\) 일 때의 값 으로 고정. 그 상태에서 \(A\) 만 바꿔 비교.

정의: Total Indirect Effect (TIE)

\(A\) 가 \(Y\) 에 미치는 \(M\) 을 거치는 효과:

\[\text{TIE} = \mathrm{E}[Y^{a=1, M^{a=1}}] - \mathrm{E}[Y^{a=1, M^{a=0}}]\]

\(A=1\) 처치를 받았을 때의 결과를, \(M\) 이 \(A=1\) 자연 상태 vs \(M\) 이 \(A=0\) 자연 상태 로 비교.

합산 정리: \[\text{PDE} + \text{TIE} = \mathrm{E}[Y^{a=1, M^{a=1}}] - \mathrm{E}[Y^{a=0, M^{a=0}}] = \mathrm{E}[Y^{a=1}] - \mathrm{E}[Y^{a=0}] = \text{TE}\]

마지막 등식은 consistency — \(Y^{a=1, M^{a=1}}\) = \(Y^{a=1}\) (한 세계에서 \(A=1\) 처치 시 실제 매개자는 \(M^{a=1}\)).

직관 — PDE 와 TIE 의 비유: 회사가 적자 → CEO 교체 → 직접 효과: 새 CEO 의 의사결정. 간접 효과: 새 CEO → 부하 직원 변경 → 직원의 의사결정. PDE = “같은 부하 직원 유지하면서 CEO 만 바꿨을 때의 차이.” TIE = “CEO 에 따라 부하 직원이 다르게 임명되어 발생한 차이.”

2.1 Pearl (2001) 의 명명

Pearl 은 같은 양을 다른 이름으로: - PDE = Natural Direct Effect (NDE) - TIE = Natural Indirect Effect (NIE)

“Natural” 은 매개자가 자연 발생적 값을 가짐을 강조 — intervention 으로 강제 설정한 값 (controlled direct effect 에서처럼) 이 아닌, “사람의 자연 반응” 의 값.

직관 — Natural vs Controlled Direct Effect: Controlled direct effect 는 “\(M\) 을 강제로 \(m\) 으로 고정” — 처방. Natural direct effect 는 “각 사람이 \(A=0\) 일 때 자연스럽게 가졌을 \(M\) 값을 사용” — 가설. 후자는 cross-world counterfactual.

3 매개의 Cross-World 본질

PDE 의 핵심 양 \(\mathrm{E}[Y^{a=1, M^{a=0}}]\) 는 cross-world counterfactual.

직관 — 두 세계의 모순: 한 사람이 동시에 \(A=1\) (계속 흡연) 인 세계에 살면서, \(A=0\) (금연) 했을 때의 혈압을 가지는 것. 물리적으로 불가능. 어떤 무작위 실험도 동일 사람 에게 동시에 두 세계의 값을 줄 수 없음 (interventions 은 single world 에서 작용).

이는 controlled direct effect (Ch.22.2 의 \(\mathrm{E}[Y^{a=1, m}]\)) 와 본질적으로 다름:

효과	양	세계
Controlled direct effect	\(\mathrm{E}[Y^{a=1, m=1}] - \mathrm{E}[Y^{a=0, m=1}]\)	Single (모두에게 \(m=1\))
Pure direct effect	\(\mathrm{E}[Y^{a=1, M^{a=0}}] - \mathrm{E}[Y^{a=0, M^{a=0}}]\)	Cross (각자 \(M^{a=0}\) 으로)

Controlled direct effect 는 실험 가능 — 모두에게 \(m=1\) 을 강제하면 됨. Pure direct effect 는 각 사람의 \(M^{a=0}\) 이 필요 — 그 사람이 금연했다면 의 혈압. 같은 사람에게 흡연 시키면 금연 시의 혈압을 동시에 측정 불가.

4 Mediation Formula

Hernán & Robins (2020, Ch.23.1) 가 도입하는 식별식:

정의: Mediation Formula

Figure 23.1 의 DAG 가정 하에서:

\[\mathrm{E}[Y^{a=1, M^{a=0}}] = \sum_m \mathrm{E}[Y \mid A = 1, M = m] \Pr[M = m \mid A = 0]\]

이는 관찰 가능 한 분포의 함수 — \(A\), \(M\), \(Y\) 의 결합 분포만 사용.

4.1 유도 (Technical Point 23.1)

3 단계 유도:

Step 1 — 조건부 기댓값 분해: \[\mathrm{E}[Y^{a=1, M^{a=0}}] = \sum_m \mathrm{E}[Y^{a=1, m} \mid M^{a=0} = m] \Pr[M^{a=0} = m]\]

Step 2 — Cross-world independence 가정 적용: 가정: \(Y^{a=1, m} \perp\!\!\!\perp M^{a=0}\) — 두 다른 세계의 반사실 변수가 독립. \[= \sum_m \mathrm{E}[Y^{a=1, m}] \Pr[M^{a=0} = m]\]

Step 3 — Single-world exchangeability + consistency: \(\mathrm{E}[Y^{a=1, m}] = \mathrm{E}[Y \mid A=1, M=m]\) (gAMmconditional), \(\Pr[M^{a=0} = m] = \Pr[M = m \mid A = 0]\): \[= \sum_m \mathrm{E}[Y \mid A = 1, M = m] \Pr[M = m \mid A = 0]\]

직관 — Step 2 의 비현실성: \(Y^{a=1, m} \perp\!\!\!\perp M^{a=0}\) 는 “한 사람이 흡연 + 혈압 \(m\) 을 가졌을 때의 심장병 위험” 이 그 사람이 금연했다면* 가졌을 혈압과 무관* 이라는 가정. 하지만 두 양은 같은 사람의 두 다른 세계의 양 — 같은 유전자, 같은 환경. 독립일 이유 없음. 이 가정은 NPSEM-IE 가 자동 부여 하는 가정 — FFRCISTG 는 부여하지 않음.

5 NPSEM-IE vs FFRCISTG (Technical Point 6.2)

정의: 두 인과 모형의 차이

NPSEM-IE: Pearl 의 Structural Causal Model. 각 변수가 deterministic function of parents + independent noise. 각 noise 가 다른 변수 noise 와 독립 → cross-world counterfactuals 도 독립 (이 가정이 NPSEM-IE 의 signature).

FFRCISTG: Robins 의 모형. Single-world 의 counterfactual 만 다룸. 어떤 단일 세계에서의 intervention 결과 분포를 Pearl 식 SWIG (Single-World Intervention Graph) 로 표현. Cross- world 독립성은 가정하지 않음.

측면	NPSEM-IE	FFRCISTG
Cross-world independencies	가정	가정 안 함
PDE 식별	점 식별 (mediation formula)	부분 식별 (sharp bounds)
검증 가능성	불가 (cross-world 검증 불가)	가능 (single-world 실험으로)

직관 — 왜 NPSEM-IE 가 더 강한 가정인가?: NPSEM-IE 는 모든 가능 세계의 noise term 들이 서로 독립 이라는 가정 — 매우 strong. FFRCISTG 는 single world 의 intervention 결과 만 모형화 — NPSEM-IE 의 sub-model. NPSEM-IE 결과는 항상 FFRCISTG 결과를 함의하지만, 역은 아님.

6 FFRCISTG 하의 부분 식별 (Robins-Richardson 2010)

NPSEM-IE 가정을 거부하면 mediation formula 는 PDE 의 점 추정 을 못함. 대신:

Sharp bounds (Robins-Richardson 2010): PDE 의 가능한 값의 최대-최소 범위.
데이터에 의존 — bound 가 “wide” 이면 PDE 에 대해 거의 정보 없음, “narrow” 이면 강한 정보.

직관 — Bound 의 의미: 점 식별은 “PDE = 0.03” 이라는 정확한 값. Bound 는 “PDE 는 [-0.05, 0.10] 사이”. 점 식별이 항상 좋아 보이지만, 그 점이 검증 불가 가정에 의존 한다면 bound 가 더 과학적.

7 Cross-World Independence 의 검증 불가능성 (Technical Point 7.1)

핵심 결론: \[Y^{a=1, m} \perp\!\!\!\perp M^{a=0}\] 는 어떤 무작위 실험으로도 검증 불가.

이유: 1. \(Y^{a=1, m}\) 은 “\(A=1\) 처치 + \(M=m\) 강제” 의 결과 — 한 세계의 양. 2. \(M^{a=0}\) 은 “\(A=0\) 처치” 의 매개자 값 — 다른 세계의 양. 3. 어떤 실험도 동일 사람에게 동시에 \(A=1, M=m\) 처치와 \(A=0\) 처치를 줄 수 없음. 4. 따라서 두 양의 결합 분포를 관측할 수 없음 → 독립성 검증 불가.

직관 — 영원히 검증 불가한 가정: 과학에서 검증 불가한 가정은 형이상학. NPSEM-IE 는 이런 가정에 의존. Hernán-Robins 는 “우리는 검증 불가한 가정에 의존하지 않는 인과 추론 방법을 선호한다” 는 입장 — 그래서 FFRCISTG 권장.

8 Mediation Formula 의 정책 의미 의문

Cross-world quantity \(\mathrm{E}[Y^{a=1, M^{a=0}}]\) 가 어떤 실제 개입에도 대응하지 않음:

어떤 정책도 “흡연을 계속시키면서 동시에 금연했을 때의 혈압을 가지게 함” 을 구현 불가.
따라서 일부 정책 입안자는 PDE 가 공중 보건적 의미가 없다 고 주장.

직관 — 정책의 본질: 정책은 single-world intervention. 한 세계에서 한 사람에게 무엇을 시킬지 결정. Cross-world counterfactual 은 어떤 정책으로도 실현 불가 — 정책 의미 의문.

9 NPSEM-IE 옹호: 니코틴-free 담배 이야기 (Ch.23.2)

NPSEM-IE 옹호자들 (Pearl 등) 은 PDE 의 정책 의미를 옹호하는 separable effect 이야기를 제시.

9.1 시나리오

1 년 후 니코틴-free 담배가 시장에 등장한다고 가정. 정책 질문: 흡연자 모두에게 니코틴-free 담배로 전환시키면 심장병 위험은?

가정 (i): 니코틴은 \(Y\) 에 직접 효과 가 없음 — 매개자 \(M\) (혈압) 을 통해서만. 가정 (ii): 비-니코틴 성분은 \(M\) 에 효과 없음.

주장: 가정 (i)+(ii) 하에서, “니코틴-free 담배로 전환한 흡연자의 심장병 위험” = \(\mathrm{ E}[Y^{a=1, M^{a=0}}]\) — PDE 의 첫 번째 항.

9.2 논리

니코틴-free 담배 = \(A=1\) (흡연 계속) 의 비-니코틴 부분 + \(A=0\) (금연) 의 니코틴 없음 부분.
가정 (ii) 에 의해 매개자 \(M\) 은 니코틴에만 의존 → 니코틴-free 담배 시 \(M = M^{a=0}\).
가정 (i) 에 의해 결과 \(Y\) 는 비-니코틴 + \(M\) 에만 의존 → \(Y = Y^{a=1, M^{a=0}}\).

결론: PDE 는 니코틴 제거 정책의 효과 와 같다 — 정책 의미 부여!

직관 — 옹호의 강점과 약점: 강점: 가정이 옳다면, PDE 는 실제 정책 (“니코틴-free 담배 도입”) 의 효과. 약점: 가정 (i)+(ii) 자체가 검증 가능해야만 옹호가 성립. 본문 Ch.23.3 은 어떻게 검증할지 를 다룸 — 미래 3-arm 무작위 실험.

10 Separable Components 의 형식화

처치 \(A\) 를 substantively meaningful 한 components \(N\), \(O\) 로 분해: - \(N\) = 니코틴 노출 - \(O\) = 다른 화학 성분

확장 DAG (Figure 23.2): - \(A \to N\), \(A \to O\) (deterministic; 데이터에서 \(A = N = O\)) - \(N \to M\) (니코틴 → 혈압) - \(M \to Y\) (혈압 → 심장병) - \(O \to Y\) (비-니코틴 → 심장병 직접) - 부재: \(N \to Y\) 직접 (가정 i), \(O \to M\) (가정 ii)

니코틴-free 담배 시나리오: \(N = 0, O = 1\). 이는 원래 trial 데이터에서 관측되지 않은 조합 — positivity 위반.

정의: Separable Effect

\(A\) 의 separable components \(N\), \(O\) 의 효과:

\[\mathrm{E}[Y^{n=0, o=1}] - \mathrm{E}[Y^{n=0, o=0}]\]

이는 “니코틴 제거, 다른 성분 유지” vs “둘 다 제거 (=금연)” 의 효과. Single-world quantity — 미래 무작위 실험으로 검증 가능.

11 Technical Point 23.2: Mediation Formula = G-Formula

확장 DAG (Figure 23.2) 하에서, \(\mathrm{E}[Y^{n=0, o=1}]\) 의 g-formula: \[\sum_m \mathrm{E}[Y \mid O=1, M=m] \Pr[M=m \mid N=0]\]

Determinism \(A = N = O\) 에 의해: \[= \sum_m \mathrm{E}[Y \mid A=1, M=m] \Pr[M=m \mid A=0]\]

이는 정확히 mediation formula!

결론: Mediation formula 는 두 가지 해석 가능: 1. NPSEM-IE 하 cross-world counterfactual \(\mathrm{E}[Y^{a=1, M^{a=0}}]\) 식별식 (검증 불가). 2. 확장 DAG (separable components) 하 single-world counterfactual \(\mathrm{E}[Y^{n=0, o=1}]\) 식별식 (검증 가능). 두 해석은 가정 (i)+(ii) + Figure 23.1 이 FFRCISTG 임을 만족하면 동일한 값.

이는 NPSEM-IE 옹호자에게 유리 — PDE 는 niko틴-free 담배 정책의 효과로 해석 가능.

직관 — 해석의 변화: 처음에 PDE 는 cross-world 양으로 정책 의미 모호. 그러나 Figure 23.2 의 separable components 이야기로 보면, PDE 는 single-world 양 — 니코틴 제거 정책의 효과. 두 해석의 일치는 우연이 아니라 mediation formula 의 본질.

12 그러나 가정 자체가 검증되어야

Ch.23.2 의 옹호는 가정 (i)+(ii) 가 옳다는 전제 에 의존. 가정이 깨지면 옹호 무너짐.

가정 (i) 가 거짓: 니코틴이 \(Y\) 에 직접 효과 (혈압 외 경로) → “니코틴-free 담배” 효과 ≠ PDE.
가정 (ii) 가 거짓: 비-니코틴이 \(M\) 에 효과 → matter formula 가 잘못된 양 식별.

Ch.23.3 (다음 글) 에서 가정의 경험적 검증 절차 (3-arm 무작위 실험) 를 다룸.

13 한 줄 요약

Robins-Greenland (1992) 의 PDE/TIE 는 cross-world counterfactual \(\mathrm{E}[Y^{a=1, M^{a=0}}]\) 에 의존. NPSEM-IE 모형 하에서 mediation formula \(\sum_m \mathrm{E}[Y|A=1, M=m] \Pr[M=m|A=0]\) 가 점 식별. 그러나 cross-world independencies 는 영원히 검증 불가 — 어떤 무작위 실험도 동일 사람에게 동시에 두 세계의 값을 줄 수 없음. FFRCISTG 하에서는 부분 식별 (sharp bounds). NPSEM-IE 옹호는 separable effects \(N\)/\(O\) 이야기로 PDE 의 정책 의미 옹호 — “니코틴-free 담배 효과” 와 동일. 단, 가정 (i)+(ii) 가 옳다는 전제 하. 이 가정의 경험적 검증 이 Ch.23.3 의 주제.

14 관련 주제

선행: - Causal Mediation 개관 — Ch.23 — Ch.23 흐름과 4 소챕터 - Hernán & Robins (2020, Ch.6.5) — Direct effects 도입 - Hernán & Robins (2020, Ch.22) — Controlled direct effects (single-world 직접 효과)

후속: - 경험적 매개 + 개입주의 이론 — Ch.23.3-23.4 — 가정 (i)+(ii) 의 검증 절차 + interventionist framework

보충 자료: - Robins & Greenland (1992) “Identifiability and Exchangeability for Direct and Indirect Effects” — PDE/TIE 원형 논문 - Pearl (2001) “Direct and Indirect Effects” — natural direct/indirect effect 도입 - Robins & Richardson (2010) “Alternative Graphical Causal Models and the Identification of Direct Effects” — FFRCISTG 하 sharp bounds - VanderWeele (2015) “Explanation in Causal Inference: Methods for Mediation and Interaction” — 매개 분석 실무 교과서