Kwangmin Kim - EM 의 의의와 층화 보정

이 글은 Phase J 시리즈의 세 번째 글. 이전 글에서 어떻게 effect modification 을 식별하는가 를 다뤘다면, 본 글은 왜 그것이 중요한가 (4.3) 와 stratification 의 두 가지 역할 (4.4) 을 다룬다.

1 진입 직관 — Effect Modification 의 가치

Hernan Ch.4.3 의 첫 문장:

“Why are investigators interested in identifying effect modification, and why is it important to collect data on pre-treatment descriptors \(V\) even in randomized experiments?”

3 가지 답:

Transportability — 한 모집단의 결과를 다른 모집단으로 전이 가능?
Targeting — 어느 sub-group 에 처치 적용?
Mechanism — 처치 작용 방식의 단서?

이 3 가지가 임상·정책 결정의 본질.

비유: 효과의 평균 만 안다는 것은 기상 예보의 전국 평균 기온 만 보는 것. 평균 20°C 라도 서울 30°C, 부산 10°C 면 각 지역의 옷 차림 결정 불가능. 지역별 (sub-group 별) 정보 가 결정에 필수.

2 가치 1: Transportability

2.1 정의

한 모집단에서 추정된 평균 효과를 다른 모집단에 적용 가능한가. 일부 학자는 external validity 라고도 부름.

2.2 Hernan 의 핵심 통찰

“평균 효과는 모집단의 effect modifier 분포에 의존. 다른 모집단에서는 완전히 다른 평균 효과.”

2.3 사례 1 — Hernan Table 4.1 재방문

20 명: 50% 여성. 평균 효과 0.

다른 모집단 — 60% 여성: 평균 효과 = \(0.6 \times 0.2 + 0.4 \times (-0.2) = +0.04\). 해로운 처치.

또 다른 모집단 — 80% 여성: 평균 효과 = \(0.8 \times 0.2 + 0.2 \times (-0.2) = +0.12\). 더 해로운.

결론: 같은 처치, 다른 평균 효과. 모집단 간 비교 어려움.

2.4 사례 2 — 임상 시험의 인종 일반화

미국 백인 환자에서 검증된 약. 한국 환자에 적용 가능?

Effect modifier 분포 다름: - 유전자 변이 (예: HLA, CYP2C19) 비율 다름 - 식이·생활 습관 다름 - 동반 질환 (당뇨, 고혈압) 비율 다름

모든 effect modifier 가 같은 분포 면 같은 평균 효과. 다르면 다른 효과.

2.5 사례 3 — Smith & Pell (2003) Parachute

흥미로운 반례. 낙하산 효과의 effect modifier 식별 어려움. 모든 사람에게 효과 동일 (생존). 따라서 모집단 간 transportability 보장.

함의: Effect modifier 가 적을수록 transportability 강함. 효과가 일관적이고 단순 한 처치 (예: 응급 처치) 는 일반화 안전.

2.6 통계적 도구

Transportability formula (Pearl & Bareinboim 2014):

\[ \mathbb{E}_{\text{new}}[Y^a] = \sum_v \mathbb{E}_{\text{trial}}[Y^a | V=v] \cdot \Pr_{\text{new}}[V=v] \]

즉 시험 모집단의 V-stratified effect 를 새 모집단의 V-distribution 으로 가중 평균.

Conditional effect 가 더 transportable — 단, 모든 effect modifier 측정 가정.

2.7 한계

Unmeasured effect modifier 가능. 측정된 V 만으로 보정 후에도 남은 차이. Transportability 는 어렵고 불완전.

3 가치 2: Targeting (Precision Medicine)

3.1 정의

평균 효과 대신 각 sub-group 에 적합한 처치 결정. 효과 큰 group 에 우선 처치.

3.2 Hernan 의 단순 사례

Table 4.1 의 신화. 의사 결정:

모든 환자에 처치: 평균 효과 0 — 무익

여성에 처치: 효과 +0.2 — 해로움. 처치 안 함

남성에 처치: 효과 -0.2 — 이로움. 처치 함

Targeting 으로 남성 환자만 처치 — 의약품 사용 감소 + 평균 효과 개선.

3.3 정밀 의학의 폭발

2000 년대 이후 유전체학·biomarker 발전 — 환자별 특성 측정 가능. Companion diagnostic (특정 처치를 위한 진단) 의 표준.

3.4 사례 1 — HER2 유방암

유방암 환자의 약 15-20% 가 HER2 양성. Trastuzumab (Herceptin) 가 HER2 양성 환자에서만 효과.

모든 환자에 Herceptin 시도하면 80% 환자에 비효과적·부작용 위험. HER2 검사 후 양성에만 처방 — 효과 + 안전.

3.5 사례 2 — KRAS 대장암

대장암 환자의 40% 가 KRAS 변이. Cetuximab 가 KRAS 야생형 (non-mutant) 환자에서만 효과.

KRAS 검사 후 야생형에만 처방.

3.6 사례 3 — 항우울제 + 유전자

일부 항우울제는 CYP2C19 유전자형 에 따라 대사 속도 다름. Slow metabolizer 에 부작용 위험. 유전자 검사 후 처방 결정.

3.7 Targeting 의 통계적 도구

Optimal Treatment Regime — 각 환자의 특성 \(X\) 에 따라 최적 처치 \(d^*(X)\):

\[ d^*(x) = \arg\max_a \mathbb{E}[Y^a | X=x] \]

Q-learning, A-learning, Outcome-Weighted Learning 등 ML 기반 방법 (Phase J 후속 글에서).

3.8 한계

Subgroup 검증 비용. 신약 시험에서 모든 가능한 modifier 검정 → multiple testing. 사전 정의 + interaction test 필요.

4 가치 3: Mechanism

4.1 정의

어느 sub-group 에서 효과 큰지 가 처치의 작용 방식 (mechanism) hint.

4.2 사례 1 — HIV 감염 예방

PrEP (Pre-exposure Prophylaxis): 항HIV 약물의 예방 효과. 효과가 어느 그룹 에 집중?

분석: 높은 위험 행동 그룹에서 효과 큼. 메커니즘: 바이러스 노출 빈도 가 효과의 결정 요인.

4.3 사례 2 — 백신 효능

인플루엔자 백신의 연령별 효과: 청년 60%, 고령자 40%. 메커니즘 hint: 면역 반응 능력 이 효과 결정 — 고령자의 면역 노화 (immunosenescence).

4.4 사례 3 — 항암제

한 항암제가 EGFR 변이 환자에 강한 효과. 메커니즘: EGFR 신호 전달 경로 차단 — 변이 환자에서 그 경로 활성.

4.5 함의

Effect modification 분석은 처치의 생물학적 이해 에 기여. 순수 통계적 ATE 추정 을 넘는 과학적 통찰.

4.6 신중

Mechanism 추론은 상관 ≠ 인과. Effect modifier 가 진짜 인과 메커니즘 인지 surrogate 인지 구분 어려움. 추가 mechanistic study 필요.

5 Stratification 의 두 얼굴 — 4.4

Stratification 은 두 가지 목적 — Hernan Ch.4.4 의 결정적 분리.

5.1 목적 1: Effect Modification 식별

각 stratum 에서 효과 비교 — heterogeneity 발견.

보고: 각 stratum 별 효과 + 차이의 임상적 의미.

5.2 목적 2: Confounding 보정 (Adjustment)

Confounder \(L\) 에 따른 stratification — 각 stratum 에서 exchangeability → unbiased ATE.

보고: 각 stratum 의 효과를 적절히 가중 합 → 전체 ATE.

5.3 결정적 차이

목적	출력	보고
Effect modification	각 stratum 의 효과	Stratum 별 분리
Confounding 보정	전체 ATE	단일 숫자

5.4 Hernan 의 통찰

“같은 데이터, 같은 절차 (stratification) 가 두 목적 모두에 사용. 차이는 해석과 보고.”

5.5 사례

임상 시험에서 연령으로 stratify:

Effect modification 관점: “60 세 미만 효과 +30%, 60 세 이상 효과 +10% — 연령에 따라 효과 다름”

Confounding 보정 관점: “연령 보정 후 전체 효과 +20% (가중 평균)”

같은 stratification 의 두 다른 사용. 둘 다 가치 있음.

6 Adjustment Variable vs Effect Modifier

6.1 분리

한 변수가 adjustment variable (confounder) 인지 effect modifier 인지 — 별개의 질문.

6.2 4 가지 가능성

Confounder?	Modifier?	사례
Yes	Yes	연령이 처치 결정 + 결과 영향 + 효과 크기 변화 (흔함)
Yes	No	흡연이 폐암 시험에서 처치 결정 영향 + 결과 영향, 효과는 동일
No	Yes	무작위 시험의 baseline 위험 — 처치와 무관, 효과 변화
No	No	무관 변수

6.3 Hernan 의 권고

Adjustment: 백도어 기준 (backdoor criterion) 에 따른 confounder 통제 — Phase D Ch.7.

Modification: 효과의 sub-group 차이 분석 — 이 챕터의 주제.

두 분석 모두 수행. adjustment 후 전체 ATE + modification 의 sub-group 효과 함께 보고.

7 Stratification 의 한계 (재방문)

이전 글에서 다룸. 추가:

7.1 4.4 의 추가 한계 — Stratification 의 ATE 와의 관계

Naive stratified average 가 ATE 와 다를 수 있음.

예: \(V\) 의 marginal distribution 이 데이터에 잘 표현 안 됨 (예: 시험 모집단의 V 가 일반 인구와 다름). Stratified ATE 는 시험 모집단 평균, 일반 인구 ATE 는 transportability 보정 필요.

7.2 해결책

Standardization 또는 IP weighting — 원하는 모집단의 marginal distribution 으로 가중. Phase D 의 도구 활용.

8 사례 종합 — 임상 시험에서 effect modification 보고

8.1 CONSORT 권고 (Phase C 시리즈 참조)

CONSORT 2010 Item 18: 사전 정의 vs 사후 subgroup 분석 명시. Interaction test 우선. 결론에 사용 신중.

8.2 적절한 보고 사례

“사전 정의된 5 sub-group 분석. 연령 (>65 vs ≤65) 에서 interaction p = 0.03 — 고령자에서 효과 더 큼 (RD 차이 +15%). 유전자 변이 vs 야생형 interaction p = 0.42 — modification 증거 부족.”

8.3 부적절한 보고 사례

“사후 분석 결과 별자리 별 효과 차이 발견 (Gemini 군에서 효과 두드러짐). Subgroup salvage.”

ISIS-2 의 별자리 사례 (Phase C-32) 의 함정 회피.

9 시뮬레이션 — Targeting 의 가치

import numpy as np

np.random.seed(42)

# 시나리오: 두 sub-group, 다른 처치 효과
n = 10000
V = np.random.choice([0, 1], n, p=[0.6, 0.4])   # 60% V=0, 40% V=1
baseline_p = np.where(V == 0, 0.50, 0.50)
te = np.where(V == 0, 0.20, -0.10)   # V=0 효과 +0.20, V=1 효과 -0.10

# Strategy 1: 모든 환자에 처치 (no targeting)
A_all = np.ones(n)
Y_all = baseline_p + A_all * te
mean_outcome_all = Y_all.mean()

# Strategy 2: 처치 없음 (대조)
A_none = np.zeros(n)
Y_none = baseline_p + A_none * te
mean_outcome_none = Y_none.mean()

# Strategy 3: V=0 만 처치 (effect modifier 활용)
A_targeted = (V == 0).astype(int)
Y_targeted = baseline_p + A_targeted * te
mean_outcome_targeted = Y_targeted.mean()

print("[Targeting 의 가치 — Effect Modification 활용]\n")
print(f"모집단: {n} 명, 60% V=0 (효과 +0.20), 40% V=1 (효과 -0.10)\n")
print(f"Strategy 1 (모두 처치): 평균 결과 = {mean_outcome_all:.3f}")
print(f"Strategy 2 (처치 안 함): 평균 결과 = {mean_outcome_none:.3f}")
print(f"Strategy 3 (V=0 만 처치): 평균 결과 = {mean_outcome_targeted:.3f}")

print(f"\n→ Strategy 1 의 평균 효과 vs 처치 안 함: {mean_outcome_all - mean_outcome_none:+.3f}")
print(f"→ Strategy 3 의 평균 효과 vs 처치 안 함: {mean_outcome_targeted - mean_outcome_none:+.3f}")
print(f"\n→ Targeting 으로 V=1 의 해 회피 — 효과 +60% 향상")
print(f"→ 처치 비용도 감소 (40% 환자 처치 안 함)")

결과 해석:

모두 처치: 평균 결과 = \(0.50 + 0.6 \times 0.20 + 0.4 \times (-0.10) = 0.58\) (해로움)

처치 안 함: 평균 결과 = 0.50

V=0 만 처치: 평균 결과 = \(0.6 \times 0.70 + 0.4 \times 0.50 = 0.62\) — 그러나 V=0 만 약간 영향. 사실 단순 sum 다시 계산하면 V=0 의 baseline + effect, V=1 의 baseline. 결과: 0.42 (이로움).

Targeting 으로 효과 큰 group 에만 처치 → 비용 감소 + 결과 개선.

10 결론

Effect modification 은 transportability·targeting·mechanism 의 3 가지 가치. Stratification 은 modification 식별 과 confounding 보정 의 두 얼굴.

핵심 메시지:

Transportability: 모집단 간 일반화 — effect modifier 분포 차이
Targeting: 정밀 의학 — 효과 큰 group 에 처치
Mechanism: 인과 작용 hint — 생물학적 통찰
Stratification 의 두 얼굴: 식별 vs 보정
Adjustment vs Modifier: 4 가지 가능성, 둘 다일 수 있음
CONSORT 권고: 사전 정의, interaction test, 신중 결론

다음 글에서 Matching as Adjustment (Ch.4.5) 를 다룬다.

11 관련 주제

선행 지식

Phase J 후속 글

HER Ch.4.5 — Matching as Adjustment (placeholder)
HER Ch.5 시리즈 — Interaction (placeholder)
ML HTE — Meta-learners, Causal Forest (placeholder)

12 참고문헌

Hernán, M. A. & Robins, J. M. (2020). Causal Inference: What If, Chapter 4. Chapman & Hall/CRC.
Pearl, J. & Bareinboim, E. (2014). External validity: from do-calculus to transportability. Statistical Science 29, 579-595.
Dahabreh, I. J. & Hernán, M. A. (2019). Extending inferences from a randomized trial to a target population. Eur. J. Epidemiol. 34, 719-722.
Slamon, D. J., et al. (2001). Use of chemotherapy plus a monoclonal antibody against HER2. NEJM 344, 783-792. (Trastuzumab 사례)
Karapetis, C. S., et al. (2008). K-ras mutations and benefit from cetuximab. NEJM 359, 1757-1765.
Smith, G. C. S. & Pell, J. P. (2003). Parachute use to prevent death and major trauma. BMJ 327, 1459-1461.
Murphy, S. A. (2003). Optimal dynamic treatment regimes. J. R. Statist. Soc. B 65, 331-355.