1 정의
매 시점 \(k\) 에 처치 \(A_k\) 가 현재까지의 history \((\bar{A}_{k-1}, \bar{L}_k)\) 의 함수로 무작위 배정 되는 실험.
\[\Pr(A_k = a_k | \bar{A}_{k-1}, \bar{L}_k, \bar{U}_k) = \Pr(A_k = a_k | \bar{A}_{k-1}, \bar{L}_k)\]
= 미관측 변수 \(\bar{U}_k\) 가 처치 결정에 추가 정보 안 줌.
식별 가능 시나리오: Figure 19.1, 19.2. 식별 불가 시나리오: Figure 19.3 (미관측 confounding).
각 시점 \(k\) 에 대해
\[Y^g \perp\!\!\!\perp A_k \mid \bar{A}_{k-1} = g(\bar{A}_{k-2}, \bar{L}_{k-1}), \bar{L}_k\]
= 전략 \(g\) 의 잠재 결과가 시점 \(k\) 의 처치와 과거 history 조건부 독립.
\(g\) 가 strategy 이고 \(g(\bar{A}_{k-2}, \bar{L}_{k-1})\) 가 그 전략 아래의 처치.
→ 시점별 가정이 모든 시점 누적. 한 시점만 위반해도 전체 추정 편향.
직관 — Sequential 의 강한 가정: 단일 시점 conditional exchangeability 는 한 시점의 가정. Sequential 은 매 시점의 가정 — \(K=60\) 이면 60 개의 가정 모두 동시 성립. 한 시점 약한 위반도 누적되어 큰 편향. Time-varying 의 강한 가정.
2 19.3 Sequentially Randomized Experiment
2.1 3 가지 DAG 시나리오
Figure 19.1: 처치 \(A_k\) 가 과거 처치만 의존, covariate \(L_k\) 와 무관. - DAG: \(L_k\) 와 \(U_k\) 는 \(A_k\) 에 영향 없음, \(L_k\) 와 \(U_k\) 는 \(Y\) 에 영향. - Static strategy 에서는 confounding 없음 — 단순 평균이 ATE. - Dynamic strategy (e.g., \(L_k\)-기반) 의 ATE 는 g-method 필요.
Figure 19.2: 처치 \(A_k\) 가 과거 처치 + 측정된 covariate \(\bar{L}_k\) 의존. - 미관측 \(U_k\) 는 처치 결정에 영향 없음. - 모든 strategy 의 ATE 가 g-method 로 식별 가능. - 표준 sequentially randomized experiment 의 모형.
Figure 19.3: 처치 \(A_k\) 가 미관측 변수 \(\bar{U}_k\) 도 의존. - 미관측 confounding → 식별 불가능. - 관찰 연구의 위험 시나리오.
직관 — 3 가지 시나리오의 위계: 19.1 (가장 단순) → 19.2 (실용적 RCT) → 19.3 (관찰 연구 위험). 19.1 은 covariate 와 무관한 처치 (예: 항상 50:50 무작위), 19.2 는 의사가 covariate 에 따라 무작위 처치, 19.3 은 의사가 미관측 정보 도 활용. 임상시험은 19.2 가 표준.
직관 — 미관측 변수 \(U_k\) 의 위치: 19.2 에서 \(U_k\) 는 결과 \(Y\) 에는 영향 주지만 처치 결정에 영향 안 줌 (의사가 그 정보 모름). 19.3 에서 의사가 알면서도 무작위 안 함. 두 시나리오의 차이가 sequential exchangeability 의 성립 여부.
2.2 시점별 무작위 배정 메커니즘
시점 0 무작위 배정: - 모든 환자에 50:50 무작위 처치 (\(A_0\)).
시점 1 무작위 배정 (sequentially): - 시점 0 처치 + CD4 (\(L_1\)) 에 따라 조건부 무작위: - \(A_0 = 0, L_1 < 200\): 80% 확률로 \(A_1 = 1\). - \(A_0 = 0, L_1 \geq 200\): 40% 확률로 \(A_1 = 1\). - \(A_0 = 1\): 50% 확률로 \(A_1 = 1\).
핵심: 매 시점 무작위 (deterministic 아님), history 따라 다른 확률.
직관 — Sequentially 무작위 의 임상 의미: 의사가 환자 상태 보고 엔지니어링된 무작위 — 일부 정보를 활용하면서도 결정 자체 는 무작위. 미관측 정보는 처치에 영향 안 줌. 이것이 식별 가능성 보장.
2.3 관찰 연구의 도전
같은 데이터로 두 시나리오 구분 불가능 — 도메인 지식만이 판단:
19.2 시나리오 (식별 가능): - 의사가 측정된 covariate 만으로 결정 (전자 기록 protocol). - 모든 처치 결정 요인이 데이터에 기록.
19.3 시나리오 (식별 불가): - 의사가 미기록 정보 (직감, 환자와 면담 인상) 활용. - 환자가 미기록 자기 선택 (proactive 환자 vs passive 환자). - 결정 요인이 데이터에 부분만 기록.
→ 도메인 검토 + sensitivity analysis 만이 실질적 검증 도구.
직관 — 의사의 임상적 직감: 의사가 환자의 비언어적 신호 (피곤한 표정, 대화 톤) 를 활용. 이런 정보는 미기록 → 미관측. 거의 모든 임상 코호트가 부분적으로 19.3 시나리오 — 완벽한 19.2 는 강한 가정.
직관 — Sensitivity 의 우선: 19.2 가정이 깨지면 결과 편향. 그러나 깨진 정도 알 수 없음. E-value 계산, multiple specifications 비교, target trial alignment 가 검토 도구.
3 19.4 Sequential Exchangeability — 자세히
3.1 형식적 정의의 분해
시점 0 과 시점 1 의 두 시점에서:
시점 0: \(Y^g \perp\!\!\!\perp A_0 \mid \bar{L}_0 = L_0\).
시점 1: \(Y^g \perp\!\!\!\perp A_1 \mid A_0 = g(L_0), L_0, L_1\).
둘 다 성립: full sequential exchangeability.
→ 시점 0 conditional exchangeability + 시점 1 conditional exchangeability (시점 0 조건 추가).
직관 — 누적의 의미: 시점 0 의 가정이 깨지면 시점 1 의 가정도 거의 깨짐 (시점 0 의 처치 가 시점 1 의 covariate 에 영향). 시점들이 연쇄적으로 의존.
3.2 Static vs Dynamic Strategy 의 식별 가능성
Static strategy (\(\bar{a}\) 가 \(\bar{L}_k\) 와 무관): - Sequential exchangeability of \(Y^{\bar{a}}\) 만 필요. - Figure 19.1 에서도 식별 가능 (처치가 covariate 와 무관해도).
Dynamic strategy (\(g\) 가 \(\bar{L}_k\) 의 함수): - Sequential exchangeability of \(Y^g\) 필요. - Figure 19.1 에서는 일부 dynamic strategy 만 식별 가능 (처치 확률이 정확히 0.5 일 때 등). - Figure 19.2 에서 모든 dynamic strategy 식별 가능.
→ Dynamic 이 더 강한 가정 필요.
직관 — Dynamic 의 식별 어려움: \(g\) 가 \(\bar{L}_k\) 함수. 시점 \(k\) 의 covariate 분포가 과거 처치의 결과 — 잠재 결과가 처치 history 에 의해 분포가 변함. 이를 식별하려면 매 시점의 covariate 분포 모형도 필요. 단순 비교 불가능.
직관 — Static 의 단순함: \(\bar{a}\) 가 사전 고정 → 시점 \(k\) 의 covariate 분포가 잠재 결과 에 영향 없음. 비교가 직접적. Always vs Never 같은 simple contrast 가 분석에 더 쉬움.
3.3 Sequentially Randomized Experiment 의 보장
Sequentially randomized experiment (Figure 19.2 모형) 에서는 sequential exchangeability 가 자동 보장. 무작위 배정의 정의에 의해.
따라서 모든 strategy 의 ATE 가 식별 가능.
→ SRE 가 시간변동 인과 분석의 gold standard.
→ 관찰 연구는 SRE 모방 시도, 그러나 sequential exchangeability 검증 불가.
직관 — SRE 의 임상적 한계: SRE 는 매 시점 처치 변경 가능 + 매 시점 무작위. 임상시험 비용 폭발 + 환자 부담. 실제 SRE 는 매우 드물 — HIV 의 SMART 시험 정도. 이론적 표준이지만 실무 표준은 관찰 연구.
직관 — SMART (Sequential Multiple Assignment Randomized Trial): 적응형 임상시험 디자인. 첫 처치 무작위 → 결과 본 후 두 번째 처치 무작위 → … 의 sequence. SRE 의 임상적 구현. 종양학·정신과에서 활용.
4 Positivity 와 Consistency 의 시간변동 일반화
4.1 Positivity (Tech Point 19.2)
각 시점 \(k\) 에 대해, history \((\bar{a}_{k-1}, \bar{l}_k)\) 가 양의 확률로 발생하면
\[f_{A_k | \bar{A}_{k-1}, \bar{L}_k}(a_k | \bar{a}_{k-1}, \bar{l}_k) > 0\]
모든 가능한 \((a_k, \bar{a}_{k-1}, \bar{l}_k)\) 에 대해.
= “어떤 history 에서든, 어떤 처치 받을 확률이 0 또는 1 이 아님.”
SRE: 정의에 의해 자동 보장 (배정 확률이 0/1 사이).
관찰 연구: 임상 가이드라인이 deterministic 인 경우 (예: “CD4 < 50 시 반드시 처치”) 위반.
직관 — Sequential positivity 의 강도: 모든 history 에서 모든 처치 가능. 의학에서 임상 가이드라인이 strict 하면 위반 (예: “위급 상황에서는 무조건 처치”). 임상 protocol 의 rigidity 가 식별 가능성과 trade-off.
직관 — 위반 시 결과: positivity 위반 영역에서 잠재 결과 정의 불가. 분석을 위반 영역 외 로 제한 → 추정 대상이 실질적으로 좁아짐. ATE 가 아닌 “특정 history 의 부분군” 의 효과.
4.2 Consistency (Tech Point 19.2)
처치 잠재 결과: \(\bar{A} = \bar{a}\) 인 환자에 대해 \(Y^{\bar{a}} = Y\).
시간변동 covariate 잠재 결과: \(\bar{A}_{k-1} = \bar{a}_{k-1}\) 이면 \(\bar{L}_k^{\bar{a}} = \bar{L}_k\).
잠재 결과 간 일관성: \(\bar{a}^* = \bar{a}\) 면 \(Y^{\bar{a}^*} = Y^{\bar{a}}\).
→ 단일 시점 일관성의 시간변동 일반화. 처치의 well-definedness 가 모든 시점에서 필요.
직관 — Well-definedness 의 의미: “처치 받음” 의 정의가 매 시점 명확. 의학적 처치는 보통 명확 (특정 약물 복용). 라이프스타일은 모호 (어떤 음식이 “건강식”?). 인과 질문의 출발은 처치의 명확한 정의.
5 Figure 19.4 — 부분 식별의 사례
DAG: \(W_0 \to A_0\) 와 \(W_0 \to L_1\). \(W_0\) 미관측.
- \(W_0\) 가 처치 \(A_0\) 와 covariate \(L_1\) 의 공통 원인.
- 측정된 covariate \(\bar{L}_0 = L_0\) 만으로 시점 0 conditional exchangeability 부분 성립.
- 시점 1 conditional exchangeability 는 깨짐 (W_0 가 미관측 confounder).
결과: - Static strategy \(\bar{a}\) 의 ATE: 일부 식별 가능 (W_0 가 결과에 직접 영향 안 주면). - Dynamic strategy (\(L_1\) 기반) 의 ATE: 식별 불가능.
→ 같은 데이터에서 어떤 strategy 는 식별, 다른 strategy 는 불가.
직관 — 식별 가능성의 strategy 별 차이: 같은 DAG 에서도 strategy 종류에 따라 식별 결과 다름. Static 은 단순 (covariate 와 무관) → 부분 식별. Dynamic 은 covariate 의존 → 더 강한 가정 필요. 연구 질문에 따라 식별 가능성이 달라짐.
직관 — SWIG (Single World Intervention Graph): Static 은 단순 SWIG 으로 표현, dynamic 은 covariate-conditional SWIG 필요. SWIG 분석으로 어떤 strategy 가 식별 가능한지 판단. Hernan 의 Ch.19.5 에서 자세히.
6 식별의 3 단계
Level 1 — 어떤 strategy 인가?: Static 또는 dynamic, deterministic 또는 random.
Level 2 — 어떤 데이터 시나리오?: SRE (Figure 19.1, 19.2), 관찰 (Figure 19.3, 19.4 등).
Level 3 — 어떤 가정?: Sequential exchangeability + positivity + consistency.
→ 세 level 모두 통과해야 ATE 식별 가능.
직관 — 단계적 검토의 중요성: 한 단계라도 깨지면 추정 무의미. 임상 코호트의 ATE 분석 시작 시 이 3 단계를 명시적 검토 → 실패 가능성 사전 인식. Hernan 의 강조: 인과 분석은 분석 전에 식별 검토 가 first step.
7 NHEFS 가 SRE 일까 관찰 연구일까
NHEFS 는 관찰 연구. 1971-75 baseline 흡연자가 1982 까지 자발적으로 금연 결정. 무작위 배정 없음.
시나리오 매핑: - Figure 19.2 가정: 9 변수가 모든 confounder 포함. 측정 안 된 변수 (가족력, 정신 건강) 는 처치 결정에 영향 없음. - Figure 19.3 가능성: 미측정 변수가 흡연 중단 결정 + 사망/체중 모두에 영향.
Hernan 의 분석 가정: Figure 19.2. 9 변수로 충분 가정.
Sensitivity: 미관측 confounder 의 영향 정도 정량화 (E-value 등).
NHEFS 는 time-fixed 처치이므로 sequential exchangeability 가 single-point exchangeability 로 단순화. 시간변동 분석 사례 아님.
직관 — NHEFS 의 Part III 한계: NHEFS 는 baseline only 데이터 → 시간변동 분석 불가능. Part III 의 sequential 가정은 NHEFS 에 적용 안 됨. 다만 개념 frame 으로 활용 가능.
8 응용 분야
- HIV 코호트 분석: ART 시작 시점의 효과
- 종양학 SMART: 항암제 sequential 무작위
- 정신과 적응형 시험: SSRI 변경 protocol
- 만성 질환 dose titration: 약물 dose 의 시간 변동
- A/B 테스트 sequential rollout: 단계별 trial 설계
- 마케팅 attribution: 사용자별 캠페인 노출 sequence
9 코드 — Sequential Exchangeability 시뮬레이션
import numpy as np
import pandas as pd
# === Figure 19.2 시나리오 시뮬레이션 ===
# 처치가 covariate 의존, 미관측 변수 처치에 영향 안 줌
np.random.seed(42)
n = 1000
K = 3 # 시점 수
records = []
for i in range(n):
# Baseline
U = np.random.normal(0, 1) # 미관측 변수 (Y 에만 영향)
L = [np.random.normal(0, 1)] # 측정된 covariate
A = []
Y_potential = {} # 가상 잠재 결과 추적
for k in range(K):
# 처치 결정 — 측정된 covariate + 과거 처치 의존 (Figure 19.2)
if k == 0:
past_A = 0
else:
past_A = A[-1]
prob_A = 1 / (1 + np.exp(-(0.5 * L[k] + 0.3 * past_A)))
# 무작위 (Figure 19.2 의 의사 결정)
A_k = np.random.binomial(1, prob_A)
A.append(A_k)
# 다음 시점 covariate — 처치에 영향 받음
if k < K - 1:
L_next = 0.7 * L[k] + 0.5 * A_k + np.random.normal(0, 0.5)
L.append(L_next)
# 결과 — 처치 history + 미관측 U
Y = sum(A) * 0.5 + U + np.random.normal(0, 1)
records.append({
"id": i, "U": U,
**{f"L{k}": L[k] for k in range(K)},
**{f"A{k}": A[k] for k in range(K)},
"Y": Y
})
df = pd.DataFrame(records)
# === Sequential Exchangeability 검증 ===
# Y^g 와 A_k 가 conditional 독립인지 (시뮬레이션 데이터에서 가능)
# 관측된 처치 history vs 가상 strategy 의 분포 비교
df_t1 = df[df.A0 == 1] # 시점 0 처치
df_t0 = df[df.A0 == 0] # 시점 0 비처치
# Conditional on L0, A0 와 Y 의 연관 (sequential exchangeability)
import statsmodels.formula.api as smf
m1 = smf.ols("Y ~ A0 + L0", data=df).fit()
print(f"시점 0 conditional A0 효과 (보정 후): {m1.params['A0']:.3f}")
print(f" 진짜 효과는 0.5 (시점별)")
# 시점 1 conditional exchangeability
df_history = df.copy()
df_history["A0_L0"] = df_history.A0.astype(str) + "_" + (df_history.L0 > 0).astype(int).astype(str)
# 같은 A0, L0 group 안에서 A1 과 Y^g 의 독립 — 시뮬레이션이라 가능10 한 줄 요약
Sequentially randomized experiment 는 매 시점 조건부 무작위 처치 — 시간변동 인과 분석의 gold standard. 3 가지 DAG 시나리오 (Figure 19.1-19.3) 가 식별 가능성 결정. Sequential conditional exchangeability 는 매 시점 conditional 독립의 누적 — 시점 누적되어 강한 가정. Static vs dynamic strategy 가 식별 가정의 강도 다름. NHEFS 같은 관찰 연구는 19.2 가정 (모든 confounder 측정) 위에서 작동, 19.3 (미관측 confounding) 시 식별 불가능. Positivity 와 consistency 도 시간변동 일반화 — 매 시점 well-defined 처치 + overlap 보장 필요.
11 관련 주제
선행 지식
후속 주제
- 일부 전략 식별 + 시간변동 Confounder — Ch.19.5-19.6
- Treatment-Confounder Feedback — Ch.20
- G-methods Time-Varying — Ch.21
- Target Trial Emulation — Ch.22
다른 카테고리 연결