Kwangmin Kim - Sequentially Randomized Experiment과 Sequential Exchangeability

1 정의

정의: Sequentially Randomized Experiment

매 시점 \(k\) 에 처치 \(A_k\) 가 현재까지의 history \((\bar{A}_{k-1}, \bar{L}_k)\) 의 함수로 무작위 배정 되는 실험.

\[\Pr(A_k = a_k | \bar{A}_{k-1}, \bar{L}_k, \bar{U}_k) = \Pr(A_k = a_k | \bar{A}_{k-1}, \bar{L}_k)\]

= 미관측 변수 \(\bar{U}_k\) 가 처치 결정에 추가 정보 안 줌.

식별 가능 시나리오: Figure 19.1, 19.2. 식별 불가 시나리오: Figure 19.3 (미관측 confounding).

정의: Sequential Conditional Exchangeability

각 시점 \(k\) 에 대해

\[Y^g \perp\!\!\!\perp A_k \mid \bar{A}_{k-1} = g(\bar{A}_{k-2}, \bar{L}_{k-1}), \bar{L}_k\]

= 전략 \(g\) 의 잠재 결과가 시점 \(k\) 의 처치와 과거 history 조건부 독립.

\(g\) 가 strategy 이고 \(g(\bar{A}_{k-2}, \bar{L}_{k-1})\) 가 그 전략 아래의 처치.

→ 시점별 가정이 모든 시점 누적. 한 시점만 위반해도 전체 추정 편향.

직관 — Sequential 의 강한 가정: 단일 시점 conditional exchangeability 는 한 시점의 가정. Sequential 은 매 시점의 가정 — \(K=60\) 이면 60 개의 가정 모두 동시 성립. 한 시점 약한 위반도 누적되어 큰 편향. Time-varying 의 강한 가정.

2 19.3 Sequentially Randomized Experiment

2.1 3 가지 DAG 시나리오

Hernan 의 3 가지 인과 그래프

Figure 19.1: 처치 \(A_k\) 가 과거 처치만 의존, covariate \(L_k\) 와 무관. - DAG: \(L_k\) 와 \(U_k\) 는 \(A_k\) 에 영향 없음, \(L_k\) 와 \(U_k\) 는 \(Y\) 에 영향. - Static strategy 에서는 confounding 없음 — 단순 평균이 ATE. - Dynamic strategy (e.g., \(L_k\)-기반) 의 ATE 는 g-method 필요.

Figure 19.2: 처치 \(A_k\) 가 과거 처치 + 측정된 covariate \(\bar{L}_k\) 의존. - 미관측 \(U_k\) 는 처치 결정에 영향 없음. - 모든 strategy 의 ATE 가 g-method 로 식별 가능. - 표준 sequentially randomized experiment 의 모형.

Figure 19.3: 처치 \(A_k\) 가 미관측 변수 \(\bar{U}_k\) 도 의존. - 미관측 confounding → 식별 불가능. - 관찰 연구의 위험 시나리오.

직관 — 3 가지 시나리오의 위계: 19.1 (가장 단순) → 19.2 (실용적 RCT) → 19.3 (관찰 연구 위험). 19.1 은 covariate 와 무관한 처치 (예: 항상 50:50 무작위), 19.2 는 의사가 covariate 에 따라 무작위 처치, 19.3 은 의사가 미관측 정보 도 활용. 임상시험은 19.2 가 표준.

직관 — 미관측 변수 \(U_k\) 의 위치: 19.2 에서 \(U_k\) 는 결과 \(Y\) 에는 영향 주지만 처치 결정에 영향 안 줌 (의사가 그 정보 모름). 19.3 에서 의사가 알면서도 무작위 안 함. 두 시나리오의 차이가 sequential exchangeability 의 성립 여부.

2.2 시점별 무작위 배정 메커니즘

NHEFS-like HIV 가상 사례

시점 0 무작위 배정: - 모든 환자에 50:50 무작위 처치 (\(A_0\)).

시점 1 무작위 배정 (sequentially): - 시점 0 처치 + CD4 (\(L_1\)) 에 따라 조건부 무작위: - \(A_0 = 0, L_1 < 200\): 80% 확률로 \(A_1 = 1\). - \(A_0 = 0, L_1 \geq 200\): 40% 확률로 \(A_1 = 1\). - \(A_0 = 1\): 50% 확률로 \(A_1 = 1\).

핵심: 매 시점 무작위 (deterministic 아님), history 따라 다른 확률.

직관 — Sequentially 무작위 의 임상 의미: 의사가 환자 상태 보고 엔지니어링된 무작위 — 일부 정보를 활용하면서도 결정 자체 는 무작위. 미관측 정보는 처치에 영향 안 줌. 이것이 식별 가능성 보장.

2.3 관찰 연구의 도전

관찰 연구가 19.2 vs 19.3 결정의 어려움

같은 데이터로 두 시나리오 구분 불가능 — 도메인 지식만이 판단:

19.2 시나리오 (식별 가능): - 의사가 측정된 covariate 만으로 결정 (전자 기록 protocol). - 모든 처치 결정 요인이 데이터에 기록.

19.3 시나리오 (식별 불가): - 의사가 미기록 정보 (직감, 환자와 면담 인상) 활용. - 환자가 미기록 자기 선택 (proactive 환자 vs passive 환자). - 결정 요인이 데이터에 부분만 기록.

→ 도메인 검토 + sensitivity analysis 만이 실질적 검증 도구.

직관 — 의사의 임상적 직감: 의사가 환자의 비언어적 신호 (피곤한 표정, 대화 톤) 를 활용. 이런 정보는 미기록 → 미관측. 거의 모든 임상 코호트가 부분적으로 19.3 시나리오 — 완벽한 19.2 는 강한 가정.

직관 — Sensitivity 의 우선: 19.2 가정이 깨지면 결과 편향. 그러나 깨진 정도 알 수 없음. E-value 계산, multiple specifications 비교, target trial alignment 가 검토 도구.

3 19.4 Sequential Exchangeability — 자세히

3.1 형식적 정의의 분해

\(K=2\) 시점의 Sequential Exchangeability

시점 0 과 시점 1 의 두 시점에서:

시점 0: \(Y^g \perp\!\!\!\perp A_0 \mid \bar{L}_0 = L_0\).

시점 1: \(Y^g \perp\!\!\!\perp A_1 \mid A_0 = g(L_0), L_0, L_1\).

둘 다 성립: full sequential exchangeability.

→ 시점 0 conditional exchangeability + 시점 1 conditional exchangeability (시점 0 조건 추가).

직관 — 누적의 의미: 시점 0 의 가정이 깨지면 시점 1 의 가정도 거의 깨짐 (시점 0 의 처치 가 시점 1 의 covariate 에 영향). 시점들이 연쇄적으로 의존.

3.2 Static vs Dynamic Strategy 의 식별 가능성

다른 식별 가정 — Static vs Dynamic

Static strategy (\(\bar{a}\) 가 \(\bar{L}_k\) 와 무관): - Sequential exchangeability of \(Y^{\bar{a}}\) 만 필요. - Figure 19.1 에서도 식별 가능 (처치가 covariate 와 무관해도).

Dynamic strategy (\(g\) 가 \(\bar{L}_k\) 의 함수): - Sequential exchangeability of \(Y^g\) 필요. - Figure 19.1 에서는 일부 dynamic strategy 만 식별 가능 (처치 확률이 정확히 0.5 일 때 등). - Figure 19.2 에서 모든 dynamic strategy 식별 가능.

→ Dynamic 이 더 강한 가정 필요.

직관 — Dynamic 의 식별 어려움: \(g\) 가 \(\bar{L}_k\) 함수. 시점 \(k\) 의 covariate 분포가 과거 처치의 결과 — 잠재 결과가 처치 history 에 의해 분포가 변함. 이를 식별하려면 매 시점의 covariate 분포 모형도 필요. 단순 비교 불가능.

직관 — Static 의 단순함: \(\bar{a}\) 가 사전 고정 → 시점 \(k\) 의 covariate 분포가 잠재 결과 에 영향 없음. 비교가 직접적. Always vs Never 같은 simple contrast 가 분석에 더 쉬움.

3.3 Sequentially Randomized Experiment 의 보장

SRE → Sequential Exchangeability

Sequentially randomized experiment (Figure 19.2 모형) 에서는 sequential exchangeability 가 자동 보장. 무작위 배정의 정의에 의해.

따라서 모든 strategy 의 ATE 가 식별 가능.

→ SRE 가 시간변동 인과 분석의 gold standard.

→ 관찰 연구는 SRE 모방 시도, 그러나 sequential exchangeability 검증 불가.

직관 — SRE 의 임상적 한계: SRE 는 매 시점 처치 변경 가능 + 매 시점 무작위. 임상시험 비용 폭발 + 환자 부담. 실제 SRE 는 매우 드물 — HIV 의 SMART 시험 정도. 이론적 표준이지만 실무 표준은 관찰 연구.

직관 — SMART (Sequential Multiple Assignment Randomized Trial): 적응형 임상시험 디자인. 첫 처치 무작위 → 결과 본 후 두 번째 처치 무작위 → … 의 sequence. SRE 의 임상적 구현. 종양학·정신과에서 활용.

4 Positivity 와 Consistency 의 시간변동 일반화

4.1 Positivity (Tech Point 19.2)

정의: Sequential Positivity

각 시점 \(k\) 에 대해, history \((\bar{a}_{k-1}, \bar{l}_k)\) 가 양의 확률로 발생하면

\[f_{A_k | \bar{A}_{k-1}, \bar{L}_k}(a_k | \bar{a}_{k-1}, \bar{l}_k) > 0\]

모든 가능한 \((a_k, \bar{a}_{k-1}, \bar{l}_k)\) 에 대해.

= “어떤 history 에서든, 어떤 처치 받을 확률이 0 또는 1 이 아님.”

SRE: 정의에 의해 자동 보장 (배정 확률이 0/1 사이).

관찰 연구: 임상 가이드라인이 deterministic 인 경우 (예: “CD4 < 50 시 반드시 처치”) 위반.

직관 — Sequential positivity 의 강도: 모든 history 에서 모든 처치 가능. 의학에서 임상 가이드라인이 strict 하면 위반 (예: “위급 상황에서는 무조건 처치”). 임상 protocol 의 rigidity 가 식별 가능성과 trade-off.

직관 — 위반 시 결과: positivity 위반 영역에서 잠재 결과 정의 불가. 분석을 위반 영역 외 로 제한 → 추정 대상이 실질적으로 좁아짐. ATE 가 아닌 “특정 history 의 부분군” 의 효과.

4.2 Consistency (Tech Point 19.2)

정의: Sequential Consistency

처치 잠재 결과: \(\bar{A} = \bar{a}\) 인 환자에 대해 \(Y^{\bar{a}} = Y\).
시간변동 covariate 잠재 결과: \(\bar{A}_{k-1} = \bar{a}_{k-1}\) 이면 \(\bar{L}_k^{\bar{a}} = \bar{L}_k\).
잠재 결과 간 일관성: \(\bar{a}^* = \bar{a}\) 면 \(Y^{\bar{a}^*} = Y^{\bar{a}}\).

→ 단일 시점 일관성의 시간변동 일반화. 처치의 well-definedness 가 모든 시점에서 필요.

직관 — Well-definedness 의 의미: “처치 받음” 의 정의가 매 시점 명확. 의학적 처치는 보통 명확 (특정 약물 복용). 라이프스타일은 모호 (어떤 음식이 “건강식”?). 인과 질문의 출발은 처치의 명확한 정의.

5 Figure 19.4 — 부분 식별의 사례

미관측 변수 \(W_0\) 가 있는 시나리오

DAG: \(W_0 \to A_0\) 와 \(W_0 \to L_1\). \(W_0\) 미관측.

\(W_0\) 가 처치 \(A_0\) 와 covariate \(L_1\) 의 공통 원인.
측정된 covariate \(\bar{L}_0 = L_0\) 만으로 시점 0 conditional exchangeability 부분 성립.
시점 1 conditional exchangeability 는 깨짐 (W_0 가 미관측 confounder).

결과: - Static strategy \(\bar{a}\) 의 ATE: 일부 식별 가능 (W_0 가 결과에 직접 영향 안 주면). - Dynamic strategy (\(L_1\) 기반) 의 ATE: 식별 불가능.

→ 같은 데이터에서 어떤 strategy 는 식별, 다른 strategy 는 불가.

직관 — 식별 가능성의 strategy 별 차이: 같은 DAG 에서도 strategy 종류에 따라 식별 결과 다름. Static 은 단순 (covariate 와 무관) → 부분 식별. Dynamic 은 covariate 의존 → 더 강한 가정 필요. 연구 질문에 따라 식별 가능성이 달라짐.

직관 — SWIG (Single World Intervention Graph): Static 은 단순 SWIG 으로 표현, dynamic 은 covariate-conditional SWIG 필요. SWIG 분석으로 어떤 strategy 가 식별 가능한지 판단. Hernan 의 Ch.19.5 에서 자세히.

6 식별의 3 단계

인과 식별의 위계

Level 1 — 어떤 strategy 인가?: Static 또는 dynamic, deterministic 또는 random.

Level 2 — 어떤 데이터 시나리오?: SRE (Figure 19.1, 19.2), 관찰 (Figure 19.3, 19.4 등).

Level 3 — 어떤 가정?: Sequential exchangeability + positivity + consistency.

→ 세 level 모두 통과해야 ATE 식별 가능.

직관 — 단계적 검토의 중요성: 한 단계라도 깨지면 추정 무의미. 임상 코호트의 ATE 분석 시작 시 이 3 단계를 명시적 검토 → 실패 가능성 사전 인식. Hernan 의 강조: 인과 분석은 분석 전에 식별 검토 가 first step.

7 NHEFS 가 SRE 일까 관찰 연구일까

NHEFS 의 처지

NHEFS 는 관찰 연구. 1971-75 baseline 흡연자가 1982 까지 자발적으로 금연 결정. 무작위 배정 없음.

시나리오 매핑: - Figure 19.2 가정: 9 변수가 모든 confounder 포함. 측정 안 된 변수 (가족력, 정신 건강) 는 처치 결정에 영향 없음. - Figure 19.3 가능성: 미측정 변수가 흡연 중단 결정 + 사망/체중 모두에 영향.

Hernan 의 분석 가정: Figure 19.2. 9 변수로 충분 가정.

Sensitivity: 미관측 confounder 의 영향 정도 정량화 (E-value 등).

NHEFS 는 time-fixed 처치이므로 sequential exchangeability 가 single-point exchangeability 로 단순화. 시간변동 분석 사례 아님.

직관 — NHEFS 의 Part III 한계: NHEFS 는 baseline only 데이터 → 시간변동 분석 불가능. Part III 의 sequential 가정은 NHEFS 에 적용 안 됨. 다만 개념 frame 으로 활용 가능.

8 응용 분야

HIV 코호트 분석: ART 시작 시점의 효과
종양학 SMART: 항암제 sequential 무작위
정신과 적응형 시험: SSRI 변경 protocol
만성 질환 dose titration: 약물 dose 의 시간 변동
A/B 테스트 sequential rollout: 단계별 trial 설계
마케팅 attribution: 사용자별 캠페인 노출 sequence

9 코드 — Sequential Exchangeability 시뮬레이션

import numpy as np
import pandas as pd

# === Figure 19.2 시나리오 시뮬레이션 ===
# 처치가 covariate 의존, 미관측 변수 처치에 영향 안 줌

np.random.seed(42)
n = 1000
K = 3   # 시점 수

records = []
for i in range(n):
    # Baseline
    U = np.random.normal(0, 1)   # 미관측 변수 (Y 에만 영향)
    L = [np.random.normal(0, 1)]   # 측정된 covariate
    A = []
    Y_potential = {}   # 가상 잠재 결과 추적

    for k in range(K):
        # 처치 결정 — 측정된 covariate + 과거 처치 의존 (Figure 19.2)
        if k == 0:
            past_A = 0
        else:
            past_A = A[-1]
        prob_A = 1 / (1 + np.exp(-(0.5 * L[k] + 0.3 * past_A)))
        # 무작위 (Figure 19.2 의 의사 결정)
        A_k = np.random.binomial(1, prob_A)
        A.append(A_k)

        # 다음 시점 covariate — 처치에 영향 받음
        if k < K - 1:
            L_next = 0.7 * L[k] + 0.5 * A_k + np.random.normal(0, 0.5)
            L.append(L_next)

    # 결과 — 처치 history + 미관측 U
    Y = sum(A) * 0.5 + U + np.random.normal(0, 1)

    records.append({
        "id": i, "U": U,
        **{f"L{k}": L[k] for k in range(K)},
        **{f"A{k}": A[k] for k in range(K)},
        "Y": Y
    })

df = pd.DataFrame(records)

# === Sequential Exchangeability 검증 ===
# Y^g 와 A_k 가 conditional 독립인지 (시뮬레이션 데이터에서 가능)

# 관측된 처치 history vs 가상 strategy 의 분포 비교
df_t1 = df[df.A0 == 1]   # 시점 0 처치
df_t0 = df[df.A0 == 0]   # 시점 0 비처치

# Conditional on L0, A0 와 Y 의 연관 (sequential exchangeability)
import statsmodels.formula.api as smf
m1 = smf.ols("Y ~ A0 + L0", data=df).fit()
print(f"시점 0 conditional A0 효과 (보정 후): {m1.params['A0']:.3f}")
print(f"  진짜 효과는 0.5 (시점별)")

# 시점 1 conditional exchangeability
df_history = df.copy()
df_history["A0_L0"] = df_history.A0.astype(str) + "_" + (df_history.L0 > 0).astype(int).astype(str)
# 같은 A0, L0 group 안에서 A1 과 Y^g 의 독립 — 시뮬레이션이라 가능

10 한 줄 요약

Sequentially randomized experiment 는 매 시점 조건부 무작위 처치 — 시간변동 인과 분석의 gold standard. 3 가지 DAG 시나리오 (Figure 19.1-19.3) 가 식별 가능성 결정. Sequential conditional exchangeability 는 매 시점 conditional 독립의 누적 — 시점 누적되어 강한 가정. Static vs dynamic strategy 가 식별 가정의 강도 다름. NHEFS 같은 관찰 연구는 19.2 가정 (모든 confounder 측정) 위에서 작동, 19.3 (미관측 confounding) 시 식별 불가능. Positivity 와 consistency 도 시간변동 일반화 — 매 시점 well-defined 처치 + overlap 보장 필요.

11 관련 주제

선행 지식

후속 주제

다른 카테고리 연결