Kwangmin Kim - 시간변동 처치

1 개요

Part I, II 의 모든 분석은 time-fixed treatment — 처치가 한 시점에 결정됨. NHEFS 의 흡연 중단도 1971-75 baseline 흡연자가 1982 까지 한 번 결정 (이항).

Part III 는 time-varying treatment — 매 시점마다 처치 결정 변경 가능: - HIV 코호트의 항레트로바이러스 약물 (월별 처방 변경). - 종양학의 항암제 sequential 투여. - 마케팅의 사용자별 캠페인 노출 history. - 만성 질환 관리의 약물 dose adjustment.

이 영역은 Hernan 의 책에서 가장 어려운 부분 — 이론적 깊이 + 실무 복잡성 의 결합. Robins (1986) 의 g-method 는 이 영역을 위해 개발됐다.

직관 — Time-Varying 의 본질적 도전: 매 시점 처치 결정이 과거의 결과 와 과거 처치 모두에 의존. 단일 시점 도구를 그대로 적용 불가능 — 새 frame 필요. 이것이 Robins 의 1986 년 g-formula 가 큰 기여인 이유.

정의: 시간변동 처치

시점 \(k = 0, 1, \ldots, K\) 에서 처치 \(A_k\) 가 변동. 처치 history:

\[\bar{A}_k = (A_0, A_1, \ldots, A_k)\]

전체 history \(\bar{A} = \bar{A}_K\). 가능한 history 의 수는 \(2^{K+1}\) (이항 처치) — 폭발적.

직관 — \(2^K\) 의 폭발: \(K=10\) 시점에서 처치 history \(2^{11} = 2048\) 가지. NHEFS 같은 \(K=120\) 이면 \(2^{121}\) — 사실상 무한. 모든 history 의 비교 불가능, 전략 (strategy) 으로 좁혀야 함.

2 6 개 소챕터의 흐름

소챕터	핵심 질문	답
19.1	시간변동 처치의 인과 효과는?	\(\bar{a}\) vs \(\bar{a}'\) 두 history 의 결과 비교
19.2	어떻게 단순화?	처치 전략 (strategy) 으로 추상화
19.3	외생적 처치 환경은?	Sequentially randomized experiment
19.4	식별 가정은?	Sequential exchangeability
19.5	항상 식별 가능?	일부 전략에서만 — DAG 분석 필요
19.6	시간변동 confounder 란?	\(L_k\) 가 처치-결과 모두에 영향

3 핵심 개념 5 가지

3.1 1. 처치 효과의 정의 — 두 전략 비교 (19.1)

정의: 시간변동 인과 효과

전체 처치 history \(\bar{a}\) 와 \(\bar{a}'\) 의 두 잠재 결과 차이:

\[\mathrm{E}[Y^{\bar{a}}] - \mathrm{E}[Y^{\bar{a}'}]\]

예 — HIV 코호트의 60 개월 추적: - \(\bar{a} = \bar{1} = (1, 1, \ldots, 1)\): 모든 시점 항레트로바이러스 약물 처방. - \(\bar{a}' = \bar{0} = (0, 0, \ldots, 0)\): 절대 처방 안 함. - ATE = \(\mathrm{E}[Y^{\bar{1}}] - \mathrm{E}[Y^{\bar{0}}]\).

직관 — 무한한 가능성: \(2^{60}\) 개의 처치 history 중 어느 두 개를 비교할지가 연구 질문 정의. “Always treat” vs “Never treat” 이 표준이지만, “Treat only after CD4 < 200” 같은 더 미묘한 전략도 가능.

직관 — 단일 시점 처치의 자연 일반화: 단일 시점 ATE = \(\mathrm{E}[Y^{a=1}] - \mathrm{E}[Y^{a=0}]\). 시간변동 ATE = 두 전체 history 의 결과 차이. 본질적으로 같은 형식, 차원만 폭발.

3.2 2. 처치 전략의 분류 (19.2)

처치 전략 (Treatment Strategy) 분류

Static: \(\bar{a}\) 가 사전에 고정. \(L_k\) 의 변화에 무관. - 예: “Always treat”, “Never treat”, “Treat every other month”.

Dynamic: 각 시점 처치가 시간변동 covariate \(\bar{L}_k\) 의 함수. - 예: “Treat when CD4 < 200 cells/μL”. - 표기: \(g_k(\bar{a}_{k-1}, \bar{l}_k)\).

Deterministic: 주어진 history 에서 처치 결정 유일.

Random: 주어진 history 에서 처치 확률 만 결정 (예: “30% 확률로 처치”).

직단 — 의학에서 dynamic 의 자연성: 의사가 환자 상태에 따라 약물 변경 — 본질적으로 dynamic strategy. “CD4 < 200 시 약물 시작” 은 임상 가이드라인의 표준 형식. Static strategy 는 이론적, dynamic 이 실무 표준.

직관 — Static 이 더 어려운 이유: 직관과 반대로 static (“모두 같은 처치”) 이 분석에 더 어려움. 환자의 baseline 외 변수 와 무관하게 처치 — 일부 환자에게는 부적절. Dynamic 은 환자 상태에 맞추므로 임상적으로 자연스럽고 식별도 가능.

직관 — Optimal Strategy: \(\mathrm{E}[Y^g]\) 가 최대인 전략. 임상에서 이상적 — 하지만 사전에 알 수 없음. 무작위 실험으로 후보 전략 비교 → optimal 식별.

3.3 3. Sequentially Randomized Experiment (19.3)

정의: Sequentially Randomized Experiment

매 시점 \(k\) 에 처치 \(A_k\) 가 현재까지 history \((\bar{A}_{k-1}, \bar{L}_k)\) 의 함수로 무작위 배정.

Figure 19.1: 처치가 과거 처치만 의존 — non-confounded for static strategy.

Figure 19.2: 처치가 과거 처치 + 측정된 covariate 의존 — non-confounded for any strategy.

Figure 19.3: 처치가 미관측 변수에도 의존 — 미관측 confounding 존재, 식별 불가능.

직관 — 시간변동의 RCT 일반화: 단일 시점 RCT 의 처치 무작위 배정 → 모든 시점에서 무작위 배정. 매 시점 baseline 정보가 누적되어 의사가 그에 따라 무작위 처치 결정. 이상적 환경에서는 측정된 history 에 따른 무작위 → confounding 없음.

직관 — 관찰 연구의 도전: 실제 코호트는 sequentially randomized 가 아님. 의사가 환자 상태 보고 비-무작위 처치 결정. 만약 미관측 환자 상태 (\(U\)) 도 처치 결정에 영향이면 미관측 confounding → Figure 19.3 → 식별 불가능. DAG 분석으로 어느 시나리오인지 판단.

3.4 4. Sequential Exchangeability (19.4)

정의: Sequential Conditional Exchangeability

각 시점 \(k\) 에 대해

\[Y^g \perp\!\!\!\perp A_k \mid \bar{A}_{k-1} = g(\bar{A}_{k-2}, \bar{L}_{k-1}), \bar{L}_k\]

= “전략 \(g\) 의 잠재 결과가 시점 \(k\) 의 처치와 과거 history 조건부 독립.”

매 시점 conditional exchangeability 의 누적. 모든 시점 만족해야 valid.

Sequentially randomized experiment 가 자동 보장 (정의에 의해). 관찰 연구: 측정된 \(\bar{L}_k\) 가 모든 confounder 포함 가정 (검증 불가).

직관 — 누적된 가정의 위험: 시점 1 에 confounder 빠뜨림 → 추정 편향. 시점 2 에 빠뜨림 → 또 편향. 시점 60 까지 누적 → 작은 위반도 전체 추정에 큰 영향. 모든 시점에서 confounder 식별 + 측정 의 강한 가정.

직관 — Static vs Dynamic Strategy 의 식별 가능성 차이: Figure 19.1 (no covariate-based assignment) 에서 static strategy 의 ATE 는 단순 평균으로 식별. Dynamic strategy 의 ATE 는 g-method 필요. Static 이 약한 가정으로 식별 가능, dynamic 은 강한 가정 필요.

3.5 5. Time-Varying Confounder (19.6)

정의: Time-Varying Confounder

시점 \(k\) 의 covariate \(L_k\) 가: 1. 시점 \(k\) 의 처치 \(A_k\) 결정에 영향 (의사가 보고 결정). 2. 미래 결과 \(Y\) 에 영향. 3. 처치 history \(\bar{A}_{k-1}\) 에 영향 받음 (이전 처치의 결과).

→ 시간변동 confounder. 단일 시점 confounder 와 결정적 차이는 (3) — 처치-confounder feedback.

직관 — 단일 시점 confounder vs 시간변동의 차이: 단일 시점은 confounder 가 처치 전. 시간 변동은 시점 \(k\) 의 confounder \(L_k\) 가 시점 \(k-1\) 의 처치 \(A_{k-1}\) 의 결과 일 수도. 처치 와 confounder 의 순환적 의존.

직관 — 단순 조절 불가능 (Ch.20 미리보기): Time-varying confounder 를 “regress out” 해서 보정하면 매개자 over-adjustment. 보정 안 하면 confounding. 둘 다 편향 — 표준 회귀로 풀 수 없음. g-method (특히 g-formula, IPW MSM, g-estimation) 의 도입 동기.

4 NHEFS 사례에 시간변동 적용 가능성

NHEFS 의 시간변동 가능성

NHEFS 데이터의 한계: baseline 변수만 측정 → 시간변동 분석 불가.

만약 NHEFS 가 시간변동 데이터였다면: - 매 월 흡연 행동 (재흡연 시작/중단) 측정. - 매 월 baseline 변수 update (체중, 운동, 식단). - 사망 시점까지 추적.

→ “흡연 중단 history” 의 모든 가능한 전략 비교 가능. 그러나 이런 데이터는 매우 드뭄.

직관 — NHEFS 의 단순화: Ch.12-18 의 NHEFS 분석은 baseline 흡연자 → 1982 까지 금연 여부 의 단일 시점 처치 (이항). 실제 흡연 행동은 시간변동 (재시작 가능) 이지만 데이터 한계로 단순화. Hernan Part III 의 사례 데이터는 다른 코호트 (구체적이지 않음, 일반 framework 설명 위주).

5 시간변동 처치 분석의 어려움 — 6 가지

Part III 의 본질적 도전

차원 폭발: \(K\) 시점에서 \(2^K\) history → 직접 비교 불가능.
시간변동 confounder: 단순 회귀 보정 시 매개자 효과 차단 또는 confounding.
Sequential exchangeability: 매 시점 가정 누적 → 강한 가정.
Censoring 의 시간변동: dropout 이 매 시점 일어남 → 시간변동 IPW 필요.
모형 specification: 각 시점의 처치 모형 + 결과 모형 = 모형 수 폭발.
계산 비용: g-formula 의 Monte Carlo 시뮬레이션, IPW 의 누적 가중치, g-estimation 의 복잡한 추정.

→ 표준 도구 (회귀, t-test) 로는 풀 수 없는 문제 — Robins 의 g-method 가 이 영역을 위해 개발.

직관 — Part III 의 도구가 g-method 인 이유: g-formula 는 시간변동 confounder 의 분포를 명시적 모형링. IPW MSM 은 시간변동 가중치의 곱으로 처리. G-estimation 은 SNMM 의 nested 구조로 시간변동 표현. 세 도구 모두 시간변동 을 일급 시민으로 취급.

직관 — Hernan 의 Part III 메시지: “단순 도구로 시간변동 처치 분석 시도 = 편향.” 표준 회귀, Cox 모형, time-varying covariate 회귀 등은 모두 잘못된 결과. g-method 만이 일관성.

6 학제 간 응용

분야	시간변동 처치 사례
HIV/AIDS	항레트로바이러스 약물 dose adjustment
종양학	항암제 sequential 투여 + dose modification
만성 질환	당뇨·고혈압 약물 dose 조절
정신과	SSRI 약물 변경 + dose titration
직업 노출	화학 물질 노출 누적
라이프스타일	흡연·음주·운동의 시간 변동
정책 평가	정책 강도의 시간 변동 (예: 봉쇄 강도)
마케팅	사용자 캠페인 노출 sequence
교육	학년별 학급 배정 sequence
경제	직장 이동, 결혼·이혼

직관 — 시간변동의 보편성: 거의 모든 현실의 인과 분석이 시간변동. 단일 시점은 단순화. Part III 의 도구가 일반 도구이고 Part I-II 는 특수 사례.

7 후속 글로 이어지는 다리

글	다루는 내용
18-1	19.1 + 19.2 — 처치 효과 정의 + 전략 분류
18-2	19.3 + 19.4 — Sequentially randomized + sequential exchangeability
18-3	19.5 + 19.6 — 일부 전략 식별 + 시간변동 confounder

8 Part III 의 전체 그림

챕터	주제	도구
Ch.19 (이 챕터)	시간변동 처치 개념	DAG, 전략 분류, exchangeability
Ch.20	Treatment-confounder feedback	DAG 의 specific 구조, 전통 회귀 실패
Ch.21	G-methods for time-varying	g-formula, IPW MSM, g-estimation
Ch.22	Target Trial Emulation	관찰 데이터로 RCT 모방
Ch.23	Causal Mediation	직접·간접 효과 분해

직관 — Part III 의 흐름: Ch.19 (개념 frame) → Ch.20 (구체적 어려움 사례) → Ch.21 (해결 도구 3 개) → Ch.22 (실무 응용) → Ch.23 (확장 — mediation). 이론에서 실무로의 진행.

9 코드 미리보기

import pandas as pd
import numpy as np

# 가상 시간변동 데이터 (HIV-like)
np.random.seed(42)
n = 1000   # 환자 수
K = 60     # 시점 수 (월)

# Person-time 데이터 생성
records = []
for i in range(n):
    L = np.random.normal(0, 1)   # baseline CD4
    A_history = []
    for k in range(K):
        # 처치 결정 — covariate 와 과거 처치 의존
        prob_A = 1 / (1 + np.exp(-(0.3 * L - 0.5 * sum(A_history))))
        A = np.random.binomial(1, prob_A)
        A_history.append(A)
        # 다음 시점 covariate update — A 에 영향 받음
        L = 0.8 * L + 0.3 * A + np.random.normal(0, 0.5)
        records.append({"id": i, "k": k, "L": L, "A": A,
                        "A_cumulative": sum(A_history)})

df = pd.DataFrame(records)
df["Y_at_K"] = df.groupby("id")["A_cumulative"].transform("last")   # 단순 결과 변수

print("Person-time 데이터 shape:", df.shape)
print("\n시점별 평균 처치 비율:")
print(df.groupby("k")["A"].mean().head(10))

10 한 줄 요약

Ch.19 는 Part III 의 시작 — 시간변동 처치의 개념 frame. 처치 효과는 두 전체 history 의 잠재 결과 비교. 처치 전략은 static/dynamic + deterministic/random 으로 분류. Sequentially randomized experiment 가 이상적 환경, sequential conditional exchangeability 가 식별 가정. 시간변동 confounder 가 단순 회귀 보정으로 풀 수 없는 본질적 어려움 — g-method 의 도입 동기. \(2^K\) history 폭발, censoring 시간변동, 모형 specification 폭발 등 6 가지 도전. Part III 의 이후 챕터가 이를 해결하는 도구 (Ch.20-23) 를 다룬다.

11 관련 주제

선행 지식

후속 주제

다른 카테고리 연결