Kwangmin Kim - 과거 처치 보정의 필요성과 Mismeasurement 위험

1 정의

정의: 시간변동 분석의 과거 처치 보정

Sequential exchangeability 의 정확한 형식:

\[Y^g \perp\!\!\!\perp A_k \mid \bar{A}_{k-1}, \bar{L}_k\]

= “시점 \(k\) 의 처치 결정과 잠재 결과의 conditional 독립 — 과거 처치 + covariate 모두 보정”.

→ 과거 처치 \(\bar{A}_{k-1}\) 가 항상 보정 변수.

Why: TC feedback DAG 에서 \(A_{k-1}\) 이 backdoor path 의 일부일 수 있음.

정의: New-User Design

단일 시점 처치 분석의 표준 절차: - 분석을 처치 무경험 환자로 제한. - 즉 \(A_0 = 0\) 인 환자의 \(A_1\) 효과 추정.

→ 과거 처치 보정 필요 없음 — 모든 환자 baseline \(A_0=0\).

→ 분석 모집단 좁아짐 (처치 경험자 제외) 의 trade-off.

직관 — New-user design 의 단순화: 단일 시점 처치 분석에서 과거 처치 보정 어렵다 (mismeasurement, 미관측 등). 분석 대상을 처치 무경험 으로 제한하면 보정 불필요. 임상 코호트 분석의 표준 도구. 그러나 처치 경험자 인구의 효과 분석 불가능.

2 20.5 과거 처치 보정의 필요성

2.1 Figure 20.8-20.10 — 과거 처치의 역할

Figure 20.8: \(A_0 \to A_1\) 직접 화살표

A_0 → L_1 → A_1
   ↘   ↘   ↗
       Y   ↘
                Y
                ↑
                U_1

추가 화살표: \(A_0 \to A_1\) — 의사가 과거 처치 보고 다음 처치 결정.

이전 Figure 20.3 보다 더 일반적 시나리오. 임상에서 의사가 처치 history 활용하는 자연스러운 형태.

Sequential exchangeability: \(A_1\) 의 backdoor path 가 \(A_1 \leftarrow A_0\) 를 통과 — \(A_0\) 보정 필수.

직관 — 의사의 처방 결정: “이전에 ART 받았던 환자 → 다음에도 받을 가능성 큼” — clinical inertia. 의사가 처치 history 를 명시적 활용. Figure 20.8 이 임상 의학의 자연 형태.

Figure 20.10: \(A_0 \to Y\) 직접 효과

A_0 → L_1 → A_1 → Y
   ↘            ↗
       (A_0의 직접 효과)
                ↑
                U_1

\(A_0\) 가 \(L_1\) 외에도 \(Y\) 에 직접 영향 (예: ART 의 만성 부작용).

→ \(A_0\) 가 \(A_1\) 의 효과 추정에서 confounder. - \(A_1\) 분석 시 \(A_0\) 보정 안 하면 confounding bias. - 단순 회귀 \(\mathrm{E}[Y | A_1]\) 는 \(A_0\) 미보정으로 잘못된 결과.

→ 시간변동 처치 분석에서 과거 처치는 항상 confounder 가능성.

직관 — 만성 약물의 직접 효과: ART 같은 약물이 만성 부작용 (간 손상, 신장 영향) 가질 수 있음. 과거 ART 가 미래 결과에 직접 영향. 이런 경우 과거 처치 필수 보정.

직관 — Sequential exchangeability 의 conditioning: Ch.19 의 정의 \(Y^g \perp\!\!\!\perp A_k | \bar{A}_{k-1}, \bar{L}_k\) 가 항상 과거 처치 포함. 시간변동 분석의 무조건 적용 사항.

2.2 Backdoor Path 의 분석

\(A_1\) 의 Backdoor Path

Figure 20.8 에서 \(A_1\) → \(Y\) 의 backdoor: - \(A_1 \leftarrow A_0 \to Y\) (직접 효과 있다면). - \(A_1 \leftarrow A_0 \to L_1 \leftarrow U_1 \to Y\) (\(L_1\) 보정 시 활성화). - \(A_1 \leftarrow L_1 \leftarrow U_1 \to Y\) (단순 confounding).

\(L_1\) 만 보정: - 두 번째 path 활성화 (collider). - 첫 번째 path 미차단 (\(A_0\) 미보정). - 세 번째 path 차단. - → 결과적으로 복합 편향.

\(L_1 + A_0\) 모두 보정: - 두 번째 path 차단 (\(A_0\) 보정으로). - 첫 번째 path 차단. - 세 번째 path 차단. - → 모든 backdoor 차단 (sequential exchangeability).

직관 — 동시 보정의 필요성: \(L_1\) 만, \(A_0\) 만 보정으로는 일부 path 만 차단. 둘 다 동시 보정 만이 모든 backdoor 차단. 시간변동 분석의 정확한 보정 변수 집합.

직관 — Sequential exchangeability 의 강도: 매 시점 모든 이전 처치 + 모든 covariate 보정. 시점 \(k=60\) 이면 60 처치 + 60×p covariate 모두 보정. 차원 폭발 — g-method 의 또 다른 도전.

3 New-User Design 의 의미

3.1 단일 시점 분석에서의 New-User Design

정의: New-User Cohort

분석을 처치 무경험 환자로 제한.

전형적 사례: - “지난 1 년간 약 A 복용 안 한 환자만” 분석. - “암 진단 후 처음 항암제 받는 환자만” 분석.

장점: - 과거 처치 보정 불필요 (모두 baseline \(A_{-1} = 0\)). - 측정 오차 위험 감소. - 임상적 의미 명확 (“처치 시작” 효과).

단점: - 분석 모집단 좁아짐. - 처치 경험자 인구 효과 추정 불가. - External validity 약화.

직관 — Restrict 의 trade-off: 분석을 깨끗하게 하지만 일반화 제한. NHEFS 의 예: “1971-75 흡연자” 만 분석 (1971 까지 비흡연자 제외) — 비슷한 design. Internal validity 와 generalizability 의 trade-off.

직관 — Time-varying 분석에서 new-user 가 한 시점만 해결: 시점 0 의 baseline \(A_{-1}=0\) 만 만족. 시점 1 부터는 다시 처치 history 누적 — full 시간변동 분석은 여전히 어려움.

3.2 Time-Varying 분석에서 New-User Design 부적절

시간변동에서 new-user 의 한계

새 사용자만 분석해도: - 시점 0: baseline \(A_{-1} = 0\) — OK. - 시점 1: 일부 환자 \(A_0=1\), 일부 \(A_0=0\) — 처치 history 누적. - 시점 2: 더 다양한 history. - …

→ 시간변동 분석은 처음부터 시간변동 도구 (g-method) 필요.

New-user design 은 시간변동의 단순화 (단일 시점) 으로 회피한 형태.

직관 — 진짜 시간변동 분석의 어려움: 단일 시점 회피 (new-user) 가 가능한 임상 질문도 있고, 진짜 시간변동 (sequential dose adjustment) 는 회피 불가능. g-method 의 영역이 진짜 시간변동 임상 질문.

4 Mismeasurement 의 새 위험

4.1 단일 시점 vs 시간변동의 mismeasurement

Mismeasurement 의 두 시나리오

단일 시점 처치: - 처치 측정 오차 (예: 자기 보고 흡연) → 결과 null 방향 으로 편향 (attenuation). - Bias toward null — 진짜 효과의 과소 추정.

시간변동 처치: - 과거 처치 mismeasurement → 보정 불완전. - Bias under null 가능 — 진짜 효과 0 인데도 비영 추정. - Bias under alternative — 효과 과대 추정 가능.

Robins (1987): 단일 시점에 mismeasurement 가 attenuation 만 만든다는 대중 믿음 이 시간변동 에서 깨짐.

직관 — 시간변동의 새 함정: 단일 시점 분석가의 직관 (“측정 오차는 효과를 약화”) 이 시간 변동에서 위험. 측정 오차가 처치 효과를 과대* 추정* 만들 수 있음. 임상 결정에 반대 방향 영향.

4.2 Mismeasurement 의 메커니즘

시간변동 처치 mismeasurement 의 DAG

Figure 20.8 + mismeasured \(A_0^*\):

A_0 → L_1 → A_1 → Y
↓     ↘   ↗
A_0*       ↘
            U_1 → Y

\(A_0\) 의 측정값 \(A_0^*\): - \(A_0\) 의 imperfect 표현 (e.g., self-report). - \(A_0^*\) 보정 만으로는 backdoor path 미차단. - \(A_1 \leftarrow A_0 \to Y\) 의 path 가 부분만 보정 → 잔여 편향.

진짜 \(A_0\) 보정 시: 모든 backdoor 차단. \(A_0^*\) 보정 시: 부분 차단 → 편향.

직관 — Imperfect 보정의 위험: \(A_0\) 와 \(A_0^*\) 의 상관이 클수록 (예: 0.9) 편향 작음. 작을수록 편향 큼. 그러나 완전 제거 불가능. Mismeasurement 가 시간변동 분석에 추가 위험 부담.

직관 — Independent random mismeasurement 의 위험: 단일 시점에서는 random mismeasurement 가 attenuation 만. 시간변동에서는 bias under null 가능 (Robins 1987). 분석가의 직관 위배.

5 NHEFS 같은 Single Time Point 데이터의 한계

NHEFS 가 시간변동 분석 안 되는 이유

NHEFS 는 baseline only 데이터: - 1971-75 baseline 변수 측정. - 1982 outcome. - 사이의 시간변동 데이터 없음.

→ Single time-point treatment (\(A\) = 1971-82 사이 금연 여부).

→ Sequential exchangeability 가 single conditional exchangeability 로 단순화.

→ Part III 도구 (g-formula, IPW MSM, g-estimation) 의 진가는 시간변동 데이터 에서.

직관 — 진짜 시간변동 데이터의 드뭄: HIV cohort (CASCADE), 종양학 SMART trial 같은 데이터. 매 월 또는 매 방문 시 처치 + covariate + outcome 모두 측정. 매우 비용 큼. Hernan 의 가상 데이터 사용 이유 — 진짜 시간변동 데이터는 분석에 적합한 것이 드뭄.

6 분석 도구의 종합

시간변동 처치 분석의 결론 (Ch.19-20 요약)

결론 1: 시간변동 처치는 특수 도구 필요 — g-method.

결론 2: 단순 도구 (회귀, 매칭, 층화, PS) 모두 실패 — collider conditioning.

결론 3: 과거 처치 항상 보정 변수에 포함 — sequential exchangeability.

결론 4: New-user design 은 단일 시점 회피 — 진짜 시간변동 분석에 부적절.

결론 5: Mismeasurement 가 bias under null 도입 가능 — 단일 시점과 다른 위험.

결론 6: g-method (Ch.21) 가 본질적 답.

직관 — Ch.19, 20 의 메시지의 통합: 시간변동 처치는 완전히 다른 분석 frame. 단일 시점 도구의 단순 일반화 불가능. 새 도구 (g-formula, IPW MSM, g-estimation) 가 분석의 표준 box. Ch.21 이 본격 도입.

7 응용 분야

HIV/AIDS 코호트: 과거 ART history 보정의 필수성
만성 질환: 약물 history + dose 변경 분석
종양학 SMART: sequential 처치의 정확한 분석
약물 안전성 (PV): 측정 오차 + sequential 처치
마케팅 attribution: 사용자 캠페인 history 정확한 추적

8 코드 — 과거 처치 보정의 필요성 시뮬레이션

import numpy as np
import pandas as pd
import statsmodels.formula.api as smf

# === Figure 20.8 시뮬레이션 ===
np.random.seed(42)
n = 10000

U = np.random.normal(0, 1, n)   # 미관측 변수

# A_0: 무작위 50:50
A0 = np.random.binomial(1, 0.5, n)

# L_1: A_0 의 결과 + U 영향
L1 = (0.5 * A0 + 0.7 * U + np.random.normal(0, 0.5, n) > 0.5).astype(int)

# A_1: L_1 + A_0 (의사가 history 활용) 의존
prob_A1 = 1 / (1 + np.exp(-(0.6 * L1 + 0.4 * A0 - 0.5)))
A1 = np.random.binomial(1, prob_A1)

# Y: A_0 만 직접 효과 (Figure 20.10 형태)
Y = 60 + 0.5 * A0 - 5 * U + np.random.normal(0, 5, n)
# A_1 효과 = 0, A_0 효과 = 0.5

df = pd.DataFrame({"A0": A0, "L1": L1, "A1": A1, "Y": Y, "U": U})

print("=== 진짜 효과: A_0 = 0.5, A_1 = 0 ===\n")

# (1) A_0 미보정, A_1 의 효과
m1 = smf.ols("Y ~ A1 + L1", data=df).fit()
print(f"(1) A0 미보정 (A1 + L1): A1 효과 = {m1.params['A1']:.3f}")
print(f"   진짜 A1 효과 = 0 → 편향")

# (2) A_0 보정, A_1 의 효과
m2 = smf.ols("Y ~ A1 + L1 + A0", data=df).fit()
print(f"\n(2) A0 보정 (A1 + L1 + A0): A1 효과 = {m2.params['A1']:.3f}")
print(f"   여전히 collider 잔존 (Figure 20.5)")

# (3) Mismeasured A_0 — 80% 정확
A0_star = np.where(np.random.uniform(0, 1, n) < 0.8, A0, 1 - A0)
df["A0_star"] = A0_star
m3 = smf.ols("Y ~ A1 + L1 + A0_star", data=df).fit()
print(f"\n(3) Mismeasured A0 보정: A1 효과 = {m3.params['A1']:.3f}")
print(f"   불완전 보정 → 편향 잔존")

# (4) U 가 관측됐다고 가정 (가상)
m4 = smf.ols("Y ~ A1 + L1 + A0 + U", data=df).fit()
print(f"\n(4) U 보정 (가상): A1 효과 = {m4.params['A1']:.3f}")
print(f"   ~ 0, 진짜 효과")

9 Ch.20 종합 정리

Ch.20 의 종합 메시지

개념: TC feedback 은 처치-confounder 의 순환 의존. 단일 시점에 없는 본질적 구조.

실패: 32,000 명 가상 시험에서 stratification, 회귀, matching 모두 sharp null 인데도 비영 추정 (-8). 표준 도구 box 전체 실패.

메커니즘: \(L_k\) 보정 = collider conditioning. 다른 fix 시도 (cumulative dose, mediation framework) 도 같은 함정.

과거 처치 보정: 항상 sequential exchangeability 의 보정 변수. New-user design 은 단일 시점 회피.

Mismeasurement: 시간변동에서 bias under null 도입 가능 — 단일 시점과 다른 위험.

해결: g-method (Ch.21) 가 본질적 답.

직관 — 1986 년 Robins 의 통찰: TC feedback 의 deadlock 을 인식 → conditional 분석 frame 을 marginal frame 으로 변경. G-formula (표준화의 시간변동 일반화), IPW MSM (가중의 시간변동 일반화), g-estimation (SNMM 의 시간변동 일반화) 의 3 가지 도구. 30 년이 지난 지금도 이 3 도구가 표준.

10 한 줄 요약

시간변동 분석에서 과거 처치 \(\bar{A}_{k-1}\) 가 항상 sequential exchangeability 의 보정 변수에 포함 (Figure 20.8-20.10). \(A_0 \to A_1\) 또는 \(A_0 \to Y\) 화살표가 backdoor 구성 — \(A_0\) 보정 필수. New-user design 은 단일 시점 회피 — 진짜 시간변동에 부적절. Mismeasured 과거 처치 시 단일 시점과 달리 bias under null 도 가능. NHEFS 같은 baseline only 데이터는 시간변동 분석 안 됨 — 진짜 시간변동 데이터에서 g-method (Ch.21) 의 진가. Ch.20 의 종합: TC feedback deadlock 의 정량적 진단 + g-method 의 도입 필연성.

11 관련 주제

선행 지식

후속 주제 — Ch.21 의 해결

다른 카테고리 연결