Kwangmin Kim - 사후 제외와 추적 손실

이 글은 Schulz Ch.15 Exclusions and Losses 시리즈의 마지막 글이다. Ch.15 개관, 무작위 전 제외, 무작위 후 제외와 ITT 에 이어, 사후 제외의 세 시나리오와 retention 전략 을 다룬다 (Schulz full md L:6329~6734).

1 진입 직관 — 이론과 실무의 간극

ITT 의 원칙은 명료하다 — 모든 무작위 환자를 분석. 그러나 현실 은 복잡하다.

한 환자가 처치 시작 전 사망. 분석에 포함?
다른 환자가 프로토콜과 다른 약 복용. 분석에 포함?
또 다른 환자가 추적 거부 후 행방불명. 결과 측정 불가능.

결정적 질문: ITT 의 이상과 실무의 한계 사이에서 어떻게 결정 해야 하나?

Schulz 의 답: 원칙은 ITT, 실무는 minimisation + transparency.

비유: 결혼식 라이브 스트리밍. 이상은 모든 손님이 끝까지 시청. 실무에서는 일부가 중간에 퇴장 하거나 연결 끊김. 시청률 통계는 완전 시청자만 으로 계산하지 모든 접속자 로 계산. RCT 의 ITT 도 같은 trade-off — 최대한 모든 환자 추적, 부득이 누락 시 명시 보고.

이 글은 세 시나리오 (pretreatment outcome, protocol deviation, loss to follow-up) 와 retention 전략을 다룬다.

2 시나리오 2: Post-Randomisation, Pretreatment Outcome

2.1 상황

환자가 무작위 배정 후 처치 시작 전 또는 충분한 처치 기간 전 에 결과 발생 (사망·재발 등).

2.2 Schulz 의 사례

“한 신약 시험에서 연구자들이 무작위 배정 후 처치 시작 전 사망 또는 7 일 미만 처치 후 사망 을 분석 불가능 으로 분류하고 제외.” (Schulz 2019, Ch.15)

2.3 직관적 답 (잘못)

잘못된 직관: “이 환자들은 처치를 충분히 받지 못했으니 처치 효과 측정에 부적합. 제외하면 더 깨끗한 측정이 가능.”

2.4 왜 위험한가

메커니즘: 같은 논리를 placebo 군에 적용 가능 — “Placebo 군의 사망도 처치 효과와 무관하니 제외.” 이 경우 모든 환자를 제외하는 부조리 발생. 따라서 어디서 멈출지 의 임의성이 본질적 문제.

수학적 증명: 무작위 배정 시 무작위 후 사건 (사망 등) 은 두 군에 long-run 평균적으로 균등 분배. 이 균형은 모든 사건 포함 시에만 보존. 일부 제외 는 균형 파괴.

2.5 Sulfinpyrazone 의 7-Day Rule

이전 글에서 본 Sulfinpyrazone 시험. 저자들의 7-day rule: 처치 7 일 미만 또는 종료 7 일 후 사망 = 분석 불가능.

FDA 의 평가: 이 규칙은 프로토콜에 명시 되어 있었고, 결과에 큰 영향 없었다 는 이유로 비판 약함. 그러나 원칙적으로는 부적절.

2.6 Post-hoc Rationalisation 의 위험

Schulz 의 핵심 경고 (Schulz 2019, Ch.15):

“결과를 본 후 유리한 규칙 을 만드는 행위. 시험 종료 후 ‘이 환자들은 약효 측정에 부적합’ 이라며 제외하면 어떻게든 결과가 유리 한 방향으로 이동.”

2.7 적절한 처리

권고: 무작위 후 사망·결과는 모두 ITT 에 포함. 그것이 무작위 배정의 본질을 보존.

반사실 — 모든 사망 포함 시:

실제 효과 0 인 경우: 두 군 사망률 비슷 → 차이 0 (정상) 실제 효과 + 인 경우: 처치군 사망 적음 → 차이 + (정상)

어느 경우든 baseline 균형 보존 + 효과 측정 정확.

3 시나리오 3: Protocol Deviation (프로토콜 위반)

3.1 상황

환자가 배정된 처치를 따르지 않음. 예:

처치군 환자가 약 미복용 (비순응)
처치군 환자가 대조군 약을 추가 복용 (cross-contamination)
대조군 환자가 처치군 약을 외부에서 구매 복용 (cross-over)

3.2 Dental Antibiotic 사례 — Schulz 의 핵심 분석

가상 사례 (Schulz 2019, Ch.15, Fig. 15.1):

배경: 치과 수술 시 예방적 amoxicillin 의 합병증 감소 효과 시험
설계:
  - 처치군 (amoxicillin): 500 명
  - 대조군 (placebo): 500 명
실제 순응:
  - 처치군 75% 순응 (375 명 약 복용), 25% 비순응 (125 명 미복용)
  - 대조군 100% 순응 (500 명)

3.2.1 잘못된 처치 1: 처치군 비순응자 제외

메커니즘: PP 분석. 처치군에서 비순응자 125 명 제외. 처치군 순응자 375 명 vs 대조군 500 명 비교.

편향: 처치군 비순응자 = 더 건강 (가설). 제외 시 처치군에 상대적으로 더 위중 한 환자만 남음. 효과 과소 추정.

3.2.2 잘못된 처치 2: 처치군 비순응자를 대조군에 합류

메커니즘: As-Treated 분석. 처치군 비순응자 (약 안 받음 = placebo 받은 거나 마찬가지) 를 대조군 풀에 추가.

편향: 대조군에 덜 우려하는, 더 건강한 환자 (처치군 비순응자) 가 추가 → 대조군 사망률 낮아짐 → 처치 효과 과대 추정.

3.2.3 Schulz 의 결론

“어떤 체계적 제외 도 두 군의 비교 가능성 (comparability) 을 무너뜨린다. 비순응자가 더 건강 인지 덜 건강 인지 알 수 없어도, 어느 방향이든 편향 발생.”

3.3 적절한 처리

ITT 원칙: 프로토콜 위반자도 원래 배정 군의 일부로 추적·분석. 처치군 비순응자도 처치군에 남음. As-Treated 분석은 secondary 로만.

3.4 ITT 의 의미 — 정책 효과 측정

핵심 통찰: ITT 는 순수 약효 (efficacy) 가 아니라 정책 효과 (effectiveness) 를 측정.

측정	질문	임상적 가치
Efficacy	“약을 완벽히 먹으면 효과 얼마?”	이론적
Effectiveness	“실제 임상 처방 시 효과 얼마?”	실용적

so what: 임상 결정자가 알고 싶은 것은 effectiveness. “이 약을 처방하면 실제로 환자에게 어떤 결과?”. 비순응자도 일반 임상에 존재 → 시험 결과에 포함 되어야 현실 반영.

3.5 Per-Protocol 의 적절한 위치

Secondary 분석으로: PP 도 유용한 정보 제공 — 약효의 이론적 상한 (best case scenario). 그러나 primary 가 될 수 없음.

4 시나리오 4: Loss to Follow-Up

가장 흔하고 까다로운 시나리오. 환자가 추적 거부 또는 행방불명.

4.1 직접 영향

결과 정보 부재 → ITT 분석에 부득이 제외. 무작위 배정 보호 부분 손실.

4.2 Differential Loss 의 결정적 위험

Schulz 의 강조: 전체 loss 비율 보다 두 군 간 차이 가 더 위험.

4.2.1 시나리오

처치군: 5% loss
대조군: 20% loss

이 차이가 위험한 이유:

처치군의 부작용 호소자 가 추가 follow-up 받아 추적 잘됨
대조군의 증상 안 좋은 환자 가 시험 거부 후 다른 치료 받음 → 추적 손실

결과: 두 군의 baseline 차이 발생. ITT 보호 무력화.

4.3 5-and-20 Rule

Loss 비율	평가
< 5%	거의 편향 없음
5~20%	중간 위험
> 20%	심각한 위험

4.4 추가 Rule — Outcome Event Rate

“Loss 비율이 outcome event rate 보다 작아야 한다.” (Schulz 2019, Ch.15)

Outcome event rate	권장 max loss
5% (사망률)	< 5%
10% (재발률)	< 10%
30% (호전률)	< 30%

수식 직관: Loss > Event rate 인 경우, 알려지지 않은 결과 가 알려진 결과보다 많음 → worst-case sensitivity analysis 시 결론이 뒤집힐 수 있음.

4.5 Worst-Case Sensitivity Analysis

방법: Loss 환자에 최악 결과 가정 → 결과가 여전히 유의한가?

Loss 환자 처리	결과
모두 나쁜 결과 (사망 등)	효과 과소 추정 (낙관 시나리오)
모두 좋은 결과 (생존)	효과 과대 추정 (비관 시나리오)
처치군 = 좋은 결과, 대조군 = 나쁜 결과	효과 과대 (가장 낙관)
처치군 = 나쁜 결과, 대조군 = 좋은 결과	효과 과소 (가장 비관)

해석: 가장 비관적 시나리오에서도 유의 효과 가 유지되면 시험 결과의 robustness 강함.

5 Panel 15.2 — 13 가지 Retention 전략

Schulz 의 핵심 권고 — Loss 최소화의 구체적 행동.

#	전략	메커니즘
1	Follow-up 관리자 고용	추적 전담 직원
2	전화·가정 방문 인력	미응답자 직접 접촉
3	무작위 전 추적 위험자 제외	“추적 가능성 낮음” 환자 사전 제외
4	무작위 전 이주 가능자 제외	이사 예정자 사전 제외
5	추가 연락처 정보 수집	친구·친척·가족의 의사
6	국가 의료 ID 번호	사망 등록부 등 cross-check
7	다수 follow-up 클리닉	거주지 인근 위치
8	Follow-up 절차 간소화	짧은 방문 시간
9	짧은 데이터 수집 양식	환자 부담 감소
10	무료 의료 진료	동기 부여
11	시간·교통비 보상	경제적 부담 감소
12	모바일 폰 제공 (저소득 환자)	연락 가능성
13	텍스트 메시지·소셜 미디어	디지털 접촉

Schulz 의 메시지: “단일 전략으로는 부족. 여러 전략의 조합 이 high retention 의 비결.”

반사실 — Roddy 외 (2002, JAMA) 의 nonoxynol-9 시험 (HIV 예방, 아프리카·태국·인도 여성):

일반적 임상 시험에서 50% 이상 loss 흔함. Roddy 외는 다수 follow-up 클리닉, 모바일 폰 제공, 지역 사회 참여 등 종합 전략으로 loss 1.5% 달성.

so what: Loss 가 환자 변수 가 아니라 시험 설계 변수. 적절한 자원 투입 시 매우 낮춤 가능.

6 “Exclusion Paradox” 재방문

이전 글에서 언급한 Schulz 의 충격적 발견:

“Exclusion 을 보고하지 않은 시험이 보고한 시험보다 더 편향 되어 있다.”

이 패러독스의 메커니즘:

적절한 시험은 exclusion 을 명시적 보고 (CONSORT flow)
부적절한 시험은 exclusion 의 존재 자체 를 숨김 → “no apparent exclusions” 로 보임
Reviewer 는 후자를 “깨끗한 시험” 으로 잘못 해석

함의: Exclusion 보고가 있는 시험 을 더 신뢰 해야 한다. CONSORT flow diagram 의 강제 보고가 이 함정 차단.

7 CONSORT Flow Diagram — 모든 단계의 보고

이전 글에서 본 CONSORT flow diagram. Ch.15 에서 가장 강조되는 도구.

모집된 환자 (n=...)
        │
        ├ Eligibility 미달 (n=...)
        ├ 동의 거부 (n=...)
        ├ 기타 (n=...)
        ↓
무작위 배정 (n=...)
   ↓                    ↓
처치군 (n=...)         대조군 (n=...)
   - 처치 받음           - 처치 받음
   - 처치 미수            - 처치 미수
        │                  │
   - 추적 손실 (n=...)   - 추적 손실 (n=...)
   - 중단 (n=...)         - 중단 (n=...)
        │                  │
   - 분석에 포함 (n=...)  - 분석에 포함 (n=...)

so what: 모든 단계의 환자 수 를 보고하면 exclusion 의 종류와 비율 을 reviewer 가 직접 평가 가능. ITT 의 적절성을 수치로 확인 가능.

8 Sensitivity Analysis 의 표준화

8.1 Best-Case / Worst-Case

처치군 loss 가정	대조군 loss 가정	효과 추정
모두 좋은 결과	모두 나쁜 결과	가장 낙관 (최대 효과)
모두 나쁜 결과	모두 좋은 결과	가장 비관 (최소 효과)

8.2 Tipping Point Analysis

방법: Loss 환자에 얼마나 극단적 결과 를 가정해야 결과가 유의에서 비유의로 뒤집히는가?

해석: Tipping point 가 비현실적으로 극단 이면 결과 robust. 현실적 시나리오 에 가깝다면 결과 신뢰도 낮음.

8.3 Multiple Imputation

방법: Loss 환자의 결과를 통계 모델로 추정. 여러 imputed dataset 으로 sensitivity 평가.

장점: ITT 원칙에 최대한 부합. 단점: 가정 강함 — Missing at random (MAR) 가정 필요.

9 IT / 디지털 실험 매핑

역학 (RCT)	IT (A/B Test)
Pretreatment outcome	Pre-exposure event
Protocol deviation	Feature 미사용 / Force-quit
Loss to follow-up	Inactive user / Churn
5-and-20 rule	Bucket completion rate threshold
Differential loss	Differential churn (군별)
Worst-case sensitivity	Conservative bound on missing data
Panel 15.2 retention	Re-engagement campaigns, push notifications

IT 의 retention: Push notification, email reminders, in-app rewards 등 동일 메커니즘. 임상의 retention 전략을 IT 에 직접 응용 가능.

10 코드 예시 — Worst-Case Sensitivity Analysis

import numpy as np
from scipy import stats

np.random.seed(42)

# 시뮬레이션: 무작위 배정 시험, 일부 loss
n_per_arm = 500
true_effect = 0.20

# Baseline 결과
risk_T = np.random.beta(2, 5, n_per_arm)
risk_C = np.random.beta(2, 5, n_per_arm)
Y_T = (np.random.random(n_per_arm) < risk_T * (1 - true_effect)).astype(int)
Y_C = (np.random.random(n_per_arm) < risk_C).astype(int)

# Loss to follow-up
loss_rate_T = 0.10
loss_rate_C = 0.20  # Differential loss (위험)
loss_T = np.random.random(n_per_arm) < loss_rate_T
loss_C = np.random.random(n_per_arm) < loss_rate_C

# Observed (loss 제외)
obs_T = ~loss_T
obs_C = ~loss_C

print(f"[Loss to Follow-Up]")
print(f"처치군 loss: {sum(loss_T)} ({sum(loss_T)/n_per_arm:.1%})")
print(f"대조군 loss: {sum(loss_C)} ({sum(loss_C)/n_per_arm:.1%})")

# === Naive ITT (loss 제외) ===
mort_T_obs = Y_T[obs_T].mean()
mort_C_obs = Y_C[obs_C].mean()
naive_effect = (mort_C_obs - mort_T_obs) / mort_C_obs
print(f"\n[Naive ITT (loss 제외)]")
print(f"처치 사망률: {mort_T_obs:.3f}, 대조: {mort_C_obs:.3f}")
print(f"효과: {naive_effect:.1%}")

# === Best-Case (loss 환자 처치=좋음, 대조=나쁨) ===
Y_T_best = Y_T.copy()
Y_T_best[loss_T] = 0  # 처치 loss = 생존
Y_C_best = Y_C.copy()
Y_C_best[loss_C] = 1  # 대조 loss = 사망

mort_T_best = Y_T_best.mean()
mort_C_best = Y_C_best.mean()
best_effect = (mort_C_best - mort_T_best) / mort_C_best
print(f"\n[Best-Case (낙관 시나리오)]")
print(f"효과: {best_effect:.1%}")

# === Worst-Case (loss 환자 처치=나쁨, 대조=좋음) ===
Y_T_worst = Y_T.copy()
Y_T_worst[loss_T] = 1  # 처치 loss = 사망
Y_C_worst = Y_C.copy()
Y_C_worst[loss_C] = 0  # 대조 loss = 생존

mort_T_worst = Y_T_worst.mean()
mort_C_worst = Y_C_worst.mean()
worst_effect = (mort_C_worst - mort_T_worst) / mort_C_worst
print(f"\n[Worst-Case (비관 시나리오)]")
print(f"효과: {worst_effect:.1%}")

# === Tipping Point ===
print(f"\n[Robustness 평가]")
print(f"진짜 효과 가정: ~10% (true_effect * baseline_avg)")
print(f"Naive: {naive_effect:.1%}, Best: {best_effect:.1%}, Worst: {worst_effect:.1%}")
print(f"Worst 가 음수 (해 효과) 인가? → {'예, 결과 robust 약함' if worst_effect < 0 else '아니오, 결과 robust'}")

이 코드는 (1) Differential loss 가 naive ITT 에서 효과 왜곡, (2) Best/Worst case sensitivity 로 robustness 평가, (3) Worst-case 에서 효과 부호 변화 가능성 확인.

11 결론 — Ch.15.3 의 한 줄 요약

무작위 후 제외의 모든 시나리오에서 ITT 가 우선, retention 은 시험 설계 변수.

핵심 메시지:

Pretreatment outcome 도 ITT 에 포함 — Post-hoc rationalization 위험
Protocol deviation 환자도 원래 군에 남음 — Dental antibiotic 사례
5-and-20 rule + outcome event rate — Loss 평가 통합 기준
Differential loss 가 absolute loss 보다 위험
Panel 15.2 의 13 가지 전략 — Retention 은 적절한 자원 투입 가능
CONSORT flow diagram — 모든 단계의 환자 수 보고 강제

Ch.15 시리즈를 종합: ITT 는 RCT 의 baseline 균형 마지막 보장. 무작위 후 어떤 체계적 제외도 selection bias 침투. 실무적 한계 (loss to follow-up) 는 최소화 + 명시 보고 + sensitivity analysis 로 처리.

다음 챕터 (Ch.16) 는 Blinding — 또 다른 RCT 의 기둥.

12 관련 주제

선행 지식

Phase C 후속 글

SCH Ch.16 Blinding 시리즈 (placeholder)

13 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.15. Elsevier.
Anturane Reinfarction Trial Research Group. (1978). Sulfinpyrazone in the prevention of cardiac death. N. Engl. J. Med. 298, 289-295.
Roddy, R. E., Zekeng, L., Ryan, K. A., Tamoufe, U., Tweedy, K. G. (2002). Effect of nonoxynol-9 gel on urogenital gonorrhea and chlamydial infection. JAMA 287, 1117-1122.
Sackett, D. L., Richardson, W. S., Rosenberg, W., Haynes, R. B. (1997). Evidence-Based Medicine. Churchill Livingstone.
Robinson, K. A., Dennison, C. R., Wayman, D. M., Pronovost, P. J., Needham, D. M. (2007). Systematic review of strategies for retaining study participants. J. Clin. Epidemiol. 60, 757-765.
Abshire, M., Dinglas, V. D., Cajita, M. I., Eakin, M. N., Needham, D. M., Himmelfarb, C. D. (2017). Participant retention practices in longitudinal clinical research. BMC Med. Res. Methodol. 17, 30.