Kwangmin Kim - 무작위 전 제외

이 글은 Schulz Ch.15 Exclusions and Losses 시리즈의 두 번째 글이다. Ch.15 개관 에서 제시한 큰 그림 중 무작위 전 제외의 외적 타당도 함의 를 깊이 다룬다 (Schulz full md L:6157~6186).

1 진입 직관 — 두 종류의 제외

RCT 의 환자 제외는 시간상 두 단계 로 나뉜다.

환자 모집
   ↓
[적격성 심사]
   ↓
═══ 무작위 배정 ═══   ← 이 시점이 결정적 분기
   ↓
[처치 시행 + 추적]
   ↓
[결과 분석]

무작위 전 제외: 적격성 심사에서 탈락 → 내적 타당도 영향 없음. 그러나 외적 타당도 (일반화) 를 좁힘.

무작위 후 제외: 일단 무작위 배정된 환자를 분석에서 제외 → 내적 타당도 직접 위협. ITT 위반.

결정적 차이: 무작위 전 제외는 모집단 정의 의 문제, 무작위 후 제외는 분석 무결성 의 문제.

비유: 콘서트 입장. 표가 없으면 입장 자체 가 안 됨 (무작위 전 제외 = 적격 미달). 입장 후 공연 중간에 강제 퇴장 시키면 좌석 점유 통계가 왜곡됨 (무작위 후 제외).

이 글의 목적: 무작위 전 제외의 영향과 적절한 eligibility criteria 설계.

2 정의: Eligibility Criteria

정의: Eligibility Criteria

RCT 에 참여 가능한 환자의 조건. 무작위 배정 전 에 적용되며, 충족하지 못한 환자는 시험에서 제외.

2.1 두 종류

Inclusion criteria (포함 기준) — 충족해야 참여 가능 (예: “65 세 이상”, “확진 결핵 환자”)
Exclusion criteria (제외 기준) — 충족하면 참여 불가 (예: “임신 중 제외”, “신기능 저하 제외”)

2.2 영향

내적 타당도: 영향 없음 — 무작위 배정 자체는 적격 환자 풀에서 동일 확률
외적 타당도: 좁은 기준 → 결과를 적격 환자 모집단에만 일반화 가능

비유: 신약 임상시험은 제한된 모집단의 깊은 연구 — 마치 작은 도시 시민의 자세한 인구 조사. 결과가 그 도시에는 정확하지만 다른 도시에는 부분적으로만 적용 가능. Eligibility criteria 의 좁힘은 그 도시의 경계 를 좁히는 일.

3 Peto 의 “Large and Simple Trial” 철학

Schulz 가 인용하는 핵심 철학:

“Most differences between our patients and those in trials tend to be quantitative (different ages, social classes, risk levels) rather than qualitative (total absence of responsiveness or no risk of the event).” — Sackett (1983, 2000)

번역: 환자들 사이의 차이는 대부분 정도의 차이 (양적) 이지, 본질의 차이 (질적) 가 아니다.

Schulz 의 함의: 적격 기준을 지나치게 좁히지 마라. 약간 다른 환자에게 결과를 적용해도 효과의 방향성 은 보통 같음. 반응이 완전히 없거나 부작용이 다른 경우는 드물다.

3.1 Peto 의 권고

Peto 외 (1976, 1977) 의 “large and simple trial” 철학:

단순한 적격 기준 — 임상의가 5 분 이내 평가 가능
넓은 모집단 — 결과의 일반화 가능성 최대화
작은 효과 검출 가능 — 큰 표본으로 검정력 확보
제외 기준 최소 — 정말 반응 없는 또는 위험한 환자만 제외

반사실 — 좁은 기준의 시험: 항암제 시험에서 “ECOG 0~1 + 신기능 정상 + 동반질환 없음 + 18~65 세” 로 제한. 결과: 60% 반응률. 그러나 실제 임상에서 이 기준 충족 환자는 30% 미만. 일반 환자에 처방 시 반응률 30~40% 로 떨어질 수 있음. 외적 타당도 손실.

반대 — 넓은 기준의 시험: 같은 항암제 시험을 “폐암 환자 중 화학요법 가능 + 동의” 만 으로 제한. 결과: 55% 반응률 (다양한 환자 포함으로 약간 낮음). 그러나 실제 임상의 80% 환자가 시험 모집단과 유사. 결과의 직접 적용 가능성 높음.

4 Eligibility Criteria 의 정당한 이유

Schulz 는 무작위 전 제외가 정당한 경우 도 있음을 인정한다.

4.1 정당한 제외

이유	메커니즘	예시
처치 금기 (contraindication)	처치를 받으면 해로움	페니실린 알러지 환자에서 페니실린 시험 제외
결과 측정 불가능	결과 측정의 기술적 한계	인지 장애 환자에서 인지 검사 결과 시험
추적 가능성 매우 낮음	예측되는 lost to follow-up	거주지 불명·이동 중 환자
윤리적 제외	동의 능력 부재 등	의식 없는 응급 환자

4.2 부당한 제외

이유	위험	예시
“더 깨끗한” 결과 추구	외적 타당도 손실	“동반 질환 0 명만” 제외
Run-in period 의 비순응자 제외	일반 인구 미반영	“1 주 placebo 시도 후 70% 이상 복용한 환자만”
Enrichment (이전 반응자 우선)	Cherry-picking	“이 약에 이전에 반응한 환자만”

4.3 Run-in Period 의 함정

Run-in period 는 무작위 배정 전 에 모든 후보 환자가 임시 처치 (보통 placebo) 를 받고, 비순응자·부반응자 를 사전에 제외하는 절차.

장점: 시험에 순응 가능한 환자 만 남음 → 처치 효과의 순수 측정 가능 (compliance 효과 분리)

단점: 일반 임상의 약 50% 환자는 비순응자 → 시험 결과가 일반 환자에 적용 어려움

반사실: 항우울제 RCT 에서 2 주 placebo run-in 후 placebo 반응자 (위약 효과만으로 호전) 제외. 시험 결과: 60% 반응률. 그러나 일반 임상 처방 시 반응률 35% — 실제로는 placebo 반응자 비율이 임상에 그대로 존재. 시험 결과는 비현실적으로 깨끗.

4.4 Enrichment 의 함정

Enrichment 는 이전에 같은 처치에 반응한 환자 를 우선 모집.

장점: 처치 효과 측정의 검정력 매우 높음

단점: 결과를 처음 시도 환자에 적용 불가능

사례: 만성 통증 약 시험. 환자가 이전 시험에서 이 약에 반응 한 경우만 모집. 효과 80% 측정. 새 환자에 처방 시 효과 30%.

so what: Run-in 과 enrichment 는 통계적 효율 을 위한 trade-off. 외적 타당도 손실을 명시적으로 보고 해야 함.

5 Eligibility 평가 체크리스트

Schulz 의 권고 — Reviewer·독자가 eligibility 를 평가할 때:

5.1 Step 1: 기준의 명확성

질문: 적격 기준이 명확하고 구체적 인가?

[O] 측정 가능한 임상 기준 (예: “ECOG 0~2”, “혈압 ≥ 140/90”) [X] 모호한 기준 (예: “건강한 환자”, “안정 상태”)

5.2 Step 2: 무작위 배정 전 적용 여부

질문: 모든 적격 기준이 무작위 배정 전 평가되었는가?

[X] 무작위 후 사후 ineligibility 발견은 무작위 후 제외 로 분류 — Ch.15.2 의 위험 영역.

5.3 Step 3: 모집단 대표성

질문: 적격 기준이 관심 인구의 합리적 부분 을 포함하는가?

평가	예시
Robust	일반 임상의 80% 환자 포함
Moderate	일반의 50% 환자
Concerning	일반의 20% 미만
Atypical	“이상적 환자” 만 (외적 타당도 거의 없음)

5.4 Step 4: 제외 기준의 정당성

질문: 각 제외 기준의 정당한 이유가 있는가?

대표적 정당 이유: 안전 (contraindication), 결과 측정 가능성, 윤리.

부당 이유: “더 깨끗한 결과” 같은 통계적 편의.

6 Sackett 의 통찰 — Robust External Validity

“Qualitative differences in response are rare; thus, trials tend to have rather robust external validity.” — Sackett (1983)

번역: 반응의 질적 차이는 드물기 때문에, 시험은 비교적 robust 한 외적 타당도를 가진다.

6.1 함의

적격 기준이 좁아도 처치의 방향성* 은 일반 환자에 대체로 적용*
효과 크기 는 다를 수 있지만, 부호 (효과 있음/없음) 는 보통 보존
따라서 일부 외적 타당도 손실은 수용 가능

6.2 한계

반사실 — Qualitative difference 발생:

Beta-blocker for hypertension: 시험은 백인 위주 → 흑인에서 효과 약함 발견 (qualitative 차이)

Hormone replacement therapy: 시험은 50~60 대 → 70 대 이상에서 해로움 발견

Antibiotic for ear infection: 시험은 즉시 처방 → 증상 경증에서는 항생제 무용 발견

이런 사례들은 qualitative difference 가 드물지만 존재 함을 시사. Sackett 의 일반론은 대체로 맞지만 항상 은 아님.

so what: 시험 결과를 일반 환자에 적용할 때 조심스러운 평가. Subgroup analysis (Ch.20) 가 외적 타당도 평가 도구.

7 CONSORT 의 권고

CONSORT 2010 Item 4a:

“Eligibility criteria for participants.”

권고:

모든 inclusion·exclusion 기준 완전 보고
각 기준의 정당한 이유 명시
모집된 환자의 baseline characteristics 와 적격 모집단의 baseline 비교 가능하면 보고

8 외적 타당도 평가 — 시험 결과 일반화 능력

8.1 문제

특정 환자에게 시험 결과를 적용할지 결정. 두 단계.

8.1.1 Step 1: 시험 환자가 내 환자와 비슷한가?

차원	질문
인구학적	연령·성별·인종
임상적	질병 중증도, 동반 질환
사회경제적	소득, 건강 보험, 거주지
의료 시스템	입원 vs 외래, 1차 vs 3차

8.1.2 Step 2: Quantitative 차이만 인가, Qualitative 차이 가능 한가?

Quantitative 차이: 효과 크기는 다르지만 부호 같음. 결과 부분 적용 가능.

Qualitative 차이: 효과 부호 자체 다름 (효과 있음 → 효과 없음 또는 해로움). 결과 적용 위험.

8.2 의사결정

시험 모집단	내 환자	의사결정
거의 같음	직접 적용
Quantitative 차이만	효과 크기 조정 후 적용
Qualitative 차이 가능성	추가 시험 또는 조심스러운 적용

9 IT / 디지털 실험 매핑

역학 (RCT)	IT (A/B Test)
Eligibility criteria	User segment definition
Inclusion criteria	“활성 사용자만”, “특정 국가만”
Exclusion criteria	“Bot 제외”, “내부 직원 제외”
Run-in period	Burn-in period
Enrichment	“기존 사용자만” 분석
Sackett qualitative robustness	“효과 방향성은 보통 일반화 가능”
CONSORT eligibility 보고	실험 설계 문서의 segment 정의

IT 의 흔한 함정: “좁은 segment” 만 분석하여 깨끗한 효과 측정. 그러나 전체 사용자에 적용 시 효과 작음. 임상의 enrichment 와 동형.

10 코드 예시 — Eligibility Trade-off 시뮬레이션

import numpy as np

np.random.seed(42)

# 일반 인구 (전체 환자)
n_total = 10000
baseline_risk = np.random.beta(2, 5, n_total)  # 0~1 범위
comorbidity = np.random.binomial(1, 0.3, n_total)
age = np.random.normal(60, 12, n_total)

# 시험 시나리오: 좁은 vs 넓은 eligibility
def filter_narrow(risk, com, ag):
    """좁은 기준: 경증 (낮은 위험), 동반질환 없음, 50~70 세"""
    return (risk < 0.3) & (com == 0) & (50 < ag) & (ag < 70)

def filter_wide(risk, com, ag):
    """넓은 기준: 18~85 세, 모두 포함 (단 활성 처치 가능)"""
    return (18 < ag) & (ag < 85)

eligible_narrow = filter_narrow(baseline_risk, comorbidity, age)
eligible_wide = filter_wide(baseline_risk, comorbidity, age)

print(f"전체 인구: {n_total}")
print(f"좁은 기준 적격: {sum(eligible_narrow)} ({sum(eligible_narrow)/n_total:.1%})")
print(f"넓은 기준 적격: {sum(eligible_wide)} ({sum(eligible_wide)/n_total:.1%})")

# 효과 시뮬레이션 — 위험 낮은 환자에서 효과 더 큼 (효과의 heterogeneity)
def simulate_effect(eligible_mask, true_effect_homo=0.20, true_effect_high=0.10):
    """
    효과가 위험 수준에 따라 달라짐.
    위험 < 0.3: 효과 0.30 (큼)
    위험 0.3~0.6: 효과 0.20
    위험 > 0.6: 효과 0.10 (작음, qualitative 차이 거의)
    """
    risk = baseline_risk[eligible_mask]
    effect = np.where(risk < 0.3, 0.30,
                       np.where(risk < 0.6, 0.20, 0.10))
    return effect.mean(), effect.std()

mean_narrow, sd_narrow = simulate_effect(eligible_narrow)
mean_wide, sd_wide = simulate_effect(eligible_wide)

print(f"\n[시험 효과 (heterogeneous)]")
print(f"좁은 기준: 평균 효과 {mean_narrow:.3f} ± {sd_narrow:.3f}")
print(f"넓은 기준: 평균 효과 {mean_wide:.3f} ± {sd_wide:.3f}")

# 외적 타당도 — 일반 인구에 적용 시 효과
all_risk = baseline_risk
true_general_effect = np.where(all_risk < 0.3, 0.30,
                                 np.where(all_risk < 0.6, 0.20, 0.10)).mean()
print(f"\n일반 인구의 진짜 평균 효과: {true_general_effect:.3f}")
print(f"좁은 기준 시험은 {mean_narrow:.3f} 측정 → 일반에 적용 시 {(mean_narrow - true_general_effect)/true_general_effect*100:+.0f}% 차이")
print(f"넓은 기준 시험은 {mean_wide:.3f} 측정 → 일반에 적용 시 {(mean_wide - true_general_effect)/true_general_effect*100:+.0f}% 차이")

이 코드는 좁은 eligibility 가 효과 과대 추정 을 만들 수 있음을 보여준다 (외적 타당도 손실).

11 결론 — Ch.15.1 의 한 줄 요약

무작위 전 제외는 내적 타당도를 해치지 않으나, 모집단 정의 를 좁힌다.

핵심 메시지:

무작위 전 제외는 외적 타당도 문제 — 일반 환자 적용 가능성
Peto 의 large and simple trial — 적격 기준 최소화 권고
Run-in 과 enrichment 는 통계적 편의의 trade-off — 외적 타당도 손실
Sackett 의 robust external validity — Quantitative 차이만 보통, qualitative 드묾
CONSORT eligibility 완전 보고 — 모든 기준과 정당 이유

다음 글: 무작위 후 제외와 ITT 의 결정적 정당화.

12 관련 주제

선행 지식

Phase C 후속 글

무작위 후 제외와 ITT (placeholder)
사후 제외와 추적 손실 (placeholder)

13 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.15. Elsevier.
Sackett, D. L. (1983). On some prerequisites for a successful clinical trial. In Shapiro, S. H. & Louis, T. A. (Eds.), Clinical Trials: Issues and Approaches, 65-79. Marcel Dekker.
Sackett, D. L., Straus, S. E., Richardson, W. S., Rosenberg, W., Haynes, R. B. (2000). Evidence-Based Medicine. Churchill Livingstone.
Peto, R., Pike, M. C., Armitage, P., et al. (1976). Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Br. J. Cancer 34, 585-612.
Peto, R., Pike, M. C., Armitage, P., et al. (1977). Design and analysis of randomized clinical trials requiring prolonged observation of each patient. II. Br. J. Cancer 35, 1-39.
Schulz, K. F., Altman, D. G., Moher, D. (2010). CONSORT 2010 statement. BMJ 340, c332.