Kwangmin Kim - RCT 모집의 현실

이 글은 Schulz & Grimes (2019) Essential Concepts in Clinical Research Ch.10 Boosting Recruitment to Randomised Controlled Trials 의 개관(overview)이다. 후속 두 글에서 (1) 모집 어려움의 정량화 (Lasagna 법칙·fraction), (2) 모집 개선 전략 (Zelen · cmRCT · Cochrane 4 전략) 을 각각 깊게 다룬다.

1 진입 직관 — 왜 “모집”이 RCT 의 죽음의 골짜기인가

RCT 의 통계 설계는 보통 깨끗한 수식으로 표현된다. “효과 크기 \(d=0.3\), 유의수준 \(\alpha=0.05\), 검정력 \(1-\beta=0.80\) 을 위해 그룹당 \(n=176\) 명이 필요하다” 같은 형태다. 신청서의 표는 단정하고, sample size 계산기는 정밀해 보인다.

그러나 이 그림에는 보이지 않는 단계가 있다. \(n=176\) 명은 어디서 오는가? 병원 복도에서 동의서를 받기까지의 인간적 과정 — 그 깔때기가 바로 모집이다. 통계 설계가 깔끔할수록, 모집의 더러움(messiness) 이 더 잘 가려진다.

Schulz 의 Ch.10 은 이 가려진 단계를 정면으로 다룬다. 핵심 메시지는 한 줄이다.

RCT 의 가장 빈번한 실패는 통계 모형이나 측정 도구가 아니라, 환자 모집 그 자체에서 일어난다.

이 메시지가 왜 충격적인지 직관으로 풀어보자. 다음 세 가지를 동시에 떠올려보면 된다.

콘서트 티켓 판매 — 1000 명 좌석에 표를 걸어두면 1000 명이 살까? 아니다. 광고 노출 → 관심 → 가격·날짜 확인 → 동행자 조율 → 결제 까지 단계마다 사람이 빠져나간다. 마지막 결제 단계에서는 보통 광고 노출의 5~10% 만 실제 구매로 이어진다.
신약 시험 환자 모집 — 위 콘서트 시나리오에서 “결제” 자리에 “위험할 수도 있는 새 약을, 무작위 배정으로, 본인이 어느 군에 들어갈지도 모른 채 동의” 가 들어간다. 콘서트보다 훨씬 많은 사람이 떨어져 나간다.
연구자의 추정 — 그런데 연구자는 신청서에 “12 개월 안에 500 명 모집” 이라고 자신 있게 적는다. 이 추정은 체계적으로 낙관 편향에 오염되어 있다.

Schulz 가 인용하는 통계는 이 직관을 무자비하게 확인한다. UK 공공자금 RCT 의 31% 만이 목표 표본 크기에 도달했다. 73 개 시험 중 22 개. 다섯 개 시험 중 셋 이상이 출발선에서 비틀거린 셈이다. “모집 부진은 예외가 아니라 표준” 이라는 표현은 과장이 아니다 (Schulz & Grimes, 2019, Ch.10).

이 글은 그 표준을 정량화·언어화·전략화하는 Ch.10 의 큰 그림을 제시한다.

2 정의: 모집(Recruitment) 이란 무엇인가

정의: RCT 모집 (Recruitment to RCT)

연구 대상 모집단에서 적격(eligible) 참여자를 식별하고, 동의(informed consent) 를 거쳐 처치군과 대조군에 실제로 등록(enroll) 시키는 일련의 과정이다.

역학: Recruitment / Enrolment / Accrual
IT: Traffic Allocation / Opt-in / Exposure
FDA 규제 임상: Subject Enrollment

Schulz 의 핵심 주장은 “모집은 RCT 의 가장 빈번한 실패 지점이며, 통계 설계 (sample size·검정력) 가 아무리 정교해도 모집이 부진하면 시험 자체가 무너진다” 는 것이다 (Schulz & Grimes, 2019, Ch.10).

이 정의는 단순해 보이지만, 그 안에 다섯 개의 hidden gate 가 숨어 있다. 각 gate 마다 환자가 떨어져 나간다.

Gate 0: 질병이 있는가?               (Target Population 정의)
   ↓
Gate 1: 연구자가 그 환자를 만났는가?  (Approached)
   ↓
Gate 2: 의학적 적격 기준 충족?       (Screened Eligible)
   ↓
Gate 3: 본인이 동의했는가?           (Informed Consent)
   ↓
Gate 4: 실제로 무작위 배정되었는가?  (Randomised / Enrolled)
   ↓
Gate 5: 끝까지 시험을 완료했는가?    (Retention — Ch.15 영역)

비유: 모집은 단일 행위가 아니라 다층 빌딩의 엘리베이터 다. 1층(전체 인구) 에서 옥상(등록) 까지 가려면 각 층에서 문이 열리고, 누군가는 내리고 누군가는 안 탄다. 신청서가 약속하는 “500 명” 은 옥상 도달 인원이지만, 1 층 인원과 50% 가 빠지는 구간을 알지 못하면 옥상에 도달할 수 있는지조차 추정 불가능하다.

특히 RCT 모집이 일반 마케팅 funnel 보다 훨씬 까다로운 이유는 Gate 3 (Informed Consent) 의 비대칭성 때문이다.

일반 funnel (콘서트 · 마케팅)	RCT 모집
가격 정보가 명확	처치 효과·부작용이 불확실 (그래서 실험을 함)
결과를 본인이 통제 (좌석 선택)	무작위 배정 — 본인이 어느 군에 갈지 모름
거부에 사회적 비용 거의 없음	임상의 권고를 거부한다는 심리적 부담
익명성 가능	의료 정보 공개 + 추적 검사 동의
한 번의 결정	수개월~수년의 추적 약속

이 표가 의미하는 바는 단순하다. RCT 모집은 마케팅보다 훨씬 더 큰 funnel 누락률을 본질적으로 가질 수밖에 없다. 이 누락률을 “정상 운영” 으로 받아들이지 않으면 sample size 계산은 종이 위의 수식으로 끝난다.

3 모집 부진의 실태 — 통계로 본 현실

Schulz 는 여러 메타리뷰의 수치를 인용해 “모집 부진은 예외가 아니라 표준” 임을 보인다 (Schulz & Grimes, 2019, Ch.10).

출처	표본	목표 표본 크기 도달률	비고
McDonald 외 (UK, 2006)	114 시험	31%	53% 가 모집 기간 연장 요청
Sully 외 (UK, 2013, 갱신)	공공자금 시험	55%	45% 는 여전히 연장 요청
Toerien 외 (6 개 학술지, 2009)	133 시험	79% (21% 실패)	6 개월간 출판 RCT 전수
Bernardez-Pereira 외 (심혈관, 2014)	6000+ 시험	-	11% 가 모집 부진으로 조기 종료

이 숫자가 의미하는 바는 단순하다. 공공 자금으로 수행되는 RCT 의 약 절반 이상이 계획한 표본 크기에 도달하지 못한다. 더욱이 모집 기간을 연장해도 “충분한 모집 개선으로 이어진 사례는 드물었다” 고 보고된다 (Schulz & Grimes, 2019, Ch.10).

숫자 → 일상어 번역:

31% 도달 = “다섯 시험 중 한 개만 완주, 나머지 넷은 절뚝거리거나 중도 포기”

53% 가 연장 요청 = “신청서에 적은 모집 기간이 절반 넘게 거짓말이었다는 뜻”

11% 조기 종료 (심혈관) = “심장약 시험 9 개당 1 개는 환자가 부족해서 답을 모른 채 끝남”

so what: 검정력 80%, 유의수준 0.05 로 깔끔하게 산출된 sample size 가 실제로는 60% 만 채워진다는 뜻이다. 이는 사후적으로 검정력을 50% 이하로 떨어뜨리며, 임상적으로 중요한 차이를 “유의하지 않다” 고 잘못 결론낼 위험을 증가시킨다.

위 “검정력 50% 이하” 가 얼마나 무의미한지 직관으로 풀어보자.

반사실 시나리오 — 검정력 50% 시험은 동전 던지기 와 통계적으로 동등하다. 즉, 효과가 실제로 존재해도 절반의 확률로 놓친다. 만약 신약이 정말로 사망률을 줄인다고 하자. 검정력 50% 시험을 두 번 돌리면 한 번은 “효과 있음”, 한 번은 “효과 없음” 이라는 결론이 나온다. 의사·규제기관·환자는 무엇을 믿어야 하는가? 모집 부진은 단지 숫자 미달이 아니라 결론의 신뢰성을 동전 수준으로 떨어뜨리는 사건 이다.

4 부진의 4 가지 결과 — 무엇이 손상되는가

Schulz 는 모집 부진이 야기하는 손상을 네 범주로 정리한다 (Schulz & Grimes, 2019, Ch.10). 이 네 범주는 각각 방법론·통계·일반화·윤리 영역에서 상이한 손상을 일으킨다.

4.1 시험 포기 (Trial Abandonment)

캐나다·스위스·독일의 RCT 후속 조사에서 25% 가 중단 되었으며, 가장 흔한 원인이 모집 부진이었다. 중단된 시험들의 표본 크기 달성률 중앙값은 41% 에 불과했다. 더 심각한 윤리적 문제는 이러한 중단 시험이 출판되지 않을 가능성이 높다는 점이다. 환자들이 동의한 위험과 자원이 학문적 기여 없이 소멸한다. IRB 에 중단을 보고한 연구자는 38% 에 그쳤다.

직관: 시험 중단의 진짜 비용은 “노력 낭비” 가 아니다. 중단된 시험에 참여한 환자들이 지불한 동의의 기회비용 이다. 이들은 표준 치료 대신 무작위 배정에 자신의 몸과 시간을 내준 사람들이다. 그 동의는 사회적 학습에 대한 신뢰를 전제로 한 것인데, 시험이 출판도 되지 못하고 사라지면 그 신뢰는 배신당한다. 다음 RCT 모집이 더 어려워지는 자기 강화 루프가 만들어진다.

반사실 시나리오: 만약 중단된 RCT 의 데이터가 모두 공개·메타분석에 합산된다면? Schulz 는 “검정력이 부족한 시험도 편향만 없으면 메타분석을 통해 가치를 가질 수 있다” 고 본다 (Ch.21). 그러나 출판되지 않으면 메타분석에 합산조차 되지 못하고 데이터가 소실된다. 출판 편향(publication bias) 의 한 축이 바로 이 모집 부진 → 중단 → 미출판 사슬 이다.

4.2 검정력 저하 (Power)

표본 크기 미달은 제2종 오류 위험 증가로 직결된다. 임상적으로 중요한 차이가 존재해도 통계적으로 감지되지 않을 가능성이 커진다. 단, Schulz 는 “검정력 부족 시험이 비윤리적이다” 라는 일부 주장에 반대한다. 시험이 편향(bias) 으로부터 자유롭다면, 작은 표본도 메타분석을 통해 가치를 가질 수 있기 때문이다 (이 논점은 Ch.21 Prospective Meta-Analysis 에서 확장된다).

수식 직관: 검정력 \(1-\beta\) 는 본질적으로 신호 대 잡음비 (signal-to-noise ratio) 의 함수다. 효과 크기 \(d\) 는 신호, 표본 크기 \(n\) 은 잡음 감소 도구다 (\(\text{SE} \propto 1/\sqrt{n}\)). 모집 부진은 분모의 \(\sqrt{n}\) 을 깎아 잡음을 키우는 행위와 같다. 신호 자체가 약한 (작은 효과 크기) 시험에서 모집 부진이 생기면 효과는 잡음에 묻혀버린다.

직관적으로: \(n=500 \to 300\) 으로 줄면 \(\sqrt{n}\) 은 \(22.4 \to 17.3\) 으로 약 23% 감소. 그런데 검정력은 비선형이라 80% → 56% 정도로 더 크게 무너진다 (코드 섹션에서 실증).

4.3 외적 타당도 훼손 (External Validity)

모집 부진을 만회하기 위해 적격 기준을 좁게 설정하면 결과를 일반화할 수 없는 표본이 만들어진다. 제약 산업 시험에서 고령자, 비만, 동반 질환자를 배제하는 관행이 대표적이다. 외과 시험에서는 참여 외과의의 술기 수준이 너무 높아 지역 외과의에게 일반화가 어려운 경우도 있다.

특히 RCT 모집 시 자주 사용되는 run-in period (무작위 배정 전 순응도가 낮은 환자를 사전 제외) 와 enrichment (이전에 치료에 잘 반응한 환자를 우선 모집) 는 내적 타당도는 높이지만 외적 타당도를 약화시킨다. 일반 인구의 상당수는 치료 순응이 어려운 사람들이라는 사실을 인위적으로 배제하기 때문이다.

비유 — 헬스장 후기 함정: 헬스장 광고에 실린 회원 후기는 모두 “꾸준히 다닌 사람” 이 쓴 것이다. 광고를 보고 등록한 99% 의 사람들이 한 달 후 사라진다는 사실은 후기에 등장하지 않는다. Run-in period 와 enrichment 는 RCT 의 헬스장 후기 를 만드는 장치다. 시험 결과는 “약을 잘 먹는 사람” 에서만 측정되었지만, 일반 임상 진료에서는 약을 자주 잊는 사람들이 절반 이상이다.

반사실: 만약 한 항우울제 RCT 가 (1) run-in 으로 약 부작용 호소자를 사전 제외하고 (2) 첫 2 주에 반응이 좋은 사람만 본 시험에 등록시켰다면, 결과 “60% 반응” 은 일반 환자의 반응을 대표하지 않는다. 일반 진료에서 같은 약을 처방하면 반응률이 30~40% 로 떨어질 수 있다. 외적 타당도 훼손은 결과의 거짓이 아니라, 결과가 적용 가능한 모집단의 비현실적 축소 다.

4.4 윤리적 문제 (Ethical Concerns)

모집 부진의 연쇄 효과는 윤리 영역으로 번진다. 표본 크기 달성을 위한 추가 자금 요청은 다른 (어쩌면 더 중요한) 시험에서 자금을 전용시킨다. 모집 부진으로 결과 발표가 지연되면 잠재적으로 생명을 살리는 치료의 식별이 늦어진다. Schulz 가 인용하는 가장 강력한 사례는 streptokinase 시험으로, 모집 지연이 미국에서 약 10,000 명의 예방 가능한 사망으로 이어졌을 가능성이 보고되었다 (Schulz & Grimes, 2019, Ch.10, Lasagna 1979 에서 인용).

직관: 모집 부진은 단지 “시험이 늦어지는 것” 이 아니다. 의사결정에 필요한 근거의 도착이 늦어지면 그 사이에 의학적 해악(harm) 이 누적된다. 이 누적 비용을 무시하면, 표면적으로는 “신중한 시험 진행” 처럼 보여도 실제로는 비윤리적 선택이 된다.

streptokinase 사례를 한 줄로: 효과 있는 약의 도입이 1 년 늦어지면, 그 1 년 동안 그 약을 받지 못한 환자들이 사망한다. 모집 부진은 그 1 년을 만들어내는 가장 흔한 원인이다.

5 추정의 비관적 보정 — Lasagna · Muench · π 규칙

연구자는 모집 가능 환자 수와 모집 속도를 체계적으로 과대 추정한다. Schulz 는 임상시험계의 세 가지 경험 법칙을 소개한다 (Schulz & Grimes, 2019, Ch.10). 셋 모두 연구자의 낙관 편향을 수치적으로 반박 하는 도구다.

5.1 Lasagna 법칙 (1979)

Louis Lasagna 가 단회 진통제 시험 모집 중 보고한 일화에서 유래한다.

모집 기간 중 외과 서비스에는 8000 명 이상의 수술 환자가 있었지만, 실제로 등록된 사람은 100 명에 불과했다.

비공식적으로 “예상 모집 가능 환자 수는 실제의 80 배 가량 부풀려져 있다” 는 의미로 인용된다. 80 이라는 숫자가 정밀한 게 아니라, 연구자의 낙관 편향이 거대하다는 점이 핵심이다.

왜 8000 → 100 인가? 단계별 분해:

단계 통과율 (예시) 누적 통과

8000 명: 외과 서비스 전체 환자 - 8000

진통제 적용 가능한 수술 종류만 50% 4000

동반 질환 없는 환자 50% 2000

연구자가 깨어 있는 시간에 수술받은 환자 30% 600

통증 평가가 가능한 인지 상태 50% 300

동의서 받을 시간 여유 70% 210

본인 동의 50% 105

결과 - 약 100

각 단계의 통과율은 그럴듯해 보이지만, 곱해지면 1.25% 만 남는다. Lasagna 의 80 배 = 8000/100 은 정확히 이 multiplicative funnel 의 결과다. 연구자는 단계마다 손실을 직관적으로 합산하지만, 실제로는 곱해진다는 사실을 잊는다.

단계	통과율 (예시)	누적 통과
8000 명: 외과 서비스 전체 환자	-	8000
진통제 적용 가능한 수술 종류만	50%	4000
동반 질환 없는 환자	50%	2000
연구자가 깨어 있는 시간에 수술받은 환자	30%	600
통증 평가가 가능한 인지 상태	50%	300
동의서 받을 시간 여유	70%	210
본인 동의	50%	105
결과	-	약 100

5.2 Muench 제3법칙

Ederer (1975) 가 정리한 표현으로,

\[ N_\text{realistic} = \frac{N_\text{estimated}}{10} \]

연구자가 추정하는 모집 가능 환자 수를 10 으로 나누면 더 현실적인 값이 된다는 경험칙이다.

수식 직관: 왜 하필 10 인가? Lasagna 의 분해 (위) 에서 보듯, 각 단계 50~70% 통과 × 5~6 단계 의 곱은 대략 1/10 근처에 안착한다. 즉 10 은 마법 숫자가 아니라 전형적 multi-stage funnel 의 자연스러운 누적 손실률 이다.

\[0.6^5 \approx 0.078, \qquad 0.7^5 \approx 0.168\]

즉 5~6 단계의 50~70% 통과 funnel 은 평균 5~10% 도달률, 즉 실제 1/10~1/20 만 옥상에 도달한다.

5.3 Schulz 의 π 규칙

저자들이 제안하는 비관적 보정으로,

\[ T_\text{actual} \approx \pi \cdot T_\text{planned} \]

계획한 모집 기간에 약 3.14 를 곱하면 실제 소요 기간에 근접한다. 개발도상국처럼 물류 도전이 큰 환경에서는 \(2\pi\) 를 곱한다.

왜 π 인가? 직관적 해석: π 는 정확한 수학 상수가 아니라 “약 3 배” 를 부르는 문학적 표현이다. 실제 모집은 다음 세 가지 지연이 곱해진 결과다.

램프 업 지연 (1.5 배) — 첫 환자 등록까지 IRB 승인·인력 훈련·서류 정리에 예상보다 50% 더 걸림

분기별 변동 (1.3 배) — 휴가·명절·인플루엔자 시즌 등으로 일부 분기는 모집 0

꼬리 길이 (1.5 배) — 마지막 환자 모집은 처음보다 2~3 배 느림 (희귀한 적격자만 남음)

\(1.5 \times 1.3 \times 1.5 \approx 2.93 \approx \pi\). 즉 π 는 “세 가지 지연 요인의 곱” 의 자연스러운 근사다. 개도국 (\(2\pi\)) 에서는 물류·통신·규제 추가 요인이 곱해진다.

직관: 이 세 법칙이 공통으로 말하는 바는 단순하다. 연구 계획서의 모집 추정치를 그대로 믿지 말 것. 신청서에 적힌 “12 개월 내 500 명 모집” 은 보통 “30~36 개월 내 200~300 명” 으로 현실화된다. Sample size 계산이 정밀할수록 모집 추정의 비관적 보정 없이는 시험 자체가 출발선에서 좌초한다.

실무 권고: 신청서 작성 시 “예상치 + Muench 보정 (1/10)” 과 “예상 기간 × π 규칙” 을 함께 적어 두면 (1) 자기 검열, (2) 자금 기관 설득, (3) 사후 차이 발생 시 변명 근거 모두에 도움이 된다.

6 모집 깔때기의 정량화 — 세 분수

Schulz 는 모집 과정을 벤다이어그램 으로 시각화하고, 단계별 분수(fraction) 로 정량화한다 (Schulz & Grimes, 2019, Ch.10, Figs. 10.1~10.2).

Target population (전체 모집단)
        ↓
A: Approached (잠재 참여자 — 접근됨)
        ↓ Eligibility screening
B: Eligible (적격 — 의학적 기준 충족)
        ↓ Informed consent
C: Enrolled (등록됨 — 동의 후 실제 참여)

세 가지 핵심 분수는 다음과 같이 정의된다.

\[ \text{Eligibility fraction} = \frac{B}{A}, \qquad \text{Enrolment fraction} = \frac{C}{B}, \qquad \text{Recruitment fraction} = \frac{C}{A} \]

수식 직관: 세 분수는 각각 다른 인과 책임자 를 가리킨다.

분수 누구의 책임 일상어 비유

\(B/A\) Eligibility fraction 연구 설계자 (적격 기준 작성자) 콘서트 입장 자격 (나이·티켓 종류)

\(C/B\) Enrolment fraction 연구 인력 (동의 절차 운영자) 매표소 직원의 친절·설명 능력

\(C/A\) Recruitment fraction 두 책임의 곱 광고 본 사람 중 실제 입장한 비율

즉 \(C/A = (B/A) \times (C/B)\). 두 단계 손실의 곱이라는 점이 중요하다. 한 단계에서 70% 통과해도 두 단계 곱하면 49% 로 떨어진다.

분수	누구의 책임	일상어 비유
\(B/A\) Eligibility fraction	연구 설계자 (적격 기준 작성자)	콘서트 입장 자격 (나이·티켓 종류)
\(C/B\) Enrolment fraction	연구 인력 (동의 절차 운영자)	매표소 직원의 친절·설명 능력
\(C/A\) Recruitment fraction	두 책임의 곱	광고 본 사람 중 실제 입장한 비율

Schulz 가 제시하는 예시 (\(A = 1000, B = 700, C = 500\)) 를 적용하면:

분수	값	해석
Eligibility fraction \(B/A\)	700/1000 = 70%	접근한 잠재 참여자 중 적격 비율
Enrolment fraction \(C/B\)	500/700 = 71%	적격자 중 동의·등록 비율
Recruitment fraction \(C/A\)	500/1000 = 50%	전체 접근자 중 등록 비율

이 분수들은 모집 깔때기의 어느 단계에서 환자가 손실되는지 를 진단하는 도구다. 진단 매트릭스로 정리하면:

Eligibility \(B/A\)	Enrolment \(C/B\)	진단 — 어디가 막혔는가	처방
낮음 (예: 30%)	높음 (예: 90%)	적격 기준이 너무 엄격 — 외래 환자 대부분이 떨어짐	적격 기준 완화 (효과 vs 외적 타당도 trade-off)
높음 (예: 80%)	낮음 (예: 30%)	동의 거부 다수 — 정보 비대칭·신뢰 부족·시간 부담	동의 절차 단순화·전화 follow-up·인센티브
둘 다 낮음		깔때기 전반 부실 — 모집 채널·홍보·연구자 동기 문제	모집 전략 전면 재설계 (Cochrane 4 전략 적용)
둘 다 높음		정상 — 단, 일반화 가능성 점검 (cherry-picking 위험)	진행 + run-in/enrichment 의도적 사용 여부 확인

반사실 시나리오 — 두 사례 비교:

시험 X: \(B/A = 80\%, C/B = 30\%\) → \(C/A = 24\%\). 적격은 많지만 등록이 적다. 동의 절차의 문제.

시험 Y: \(B/A = 30\%, C/B = 90\%\) → \(C/A = 27\%\). 적격은 적지만 등록은 많다. 적격 기준의 문제.

두 시험의 최종 등록률은 비슷하지만 (24% vs 27%), 처방은 정반대다. 시험 X 에는 동의 절차 개선을, 시험 Y 에는 기준 완화를 적용해야 한다. 분수를 단계별로 측정하지 않으면 wrong intervention 이 적용된다.

172 개 RCT 보고서를 분석한 연구는 소수만이 이 분수들을 계산할 수 있을 정도로 상세히 보고 한다고 밝혔다. 한 사람을 등록하기 위해 심사해야 하는 사람 수의 중앙값은 1.8 명이지만, 범위는 1 명 ~ 68 명에 이른다 (Schulz & Grimes, 2019, Ch.10, Gross 외 2002 인용).

숫자 → 일상어: “1 명 등록에 68 명 심사” 는 마트 시식대에서 시식자 1 명을 매대로 안내하기 위해 68 명에게 말 거는 격이다. 이런 시험에서는 적격 기준을 5 단어만 줄여도 모집 효율이 10 배 좋아질 수 있다.

so what: CONSORT flow diagram 이 이 깔때기의 표준 보고 양식이다. 외적 타당도를 판단하려면 독자가 이 분수들을 계산할 수 있어야 한다. 보고가 누락되면 시험 결과를 어느 환자 모집단에 적용할 수 있는지 알 수 없다.

7 챕터의 줄기 — 대안 설계와 검증된 4 전략 (후속 글 안내)

Schulz Ch.10 의 후반부는 두 흐름으로 나뉜다. 본 개관에서는 헤드라인만 제시하고, 후속 글에서 자세히 다룬다.

7.1 전통 RCT 의 대안 설계 (후속: C-SCH10-2 전반부)

설계	핵심 아이디어	윤리적 평가
Single Randomised Consent (Zelen, 1979)	무작위 배정 후에만 새 치료군에 동의 요청	동의 권 침해 — 권장 안 함
Double Randomised Consent	양 군 모두에 사후 동의 요청	Zelen 의 윤리 결함은 완화하나 cross-over 위험
Partially Randomised Patient-Preference Trial	강한 선호자는 cohort, 무차별자만 무작위	외적 타당도 보강 / sample size 약 2 배
Cohort Multiple RCT (cmRCT, Relton 2010)	큰 cohort 에서 일부에게만 새 처치 제안	사후 무작위 거부에 따른 dilution bias 위험

Schulz 의 결론은 “Zelen 계열은 거의 권장하지 않으며, partially randomised patient-preference 와 cmRCT 는 특정 맥락에서 유용하지만 한계가 명확하다” 는 것이다.

각 설계의 직관적 동기:

Zelen — “무작위 배정 자체를 모르는 게 좋다. 어느 군에 갈지 모른 채 동의하는 부담이 모집 거부의 가장 큰 원인이니까.” → 그러나 동의 권 침해 (autonomy violation) 라는 윤리 비용이 너무 크다.

Partially Randomised — “강한 선호 (예: ‘나는 무조건 수술하고 싶다’) 가 있는 사람을 무작위 배정하는 건 비현실적이다. 그러니 무차별자만 무작위로.” → 무작위군과 cohort 군 결과 비교가 가능해 외적 타당도 보강. 단점은 sample size 가 약 2 배.

cmRCT — “큰 cohort 를 미리 만들어두고, 새 개입을 특정 시점에 무작위 일부에게 제안하면 동의 부담이 줄어든다.” → 그러나 사후 거부자가 dilution bias 를 만든다.

이 세 설계는 본질적으로 동의 부담 ↔︎ 통계적 정밀성 의 trade-off 를 다른 방향으로 푼다.

7.2 Cochrane 메타리뷰가 입증한 4 전략 (후속: C-SCH10-2 후반부)

Treweek 외 Cochrane 체계적 문헌고찰 (45 개 시험 분석) 이 경험적 근거가 있다 고 식별한 4 가지 전략이다.

전략	효과 (Cochrane 메타)	주의
Open-label design	RR 1.2 (95% CI 1.1~1.4)	보강된 모집 vs. 추적 손실 위험 trade-off
Opt-out approach	RR 1.4 (95% CI 1.1~1.8)	무작위 배정 전이라 내적 타당도 영향 적음
Telephone contacts	OR 2.0 (95% CI 1.0~3.7)	텍스트 메시지는 RR 35.1, CI 매우 넓음
Financial incentives	금연 시험 13 배 (CI 1.7~98.2)	강제 동의 우려 — 임상적 동의 자율성과 균형

왜 이 4 가지만 효과적인가? — 행동학적 직관:

Open-label — 정보 비대칭 해소. “어떤 약을 받을지 안다” 는 자체가 두려움을 줄임. 단, 측정 단계에서 placebo 효과·측정 편향이 들어와 내적 타당도 를 위협.

Opt-out — 행동 경제학의 default effect. “거부 의사를 적극 표현하지 않으면 자동 포함” 이 모집을 1.4 배 늘림. 단, 무작위 배정 전 이라 실험 자체의 윤리적 문제는 적음.

Telephone contact — 인간적 접촉이 종이 동의서보다 신뢰를 쌓음. 텍스트 RR 35 는 통계적으로 매우 불확실 (CI 2~580) 하지만 방향은 일치.

Financial incentives — 단순한 motivation 이지만, 임상에서는 “강제 동의” 의 윤리 우려가 있어 액수와 절차가 까다롭다.

이 네 가지는 모두 모집 funnel 의 Gate 1 (접근) ~ Gate 3 (동의) 단계에 직접 작용한다. 통계 모형이 아닌 행동 디자인 (behavioral design) 차원의 개입이다.

반사실 시나리오: “직관적으로 좋아 보이는 전략 중 다수는 실제 검증에서 효과가 없거나 오히려 모집을 떨어뜨렸다” 는 점이 Schulz 가 강조하는 핵심이다 (Schulz & Grimes, 2019, Ch.10, Foy 외 2003 인용). 임상적 직관(clinical hunch) 은 실험적 검증 없이 신뢰할 수 없다.

실패한 직관 사례: 더 길고 자세한 동의서 — 환자가 “더 정확한 정보로 결정할 수 있다” 는 직관이지만, 실제로는 20 페이지짜리 동의서를 읽다가 포기한다. Schulz 가 “환자는 종종 동의서를 읽지도 이해하지도 못한다” 고 지적하는 부분이다.

8 IT / 디지털 실험 매핑

RCT 의 모집 개념은 IT A/B 테스트의 노출(exposure) · 자격(eligibility) · 할당(assignment) 깔때기 와 1:1 대응된다. 핵심 차이는 동의(consent) 의 명시 여부와 자동화 가능성이다.

역학 (RCT)	IT (A/B Test)	비고
Target population	전체 사용자 (DAU/MAU)	측정 모집단 정의 필요
Approached (A)	실험 진입점에 도달한 세션·사용자	exposure 로깅
Eligible (B)	실험 자격 (segment 조건 충족)	feature flag 평가 결과
Enrolled (C)	실험 군에 실제 할당된 unit	assignment service 출력
Eligibility fraction \(B/A\)	Segment match rate	너무 낮으면 모수 부족
Enrolment fraction \(C/B\)	Opt-in rate (활성 실험은 보통 100%)	명시 동의 시험은 IT 에서 드묾
Recruitment fraction \(C/A\)	Effective traffic ratio	SRM 점검의 기준
CONSORT flow diagram	Funnel diagram in experiment platform	표준 보고 양식
Lasagna 법칙·π 규칙	“MDE 충족 트래픽 도달 시간” 의 비관적 보정	실험 기간 추정 시 적용
Run-in period · enrichment	Burn-in period · pre-exposed user 제외	외적 타당도 손실 trade-off 동일

왜 이 매핑이 동형(isomorphic) 인가?: RCT 와 IT A/B Test 모두 잠재적 결과(potential outcomes) 프레임워크 를 공유한다. 즉 “동일 단위에 대한 처치/대조 두 평행 우주의 차이” 를 추정하려는 통계 구조가 동일하다. 차이는 단지 단위 가 환자인지 사용자인지, 처치 가 약인지 UI 변경인지 뿐이다. 그러므로 모집 funnel 의 단계별 정량화 도구도 동형으로 옮겨갈 수 있다.

이 매핑이 갖는 실무적 함의는 두 가지다.

8.1 SRM (Sample Ratio Mismatch) 점검

IT 실험에서 처치군/대조군의 트래픽 비율이 설계와 통계적으로 어긋나는 현상은, RCT 의 “각 단계에서 깔때기가 비대칭으로 줄어드는 현상” 과 동형이다. 두 영역 모두 깔때기 단계별 보고 (CONSORT flow / experiment funnel) 가 진단의 출발점이다.

비유: 50:50 으로 무작위 배정하기로 했는데 결과 데이터에서 처치 49% : 대조 51% 가 나왔다고 하자. SRM 검정은 이것이 우연인지 시스템 결함인지 판별한다. 임상에서 “무작위 배정했는데 처치군이 평균 65 세, 대조군이 평균 60 세” 인 baseline imbalance 와 같은 진단 도구다. 두 도메인 모두 깔때기의 단계별 손실이 비대칭으로 일어났는가? 를 묻는다.

8.2 Run-in Period 의 trade-off

IT 에서 신규 사용자만 분석 (novelty effect 제거), 또는 active user 만 포함 (high-engagement bias) 같은 처리는 임상의 enrichment 와 같은 외적 타당도 손실을 초래한다. 의사결정의 일반화 범위를 명시해야 한다.

반사실 — IT 사례: 새 추천 알고리즘 A/B 테스트에서 “지난 30 일 활성 사용자만” 분석했더니 효과가 +5%. 그런데 launch 후 전체 사용자에서 측정한 효과는 +1%. 왜? 활성 사용자는 이미 추천을 잘 따르는 high-engagement 그룹이었기 때문이다. IT 의 active user filter 는 RCT 의 enrichment 와 정확히 같은 외적 타당도 손실 을 만든다.

9 코드 예시 — 모집 깔때기의 분수 계산과 검정력 영향

Cochrane 4 전략 중 open-label 설계가 모집을 RR 1.2 (95% CI 1.1~1.4) 로 개선한다는 결과를, sample size 계산에 어떻게 반영할지 시뮬레이션한다.

import numpy as np
from scipy import stats

# 기본 모집 모수 (가상 시험)
target_population = 10000   # 잠재 모집단
A = 1000   # 접근됨
B = 700    # 적격
C = 500    # 등록 (전통 RCT)

# 분수 계산
eligibility_fraction = B / A
enrolment_fraction   = C / B
recruitment_fraction = C / A

print(f"Eligibility fraction : {eligibility_fraction:.2%}")
print(f"Enrolment fraction   : {enrolment_fraction:.2%}")
print(f"Recruitment fraction : {recruitment_fraction:.2%}")

# Cochrane open-label 효과: 모집 RR 1.2
# 동일 접근자 수에서 등록자 수가 1.2 배로 증가
RR_open_label = 1.2
C_open_label = int(C * RR_open_label)
print(f"\nOpen-label C (예상) : {C_open_label}")
print(f"Recruitment fraction : {C_open_label / A:.2%}")

# π 규칙 적용 — 계획 vs 실제 모집 기간
T_planned_months = 12
T_actual_months  = np.pi * T_planned_months
print(f"\nT_planned : {T_planned_months} 개월")
print(f"T_actual  : {T_actual_months:.1f} 개월 (π 규칙)")

# 검정력 영향 — sample size 미달 시
# 계획 n=500 (group 당), 실제 n=300 인 경우
from statsmodels.stats.power import NormalIndPower
power_analysis = NormalIndPower()

planned_power = power_analysis.power(
    effect_size=0.2, nobs1=500, alpha=0.05, ratio=1.0
)
actual_power = power_analysis.power(
    effect_size=0.2, nobs1=300, alpha=0.05, ratio=1.0
)
print(f"\nPlanned power (n=500): {planned_power:.2%}")
print(f"Actual  power (n=300): {actual_power:.2%}")

이 코드는 “모집 부진이 검정력에 미치는 정량적 영향” 을 보여준다. 효과 크기 0.2 (Cohen’s d) 에서 그룹당 500 명 → 80% 검정력이 보장되지만, 300 명으로 떨어지면 약 56% 로 하락한다. 임상적 차이가 존재해도 절반 가까이 놓치게 된다.

수치 직관 보강: Cohen’s d = 0.2 는 “작은 효과” 의 관례적 임계 (Cohen 1988). 이 정도 효과를 감지하려면 그룹당 약 393 명이 필요하다 (검정력 80%, \(\alpha=0.05\) 양측). \(n\) 이 절반 (약 200 명) 로 떨어지면 검정력은 약 51% — 거의 동전 던지기 수준. 모집 부진이 임상 의사결정 가능성 을 어떻게 무력화하는지 명료히 보여주는 숫자다.

10 결론 — Ch.10 의 한 줄 요약

모집은 RCT 설계의 가장 약한 고리이며, 통계 모형이 아니라 인간 행동의 문제다.

이 명제가 후속 글들의 출발점이 된다. 한 단락으로 풀어 쓰면 다음과 같다.

RCT 의 모든 통계 정밀성은 모집이 성공할 때만 의미를 가진다. 그런데 모집은 통계학자가 아니라 현장 인력 · 잠재 환자 · 임상의 · 가족 의 행동 결정으로 이루어진다. 이 행동들은 정보 비대칭, 신뢰, 시간 압박, 두려움, 인센티브 같은 변수에 의해 결정되며, 통계 모형으로 깔끔하게 표현되지 않는다. 모집을 “통계 설계의 부속물” 로 취급하면 31% 도달률·25% 중단률 의 함정에 빠진다. 모집을 별도의 행동 디자인 영역 으로 다뤄야 비로소 sample size 계산이 의미를 가진다.

후속 글에서는:

C-SCH10-1 (모집 어려움의 정량화) — Lasagna · Muench · π 규칙의 실증적 분포, fraction 의 단계별 진단법, run-in/enrichment 의 외적 타당도 trade-off
C-SCH10-2 (모집 개선 전략) — Zelen · Double Consent · Partially Randomised · cmRCT 의 사례 비교, Cochrane 4 전략의 행동학적 메커니즘, 소셜 미디어 · 비즈니스 모델 등 미래 방향

을 깊게 다룬다.

11 관련 주제

선행 지식

Phase C 후속 글 (placeholder)

모집 어려움의 정량화 — Ch.10.1 — Lasagna · π · fraction 실증
모집 개선 전략 — Ch.10.2 — Zelen · cmRCT · Cochrane 4 전략

다른 카테고리 연결

표본 크기와 검정력 — 모집 부진 → 검정력 손실의 IT 버전
Surveilance 카테고리 — FDA Subject Enrollment 규제 (placeholder)

12 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research: Randomised Controlled Trials and Observational Epidemiology (2nd ed.), Ch.10 Boosting Recruitment to Randomised Controlled Trials. Elsevier.
Lasagna, L. (1979). Problems in publication of clinical trial methodology. Clin. Pharmacol. Ther. 25, 751-753.
Treweek, S., Lockhart, P., Pitkethly, M., et al. (2013). Methods to improve recruitment to randomised controlled trials: Cochrane systematic review and meta-analysis. BMJ Open 3, e002360.
Relton, C., Torgerson, D., O’Cathain, A., Nicholl, J. (2010). Rethinking pragmatic randomised controlled trials: introducing the “cohort multiple randomised controlled trial” design. BMJ 340, c1066.
Schulz, K. F., Altman, D. G., Moher, D., CONSORT Group. (2010). CONSORT 2010 statement: updated guidelines for reporting parallel group randomised trials. BMJ 340, c332.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum.