이 글은 Schulz Ch.16 Blinding 시리즈의 마지막 글이다. Ch.16 개관, 효과와 용어, Masking · Placebo 에 이어, Blinding 의 편향 방지 효과와 평가 를 다룬다 (Schulz full md L:7030~7382).
1 진입 직관 — Blinding 의 진짜 가치는 무엇인가
이전 글에서 blinding 의 메커니즘과 도구 를 다뤘다. 그러나 결정적 질문 이 남는다.
“Double blind RCT 가 항상 best quality 인가?”
직관적 답: 예. 그러나 Schulz 는 강하게 부정.
“Double blind 가 RCT quality 의 sine qua non (필수 조건) 이 아니다. 시험은 methodologically sound 하면서 double blind 가 아닐 수 있고, double blind 면서 unsound 일 수 있다.” (Schulz 2019, Ch.16)
이 글의 목적: Blinding 이 언제 결정적이고 언제 그렇지 않은가 의 nuanced 평가, 그리고 blinding 성공 여부 평가 의 한계.
2 “Double Blind = Quality” 미신 비판
2.1 Schulz 의 입장
“일부 연구자, 독자, 편집자가 blinding 의 중요성을 과대평가. 이 미신이 오히려 RCT 평가를 왜곡.”
2.2 Lasagna (1955) 의 통찰
“Placebo 와 double blind 가 fetish (숭배 대상) 의 지위에 도달. 이들이 가지는 Automatic Aura of Respectability, Infallibility, Scientific Savoir-faire 는 일부 상황에서 부당하게 부여 된다.”
2.3 두 가지 반례
2.3.1 반례 1: Double Blind 면서 Unsound
| 결함 | 사례 |
|---|---|
| 부적절 sequence generation | Block size 4 fixed 의 비맹검 효과 |
| 부적절 allocation concealment | 봉투 hot light deciphering |
| 무작위 후 부적절 제외 | Sulfinpyrazone 32% → 21% |
| Loss to follow-up 30% | 5-and-20 rule 위반 |
함의: Double blind 라벨은 위 결함을 보장 안 함. Blinding 만으로 RCT 의 모든 편향 차단 불가능.
2.3.2 반례 2: Single Blind / Open Label 이면서 Sound
| 사례 | Blinding 한계 + Sound 설계 |
|---|---|
| 외과 시험 | Double blind 불가능 — 외과의가 자기 술기 인지. 평가자 blinding 으로 보완 가능 |
| 행동 개입 시험 | Counselor 가 어떤 개입 했는지 인지. 평가자 + 객관적 outcome 으로 보완 |
| Pain trial (ear vs thumb sampling) | 환자가 어디 sampling 인지 자명. 그러나 통증 점수 자체가 측정 |
반사실: 외과 시험에서 double blind 시도 는 불가능. 그러나 결과 평가자만 blind + 객관적 outcome (사망·합병증) 이면 충분히 sound.
3 Multiple Sclerosis Trial (Noseworthy 1994) — 깊이
이전 글에서 언급한 사례를 깊이 분석.
3.1 시험 배경
다발성 경화증 (MS) 환자의 cyclophosphamide + plasma exchange 시험. 두 신경과 의사 그룹 평가:
| 그룹 | 처치 정보 | 평가 결과 |
|---|---|---|
| Blinded 신경과 의사 | 모름 | 처치군 vs 대조군 유의 차이 없음 |
| Unblinded 신경과 의사 | 알고 있음 | 처치군이 유의하게 호전 |
3.2 메커니즘 분해
3.2.1 평가 도구
EDSS (Expanded Disability Status Scale) — 0~10 의 주관적 점수.
3.2.2 Borderline 평가
환자 X 의 진짜 상태: EDSS 점수 2.5 (애매)
- Blinded 평가자: 2.0 또는 3.0 절반 확률 (객관)
- Unblinded 평가자 (처치군 인지): 2.0 우선 (호전 방향)
- Unblinded 평가자 (대조군 인지): 3.0 우선 (악화 방향)
이 경계 지점의 systematic 편향 이 효과 차이를 만든다.
3.3 함의
결정적 메시지: Subjective outcome 시험에서 평가자 blinding 은 불가결. 그러나 외과 술기·행동 개입 같이 처치 자체가 visible 한 시험에서도 결과 평가자만 blind 가능.
3.4 Schulz 의 권장
“최소한 평가자 blinding 은 거의 항상 가능하고 권장. 객관적 결과 (사망) 는 영향 작지만, 주관적 결과 (통증·인지·기능) 는 결정적.”
4 Subjective vs Objective Outcome 별 Blinding 권장
| Outcome 유형 | Blinding 영향 | 권장 |
|---|---|---|
| Hard objective (사망, 검사 수치) | 작음 | Optional |
| Soft objective (입원, X-ray) | 중간 | 평가자 blinding |
| Subjective (통증, 인지) | 매우 큼 | 모든 그룹 blinding |
4.1 사례
| 시험 | Outcome | Blinding 권장 |
|---|---|---|
| 항암제 (사망률) | Hard objective | Blinding 없어도 OK |
| 항생제 (감염 재발) | Soft objective | 평가자 blind |
| 항우울제 (HAM-D 점수) | Subjective | Triple blind 권장 |
| 수술 (재수술률) | Soft objective | 평가자 blind |
| 진통제 (통증 점수) | Subjective | Triple blind 권장 |
5 Test of Blindness — Schulz 의 비판
5.1 기존 관행
시험 종료 시 참여자·평가자에게 어느 처치를 받았는지 추측 하게 하여 blinding 성공 여부 평가.
5.2 Bang Blinding Index (BBI)
“Bang Blinding Index 는 우연 기댓값을 넘는 정확 추측 비율. BBI = 0 이면 무작위 추측 (blinding 성공). BBI = 1 이면 완전 unblinding.”
5.3 사례 (Boulind 외 2013, Br. J. Surg.)
복강경 대장 절제 후 경막외 진통 vs wound infusion catheter 비교 시험:
| 그룹 | BBI |
|---|---|
| Epidural | 0.15 (15% 우연 초과) |
| Wound infusion | 0.31 (31% 우연 초과) |
해석: WIC 그룹이 더 잘 추측. 그러나 이게 blinding 실패의 증거인가?
5.4 Schulz 의 비판 — Test of Blindness 의 3 가지 한계
5.4.1 한계 1: 부작용 단서
메커니즘: 진짜 약의 명확한 부작용 (입 마름, 두통, 진정) 으로 환자가 추측. Blinding 자체는 적절했지만 부작용으로 인해 후반부 unblinding.
예시: 항우울제 시험. 진짜 약은 진정 효과. 환자가 졸음 느낌 → “내가 진짜 약 받았다” 추측. Blinding 의 기술적 실패가 아님.
5.4.2 한계 2: 효과 단서
메커니즘: 임상 호전 으로 환자·의사가 추측. “내 통증이 줄었으니 새 약 받은 것” — 정확한 추측이지만 blinding 의 문제 아님.
예시: 만성 통증 시험. 새 약이 효과 있어 통증 감소. 환자가 호전으로 추측 → 추측 정확도 높음. 그러나 이는 효과 시험의 자연 결과, blinding 실패가 아님.
5.4.3 한계 3: 전략적 응답
메커니즘: 참여자·평가자가 unblinding 사실을 의도적으로 숨김. 추측 정확하지만 반대 응답 — 사회적 바람직성 편향.
반사실: 평가자가 처치 정보 추측. 그러나 “blinding 위반 인정” 의 사회적 부담 → 반대 응답 (틀린 추측 거짓 보고). BBI 가 0 으로 측정 되지만 실제는 unblinded.
5.5 CONSORT 2010 의 결정
“Test of blindness 는 해석 어려움 으로 checklist 에서 제외.” (CONSORT 2010)
5.6 Schulz 의 권장
“Test of blindness 의 유용성에 신중. 시행한다면 결과 보고. Blinding 절차의 실패 (예: non-identical placebo, audit trail 부재) 만이라도 보고.”
6 What to Look for — Blinding 보고 평가 체크리스트
CONSORT 권장 + Schulz 의 추가 권장.
6.1 Step 1: Blinding 라벨 확인
[O] “Double blind” 라벨 있음 [X] “Double blind” 라벨만 (세부 부재)
6.2 Step 2: 누가 Blind 됐는지 명시
[O] “참여자, 의료 제공자, 결과 평가자 모두 blinded” [X] “Trial was double blind”
6.3 Step 3: 어떻게 Blind 했는지
[O] Identical capsules (외관·맛), tamper-proof packaging [O] Allocation schedule 보관 위치 [O] 코드 해제 시점·조건 [X] “We blinded participants” (메커니즘 부재)
6.4 Step 4: Blinding 성공 여부
[O] Active placebo 사용 (필요 시) [O] Double-dummy 사용 (필요 시) [X] Blinding 성공 가정 (검증 부재)
6.5 Step 5: Blinding 한계 명시
[O] “Surgical trial 이라 외과의 blinding 불가능, 그러나 평가자는 blind” [X] “Double blind” 라벨만 (실제는 single blind)
7 코드 예시 — Bang Blinding Index 시뮬레이션
import numpy as np
np.random.seed(42)
n_per_arm = 100
# 시나리오 1: 완벽 blinding (참여자 추측 무작위)
guess_perfect = np.random.choice([0, 1], size=2*n_per_arm)
true_T = np.array([0]*n_per_arm + [1]*n_per_arm)
correct_perfect = (guess_perfect == true_T).mean()
print(f"[완벽 blinding]")
print(f"추측 정확도: {correct_perfect:.2f} (이론 0.50)")
bbi_perfect = 2 * (correct_perfect - 0.5)
print(f"BBI: {bbi_perfect:.2f} (0 이상적)")
# 시나리오 2: 부작용으로 인한 unblinding (60% 정확 추측)
guess_side = np.where(np.random.random(2*n_per_arm) < 0.6, true_T, 1 - true_T)
correct_side = (guess_side == true_T).mean()
bbi_side = 2 * (correct_side - 0.5)
print(f"\n[부작용 unblinding]")
print(f"추측 정확도: {correct_side:.2f}")
print(f"BBI: {bbi_side:.2f}")
print("→ BBI 가 양수지만, blinding 실패가 아닌 *부작용 단서* 결과")
# 시나리오 3: 효과로 인한 추측 (호전 환자 = 처치군)
# 처치군 호전 60%, 대조군 호전 30%
improved = np.where(true_T == 0,
np.random.random(2*n_per_arm) < 0.60,
np.random.random(2*n_per_arm) < 0.30)
guess_outcome = np.where(improved, 0, 1) # 호전 → 처치군 추측
correct_outcome = (guess_outcome == true_T).mean()
bbi_outcome = 2 * (correct_outcome - 0.5)
print(f"\n[효과 단서 unblinding]")
print(f"추측 정확도: {correct_outcome:.2f}")
print(f"BBI: {bbi_outcome:.2f}")
print("→ BBI 양수, 그러나 *효과의 자연 결과* — blinding 의 문제 아님")
print("\n[BBI 의 해석 한계]")
print("→ BBI > 0 이라고 항상 blinding 실패 아님")
print("→ 부작용·효과·전략적 응답 모두 BBI 에 영향")
print("→ CONSORT 2010 이 test of blindness 를 checklist 에서 제외한 이유")8 IT / 디지털 실험 매핑
| 역학 (RCT) | IT (A/B Test) |
|---|---|
| Sine qua non 미신 | “Double blind A/B test 만 신뢰” 미신 |
| Multiple sclerosis 사례 | Engineer 의 자기 feature 평가 함정 |
| Test of blindness | A/A test (platform validation) |
| BBI | Pre-period statistical test |
| Subjective outcome | NPS, qualitative feedback |
| Objective outcome | Click rate, revenue |
IT 의 함의: A/A test 가 RCT 의 test of blindness 와 유사 — platform 검증 도구. 그러나 통계 검정만 의존 은 위험. Engineer-side 의 인지 bias 같은 RCT 의 unblinding 위험에 해당.
9 결론 — Ch.16 시리즈의 종합
Blinding 은 결과 측정의 객관성 을 지키는 도구. 모든 시험에 double blind 가 필요한 것은 아니다. 시험 특성에 맞춰 최소한 평가자 blinding 을 권장.
핵심 메시지 정리:
- Blinding ≠ Allocation Concealment — 시점·대상 다름
- 세 그룹 (참여자·연구자·평가자) 별 효과
- Multiple sclerosis 사례 — 평가자 blinding 의 결정적 증거
- Placebo + Active placebo + Double-dummy — 도구함
- Sine qua non 미신 거부 — Double blind 가 항상 best 아님
- Subjective outcome 시험에서 결정적 — Hard objective 는 영향 작음
- Test of blindness 의 한계 — CONSORT 2010 제외
- CONSORT 명시 보고 — 누가·어떻게·한계
다음 챕터 (Ch.17) 는 Implementation of Treatment Blinding — 구체적 실행 방법.
10 관련 주제
선행 지식
Phase C 후속 글
- SCH Ch.17 Blinding Implementation (placeholder)
11 참고문헌
- Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.16. Elsevier.
- Lasagna, L. (1955). The controlled trial: theory and practice. J. Chronic Dis. 1, 353-367.
- Noseworthy, J. H., Ebers, G. C., Vandervoort, M. K., et al. (1994). The impact of blinding on the results of a randomized, placebo-controlled MS trial. Neurology 44, 16-20.
- Sackett, D. L., Gent, M., Taylor, D. (1986). Tests for the blindness of randomized trials may not. Clin. Res. 34, 711A.
- Schulz, K. F., Altman, D. G., Moher, D., Fergusson, D. (2010). CONSORT 2010 changes and testing blindness. Lancet 375, 1144-1146.
- Boulind, C. E., Ewings, P., Bulley, S. H., et al. (2013). Feasibility study of analgesia via epidural versus continuous wound infusion. Br. J. Surg. 100, 395-402.
- Carley, S. D., Lībetta, C., Flavin, B., Butler, J., Tong, N., Sammy, I. (2000). Open prospective trial to reduce pain of blood glucose testing: ear versus thumb. BMJ 321, 20.