Blinding 의 편향 방지 효과와 평가 — Ch.16.3

Sine Qua Non 미신과 Test of Blindness 의 한계

Schulz Ch.16.3 — Blinding 이 언제 결정적이고 언제 그렇지 않은가 의 nuanced 평가. (1) “Double blind 가 RCT quality 의 sine qua non 이 아님” Schulz 의 강한 주장, (2) Multiple sclerosis trial 사례 깊이 (Noseworthy 1994), (3) Test of blindness 의 한계 — 부작용·효과로 인한 추측의 해석 어려움, (4) CONSORT 2010 의 test of blindness 제외 결정, (5) Subjective vs objective outcome 별 blinding 권장. 사례 풍부.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

이 글은 Schulz Ch.16 Blinding 시리즈의 마지막 글이다. Ch.16 개관, 효과와 용어, Masking · Placebo 에 이어, Blinding 의 편향 방지 효과와 평가 를 다룬다 (Schulz full md L:7030~7382).

1 진입 직관 — Blinding 의 진짜 가치는 무엇인가

이전 글에서 blinding 의 메커니즘과 도구 를 다뤘다. 그러나 결정적 질문 이 남는다.

“Double blind RCT 가 항상 best quality 인가?”

직관적 답: 예. 그러나 Schulz 는 강하게 부정.

“Double blind 가 RCT quality 의 sine qua non (필수 조건) 이 아니다. 시험은 methodologically sound 하면서 double blind 가 아닐 수 있고, double blind 면서 unsound 일 수 있다.” (Schulz 2019, Ch.16)

이 글의 목적: Blinding 이 언제 결정적이고 언제 그렇지 않은가 의 nuanced 평가, 그리고 blinding 성공 여부 평가 의 한계.

2 “Double Blind = Quality” 미신 비판

2.1 Schulz 의 입장

“일부 연구자, 독자, 편집자가 blinding 의 중요성을 과대평가. 이 미신이 오히려 RCT 평가를 왜곡.”

2.2 Lasagna (1955) 의 통찰

“Placebo 와 double blind 가 fetish (숭배 대상) 의 지위에 도달. 이들이 가지는 Automatic Aura of Respectability, Infallibility, Scientific Savoir-faire 는 일부 상황에서 부당하게 부여 된다.”

2.3 두 가지 반례

2.3.1 반례 1: Double Blind 면서 Unsound

결함 사례
부적절 sequence generation Block size 4 fixed 의 비맹검 효과
부적절 allocation concealment 봉투 hot light deciphering
무작위 후 부적절 제외 Sulfinpyrazone 32% → 21%
Loss to follow-up 30% 5-and-20 rule 위반

함의: Double blind 라벨은 위 결함을 보장 안 함. Blinding 만으로 RCT 의 모든 편향 차단 불가능.

2.3.2 반례 2: Single Blind / Open Label 이면서 Sound

사례 Blinding 한계 + Sound 설계
외과 시험 Double blind 불가능 — 외과의가 자기 술기 인지. 평가자 blinding 으로 보완 가능
행동 개입 시험 Counselor 가 어떤 개입 했는지 인지. 평가자 + 객관적 outcome 으로 보완
Pain trial (ear vs thumb sampling) 환자가 어디 sampling 인지 자명. 그러나 통증 점수 자체가 측정

반사실: 외과 시험에서 double blind 시도불가능. 그러나 결과 평가자만 blind + 객관적 outcome (사망·합병증) 이면 충분히 sound.

3 Multiple Sclerosis Trial (Noseworthy 1994) — 깊이

이전 글에서 언급한 사례를 깊이 분석.

3.1 시험 배경

다발성 경화증 (MS) 환자의 cyclophosphamide + plasma exchange 시험. 두 신경과 의사 그룹 평가:

그룹 처치 정보 평가 결과
Blinded 신경과 의사 모름 처치군 vs 대조군 유의 차이 없음
Unblinded 신경과 의사 알고 있음 처치군이 유의하게 호전

3.2 메커니즘 분해

3.2.1 평가 도구

EDSS (Expanded Disability Status Scale) — 0~10 의 주관적 점수.

3.2.2 Borderline 평가

환자 X 의 진짜 상태: EDSS 점수 2.5 (애매)
  - Blinded 평가자: 2.0 또는 3.0 절반 확률 (객관)
  - Unblinded 평가자 (처치군 인지): 2.0 우선 (호전 방향)
  - Unblinded 평가자 (대조군 인지): 3.0 우선 (악화 방향)

경계 지점의 systematic 편향 이 효과 차이를 만든다.

3.3 함의

결정적 메시지: Subjective outcome 시험에서 평가자 blinding 은 불가결. 그러나 외과 술기·행동 개입 같이 처치 자체가 visible 한 시험에서도 결과 평가자만 blind 가능.

3.4 Schulz 의 권장

최소한 평가자 blinding 은 거의 항상 가능하고 권장. 객관적 결과 (사망) 는 영향 작지만, 주관적 결과 (통증·인지·기능) 는 결정적.”

4 Subjective vs Objective Outcome 별 Blinding 권장

Outcome 유형 Blinding 영향 권장
Hard objective (사망, 검사 수치) 작음 Optional
Soft objective (입원, X-ray) 중간 평가자 blinding
Subjective (통증, 인지) 매우 큼 모든 그룹 blinding

4.1 사례

시험 Outcome Blinding 권장
항암제 (사망률) Hard objective Blinding 없어도 OK
항생제 (감염 재발) Soft objective 평가자 blind
항우울제 (HAM-D 점수) Subjective Triple blind 권장
수술 (재수술률) Soft objective 평가자 blind
진통제 (통증 점수) Subjective Triple blind 권장

5 Test of Blindness — Schulz 의 비판

5.1 기존 관행

시험 종료 시 참여자·평가자에게 어느 처치를 받았는지 추측 하게 하여 blinding 성공 여부 평가.

5.2 Bang Blinding Index (BBI)

“Bang Blinding Index 는 우연 기댓값을 넘는 정확 추측 비율. BBI = 0 이면 무작위 추측 (blinding 성공). BBI = 1 이면 완전 unblinding.”

5.3 사례 (Boulind 외 2013, Br. J. Surg.)

복강경 대장 절제 후 경막외 진통 vs wound infusion catheter 비교 시험:

그룹 BBI
Epidural 0.15 (15% 우연 초과)
Wound infusion 0.31 (31% 우연 초과)

해석: WIC 그룹이 더 잘 추측. 그러나 이게 blinding 실패의 증거인가?

5.4 Schulz 의 비판 — Test of Blindness 의 3 가지 한계

5.4.1 한계 1: 부작용 단서

메커니즘: 진짜 약의 명확한 부작용 (입 마름, 두통, 진정) 으로 환자가 추측. Blinding 자체는 적절했지만 부작용으로 인해 후반부 unblinding.

예시: 항우울제 시험. 진짜 약은 진정 효과. 환자가 졸음 느낌 → “내가 진짜 약 받았다” 추측. Blinding 의 기술적 실패가 아님.

5.4.2 한계 2: 효과 단서

메커니즘: 임상 호전 으로 환자·의사가 추측. “내 통증이 줄었으니 새 약 받은 것” — 정확한 추측이지만 blinding 의 문제 아님.

예시: 만성 통증 시험. 새 약이 효과 있어 통증 감소. 환자가 호전으로 추측 → 추측 정확도 높음. 그러나 이는 효과 시험의 자연 결과, blinding 실패가 아님.

5.4.3 한계 3: 전략적 응답

메커니즘: 참여자·평가자가 unblinding 사실을 의도적으로 숨김. 추측 정확하지만 반대 응답 — 사회적 바람직성 편향.

반사실: 평가자가 처치 정보 추측. 그러나 “blinding 위반 인정” 의 사회적 부담 → 반대 응답 (틀린 추측 거짓 보고). BBI 가 0 으로 측정 되지만 실제는 unblinded.

5.5 CONSORT 2010 의 결정

“Test of blindness 는 해석 어려움 으로 checklist 에서 제외.” (CONSORT 2010)

5.6 Schulz 의 권장

“Test of blindness 의 유용성에 신중. 시행한다면 결과 보고. Blinding 절차의 실패 (예: non-identical placebo, audit trail 부재) 만이라도 보고.”

6 What to Look for — Blinding 보고 평가 체크리스트

CONSORT 권장 + Schulz 의 추가 권장.

6.1 Step 1: Blinding 라벨 확인

[O] “Double blind” 라벨 있음 [X] “Double blind” 라벨만 (세부 부재)

6.2 Step 2: 누가 Blind 됐는지 명시

[O] “참여자, 의료 제공자, 결과 평가자 모두 blinded” [X] “Trial was double blind”

6.3 Step 3: 어떻게 Blind 했는지

[O] Identical capsules (외관·맛), tamper-proof packaging [O] Allocation schedule 보관 위치 [O] 코드 해제 시점·조건 [X] “We blinded participants” (메커니즘 부재)

6.4 Step 4: Blinding 성공 여부

[O] Active placebo 사용 (필요 시) [O] Double-dummy 사용 (필요 시) [X] Blinding 성공 가정 (검증 부재)

6.5 Step 5: Blinding 한계 명시

[O] “Surgical trial 이라 외과의 blinding 불가능, 그러나 평가자는 blind” [X] “Double blind” 라벨만 (실제는 single blind)

7 코드 예시 — Bang Blinding Index 시뮬레이션

import numpy as np

np.random.seed(42)

n_per_arm = 100

# 시나리오 1: 완벽 blinding (참여자 추측 무작위)
guess_perfect = np.random.choice([0, 1], size=2*n_per_arm)
true_T = np.array([0]*n_per_arm + [1]*n_per_arm)
correct_perfect = (guess_perfect == true_T).mean()
print(f"[완벽 blinding]")
print(f"추측 정확도: {correct_perfect:.2f} (이론 0.50)")
bbi_perfect = 2 * (correct_perfect - 0.5)
print(f"BBI: {bbi_perfect:.2f} (0 이상적)")

# 시나리오 2: 부작용으로 인한 unblinding (60% 정확 추측)
guess_side = np.where(np.random.random(2*n_per_arm) < 0.6, true_T, 1 - true_T)
correct_side = (guess_side == true_T).mean()
bbi_side = 2 * (correct_side - 0.5)
print(f"\n[부작용 unblinding]")
print(f"추측 정확도: {correct_side:.2f}")
print(f"BBI: {bbi_side:.2f}")
print("→ BBI 가 양수지만, blinding 실패가 아닌 *부작용 단서* 결과")

# 시나리오 3: 효과로 인한 추측 (호전 환자 = 처치군)
# 처치군 호전 60%, 대조군 호전 30%
improved = np.where(true_T == 0,
                     np.random.random(2*n_per_arm) < 0.60,
                     np.random.random(2*n_per_arm) < 0.30)
guess_outcome = np.where(improved, 0, 1)  # 호전 → 처치군 추측
correct_outcome = (guess_outcome == true_T).mean()
bbi_outcome = 2 * (correct_outcome - 0.5)
print(f"\n[효과 단서 unblinding]")
print(f"추측 정확도: {correct_outcome:.2f}")
print(f"BBI: {bbi_outcome:.2f}")
print("→ BBI 양수, 그러나 *효과의 자연 결과* — blinding 의 문제 아님")

print("\n[BBI 의 해석 한계]")
print("→ BBI > 0 이라고 항상 blinding 실패 아님")
print("→ 부작용·효과·전략적 응답 모두 BBI 에 영향")
print("→ CONSORT 2010 이 test of blindness 를 checklist 에서 제외한 이유")

8 IT / 디지털 실험 매핑

역학 (RCT) IT (A/B Test)
Sine qua non 미신 “Double blind A/B test 만 신뢰” 미신
Multiple sclerosis 사례 Engineer 의 자기 feature 평가 함정
Test of blindness A/A test (platform validation)
BBI Pre-period statistical test
Subjective outcome NPS, qualitative feedback
Objective outcome Click rate, revenue

IT 의 함의: A/A test 가 RCT 의 test of blindness 와 유사 — platform 검증 도구. 그러나 통계 검정만 의존 은 위험. Engineer-side 의 인지 bias 같은 RCT 의 unblinding 위험에 해당.

9 결론 — Ch.16 시리즈의 종합

Blinding 은 결과 측정의 객관성 을 지키는 도구. 모든 시험에 double blind 가 필요한 것은 아니다. 시험 특성에 맞춰 최소한 평가자 blinding 을 권장.

핵심 메시지 정리:

  1. Blinding ≠ Allocation Concealment — 시점·대상 다름
  2. 세 그룹 (참여자·연구자·평가자) 별 효과
  3. Multiple sclerosis 사례 — 평가자 blinding 의 결정적 증거
  4. Placebo + Active placebo + Double-dummy — 도구함
  5. Sine qua non 미신 거부 — Double blind 가 항상 best 아님
  6. Subjective outcome 시험에서 결정적 — Hard objective 는 영향 작음
  7. Test of blindness 의 한계 — CONSORT 2010 제외
  8. CONSORT 명시 보고 — 누가·어떻게·한계

다음 챕터 (Ch.17) 는 Implementation of Treatment Blinding — 구체적 실행 방법.

10 관련 주제

선행 지식

Phase C 후속 글

11 참고문헌

  • Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.16. Elsevier.
  • Lasagna, L. (1955). The controlled trial: theory and practice. J. Chronic Dis. 1, 353-367.
  • Noseworthy, J. H., Ebers, G. C., Vandervoort, M. K., et al. (1994). The impact of blinding on the results of a randomized, placebo-controlled MS trial. Neurology 44, 16-20.
  • Sackett, D. L., Gent, M., Taylor, D. (1986). Tests for the blindness of randomized trials may not. Clin. Res. 34, 711A.
  • Schulz, K. F., Altman, D. G., Moher, D., Fergusson, D. (2010). CONSORT 2010 changes and testing blindness. Lancet 375, 1144-1146.
  • Boulind, C. E., Ewings, P., Bulley, S. H., et al. (2013). Feasibility study of analgesia via epidural versus continuous wound infusion. Br. J. Surg. 100, 395-402.
  • Carley, S. D., Lībetta, C., Flavin, B., Butler, J., Tong, N., Sammy, I. (2000). Open prospective trial to reduce pain of blood glucose testing: ear versus thumb. BMJ 321, 20.

Subscribe

Enjoy this blog? Get notified of new posts by email: