Kwangmin Kim - Blinding 의 편향 방지 효과와 평가

이 글은 Schulz Ch.16 Blinding 시리즈의 마지막 글이다. Ch.16 개관, 효과와 용어, Masking · Placebo 에 이어, Blinding 의 편향 방지 효과와 평가 를 다룬다 (Schulz full md L:7030~7382).

1 진입 직관 — Blinding 의 진짜 가치는 무엇인가

이전 글에서 blinding 의 메커니즘과 도구 를 다뤘다. 그러나 결정적 질문 이 남는다.

“Double blind RCT 가 항상 best quality 인가?”

직관적 답: 예. 그러나 Schulz 는 강하게 부정.

“Double blind 가 RCT quality 의 sine qua non (필수 조건) 이 아니다. 시험은 methodologically sound 하면서 double blind 가 아닐 수 있고, double blind 면서 unsound 일 수 있다.” (Schulz 2019, Ch.16)

이 글의 목적: Blinding 이 언제 결정적이고 언제 그렇지 않은가 의 nuanced 평가, 그리고 blinding 성공 여부 평가 의 한계.

2 “Double Blind = Quality” 미신 비판

2.1 Schulz 의 입장

“일부 연구자, 독자, 편집자가 blinding 의 중요성을 과대평가. 이 미신이 오히려 RCT 평가를 왜곡.”

2.2 Lasagna (1955) 의 통찰

“Placebo 와 double blind 가 fetish (숭배 대상) 의 지위에 도달. 이들이 가지는 Automatic Aura of Respectability, Infallibility, Scientific Savoir-faire 는 일부 상황에서 부당하게 부여 된다.”

2.3 두 가지 반례

2.3.1 반례 1: Double Blind 면서 Unsound

결함	사례
부적절 sequence generation	Block size 4 fixed 의 비맹검 효과
부적절 allocation concealment	봉투 hot light deciphering
무작위 후 부적절 제외	Sulfinpyrazone 32% → 21%
Loss to follow-up 30%	5-and-20 rule 위반

함의: Double blind 라벨은 위 결함을 보장 안 함. Blinding 만으로 RCT 의 모든 편향 차단 불가능.

2.3.2 반례 2: Single Blind / Open Label 이면서 Sound

사례	Blinding 한계 + Sound 설계
외과 시험	Double blind 불가능 — 외과의가 자기 술기 인지. 평가자 blinding 으로 보완 가능
행동 개입 시험	Counselor 가 어떤 개입 했는지 인지. 평가자 + 객관적 outcome 으로 보완
Pain trial (ear vs thumb sampling)	환자가 어디 sampling 인지 자명. 그러나 통증 점수 자체가 측정

반사실: 외과 시험에서 double blind 시도 는 불가능. 그러나 결과 평가자만 blind + 객관적 outcome (사망·합병증) 이면 충분히 sound.

3 Multiple Sclerosis Trial (Noseworthy 1994) — 깊이

이전 글에서 언급한 사례를 깊이 분석.

3.1 시험 배경

다발성 경화증 (MS) 환자의 cyclophosphamide + plasma exchange 시험. 두 신경과 의사 그룹 평가:

그룹	처치 정보	평가 결과
Blinded 신경과 의사	모름	처치군 vs 대조군 유의 차이 없음
Unblinded 신경과 의사	알고 있음	처치군이 유의하게 호전

3.2 메커니즘 분해

3.2.1 평가 도구

EDSS (Expanded Disability Status Scale) — 0~10 의 주관적 점수.

3.2.2 Borderline 평가

환자 X 의 진짜 상태: EDSS 점수 2.5 (애매)
  - Blinded 평가자: 2.0 또는 3.0 절반 확률 (객관)
  - Unblinded 평가자 (처치군 인지): 2.0 우선 (호전 방향)
  - Unblinded 평가자 (대조군 인지): 3.0 우선 (악화 방향)

이 경계 지점의 systematic 편향 이 효과 차이를 만든다.

3.3 함의

결정적 메시지: Subjective outcome 시험에서 평가자 blinding 은 불가결. 그러나 외과 술기·행동 개입 같이 처치 자체가 visible 한 시험에서도 결과 평가자만 blind 가능.

3.4 Schulz 의 권장

“최소한 평가자 blinding 은 거의 항상 가능하고 권장. 객관적 결과 (사망) 는 영향 작지만, 주관적 결과 (통증·인지·기능) 는 결정적.”

4 Subjective vs Objective Outcome 별 Blinding 권장

Outcome 유형	Blinding 영향	권장
Hard objective (사망, 검사 수치)	작음	Optional
Soft objective (입원, X-ray)	중간	평가자 blinding
Subjective (통증, 인지)	매우 큼	모든 그룹 blinding

4.1 사례

시험	Outcome	Blinding 권장
항암제 (사망률)	Hard objective	Blinding 없어도 OK
항생제 (감염 재발)	Soft objective	평가자 blind
항우울제 (HAM-D 점수)	Subjective	Triple blind 권장
수술 (재수술률)	Soft objective	평가자 blind
진통제 (통증 점수)	Subjective	Triple blind 권장

5 Test of Blindness — Schulz 의 비판

5.1 기존 관행

시험 종료 시 참여자·평가자에게 어느 처치를 받았는지 추측 하게 하여 blinding 성공 여부 평가.

5.2 Bang Blinding Index (BBI)

“Bang Blinding Index 는 우연 기댓값을 넘는 정확 추측 비율. BBI = 0 이면 무작위 추측 (blinding 성공). BBI = 1 이면 완전 unblinding.”

5.3 사례 (Boulind 외 2013, Br. J. Surg.)

복강경 대장 절제 후 경막외 진통 vs wound infusion catheter 비교 시험:

그룹	BBI
Epidural	0.15 (15% 우연 초과)
Wound infusion	0.31 (31% 우연 초과)

해석: WIC 그룹이 더 잘 추측. 그러나 이게 blinding 실패의 증거인가?

5.4 Schulz 의 비판 — Test of Blindness 의 3 가지 한계

5.4.1 한계 1: 부작용 단서

메커니즘: 진짜 약의 명확한 부작용 (입 마름, 두통, 진정) 으로 환자가 추측. Blinding 자체는 적절했지만 부작용으로 인해 후반부 unblinding.

예시: 항우울제 시험. 진짜 약은 진정 효과. 환자가 졸음 느낌 → “내가 진짜 약 받았다” 추측. Blinding 의 기술적 실패가 아님.

5.4.2 한계 2: 효과 단서

메커니즘: 임상 호전 으로 환자·의사가 추측. “내 통증이 줄었으니 새 약 받은 것” — 정확한 추측이지만 blinding 의 문제 아님.

예시: 만성 통증 시험. 새 약이 효과 있어 통증 감소. 환자가 호전으로 추측 → 추측 정확도 높음. 그러나 이는 효과 시험의 자연 결과, blinding 실패가 아님.

5.4.3 한계 3: 전략적 응답

메커니즘: 참여자·평가자가 unblinding 사실을 의도적으로 숨김. 추측 정확하지만 반대 응답 — 사회적 바람직성 편향.

반사실: 평가자가 처치 정보 추측. 그러나 “blinding 위반 인정” 의 사회적 부담 → 반대 응답 (틀린 추측 거짓 보고). BBI 가 0 으로 측정 되지만 실제는 unblinded.

5.5 CONSORT 2010 의 결정

“Test of blindness 는 해석 어려움 으로 checklist 에서 제외.” (CONSORT 2010)

5.6 Schulz 의 권장

“Test of blindness 의 유용성에 신중. 시행한다면 결과 보고. Blinding 절차의 실패 (예: non-identical placebo, audit trail 부재) 만이라도 보고.”

6 What to Look for — Blinding 보고 평가 체크리스트

CONSORT 권장 + Schulz 의 추가 권장.

6.1 Step 1: Blinding 라벨 확인

[O] “Double blind” 라벨 있음 [X] “Double blind” 라벨만 (세부 부재)

6.4 Step 4: Blinding 성공 여부

[O] Active placebo 사용 (필요 시) [O] Double-dummy 사용 (필요 시) [X] Blinding 성공 가정 (검증 부재)

6.5 Step 5: Blinding 한계 명시

[O] “Surgical trial 이라 외과의 blinding 불가능, 그러나 평가자는 blind” [X] “Double blind” 라벨만 (실제는 single blind)

7 코드 예시 — Bang Blinding Index 시뮬레이션

import numpy as np

np.random.seed(42)

n_per_arm = 100

# 시나리오 1: 완벽 blinding (참여자 추측 무작위)
guess_perfect = np.random.choice([0, 1], size=2*n_per_arm)
true_T = np.array([0]*n_per_arm + [1]*n_per_arm)
correct_perfect = (guess_perfect == true_T).mean()
print(f"[완벽 blinding]")
print(f"추측 정확도: {correct_perfect:.2f} (이론 0.50)")
bbi_perfect = 2 * (correct_perfect - 0.5)
print(f"BBI: {bbi_perfect:.2f} (0 이상적)")

# 시나리오 2: 부작용으로 인한 unblinding (60% 정확 추측)
guess_side = np.where(np.random.random(2*n_per_arm) < 0.6, true_T, 1 - true_T)
correct_side = (guess_side == true_T).mean()
bbi_side = 2 * (correct_side - 0.5)
print(f"\n[부작용 unblinding]")
print(f"추측 정확도: {correct_side:.2f}")
print(f"BBI: {bbi_side:.2f}")
print("→ BBI 가 양수지만, blinding 실패가 아닌 *부작용 단서* 결과")

# 시나리오 3: 효과로 인한 추측 (호전 환자 = 처치군)
# 처치군 호전 60%, 대조군 호전 30%
improved = np.where(true_T == 0,
                     np.random.random(2*n_per_arm) < 0.60,
                     np.random.random(2*n_per_arm) < 0.30)
guess_outcome = np.where(improved, 0, 1)  # 호전 → 처치군 추측
correct_outcome = (guess_outcome == true_T).mean()
bbi_outcome = 2 * (correct_outcome - 0.5)
print(f"\n[효과 단서 unblinding]")
print(f"추측 정확도: {correct_outcome:.2f}")
print(f"BBI: {bbi_outcome:.2f}")
print("→ BBI 양수, 그러나 *효과의 자연 결과* — blinding 의 문제 아님")

print("\n[BBI 의 해석 한계]")
print("→ BBI > 0 이라고 항상 blinding 실패 아님")
print("→ 부작용·효과·전략적 응답 모두 BBI 에 영향")
print("→ CONSORT 2010 이 test of blindness 를 checklist 에서 제외한 이유")

8 IT / 디지털 실험 매핑

역학 (RCT)	IT (A/B Test)
Sine qua non 미신	“Double blind A/B test 만 신뢰” 미신
Multiple sclerosis 사례	Engineer 의 자기 feature 평가 함정
Test of blindness	A/A test (platform validation)
BBI	Pre-period statistical test
Subjective outcome	NPS, qualitative feedback
Objective outcome	Click rate, revenue

IT 의 함의: A/A test 가 RCT 의 test of blindness 와 유사 — platform 검증 도구. 그러나 통계 검정만 의존 은 위험. Engineer-side 의 인지 bias 같은 RCT 의 unblinding 위험에 해당.

9 결론 — Ch.16 시리즈의 종합

Blinding 은 결과 측정의 객관성 을 지키는 도구. 모든 시험에 double blind 가 필요한 것은 아니다. 시험 특성에 맞춰 최소한 평가자 blinding 을 권장.

핵심 메시지 정리:

Blinding ≠ Allocation Concealment — 시점·대상 다름
세 그룹 (참여자·연구자·평가자) 별 효과
Multiple sclerosis 사례 — 평가자 blinding 의 결정적 증거
Placebo + Active placebo + Double-dummy — 도구함
Sine qua non 미신 거부 — Double blind 가 항상 best 아님
Subjective outcome 시험에서 결정적 — Hard objective 는 영향 작음
Test of blindness 의 한계 — CONSORT 2010 제외
CONSORT 명시 보고 — 누가·어떻게·한계

다음 챕터 (Ch.17) 는 Implementation of Treatment Blinding — 구체적 실행 방법.

10 관련 주제

선행 지식

Phase C 후속 글

SCH Ch.17 Blinding Implementation (placeholder)

11 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.16. Elsevier.
Lasagna, L. (1955). The controlled trial: theory and practice. J. Chronic Dis. 1, 353-367.
Noseworthy, J. H., Ebers, G. C., Vandervoort, M. K., et al. (1994). The impact of blinding on the results of a randomized, placebo-controlled MS trial. Neurology 44, 16-20.
Sackett, D. L., Gent, M., Taylor, D. (1986). Tests for the blindness of randomized trials may not. Clin. Res. 34, 711A.
Schulz, K. F., Altman, D. G., Moher, D., Fergusson, D. (2010). CONSORT 2010 changes and testing blindness. Lancet 375, 1144-1146.
Boulind, C. E., Ewings, P., Bulley, S. H., et al. (2013). Feasibility study of analgesia via epidural versus continuous wound infusion. Br. J. Surg. 100, 395-402.
Carley, S. D., Lībetta, C., Flavin, B., Butler, J., Tong, N., Sammy, I. (2000). Open prospective trial to reduce pain of blood glucose testing: ear versus thumb. BMJ 321, 20.

Blinding 의 편향 방지 효과와 평가 — Ch.16.3