Kwangmin Kim - 은폐의 중요성과 해독 시도

이 글은 Schulz Ch.14 Allocation Concealment 시리즈의 두 번째 글이다. Ch.14 개관 에서 제시한 큰 그림 중 은폐의 중요성과 deciphering 사례 를 깊게 다룬다 (Schulz full md L:5521~5634).

1 진입 직관 — 왜 인간은 sequence 를 해독하려 하는가

Schulz Ch.14 의 가장 인상적인 통찰은 deciphering 이 부정행위가 아니라는 점 이다.

“투자자들이 sequence 를 해독하려 시도하는 것은 연구 동기 부재 가 아니다. 임상적 호기심 과 지적 도전 욕구 의 자연스러운 발현이다.” (Schulz 2019, Ch.14)

Oscar Wilde 의 인용: “The only way to get rid of temptation is to yield to it.” 즉 유혹을 없애는 유일한 방법은 그것에 굴복하는 것. Schulz 의 함의: 임상 인력의 deciphering 욕구는 내적으로 통제 불가능. 시험 디자이너가 외적으로 차단 해야 한다.

비유: 다이어트 중인 사람에게 눈앞에 케이크 를 두고 “먹지 말라” 고 하는 것은 잔인하다. 케이크를 처음부터 안 보이게 하는 것이 효과적. RCT 의 concealment 도 같은 원리 — 유혹을 시각에서 제거.

이 글은:

얼마나 큰 비용인가 — 40% 효과 과대 추정의 메커니즘
왜 일어나는가 — 임상의의 본능과 인지
어떻게 일어나는가 — Anonymous deciphering 사례들

을 다룬다.

2 40% 효과 과대 추정 — 메커니즘 분해

2.1 실증 발견

Schulz, Chalmers, Hayes, Altman (1995, JAMA) 의 핵심 결과:

부적절 또는 불명확 concealment 시험은 적절 시험 대비 효과를 평균 40% 과대 추정.

후속 연구 (Savovic 외 2012, Annals of Internal Medicine) 에서 더 정밀한 수치 확인.

항목	효과 과대 추정 (평균)
부적절 sequence generation	₁₀20%
부적절 concealment	~40%
부적절 blinding	₁₀20%
누적 (모두 부적절)	₆₀80%

so what: Concealment 가 sequence 와 blinding 보다 훨씬 큰 영향. RCT 신뢰성의 최대 단일 결정 요인.

2.2 메커니즘 1 — Selection Bias 의 직접 침투

모집 인력이 다음 배정을 부분적으로 추측 → 환자 baseline 에 따라 선별적 등록:

모집 인력 인지 흐름:
1. "다음 환자는 새 약 군일 것 같다" (sequence pattern 추측)
2. 환자 baseline 평가 — "이 환자는 위험하다"
3. 결정: "위험한 환자가 새 약 군에 가면 새 약이 나빠 보일 것이다 → 등록 거부"
4. 다음 (덜 위험한) 환자가 새 약 군 등록

결과: 새 약 군에 체계적으로 위험 낮은 환자가 모임. 사망률 차이가 진짜 효과 + baseline 차이. 효과 과대 추정.

수식 직관: 효과 추정 $\hat{\theta}$ 와 진짜 효과 $\theta$:

\[\hat{\theta} = \theta + (\bar{X}_{\text{baseline,A}} - \bar{X}_{\text{baseline,B}})\]

Concealment 부적절 시 두 번째 항이 체계적으로 양수 (또는 음수). Berger (2014) 추정에 따르면 baseline 차이가 약 0.1~0.3 SD 까지 발생 가능. 진짜 효과의 30~50% 수준.

2.3 메커니즘 2 — Confounding 의 부분 부활

무작위 배정의 핵심 약속은 측정되지 않은 confounder 까지 균형. 그러나 selection bias 가 침투하면 이 약속이 부분 무효화:

반사실: 위험 낮은 환자가 새 약 군에 모이면, 그들의 측정된 baseline 만 다른 게 아니라 측정되지 않은 다른 특성 (생활습관·유전·돌봄자 지원 등) 도 함께 이동. 이는 confounding 의 부분 부활.

2.4 메커니즘 3 — Heterogeneity 증가

Schulz 외 (1995) 의 추가 발견:

부적절 concealment 시험은 결과 변동성 이 더 크다. 적절 시험의 추정치 위·아래로 폭넓게 분산.

직관: Selection bias 의 방향 이 시험마다 다르다. 어느 시험에서는 위험 낮은 환자가 새 약 군에, 다른 시험에서는 표준 군에 → 평균은 +40% 과대 추정이지만 개별 시험은 -20% ~ +100% 까지 변동. 결과의 신뢰성 자체가 무너진다.

so what: 메타분석에서 부적절 시험을 포함하면 추정치의 분산이 inflated — sub-group 결론의 신뢰도 낮아짐.

2.5 비교 — 관찰 연구 vs 부적절 RCT

Schulz 의 흥미로운 통찰: 부적절 concealment RCT 는 명시적 관찰 연구보다 더 위험할 수 있다.

측면	관찰 연구	부적절 RCT
편향에 대한 인식	명시적, 대비	암묵적, 무대비
통계 분석	Confounder adjustment 시도	“무작위라 균형” 이라 가정
임상 가이드라인 가중치	낮음	높음 (RCT 라는 이름)
잘못된 결정 위험	비교적 낮음	높음

반사실: 관찰 연구 결과가 “흡연자의 폐암 위험 2 배” 라면 임상의는 confounder 가능성을 의심. 부적절 RCT 결과가 “새 약이 사망률 30% 감소” 라면 임상의는 RCT 라는 이름에 신뢰. 후자가 더 잘못된 결정으로 이어질 수 있다.

3 Personal Accounts of Deciphering — 사례 분석

Schulz 1995 가 epidemiology workshop 에서 익명으로 수집한 deciphering 사례들 (Schulz 2019, Ch.14 인용).

3.1 사례 그룹 A — 단순 사례 (Concealment 부재 자체)

3.1.1 A1. 게시판의 sequence

가장 단순. 일부 시험이 모집 인력 휴게실에 sequence list 를 그대로 게시. 누구나 다음 배정을 알 수 있음.

반사실: 왜 게시했나? 접근 편의성. PI 가 매번 sequence 파일을 열기 귀찮아 게시판에 붙임. concealment 의 의미 자체에 대한 인식 부재.

3.1.2 A2. 반투명 봉투

봉투에 sequence 카드를 넣지만, 봉투가 충분히 불투명하지 않아 형광등에 비치면 내용 보임.

메커니즘: 봉투 봉인은 안 깨졌으므로 audit 적합. 그러나 내용 추측 가능. Adequate 으로 보고되지만 실제는 inadequate.

3.1.3 A3. 봉투 무게 차이

서로 다른 무게의 약물 용기 (예: 알약 vs 액체) 를 같은 봉투에 봉인. 손으로 무게 비교 가능.

반사실: 두 군의 약을 동일 외관·무게 로 만드는 것이 SNOSE 의 expanded criteria 다. 단순 봉투는 부족.

3.1.4 A4. 번호 없는 봉투

순차 번호가 없는 봉투들 → 모집 인력이 원하는 처치 나올 때까지 봉투를 열어볼 수 있음. 직접적 sabotage.

대응: SNOSE 의 S (Sequentially Numbered) 는 결정적. 순차 번호로 봉투 개봉 순서가 강제됨.

3.2 사례 그룹 B — 정교한 사례 (Adequate 처럼 보이는 시험에서)

3.2.1 B1. 방사선과 Hot Light

Sequentially numbered, opaque, sealed envelopes (SNOSE) — adequate 으로 분류된 봉투. 그러나 일부 의사가 봉투를 방사선과의 매우 강한 incandescent bulb 에 비춤 → 두꺼운 봉투도 투과.

충격: SNOSE 의 minimum criteria 를 충족했는데도 deciphering 가능. Expanded criteria (알루미늄 호일 추가) 가 필요한 이유.

반사실: 호일 추가 비용 = 봉투당 $0.01 미만. 이 작은 추가 비용이 selection bias 를 차단.

3.2.2 B2. 중앙 무작위 전화 사기

Central randomisation 시스템 — adequate 으로 분류된 가장 안전한 방법. 그러나:

사기 사례: 모집 인력이 중앙 무작위 전화에 “다음 5 명의 sequence 를 한꺼번에 알려달라” 요청. 일부 중앙 사무실 직원이 훈련 부족 으로 이를 거부 못함.

메커니즘: Adequate 인 시스템 도 운영자 훈련 이 부족하면 무력화. Central randomisation 의 expanded criteria 에 직원 훈련 이 명시된 이유.

3.2.3 B3. 약물 용기 라벨 외관

Sequentially numbered drug containers — 약사가 미리 라벨 부착. 그러나 두 약물의 라벨이 미묘하게 다른 색·인쇄 — 외관만으로 약물 종류 추측 가능.

반사실: Tamper-proof, 동일 외관·무게의 expanded criteria 가 필요한 이유. 약사·인쇄소에 완벽한 동일성 을 요구해야.

3.2.4 B4. PI 의 사무실 잠입

가장 극단적 사례. 한 attending physician 이 밤에 PI 의 사무실 파일을 뒤져 allocation list 를 직접 열람.

인식의 부재: 한 인턴이 이 행위를 보고 attending 의 영리함 으로 해석 — 시험 무결성 훼손이라는 인식 부재. Schulz 가 인용하는 가장 충격적 일화.

대응: PI 가 sequence 를 자신의 사무실에도 보관 안 하는 권한 분리. 약사·통계학자에게 위탁.

3.3 사례 그룹 C — 미묘한 위반

3.3.1 C1. 약물 부족 시 임의 배정

미국 의대 약국 사례. 시험 중 주말에 한 약물이 떨어짐 → 약사가 나머지 환자 모두에게 다른 약 강제 배정. “모집 지연 방지” 가 명분.

메커니즘: 약사가 무작위화 원칙을 모름. “환자가 약을 받지 못하면 시험 진행 못함” 이라는 임상 본능에 따라 결정. 그러나 무작위 배정 자체가 무력화.

대응: 약사 훈련. 약물 부족 시 반드시 PI 와 통계학자 협의, 해당 환자 시험 제외 또는 시험 일시 중단.

3.3.2 C2. 약사가 alternation 으로 무작위 대체

다른 약국 사례. 약사가 alternation 배정 (첫 환자 A, 둘째 B, 셋째 A, …) 을 무작위 배정으로 착각.

메커니즘: 약사의 방법론적 인식 부재. “공평한 배정” = “무작위 배정” 이라는 잘못된 등식.

4 인간 본성의 통찰 — Schulz 의 인식론

Schulz 의 가장 깊은 통찰은 단지 방법론적 이 아니라 인식론적 이다.

4.1 임상의의 이중 책임 갈등

임상의는 두 역할을 동시에 수행한다.

역할	본능	RCT 와의 관계
개별 환자의 의사	이 환자에게 최선 의 치료	동전 던지기 거부
연구자	인구 집단의 과학적 진실	무작위 배정 수용

이 두 역할은 내적으로 충돌. RCT 진행 중 임상의의 개별 환자 본능이 깨어나면 deciphering 의 동기가 된다.

반사실: 만약 임상의가 100% 연구자 모드라면 sequence 추측을 시도하지 않음. 그러나 임상의는 환자 앞에서 동시에 의사. 이 인간적 갈등이 deciphering 의 근본 원인.

4.2 Schulz 의 결론 — “Crafty 디자인”

“Trial investigators will be crafty in any potential efforts to decipher the allocation sequence, so trial designers must be just as clever in their design efforts to prevent deciphering.” (Schulz 2019, Ch.14)

번역: 시험 인력은 어떤 시도에서든 영리하게 deciphering 을 시도할 것이다. 그러므로 시험 디자이너도 그만큼 영리하게 deciphering 을 차단해야 한다.

함의: Concealment 디자인은 방어적 사고 가 필요. “이 시스템을 어떻게 깰 수 있을까?” 를 시험 디자이너가 먼저 생각 해야 한다. 보안 엔지니어의 threat modeling 과 같은 접근.

4.3 Oscar Wilde 와 인간 본능

“The only way to get rid of temptation is to yield to it.” (Oscar Wilde)

Schulz 의 적용: 임상 인력의 intellectual challenge 욕구는 내적으로 차단 불가능. 따라서 외부 시스템 이 deciphering 을 불가능하게 만들어야.

비유: 다이어트 중에 케이크를 눈앞에 두고 안 먹기 는 의지력 의존 — 실패 가능성 높음. 케이크를 처음부터 부엌에 들이지 않기 가 시스템적 해결.

5 부적절 RCT 결과의 confidence — 인식론적 함정

Schulz 의 추가 통찰: RCT 라는 이름이 결과의 신뢰도를 인위적으로 높임.

“RCT 라고 보고된 시험은 일반적으로 편향이 없다고 가정 된다. 부적절한 보고가 결함을 가린다. 결과적으로 임상 가이드라인이 부적절 RCT 결과에 큰 가중치를 둔다.” (Schulz 2019, Ch.14)

반사실: 만약 concealment 부재 RCT 가 명시적 관찰 연구 로 분류되면, 임상의·정책 결정자가 덜 신뢰. 잘못된 결정 가능성 낮음. 그러나 RCT 라는 이름 이 부적절성을 가림 → 잘못된 결정 위험 증가.

so what: CONSORT (Ch.22) 의 강한 보고 요구가 생존 가치 (survival value) 를 갖는 이유. 부적절 시험을 식별 가능 하게 함.

6 Concealment 의 비용 — 작지만 결정적

Schulz 의 마지막 통찰: Adequate concealment 의 비용은 매우 작지만 효과는 결정적.

비용	효과
SNOSE 알루미늄 호일: 봉투당 $0.01	Hot light deciphering 차단
약사 훈련 1 일	약물 부족 시 임의 배정 차단
중앙 무작위 직원 훈련	사기 전화 거부 능력
Carbon paper: 봉투당 $0.05	Audit trail 생성
봉투 expanded criteria 모두	평균 40% 과대 추정 차단

so what: 비용-편익 비율이 압도적. 적절한 concealment 는 예외 가 아닌 기본. 그러나 75% 의 시험이 보고하지 않는 이유는 비용 문제가 아니라 인식 부족.

7 IT / 디지털 실험 매핑

역학 (RCT)	IT (A/B Test / Marketing)
Hot light deciphering	DOM 검사 / network 추적
봉투 무게 차이	API response timing 차이
Sequence 게시판	평문 assignment 파일 노출
중앙 무작위 사기 전화	API 의 비인증 batch 요청
약사 훈련 부족	Backend 엔지니어 보안 훈련 부족
PI 사무실 잠입	Database 직접 접근
Crafty 디자이너	Threat modeling 보안 엔지니어

IT 의 추가 위험: 사용자가 cookie · localStorage · URL parameter 를 통해 본인 군 추측. 또한 server-side rendering 부재 시 client JS 코드에 처치 정보가 노출. Encrypted assignment + server-side decision 의 다중 방어 필요.

8 코드 예시 — Selection Bias 의 시험 결과 시뮬레이션

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(42)

def simulate_with_deciphering(n=200, true_effect=0.20, decipher_rate=0.0):
    """
    decipher_rate: 모집 인력이 다음 배정을 추측 정확도.
    추측 정확도가 0 (완벽 concealment) 면 무작위 배정 그대로.
    추측 정확도가 1 (완전 deciphering) 면 위험 낮은 환자가 새 약 군으로.
    """
    baseline_risk = np.random.uniform(0, 1, n)
    Y_0 = (np.random.random(n) < baseline_risk).astype(int)
    Y_1 = (np.random.random(n) < baseline_risk * (1 - true_effect)).astype(int)

    # 무작위 sequence
    T_random = np.random.choice([0, 1], n)

    # Decipher: 일정 비율의 환자에서 위험에 따라 재배정
    T = T_random.copy()
    for i in range(n):
        if np.random.random() < decipher_rate:
            # 위험 낮으면 새 약 (T=0), 높으면 표준 (T=1)
            T[i] = 0 if baseline_risk[i] < np.median(baseline_risk) else 1

    Y_obs = np.where(T == 0, Y_1, Y_0)
    mort_T = Y_obs[T == 0].mean()
    mort_C = Y_obs[T == 1].mean()
    return mort_C - mort_T

n_sim = 1000
true_effect = 0.20
true_ate = 0.10   # baseline 평균 0.5 가정

print("[Decipher rate 별 효과 추정 — 1000 회 시뮬레이션]")
print(f"진짜 효과: {true_ate:.1%}\n")

for rate in [0.0, 0.1, 0.2, 0.3, 0.5, 0.7]:
    diffs = [simulate_with_deciphering(decipher_rate=rate) for _ in range(n_sim)]
    mean_diff = np.mean(diffs)
    overest = (mean_diff / true_ate - 1) * 100
    print(f"Decipher rate {rate:.0%}: 추정 = {mean_diff:.3f}, 과대 = {overest:+.0f}%")

# 1000 시험의 분포 — adequate vs inadequate concealment
print("\n[Heterogeneity — 결과 분산]")
results_adequate = [simulate_with_deciphering(decipher_rate=0.0) for _ in range(n_sim)]
results_inadequate = [simulate_with_deciphering(decipher_rate=0.4) for _ in range(n_sim)]

print(f"Adequate (rate=0):   평균 {np.mean(results_adequate):.3f}, SD {np.std(results_adequate):.3f}")
print(f"Inadequate (rate=0.4): 평균 {np.mean(results_inadequate):.3f}, SD {np.std(results_inadequate):.3f}")
print("→ Inadequate 시험은 평균이 과대 추정 + SD 도 더 큼 (heterogeneity)")

# 메타분석에서의 함의
print("\n[메타분석 함의]")
combined_adequate = np.mean(results_adequate)
combined_mixed = np.mean(np.concatenate([results_adequate, results_inadequate]))
print(f"Adequate only 메타: {combined_adequate:.3f}")
print(f"Mixed 메타:         {combined_mixed:.3f}")
print(f"→ Mixed 메타가 진짜 효과 ({true_ate:.3f}) 에서 더 멀어짐")

이 코드는 (1) Decipher rate 가 증가할수록 효과 추정이 체계적으로 과대, (2) Inadequate 시험은 평균뿐 아니라 분산도 더 큼, (3) 메타분석에 부적절 시험을 포함하면 진짜 효과에서 멀어짐 을 보여준다.

9 결론 — Ch.14.1 의 한 줄 요약

Concealment 부재의 비용은 인식의 부재 비용이다.

핵심 메시지:

40% 효과 과대 추정 은 selection bias + heterogeneity 의 결합
Deciphering 은 인간 본성 — 부정이 아닌 임상 본능과 지적 호기심
시험 디자이너가 더 영리해야 — Threat modeling 사고 필요
Adequate 의 비용은 작지만 효과는 결정적 — 75% 미보고는 비용이 아닌 인식 문제
Oscar Wilde 의 통찰 — 유혹은 시각에서 제거 해야

다음 글에서는 Concealment 의 적절한 4 가지 방법 을 사례와 함께 깊이 다룬다.

10 관련 주제

선행 지식

Phase C 후속 글

Concealment 평가 기준과 사례 (placeholder)
기저선 비교의 함정 (placeholder)
SCH Ch.15 Exclusions/ITT 시리즈 (placeholder)

11 참고문헌

Schulz, K. F. & Grimes, D. A. (2019). Essential Concepts in Clinical Research (2nd ed.), Ch.14. Elsevier.
Schulz, K. F. (1995). Subverting randomization in controlled trials. JAMA 274, 1456-1458.
Schulz, K. F. (1995). Unbiased research and the human spirit: the challenges of randomized controlled trials. CMAJ 153, 783-786.
Schulz, K. F., Chalmers, I., Hayes, R. J., Altman, D. G. (1995). Empirical evidence of bias. JAMA 273, 408-412.
Savovic, J., Jones, H. E., Altman, D. G., et al. (2012). Influence of reported study design characteristics on intervention effect estimates. Ann. Intern. Med. 157, 429-438.
Berger, V. W. (2014). Quantifying the magnitude of baseline covariate imbalances. Stat. Med. 33, 4133-4135.
Wilde, O. (1891). The Picture of Dorian Gray. (인용된 명언 출처)