1 도입 — 같은 자료, 다른 분모, 다른 결론
임상 연구의 흔한 함정은 분수의 분모 가 모호한 보고이다. “환자의 50 % 가 회복했다” 라는 진술이 어느 환자 집합 의 50 % 인지에 따라 결론이 달라진다.
이 글은 (a) outcome measurement 의 통계적 분류, (b) confusing fractions 의 위험성, (c) ITT vs Per-protocol 분석의 차이를 다룬다.
2 Outcome 의 통계적 분류
2.1 이진 (Binary / Dichotomous)
각 관측이 두 범주 중 하나에 속함. 예: 사망/생존, 회복/지속, 성공/실패.
분포: 베르누이 (\(Y \sim \text{Bernoulli}(p)\)). 검정: 카이제곱, Fisher’s exact, Z 검정. 효과 크기: RR, OR, RD, NNT.
2.2 연속 (Continuous)
각 관측이 실수 값. 예: 혈압, BMI, 검사 수치, 통증 척도 (연속 시각 아날로그).
분포: 정규 (또는 변환 후 정규). 검정: t, F, ANOVA. 효과 크기: 평균 차이, Cohen’s d, η².
2.3 시간-사건 (Time-to-Event / Survival)
사건 발생까지 시간 을 측정. 일부 관측은 센서링 (사건 발생 전 추적 종료).
분포: 지수, Weibull, Cox 비례 위험. 검정: Log-rank, Wald. 효과 크기: Hazard Ratio (HR), 생존 함수 차이.
2.4 순서형 (Ordinal)
순서 있는 범주. 예: 통증 1-10, 등급 A/B/C/D.
검정: Mann-Whitney U, 비례 odds 모형. 효과 크기: 순위 차이, 비례 odds.
2.5 합산 점수 (Composite)
여러 항목 합산. 예: QoL 점수 (40 문항 합), 우울 척도 (20 항목).
CLT 에 의해 연속 근사 가능. 그러나 척도 한계 (천장·바닥 효과) 주의.
3 측정 유형별 적합한 분석
| 자료 유형 | 표준 분석 | 잘못된 사용 |
|---|---|---|
| 이진 | 카이제곱, 로지스틱 회귀 | t 검정 (분포 가정 위반) |
| 연속 | t, F, ANOVA | 카이제곱 (척도 정보 손실) |
| 시간-사건 | Cox, Log-rank | t 검정 (센서링 무시) |
| 순서형 | Mann-Whitney, 비례 odds | t 검정 (척도 가정) |
이진 결과 (사망/생존) 에 t 검정을 사용하면 어떻게 되는가?
- 자료 변환: 사망 = 1, 생존 = 0
- 평균: 처치 그룹 0.05 (5 % 사망), 대조군 0.08 (8 % 사망)
- t 검정: \(\bar{Y}_T - \bar{Y}_C = -0.03\), SE 계산 후 t 값 산출
수학적으로는 작동 한다. 그러나:
- 분포 가정 위반 — 이진 변수는 정규 아님
- 분산 추정 부정확 — Bernoulli 분산은 \(p(1-p)\) 인데 t 검정은 표본 분산 사용
- 작은 표본·극단 비율 에서 부정확
큰 표본에서는 CLT 가 작동해 t 검정과 카이제곱이 비슷한 결과를 주지만, 적합한 분석은 카이제곱이나 로지스틱 회귀 다.
A/B 테스트의 클릭률 분석도 마찬가지: t 검정도 큰 표본에서 작동하지만, 공식적으로는 비율 검정 (z-test of proportions) 또는 로지스틱 회귀 가 적합.
4 Confusing Fractions — 분모의 모호성
4.1 사례 — 임상시험 보고
“이 항암제는 환자의 60 % 에서 종양 크기를 30 % 이상 감소시켰다.”
이 진술이 모호한 이유:
- 60 %: 어느 환자 집합 의 60 %?
- Intent-to-Treat (ITT): 무작위 배정된 모든 환자
- Per-Protocol (PP): 프로토콜 완료 환자만
- As-Treated (AT): 실제 처치를 받은 환자
같은 자료에서 분모가 다르면 완전히 다른 결론.
4.2 사례 — 실제 vs 분석 환자
가상 임상시험:
- 100 명 무작위 배정 (50 명 처치, 50 명 위약)
- 처치 그룹 중 10 명이 부작용으로 중단 → 40 명 완료
- 위약 그룹 중 5 명이 자료 누락 → 45 명 완료
| 분석 | 처치 분모 | 효과 발견 환자 | 비율 |
|---|---|---|---|
| ITT | 50 | 25 | 50 % |
| PP | 40 | 25 | 62.5 % |
| AT | 45 (실제 처치 받은) | 28 | 62.2 % |
같은 자료, 3 가지 다른 비율. 어느 것이 정확한가?
4.3 ITT 가 표준인 이유
무작위 배정된 모든 환자 를 그들의 원래 그룹 에 따라 분석. 처치 중단·이탈·교차 무관.
장점:
- 무작위 배정의 통계적 정당성 보존
- 실세계 효과 (effectiveness) 추정에 가까움
- 보수적 (효과 과소 추정 경향)
단점:
- 생물학적 효능 (efficacy) 보다는 현실적 효과 측정
- 처치 미수자가 많으면 검정력 약화
PP 또는 AT 분석은 무작위 배정의 균형 을 깰 수 있다. 부작용으로 중단한 환자가 처치 효과가 없는 환자에 편중 될 가능성. 따라서 PP 결과가 과대 추정 되기 쉽다.
ITT 가 현실의 효과 를 측정한다면, PP 는 완벽한 순응 의 효과를 측정한다.
신약 승인 결정: 현실 효과 (ITT) 를 보아야 한다. 환자가 약을 안 먹는 것도 약의 한계다.
생물학적 메커니즘 연구: 완벽 순응 효과 (PP) 도 의미 있다. 약이 정말로 작동하는지 보려는 것이다.
따라서 둘 다 보고하는 것이 권장된다. ITT 는 main analysis, PP 는 sensitivity analysis 로.
A/B 테스트에도 비슷한 구분이 있다. 모든 노출 사용자 (ITT 격) 분석이 표준이지만, 체류 시간 일정 이상 같은 segment 분석은 PP 격.
5 분모 명시의 권장 형식
처치 그룹: 50 명 무작위 배정 (그중 40 명 프로토콜 완료)
대조 그룹: 50 명 무작위 배정 (그중 45 명 자료 분석 가능)
효과 발견:
ITT 분석 (n = 50/50): 처치 25 명 (50.0 %), 대조 15 명 (30.0 %), RD = 20.0 %
PP 분석 (n = 40/45): 처치 25 명 (62.5 %), 대조 15 명 (33.3 %), RD = 29.2 %
주 분석: ITT (RD = 20.0 %, 95 % CI [4.5 %, 35.5 %], p = 0.012)
민감도 분석: PP (일관된 방향)
이 형식이 분모 명시 + ITT 표시 + 민감도 분석 의 세 가지를 동시에 보여 준다.
6 Drop-out 처리 — 결측 자료
ITT 분석에서 drop-out 환자의 결과를 어떻게 처리하는가?
| 방법 | 가정 | 사용 시점 |
|---|---|---|
| Last Observation Carried Forward (LOCF) | 마지막 관측 후 변화 없음 | 단순, 보수적 |
| Multiple Imputation (MI) | 결측이 다른 변수에 의존 (MAR) | 권장 |
| Inverse Probability Weighting | 결측 메커니즘 모형화 | 복잡한 시나리오 |
| Worst-case imputation | 최악 결과 가정 | 매우 보수적 |
| Best-case imputation | 최선 결과 가정 | 매우 자유 |
6.1 MCAR / MAR / MNAR
- MCAR (Missing Completely At Random): 결측이 모든 변수와 무관 — drop-out 무시 가능
- MAR (Missing At Random): 결측이 관측 변수에 의존 (다른 변수로 모델링 가능) — MI 권장
- MNAR (Missing Not At Random): 결측이 결측 자체에 의존 — 가장 어려움
A-WOO14-* 시리즈에서 다중 대체 (Multiple Imputation) 를 자세히 다룬다.
7 A/B 테스트의 결측 분석
A/B 테스트의 흔한 결측 시나리오:
| 시나리오 | 처리 |
|---|---|
| 사용자가 페이지 로드 안 함 | 노출 안 됨 → 분석 제외 |
| 사용자가 클릭 안 함 | 클릭률 0 처리 (자연 결측) |
| 사용자가 매출 발생 안 함 | 매출 0 처리 |
| 사용자가 후속 페이지 안 봄 | 체류 시간 → 마지막 관측까지 |
A/B 테스트는 비교적 단순 한 결측 구조 (대부분 MAR 또는 MCAR). 그러나 segment 분석 에서 결측 패턴이 다르면 (예: 모바일 사용자가 더 많이 이탈), 결측 처리에 신중해야 한다.
8 코드 예시 — ITT vs PP
import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency, fisher_exact
np.random.seed(42)
# 가상 임상시험
n_per_group = 100
treatment = np.random.choice([0, 1], size=n_per_group, p=[0.4, 0.6]) # 1 = 효과
control = np.random.choice([0, 1], size=n_per_group, p=[0.7, 0.3]) # 1 = 효과
# Drop-out — 처치 부작용
treatment_dropout = np.random.choice([0, 1], size=n_per_group, p=[0.85, 0.15])
control_dropout = np.random.choice([0, 1], size=n_per_group, p=[0.95, 0.05])
# ITT — 모든 환자 사용
table_itt = np.array([
[treatment.sum(), n_per_group - treatment.sum()],
[control.sum(), n_per_group - control.sum()]
])
chi2_itt, p_itt, _, _ = chi2_contingency(table_itt)
rr_itt = (treatment.mean()) / (control.mean())
print(f"ITT 분석:")
print(f" 처치 효과율: {treatment.mean():.3f}")
print(f" 대조 효과율: {control.mean():.3f}")
print(f" RR = {rr_itt:.3f}, p = {p_itt:.4f}")
# PP — drop-out 제외
treatment_pp = treatment[treatment_dropout == 0]
control_pp = control[control_dropout == 0]
table_pp = np.array([
[treatment_pp.sum(), len(treatment_pp) - treatment_pp.sum()],
[control_pp.sum(), len(control_pp) - control_pp.sum()]
])
chi2_pp, p_pp, _, _ = chi2_contingency(table_pp)
rr_pp = treatment_pp.mean() / control_pp.mean()
print(f"\nPP 분석:")
print(f" 처치 효과율: {treatment_pp.mean():.3f} (n = {len(treatment_pp)})")
print(f" 대조 효과율: {control_pp.mean():.3f} (n = {len(control_pp)})")
print(f" RR = {rr_pp:.3f}, p = {p_pp:.4f}")이 코드는 동일 자료 에서 ITT vs PP 분석의 차이를 보여 준다. 일반적으로 PP 가 더 큰 효과 추정 (drop-out 이 효과 없는 환자에 편중되었기 때문).
9 보고 기준 — CONSORT
임상시험 보고 표준 (CONSORT 2010) 은 다음을 요구한다.
- 무작위 배정 환자 수
- 각 그룹의 분석 대상 환자 수
- 결측 처리 방법 명시
- ITT 또는 modified ITT 우선 분석
- PP 분석은 sensitivity analysis 로 추가
이 기준이 분모 명시 의 표준이며, A/B 테스트 보고에서도 유사한 형식 이 권장된다.
10 ITT 변형 — Modified ITT, Per-Protocol, As-Treated 비교
10.1 Modified ITT (mITT)
ITT 의 완화 형태. 무작위 배정된 모든 환자가 아닌, 프로토콜 정의 기준 충족 환자만 분석.
흔한 mITT 정의: - 최소 1 회 처치 받은 환자 - Baseline 측정 완료 환자 - 적격 기준 사후 확인된 환자
10.2 As-Treated (AT)
환자가 실제 받은 처치 에 따라 분석. 무작위 배정 무시.
10.2.1 위험
- 무작위 배정의 통계적 정당성 상실
- 교차 (crossover) 환자가 처치 효과와 self-selection 혼합
- 처치 효과 과대 추정 가능
10.3 Treatment-Received
AT 의 변형. 처치 시작 후 중단/변경 무시.
10.4 비교 매트릭스
| 분석 | 무작위 배정 보존 | 인과 추론 | 효과 크기 |
|---|---|---|---|
| ITT | OK | RCT 의 인과 정당성 | 보수적 (현실 효과) |
| mITT | 부분적 | 일부 환자 제외 | 약간 자유 |
| Per-Protocol | 약화 | 순응 환자만 | 효능 추정 (효과 과대) |
| As-Treated | 깨짐 | 인과 정당성 X | 매우 자유 |
10.5 CONSORT 권장
Primary 분석: ITT (또는 mITT)
Sensitivity 분석: PP, AT (보고만)
이 계층화 가 정직한 분석.
11 Estimands Framework (ICH E9 R1, 2017)
연구 질문을 정확히 어떤 효과 인지 명시. 5 가지 측면:
- Population: 어떤 환자들?
- Variable: 어떤 outcome?
- Intercurrent events: 처치 중단·crossover·구조 약물 사용 등 처리 후 사건 의 처리 방법
- Population-level summary: 평균 차이, RR, OR 등
- Estimation method: 통계 절차
11.1 5 Estimand 전략
ICH E9 R1 의 5 가지 표준 전략 (intercurrent events 처리):
| 전략 | 처리 방법 |
|---|---|
| Treatment Policy | 사건 무시, 그대로 분석 (~ ITT) |
| Hypothetical | “사건 없었다면” 의 가상 효과 |
| Composite | 사건을 outcome 의 일부로 |
| Principal Stratification | 사건 발생 여부 로 부분 모집단 분석 |
| While on Treatment | 처치 받는 동안만의 효과 |
11.2 A/B 테스트의 Estimand
A/B 테스트도 같은 결정 필요:
Population: 노출된 모든 사용자? 활성 사용자만?
Variable: 30 일 매출? 영구 매출?
Intercurrent events:
- 사용자 이탈 → 매출 0 처리?
- 다른 variant 노출 → 제외?
- 환불 → 매출에서 차감?
Summary: 평균 차이? 중앙값? 분위수?
이 5 가지 결정이 분석 결과 좌우.
12 결측 처리의 정직한 방법
A-WOO14-* 시리즈에서 자세히. 핵심:
- MCAR → Listwise OK
- MAR → Multiple Imputation 권장
- MNAR → 민감도 분석
LOCF, mean imputation 같은 단순 대체 는 표본 정보 무시. 베이즈 또는 MI 권장.
13 보고 형식 — CONSORT + Estimands
연구 설계: 2-arm RCT, ITT 분석
Primary Estimand:
Population: 무작위 배정된 모든 환자 (n=200)
Variable: 30 일 후 사망률 (binary)
Intercurrent events: Treatment Policy (사건 무시)
Summary: Risk Difference + Relative Risk
Estimation: Generalized linear model
Modified ITT (sensitivity):
Population: ≥ 1 dose 환자 (n=185)
Other components 동일
Per-Protocol (sensitivity):
Population: 프로토콜 완료 환자 (n=160)
결과:
ITT: RR 0.75, 95% CI [0.55, 1.02], p = 0.069
mITT: RR 0.72, 95% CI [0.51, 1.00], p = 0.048
PP: RR 0.65, 95% CI [0.45, 0.95], p = 0.022
논의:
Primary 분석 (ITT) 결과 결정적 X. mITT 와 PP 분석은 효과 시사.
Drop-out 이 효과 추정에 영향 가능. 추가 시험 권장.
이 형식이 현대 임상시험 보고 표준.
같은 자료에 5 가지 다른 효과 를 추정 가능. 어느 effect 가 의사결정에 적절한가?
신약 승인: Treatment Policy (현실 효과). 환자가 약을 안 먹어도 그 약의 효과. 용량 최적화: While on Treatment (실제 복용 시 효과). 약물 메커니즘 연구: Hypothetical (완벽 순응 시 효과).
이 목적별 estimand 가 분석을 정밀화. ICH E9 R1 의 핵심 통찰.
A/B 테스트도 같다. 마케팅 ROI (현실 효과) vs 기술 효율 (활성 사용자만) vs 디자인 개선 (참여 사용자만). 비즈니스 질문이 estimand 결정.
14 후속 — Measures of Association 위험성
다음 글 A-SCH1-2 는 Measures of Association 의 위험성 과 p < 0.05 비판 의 자세한 내용을 다룬다.
15 관련 주제
선행 지식
후속 주제 (Phase A)
- A-SCH1-2 Measures of Association + p < 0.05 비판
- A-WOO14-6, 7 (결측 자료와 다중 대체)
다른 카테고리 연결