결과 측정과 분수 혼동 — 분모를 명확히

임상 결과 변수의 측정 함정과 통계 분석의 정확성

Schulz Ch.1 의 outcome measurement 와 confusing fractions 부분을 정리한다. 이진·연속·시간-사건 결과 변수의 통계 분석, 분수의 분모 모호성이 만드는 결론의 왜곡, ITT vs Per-protocol 분석의 차이를 다룬다.

Experimentation
Fundamentals
저자

Kwangmin Kim

공개

2026년 05월 08일

1 도입 — 같은 자료, 다른 분모, 다른 결론

임상 연구의 흔한 함정은 분수의 분모 가 모호한 보고이다. “환자의 50 % 가 회복했다” 라는 진술이 어느 환자 집합 의 50 % 인지에 따라 결론이 달라진다.

이 글은 (a) outcome measurement 의 통계적 분류, (b) confusing fractions 의 위험성, (c) ITT vs Per-protocol 분석의 차이를 다룬다.

2 Outcome 의 통계적 분류

2.1 이진 (Binary / Dichotomous)

정의: 이진 결과

각 관측이 두 범주 중 하나에 속함. 예: 사망/생존, 회복/지속, 성공/실패.

분포: 베르누이 (\(Y \sim \text{Bernoulli}(p)\)). 검정: 카이제곱, Fisher’s exact, Z 검정. 효과 크기: RR, OR, RD, NNT.

2.2 연속 (Continuous)

정의: 연속 결과

각 관측이 실수 값. 예: 혈압, BMI, 검사 수치, 통증 척도 (연속 시각 아날로그).

분포: 정규 (또는 변환 후 정규). 검정: t, F, ANOVA. 효과 크기: 평균 차이, Cohen’s d, η².

2.3 시간-사건 (Time-to-Event / Survival)

정의: 시간-사건 결과

사건 발생까지 시간 을 측정. 일부 관측은 센서링 (사건 발생 전 추적 종료).

분포: 지수, Weibull, Cox 비례 위험. 검정: Log-rank, Wald. 효과 크기: Hazard Ratio (HR), 생존 함수 차이.

2.4 순서형 (Ordinal)

순서 있는 범주. 예: 통증 1-10, 등급 A/B/C/D.

검정: Mann-Whitney U, 비례 odds 모형. 효과 크기: 순위 차이, 비례 odds.

2.5 합산 점수 (Composite)

여러 항목 합산. 예: QoL 점수 (40 문항 합), 우울 척도 (20 항목).

CLT 에 의해 연속 근사 가능. 그러나 척도 한계 (천장·바닥 효과) 주의.

3 측정 유형별 적합한 분석

자료 유형 표준 분석 잘못된 사용
이진 카이제곱, 로지스틱 회귀 t 검정 (분포 가정 위반)
연속 t, F, ANOVA 카이제곱 (척도 정보 손실)
시간-사건 Cox, Log-rank t 검정 (센서링 무시)
순서형 Mann-Whitney, 비례 odds t 검정 (척도 가정)
직관 — 잘못된 분석의 위험성

이진 결과 (사망/생존) 에 t 검정을 사용하면 어떻게 되는가?

  • 자료 변환: 사망 = 1, 생존 = 0
  • 평균: 처치 그룹 0.05 (5 % 사망), 대조군 0.08 (8 % 사망)
  • t 검정: \(\bar{Y}_T - \bar{Y}_C = -0.03\), SE 계산 후 t 값 산출

수학적으로는 작동 한다. 그러나:

  1. 분포 가정 위반 — 이진 변수는 정규 아님
  2. 분산 추정 부정확 — Bernoulli 분산은 \(p(1-p)\) 인데 t 검정은 표본 분산 사용
  3. 작은 표본·극단 비율 에서 부정확

큰 표본에서는 CLT 가 작동해 t 검정과 카이제곱이 비슷한 결과를 주지만, 적합한 분석은 카이제곱이나 로지스틱 회귀 다.

A/B 테스트의 클릭률 분석도 마찬가지: t 검정도 큰 표본에서 작동하지만, 공식적으로는 비율 검정 (z-test of proportions) 또는 로지스틱 회귀 가 적합.

4 Confusing Fractions — 분모의 모호성

4.1 사례 — 임상시험 보고

“이 항암제는 환자의 60 % 에서 종양 크기를 30 % 이상 감소시켰다.”

이 진술이 모호한 이유:

  • 60 %: 어느 환자 집합 의 60 %?
    • Intent-to-Treat (ITT): 무작위 배정된 모든 환자
    • Per-Protocol (PP): 프로토콜 완료 환자만
    • As-Treated (AT): 실제 처치를 받은 환자

같은 자료에서 분모가 다르면 완전히 다른 결론.

4.2 사례 — 실제 vs 분석 환자

가상 임상시험:

  • 100 명 무작위 배정 (50 명 처치, 50 명 위약)
  • 처치 그룹 중 10 명이 부작용으로 중단 → 40 명 완료
  • 위약 그룹 중 5 명이 자료 누락 → 45 명 완료
분석 처치 분모 효과 발견 환자 비율
ITT 50 25 50 %
PP 40 25 62.5 %
AT 45 (실제 처치 받은) 28 62.2 %

같은 자료, 3 가지 다른 비율. 어느 것이 정확한가?

4.3 ITT 가 표준인 이유

정의: Intent-to-Treat (ITT) 분석

무작위 배정된 모든 환자 를 그들의 원래 그룹 에 따라 분석. 처치 중단·이탈·교차 무관.

장점:

  • 무작위 배정의 통계적 정당성 보존
  • 실세계 효과 (effectiveness) 추정에 가까움
  • 보수적 (효과 과소 추정 경향)

단점:

  • 생물학적 효능 (efficacy) 보다는 현실적 효과 측정
  • 처치 미수자가 많으면 검정력 약화

PP 또는 AT 분석은 무작위 배정의 균형 을 깰 수 있다. 부작용으로 중단한 환자가 처치 효과가 없는 환자에 편중 될 가능성. 따라서 PP 결과가 과대 추정 되기 쉽다.

직관 — ITT vs PP 의 트레이드오프

ITT 가 현실의 효과 를 측정한다면, PP 는 완벽한 순응 의 효과를 측정한다.

신약 승인 결정: 현실 효과 (ITT) 를 보아야 한다. 환자가 약을 안 먹는 것도 약의 한계다.

생물학적 메커니즘 연구: 완벽 순응 효과 (PP) 도 의미 있다. 약이 정말로 작동하는지 보려는 것이다.

따라서 둘 다 보고하는 것이 권장된다. ITT 는 main analysis, PP 는 sensitivity analysis 로.

A/B 테스트에도 비슷한 구분이 있다. 모든 노출 사용자 (ITT 격) 분석이 표준이지만, 체류 시간 일정 이상 같은 segment 분석은 PP 격.

5 분모 명시의 권장 형식

처치 그룹: 50 명 무작위 배정 (그중 40 명 프로토콜 완료)
대조 그룹: 50 명 무작위 배정 (그중 45 명 자료 분석 가능)

효과 발견:
  ITT 분석 (n = 50/50): 처치 25 명 (50.0 %), 대조 15 명 (30.0 %), RD = 20.0 %
  PP 분석 (n = 40/45): 처치 25 명 (62.5 %), 대조 15 명 (33.3 %), RD = 29.2 %

주 분석: ITT (RD = 20.0 %, 95 % CI [4.5 %, 35.5 %], p = 0.012)
민감도 분석: PP (일관된 방향)

이 형식이 분모 명시 + ITT 표시 + 민감도 분석 의 세 가지를 동시에 보여 준다.

6 Drop-out 처리 — 결측 자료

ITT 분석에서 drop-out 환자의 결과를 어떻게 처리하는가?

방법 가정 사용 시점
Last Observation Carried Forward (LOCF) 마지막 관측 후 변화 없음 단순, 보수적
Multiple Imputation (MI) 결측이 다른 변수에 의존 (MAR) 권장
Inverse Probability Weighting 결측 메커니즘 모형화 복잡한 시나리오
Worst-case imputation 최악 결과 가정 매우 보수적
Best-case imputation 최선 결과 가정 매우 자유

6.1 MCAR / MAR / MNAR

  • MCAR (Missing Completely At Random): 결측이 모든 변수와 무관 — drop-out 무시 가능
  • MAR (Missing At Random): 결측이 관측 변수에 의존 (다른 변수로 모델링 가능) — MI 권장
  • MNAR (Missing Not At Random): 결측이 결측 자체에 의존 — 가장 어려움

A-WOO14-* 시리즈에서 다중 대체 (Multiple Imputation) 를 자세히 다룬다.

7 A/B 테스트의 결측 분석

A/B 테스트의 흔한 결측 시나리오:

시나리오 처리
사용자가 페이지 로드 안 함 노출 안 됨 → 분석 제외
사용자가 클릭 안 함 클릭률 0 처리 (자연 결측)
사용자가 매출 발생 안 함 매출 0 처리
사용자가 후속 페이지 안 봄 체류 시간 → 마지막 관측까지

A/B 테스트는 비교적 단순 한 결측 구조 (대부분 MAR 또는 MCAR). 그러나 segment 분석 에서 결측 패턴이 다르면 (예: 모바일 사용자가 더 많이 이탈), 결측 처리에 신중해야 한다.

8 코드 예시 — ITT vs PP

import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency, fisher_exact

np.random.seed(42)

# 가상 임상시험
n_per_group = 100
treatment = np.random.choice([0, 1], size=n_per_group, p=[0.4, 0.6])  # 1 = 효과
control = np.random.choice([0, 1], size=n_per_group, p=[0.7, 0.3])  # 1 = 효과

# Drop-out — 처치 부작용
treatment_dropout = np.random.choice([0, 1], size=n_per_group, p=[0.85, 0.15])
control_dropout = np.random.choice([0, 1], size=n_per_group, p=[0.95, 0.05])

# ITT — 모든 환자 사용
table_itt = np.array([
    [treatment.sum(), n_per_group - treatment.sum()],
    [control.sum(), n_per_group - control.sum()]
])
chi2_itt, p_itt, _, _ = chi2_contingency(table_itt)
rr_itt = (treatment.mean()) / (control.mean())
print(f"ITT 분석:")
print(f"  처치 효과율: {treatment.mean():.3f}")
print(f"  대조 효과율: {control.mean():.3f}")
print(f"  RR = {rr_itt:.3f}, p = {p_itt:.4f}")

# PP — drop-out 제외
treatment_pp = treatment[treatment_dropout == 0]
control_pp = control[control_dropout == 0]
table_pp = np.array([
    [treatment_pp.sum(), len(treatment_pp) - treatment_pp.sum()],
    [control_pp.sum(), len(control_pp) - control_pp.sum()]
])
chi2_pp, p_pp, _, _ = chi2_contingency(table_pp)
rr_pp = treatment_pp.mean() / control_pp.mean()
print(f"\nPP 분석:")
print(f"  처치 효과율: {treatment_pp.mean():.3f} (n = {len(treatment_pp)})")
print(f"  대조 효과율: {control_pp.mean():.3f} (n = {len(control_pp)})")
print(f"  RR = {rr_pp:.3f}, p = {p_pp:.4f}")

이 코드는 동일 자료 에서 ITT vs PP 분석의 차이를 보여 준다. 일반적으로 PP 가 더 큰 효과 추정 (drop-out 이 효과 없는 환자에 편중되었기 때문).

9 보고 기준 — CONSORT

임상시험 보고 표준 (CONSORT 2010) 은 다음을 요구한다.

  1. 무작위 배정 환자 수
  2. 각 그룹의 분석 대상 환자 수
  3. 결측 처리 방법 명시
  4. ITT 또는 modified ITT 우선 분석
  5. PP 분석은 sensitivity analysis 로 추가

이 기준이 분모 명시 의 표준이며, A/B 테스트 보고에서도 유사한 형식 이 권장된다.

10 ITT 변형 — Modified ITT, Per-Protocol, As-Treated 비교

10.1 Modified ITT (mITT)

ITT 의 완화 형태. 무작위 배정된 모든 환자가 아닌, 프로토콜 정의 기준 충족 환자만 분석.

흔한 mITT 정의: - 최소 1 회 처치 받은 환자 - Baseline 측정 완료 환자 - 적격 기준 사후 확인된 환자

10.2 As-Treated (AT)

환자가 실제 받은 처치 에 따라 분석. 무작위 배정 무시.

10.2.1 위험

  • 무작위 배정의 통계적 정당성 상실
  • 교차 (crossover) 환자가 처치 효과와 self-selection 혼합
  • 처치 효과 과대 추정 가능

10.3 Treatment-Received

AT 의 변형. 처치 시작 후 중단/변경 무시.

10.4 비교 매트릭스

분석 무작위 배정 보존 인과 추론 효과 크기
ITT OK RCT 의 인과 정당성 보수적 (현실 효과)
mITT 부분적 일부 환자 제외 약간 자유
Per-Protocol 약화 순응 환자만 효능 추정 (효과 과대)
As-Treated 깨짐 인과 정당성 X 매우 자유

10.5 CONSORT 권장

Primary 분석: ITT (또는 mITT)
Sensitivity 분석: PP, AT (보고만)

계층화 가 정직한 분석.

11 Estimands Framework (ICH E9 R1, 2017)

정의: Estimands

연구 질문을 정확히 어떤 효과 인지 명시. 5 가지 측면:

  1. Population: 어떤 환자들?
  2. Variable: 어떤 outcome?
  3. Intercurrent events: 처치 중단·crossover·구조 약물 사용 등 처리 후 사건 의 처리 방법
  4. Population-level summary: 평균 차이, RR, OR 등
  5. Estimation method: 통계 절차

11.1 5 Estimand 전략

ICH E9 R1 의 5 가지 표준 전략 (intercurrent events 처리):

전략 처리 방법
Treatment Policy 사건 무시, 그대로 분석 (~ ITT)
Hypothetical “사건 없었다면” 의 가상 효과
Composite 사건을 outcome 의 일부로
Principal Stratification 사건 발생 여부 로 부분 모집단 분석
While on Treatment 처치 받는 동안만의 효과

11.2 A/B 테스트의 Estimand

A/B 테스트도 같은 결정 필요:

Population: 노출된 모든 사용자? 활성 사용자만?
Variable: 30 일 매출? 영구 매출?
Intercurrent events:
  - 사용자 이탈 → 매출 0 처리?
  - 다른 variant 노출 → 제외?
  - 환불 → 매출에서 차감?
Summary: 평균 차이? 중앙값? 분위수?

이 5 가지 결정이 분석 결과 좌우.

12 결측 처리의 정직한 방법

A-WOO14-* 시리즈에서 자세히. 핵심:

  1. MCAR → Listwise OK
  2. MAR → Multiple Imputation 권장
  3. MNAR → 민감도 분석

LOCF, mean imputation 같은 단순 대체 는 표본 정보 무시. 베이즈 또는 MI 권장.

13 보고 형식 — CONSORT + Estimands

연구 설계: 2-arm RCT, ITT 분석

Primary Estimand:
  Population: 무작위 배정된 모든 환자 (n=200)
  Variable: 30 일 후 사망률 (binary)
  Intercurrent events: Treatment Policy (사건 무시)
  Summary: Risk Difference + Relative Risk
  Estimation: Generalized linear model

Modified ITT (sensitivity):
  Population: ≥ 1 dose 환자 (n=185)
  Other components 동일

Per-Protocol (sensitivity):
  Population: 프로토콜 완료 환자 (n=160)

결과:
  ITT: RR 0.75, 95% CI [0.55, 1.02], p = 0.069
  mITT: RR 0.72, 95% CI [0.51, 1.00], p = 0.048
  PP: RR 0.65, 95% CI [0.45, 0.95], p = 0.022

논의:
  Primary 분석 (ITT) 결과 결정적 X. mITT 와 PP 분석은 효과 시사.
  Drop-out 이 효과 추정에 영향 가능. 추가 시험 권장.

이 형식이 현대 임상시험 보고 표준.

직관 — Estimand 의 의미

같은 자료에 5 가지 다른 효과 를 추정 가능. 어느 effect 가 의사결정에 적절한가?

신약 승인: Treatment Policy (현실 효과). 환자가 약을 안 먹어도 그 약의 효과. 용량 최적화: While on Treatment (실제 복용 시 효과). 약물 메커니즘 연구: Hypothetical (완벽 순응 시 효과).

목적별 estimand 가 분석을 정밀화. ICH E9 R1 의 핵심 통찰.

A/B 테스트도 같다. 마케팅 ROI (현실 효과) vs 기술 효율 (활성 사용자만) vs 디자인 개선 (참여 사용자만). 비즈니스 질문이 estimand 결정.

14 후속 — Measures of Association 위험성

다음 글 A-SCH1-2 는 Measures of Association 의 위험성p < 0.05 비판 의 자세한 내용을 다룬다.

15 관련 주제

선행 지식

후속 주제 (Phase A)

  • A-SCH1-2 Measures of Association + p < 0.05 비판
  • A-WOO14-6, 7 (결측 자료와 다중 대체)

다른 카테고리 연결

Subscribe

Enjoy this blog? Get notified of new posts by email: