Kwangmin Kim - 임상 연구의 통계 시각

1 도입 — 임상 연구 분류와 통계 결론

Schulz & Grimes (2019) Essential Concepts in Clinical Research 의 Ch.1 은 임상 연구의 전체 지형도 를 제시한다. Phase B 핸드오프에서 일부 (taxonomy) 가 다뤄지므로, Phase A 의 lens 에서는 통계 결론의 한계 와 outcome measurement 부분에 집중한다.

핵심 메시지 (Schulz Ch.1 ABS):

“p 값은 우연 (chance) 만 다룬다. \(p = 0.05\) 에서의 귀무가설 검정은 의학적 근거가 없으며 권장되지 않는다.” (Schulz & Grimes, 2019, Ch.1, p. 1).

이는 Maxwell Ch.2~5 에서 다룬 다중성과 NP 의 임의성 비판의 임상 영역 응용 이다.

2 임상 연구의 두 왕국 — 실험 vs 관찰

정의: 실험적 vs 관찰적 연구

실험적 (Experimental) — 연구자가 처치 (exposure) 를 배정 한다.
관찰적 (Observational) — 처치가 자연적 또는 자기 선택적 으로 결정되며, 연구자는 단지 관찰한다.

2.1 실험적 연구의 분류

실험적
   ├── 무작위 배정 → Randomised Controlled Trial (RCT)
   └── 비무작위 → Non-randomised Controlled Trial

2.2 관찰적 연구의 분류

관찰적
   ├── 비교 그룹 있음 → Analytical
   │      ├── Cohort: Exposure → Outcome (전향)
   │      ├── Case-Control: Outcome → Exposure (후향)
   │      └── Cross-sectional: 동시 측정
   └── 비교 그룹 없음 → Descriptive
          (case report, case series, ecological)

3 Quality of Evidence — US Preventive Services Task Force

등급	근거
I	잘 설계된 RCT 1 개 이상
II-1	무작위 배정 없는 통제 시험
II-2	Cohort 또는 case-control 연구 (다중 센터)
II-3	다수 시계열 자료
III	전문가 의견, descriptive 연구

I 등급이 최상 인 이유는 무작위 배정이 교란 (confounding) 을 통계적으로 통제하기 때문이다.

4 왜 RCT 가 Gold Standard 인가 — 통계적 관점

A-MAX2-0 에서 다뤘듯이, 무작위 배정은 검정 분포의 정당성을 만든다. 임상 영역에서 이는 다음을 의미한다.

4.1 교란의 통제

관찰 연구에서는 측정되지 않은 교란 변수 가 결과를 왜곡할 수 있다. 예: 흡연자와 비흡연자의 폐암 발생률 비교에서, 유전적 소인 같은 교란이 부분적 원인일 수 있다.

무작위 배정은 모든 교란 변수 를 처치 그룹들에 대해 기대값상 균형 을 만든다. 측정되지 않은 변수도 마찬가지로 균형이 잡힌다.

4.2 통계적 결론의 견고함

A-MAX2-3 에서 보았듯이, 무작위 배정은 t·F 검정의 분포 가정 을 randomization 분포로의 근사 로 정당화한다. 따라서 RCT 의 통계 결론은 모집단 가정 에 덜 의존한다.

직관 — RCT 가 인과 추론의 표준이 되는 이유

같은 자료라도 어떻게 수집되었는가 가 결론을 결정한다.

관찰 자료: “흡연자가 비흡연자보다 폐암이 많다.” → 인과 결론에 추가 가정 필요 (no unmeasured confounding 등).
RCT: “무작위 배정 흡연 그룹이 비흡연 그룹보다 폐암 더 많다.” → 인과 결론이 직접 가능 (단, 이 가상 RCT 는 윤리적으로 불가).

따라서 RCT 가 없는 영역 (역학·관찰 의학) 에서는 인과 추론을 위한 추가 가정과 분석 도구 (Hernan & Robins 2020 의 do-calculus, IPTW 등) 이 발달했다. Phase D 시리즈 (Hernan 후반부) 에서 다룬다.

5 p < 0.05 의 의학적 근거 없음 — Schulz 의 비판

5.1 0.05 의 임의성

Fisher 가 1925 년 Statistical Methods for Research Workers 에서 소개한 0.05 는 수학적·생물학적 근거 가 있는 값이 아니다. 단지 통계 표 작성의 편의 와 경험적 관습 에 의한 임의 임계값.

“이 값에는 의학적 근거가 없다. 0.04 와 0.06 사이의 차이는 임상적으로 의미 없는 임의 경계 일 뿐이다.” (Schulz & Grimes 2019, Ch.1)

5.2 Cliff Effect 의 위험성

\(p = 0.049\) vs \(p = 0.051\) 은 증거 강도가 거의 동일 하다. 그러나 이분법적 결정은 두 결과를 반대로 처리한다.

\(p = 0.049\) → “유의함” → 기각, 후속 연구
\(p = 0.051\) → “유의하지 않음” → 기각하지 못함, 폐기

이 차이가 임상 의사결정 에 큰 영향을 미친다 (예: 신약 승인 여부). 그러나 자료 자체에서는 증거가 거의 동등. 이것이 cliff effect 의 위험성이다.

5.3 권장 보고 형식

Schulz 가 권장하는 보고 형식 (Maxwell Ch.2 의 Wilkinson APA 권고와 일치):

정확한 p 값 보고 (p < 0.05 가 아닌 p = 0.018)
효과 크기 점추정 + 신뢰 구간
Measures of association (RR, OR, RD) 포함
Confounders 와 통제 방법 명시

6 Outcome Measurement — 결과 변수 측정의 통계

6.1 Confusing Fractions — 분수의 혼동

임상 연구에서 흔한 보고 오류 중 하나가 분수의 모호성 이다.

“이 약은 환자의 50 % 에서 효과가 있었다.”

이 진술의 모호성:

50 %: 전체 환자 중 50 %?
50 %: 처치 받은 환자 중 50 %?
50 %: 완료한 환자 중 50 %? (drop-out 처리)

직관 — 분모의 정확성

분수의 분모가 무엇인가 가 통계 결론을 결정한다.

A/B 테스트 사례:

“B 변형의 클릭률이 5 %” — 어느 사용자 집합 의 5 %인가?
- 노출된 모든 사용자? (intent-to-treat)
- 페이지를 끝까지 본 사용자만?
- 전환을 시작한 사용자 중?

같은 5 % 라도 분모가 다르면 비교 가능성 이 사라진다. 임상에서 ITT (intent-to-treat) vs Per-protocol 분석의 차이도 같은 문제.

따라서 분모를 명시적으로 보고 해야 한다.

6.2 Outcome Measurement Hierarchy

측정 유형	사례	통계 분석
이진 (binary)	사망/생존, 회복/지속	Risk, OR, RR
시간-사건 (time-to-event)	생존 시간, 재발까지 시간	Hazard ratio, Kaplan-Meier
양적 (continuous)	혈압, BMI, 검사 수치	평균 차이, t/F 검정
순서형 (ordinal)	통증 척도 (1-10), 등급	순위 검정, 비례 odds 모형
합산 점수 (composite)	QoL 점수, 우울 척도	t/F 또는 비모수

각 측정 유형에 적합한 통계 분석이 다르다. 잘못된 분석 (예: 이진 결과에 t 검정) 은 결론을 왜곡한다.

7 Measures of Association — 효과 크기의 임상 표현

이진 결과의 그룹 비교에서 표준 effect size:

정의: 4 가지 측정

처치 그룹 (\(T\)) 과 대조 그룹 (\(C\)) 의 사건 발생 비율 \(p_T\), \(p_C\) 에 대해:

지표	정의	해석
Risk Difference (RD)	\(p_T - p_C\)	절대 효과
Relative Risk (RR)	\(p_T / p_C\)	상대 효과
Odds Ratio (OR)	\(\frac{p_T/(1-p_T)}{p_C/(1-p_C)}\)	베이스라인 무관 비교
NNT	\(1 / \|\text{RD}\|\)	1 명 효과를 위한 필요 인원

7.1 사례 — 항응고제 임상시험

가상 자료:

처치 그룹: 1000 명 중 5 명 사망 (\(p_T = 0.005\))
대조 그룹: 1000 명 중 8 명 사망 (\(p_C = 0.008\))

지표	값	해석
RD	\(-0.003\)	절대 위험 0.3 % 감소
RR	\(0.625\)	상대 위험 37.5 % 감소
OR	\(0.62\)	거의 RR 과 동일 (희귀 사건)
NNT	\(1 / 0.003 \approx 333\)	1 명 살리려면 333 명 처치 필요

같은 자료, 4 가지 다른 표현. 의사결정 단위에 따라 적절한 지표가 다르다.

직관 — RR 만 보면 위험한 이유

뉴스에서 “신약이 사망률을 50 % 감소시켰다” 라고 하면 큰 효과 처럼 들린다. 그러나 다음을 봐야 한다.

베이스라인 사망률은? (10 % vs 0.001 %)
절대 효과 (RD) 는? (5 % 감소 vs 0.0005 % 감소)
NNT 는? (20 명 vs 200000 명)

베이스라인이 매우 낮으면 RR 의 50 % 감소는 임상적으로 무의미 할 수 있다. 따라서 RR + RD + NNT 함께 보고가 권장된다.

A/B 테스트의 Lift (= RR - 1) 도 마찬가지다. 베이스라인 클릭률이 0.1 % 인데 lift 가 50 % 면 절대 차이는 0.05 % 다. 비즈니스 임팩트는 절대 차이 × 사용자 수 로 계산.

8 p 값과 Measures of Association 의 차이

항목	p 값	RR/OR/RD
의미	우연으로 설명 가능성	효과의 크기와 방향
표본 의존성	큼 (큰 표본 → 작은 p)	적음
임상 의미	간접적	직접적
권장	보조	주 보고

Schulz 의 강조: measures of association + 신뢰 구간 + p 값 의 3 종 세트 가 표준 보고 형식.

9 임상시험의 통계 lens — 4 가지 함정

Schulz Ch.1 이 강조하는 임상시험 통계의 4 가지 흔한 함정.

9.1 함정 1 — 통계적 유의 vs 임상적 의미

가상 시나리오:

“100,000 명 시험에서 신약이 사망률을 0.001 % 감소 시킴 (p < 0.001). 통계적으로 매우 유의.”

분석:

통계적: p < 0.001, 효과 명확
임상적: NNT = 100,000. 10 만 명 처치해야 1 명 살림. 부작용 1 % 만 있어도 손해
결정: 임상적으로 무의미

이 함정의 회피: 효과 크기 + NNT + 비용·부작용 함께 평가.

9.2 함정 2 — 작은 표본의 큰 효과

“20 명 시험에서 신약이 사망률을 50 % 감소 시킴 (p = 0.04).”

분석:

통계적: 유의 (p < 0.05)
표본 작음 → CI 넓음 → 효과 크기 추정 매우 부정확
95 % CI: [-90 %, +10 %] (가상) → 효과 방향조차 불확실
결정: 후속 큰 시험 필요

이 함정의 회피: 효과 크기 CI 의 폭 점검.

9.3 함정 3 — Subgroup 분석 함정

“전체 시험은 미유의. 그러나 여성 subgroup 에서는 유의 (p = 0.03).”

분석:

사후 subgroup 발견 → 다중 비교 인플레이션
10 개 subgroup 검정 → 적어도 1 개 유의할 확률 ≈ 40 %
우연한 유의 가능성 큼
결정: 재현 시험 필요, 결론 보류

이 함정의 회피: 사전 등록된 subgroup 만 primary 분석. 사후는 exploratory 표시.

9.4 함정 4 — Composite Endpoint 의 오해

“심혈관 사건 (MI + Stroke + 사망) composite 가 18 % 감소 (RR 0.82, p < 0.05).”

분석:

Composite 효과는 강해 보임
Components 분석:
- MI: 30 % 감소 (driver)
- Stroke: 15 % 증가 (해로운 효과!)
- 사망: 변화 없음
Composite 효과는 MI 감소만으로 인한 것
Stroke 증가 우려 가려짐

이 함정의 회피: Components 분석 항상 보고.

직관 — 4 함정의 통합 메시지

이 4 함정의 공통점: p 값에만 의존 하면 결론이 잘못된다.

해법: 통계적 유의 + 효과 크기 + CI + 임상 의미 의 4 차원 동시 평가.

A/B 테스트의 4 함정 매핑:

통계적 유의 vs 비즈니스 의미: 0.01 % lift 가 통계 유의해도 비즈니스 무의미
작은 segment 의 큰 효과: 신규 사용자 100 명에서 50 % lift 는 추정 부정확
Subgroup 함정: 모바일·신규·iOS 등 subgroup 에서 우연한 유의
Composite metric: engagement = 클릭 OR 댓글 — components 차이 가려짐

이 함정들을 인식하는 것이 비즈니스 의사결정의 정직성 출발점.

10 임상 시험의 보고 형식 — CONSORT 기반

CONSORT 2010 권고에 따른 통계 결과 보고 표준:

Methods (사전 등록):
  Primary outcome: 30 일 사망률 (이항)
  Secondary outcomes: 90 일 사망률, MI, Stroke, 재입원
  Sample size: n = 1924 (962/group), α = 0.05 양측, power = 0.90,
              가정 p_C = 10 %, 검출 효과 RR = 0.6
  Subgroup 분석 (사전 등록): 연령 (≥ 65 vs < 65), 성별, 당뇨

Results:
  Primary outcome — 사망률
    처치: 87/962 (9.0 %)
    대조: 121/962 (12.6 %)
    Risk Difference: -3.6 %, 95 % CI [-6.2 %, -1.0 %]
    Relative Risk: 0.72, 95 % CI [0.55, 0.94]
    NNT: 28

  Secondary outcomes (FDR 보정):
    90 일 사망률: RR 0.78, 95 % CI [0.62, 0.99]
    MI: RR 0.65, 95 % CI [0.45, 0.95]
    Stroke: RR 1.10, 95 % CI [0.80, 1.50] (방향 우려)
    재입원: RR 0.85, 95 % CI [0.70, 1.05]

  Subgroup (사전):
    < 65 세: RR 0.70, 95 % CI [0.50, 0.95]
    ≥ 65 세: RR 0.75, 95 % CI [0.55, 1.05]
    P (interaction) = 0.74 (homogeneous)

Discussion:
  처치가 사망률 약 28 % 상대 감소 (28 명 처치 시 1 명 추가 생존).
  Stroke 의 경미한 증가 추세는 추가 모니터링 필요.
  연령 그룹 효과 일관 — 두 군에 균등 처방 가능.

이 형식이 CONSORT 의 완전한 보고 표준. 각 항목이 임상 의사결정에 직접 유용.

11 ICH E9 — 통계 원칙의 국제 합의

정의: ICH E9 (1998) Statistical Principles for Clinical Trials

International Council for Harmonisation 의 통계 가이드라인. 임상시험의 통계 절차의 국제 표준.

핵심 원칙:

Pre-specification — 모든 분석 사전 정의
Two-sided testing — 양측 검정 표준
ITT analysis — Intent-to-Treat 우선
Multiplicity adjustment — 다중성 명시 처리
Sensitivity analysis — 가정 변동의 영향
Reporting all outcomes — 모든 결과 보고

ICH E9 의 2017 R1 개정 (Estimands Framework) 이 더 정교한 추론 골격 제공:

Treatment policy: 사용자가 처치 중단해도 그대로 분석 (ITT 와 유사)
Hypothetical: “만약 치료 중단 없었다면” 의 가상 효과
Composite: 결과 + 사망 등 합산
Principal stratification: 부분 모집단 효과
While on treatment: 처치 받는 동안만의 효과

이 5 estimand 전략 이 현대 임상시험의 분석 단위. A/B 테스트도 비슷한 estimand 결정 필요 (예: ITT vs as-treated).

12 통계 도구의 수렴

Schulz Ch.1 이 보여주는 통계 발전의 흐름:

1900~1950: Fisher 전통 (significance testing)
1950~1980: NP 가설 검정 + 검정력 분석 표준화
1980~2010: 효과 크기 + CI + ICH E9
2010~현재: Estimands + Multiple Imputation + Adaptive 시험

각 시기의 발전이 이전 한계의 보완. 현대 임상시험은 5 차원 동시 분석 (효과 + CI + p + 다중성 + 결측 처리).

13 A/B 테스트의 통합 분석

A/B 테스트 분석도 임상시험 표준을 따라야 한다:

import numpy as np
import pandas as pd
from scipy import stats

# 가상 자료
np.random.seed(42)
n_per = 5000
control_conv = np.random.binomial(1, 0.05, n_per)
treatment_conv = np.random.binomial(1, 0.055, n_per)

# 1. 점추정
p_c = control_conv.mean()
p_t = treatment_conv.mean()
print(f"Control 전환율: {p_c*100:.3f} %")
print(f"Treatment 전환율: {p_t*100:.3f} %")

# 2. Risk Difference + CI
rd = p_t - p_c
se_rd = np.sqrt(p_c*(1-p_c)/n_per + p_t*(1-p_t)/n_per)
ci_rd = (rd - 1.96*se_rd, rd + 1.96*se_rd)
print(f"\nRD: {rd*100:+.3f} %, 95 % CI ({ci_rd[0]*100:+.3f} %, {ci_rd[1]*100:+.3f} %)")

# 3. Relative Risk + CI
rr = p_t / p_c
log_rr = np.log(rr)
se_log_rr = np.sqrt(1/sum(treatment_conv) - 1/n_per + 1/sum(control_conv) - 1/n_per)
ci_rr = (np.exp(log_rr - 1.96*se_log_rr), np.exp(log_rr + 1.96*se_log_rr))
print(f"RR: {rr:.4f}, 95 % CI ({ci_rr[0]:.4f}, {ci_rr[1]:.4f})")

# 4. NNT
nnt = 1 / abs(rd) if rd != 0 else float('inf')
print(f"NNT: {nnt:.0f}")

# 5. p 값
chi2, p_chi, _, _ = stats.chi2_contingency([
    [sum(treatment_conv), n_per - sum(treatment_conv)],
    [sum(control_conv), n_per - sum(control_conv)]
])
print(f"\n카이제곱: χ² = {chi2:.3f}, p = {p_chi:.4f}")

# 보고 형식
print("\n=== 보고 ===")
print(f"전환율 차이 (RD): +{rd*100:.3f} % [{ci_rd[0]*100:+.3f}, {ci_rd[1]*100:+.3f}]")
print(f"상대 위험 (RR): {rr:.3f} [{ci_rr[0]:.3f}, {ci_rr[1]:.3f}]")
print(f"NNT (변환): {nnt:.0f}")
print(f"χ² 검정 p = {p_chi:.4f}")

이 코드가 임상시험 표준의 A/B 테스트 적용. RD + RR + NNT + p 값의 4 차원.

14 Schulz Ch.1 의 통계 lens 결론

RCT 가 gold standard — 무작위 배정이 검정 분포와 인과 추론을 동시에 정당화
0.05 임계값은 임의 — 정확한 p 값 보고가 더 정직
분수의 분모 명시 — outcome measurement 의 정확성 확보
Measures of association 우선 — RR/OR/RD/NNT 가 임상 의사결정에 직접 유용
신뢰 구간 동반 — 효과 추정의 불확실성 정량화

이 5 가지가 Ch.1 의 통계 핵심 이며, Phase A 의 다른 글들과 일관된 시각이다.

15 후속 — 측정 디테일과 측정의 위험성

다음 글들은 Schulz Ch.1 의 세부 주제 를 다룬다.

A-SCH1-1 — Outcome Measurement + Confusing Fractions 자세히
A-SCH1-2 — Measures of Association 의 위험성 + p < 0.05 비판

16 관련 주제

선행 지식

후속 주제 (Phase A)

A-SCH1-1 Outcome Measurement + Confusing Fractions
A-SCH1-2 Measures of Association + p < 0.05 비판

다른 카테고리 연결