1 도입 — 임상 연구 분류와 통계 결론
Schulz & Grimes (2019) Essential Concepts in Clinical Research 의 Ch.1 은 임상 연구의 전체 지형도 를 제시한다. Phase B 핸드오프에서 일부 (taxonomy) 가 다뤄지므로, Phase A 의 lens 에서는 통계 결론의 한계 와 outcome measurement 부분에 집중한다.
핵심 메시지 (Schulz Ch.1 ABS):
“p 값은 우연 (chance) 만 다룬다. \(p = 0.05\) 에서의 귀무가설 검정은 의학적 근거가 없으며 권장되지 않는다.” (Schulz & Grimes, 2019, Ch.1, p. 1).
이는 Maxwell Ch.2~5 에서 다룬 다중성과 NP 의 임의성 비판의 임상 영역 응용 이다.
2 임상 연구의 두 왕국 — 실험 vs 관찰
- 실험적 (Experimental) — 연구자가 처치 (exposure) 를 배정 한다.
- 관찰적 (Observational) — 처치가 자연적 또는 자기 선택적 으로 결정되며, 연구자는 단지 관찰한다.
2.1 실험적 연구의 분류
실험적
├── 무작위 배정 → Randomised Controlled Trial (RCT)
└── 비무작위 → Non-randomised Controlled Trial
2.2 관찰적 연구의 분류
관찰적
├── 비교 그룹 있음 → Analytical
│ ├── Cohort: Exposure → Outcome (전향)
│ ├── Case-Control: Outcome → Exposure (후향)
│ └── Cross-sectional: 동시 측정
└── 비교 그룹 없음 → Descriptive
(case report, case series, ecological)
3 Quality of Evidence — US Preventive Services Task Force
| 등급 | 근거 |
|---|---|
| I | 잘 설계된 RCT 1 개 이상 |
| II-1 | 무작위 배정 없는 통제 시험 |
| II-2 | Cohort 또는 case-control 연구 (다중 센터) |
| II-3 | 다수 시계열 자료 |
| III | 전문가 의견, descriptive 연구 |
I 등급이 최상 인 이유는 무작위 배정이 교란 (confounding) 을 통계적으로 통제하기 때문이다.
4 왜 RCT 가 Gold Standard 인가 — 통계적 관점
A-MAX2-0 에서 다뤘듯이, 무작위 배정은 검정 분포의 정당성을 만든다. 임상 영역에서 이는 다음을 의미한다.
4.1 교란의 통제
관찰 연구에서는 측정되지 않은 교란 변수 가 결과를 왜곡할 수 있다. 예: 흡연자와 비흡연자의 폐암 발생률 비교에서, 유전적 소인 같은 교란이 부분적 원인일 수 있다.
무작위 배정은 모든 교란 변수 를 처치 그룹들에 대해 기대값상 균형 을 만든다. 측정되지 않은 변수도 마찬가지로 균형이 잡힌다.
4.2 통계적 결론의 견고함
A-MAX2-3 에서 보았듯이, 무작위 배정은 t·F 검정의 분포 가정 을 randomization 분포로의 근사 로 정당화한다. 따라서 RCT 의 통계 결론은 모집단 가정 에 덜 의존한다.
같은 자료라도 어떻게 수집되었는가 가 결론을 결정한다.
- 관찰 자료: “흡연자가 비흡연자보다 폐암이 많다.” → 인과 결론에 추가 가정 필요 (no unmeasured confounding 등).
- RCT: “무작위 배정 흡연 그룹이 비흡연 그룹보다 폐암 더 많다.” → 인과 결론이 직접 가능 (단, 이 가상 RCT 는 윤리적으로 불가).
따라서 RCT 가 없는 영역 (역학·관찰 의학) 에서는 인과 추론을 위한 추가 가정과 분석 도구 (Hernan & Robins 2020 의 do-calculus, IPTW 등) 이 발달했다. Phase D 시리즈 (Hernan 후반부) 에서 다룬다.
5 p < 0.05 의 의학적 근거 없음 — Schulz 의 비판
5.1 0.05 의 임의성
Fisher 가 1925 년 Statistical Methods for Research Workers 에서 소개한 0.05 는 수학적·생물학적 근거 가 있는 값이 아니다. 단지 통계 표 작성의 편의 와 경험적 관습 에 의한 임의 임계값.
“이 값에는 의학적 근거가 없다. 0.04 와 0.06 사이의 차이는 임상적으로 의미 없는 임의 경계 일 뿐이다.” (Schulz & Grimes 2019, Ch.1)
5.2 Cliff Effect 의 위험성
\(p = 0.049\) vs \(p = 0.051\) 은 증거 강도가 거의 동일 하다. 그러나 이분법적 결정은 두 결과를 반대로 처리한다.
- \(p = 0.049\) → “유의함” → 기각, 후속 연구
- \(p = 0.051\) → “유의하지 않음” → 기각하지 못함, 폐기
이 차이가 임상 의사결정 에 큰 영향을 미친다 (예: 신약 승인 여부). 그러나 자료 자체에서는 증거가 거의 동등. 이것이 cliff effect 의 위험성이다.
5.3 권장 보고 형식
Schulz 가 권장하는 보고 형식 (Maxwell Ch.2 의 Wilkinson APA 권고와 일치):
- 정확한 p 값 보고 (p < 0.05 가 아닌 p = 0.018)
- 효과 크기 점추정 + 신뢰 구간
- Measures of association (RR, OR, RD) 포함
- Confounders 와 통제 방법 명시
6 Outcome Measurement — 결과 변수 측정의 통계
6.1 Confusing Fractions — 분수의 혼동
임상 연구에서 흔한 보고 오류 중 하나가 분수의 모호성 이다.
“이 약은 환자의 50 % 에서 효과가 있었다.”
이 진술의 모호성:
- 50 %: 전체 환자 중 50 %?
- 50 %: 처치 받은 환자 중 50 %?
- 50 %: 완료한 환자 중 50 %? (drop-out 처리)
분수의 분모가 무엇인가 가 통계 결론을 결정한다.
A/B 테스트 사례:
- “B 변형의 클릭률이 5 %” — 어느 사용자 집합 의 5 %인가?
- 노출된 모든 사용자? (intent-to-treat)
- 페이지를 끝까지 본 사용자만?
- 전환을 시작한 사용자 중?
같은 5 % 라도 분모가 다르면 비교 가능성 이 사라진다. 임상에서 ITT (intent-to-treat) vs Per-protocol 분석의 차이도 같은 문제.
따라서 분모를 명시적으로 보고 해야 한다.
6.2 Outcome Measurement Hierarchy
| 측정 유형 | 사례 | 통계 분석 |
|---|---|---|
| 이진 (binary) | 사망/생존, 회복/지속 | Risk, OR, RR |
| 시간-사건 (time-to-event) | 생존 시간, 재발까지 시간 | Hazard ratio, Kaplan-Meier |
| 양적 (continuous) | 혈압, BMI, 검사 수치 | 평균 차이, t/F 검정 |
| 순서형 (ordinal) | 통증 척도 (1-10), 등급 | 순위 검정, 비례 odds 모형 |
| 합산 점수 (composite) | QoL 점수, 우울 척도 | t/F 또는 비모수 |
각 측정 유형에 적합한 통계 분석이 다르다. 잘못된 분석 (예: 이진 결과에 t 검정) 은 결론을 왜곡한다.
7 Measures of Association — 효과 크기의 임상 표현
이진 결과의 그룹 비교에서 표준 effect size:
처치 그룹 (\(T\)) 과 대조 그룹 (\(C\)) 의 사건 발생 비율 \(p_T\), \(p_C\) 에 대해:
| 지표 | 정의 | 해석 |
|---|---|---|
| Risk Difference (RD) | \(p_T - p_C\) | 절대 효과 |
| Relative Risk (RR) | \(p_T / p_C\) | 상대 효과 |
| Odds Ratio (OR) | \(\frac{p_T/(1-p_T)}{p_C/(1-p_C)}\) | 베이스라인 무관 비교 |
| NNT | \(1 / |\text{RD}|\) | 1 명 효과를 위한 필요 인원 |
7.1 사례 — 항응고제 임상시험
가상 자료:
- 처치 그룹: 1000 명 중 5 명 사망 (\(p_T = 0.005\))
- 대조 그룹: 1000 명 중 8 명 사망 (\(p_C = 0.008\))
| 지표 | 값 | 해석 |
|---|---|---|
| RD | \(-0.003\) | 절대 위험 0.3 % 감소 |
| RR | \(0.625\) | 상대 위험 37.5 % 감소 |
| OR | \(0.62\) | 거의 RR 과 동일 (희귀 사건) |
| NNT | \(1 / 0.003 \approx 333\) | 1 명 살리려면 333 명 처치 필요 |
같은 자료, 4 가지 다른 표현. 의사결정 단위에 따라 적절한 지표가 다르다.
뉴스에서 “신약이 사망률을 50 % 감소시켰다” 라고 하면 큰 효과 처럼 들린다. 그러나 다음을 봐야 한다.
- 베이스라인 사망률은? (10 % vs 0.001 %)
- 절대 효과 (RD) 는? (5 % 감소 vs 0.0005 % 감소)
- NNT 는? (20 명 vs 200000 명)
베이스라인이 매우 낮으면 RR 의 50 % 감소는 임상적으로 무의미 할 수 있다. 따라서 RR + RD + NNT 함께 보고가 권장된다.
A/B 테스트의 Lift (= RR - 1) 도 마찬가지다. 베이스라인 클릭률이 0.1 % 인데 lift 가 50 % 면 절대 차이는 0.05 % 다. 비즈니스 임팩트는 절대 차이 × 사용자 수 로 계산.
8 p 값과 Measures of Association 의 차이
| 항목 | p 값 | RR/OR/RD |
|---|---|---|
| 의미 | 우연으로 설명 가능성 | 효과의 크기와 방향 |
| 표본 의존성 | 큼 (큰 표본 → 작은 p) | 적음 |
| 임상 의미 | 간접적 | 직접적 |
| 권장 | 보조 | 주 보고 |
Schulz 의 강조: measures of association + 신뢰 구간 + p 값 의 3 종 세트 가 표준 보고 형식.
9 임상시험의 통계 lens — 4 가지 함정
Schulz Ch.1 이 강조하는 임상시험 통계의 4 가지 흔한 함정.
9.1 함정 1 — 통계적 유의 vs 임상적 의미
가상 시나리오:
“100,000 명 시험에서 신약이 사망률을 0.001 % 감소 시킴 (p < 0.001). 통계적으로 매우 유의.”
분석:
- 통계적: p < 0.001, 효과 명확
- 임상적: NNT = 100,000. 10 만 명 처치해야 1 명 살림. 부작용 1 % 만 있어도 손해
- 결정: 임상적으로 무의미
이 함정의 회피: 효과 크기 + NNT + 비용·부작용 함께 평가.
9.2 함정 2 — 작은 표본의 큰 효과
“20 명 시험에서 신약이 사망률을 50 % 감소 시킴 (p = 0.04).”
분석:
- 통계적: 유의 (p < 0.05)
- 표본 작음 → CI 넓음 → 효과 크기 추정 매우 부정확
- 95 % CI: [-90 %, +10 %] (가상) → 효과 방향조차 불확실
- 결정: 후속 큰 시험 필요
이 함정의 회피: 효과 크기 CI 의 폭 점검.
9.3 함정 3 — Subgroup 분석 함정
“전체 시험은 미유의. 그러나 여성 subgroup 에서는 유의 (p = 0.03).”
분석:
- 사후 subgroup 발견 → 다중 비교 인플레이션
- 10 개 subgroup 검정 → 적어도 1 개 유의할 확률 ≈ 40 %
- 우연한 유의 가능성 큼
- 결정: 재현 시험 필요, 결론 보류
이 함정의 회피: 사전 등록된 subgroup 만 primary 분석. 사후는 exploratory 표시.
9.4 함정 4 — Composite Endpoint 의 오해
“심혈관 사건 (MI + Stroke + 사망) composite 가 18 % 감소 (RR 0.82, p < 0.05).”
분석:
- Composite 효과는 강해 보임
- Components 분석:
- MI: 30 % 감소 (driver)
- Stroke: 15 % 증가 (해로운 효과!)
- 사망: 변화 없음
- Composite 효과는 MI 감소만으로 인한 것
- Stroke 증가 우려 가려짐
이 함정의 회피: Components 분석 항상 보고.
이 4 함정의 공통점: p 값에만 의존 하면 결론이 잘못된다.
해법: 통계적 유의 + 효과 크기 + CI + 임상 의미 의 4 차원 동시 평가.
A/B 테스트의 4 함정 매핑:
- 통계적 유의 vs 비즈니스 의미: 0.01 % lift 가 통계 유의해도 비즈니스 무의미
- 작은 segment 의 큰 효과: 신규 사용자 100 명에서 50 % lift 는 추정 부정확
- Subgroup 함정: 모바일·신규·iOS 등 subgroup 에서 우연한 유의
- Composite metric: engagement = 클릭 OR 댓글 — components 차이 가려짐
이 함정들을 인식하는 것이 비즈니스 의사결정의 정직성 출발점.
10 임상 시험의 보고 형식 — CONSORT 기반
CONSORT 2010 권고에 따른 통계 결과 보고 표준:
Methods (사전 등록):
Primary outcome: 30 일 사망률 (이항)
Secondary outcomes: 90 일 사망률, MI, Stroke, 재입원
Sample size: n = 1924 (962/group), α = 0.05 양측, power = 0.90,
가정 p_C = 10 %, 검출 효과 RR = 0.6
Subgroup 분석 (사전 등록): 연령 (≥ 65 vs < 65), 성별, 당뇨
Results:
Primary outcome — 사망률
처치: 87/962 (9.0 %)
대조: 121/962 (12.6 %)
Risk Difference: -3.6 %, 95 % CI [-6.2 %, -1.0 %]
Relative Risk: 0.72, 95 % CI [0.55, 0.94]
NNT: 28
Secondary outcomes (FDR 보정):
90 일 사망률: RR 0.78, 95 % CI [0.62, 0.99]
MI: RR 0.65, 95 % CI [0.45, 0.95]
Stroke: RR 1.10, 95 % CI [0.80, 1.50] (방향 우려)
재입원: RR 0.85, 95 % CI [0.70, 1.05]
Subgroup (사전):
< 65 세: RR 0.70, 95 % CI [0.50, 0.95]
≥ 65 세: RR 0.75, 95 % CI [0.55, 1.05]
P (interaction) = 0.74 (homogeneous)
Discussion:
처치가 사망률 약 28 % 상대 감소 (28 명 처치 시 1 명 추가 생존).
Stroke 의 경미한 증가 추세는 추가 모니터링 필요.
연령 그룹 효과 일관 — 두 군에 균등 처방 가능.
이 형식이 CONSORT 의 완전한 보고 표준. 각 항목이 임상 의사결정에 직접 유용.
11 ICH E9 — 통계 원칙의 국제 합의
International Council for Harmonisation 의 통계 가이드라인. 임상시험의 통계 절차의 국제 표준.
핵심 원칙:
- Pre-specification — 모든 분석 사전 정의
- Two-sided testing — 양측 검정 표준
- ITT analysis — Intent-to-Treat 우선
- Multiplicity adjustment — 다중성 명시 처리
- Sensitivity analysis — 가정 변동의 영향
- Reporting all outcomes — 모든 결과 보고
ICH E9 의 2017 R1 개정 (Estimands Framework) 이 더 정교한 추론 골격 제공:
- Treatment policy: 사용자가 처치 중단해도 그대로 분석 (ITT 와 유사)
- Hypothetical: “만약 치료 중단 없었다면” 의 가상 효과
- Composite: 결과 + 사망 등 합산
- Principal stratification: 부분 모집단 효과
- While on treatment: 처치 받는 동안만의 효과
이 5 estimand 전략 이 현대 임상시험의 분석 단위. A/B 테스트도 비슷한 estimand 결정 필요 (예: ITT vs as-treated).
12 통계 도구의 수렴
Schulz Ch.1 이 보여주는 통계 발전의 흐름:
1900~1950: Fisher 전통 (significance testing)
1950~1980: NP 가설 검정 + 검정력 분석 표준화
1980~2010: 효과 크기 + CI + ICH E9
2010~현재: Estimands + Multiple Imputation + Adaptive 시험
각 시기의 발전이 이전 한계의 보완. 현대 임상시험은 5 차원 동시 분석 (효과 + CI + p + 다중성 + 결측 처리).
13 A/B 테스트의 통합 분석
A/B 테스트 분석도 임상시험 표준을 따라야 한다:
import numpy as np
import pandas as pd
from scipy import stats
# 가상 자료
np.random.seed(42)
n_per = 5000
control_conv = np.random.binomial(1, 0.05, n_per)
treatment_conv = np.random.binomial(1, 0.055, n_per)
# 1. 점추정
p_c = control_conv.mean()
p_t = treatment_conv.mean()
print(f"Control 전환율: {p_c*100:.3f} %")
print(f"Treatment 전환율: {p_t*100:.3f} %")
# 2. Risk Difference + CI
rd = p_t - p_c
se_rd = np.sqrt(p_c*(1-p_c)/n_per + p_t*(1-p_t)/n_per)
ci_rd = (rd - 1.96*se_rd, rd + 1.96*se_rd)
print(f"\nRD: {rd*100:+.3f} %, 95 % CI ({ci_rd[0]*100:+.3f} %, {ci_rd[1]*100:+.3f} %)")
# 3. Relative Risk + CI
rr = p_t / p_c
log_rr = np.log(rr)
se_log_rr = np.sqrt(1/sum(treatment_conv) - 1/n_per + 1/sum(control_conv) - 1/n_per)
ci_rr = (np.exp(log_rr - 1.96*se_log_rr), np.exp(log_rr + 1.96*se_log_rr))
print(f"RR: {rr:.4f}, 95 % CI ({ci_rr[0]:.4f}, {ci_rr[1]:.4f})")
# 4. NNT
nnt = 1 / abs(rd) if rd != 0 else float('inf')
print(f"NNT: {nnt:.0f}")
# 5. p 값
chi2, p_chi, _, _ = stats.chi2_contingency([
[sum(treatment_conv), n_per - sum(treatment_conv)],
[sum(control_conv), n_per - sum(control_conv)]
])
print(f"\n카이제곱: χ² = {chi2:.3f}, p = {p_chi:.4f}")
# 보고 형식
print("\n=== 보고 ===")
print(f"전환율 차이 (RD): +{rd*100:.3f} % [{ci_rd[0]*100:+.3f}, {ci_rd[1]*100:+.3f}]")
print(f"상대 위험 (RR): {rr:.3f} [{ci_rr[0]:.3f}, {ci_rr[1]:.3f}]")
print(f"NNT (변환): {nnt:.0f}")
print(f"χ² 검정 p = {p_chi:.4f}")이 코드가 임상시험 표준의 A/B 테스트 적용. RD + RR + NNT + p 값의 4 차원.
14 Schulz Ch.1 의 통계 lens 결론
- RCT 가 gold standard — 무작위 배정이 검정 분포와 인과 추론을 동시에 정당화
- 0.05 임계값은 임의 — 정확한 p 값 보고가 더 정직
- 분수의 분모 명시 — outcome measurement 의 정확성 확보
- Measures of association 우선 — RR/OR/RD/NNT 가 임상 의사결정에 직접 유용
- 신뢰 구간 동반 — 효과 추정의 불확실성 정량화
이 5 가지가 Ch.1 의 통계 핵심 이며, Phase A 의 다른 글들과 일관된 시각이다.
15 후속 — 측정 디테일과 측정의 위험성
다음 글들은 Schulz Ch.1 의 세부 주제 를 다룬다.
- A-SCH1-1 — Outcome Measurement + Confusing Fractions 자세히
- A-SCH1-2 — Measures of Association 의 위험성 + p < 0.05 비판
16 관련 주제
선행 지식
후속 주제 (Phase A)
- A-SCH1-1 Outcome Measurement + Confusing Fractions
- A-SCH1-2 Measures of Association + p < 0.05 비판
다른 카테고리 연결