1 IPD vs Aggregate Meta-analysis
Aggregate (AD): 각 연구의 요약 통계 (효과 크기 + SE) 만 통합.
Individual Patient Data (IPD): 모든 원 자료 (각 환자) 통합.
(Woodward, 2014, Ch.12.6).
1.1 IPD 의 강점
- 1. Subgroup 분석 자유: 미사전 계획된 subgroup 도 분석 가능.
- 2. 분석 표준화: 각 원 연구의 다른 분석 방법을 통일.
- 3. 시간 의존 변수: Longitudinal·time-varying covariate 분석.
- 4. 결측 처리: Multiple imputation 표준 적용.
3 단계 직관:
- 추상 정의: AD = 각 연구의 결론만, IPD = 모든 자료 통합.
- 일상어 비유: AD = 회사들의 평균 매출만, IPD = 모든 거래 데이터. 후자가 더 풍부 분석.
- 반사실 시나리오: 새로운 가설이 떠오르면 IPD 는 즉시 분석, AD 는 원 연구자에게 다시 요청.
1.2 IPD 의 한계
- 원 자료 공유의 윤리·법적 제약.
- 익명화 + 데이터 변환 비용.
- 시간 비용.
3 단계 직관:
- 추상 정의: IPD 자료 수집 자체가 큰 작업.
- 일상어 비유: 모든 회사 거래 자료 통합 — 협력 + 표준화 시간 ↑.
- 반사실 시나리오: 작은 자료 (몇 개 연구) 는 IPD 가능. 대규모 (수십 연구) 는 AD 차선.
2 IPD 분석의 절차
Step 1: 모든 원 연구의 자료 수집. Step 2: 변수 표준화 (코딩, 단위, 정의). Step 3: 결측 처리 + quality check. Step 4: One-stage 또는 Two-stage 분석.
2.1 One-stage vs Two-stage
One-stage: 모든 자료를 하나의 모형에 입력 — 다중 수준 (multilevel) 모형. \[Y_{ij} = \alpha + \beta X_{ij} + u_j + \epsilon_{ij}\] \(u_j\) = study random effect.
Two-stage: - Stage 1: 각 연구별 분석 → 효과 + SE. - Stage 2: AD meta-analysis.
3 단계 직관:
- 추상 정의: One-stage 가 통합 모형, two-stage 가 단계 분석.
- 일상어 비유: One-stage = 모든 학교 자료 한 회귀, two-stage = 학교별 평균 산출 후 통합.
- 반사실 시나리오: One-stage 가 효율, two-stage 가 단순 + 검증 쉬움. 결과 거의 동등.
3 IPD 의 사례
심부전 환자의 베타 차단제 (carvedilol vs metoprolol) 의 IPD meta-analysis.
- 12 RCT, 25,000 환자 자료 통합.
- Subgroup: 연령, 좌심실 기능, 신장 기능.
- HTE 발견: 신장 기능 ↓ 환자에서 carvedilol 효과 ↑.
3 단계 직관:
- 추상 정의: AD 만으로 발견 어려운 subgroup 효과 식별.
- 일상어 비유: 매출 평균만 보면 시장별 차이 가림. 거래 자료가 시장별 패턴 드러냄.
- 반사실 시나리오: AD 만 사용 시 subgroup 의 진성 효과 모름. IPD 가 personalization 도구.
4 12.7 Study Quality 평가
각 연구의 quality 평가 도구.
RoB 2 (Cochrane RCT, 2019): 1. Randomization 과정. 2. Deviation from intended interventions. 3. Missing outcome data. 4. Outcome measurement. 5. Selection of reported result.
ROBINS-I (관찰): 1. Confounding. 2. Selection of participants. 3. Classification of interventions. 4. Deviation from intended interventions. 5. Missing data. 6. Outcome measurement. 7. Selection of reported result.
각 영역: Low / Some concerns / High.
4.1 Quality 의 가중
- 추상 정의: High RoB 연구의 가중치 ↓ 또는 sensitivity 분석에서 제외.
- 일상어 비유: 두 평론가 — 한 평론가 신뢰성 ↓ 면 다른 평론가의 의견 가중.
- 반사실 시나리오: 모든 연구 동등 가중 시 high-RoB 연구의 noise 가 결과 흐려.
4.2 Quality 의 sensitivity 분석
# Low RoB 만
results_low = pool(studies[studies["RoB"] == "Low"])
# All studies
results_all = pool(studies)
# Difference?
print(f"Low RoB: {results_low}")
print(f"All: {results_all}")만약 두 결과 큰 차이 → high-RoB 의 영향 → 신뢰성 ↓.
5 GRADE — 증거의 quality 평가
Grading of Recommendations Assessment, Development and Evaluation. Body of evidence 의 quality 평가.
5 가지 영역:
- Risk of bias: 개별 연구의 RoB.
- Inconsistency: I² + heterogeneity.
- Indirectness: PICOS 와의 거리.
- Imprecision: CI 폭 + 표본 크기.
- Publication bias: Funnel plot.
Quality: High → Moderate → Low → Very Low.
5.1 GRADE 의 활용
- 추상 정의: 5 영역 평가 → 종합 quality. 권장 강도 결정 (strong vs weak).
- 일상어 비유: 영화 평가의 5 차원 (스토리, 연기, 영상, 음악, 감독) → 종합 점수.
- 반사실 시나리오: 평균 효과가 크더라도 quality 낮으면 권장 약함. Quality 가 의사 결정의 직접 도구.
활용: - 임상 가이드라인 (NICE, USPSTF). - 정책 결정. - Cochrane 의 Summary of Findings 표.
6 A/B 테스트의 IPD 발상
대규모 IT 회사 — 같은 기능의 여러 시험을 IPD style 로 통합.
Aggregate: 각 시험의 lift + SE 만. IPD-like: 모든 시험의 사용자 수준 자료 통합.
3 단계 직관:
- 추상 정의: IT 의 큰 자료는 IPD 가능 — institutional 자료 보존.
- 일상어 비유: 회사의 모든 거래 자료 archive — 새 가설마다 재분석.
- 반사실 시나리오: Aggregate 만 보고 archive 한 경우 새 가설 분석 불가. IPD 가 자산 보존.
활용: - HTE 분석 (사용자 segment 별 효과). - 시간 의존 분석 (분기별 변화). - Multi-treatment 분석.
7 IPD 의 자료 표준화
Step 1 — Variable mapping: - 다른 연구의 다른 변수명 통일 (예: “smoking_status” vs “smoke” vs “tobacco”). - 코딩 통일 (1=yes, 0=no 또는 Y/N).
Step 2 — Outcome 정의 통일: - 같은 결과 (예: “stroke”) 가 연구마다 다른 정의 (ICD-9 vs ICD-10). - 표준 정의로 통일.
Step 3 — Time scale: - 추적 시작 시점 통일 (randomization vs first treatment). - 시간 단위 통일 (월 vs 일).
Step 4 — Missing handling: - 각 연구의 결측 패턴 점검. - Multiple imputation 적용.
- 추상 정의: IPD 의 가장 큰 비용 = 자료 표준화. 다중 연구 자료 통합의 1 차 작업.
- 일상어 비유: 다국가 매출 자료 통합 — 환율·시간대·카테고리 통일 시간 큼.
- 반사실 시나리오: 표준화 부족 시 misleading 결과. AD meta-analysis 가 더 효율 가능.
8 One-Stage vs Two-Stage 비교
One-stage: \[Y_{ij} = \alpha_j + \beta X_{ij} + u_j + \epsilon_{ij}\]
- 모든 연구 \(j\) 의 자료를 한 모형에.
- \(\alpha_j\) = study-specific intercept (random effect).
- \(u_j\) = random study effect.
Two-stage: - Stage 1: 각 연구 \(j\) 별로 적합 → \(\hat\beta_j\) + SE. - Stage 2: AD meta-analysis (\(\hat\beta_j\) pooling).
| 측면 | One-stage | Two-stage |
|---|---|---|
| 효율 | 약간 ↑ | 표준 |
| 단순성 | 복잡 | 단순 |
| 검증 | 어려움 | 단계별 검증 |
| Interaction | 자연 | 별도 분석 |
- 추상 정의: One-stage 가 통합 모형, two-stage 가 단계 분석. 결과 거의 동등.
- 일상어 비유: 모든 학교 자료의 한 회귀 vs 학교별 평균 산출 후 통합.
- 반사실 시나리오: 결과 다르면 모형 misspecification 의심. Two-stage 가 진단 더 쉬움.
9 RoB 2 의 5 영역 (RCT)
1. Randomization: - 적절한 random sequence? - Allocation concealment?
2. Deviations from intended interventions: - Per-protocol vs ITT. - Crossover.
3. Missing outcome data: - 결측 비율? - 차별 결측?
4. Outcome measurement: - Blinding of outcome assessors? - 측정 도구 동등?
5. Selection of reported result: - Pre-registration? - Multiple outcomes 의 selective reporting?
- 추상 정의: 각 영역별 평가 → 종합 RoB. 영역별 다른 사고 도구.
- 일상어 비유: 회사 평가의 5 차원 (재무·인재·기술·시장·리스크).
- 반사실 시나리오: 한 영역만 평가 시 종합 RoB 모름. 5 영역 모두 평가.
10 ROBINS-I 의 7 영역 (관찰 연구)
1. Confounding: - 측정·통제된 confounder.
2. Selection of participants: - 자기선택, healthy worker.
3. Classification of interventions: - Misclassification of treatment.
4. Deviations from intended interventions: - Crossover, contamination.
5. Missing data.
6. Outcome measurement.
7. Selection of reported result.
(Sterne et al., 2016).
- RCT (RoB 2): 5 영역 — randomization 의 강점 자동.
- 관찰 (ROBINS-I): 7 영역 — confounding + selection 의 추가 평가.
3 단계 직관:
- 추상 정의: 관찰 연구의 추가 위험 = confounding + selection. RoB 평가가 더 복잡.
- 일상어 비유: RCT 의 회사 평가 (5 차원) vs 관찰의 회사 평가 (7 차원, 추가 리스크).
- 반사실 시나리오: 같은 도구로 두 설계 평가 시 RCT 의 RoB 자동 ↓. ROBINS-I 가 관찰 연구 정직.
11 GRADE 의 5 영역 상세
Quality 평가의 5 영역:
1. Risk of bias: 개별 RoB 평가의 종합. 2. Inconsistency: I² + heterogeneity. 3. Indirectness: PICOS 와의 거리 (population, intervention, etc.). 4. Imprecision: CI 폭, sample 크기. 5. Publication bias: Funnel plot.
Quality 등급: High → Moderate → Low → Very Low.
Recommendation 강도: Strong vs Weak.
- 추상 정의: 증거 quality + benefit-risk 평가 → 권장 강도.
- 일상어 비유: 영화 평가의 다차원 (스토리·연기·영상·음악) → 종합 점수 + 추천.
- 반사실 시나리오: 평균 효과 ↑ but quality 낮으면 권장 약. Quality 가 의사 결정의 직접 도구.
활용: - WHO 가이드라인. - USPSTF (미국 예방서비스 태스크포스). - NICE (영국 NHS). - AHA/ACC.
12 임상 사례 — Cochrane HTA
심부전 환자의 베타 차단제 (carvedilol, metoprolol, bisoprolol) 의 IPD meta-analysis (BB-meta-HF, 2014).
자료: 11 RCT, 13,833 환자.
Subgroup: - 연령군별. - 좌심실 구출률 (EF) 별. - 신장 기능별. - AF 동반 vs 정상 율동.
발견: AF 동반 환자에서 베타 차단제 효과 약 (sub-group HTE).
3 단계 직관:
- 추상 정의: AD 만으로 발견 어려운 subgroup HTE 식별.
- 일상어 비유: 약 효과의 환자 그룹별 차이 — 평균만 보면 가림.
- 반사실 시나리오: AD meta 만 시 모든 환자에 권장. IPD meta 가 AF 환자에 다른 처치 권장 근거.
13 A/B 테스트의 IPD 발상 — 사용자 자료 archive
대규모 IT 회사 — 같은 기능의 100+ A/B 시험 자료 archive.
Aggregate: 각 시험의 lift 만 보존. IPD-like: 모든 시험의 사용자 수준 자료 보존.
활용: - HTE meta-analysis (시간 변화). - 교차 시험 검증. - 새 가설 (예: “다중 시험에 항상 효과 ↑ segment”) 분석.
3 단계 직관:
- 추상 정의: IT 의 institutional 자료 = IPD 의 IT 판.
- 일상어 비유: 회사의 모든 거래 자료 archive — 새 분석 시 재사용.
- 반사실 시나리오: Aggregate 만 archive 시 새 가설 분석 불가. IPD archive 가 학습의 자산.
14 결론
IPD 가 강력하지만 자료 접근 한계 + 표준화 비용. AD 가 차선 — 원 연구의 결과 의존. RoB 2 (RCT, 5 영역), ROBINS-I (관찰, 7 영역), GRADE (5 차원) 가 quality 평가의 표준. Sensitivity 분석으로 결과 robustness 점검. One-stage vs two-stage 가 IPD 분석의 두 방식 — 결과 거의 동등.
다음 글 (H-WOO12-8) 에서 출판 편향 진단을 본다.
15 관련 주제
- Tabular Data Pooling
- 1111-11-11, Publication Bias