IPD Meta-analysis 와 Study Quality 평가

Woodward Ch.12.6~12.7 — Individual Patient Data & Aspects of Study Quality

IPD (Individual Patient Data) meta-analysis 의 강점과 aggregate 자료와의 차이, 그리고 study quality 평가 도구 (RoB 2, ROBINS-I, GRADE) 의 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. IPD 의 자료 접근 한계와 표준화된 분석의 가치를 함께 다룬다.

Experimentation
Modeling
저자

Kwangmin Kim

공개

2026년 05월 08일

1 IPD vs Aggregate Meta-analysis

정의: 두 자료 형태

Aggregate (AD): 각 연구의 요약 통계 (효과 크기 + SE) 만 통합.

Individual Patient Data (IPD): 모든 원 자료 (각 환자) 통합.

(Woodward, 2014, Ch.12.6).

1.1 IPD 의 강점

직관 3 단계: IPD 의 4 가지 강점
  • 1. Subgroup 분석 자유: 미사전 계획된 subgroup 도 분석 가능.
  • 2. 분석 표준화: 각 원 연구의 다른 분석 방법을 통일.
  • 3. 시간 의존 변수: Longitudinal·time-varying covariate 분석.
  • 4. 결측 처리: Multiple imputation 표준 적용.

3 단계 직관:

  • 추상 정의: AD = 각 연구의 결론만, IPD = 모든 자료 통합.
  • 일상어 비유: AD = 회사들의 평균 매출만, IPD = 모든 거래 데이터. 후자가 더 풍부 분석.
  • 반사실 시나리오: 새로운 가설이 떠오르면 IPD 는 즉시 분석, AD 는 원 연구자에게 다시 요청.

1.2 IPD 의 한계

가정 위반: 자료 접근의 어려움
  • 원 자료 공유의 윤리·법적 제약.
  • 익명화 + 데이터 변환 비용.
  • 시간 비용.

3 단계 직관:

  • 추상 정의: IPD 자료 수집 자체가 큰 작업.
  • 일상어 비유: 모든 회사 거래 자료 통합 — 협력 + 표준화 시간 ↑.
  • 반사실 시나리오: 작은 자료 (몇 개 연구) 는 IPD 가능. 대규모 (수십 연구) 는 AD 차선.

2 IPD 분석의 절차

정의: IPD 통합 절차

Step 1: 모든 원 연구의 자료 수집. Step 2: 변수 표준화 (코딩, 단위, 정의). Step 3: 결측 처리 + quality check. Step 4: One-stage 또는 Two-stage 분석.

2.1 One-stage vs Two-stage

직관 3 단계: 두 분석 방식

One-stage: 모든 자료를 하나의 모형에 입력 — 다중 수준 (multilevel) 모형. \[Y_{ij} = \alpha + \beta X_{ij} + u_j + \epsilon_{ij}\] \(u_j\) = study random effect.

Two-stage: - Stage 1: 각 연구별 분석 → 효과 + SE. - Stage 2: AD meta-analysis.

3 단계 직관:

  • 추상 정의: One-stage 가 통합 모형, two-stage 가 단계 분석.
  • 일상어 비유: One-stage = 모든 학교 자료 한 회귀, two-stage = 학교별 평균 산출 후 통합.
  • 반사실 시나리오: One-stage 가 효율, two-stage 가 단순 + 검증 쉬움. 결과 거의 동등.

3 IPD 의 사례

사례: Cochrane Heart Failure IPD

심부전 환자의 베타 차단제 (carvedilol vs metoprolol) 의 IPD meta-analysis.

  • 12 RCT, 25,000 환자 자료 통합.
  • Subgroup: 연령, 좌심실 기능, 신장 기능.
  • HTE 발견: 신장 기능 ↓ 환자에서 carvedilol 효과 ↑.

3 단계 직관:

  • 추상 정의: AD 만으로 발견 어려운 subgroup 효과 식별.
  • 일상어 비유: 매출 평균만 보면 시장별 차이 가림. 거래 자료가 시장별 패턴 드러냄.
  • 반사실 시나리오: AD 만 사용 시 subgroup 의 진성 효과 모름. IPD 가 personalization 도구.

4 12.7 Study Quality 평가

정의: Risk of Bias (RoB) 평가

각 연구의 quality 평가 도구.

RoB 2 (Cochrane RCT, 2019): 1. Randomization 과정. 2. Deviation from intended interventions. 3. Missing outcome data. 4. Outcome measurement. 5. Selection of reported result.

ROBINS-I (관찰): 1. Confounding. 2. Selection of participants. 3. Classification of interventions. 4. Deviation from intended interventions. 5. Missing data. 6. Outcome measurement. 7. Selection of reported result.

각 영역: Low / Some concerns / High.

4.1 Quality 의 가중

직관 3 단계: Quality-weighted Meta
  • 추상 정의: High RoB 연구의 가중치 ↓ 또는 sensitivity 분석에서 제외.
  • 일상어 비유: 두 평론가 — 한 평론가 신뢰성 ↓ 면 다른 평론가의 의견 가중.
  • 반사실 시나리오: 모든 연구 동등 가중 시 high-RoB 연구의 noise 가 결과 흐려.

4.2 Quality 의 sensitivity 분석

# Low RoB 만
results_low = pool(studies[studies["RoB"] == "Low"])

# All studies
results_all = pool(studies)

# Difference?
print(f"Low RoB: {results_low}")
print(f"All: {results_all}")

만약 두 결과 큰 차이 → high-RoB 의 영향 → 신뢰성 ↓.

5 GRADE — 증거의 quality 평가

정의: GRADE

Grading of Recommendations Assessment, Development and Evaluation. Body of evidence 의 quality 평가.

5 가지 영역:

  1. Risk of bias: 개별 연구의 RoB.
  2. Inconsistency: I² + heterogeneity.
  3. Indirectness: PICOS 와의 거리.
  4. Imprecision: CI 폭 + 표본 크기.
  5. Publication bias: Funnel plot.

Quality: High → Moderate → Low → Very Low.

5.1 GRADE 의 활용

직관 3 단계: GRADE 의 의사 결정
  • 추상 정의: 5 영역 평가 → 종합 quality. 권장 강도 결정 (strong vs weak).
  • 일상어 비유: 영화 평가의 5 차원 (스토리, 연기, 영상, 음악, 감독) → 종합 점수.
  • 반사실 시나리오: 평균 효과가 크더라도 quality 낮으면 권장 약함. Quality 가 의사 결정의 직접 도구.

활용: - 임상 가이드라인 (NICE, USPSTF). - 정책 결정. - Cochrane 의 Summary of Findings 표.

6 A/B 테스트의 IPD 발상

사례: 다중 A/B 의 IPD-style

대규모 IT 회사 — 같은 기능의 여러 시험을 IPD style 로 통합.

Aggregate: 각 시험의 lift + SE 만. IPD-like: 모든 시험의 사용자 수준 자료 통합.

3 단계 직관:

  • 추상 정의: IT 의 큰 자료는 IPD 가능 — institutional 자료 보존.
  • 일상어 비유: 회사의 모든 거래 자료 archive — 새 가설마다 재분석.
  • 반사실 시나리오: Aggregate 만 보고 archive 한 경우 새 가설 분석 불가. IPD 가 자산 보존.

활용: - HTE 분석 (사용자 segment 별 효과). - 시간 의존 분석 (분기별 변화). - Multi-treatment 분석.

7 IPD 의 자료 표준화

정의: IPD 의 4 가지 표준화 단계

Step 1 — Variable mapping: - 다른 연구의 다른 변수명 통일 (예: “smoking_status” vs “smoke” vs “tobacco”). - 코딩 통일 (1=yes, 0=no 또는 Y/N).

Step 2 — Outcome 정의 통일: - 같은 결과 (예: “stroke”) 가 연구마다 다른 정의 (ICD-9 vs ICD-10). - 표준 정의로 통일.

Step 3 — Time scale: - 추적 시작 시점 통일 (randomization vs first treatment). - 시간 단위 통일 (월 vs 일).

Step 4 — Missing handling: - 각 연구의 결측 패턴 점검. - Multiple imputation 적용.

직관 3 단계: 표준화의 시간 비용
  • 추상 정의: IPD 의 가장 큰 비용 = 자료 표준화. 다중 연구 자료 통합의 1 차 작업.
  • 일상어 비유: 다국가 매출 자료 통합 — 환율·시간대·카테고리 통일 시간 큼.
  • 반사실 시나리오: 표준화 부족 시 misleading 결과. AD meta-analysis 가 더 효율 가능.

8 One-Stage vs Two-Stage 비교

정의: IPD 분석의 두 방식

One-stage: \[Y_{ij} = \alpha_j + \beta X_{ij} + u_j + \epsilon_{ij}\]

  • 모든 연구 \(j\) 의 자료를 한 모형에.
  • \(\alpha_j\) = study-specific intercept (random effect).
  • \(u_j\) = random study effect.

Two-stage: - Stage 1: 각 연구 \(j\) 별로 적합 → \(\hat\beta_j\) + SE. - Stage 2: AD meta-analysis (\(\hat\beta_j\) pooling).

직관 3 단계: 두 방법 비교
측면 One-stage Two-stage
효율 약간 ↑ 표준
단순성 복잡 단순
검증 어려움 단계별 검증
Interaction 자연 별도 분석
  • 추상 정의: One-stage 가 통합 모형, two-stage 가 단계 분석. 결과 거의 동등.
  • 일상어 비유: 모든 학교 자료의 한 회귀 vs 학교별 평균 산출 후 통합.
  • 반사실 시나리오: 결과 다르면 모형 misspecification 의심. Two-stage 가 진단 더 쉬움.

9 RoB 2 의 5 영역 (RCT)

정의: RoB 2 의 자세한 5 영역

1. Randomization: - 적절한 random sequence? - Allocation concealment?

2. Deviations from intended interventions: - Per-protocol vs ITT. - Crossover.

3. Missing outcome data: - 결측 비율? - 차별 결측?

4. Outcome measurement: - Blinding of outcome assessors? - 측정 도구 동등?

5. Selection of reported result: - Pre-registration? - Multiple outcomes 의 selective reporting?

직관 3 단계: RoB 2 의 활용
  • 추상 정의: 각 영역별 평가 → 종합 RoB. 영역별 다른 사고 도구.
  • 일상어 비유: 회사 평가의 5 차원 (재무·인재·기술·시장·리스크).
  • 반사실 시나리오: 한 영역만 평가 시 종합 RoB 모름. 5 영역 모두 평가.

10 ROBINS-I 의 7 영역 (관찰 연구)

정의: ROBINS-I 의 7 영역

1. Confounding: - 측정·통제된 confounder.

2. Selection of participants: - 자기선택, healthy worker.

3. Classification of interventions: - Misclassification of treatment.

4. Deviations from intended interventions: - Crossover, contamination.

5. Missing data.

6. Outcome measurement.

7. Selection of reported result.

(Sterne et al., 2016).

직관: RCT vs 관찰 연구의 RoB 차이
  • RCT (RoB 2): 5 영역 — randomization 의 강점 자동.
  • 관찰 (ROBINS-I): 7 영역 — confounding + selection 의 추가 평가.

3 단계 직관:

  • 추상 정의: 관찰 연구의 추가 위험 = confounding + selection. RoB 평가가 더 복잡.
  • 일상어 비유: RCT 의 회사 평가 (5 차원) vs 관찰의 회사 평가 (7 차원, 추가 리스크).
  • 반사실 시나리오: 같은 도구로 두 설계 평가 시 RCT 의 RoB 자동 ↓. ROBINS-I 가 관찰 연구 정직.

11 GRADE 의 5 영역 상세

정의: GRADE 의 5 영역

Quality 평가의 5 영역:

1. Risk of bias: 개별 RoB 평가의 종합. 2. Inconsistency: I² + heterogeneity. 3. Indirectness: PICOS 와의 거리 (population, intervention, etc.). 4. Imprecision: CI 폭, sample 크기. 5. Publication bias: Funnel plot.

Quality 등급: High → Moderate → Low → Very Low.

Recommendation 강도: Strong vs Weak.

직관 3 단계: GRADE 의 의사 결정 도구
  • 추상 정의: 증거 quality + benefit-risk 평가 → 권장 강도.
  • 일상어 비유: 영화 평가의 다차원 (스토리·연기·영상·음악) → 종합 점수 + 추천.
  • 반사실 시나리오: 평균 효과 ↑ but quality 낮으면 권장 약. Quality 가 의사 결정의 직접 도구.

활용: - WHO 가이드라인. - USPSTF (미국 예방서비스 태스크포스). - NICE (영국 NHS). - AHA/ACC.

12 임상 사례 — Cochrane HTA

사례: 베타 차단제 IPD Meta

심부전 환자의 베타 차단제 (carvedilol, metoprolol, bisoprolol) 의 IPD meta-analysis (BB-meta-HF, 2014).

자료: 11 RCT, 13,833 환자.

Subgroup: - 연령군별. - 좌심실 구출률 (EF) 별. - 신장 기능별. - AF 동반 vs 정상 율동.

발견: AF 동반 환자에서 베타 차단제 효과 약 (sub-group HTE).

3 단계 직관:

  • 추상 정의: AD 만으로 발견 어려운 subgroup HTE 식별.
  • 일상어 비유: 약 효과의 환자 그룹별 차이 — 평균만 보면 가림.
  • 반사실 시나리오: AD meta 만 시 모든 환자에 권장. IPD meta 가 AF 환자에 다른 처치 권장 근거.

13 A/B 테스트의 IPD 발상 — 사용자 자료 archive

사례: 다중 A/B 의 IPD style

대규모 IT 회사 — 같은 기능의 100+ A/B 시험 자료 archive.

Aggregate: 각 시험의 lift 만 보존. IPD-like: 모든 시험의 사용자 수준 자료 보존.

활용: - HTE meta-analysis (시간 변화). - 교차 시험 검증. - 새 가설 (예: “다중 시험에 항상 효과 ↑ segment”) 분석.

3 단계 직관:

  • 추상 정의: IT 의 institutional 자료 = IPD 의 IT 판.
  • 일상어 비유: 회사의 모든 거래 자료 archive — 새 분석 시 재사용.
  • 반사실 시나리오: Aggregate 만 archive 시 새 가설 분석 불가. IPD archive 가 학습의 자산.

14 결론

IPD 가 강력하지만 자료 접근 한계 + 표준화 비용. AD 가 차선 — 원 연구의 결과 의존. RoB 2 (RCT, 5 영역), ROBINS-I (관찰, 7 영역), GRADE (5 차원) 가 quality 평가의 표준. Sensitivity 분석으로 결과 robustness 점검. One-stage vs two-stage 가 IPD 분석의 두 방식 — 결과 거의 동등.

다음 글 (H-WOO12-8) 에서 출판 편향 진단을 본다.

15 관련 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: