1 Heterogeneity 의 정의
Meta-analysis 에서 연구 간 진성 효과의 변동성. 두 종류:
1. Sampling Heterogeneity (within): 각 연구의 \(v_i\) — 표본 크기에 의존.
2. Real Heterogeneity (between): 진성 효과 \(\theta_i\) 의 분포 — \(\tau^2\) 로 정량.
(Woodward, 2014, Ch.12.3.3).
1.1 두 분산의 분리
- 추상 정의: \(\text{Var}(\hat\theta_i) = v_i + \tau^2\) — within + between.
- 일상어 비유: 학생 점수의 분산 = 같은 학생의 시험별 변동 + 학생 간 평균 차이.
- 반사실 시나리오: 두 source 가 분리되어야 진성 효과 분포 파악. 단순 합산은 정보 손실.
2 Cochran’s Q
\[Q = \sum_{i=1}^k w_i (\hat\theta_i - \hat\theta_{\text{FE}})^2\]
여기서 \(w_i = 1/v_i\), \(\hat\theta_{\text{FE}}\) = FE pooled estimate.
귀무가설: \(\theta_i = \theta\) (모든 연구 동일). 검정 통계: \(Q \sim \chi^2_{k-1}\).
기각 시 → heterogeneity 증거.
2.1 Q 의 한계
- 작은 표본 (적은 연구 \(k\)): 검정력 ↓.
- 큰 표본 (많은 연구): 작은 변동도 유의.
3 단계 직관:
- 추상 정의: Q 의 분포가 \(k\) 의 함수. \(k\) 작 → 진성 heterogeneity 도 못 잡음.
- 일상어 비유: 5 회 측정만으로 변동 검정 — noise 와 진성 차이 구분 어려움.
- 반사실 시나리오: Q 는 binary (유의/무의) 만 보여줌. 정량은 I² 와 τ².
3 I² 의 정의
\[I^2 = \max\left(0, \frac{Q - (k-1)}{Q}\right) \times 100\%\]
해석: 관찰된 분산 중 진성 heterogeneity 의 비율.
3.1 I² 의 임계값
| I² | 해석 |
|---|---|
| 0~25% | Low — FE OK |
| 25~50% | Moderate |
| 50~75% | Substantial — RE 강력 권장 |
| 75~100% | Considerable — narrative 또는 분리 |
3 단계 직관:
- 추상 정의: I² 가 0% 면 sampling 만, 100% 면 진성 차이만.
- 일상어 비유: 학생 점수의 분산 중 학교 차이의 비율 — 0% (모든 학교 동등) ~ 100% (학교 간 차이만).
- 반사실 시나리오: I² 75% 이면 단일 통합 결과의 의미 ↓ — moderator 분석으로 source 식별.
3.2 I² 의 표본 크기 의존
큰 표본 (각 연구 큰 \(n\)) 에서 sampling error 작아짐 → I² 인플레이션. 작은 진성 변동이 큰 I² 로 보일 수 있음.
3 단계 직관:
- 추상 정의: \(v_i \to 0\) 면 \(Q\) 의 임계값 의미 변화. I² 가 표본 크기 무관 비율이지만 검정력 변화.
- 일상어 비유: 매우 정밀한 측정 도구로 작은 차이 검출 — 임상 의의 무관.
- 반사실 시나리오: I² 보고와 함께 절대 변동 (τ² 또는 prediction interval) 도 보고.
4 τ² (Between-Study Variance)
진성 효과 분포의 분산: \[\theta_i \sim N(\mu, \tau^2)\]
추정 방법:
DerSimonian-Laird (DL): \[\hat\tau^2_{\text{DL}} = \max\left(0, \frac{Q - (k-1)}{\sum w_i - \sum w_i^2 / \sum w_i}\right)\]
REML: ML 의 restricted 형태 — 작은 표본에서 unbiased.
Paule-Mandel (PM): Iterative 추정.
4.1 τ² 의 단위와 해석
- 추상 정의: \(\tau^2\) 는 효과의 단위² (예: log RR² 또는 (mmHg)²).
- 일상어 비유: \(\tau^2 = 0.1\) in log RR scale → 진성 RR 의 표준편차 √0.1 = 0.32. 즉 진성 RR 이 평균 ± 0.32 변동.
- 반사실 시나리오: \(\tau^2\) 가 클수록 단일 통합 효과의 의미 ↓. Prediction interval 보고 권장.
4.2 Prediction Interval
새로운 연구의 진성 효과의 예측 구간: \[\hat\mu \pm t_{k-2, 0.975} \sqrt{\hat\tau^2 + \text{Var}(\hat\mu)}\]
해석: 95% 의 새 연구의 진성 효과가 이 구간 안.
- CI: 통합 효과 \(\mu\) 의 불확실성.
- PI: 새 연구의 효과 분포.
예시: \(\hat\mu = 0.5\) (RR), CI: (0.4, 0.6), PI: (-0.2, 1.2).
CI 는 좁지만 PI 가 넓다 → 진성 heterogeneity 큼. 새 인구 (예: 한국) 에 적용 시 효과 매우 다를 수 있음.
3 단계 직관:
- 추상 정의: PI 가 미래 연구의 변동 보고. 임상 의사 결정에 직접.
- 일상어 비유: 평균 vs 분포 — 평균 보고와 분포 보고는 다른 정보.
- 반사실 시나리오: CI 만 보고하면 진성 heterogeneity 의 영향 가림. PI 가 정직.
5 Heterogeneity 의 검정력
- 작은 \(k\) (예: < 5): Q 검정력 ↓ — 진성 heterogeneity 도 못 잡음.
- 큰 \(k\) (예: > 50): 작은 차이도 유의 — 임상 무관.
3 단계 직관:
- 추상 정의: Q 의 분포 \(\chi^2_{k-1}\) — 자유도 \(k\) 에 의존.
- 일상어 비유: 시험 점수 비교 — 학생 5 명 시 차이 검출 어렵, 500 명 시 미세한 차이도 유의.
- 반사실 시나리오: I² + τ² + PI 모두 보고가 정직. 단일 Q p-value 만 보고 시 정보 손실.
6 Heterogeneity 의 Source 추정
이질성의 source 식별 도구는 H-WOO12-5 (Investigating Heterogeneity) 에서. 핵심 도구: - Subgroup analysis: 사전 명시 subgroup 별 통합. - Meta-regression: Continuous moderator 의 효과. - Sensitivity analysis: Outlier 영향.
7 코드 예시 — Heterogeneity 지표
import numpy as np
import pandas as pd
# 가상 자료
studies = pd.DataFrame({
"study": list("ABCDEFGHIJ"),
"theta": [0.40, 0.55, 0.30, 0.65, 0.35, 0.50, 0.45, 0.70, 0.25, 0.60],
"se": [0.15, 0.20, 0.10, 0.18, 0.22, 0.13, 0.16, 0.12, 0.25, 0.14],
})
studies["v"] = studies["se"] ** 2
studies["w"] = 1 / studies["v"]
# FE pooled
theta_FE = (studies["w"] * studies["theta"]).sum() / studies["w"].sum()
# Q
Q = (studies["w"] * (studies["theta"] - theta_FE)**2).sum()
k = len(studies)
print(f"Q = {Q:.2f} (df = {k-1})")
from scipy.stats import chi2
p_Q = 1 - chi2.cdf(Q, k-1)
print(f" p-value = {p_Q:.4f}")
# I²
I2 = max(0, (Q - (k-1)) / Q) * 100 if Q > 0 else 0
print(f"\nI² = {I2:.1f}%")
# τ² (DL)
sum_w = studies["w"].sum()
sum_w2 = (studies["w"]**2).sum()
tau2_DL = max(0, (Q - (k-1)) / (sum_w - sum_w2/sum_w))
print(f"τ² (DL) = {tau2_DL:.4f}")
print(f"τ (between-study SD) = {np.sqrt(tau2_DL):.4f}")
# Prediction interval
studies["w_RE"] = 1 / (studies["v"] + tau2_DL)
theta_RE = (studies["w_RE"] * studies["theta"]).sum() / studies["w_RE"].sum()
var_mu = 1 / studies["w_RE"].sum()
PI_se = np.sqrt(var_mu + tau2_DL)
from scipy.stats import t
t_crit = t.ppf(0.975, k - 2)
PI_lo = theta_RE - t_crit * PI_se
PI_hi = theta_RE + t_crit * PI_se
print(f"\nθ_RE = {theta_RE:.3f}")
print(f"95% CI: ({theta_RE - 1.96*np.sqrt(var_mu):.3f}, {theta_RE + 1.96*np.sqrt(var_mu):.3f})")
print(f"95% PI: ({PI_lo:.3f}, {PI_hi:.3f})")해석: I², τ², PI 모두 보고가 표준. PI 가 새 연구의 효과 변동 시사.
8 A/B 테스트의 Heterogeneity
A/B 의 4 분기 lift: - Q1: 3.2%, Q2: 5.8%, Q3: 1.5%, Q4: 4.1%.
Q: 작은 표본 (k=4) 이지만 큰 변동. I²: ~70% — 분기 간 진성 차이 큼. τ²: 1.5%² — 분기별 표준편차 약 1.2%.
해석: 평균 lift 3.7% 이지만 분기별로 1.5%~5.8% 변동.
3 단계 직관:
- 추상 정의: Heterogeneity 가 IT 의 외적 타당도 평가 도구.
- 일상어 비유: 평균 매출 효과 + 매장별 변동.
- 반사실 시나리오: Heterogeneity 무시 시 단일 lift 보고 → 의사 결정 오류 (어느 분기에 어떤 효과인지 모름).
9 H² Statistic — I² 의 대안
\[H^2 = Q / (k-1)\]
해석: - \(H^2 = 1\): Heterogeneity 없음. - \(H^2 > 1.5\): 의미 있는 heterogeneity.
관계: \(I^2 = (H^2 - 1) / H^2\).
- 추상 정의: 같은 정보의 다른 표현.
- 일상어 비유: 비율 (I²) vs ratio (H²).
- 반사실 시나리오: I² 가 직관적 (%), H² 가 통계적. 보고 시 I² 표준.
10 τ² 추정 방법 비교
| 방법 | 약자 | 특징 |
|---|---|---|
| DerSimonian-Laird | DL | 가장 흔함, biased in 작은 자료 |
| Restricted Maximum Likelihood | REML | Unbiased, default 권장 |
| Paule-Mandel | PM | Iterative, robust |
| Empirical Bayes | EB | Bayesian flavor |
(Veroniki et al., 2016).
- 추상 정의: 작은 자료 + 적은 연구 → REML 우월.
- 일상어 비유: 측정 도구 — 작은 자료에서 정밀도 ↑ 도구.
- 반사실 시나리오: Cochrane 권장: REML. DL 이 default 였으나 작은 자료 bias 로 REML 로 교체.
11 Hartung-Knapp 보정 (재확인)
DL/REML 의 SE 가 작은 \(k\) (\(< 10\)) 에서 underestimate.
HK 보정: t 분포 + adjusted variance.
Cochrane 2019+ 권장: HK 보정.
- 추상 정의: HK 가 SE ↑ → CI wider → 결과 보수적.
- 일상어 비유: 작은 표본의 추정 — 추가 보정 부담.
- 반사실 시나리오: HK 없이 reporting 시 false positive ↑. Cochrane 의 표준.
12 Q&A — Heterogeneity 의 흔한 오해
A: 작은 표본의 검정력 ↓. 결론 보류.
3 단계 직관:
- 추상 정의: Q 의 검정력이 \(k\) 에 의존. 작은 \(k\) + 작은 진성 효과 검출 어려움.
- 일상어 비유: 5 회 측정만으로 변동 검정 — 실패 가능.
- 반사실 시나리오: I² + τ² + 신뢰구간 모두 보고. p-value 만 보면 부정확.
A: 거의. 단 sampling noise 로 약간 차이 가능.
3 단계 직관:
- 추상 정의: \(\hat\tau^2 = 0\) 이면 RE = FE 수치적으로.
- 일상어 비유: 학교 간 차이 0 → 단순 평균 = 가중 평균.
- 반사실 시나리오: I² = 0 + 적은 \(k\) 면 진성 heterogeneity 가능. Conservative 로 RE.
A: 가능. 두 측도가 다른 dimension.
3 단계 직관:
- 추상 정의: I² 가 비율 (sampling vs heterogeneity), τ² 가 절대 분산.
- 일상어 비유: 같은 정보의 두 표현.
- 반사실 시나리오: 둘 다 보고가 정직. PI 추가가 임상 의의.
13 결론
Cochran’s Q + I² + τ² + PI 가 heterogeneity 정량의 4 도구. I² 만 보고하면 임상 의의 모호 — τ² 와 PI 도 함께 보고. 큰 heterogeneity 시 RE + subgroup 분석 + meta-regression. REML 이 τ² 추정의 표준 (DL 대체). HK 보정이 작은 \(k\) 의 표준.
다음 글 (H-WOO12-4) 에서 사례 분석과 다양한 outcome (RD, mean difference) 의 통합을 본다.
14 관련 주제
- Meta-analysis 개관
- Fixed/Random Effects
- 1111-11-11, Pooling 사례와 다양한 outcome
- 1111-11-11, Investigating Heterogeneity