Heterogeneity 의 정량화 — Q·I²·τ²

Woodward Ch.12.3.3~12.3.4 — Heterogeneity & Calculations

Meta-analysis 의 핵심 진단 지표 — Cochran’s Q, I², τ² (between-study variance) 의 수식 유도, 해석, 임계값을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Heterogeneity 의 source 추정과 forest plot·funnel plot 으로의 시각화도 다룬다.

Experimentation
Modeling
저자

Kwangmin Kim

공개

2026년 05월 08일

1 Heterogeneity 의 정의

정의: Heterogeneity

Meta-analysis 에서 연구 간 진성 효과의 변동성. 두 종류:

1. Sampling Heterogeneity (within): 각 연구의 \(v_i\) — 표본 크기에 의존.

2. Real Heterogeneity (between): 진성 효과 \(\theta_i\) 의 분포 — \(\tau^2\) 로 정량.

(Woodward, 2014, Ch.12.3.3).

1.1 두 분산의 분리

직관 3 단계: Total Variance 의 분해
  • 추상 정의: \(\text{Var}(\hat\theta_i) = v_i + \tau^2\) — within + between.
  • 일상어 비유: 학생 점수의 분산 = 같은 학생의 시험별 변동 + 학생 간 평균 차이.
  • 반사실 시나리오: 두 source 가 분리되어야 진성 효과 분포 파악. 단순 합산은 정보 손실.

2 Cochran’s Q

정의: Cochran’s Q

\[Q = \sum_{i=1}^k w_i (\hat\theta_i - \hat\theta_{\text{FE}})^2\]

여기서 \(w_i = 1/v_i\), \(\hat\theta_{\text{FE}}\) = FE pooled estimate.

귀무가설: \(\theta_i = \theta\) (모든 연구 동일). 검정 통계: \(Q \sim \chi^2_{k-1}\).

기각 시 → heterogeneity 증거.

2.1 Q 의 한계

가정 위반: Q 의 검정력
  • 작은 표본 (적은 연구 \(k\)): 검정력 ↓.
  • 큰 표본 (많은 연구): 작은 변동도 유의.

3 단계 직관:

  • 추상 정의: Q 의 분포가 \(k\) 의 함수. \(k\) 작 → 진성 heterogeneity 도 못 잡음.
  • 일상어 비유: 5 회 측정만으로 변동 검정 — noise 와 진성 차이 구분 어려움.
  • 반사실 시나리오: Q 는 binary (유의/무의) 만 보여줌. 정량은 I² 와 τ².

3 I² 의 정의

정의: I²

\[I^2 = \max\left(0, \frac{Q - (k-1)}{Q}\right) \times 100\%\]

해석: 관찰된 분산 중 진성 heterogeneity 의 비율.

3.1 I² 의 임계값

직관 3 단계: I² 해석 표준 (Cochrane)
해석
0~25% Low — FE OK
25~50% Moderate
50~75% Substantial — RE 강력 권장
75~100% Considerable — narrative 또는 분리

3 단계 직관:

  • 추상 정의: I² 가 0% 면 sampling 만, 100% 면 진성 차이만.
  • 일상어 비유: 학생 점수의 분산 중 학교 차이의 비율 — 0% (모든 학교 동등) ~ 100% (학교 간 차이만).
  • 반사실 시나리오: I² 75% 이면 단일 통합 결과의 의미 ↓ — moderator 분석으로 source 식별.

3.2 I² 의 표본 크기 의존

가정 위반: 큰 자료 + I² 인플레이션

큰 표본 (각 연구 큰 \(n\)) 에서 sampling error 작아짐 → I² 인플레이션. 작은 진성 변동이 큰 I² 로 보일 수 있음.

3 단계 직관:

  • 추상 정의: \(v_i \to 0\)\(Q\) 의 임계값 의미 변화. I² 가 표본 크기 무관 비율이지만 검정력 변화.
  • 일상어 비유: 매우 정밀한 측정 도구로 작은 차이 검출 — 임상 의의 무관.
  • 반사실 시나리오: I² 보고와 함께 절대 변동 (τ² 또는 prediction interval) 도 보고.

4 τ² (Between-Study Variance)

정의: τ²

진성 효과 분포의 분산: \[\theta_i \sim N(\mu, \tau^2)\]

추정 방법:

DerSimonian-Laird (DL): \[\hat\tau^2_{\text{DL}} = \max\left(0, \frac{Q - (k-1)}{\sum w_i - \sum w_i^2 / \sum w_i}\right)\]

REML: ML 의 restricted 형태 — 작은 표본에서 unbiased.

Paule-Mandel (PM): Iterative 추정.

4.1 τ² 의 단위와 해석

직관 3 단계: τ² 의 임상 의의
  • 추상 정의: \(\tau^2\) 는 효과의 단위² (예: log RR² 또는 (mmHg)²).
  • 일상어 비유: \(\tau^2 = 0.1\) in log RR scale → 진성 RR 의 표준편차 √0.1 = 0.32. 즉 진성 RR 이 평균 ± 0.32 변동.
  • 반사실 시나리오: \(\tau^2\) 가 클수록 단일 통합 효과의 의미 ↓. Prediction interval 보고 권장.

4.2 Prediction Interval

정의: 95% Prediction Interval

새로운 연구의 진성 효과의 예측 구간: \[\hat\mu \pm t_{k-2, 0.975} \sqrt{\hat\tau^2 + \text{Var}(\hat\mu)}\]

해석: 95% 의 새 연구의 진성 효과가 이 구간 안.

직관: CI vs PI
  • CI: 통합 효과 \(\mu\) 의 불확실성.
  • PI: 새 연구의 효과 분포.

예시: \(\hat\mu = 0.5\) (RR), CI: (0.4, 0.6), PI: (-0.2, 1.2).

CI 는 좁지만 PI 가 넓다 → 진성 heterogeneity 큼. 새 인구 (예: 한국) 에 적용 시 효과 매우 다를 수 있음.

3 단계 직관:

  • 추상 정의: PI 가 미래 연구의 변동 보고. 임상 의사 결정에 직접.
  • 일상어 비유: 평균 vs 분포 — 평균 보고와 분포 보고는 다른 정보.
  • 반사실 시나리오: CI 만 보고하면 진성 heterogeneity 의 영향 가림. PI 가 정직.

5 Heterogeneity 의 검정력

가정 위반: Q 검정의 한계
  • 작은 \(k\) (예: < 5): Q 검정력 ↓ — 진성 heterogeneity 도 못 잡음.
  • \(k\) (예: > 50): 작은 차이도 유의 — 임상 무관.

3 단계 직관:

  • 추상 정의: Q 의 분포 \(\chi^2_{k-1}\) — 자유도 \(k\) 에 의존.
  • 일상어 비유: 시험 점수 비교 — 학생 5 명 시 차이 검출 어렵, 500 명 시 미세한 차이도 유의.
  • 반사실 시나리오: I² + τ² + PI 모두 보고가 정직. 단일 Q p-value 만 보고 시 정보 손실.

6 Heterogeneity 의 Source 추정

이질성의 source 식별 도구는 H-WOO12-5 (Investigating Heterogeneity) 에서. 핵심 도구: - Subgroup analysis: 사전 명시 subgroup 별 통합. - Meta-regression: Continuous moderator 의 효과. - Sensitivity analysis: Outlier 영향.

7 코드 예시 — Heterogeneity 지표

import numpy as np
import pandas as pd

# 가상 자료
studies = pd.DataFrame({
    "study": list("ABCDEFGHIJ"),
    "theta": [0.40, 0.55, 0.30, 0.65, 0.35, 0.50, 0.45, 0.70, 0.25, 0.60],
    "se": [0.15, 0.20, 0.10, 0.18, 0.22, 0.13, 0.16, 0.12, 0.25, 0.14],
})
studies["v"] = studies["se"] ** 2
studies["w"] = 1 / studies["v"]

# FE pooled
theta_FE = (studies["w"] * studies["theta"]).sum() / studies["w"].sum()

# Q
Q = (studies["w"] * (studies["theta"] - theta_FE)**2).sum()
k = len(studies)
print(f"Q = {Q:.2f} (df = {k-1})")

from scipy.stats import chi2
p_Q = 1 - chi2.cdf(Q, k-1)
print(f"  p-value = {p_Q:.4f}")

# I²
I2 = max(0, (Q - (k-1)) / Q) * 100 if Q > 0 else 0
print(f"\nI² = {I2:.1f}%")

# τ² (DL)
sum_w = studies["w"].sum()
sum_w2 = (studies["w"]**2).sum()
tau2_DL = max(0, (Q - (k-1)) / (sum_w - sum_w2/sum_w))
print(f"τ² (DL) = {tau2_DL:.4f}")
print(f"τ (between-study SD) = {np.sqrt(tau2_DL):.4f}")

# Prediction interval
studies["w_RE"] = 1 / (studies["v"] + tau2_DL)
theta_RE = (studies["w_RE"] * studies["theta"]).sum() / studies["w_RE"].sum()
var_mu = 1 / studies["w_RE"].sum()
PI_se = np.sqrt(var_mu + tau2_DL)
from scipy.stats import t
t_crit = t.ppf(0.975, k - 2)
PI_lo = theta_RE - t_crit * PI_se
PI_hi = theta_RE + t_crit * PI_se
print(f"\nθ_RE = {theta_RE:.3f}")
print(f"95% CI: ({theta_RE - 1.96*np.sqrt(var_mu):.3f}, {theta_RE + 1.96*np.sqrt(var_mu):.3f})")
print(f"95% PI: ({PI_lo:.3f}, {PI_hi:.3f})")

해석: I², τ², PI 모두 보고가 표준. PI 가 새 연구의 효과 변동 시사.

8 A/B 테스트의 Heterogeneity

사례: 분기별 A/B 의 변동

A/B 의 4 분기 lift: - Q1: 3.2%, Q2: 5.8%, Q3: 1.5%, Q4: 4.1%.

Q: 작은 표본 (k=4) 이지만 큰 변동. : ~70% — 분기 간 진성 차이 큼. τ²: 1.5%² — 분기별 표준편차 약 1.2%.

해석: 평균 lift 3.7% 이지만 분기별로 1.5%~5.8% 변동.

3 단계 직관:

  • 추상 정의: Heterogeneity 가 IT 의 외적 타당도 평가 도구.
  • 일상어 비유: 평균 매출 효과 + 매장별 변동.
  • 반사실 시나리오: Heterogeneity 무시 시 단일 lift 보고 → 의사 결정 오류 (어느 분기에 어떤 효과인지 모름).

9 H² Statistic — I² 의 대안

정의: H² (Higgins’ H²)

\[H^2 = Q / (k-1)\]

해석: - \(H^2 = 1\): Heterogeneity 없음. - \(H^2 > 1.5\): 의미 있는 heterogeneity.

관계: \(I^2 = (H^2 - 1) / H^2\).

직관: I² vs H²
  • 추상 정의: 같은 정보의 다른 표현.
  • 일상어 비유: 비율 (I²) vs ratio (H²).
  • 반사실 시나리오: I² 가 직관적 (%), H² 가 통계적. 보고 시 I² 표준.

10 τ² 추정 방법 비교

정의: τ² 추정 4 방법
방법 약자 특징
DerSimonian-Laird DL 가장 흔함, biased in 작은 자료
Restricted Maximum Likelihood REML Unbiased, default 권장
Paule-Mandel PM Iterative, robust
Empirical Bayes EB Bayesian flavor

(Veroniki et al., 2016).

직관 3 단계: 4 방법의 분업
  • 추상 정의: 작은 자료 + 적은 연구 → REML 우월.
  • 일상어 비유: 측정 도구 — 작은 자료에서 정밀도 ↑ 도구.
  • 반사실 시나리오: Cochrane 권장: REML. DL 이 default 였으나 작은 자료 bias 로 REML 로 교체.

11 Hartung-Knapp 보정 (재확인)

가정 점검: 작은 \(k\) 의 SE

DL/REML 의 SE 가 작은 \(k\) (\(< 10\)) 에서 underestimate.

HK 보정: t 분포 + adjusted variance.

Cochrane 2019+ 권장: HK 보정.

직관: HK 의 보수적 효과
  • 추상 정의: HK 가 SE ↑ → CI wider → 결과 보수적.
  • 일상어 비유: 작은 표본의 추정 — 추가 보정 부담.
  • 반사실 시나리오: HK 없이 reporting 시 false positive ↑. Cochrane 의 표준.

12 Q&A — Heterogeneity 의 흔한 오해

Q1: Q 검정 p > 0.05 — heterogeneity 없음?

A: 작은 표본의 검정력 ↓. 결론 보류.

3 단계 직관:

  • 추상 정의: Q 의 검정력이 \(k\) 에 의존. 작은 \(k\) + 작은 진성 효과 검출 어려움.
  • 일상어 비유: 5 회 측정만으로 변동 검정 — 실패 가능.
  • 반사실 시나리오: I² + τ² + 신뢰구간 모두 보고. p-value 만 보면 부정확.
Q2: I² = 0% — RE 가 FE 와 동일?

A: 거의. 단 sampling noise 로 약간 차이 가능.

3 단계 직관:

  • 추상 정의: \(\hat\tau^2 = 0\) 이면 RE = FE 수치적으로.
  • 일상어 비유: 학교 간 차이 0 → 단순 평균 = 가중 평균.
  • 반사실 시나리오: I² = 0 + 적은 \(k\) 면 진성 heterogeneity 가능. Conservative 로 RE.
Q3: τ² 와 I² 다른 결론?

A: 가능. 두 측도가 다른 dimension.

3 단계 직관:

  • 추상 정의: I² 가 비율 (sampling vs heterogeneity), τ² 가 절대 분산.
  • 일상어 비유: 같은 정보의 두 표현.
  • 반사실 시나리오: 둘 다 보고가 정직. PI 추가가 임상 의의.

13 결론

Cochran’s Q + I² + τ² + PI 가 heterogeneity 정량의 4 도구. I² 만 보고하면 임상 의의 모호 — τ² 와 PI 도 함께 보고. 큰 heterogeneity 시 RE + subgroup 분석 + meta-regression. REML 이 τ² 추정의 표준 (DL 대체). HK 보정이 작은 \(k\) 의 표준.

다음 글 (H-WOO12-4) 에서 사례 분석과 다양한 outcome (RD, mean difference) 의 통합을 본다.

14 관련 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: