Kwangmin Kim - 표준화와 Mantel-Haenszel 개관

1 왜 표준화·Mantel-Haenszel 인가

정의: 인구 비교의 함정

두 인구 (A, B) 의 사망률을 단순 비교 시:

Crude rate A: 8/1000.
Crude rate B: 12/1000.

→ B 가 더 위험? 단, B 가 노인 인구 비율 ↑ 라면 연령 구성 차이가 사망률 차이를 만들 수 있음 (Woodward, 2014, Ch.4.5).

표준화는 인구 구성 (예: 연령) 을 통제 한 후 비교.

1.1 직관 — Crude Rate 의 함정

직관 3 단계: 인구 구성의 confounding

추상: \(\text{Rate}_{\text{crude}} = \sum_a w_a \cdot \text{Rate}_a\). 가중치 \(w_a\) (인구 구성) 가 두 인구에서 다르면 비교 흐려짐.
일상어 비유: 한 학교의 평균 점수 비교 — 한 학교 고학년 비율 ↑ 이면 평균 ↑ 자연.
반사실: 인구 구성 표준화 → 같은 연령 구성에서 사망률 비교 → 진성 차이.

2 Standardisation — 두 가지 방법

표준화 (Standardisation)
│
├── Direct Standardisation       → 표준 인구의 가중치 사용
│   - Standard Mortality Rate (SMR)
│
└── Indirect Standardisation     → 표준 인구의 ratio 사용
    - Standardised Mortality Ratio (SMR)

(같은 약어 SMR 이 두 다른 측도를 가리킴 — 헷갈림 주의.)

2.1 Direct Standardisation

정의: Direct Standardisation

연구 인구의 연령별 rate 에 표준 인구의 가중치 를 곱해 가중 평균.

\[ \text{Direct Standardised Rate} = \sum_a w_a^{\text{std}} \cdot \text{Rate}_a^{\text{study}} \]

여기서 \(w_a^{\text{std}}\) 는 표준 인구의 연령군 \(a\) 비율.

해석: “이 연구 인구가 표준 인구의 연령 구성을 가졌다면 어떤 사망률을 보일까?”

2.2 사례 — Direct 의 활용

사례: 두 도시 비교

연령대	도시 A 사망률	도시 B 사망률	표준 인구 비율
0~24	0.001	0.001	0.30
25~64	0.005	0.005	0.50
65+	0.080	0.080	0.20

연령별 rate 가 동일 하지만 도시 A 의 노인 비율 5%, 도시 B 의 노인 비율 30%.

Crude rates: - A: 0.001 × 0.60 + 0.005 × 0.35 + 0.080 × 0.05 = 0.006. - B: 0.001 × 0.30 + 0.005 × 0.40 + 0.080 × 0.30 = 0.027.

→ B 가 4 배 위험으로 보이지만 진성 차이 0.

Direct standardised: 양쪽 모두 0.30 × 0.001 + 0.50 × 0.005 + 0.20 × 0.080 = 0.019.

→ 표준화 후 차이 0 — 진성.

3 단계 직관:

추상: 같은 가중치 → 인구 구성 통제. 진성 비교 가능.
일상어 비유: 두 학교의 평균 점수 비교를 “둘 다 같은 학년 구성으로 가정” 후 비교 — 학년 효과 제거.
반사실: Crude 비교는 연령 구성 + 진성 효과의 혼합. 표준화는 진성 효과만 추출.

2.3 Indirect Standardisation — SMR

정의: Indirect Standardisation

연구 인구의 연령 구성에 표준 인구의 rate 를 곱해 expected 사망 수 산출. Observed 와 비교.

\[ \text{SMR} = \frac{\text{Observed deaths}}{\text{Expected deaths}} \]

여기서: \[ \text{Expected deaths} = \sum_a n_a^{\text{study}} \cdot \text{Rate}_a^{\text{std}} \]

SMR > 1 = 표준 인구보다 위험 ↑. SMR < 1 = 표준 인구보다 위험 ↓.

해석: “표준 인구의 사망률이 적용된다면 이 연구 인구에서 몇 명이 죽을까? 실제와 비교.”

2.4 Direct vs Indirect — 언제 어느 것?

측면	Direct	Indirect
자료 요구	연구 인구 연령별 rate	연구 인구 연령 구성 + 표준 rate
적합 상황	큰 표본 (각 연령군 충분)	작은 표본
비교 목적	두 연구 인구 직접 비교	한 연구 인구 vs 표준

직관: 작은 표본의 indirect 우위

추상: Direct 는 각 연령군의 rate 추정 필요 → 작은 연령군 rate 가 noise 큼. Indirect 는 표준 rate 사용 → noise 없음.
일상어 비유: 작은 학교의 학년별 평균 점수 vs 큰 학교 평균 적용한 expected 점수. 후자가 안정.
반사실: 직장 코호트 (작은 표본) 의 사망률 분석은 indirect 가 표준.

3 Mantel-Haenszel (MH) 방법

정의: Mantel-Haenszel Estimator

Stratified 자료의 통합 효과 추정. 각 stratum 의 효과를 가중 평균.

MH RR (cohort 자료): \[ \hat{\text{RR}}_{\text{MH}} = \frac{\sum_s a_s (c_s + d_s) / n_s}{\sum_s c_s (a_s + b_s) / n_s} \]

MH OR (case-control 자료): \[ \hat{\text{OR}}_{\text{MH}} = \frac{\sum_s a_s d_s / n_s}{\sum_s b_s c_s / n_s} \]

3.1 직관 — MH 의 가중

직관 3 단계: MH 의 정보 가중

추상: 각 stratum 의 정보량 = (작은 cell 의 함수). MH 가 정보 가중.
일상어 비유: 학교별 평균 점수의 가중 평균 — 큰 학교 + 균형 잡힌 분포의 가중 ↑.
반사실: 단순 평균은 작은 stratum 에 과한 가중. MH 가 정보량 기반.

3.2 Logistic Regression 과의 일관성

단일 binary confounder + 큰 표본이라면 MH 와 logistic regression 거의 동일 결과. 다중 confounder + 연속 변수면 logistic 우선.

직관: 두 도구의 분업

추상: MH = 비모수 stratification (가정 적음). Logistic = 모수 회귀 (가정 많음, 다중 변수).
일상어 비유: MH = 학교별 단순 평균 가중. Logistic = 다중 변수 회귀.
반사실: 모형 가정이 깨지면 logistic 도 부정확. MH 가 더 robust.

4 Breslow-Day 검정 — Effect Modification

Strata 간 효과 동질성 검정. 기각이면 effect modification → strata 별 효과 별도 보고.

자세한 분석은 B46 에서.

5 IT 대응 — 인구 구성 통제

의학	IT
Direct standardisation	A/B 테스트 결과를 표적 인구 분포로 재가중
SMR	A/B 테스트의 expected vs observed
MH	Stratified A/B 분석 (segment 별 lift 통합)

A/B 테스트가 무작위 배정으로 인구 구성 자동 통제. 그러나 사후 분석에서 하위 segment 별 효과 확인 시 MH 가 IT 도구.

6 결론 — Ch.4 시리즈 길잡이

글	주제
B43 (이 글)	Overview
B44	Direct Standardisation 상세
B45	Indirect + SMR + Risks
B46	Mantel-Haenszel 방법

각 글이 위 도구를 깊이 다룬다.

7 관련 주제

선행

Effect Measures — 효과 지표 통합
SCH Ch.7 — 관찰 역학의 한계

WOO Ch.4 후속

1111-11-11, Direct Standardisation
1111-11-11, Indirect + SMR
1111-11-11, Mantel-Haenszel 방법