Kwangmin Kim - Direct Standardisation — 표준 인구 가중치 활용

1 Direct Standardisation — 정의 재확인

정의: Direct Method

연구 인구의 연령별 rate 에 표준 인구의 가중치를 곱해 가중 평균 (Woodward, 2014, Ch.4.5.1).

\[ \text{Direct Standardised Rate} = \sum_a w_a^{\text{std}} \cdot \text{Rate}_a^{\text{study}} \]

여기서 \(w_a^{\text{std}}\) 는 표준 인구의 연령군 \(a\) 비율 (\(\sum_a w_a^{\text{std}} = 1\)).

해석: 연구 인구가 표준 인구의 연령 구성을 가졌다면 어떤 rate 을 보일까.

2 Direct 의 활용 절차

[Step 1] 연구 인구의 연령별 rate (Rate_a^{study}) 계산.
[Step 2] 표준 인구의 연령별 비율 (w_a^{std}) 결정.
[Step 3] 두 가지 곱셈하여 Direct Standardised Rate 산출.
[Step 4] 두 연구 인구를 같은 표준 인구로 비교.

2.1 직관 3 단계 — Direct 의 본질

추상: 두 인구의 연령별 rate 차이를 표준 인구의 분포로 가중 → 인구 구성 차이 제거 + 진성 rate 차이 추출.
일상어 비유: 두 학교의 학년별 평균 점수에 같은 학년 구성 가중치 적용 → 학년 효과 제거.
반사실: Crude 비교는 인구 구성 + 진성 rate 의 혼합. Direct 는 진성 rate 만.

3 표준 인구의 선택

표준 인구 선택의 옵션

표준 인구	활용
WHO World Standard Population	국제 비교
European Standard Population	유럽 내 비교
US 2000 Census Population	미국 분석
연구 인구 합산	두 인구 비교 시 합산을 표준으로
Truncated standard	특정 연령대만 (예: 35~64)

3 단계 직관:

추상: 표준 인구 선택이 추정에 영향. 다른 표준 사용 시 다른 standardised rate 산출.
일상어 비유: 평균 기온 비교에서 어느 도시를 baseline 으로 삼느냐에 따라 다른 결론.
반사실: 같은 표준 사용해야 두 인구 비교 가능. 다른 표준 사용 시 비교 불가.

4 표본 크기 요구

가정 위반: 작은 표본의 direct method

가설: 작은 직장 코호트 (200 명, 연령군별 5~30 명) 의 사망률 표준화.

문제: 각 연령군의 rate 추정이 noise 큼 (작은 분모). Direct method 가 신뢰성 낮음.

3 단계 직관:

추상: \(\text{Var}(\text{Rate}_a) = \text{Rate}_a / n_a\). 작은 \(n_a\) 에서 분산 ↑.
일상어 비유: 학년별 5 명의 평균 점수는 noise. 학년별 100 명이면 안정.
반사실: 작은 표본이면 indirect method (B45) 우선. 표준 인구의 rate 사용 → 더 안정.

5 분산과 신뢰구간

정의: Direct Standardised Rate 의 분산

\[ \text{Var}(\text{DSR}) = \sum_a (w_a^{\text{std}})^2 \cdot \frac{\text{Rate}_a^{\text{study}}}{n_a^{\text{study}}} \]

95% CI: \[ \text{DSR} \pm 1.96 \cdot \sqrt{\text{Var}(\text{DSR})} \]

5.1 Tiwari et al. (2006) 의 변환

작은 사건 수에서 Wald CI 가 부정확. Tiwari 의 gamma 분포 기반 CI 가 표준.

6 Standardised Rate Ratio (SRR)

정의: SRR

두 standardised rate 의 비:

\[ \text{SRR} = \frac{\text{DSR}_1}{\text{DSR}_2} \]

같은 표준 인구로 표준화된 두 rate 의 비교. 인구 구성 통제 + 진성 차이.

직관: SRR 의 의미

추상: \(\log \text{SRR}\) 의 분산이 두 분산의 합 (독립 가정).
일상어 비유: 두 도시의 표준화 사망률 비 — 인구 구성 통제 후 진성 위험 차이.
반사실: SRR ≈ 1 이면 두 인구의 진성 rate 같음. ≠ 1 이면 진성 차이.

7 사례 — 미국·일본 사망률 비교

사례: 인구 노화 차이 통제

미국과 일본의 crude 사망률 비교 (가상):

미국 crude: 8.5/1000.
일본 crude: 10.0/1000.

→ 일본이 더 위험? 단, 일본 인구의 노인 비율 이 미국보다 ↑.

WHO 표준 인구로 direct standardisation:

미국 DSR: 8.0/1000.
일본 DSR: 6.0/1000.

→ 일본이 진성으로 더 안전. Crude 비교는 인구 노화의 함정.

3 단계 직관:

추상: 일본의 노인 비율이 같은 연령별 rate 라도 crude 를 ↑ 시킴. 표준화 후 일본이 진성 우위.
일상어 비유: 두 학교의 평균 키 비교 — 한 학교가 고학년 비율 ↑ 면 평균 키 ↑ 자연. 학년 통제 후 진성 비교.
반사실: 표준화 안 하면 일본의 사망률 ↑ 으로 잘못 결론.

8 코드 — Direct Standardisation

import numpy as np
import pandas as pd

# 가상 자료
data = pd.DataFrame({
    "age_group": ["0~24", "25~64", "65+"],
    "study_pop_size": [10000, 25000, 5000],
    "study_deaths": [10, 125, 400],
    "std_pop_prop": [0.30, 0.50, 0.20],  # WHO 표준 가중
})

# 연령별 rate
data["study_rate"] = data["study_deaths"] / data["study_pop_size"]

# Direct Standardisation
DSR = (data["std_pop_prop"] * data["study_rate"]).sum()
print(f"Direct Standardised Rate = {DSR:.4f}")

# Crude rate (비교)
total_n = data["study_pop_size"].sum()
total_d = data["study_deaths"].sum()
crude = total_d / total_n
print(f"Crude Rate = {crude:.4f}")

해석: DSR 과 crude 의 차이가 인구 구성의 효과.

9 결론

Direct standardisation 은 두 인구의 직접 비교를 위한 정직한 도구. 표준 인구 선택이 결정 요소이며, 큰 표본 + 안정한 연령별 rate 가 적용 조건. 작은 표본은 indirect method 가 우선.

다음 글(B45)에서는 indirect standardisation 과 SMR 을 본다.

1 Direct Standardisation — 정의 재확인

2 Direct 의 활용 절차

2.1 직관 3 단계 — Direct 의 본질

3 표준 인구의 선택

4 표본 크기 요구

5 분산과 신뢰구간

5.1 Tiwari et al. (2006) 의 변환

6 Standardised Rate Ratio (SRR)

7 사례 — 미국·일본 사망률 비교

8 코드 — Direct Standardisation

9 결론

10 관련 주제