Cases·Controls 선정의 통계적 함의

Woodward Ch.6.3~6.4 — Selection of Cases & Controls

Cases 와 controls 선정이 OR 추정에 어떻게 영향을 미치는지를 통계 lens 로 정리한다. Selection bias 의 수학적 표현, hospital vs population control 의 OR 편향 방향, 그리고 multiple control groups 의 정량적 정당화를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 6.3 Selection of Cases — 통계 관점

정의: Case Selection 의 두 차원
  • Incident vs Prevalent: 진단 시점의 분포.
  • Population-based vs Hospital-based: 인구 source.

(Woodward, 2014, Ch.6.3).

3 단계 직관:

  • 추상: $P( Y=1) = $ selection probability for cases. 진성 사례 발생자 중 누가 표본에 들어갔는가.
  • 일상어 비유: 한 도시의 코로나 환자 표본 = 검사받은 환자만. 진성 발생자 중 검사 안 받은 자는 누락.
  • 반사실: Selection probability 가 노출과 상관 → bias. 무관 → 무편향.

1.1 Incident 의 통계적 우월성

직관 3 단계: Incident vs Prevalent
  • 추상: Prevalent cases 는 survivor bias 위험. 빨리 사망한 사례는 prevalent 표본에 안 들어감 → 표본이 가벼운 표현형으로 편향.
  • 일상어 비유: 어느 시점의 시민 평균 키 = 그 시점에 살아있는 자만. 죽은 자는 자료에 없음. 평균이 (살아있는 자의 더 작은 키일 수도) 편향.
  • 반사실: Incident 는 진단 시점부터 추적 → survivor bias 회피. 단, 모집·식별 비용 ↑.

1.2 Selection Probability 의 수학

\[ \hat{\text{OR}} = \frac{P(X=1 \mid Y=1, \text{selected}) / P(X=0 \mid Y=1, \text{selected})}{P(X=1 \mid Y=0, \text{selected}) / P(X=0 \mid Y=0, \text{selected})} \]

진성 OR: \[ \text{OR}_{\text{true}} = \frac{P(X=1 \mid Y=1) / P(X=0 \mid Y=1)}{P(X=1 \mid Y=0) / P(X=0 \mid Y=0)} \]

Bias 조건: \(P(\text{selected} \mid X, Y) \neq f(Y) g(X)\) (즉 X 와 Y 의 곱 분리 가능형이 아니면) 두 추정량이 다름.

가정 위반: Berkson’s Bias 의 수학

가설: \(P(\text{Hospital} \mid X=1, Y=1) > P(\text{Hospital} \mid X=0, Y=1)\) — 노출자가 case 일 때 입원 확률 ↑ (예: IUD-salpingitis 에서 IUD 사용자가 더 적극 치료).

이때 hospital case-control 이 진성 OR 보다 큰 OR 산출.

3 단계 직관:

  • 추상: Selection 확률이 X·Y 의 결합에 의존 → bias factor 가 1 이 아님 → OR 편향.
  • 일상어 비유: 회사 입사자 중 능력자가 더 자주 채용 + 능력자가 외향성도 강함 → 입사자 풀에서 외향성 비율이 일반 인구보다 ↑.
  • 반사실: Population-based 는 selection 확률이 X·Y 무관 → bias factor = 1 → 무편향.

2 6.4 Selection of Controls — 통계 관점

2.1 Selection Bias 의 방향

직관 3 단계: 잘못된 control 의 OR 편향 방향
Control 의 노출 prevalence OR 편향 방향
인구 평균보다 ↑ OR ↓ (가짜로 보호)
인구 평균보다 ↓ OR ↑ (가짜로 위험)
  • 추상: \(\hat{\text{OR}} = \frac{a/b}{c/d}\). Control 의 \(c/d\) ratio 가 인구 평균보다 ↑ → 분모 ↑ → OR ↓.
  • 일상어 비유: 평균 점수 비교에서 비교군의 평균이 인위적으로 ↑ → 우리 군이 상대적으로 낮아 보임.
  • 반사실: 노출 prevalence 가 인구와 동일이면 OR 무편향.

2.2 Multiple Control Groups 의 통계적 정당화

정의: 두 Control Groups 의 검정

두 control group 의 OR 추정이 일치하는지 검정.

\(H_0\): \(\text{OR}_1 = \text{OR}_2\).

\[ z = \frac{\log \hat{\text{OR}}_1 - \log \hat{\text{OR}}_2}{\sqrt{\text{Var}(\log \hat{\text{OR}}_1) + \text{Var}(\log \hat{\text{OR}}_2)}} \]

기각이면 한 control 이 selection bias.

2.3 Schulz 의 권장 vs Woodward 의 추가

Schulz (Ch.6) 는 단일 control 우선 — 두 결과 불일치 시 결정 어려움.

Woodward 는 통계 lens 로 보완: 두 control 모두 보고 + 강건성 평가. 만약 일치하면 결과 신뢰성 ↑, 불일치하면 sensitivity analysis 로 가능 OR 범위 추정.

직관: 두 control 의 정보 활용
  • 추상: 두 OR 의 가중 평균 (precision-weighted) 또는 범위로 보고.
  • 일상어 비유: 두 평론가의 영화 평가가 일치하면 평균. 차이 크면 두 의견 모두 보고.
  • 반사실: 한 OR 만 보고하면 다른 가능 추정의 범위를 모름. 두 control 이 정보를 더 풍부하게.

2.4 Stadel et al. (1985) 사례 — Two-Control 의 모범

유방암 case-control 에서 community control + 다른 cancer control 두 군 사용. Recall bias 점검:

  • Community control: 진단 동기 ↓ → recall ↓.
  • Other-cancer control: 진단 동기 ↑ → recall ↑ (cases 와 같은 강도).

두 OR 비교로 recall bias 영향 추정.

3 Hospital Control 의 수학적 정당화

가정 위반: Hospital Control 의 회귀

가설: 흡연-폐암 case-control 에서 hospital control = MI 환자.

흡연 prevalence: - 일반 인구: 0.20. - MI 환자: 0.50 (흡연이 MI 위험 인자).

Cases (폐암 환자) 흡연 prevalence: 0.80 (진성 OR=15, 일반 인구 기준).

Hospital OR: \[ \frac{0.80 / 0.20}{0.50 / 0.50} = \frac{4}{1} = 4 \]

진성 OR (population control 기준): \[ \frac{0.80 / 0.20}{0.20 / 0.80} = \frac{4}{0.25} = 16 \]

OR 차이: hospital 4 vs population 16 — 75% underestimation.

3 단계 직관:

  • 추상: Hospital control 의 흡연 prevalence 가 인구 평균의 2.5 배 → OR 분모 ↑ → OR ↓.
  • 일상어 비유: 키 측정에서 비교군이 우연히 농구팀 → 우리 그룹이 상대적으로 낮아 보임.
  • 반사실: Population-based control → 진성 OR 산출 → 정확한 정책 결정.

4 결론

Cases·Controls 선정은 OR 추정에 직접 영향. Selection bias 의 방향은 control 의 노출 prevalence 가 인구 평균과 비교한 부등호로 결정. Multiple controls + sensitivity analysis 가 통계적 강건성 보강.

다음 글(B26)에서는 매칭의 수학적 정당화와 매칭 분석 (McNemar, conditional logistic) 을 본다.

5 관련 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: