Woodward Ch.6 — Case-Control Studies (통계 lens)

통계학자의 시각으로 본 Case-Control: 설계·분석·매칭·변형 설계 개관

Woodward Ch.6 의 case-control 통계 분석을 한 번에 조망한다. OR 의 수식적 기초, Mantel-Haenszel·conditional logistic 분석, 매칭 설계의 수식 정당화, 그리고 nested case-control·case-cohort·case-crossover 의 세 가지 변형 설계를 추상 → 일상어 → 반사실 3 단계 직관으로 정리한다. Schulz 의 임상 시각과의 보완 관계를 명시한다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 왜 두 번째 lens 가 필요한가

Schulz Ch.5~6 (B15~B22) 가 case-control 의 임상·실무 시각이라면, Woodward Ch.6 은 통계학자의 시각이다. 강조점이 다음으로 이동한다.

  1. OR 의 수식적 정당화 — 왜 OR 이 cumulative case-control 의 자연 추정량인가.
  2. 분석 도구의 통일 — MH, logistic, conditional logistic 의 수식적 관계.
  3. 매칭의 정당화 — 매칭이 검정력에 어떻게 영향, 분석은 왜 conditional 이어야 하는가.
  4. 변형 설계의 식별 — Nested CC, case-cohort, case-crossover 의 수식적 정당화.
정의: Case-Control 의 Woodward 정의
[Cumulative case-control]
- 결과 발생 기간 종료 후 cases 와 controls 표집.
- OR 추정. 희귀 결과 가정 (< 5%) 시 OR ≈ RR.

[Incidence-density / Risk-set case-control]
- 각 case 발생 시점에 그 시점의 위험 인구에서 control 매칭.
- OR = IRR (incidence rate ratio). 희귀 결과 가정 불필요.

(Woodward, 2014, Ch.6.1; Rothman, 2017).

3 단계 직관:

  • 추상: Cumulative 은 시간 차원 무시 (모든 사건을 한 시점에 종료 후 비교), risk-set 은 시간 차원 보존 (각 사건 시점에 비교).
  • 일상어 비유: 마라톤 끝의 전체 결과 비교 vs 매 km 의 위치 비교. 후자가 시간 차원 풍부.
  • 반사실: 사건이 흔하면 cumulative OR 이 RR 에서 멀어짐. Risk-set 은 이 한계 회피.

2 Ch.6 의 9 절 구조

WOO Ch.6 — Case-Control Studies (통계 lens)
│
├── 6.1 Design                      → B24
├── 6.2 Analysis methods            → B24
├── 6.3 Selection of cases          → B25
├── 6.4 Selection of controls       → B25
├── 6.5 Matching                    → B26
├── 6.6 Analysis of matched studies → B26
├── 6.7 Nested case-control         → B27
├── 6.8 Case-cohort                 → B27
└── 6.9 Case-crossover              → B28

3 6.1~6.2 — 설계와 분석 (B24)

3.1 OR 의 수식적 기초

Exposed (X=1) Unexposed (X=0)
Cases (Y=1) \(a\) \(b\)
Controls (Y=0) \(c\) \(d\)

\[ \hat{\text{OR}} = \frac{ad}{bc} \]

95% Wald CI (대표본): \[ \hat{\text{OR}} \cdot \exp\left( \pm 1.96 \sqrt{1/a + 1/b + 1/c + 1/d} \right) \]

직관: OR 이 cumulative CC 의 자연 추정량
  • 추상: Cumulative CC 에서 표집은 결과 기준이라 marginal P(X) 추정 불가. 그러나 conditional P(X|Y=0) 와 P(X|Y=1) 추정 가능 → 두 비율의 odds 비가 자연 추정량.
  • 일상어 비유: 합격자 100 명 + 불합격자 200 명만 모았을 때 “합격자의 X 비율” 과 “불합격자의 X 비율” 비교 가능. 전체 인구의 합격률은 알 수 없음.
  • 반사실: Cohort 는 마진 P(Y) 직접 추정 가능 → RR. CC 는 이 정보 손실의 trade-off.

3.2 Mantel-Haenszel — Confounder 통제

각 stratum \(s\) 의 OR 가중 평균: \[ \text{OR}_{\text{MH}} = \frac{\sum_s a_s d_s / n_s}{\sum_s b_s c_s / n_s} \]

각 stratum 안에서 confounder 가 동질이라면 → 보정된 OR.

3.3 Logistic Regression — 다중 변수

\[ \text{logit}(P(Y=1 \mid \mathbf{X})) = \beta_0 + \beta_X X + \boldsymbol{\beta}_Z^T \mathbf{Z} \]

$(_X) = $ Z 보정된 OR. 다중 confounder 동시 보정.

직관 3 단계: MH vs Logistic
  • 추상: MH 는 비모수 stratification, logistic 은 모수 회귀. 단일 confounder 라면 거의 동일 결과.
  • 일상어 비유: MH 는 학교별 점수 평균을 가중 평균, logistic 은 학교 dummy + 추가 변수 회귀. 학교만 보정한다면 결과 비슷.
  • 반사실: 다중 confounder + 연속 변수 + 상호작용이라면 logistic 필수. MH 는 strata 가 너무 많아 셀이 비면 작동 어려움.

4 6.3~6.4 — Cases 와 Controls 선정 (B25)

Schulz Ch.5~6 의 임상 가이드라인을 통계 lens 로 재정립.

  • Incident vs prevalent cases: Incident 우선 — 진단 시점 분포 좁고 정의 일관.
  • Population-based vs hospital-based: 인구 기반 우선.
  • Multiple control groups: 결과 강건성 점검.
  • Selection bias 의 수학: \(E[\hat{OR}] = OR \cdot \text{bias factor}\). Bias factor 는 control selection probability 의 노출 의존성.

5 6.5~6.6 — 매칭과 매칭 분석 (B26)

5.1 매칭의 동기

가정: 매칭이 검정력 ↑ 시키는 조건

매칭은 confounder 의 분포를 cases 와 controls 에 동일하게 맞춤. 그러나:

  • Confounder 가 진성 confounder (Y 와 강한 상관)일 때만 검정력 ↑.
  • Confounder 가 노출과 강한 상관이면 overmatching → 검정력 ↓.

3 단계 직관:

  • 추상: \(\text{Var}(\hat{OR})\) 가 confounder 분산의 함수. Confounder 의 효과를 “꺼버림” → noise 감소.
  • 일상어 비유: 두 그룹 비교에서 키가 confounder 면 같은 키대로 매칭 → 키 효과 제거 → 진성 차이 부각.
  • 반사실: Confounder 가 mediator 면 매칭하면 노출 효과 자체 사라짐 → overmatching 함정.

5.2 Matched Analysis — McNemar’s Test

매칭된 자료는 paired 분석.

정의: McNemar’s Test

매칭된 case-control 쌍의 노출 표.

Control X=1 Control X=0
Case X=1 \(f_{11}\) \(f_{10}\)
Case X=0 \(f_{01}\) \(f_{00}\)

검정 통계량: \[ \chi^2 = \frac{(f_{10} - f_{01})^2}{f_{10} + f_{01}} \]

자유도 1 의 \(\chi^2\) 분포.

OR 추정: \[ \hat{\text{OR}}_{\text{matched}} = \frac{f_{10}}{f_{01}} \]

5.3 직관 — 왜 paired 분석인가

직관 3 단계: Discordant pairs 의 정보
  • 추상: \(f_{11}\) (둘 다 노출) 와 \(f_{00}\) (둘 다 비노출) 은 OR 정보 없음 (concordant). \(f_{10}, f_{01}\) (discordant) 만이 OR 정보 보유.
  • 일상어 비유: 쌍둥이 비교에서 둘 다 흡연 또는 둘 다 비흡연인 쌍은 흡연 효과 비교 안 됨. 한 명만 흡연하는 쌍에서만 효과 분리.
  • 반사실: Discordant pair 가 작으면 검정력 ↓. Sample size 계산도 discordant 수 기준.

5.4 Conditional Logistic Regression

다중 confounder 가 있는 매칭 자료의 회귀.

\[ \text{logit}(P(Y=1 \mid \mathbf{X}, \text{stratum})) = \alpha_s + \boldsymbol{\beta}^T \mathbf{X} \]

각 stratum (매칭 집합) 의 baseline \(\alpha_s\) 가 자유롭게 변하도록.

6 6.7 — Nested Case-Control (B27)

Cohort 안에 case-control 을 배태.

작동 흐름:

  1. Cohort 등록 시 모든 참여자의 자료·표본 수집.
  2. 추적 종료 후 case 식별.
  3. 같은 cohort 의 비-case 에서 매칭 control 선정.
  4. Case + control 에서만 비싼 측정 수행.

강점: - 시간 선후 자동 보장 (cohort 의 강점 계승). - 비싼 측정의 비용 절감. - 이론적 OR ≈ IRR (희귀 결과 가정 불필요).

상세 분석은 B27 에서.

7 6.8 — Case-Cohort

Cohort 의 sub-cohort 를 control 로.

정의: Case-Cohort
  • Cases: Cohort 안의 모든 결과 발생자.
  • Controls: Cohort 의 baseline 시점 random sub-cohort (사건 발생 여부 무관).

Nested CC 와의 차이: Nested CC 는 비-case 에서 control 표집, case-cohort 는 baseline 전체에서 표집.

직관: Case-Cohort 의 강점
  • 추상: Sub-cohort 를 한 번 표집하면 여러 결과 (multiple outcomes) 의 분석에 동일 sub-cohort 사용 가능.
  • 일상어 비유: 도서관에서 한 번에 100 권을 random 선정한 후 이 100 권을 다양한 비교의 baseline 으로 재사용.
  • 반사실: Nested CC 는 결과별로 control 표집이 새로 필요. Case-cohort 는 multiple outcomes 분석에 효율.

8 6.9 — Case-Crossover

정의: Case-Crossover

같은 사람의 결과 발생 직전 시점 (case period) 와 다른 시점 (control period) 에서 노출 비교 (Maclure, 1991; Woodward, 2014, Ch.6.9).

적합 상황: - 시간에 따라 변하는 노출 (acute exposure). - 결과가 short-term 변화 (예: 심근경색, 사고).

예시: 휴대폰 통화 직전 운전 사고. 운전 중 통화 (case period) vs 같은 운전자의 다른 시점 통화 (control period).

직관 3 단계: 같은 사람의 within-person 비교
  • 추상: 각 사람의 case period 와 control period 의 노출 odds 비. 매칭이 자동 (같은 사람) → 시간 불변 confounder (성격, 유전, SES) 자동 통제.
  • 일상어 비유: 한 학생의 시험 직전 공부 시간 vs 평소 공부 시간 비교. 학생의 평균 능력은 자동 통제.
  • 반사실: 노출이 time-invariant (예: 평생 흡연) 라면 case-crossover 적용 불가 — 노출이 모든 시점에서 같음.

9 Schulz vs Woodward — 시각의 보완

측면 Schulz Ch.5~6 Woodward Ch.6
강조 Control 선정의 임상 가이드 매칭의 통계 정당화
도구 Memory aids, blinding McNemar, conditional logistic
변형 설계 간략 깊이 (nested, case-cohort, case-crossover)
사례 의학 (NSAID, AIDS, 흡연) 통계 (OR 추정, sample size)

두 시각이 합쳐져야 case-control 의 완전한 그림이 나온다.

10 결론 — Ch.6 시리즈 길잡이

주제
B23 (이 글) Overview
B24 6.1 Design + 6.2 Analysis (OR, MH, Logistic)
B25 6.3 Cases + 6.4 Controls 선정
B26 6.5 Matching + 6.6 McNemar, conditional logistic
B27 6.7 Nested CC + 6.8 Case-cohort
B28 6.9 Case-crossover

각 글이 위 절들의 수식과 직관을 깊이 다룬다.

11 관련 주제

WOO Ch.6 후속

다른 카테고리

Subscribe

Enjoy this blog? Get notified of new posts by email: