1 왜 두 번째 lens 가 필요한가
Schulz Ch.5~6 (B15~B22) 가 case-control 의 임상·실무 시각이라면, Woodward Ch.6 은 통계학자의 시각이다. 강조점이 다음으로 이동한다.
- OR 의 수식적 정당화 — 왜 OR 이 cumulative case-control 의 자연 추정량인가.
- 분석 도구의 통일 — MH, logistic, conditional logistic 의 수식적 관계.
- 매칭의 정당화 — 매칭이 검정력에 어떻게 영향, 분석은 왜 conditional 이어야 하는가.
- 변형 설계의 식별 — Nested CC, case-cohort, case-crossover 의 수식적 정당화.
[Cumulative case-control]
- 결과 발생 기간 종료 후 cases 와 controls 표집.
- OR 추정. 희귀 결과 가정 (< 5%) 시 OR ≈ RR.
[Incidence-density / Risk-set case-control]
- 각 case 발생 시점에 그 시점의 위험 인구에서 control 매칭.
- OR = IRR (incidence rate ratio). 희귀 결과 가정 불필요.
(Woodward, 2014, Ch.6.1; Rothman, 2017).
3 단계 직관:
- 추상: Cumulative 은 시간 차원 무시 (모든 사건을 한 시점에 종료 후 비교), risk-set 은 시간 차원 보존 (각 사건 시점에 비교).
- 일상어 비유: 마라톤 끝의 전체 결과 비교 vs 매 km 의 위치 비교. 후자가 시간 차원 풍부.
- 반사실: 사건이 흔하면 cumulative OR 이 RR 에서 멀어짐. Risk-set 은 이 한계 회피.
2 Ch.6 의 9 절 구조
WOO Ch.6 — Case-Control Studies (통계 lens)
│
├── 6.1 Design → B24
├── 6.2 Analysis methods → B24
├── 6.3 Selection of cases → B25
├── 6.4 Selection of controls → B25
├── 6.5 Matching → B26
├── 6.6 Analysis of matched studies → B26
├── 6.7 Nested case-control → B27
├── 6.8 Case-cohort → B27
└── 6.9 Case-crossover → B28
3 6.1~6.2 — 설계와 분석 (B24)
3.1 OR 의 수식적 기초
| Exposed (X=1) | Unexposed (X=0) | |
|---|---|---|
| Cases (Y=1) | \(a\) | \(b\) |
| Controls (Y=0) | \(c\) | \(d\) |
\[ \hat{\text{OR}} = \frac{ad}{bc} \]
95% Wald CI (대표본): \[ \hat{\text{OR}} \cdot \exp\left( \pm 1.96 \sqrt{1/a + 1/b + 1/c + 1/d} \right) \]
- 추상: Cumulative CC 에서 표집은 결과 기준이라 marginal P(X) 추정 불가. 그러나 conditional P(X|Y=0) 와 P(X|Y=1) 추정 가능 → 두 비율의 odds 비가 자연 추정량.
- 일상어 비유: 합격자 100 명 + 불합격자 200 명만 모았을 때 “합격자의 X 비율” 과 “불합격자의 X 비율” 비교 가능. 전체 인구의 합격률은 알 수 없음.
- 반사실: Cohort 는 마진 P(Y) 직접 추정 가능 → RR. CC 는 이 정보 손실의 trade-off.
3.2 Mantel-Haenszel — Confounder 통제
각 stratum \(s\) 의 OR 가중 평균: \[ \text{OR}_{\text{MH}} = \frac{\sum_s a_s d_s / n_s}{\sum_s b_s c_s / n_s} \]
각 stratum 안에서 confounder 가 동질이라면 → 보정된 OR.
3.3 Logistic Regression — 다중 변수
\[ \text{logit}(P(Y=1 \mid \mathbf{X})) = \beta_0 + \beta_X X + \boldsymbol{\beta}_Z^T \mathbf{Z} \]
$(_X) = $ Z 보정된 OR. 다중 confounder 동시 보정.
- 추상: MH 는 비모수 stratification, logistic 은 모수 회귀. 단일 confounder 라면 거의 동일 결과.
- 일상어 비유: MH 는 학교별 점수 평균을 가중 평균, logistic 은 학교 dummy + 추가 변수 회귀. 학교만 보정한다면 결과 비슷.
- 반사실: 다중 confounder + 연속 변수 + 상호작용이라면 logistic 필수. MH 는 strata 가 너무 많아 셀이 비면 작동 어려움.
4 6.3~6.4 — Cases 와 Controls 선정 (B25)
Schulz Ch.5~6 의 임상 가이드라인을 통계 lens 로 재정립.
- Incident vs prevalent cases: Incident 우선 — 진단 시점 분포 좁고 정의 일관.
- Population-based vs hospital-based: 인구 기반 우선.
- Multiple control groups: 결과 강건성 점검.
- Selection bias 의 수학: \(E[\hat{OR}] = OR \cdot \text{bias factor}\). Bias factor 는 control selection probability 의 노출 의존성.
5 6.5~6.6 — 매칭과 매칭 분석 (B26)
5.1 매칭의 동기
매칭은 confounder 의 분포를 cases 와 controls 에 동일하게 맞춤. 그러나:
- Confounder 가 진성 confounder (Y 와 강한 상관)일 때만 검정력 ↑.
- Confounder 가 노출과 강한 상관이면 overmatching → 검정력 ↓.
3 단계 직관:
- 추상: \(\text{Var}(\hat{OR})\) 가 confounder 분산의 함수. Confounder 의 효과를 “꺼버림” → noise 감소.
- 일상어 비유: 두 그룹 비교에서 키가 confounder 면 같은 키대로 매칭 → 키 효과 제거 → 진성 차이 부각.
- 반사실: Confounder 가 mediator 면 매칭하면 노출 효과 자체 사라짐 → overmatching 함정.
5.2 Matched Analysis — McNemar’s Test
매칭된 자료는 paired 분석.
매칭된 case-control 쌍의 노출 표.
| Control X=1 | Control X=0 | |
|---|---|---|
| Case X=1 | \(f_{11}\) | \(f_{10}\) |
| Case X=0 | \(f_{01}\) | \(f_{00}\) |
검정 통계량: \[ \chi^2 = \frac{(f_{10} - f_{01})^2}{f_{10} + f_{01}} \]
자유도 1 의 \(\chi^2\) 분포.
OR 추정: \[ \hat{\text{OR}}_{\text{matched}} = \frac{f_{10}}{f_{01}} \]
5.3 직관 — 왜 paired 분석인가
- 추상: \(f_{11}\) (둘 다 노출) 와 \(f_{00}\) (둘 다 비노출) 은 OR 정보 없음 (concordant). \(f_{10}, f_{01}\) (discordant) 만이 OR 정보 보유.
- 일상어 비유: 쌍둥이 비교에서 둘 다 흡연 또는 둘 다 비흡연인 쌍은 흡연 효과 비교 안 됨. 한 명만 흡연하는 쌍에서만 효과 분리.
- 반사실: Discordant pair 가 작으면 검정력 ↓. Sample size 계산도 discordant 수 기준.
5.4 Conditional Logistic Regression
다중 confounder 가 있는 매칭 자료의 회귀.
\[ \text{logit}(P(Y=1 \mid \mathbf{X}, \text{stratum})) = \alpha_s + \boldsymbol{\beta}^T \mathbf{X} \]
각 stratum (매칭 집합) 의 baseline \(\alpha_s\) 가 자유롭게 변하도록.
6 6.7 — Nested Case-Control (B27)
Cohort 안에 case-control 을 배태.
작동 흐름:
- Cohort 등록 시 모든 참여자의 자료·표본 수집.
- 추적 종료 후 case 식별.
- 같은 cohort 의 비-case 에서 매칭 control 선정.
- Case + control 에서만 비싼 측정 수행.
강점: - 시간 선후 자동 보장 (cohort 의 강점 계승). - 비싼 측정의 비용 절감. - 이론적 OR ≈ IRR (희귀 결과 가정 불필요).
상세 분석은 B27 에서.
7 6.8 — Case-Cohort
Cohort 의 sub-cohort 를 control 로.
- Cases: Cohort 안의 모든 결과 발생자.
- Controls: Cohort 의 baseline 시점 random sub-cohort (사건 발생 여부 무관).
Nested CC 와의 차이: Nested CC 는 비-case 에서 control 표집, case-cohort 는 baseline 전체에서 표집.
- 추상: Sub-cohort 를 한 번 표집하면 여러 결과 (multiple outcomes) 의 분석에 동일 sub-cohort 사용 가능.
- 일상어 비유: 도서관에서 한 번에 100 권을 random 선정한 후 이 100 권을 다양한 비교의 baseline 으로 재사용.
- 반사실: Nested CC 는 결과별로 control 표집이 새로 필요. Case-cohort 는 multiple outcomes 분석에 효율.
8 6.9 — Case-Crossover
같은 사람의 결과 발생 직전 시점 (case period) 와 다른 시점 (control period) 에서 노출 비교 (Maclure, 1991; Woodward, 2014, Ch.6.9).
적합 상황: - 시간에 따라 변하는 노출 (acute exposure). - 결과가 short-term 변화 (예: 심근경색, 사고).
예시: 휴대폰 통화 직전 운전 사고. 운전 중 통화 (case period) vs 같은 운전자의 다른 시점 통화 (control period).
- 추상: 각 사람의 case period 와 control period 의 노출 odds 비. 매칭이 자동 (같은 사람) → 시간 불변 confounder (성격, 유전, SES) 자동 통제.
- 일상어 비유: 한 학생의 시험 직전 공부 시간 vs 평소 공부 시간 비교. 학생의 평균 능력은 자동 통제.
- 반사실: 노출이 time-invariant (예: 평생 흡연) 라면 case-crossover 적용 불가 — 노출이 모든 시점에서 같음.
9 Schulz vs Woodward — 시각의 보완
| 측면 | Schulz Ch.5~6 | Woodward Ch.6 |
|---|---|---|
| 강조 | Control 선정의 임상 가이드 | 매칭의 통계 정당화 |
| 도구 | Memory aids, blinding | McNemar, conditional logistic |
| 변형 설계 | 간략 | 깊이 (nested, case-cohort, case-crossover) |
| 사례 | 의학 (NSAID, AIDS, 흡연) | 통계 (OR 추정, sample size) |
두 시각이 합쳐져야 case-control 의 완전한 그림이 나온다.
10 결론 — Ch.6 시리즈 길잡이
| 글 | 주제 |
|---|---|
| B23 (이 글) | Overview |
| B24 | 6.1 Design + 6.2 Analysis (OR, MH, Logistic) |
| B25 | 6.3 Cases + 6.4 Controls 선정 |
| B26 | 6.5 Matching + 6.6 McNemar, conditional logistic |
| B27 | 6.7 Nested CC + 6.8 Case-cohort |
| B28 | 6.9 Case-crossover |
각 글이 위 절들의 수식과 직관을 깊이 다룬다.
11 관련 주제
WOO Ch.6 후속
- 1111-11-11, 설계와 분석 방법
- 1111-11-11, Cases·Controls 선정 통계 lens
- 1111-11-11, 매칭과 매칭 분석
- 1111-11-11, Nested case-control + Case-cohort
- 1111-11-11, Case-crossover
다른 카테고리
- Effect Measures — OR/RR/IRR 통합