1 6.7 Nested Case-Control
대규모 cohort 안에서 결과 발생자(case) 와 그 시점의 위험 인구에서 매칭한 control 을 표집. 비싼 측정을 두 군에만 수행 (Woodward, 2014, Ch.6.7).
작동 흐름:
- Cohort 등록 시 모든 참여자의 자료·표본(혈액·DNA) 채취·동결.
- 추적 종료 후 결과 발생자(case) 식별.
- 각 case 발생 시점 (또는 추적 종료 시점) 에 비-case 에서 매칭 control 선정.
- Case + matched control 에서만 비싼 측정 수행.
- Conditional logistic 으로 OR 분석.
1.1 강점
- 추상: Cohort 의 시간 구조 + case-control 의 효율을 결합.
- 일상어 비유: 도서관에서 한 권을 읽기 전에 모든 책 표지 사진을 찍어두고, 나중에 흥미 가는 책 + 비교군 몇 권만 깊이 읽음.
- 반사실: 모든 cohort 구성원에게 비싼 측정 수행했다면 비용 폭증.
4 가지 강점:
- 시간 선후 자동 보장 — 표본은 결과 발생 전 cohort 등록 시 채취.
- 비용 절감 — 비싼 측정을 case + control 에만.
- Recall bias 회피 — 표본은 등록 시 채취, 사후 회상 의존 없음.
- OR ≈ IRR (희귀 결과 가정 불필요) — Risk-set 매칭이라 incidence-density CC 의 성격.
1.2 분석 — Conditional Logistic 또는 Cox 부분 가능도
각 case 발생 시점의 risk set 안에서 case + matched controls 의 likelihood. Cox 의 partial likelihood 와 같은 형태.
\[ L = \prod_{i: \text{case}} \frac{\exp(\beta^T X_i)}{\sum_{j \in R_i} \exp(\beta^T X_j)} \]
여기서 \(R_i\) 는 시점 \(t_i\) 의 risk set (case + matched controls).
1.3 사례 — 미토콘드리아 DNA 와 전립선암 (Moore et al., 2017)
시나리오: 대규모 검진 시험 (수만 명).
- 모든 참여자의 baseline 혈액 채취·동결.
- 추적 후 전립선암 발병 800 명 (case).
- 비-발병자에서 매칭 control 800 명 선정.
- 1,600 명만 미토콘드리아 DNA 추출 (PCR).
비용 절감: 만 명 측정 대비 84% 절감 (1,600/10,000).
3 단계 직관:
- 추상: 결과 발생자 + 매칭 control 만 측정 → 측정 수가 (case 수) × (1+k) 에 비례. 전체 cohort 의 small fraction.
- 일상어 비유: 신약 효과를 측정하기 위해 모든 참여자 추가 검진하지 않고, 결과 발생자 + 매칭자만 추가 검진.
- 반사실: Full cohort 측정 → 더 많은 정보 (전체 dose-response 곡선) 이지만 비용 폭증. Nested CC 가 90% 정확도를 10% 비용으로 달성.
1.4 다른 사례
- 자궁 내 차원과 IUD 제거 (Liang et al., 2014): 초음파 측정을 case + control 에만.
- 폐기능과 폐암 (Maldonado et al., 2010): Spirometry 를 case + control 에만.
1.5 Nested CC 와 Case-Cohort 의 차이
| 측면 | Nested CC | Case-Cohort |
|---|---|---|
| Control 표집 시점 | 각 case 발생 시점 또는 추적 종료 | Cohort baseline (사건 무관) |
| Control 자격 | 비-case (사건 발생 전 시점) | 모든 baseline 등록자 |
| 분석 | Conditional logistic 또는 Cox | Prentice 가중 또는 Cox 변형 |
| 다중 결과 분석 | 각 결과별 새 control 풀 | 같은 sub-cohort 재사용 |
2 6.8 Case-Cohort
- Cases: Cohort 의 모든 결과 발생자.
- Sub-cohort: Baseline 시점 random sample (사건 발생 여부 무관).
(Prentice, 1986; Woodward, 2014, Ch.6.8).
Sub-cohort 의 일부가 case 가 될 수 있음 — 그들은 case 와 sub-cohort 양쪽에 나타남.
2.1 작동 흐름
Cohort 등록 (N = 10,000)
↓
Baseline 시점에 random sub-cohort 표집 (n_sub = 500)
↓
모든 cohort 구성원의 결과 추적
↓
결과 발생자 식별 (case = 200, 일부는 sub-cohort 안에)
↓
Case + sub-cohort 의 노출 측정
↓
Prentice 가중 로지스틱 또는 Cox 변형 분석
2.2 Case-Cohort 의 강점
- 추상: Sub-cohort 가 baseline 의 random sample → 모든 결과의 분석에 동일 sub-cohort 재사용.
- 일상어 비유: 한 회사의 인사 데이터에서 random 100 명을 baseline 으로 표집 → 다음 5 년간 발생할 어떤 사건 (퇴사·승진·이직) 의 분석에도 같은 100 명 사용.
- 반사실: Nested CC 라면 각 결과별 새 control 풀 표집 필요. Case-cohort 는 효율 ↑.
2.3 Prentice 가중 — 분석의 통계적 기초
Sub-cohort 안의 case 와 sub-cohort 외의 case 를 다른 가중치로 처리.
\[ L = \prod_{i: \text{case outside sub-cohort}} \frac{\exp(\beta^T X_i)}{\sum_{j \in \tilde R_i} \exp(\beta^T X_j)} \]
여기서 \(\tilde R_i\) 는 sub-cohort 멤버 중 시점 \(t_i\) 의 위험 인구 (case 자신은 제외하거나 포함).
세부 변형: Prentice, Self-Prentice, Barlow 가중 등.
2.4 Schoenbach et al. 의 사례 — Multiple Outcomes
가설: 한 cohort 에서 흡연-폐암 + 흡연-심장병 + 흡연-기종 의 3 결과 분석.
- Nested CC: 결과 3 개 × 새 control 풀 → 3 회 표집.
- Case-Cohort: 1 개 sub-cohort 를 모든 결과에 재사용 → 1 회 표집.
후자가 효율 ↑.
2.5 Case-Cohort 의 약점
Case-cohort 의 sub-cohort 는 random — 매칭 안 함. 따라서 confounder 통제는 회귀로만.
3 단계 직관:
- 추상: 매칭 없으므로 sub-cohort 의 분포가 cohort 평균. 각 case 는 매칭 control 을 갖지 않음.
- 일상어 비유: Sub-cohort = 학교 random sample. 각 case 와 같은 학년·학교의 매칭 control 이 보장되지 않음.
- 반사실: Nested CC 의 매칭이 strong confounder 통제에 더 효율. Case-cohort 는 회귀 보정의 부담 ↑.
3 두 변형 설계의 통합 비교
| 측면 | Nested CC | Case-Cohort |
|---|---|---|
| Control 표집 | Risk-set 매칭 | Random sub-cohort |
| 매칭 변수 | 가능 | 없음 (회귀 보정) |
| 분석 | Conditional logistic | Prentice 가중 Cox |
| Multiple outcomes | 비효율 (재표집) | 효율 (재사용) |
| 비용 절감 | 큼 | 큼 |
| 시간 선후 보장 | O | O |
| 적합 상황 | Strong confounder + 단일 결과 | 다중 결과 + baseline 표본 풍부 |
4 IT 대응 — Nested CC 와 Case-Cohort
| 도메인 | 대응 |
|---|---|
| Nested CC | 사기 거래 (case) + risk-set 매칭 정상 거래 (control) 의 인적 검토 |
| Case-Cohort | 사용자 random sample (sub-cohort) → 다중 결과 (이탈, 결제, 광고 클릭) 분석에 재사용 |
5 결론
Nested CC 와 case-cohort 는 cohort 의 비싼 측정 비용을 줄이는 도구. 단일 결과 + strong confounder 면 nested CC, 다중 결과 + baseline 자산 이면 case-cohort. 두 설계 모두 시간 선후 보장과 recall bias 회피의 강점.
다음 글(B28)에서는 같은 사람의 within-person 비교 — case-crossover 를 본다.