Kwangmin Kim - Nested Case-Control 과 Case-Cohort

1 6.7 Nested Case-Control

정의: Nested Case-Control

대규모 cohort 안에서 결과 발생자(case) 와 그 시점의 위험 인구에서 매칭한 control 을 표집. 비싼 측정을 두 군에만 수행 (Woodward, 2014, Ch.6.7).

작동 흐름:

Cohort 등록 시 모든 참여자의 자료·표본(혈액·DNA) 채취·동결.
추적 종료 후 결과 발생자(case) 식별.
각 case 발생 시점 (또는 추적 종료 시점) 에 비-case 에서 매칭 control 선정.
Case + matched control 에서만 비싼 측정 수행.
Conditional logistic 으로 OR 분석.

1.1 강점

직관 3 단계: Nested CC 의 4 가지 강점

추상: Cohort 의 시간 구조 + case-control 의 효율을 결합.
일상어 비유: 도서관에서 한 권을 읽기 전에 모든 책 표지 사진을 찍어두고, 나중에 흥미 가는 책 + 비교군 몇 권만 깊이 읽음.
반사실: 모든 cohort 구성원에게 비싼 측정 수행했다면 비용 폭증.

4 가지 강점:

시간 선후 자동 보장 — 표본은 결과 발생 전 cohort 등록 시 채취.
비용 절감 — 비싼 측정을 case + control 에만.
Recall bias 회피 — 표본은 등록 시 채취, 사후 회상 의존 없음.
OR ≈ IRR (희귀 결과 가정 불필요) — Risk-set 매칭이라 incidence-density CC 의 성격.

1.2 분석 — Conditional Logistic 또는 Cox 부분 가능도

각 case 발생 시점의 risk set 안에서 case + matched controls 의 likelihood. Cox 의 partial likelihood 와 같은 형태.

\[ L = \prod_{i: \text{case}} \frac{\exp(\beta^T X_i)}{\sum_{j \in R_i} \exp(\beta^T X_j)} \]

여기서 \(R_i\) 는 시점 \(t_i\) 의 risk set (case + matched controls).

1.3 사례 — 미토콘드리아 DNA 와 전립선암 (Moore et al., 2017)

사례: 검진 시험 안의 Nested CC

시나리오: 대규모 검진 시험 (수만 명).

모든 참여자의 baseline 혈액 채취·동결.
추적 후 전립선암 발병 800 명 (case).
비-발병자에서 매칭 control 800 명 선정.
1,600 명만 미토콘드리아 DNA 추출 (PCR).

비용 절감: 만 명 측정 대비 84% 절감 (1,600/10,000).

3 단계 직관:

추상: 결과 발생자 + 매칭 control 만 측정 → 측정 수가 (case 수) × (1+k) 에 비례. 전체 cohort 의 small fraction.
일상어 비유: 신약 효과를 측정하기 위해 모든 참여자 추가 검진하지 않고, 결과 발생자 + 매칭자만 추가 검진.
반사실: Full cohort 측정 → 더 많은 정보 (전체 dose-response 곡선) 이지만 비용 폭증. Nested CC 가 90% 정확도를 10% 비용으로 달성.

1.4 다른 사례

자궁 내 차원과 IUD 제거 (Liang et al., 2014): 초음파 측정을 case + control 에만.
폐기능과 폐암 (Maldonado et al., 2010): Spirometry 를 case + control 에만.

1.5 Nested CC 와 Case-Cohort 의 차이

측면	Nested CC	Case-Cohort
Control 표집 시점	각 case 발생 시점 또는 추적 종료	Cohort baseline (사건 무관)
Control 자격	비-case (사건 발생 전 시점)	모든 baseline 등록자
분석	Conditional logistic 또는 Cox	Prentice 가중 또는 Cox 변형
다중 결과 분석	각 결과별 새 control 풀	같은 sub-cohort 재사용

2 6.8 Case-Cohort

정의: Case-Cohort

Cases: Cohort 의 모든 결과 발생자.
Sub-cohort: Baseline 시점 random sample (사건 발생 여부 무관).

(Prentice, 1986; Woodward, 2014, Ch.6.8).

Sub-cohort 의 일부가 case 가 될 수 있음 — 그들은 case 와 sub-cohort 양쪽에 나타남.

2.1 작동 흐름

Cohort 등록 (N = 10,000)
   ↓
Baseline 시점에 random sub-cohort 표집 (n_sub = 500)
   ↓
모든 cohort 구성원의 결과 추적
   ↓
결과 발생자 식별 (case = 200, 일부는 sub-cohort 안에)
   ↓
Case + sub-cohort 의 노출 측정
   ↓
Prentice 가중 로지스틱 또는 Cox 변형 분석

2.2 Case-Cohort 의 강점

직관 3 단계: Case-Cohort 의 multiple outcomes 활용

추상: Sub-cohort 가 baseline 의 random sample → 모든 결과의 분석에 동일 sub-cohort 재사용.
일상어 비유: 한 회사의 인사 데이터에서 random 100 명을 baseline 으로 표집 → 다음 5 년간 발생할 어떤 사건 (퇴사·승진·이직) 의 분석에도 같은 100 명 사용.
반사실: Nested CC 라면 각 결과별 새 control 풀 표집 필요. Case-cohort 는 효율 ↑.

2.3 Prentice 가중 — 분석의 통계적 기초

정의: Prentice Weighting

Sub-cohort 안의 case 와 sub-cohort 외의 case 를 다른 가중치로 처리.

\[ L = \prod_{i: \text{case outside sub-cohort}} \frac{\exp(\beta^T X_i)}{\sum_{j \in \tilde R_i} \exp(\beta^T X_j)} \]

여기서 \(\tilde R_i\) 는 sub-cohort 멤버 중 시점 \(t_i\) 의 위험 인구 (case 자신은 제외하거나 포함).

세부 변형: Prentice, Self-Prentice, Barlow 가중 등.

2.4 Schoenbach et al. 의 사례 — Multiple Outcomes

가설: 한 cohort 에서 흡연-폐암 + 흡연-심장병 + 흡연-기종 의 3 결과 분석.

Nested CC: 결과 3 개 × 새 control 풀 → 3 회 표집.
Case-Cohort: 1 개 sub-cohort 를 모든 결과에 재사용 → 1 회 표집.

후자가 효율 ↑.

2.5 Case-Cohort 의 약점

가정 위반: 매칭 부재

Case-cohort 의 sub-cohort 는 random — 매칭 안 함. 따라서 confounder 통제는 회귀로만.