Nested Case-Control 과 Case-Cohort

Woodward Ch.6.7~6.8 — 두 가지 효율적 변형 설계

Cohort 안에 case-control 을 배태하는 두 변형 설계: nested case-control (비-case 에서 매칭 control), case-cohort (baseline 시점 sub-cohort 를 control). 각 설계의 분석 (conditional logistic vs Prentice 가중)과 다중 결과 분석에서의 trade-off 를 추상 → 일상어 → 반사실 3 단계 직관으로 본다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 6.7 Nested Case-Control

정의: Nested Case-Control

대규모 cohort 안에서 결과 발생자(case) 와 그 시점의 위험 인구에서 매칭한 control 을 표집. 비싼 측정을 두 군에만 수행 (Woodward, 2014, Ch.6.7).

작동 흐름:

  1. Cohort 등록 시 모든 참여자의 자료·표본(혈액·DNA) 채취·동결.
  2. 추적 종료 후 결과 발생자(case) 식별.
  3. 각 case 발생 시점 (또는 추적 종료 시점) 에 비-case 에서 매칭 control 선정.
  4. Case + matched control 에서만 비싼 측정 수행.
  5. Conditional logistic 으로 OR 분석.

1.1 강점

직관 3 단계: Nested CC 의 4 가지 강점
  • 추상: Cohort 의 시간 구조 + case-control 의 효율을 결합.
  • 일상어 비유: 도서관에서 한 권을 읽기 전에 모든 책 표지 사진을 찍어두고, 나중에 흥미 가는 책 + 비교군 몇 권만 깊이 읽음.
  • 반사실: 모든 cohort 구성원에게 비싼 측정 수행했다면 비용 폭증.

4 가지 강점:

  1. 시간 선후 자동 보장 — 표본은 결과 발생 전 cohort 등록 시 채취.
  2. 비용 절감 — 비싼 측정을 case + control 에만.
  3. Recall bias 회피 — 표본은 등록 시 채취, 사후 회상 의존 없음.
  4. OR ≈ IRR (희귀 결과 가정 불필요) — Risk-set 매칭이라 incidence-density CC 의 성격.

1.2 분석 — Conditional Logistic 또는 Cox 부분 가능도

각 case 발생 시점의 risk set 안에서 case + matched controls 의 likelihood. Cox 의 partial likelihood 와 같은 형태.

\[ L = \prod_{i: \text{case}} \frac{\exp(\beta^T X_i)}{\sum_{j \in R_i} \exp(\beta^T X_j)} \]

여기서 \(R_i\) 는 시점 \(t_i\) 의 risk set (case + matched controls).

1.3 사례 — 미토콘드리아 DNA 와 전립선암 (Moore et al., 2017)

사례: 검진 시험 안의 Nested CC

시나리오: 대규모 검진 시험 (수만 명).

  • 모든 참여자의 baseline 혈액 채취·동결.
  • 추적 후 전립선암 발병 800 명 (case).
  • 비-발병자에서 매칭 control 800 명 선정.
  • 1,600 명만 미토콘드리아 DNA 추출 (PCR).

비용 절감: 만 명 측정 대비 84% 절감 (1,600/10,000).

3 단계 직관:

  • 추상: 결과 발생자 + 매칭 control 만 측정 → 측정 수가 (case 수) × (1+k) 에 비례. 전체 cohort 의 small fraction.
  • 일상어 비유: 신약 효과를 측정하기 위해 모든 참여자 추가 검진하지 않고, 결과 발생자 + 매칭자만 추가 검진.
  • 반사실: Full cohort 측정 → 더 많은 정보 (전체 dose-response 곡선) 이지만 비용 폭증. Nested CC 가 90% 정확도를 10% 비용으로 달성.

1.4 다른 사례

  • 자궁 내 차원과 IUD 제거 (Liang et al., 2014): 초음파 측정을 case + control 에만.
  • 폐기능과 폐암 (Maldonado et al., 2010): Spirometry 를 case + control 에만.

1.5 Nested CC 와 Case-Cohort 의 차이

측면 Nested CC Case-Cohort
Control 표집 시점 각 case 발생 시점 또는 추적 종료 Cohort baseline (사건 무관)
Control 자격 비-case (사건 발생 전 시점) 모든 baseline 등록자
분석 Conditional logistic 또는 Cox Prentice 가중 또는 Cox 변형
다중 결과 분석 각 결과별 새 control 풀 같은 sub-cohort 재사용

2 6.8 Case-Cohort

정의: Case-Cohort
  • Cases: Cohort 의 모든 결과 발생자.
  • Sub-cohort: Baseline 시점 random sample (사건 발생 여부 무관).

(Prentice, 1986; Woodward, 2014, Ch.6.8).

Sub-cohort 의 일부가 case 가 될 수 있음 — 그들은 case 와 sub-cohort 양쪽에 나타남.

2.1 작동 흐름

Cohort 등록 (N = 10,000)
   ↓
Baseline 시점에 random sub-cohort 표집 (n_sub = 500)
   ↓
모든 cohort 구성원의 결과 추적
   ↓
결과 발생자 식별 (case = 200, 일부는 sub-cohort 안에)
   ↓
Case + sub-cohort 의 노출 측정
   ↓
Prentice 가중 로지스틱 또는 Cox 변형 분석

2.2 Case-Cohort 의 강점

직관 3 단계: Case-Cohort 의 multiple outcomes 활용
  • 추상: Sub-cohort 가 baseline 의 random sample → 모든 결과의 분석에 동일 sub-cohort 재사용.
  • 일상어 비유: 한 회사의 인사 데이터에서 random 100 명을 baseline 으로 표집 → 다음 5 년간 발생할 어떤 사건 (퇴사·승진·이직) 의 분석에도 같은 100 명 사용.
  • 반사실: Nested CC 라면 각 결과별 새 control 풀 표집 필요. Case-cohort 는 효율 ↑.

2.3 Prentice 가중 — 분석의 통계적 기초

정의: Prentice Weighting

Sub-cohort 안의 case 와 sub-cohort 외의 case 를 다른 가중치로 처리.

\[ L = \prod_{i: \text{case outside sub-cohort}} \frac{\exp(\beta^T X_i)}{\sum_{j \in \tilde R_i} \exp(\beta^T X_j)} \]

여기서 \(\tilde R_i\) 는 sub-cohort 멤버 중 시점 \(t_i\) 의 위험 인구 (case 자신은 제외하거나 포함).

세부 변형: Prentice, Self-Prentice, Barlow 가중 등.

2.4 Schoenbach et al. 의 사례 — Multiple Outcomes

가설: 한 cohort 에서 흡연-폐암 + 흡연-심장병 + 흡연-기종 의 3 결과 분석.

  • Nested CC: 결과 3 개 × 새 control 풀 → 3 회 표집.
  • Case-Cohort: 1 개 sub-cohort 를 모든 결과에 재사용 → 1 회 표집.

후자가 효율 ↑.

2.5 Case-Cohort 의 약점

가정 위반: 매칭 부재

Case-cohort 의 sub-cohort 는 random — 매칭 안 함. 따라서 confounder 통제는 회귀로만.

3 단계 직관:

  • 추상: 매칭 없으므로 sub-cohort 의 분포가 cohort 평균. 각 case 는 매칭 control 을 갖지 않음.
  • 일상어 비유: Sub-cohort = 학교 random sample. 각 case 와 같은 학년·학교의 매칭 control 이 보장되지 않음.
  • 반사실: Nested CC 의 매칭이 strong confounder 통제에 더 효율. Case-cohort 는 회귀 보정의 부담 ↑.

3 두 변형 설계의 통합 비교

측면 Nested CC Case-Cohort
Control 표집 Risk-set 매칭 Random sub-cohort
매칭 변수 가능 없음 (회귀 보정)
분석 Conditional logistic Prentice 가중 Cox
Multiple outcomes 비효율 (재표집) 효율 (재사용)
비용 절감
시간 선후 보장 O O
적합 상황 Strong confounder + 단일 결과 다중 결과 + baseline 표본 풍부

4 IT 대응 — Nested CC 와 Case-Cohort

도메인 대응
Nested CC 사기 거래 (case) + risk-set 매칭 정상 거래 (control) 의 인적 검토
Case-Cohort 사용자 random sample (sub-cohort) → 다중 결과 (이탈, 결제, 광고 클릭) 분석에 재사용

5 결론

Nested CC 와 case-cohort 는 cohort 의 비싼 측정 비용을 줄이는 도구. 단일 결과 + strong confounder 면 nested CC, 다중 결과 + baseline 자산 이면 case-cohort. 두 설계 모두 시간 선후 보장과 recall bias 회피의 강점.

다음 글(B28)에서는 같은 사람의 within-person 비교 — case-crossover 를 본다.

6 관련 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: