1 들어가며 — 가장 흔한 분석 역학 설계
Cohort 가 노출에서 결과로 흐른다면, case-control 은 결과에서 노출로 흐른다. Schulz 의 Ch.5 부제 “Research in Reverse” 가 그 정체성을 한마디로 압축한다 (Schulz & Grimes, 2019, Ch.5).
결과(outcome) 를 기준으로 두 군을 정의하고, 각 군에서 과거 노출(exposure) 빈도를 비교하는 연구 (Schulz & Grimes, 2019, Ch.5).
- 역학: Case-Control Study (cumulative case-control 또는 incidence-density case-control)
- IT/실험: Reverse-engineered analysis — 결과 발생자(전환자, 이탈자, 사기 거래자) vs 미발생자에서 과거 행동 비교
핵심 지표: Odds Ratio (OR). Cohort 의 RR/IR 이 산출되지 않는다 — 결과 발생자만 sample 했으므로 분모(at-risk population)를 모른다.
3 단계 직관:
- 추상: \(P(X \mid Y=1)\) 와 \(P(X \mid Y=0)\) 를 비교 (Bayes 의 likelihood). \(P(Y=1 \mid X)\) 가 아님.
- 일상어 비유: 사고 사망자 부검에서 안전벨트 착용 여부를 조사 (case) vs 정상 운전자에서 안전벨트 착용 비율 (control). “사고를 당한 사람이 안 매고 있었을 odds” 를 계산.
- 반사실: Cohort 처럼 출발점에서 시작하지 않으므로 누가 위험에 있었는지 모른다. 따라서 RR 직접 산출 불가. 단, 희귀 결과(< 5%) 가정 하에 OR ≈ RR.
2 왜 이렇게 흔한가 — 효율성
분석 역학 연구에서 가장 자주 사용되는 설계다 (van Stralen et al., 2010). 이유는 단순하다 — 빠르고 싸다.
| 시간 | 비용 | 노력 |
|---|---|---|
| Cohort < case-control < cross-sectional 보다 빠름 | 추적 비용 없음 | 사례군 모집 + 회고 노출 측정 |
- 추상: 발생률 5/100,000/yr 인 결과를 cohort 로 잡으려면 200,000 명 × 10 년 추적 필요 (사건 100 건 확보).
- 일상어 비유: 도서관에서 희귀본 1 권을 찾기 위해 모든 서가를 뒤지는 vs 이미 식별된 희귀본 옆에 다른 책을 놓아 비교. 후자가 빠르다.
- 반사실: 발생률이 높으면 (예: 흔한 감기 같은 결과) cohort 가 더 효율적. 결과 발생률 vs 노출 prevalence 의 비교가 효율 결정.
Sackett 의 경고: 그러나 case-control 은 “easier to do, easier to do wrong”다. Schulz 가 인용하는 David Sackett 의 사적 발언 — “I would trust only six people in the world to do a proper case-control study” (2001). 효율의 대가가 편향에의 취약성.
Rothman 의 경고: “Many studies have been conducted by would-be investigators who lack even a rudimentary appreciation for epidemiological principles … often the results are wrong because basic research principles have been violated” (Rothman, 1986).
3 다양한 응용 분야 — Panel 5.1
Schulz 가 PubMed 검색으로 정리한 case-control 응용 사례 (Ch.5, Panel 5.1) — 24 가지 다양한 노출-결과 쌍.
| 노출 | 결과 |
|---|---|
| 자궁근종 | 산후 출혈 |
| 모유 수유 | 백일해 (보호 효과) |
| 교대 근무 | 간호사에 대한 폭력 |
| 치주염 | 유방암 |
| 편두통 병력 | 뇌진탕 |
| 갑상선 저하증 | 비파열성 뇌동맥류 |
| 스타틴 | 다발성 신경병증 / 치매 |
| HPV | 자궁경부암 / 대장암 |
| 비타민 D | 소아 골절 |
| … | … |
이 다양함이 case-control 의 도구적 유연성을 보여준다 — 거의 모든 결과·노출 쌍에 적용 가능.
4 역사적 성공 — AIDS 의 인지
가설: AIDS 의 위험군과 위험 인자가 무엇인가? 바이러스(HIV-1)가 식별되기 전에도 case-control 이 핵심 답을 제공.
식별된 위험군: - 동성애 남성 - 정맥 약물 사용자 - 수혈 수혜자
식별된 위험 인자: - 다중 성 파트너 - 동성애 남성의 receptive anal intercourse - 콘돔 미사용
결과: 이 결과를 기반으로 혈액은행이 고위험자의 헌혈을 제한, 교육 프로그램 개시 → HIV-1 식별 전에도 전파 속도 큰 폭 감소.
3 단계 직관:
- 추상: 결과 (AIDS 환자) → 노출 (성 행동, 약물 사용) 회고 → 차이 식별. RCT 나 cohort 가 시간을 요구하는 동안 case-control 이 즉각적 단서 제공.
- 일상어 비유: 화재 후 현장 검증으로 발화 원인을 찾는 것 — 발화 자체를 RCT 로 재현할 수는 없다.
- 반사실: 만약 cohort 만 고집했다면 AIDS 진단 후 수년이 지난 뒤에야 위험 인자가 식별되었을 것이다. 그동안의 인명 손실이 추가됨. Case-control 의 시간 효율이 곧 공중보건의 시간 효율.
5 핵심 5 원칙 — Schulz 의 가이드
Schulz 는 case-control 보고를 평가하는 5 가지 원칙을 제시 (Ch.5 abstract).
Case-Control 5 원칙
│
├── 원칙 1: Case 정의의 명료성
├── 원칙 2: Control 의 같은 원천 인구 (source population) + 노출과 독립
├── 원칙 3: 데이터 수집자의 blinding (case/control 상태 모름)
├── 원칙 4: 회상 보조 도구 (memory aids) 로 cases·controls 균형
└── 원칙 5: Confounding 통제 (설계 단계 또는 분석 단계)
각 원칙은 case-control 의 특정 편향을 회피한다.
5.1 원칙 1 — Case 정의의 명료성
가설: “다발성 경화증 사례군” 을 모집하는데, 진단 기준이 명시되지 않았다. 일부는 명백한 임상 + MRI 확진, 일부는 의심 단계 (subjective symptoms only).
3 단계 직관:
- 추상: \(\text{Case} = \{X : X \text{ has outcome}\}\) 의 정의가 명확해야 함. 그렇지 않으면 case 군이 다른 질환을 포함.
- 일상어 비유: 경기 결과를 분류할 때 “이긴 팀 vs 진 팀” 정의가 명확해야. 무승부를 어디로 분류할지 모르면 분석이 흐려짐.
- 반사실: 흐린 case 정의는 다른 질환을 case 군에 섞어 노출-결과 연관을 희석 또는 위조. 후속 case-control 도 같은 흐린 정의를 물려받으면 인과 추론이 오염.
5.2 원칙 2 — Control 의 source population
가장 어려운 원칙. Control 은 case 가 발생한 같은 source population 에서 와야 하고, 노출과 독립이어야 한다.
Schulz 의 사례 (가상): cardiology ward 의 심근경색 환자를 case 로 + 같은 병원 ER 의 비-MI 환자를 control. 문제 — cardiology ward 는 주 전체 의뢰 센터, ER 은 시 한정. 두 군의 source population 다름.
구체적 편향: - 새 혈압약이 시 외 지역에 보급되지 않았다면 → cardiology ward 의 case 가 더 많이 노출 → OR ↑ (가짜) - 또는 약 부작용(졸음→사고)으로 ER 입원 → control 의 노출 ↑ → OR ↓ (가짜)
3 단계 직관:
- 추상: \(P(X \mid Y=0)\) 의 추정에 잘못된 source 사용 → background exposure rate 추정 편향.
- 일상어 비유: 한 동네 학교의 평균 키를 측정할 때 옆 동네 학교 학생을 control 로. 두 학교의 baseline 다른 만큼 비교 자체가 흐려짐.
- 반사실: Source population 일치 → control 이 case 가 발생한 인구의 노출 분포를 반영 → background exposure rate 의 정직한 추정.
5.3 원칙 3 — Blinding 데이터 수집자
데이터 수집자가 case/control 상태를 알면, case 에게 노출을 더 깊이 캐묻는 무의식적 차이가 발생.
3 단계 직관:
- 추상: \(E[X_{\text{measured}} \mid Y, \text{Interviewer aware}] \neq E[X_{\text{measured}} \mid Y]\). 측정 자체가 case 상태에 의존.
- 일상어 비유: 면접관이 후보의 합격 여부를 알고 인터뷰하면, 합격자에게 더 호의적 질문을 던질 수 있음.
- 반사실: Blinding (또는 hypothesis 만이라도 가림) → 측정의 비대칭 제거. 객관 자료원 (의무 기록 등) 사용도 대안.
5.4 원칙 4 — Recall Aid
Memory aid (사진, 다이어리, 달력) 가 cases 와 controls 의 회상을 같은 방식으로 자극.
유방암 case-control 연구. 지난 수십 년의 모든 경구피임약 색채 사진 앨범 + 빈 calendar grid 제공. 사용자가 “어느 약을 언제 사용했는지” 시각·시간 단서로 회상.
효과: case 와 control 모두에서 회상의 정확도 ↑, 차별 회상 ↓.
3 단계 직관:
- 추상: \(\text{Recall accuracy}_{\text{case}} = \text{Recall accuracy}_{\text{control}}\) 가 이상. Memory aid 가 두 군의 회상 베이스를 동등하게.
- 일상어 비유: 시험에서 모든 학생에게 같은 cheat sheet 를 제공하면, 학생 간 비교가 진성 능력 차이만 반영.
- 반사실: Aid 없으면 case 가 자기 진단의 원인을 회상하기 위해 더 깊이 떠올림 → 차별 회상 → recall bias.
5.5 원칙 5 — Confounding 통제
Cohort 와 마찬가지로 case-control 도 confounding 의 영향을 받는다.
통제 방법:
| 단계 | 방법 |
|---|---|
| 설계 | Restriction (특정 연령·성별만 모집), Matching (연령·성별로 case 와 control 짝지음) |
| 분석 | 다변량 logistic regression, Mantel-Haenszel stratification |
- 장점: 매칭 변수의 강한 confounding 통제. 검정력 ↑.
- 단점: 매칭 변수의 효과 자체를 추정 불가. Overmatching — 노출-결과 경로의 매개 변수를 매칭하면 효과 자체가 사라짐.
매칭은 confounding 통제 도구이지 “모든 변수를 같게” 하는 도구가 아니다 — 무엇을 매칭할지의 인과적 판단이 핵심.
6 Cumulative vs Incidence-Density Case-Control
- Cumulative case-control: 결과의 위험 기간 종료 후 case 와 control 표집. 희귀 결과 가정 (< 5%) 하에 OR ≈ RR.
- Incidence-density case-control (risk-set): 각 case 발생 시점에 그 시점의 위험 인구에서 control 을 매칭. 희귀 결과 가정 불필요. OR = IRR.
Schulz 가 다루는 것은 cumulative case-control. Risk-set 설계는 더 복잡하나 희귀 결과 가정에서 자유롭다 — Rothman (2017) 이 자세히 다룸.
7 약점 — 편향에의 취약
| 편향 | 메커니즘 | 회피 |
|---|---|---|
| Selection bias | Control 의 source population 불일치 | 같은 인구에서 표집 |
| Recall bias | Case 와 control 의 회상 차이 | Memory aid + 객관 자료원 |
| Interviewer bias | 데이터 수집자의 case 인지 | Blinding |
| Confounding | 미보정 교란 변수 | Matching/regression/MH |
| Berkson’s bias | 병원 기반 표집의 자기선택 | 인구 기반 표집 우선 |
Recall bias, selection bias 모두 OR 을 양 방향(과대 또는 과소)으로 밀 수 있다. AIDS 사례에서 STD 클리닉 control 은 OR 을 2.9 로 (실제 더 높을) 추정, neighbourhood control 은 52.0 으로 추정 — 동일 case 자료가 control 선정에 따라 18 배 차이.
8 응용 vs Cohort — 분업
| 측면 | Cohort | Case-Control |
|---|---|---|
| 효율 (희귀 결과) | 비효율 | 효율 |
| 효율 (희귀 노출) | 효율 | 비효율 |
| 시간 | 김 | 짧음 |
| 비용 | 큼 | 작음 |
| Recall bias | 약함 | 강함 |
| Selection bias | 약함 (RCT 가 아닌 한) | 강함 |
| 발생률 산출 | 가능 | 불가 (cumulative) |
| OR / RR | RR 직접 | OR (희귀 결과 시 RR 근사) |
| Multiple outcomes | 가능 | 1 결과 |
| Multiple exposures | 가능 | 가능 |
이 분업이 두 설계의 본질. 희귀 결과 + 다중 노출 + 빠른 답 이라면 case-control, 희귀 노출 + 다중 결과 + 발생률 이라면 cohort.
9 결론 — 5 원칙의 의미
Schulz 의 5 원칙은 case-control 보고를 평가하는 핵심 체크리스트다. 한 원칙이라도 약하면 OR 추정이 큰 폭으로 흔들릴 수 있다.
- Case 정의 명료성 — 다른 질환 섞임 방지.
- Control source 일치 + 노출 독립 — Selection bias 회피.
- Blinding — Interviewer bias 회피.
- Memory aid — Recall bias 회피.
- Confounding 통제 — 잔여 교란 회피.
다음 글(B16) 에서는 case-control 의 기본 설계와 강점·약점을, B17 에서는 case 와 control 군 선정의 실무를, B18 에서는 노출 측정과 confounding 통제를 본다.
10 관련 주제
Phase B Schulz Ch.4 시리즈 (선행 — Cohort)
Phase B SCH Ch.5 후속 (분해)
- 1111-11-11, Basic Design + 강점·약점
- 1111-11-11, Case·Control 선정
- 1111-11-11, 노출 측정과 교란 통제
다른 카테고리