Kwangmin Kim - 환자-대조군 연구 개관

1 들어가며 — 가장 흔한 분석 역학 설계

Cohort 가 노출에서 결과로 흐른다면, case-control 은 결과에서 노출로 흐른다. Schulz 의 Ch.5 부제 “Research in Reverse” 가 그 정체성을 한마디로 압축한다 (Schulz & Grimes, 2019, Ch.5).

정의: 환자-대조군 연구 (Case-Control Study)

결과(outcome) 를 기준으로 두 군을 정의하고, 각 군에서 과거 노출(exposure) 빈도를 비교하는 연구 (Schulz & Grimes, 2019, Ch.5).

역학: Case-Control Study (cumulative case-control 또는 incidence-density case-control)
IT/실험: Reverse-engineered analysis — 결과 발생자(전환자, 이탈자, 사기 거래자) vs 미발생자에서 과거 행동 비교

핵심 지표: Odds Ratio (OR). Cohort 의 RR/IR 이 산출되지 않는다 — 결과 발생자만 sample 했으므로 분모(at-risk population)를 모른다.

3 단계 직관:

추상: \(P(X \mid Y=1)\) 와 \(P(X \mid Y=0)\) 를 비교 (Bayes 의 likelihood). \(P(Y=1 \mid X)\) 가 아님.
일상어 비유: 사고 사망자 부검에서 안전벨트 착용 여부를 조사 (case) vs 정상 운전자에서 안전벨트 착용 비율 (control). “사고를 당한 사람이 안 매고 있었을 odds” 를 계산.
반사실: Cohort 처럼 출발점에서 시작하지 않으므로 누가 위험에 있었는지 모른다. 따라서 RR 직접 산출 불가. 단, 희귀 결과(< 5%) 가정 하에 OR ≈ RR.

2 왜 이렇게 흔한가 — 효율성

분석 역학 연구에서 가장 자주 사용되는 설계다 (van Stralen et al., 2010). 이유는 단순하다 — 빠르고 싸다.

시간	비용	노력
Cohort < case-control < cross-sectional 보다 빠름	추적 비용 없음	사례군 모집 + 회고 노출 측정

직관: 발생률이 낮을수록 case-control 이 cohort 보다 효율적

추상: 발생률 5/100,000/yr 인 결과를 cohort 로 잡으려면 200,000 명 × 10 년 추적 필요 (사건 100 건 확보).
일상어 비유: 도서관에서 희귀본 1 권을 찾기 위해 모든 서가를 뒤지는 vs 이미 식별된 희귀본 옆에 다른 책을 놓아 비교. 후자가 빠르다.
반사실: 발생률이 높으면 (예: 흔한 감기 같은 결과) cohort 가 더 효율적. 결과 발생률 vs 노출 prevalence 의 비교가 효율 결정.

Sackett 의 경고: 그러나 case-control 은 “easier to do, easier to do wrong”다. Schulz 가 인용하는 David Sackett 의 사적 발언 — “I would trust only six people in the world to do a proper case-control study” (2001). 효율의 대가가 편향에의 취약성.

Rothman 의 경고: “Many studies have been conducted by would-be investigators who lack even a rudimentary appreciation for epidemiological principles … often the results are wrong because basic research principles have been violated” (Rothman, 1986).

3 다양한 응용 분야 — Panel 5.1

Schulz 가 PubMed 검색으로 정리한 case-control 응용 사례 (Ch.5, Panel 5.1) — 24 가지 다양한 노출-결과 쌍.

노출	결과
자궁근종	산후 출혈
모유 수유	백일해 (보호 효과)
교대 근무	간호사에 대한 폭력
치주염	유방암
편두통 병력	뇌진탕
갑상선 저하증	비파열성 뇌동맥류
스타틴	다발성 신경병증 / 치매
HPV	자궁경부암 / 대장암
비타민 D	소아 골절
…	…

이 다양함이 case-control 의 도구적 유연성을 보여준다 — 거의 모든 결과·노출 쌍에 적용 가능.

4 역사적 성공 — AIDS 의 인지

사례: 1983~1984 AIDS 초기 case-control

가설: AIDS 의 위험군과 위험 인자가 무엇인가? 바이러스(HIV-1)가 식별되기 전에도 case-control 이 핵심 답을 제공.

식별된 위험군: - 동성애 남성 - 정맥 약물 사용자 - 수혈 수혜자

식별된 위험 인자: - 다중 성 파트너 - 동성애 남성의 receptive anal intercourse - 콘돔 미사용

결과: 이 결과를 기반으로 혈액은행이 고위험자의 헌혈을 제한, 교육 프로그램 개시 → HIV-1 식별 전에도 전파 속도 큰 폭 감소.

3 단계 직관:

추상: 결과 (AIDS 환자) → 노출 (성 행동, 약물 사용) 회고 → 차이 식별. RCT 나 cohort 가 시간을 요구하는 동안 case-control 이 즉각적 단서 제공.
일상어 비유: 화재 후 현장 검증으로 발화 원인을 찾는 것 — 발화 자체를 RCT 로 재현할 수는 없다.
반사실: 만약 cohort 만 고집했다면 AIDS 진단 후 수년이 지난 뒤에야 위험 인자가 식별되었을 것이다. 그동안의 인명 손실이 추가됨. Case-control 의 시간 효율이 곧 공중보건의 시간 효율.

5 핵심 5 원칙 — Schulz 의 가이드

Schulz 는 case-control 보고를 평가하는 5 가지 원칙을 제시 (Ch.5 abstract).

Case-Control 5 원칙
│
├── 원칙 1: Case 정의의 명료성
├── 원칙 2: Control 의 같은 원천 인구 (source population) + 노출과 독립
├── 원칙 3: 데이터 수집자의 blinding (case/control 상태 모름)
├── 원칙 4: 회상 보조 도구 (memory aids) 로 cases·controls 균형
└── 원칙 5: Confounding 통제 (설계 단계 또는 분석 단계)

각 원칙은 case-control 의 특정 편향을 회피한다.

5.1 원칙 1 — Case 정의의 명료성

가정 위반: 흐린 case 정의

가설: “다발성 경화증 사례군” 을 모집하는데, 진단 기준이 명시되지 않았다. 일부는 명백한 임상 + MRI 확진, 일부는 의심 단계 (subjective symptoms only).

3 단계 직관:

추상: \(\text{Case} = \{X : X \text{ has outcome}\}\) 의 정의가 명확해야 함. 그렇지 않으면 case 군이 다른 질환을 포함.
일상어 비유: 경기 결과를 분류할 때 “이긴 팀 vs 진 팀” 정의가 명확해야. 무승부를 어디로 분류할지 모르면 분석이 흐려짐.
반사실: 흐린 case 정의는 다른 질환을 case 군에 섞어 노출-결과 연관을 희석 또는 위조. 후속 case-control 도 같은 흐린 정의를 물려받으면 인과 추론이 오염.

5.2 원칙 2 — Control 의 source population

가장 어려운 원칙. Control 은 case 가 발생한 같은 source population 에서 와야 하고, 노출과 독립이어야 한다.

가정 위반: 다른 source population 의 control

Schulz 의 사례 (가상): cardiology ward 의 심근경색 환자를 case 로 + 같은 병원 ER 의 비-MI 환자를 control. 문제 — cardiology ward 는 주 전체 의뢰 센터, ER 은 시 한정. 두 군의 source population 다름.

구체적 편향: - 새 혈압약이 시 외 지역에 보급되지 않았다면 → cardiology ward 의 case 가 더 많이 노출 → OR ↑ (가짜) - 또는 약 부작용(졸음→사고)으로 ER 입원 → control 의 노출 ↑ → OR ↓ (가짜)

3 단계 직관:

추상: \(P(X \mid Y=0)\) 의 추정에 잘못된 source 사용 → background exposure rate 추정 편향.
일상어 비유: 한 동네 학교의 평균 키를 측정할 때 옆 동네 학교 학생을 control 로. 두 학교의 baseline 다른 만큼 비교 자체가 흐려짐.
반사실: Source population 일치 → control 이 case 가 발생한 인구의 노출 분포를 반영 → background exposure rate 의 정직한 추정.

5.3 원칙 3 — Blinding 데이터 수집자

가정 위반: Interviewer Bias

데이터 수집자가 case/control 상태를 알면, case 에게 노출을 더 깊이 캐묻는 무의식적 차이가 발생.

3 단계 직관:

추상: \(E[X_{\text{measured}} \mid Y, \text{Interviewer aware}] \neq E[X_{\text{measured}} \mid Y]\). 측정 자체가 case 상태에 의존.
일상어 비유: 면접관이 후보의 합격 여부를 알고 인터뷰하면, 합격자에게 더 호의적 질문을 던질 수 있음.
반사실: Blinding (또는 hypothesis 만이라도 가림) → 측정의 비대칭 제거. 객관 자료원 (의무 기록 등) 사용도 대안.

5.4 원칙 4 — Recall Aid

Memory aid (사진, 다이어리, 달력) 가 cases 와 controls 의 회상을 같은 방식으로 자극.

사례: 경구피임약 사진 앨범 (Stadel et al., 1985)

유방암 case-control 연구. 지난 수십 년의 모든 경구피임약 색채 사진 앨범 + 빈 calendar grid 제공. 사용자가 “어느 약을 언제 사용했는지” 시각·시간 단서로 회상.

효과: case 와 control 모두에서 회상의 정확도 ↑, 차별 회상 ↓.

3 단계 직관:

추상: \(\text{Recall accuracy}_{\text{case}} = \text{Recall accuracy}_{\text{control}}\) 가 이상. Memory aid 가 두 군의 회상 베이스를 동등하게.
일상어 비유: 시험에서 모든 학생에게 같은 cheat sheet 를 제공하면, 학생 간 비교가 진성 능력 차이만 반영.
반사실: Aid 없으면 case 가 자기 진단의 원인을 회상하기 위해 더 깊이 떠올림 → 차별 회상 → recall bias.

5.5 원칙 5 — Confounding 통제

Cohort 와 마찬가지로 case-control 도 confounding 의 영향을 받는다.

통제 방법:

단계	방법
설계	Restriction (특정 연령·성별만 모집), Matching (연령·성별로 case 와 control 짝지음)
분석	다변량 logistic regression, Mantel-Haenszel stratification

직관: Matching 의 양면성

장점: 매칭 변수의 강한 confounding 통제. 검정력 ↑.
단점: 매칭 변수의 효과 자체를 추정 불가. Overmatching — 노출-결과 경로의 매개 변수를 매칭하면 효과 자체가 사라짐.

매칭은 confounding 통제 도구이지 “모든 변수를 같게” 하는 도구가 아니다 — 무엇을 매칭할지의 인과적 판단이 핵심.

6 Cumulative vs Incidence-Density Case-Control

정의: 두 종류의 case-control

Cumulative case-control: 결과의 위험 기간 종료 후 case 와 control 표집. 희귀 결과 가정 (< 5%) 하에 OR ≈ RR.
Incidence-density case-control (risk-set): 각 case 발생 시점에 그 시점의 위험 인구에서 control 을 매칭. 희귀 결과 가정 불필요. OR = IRR.

Schulz 가 다루는 것은 cumulative case-control. Risk-set 설계는 더 복잡하나 희귀 결과 가정에서 자유롭다 — Rothman (2017) 이 자세히 다룸.

7 약점 — 편향에의 취약

편향	메커니즘	회피
Selection bias	Control 의 source population 불일치	같은 인구에서 표집
Recall bias	Case 와 control 의 회상 차이	Memory aid + 객관 자료원
Interviewer bias	데이터 수집자의 case 인지	Blinding
Confounding	미보정 교란 변수	Matching/regression/MH
Berkson’s bias	병원 기반 표집의 자기선택	인구 기반 표집 우선

가정 위반: 모든 편향이 결과를 한 방향으로 미는 게 아니다

Recall bias, selection bias 모두 OR 을 양 방향(과대 또는 과소)으로 밀 수 있다. AIDS 사례에서 STD 클리닉 control 은 OR 을 2.9 로 (실제 더 높을) 추정, neighbourhood control 은 52.0 으로 추정 — 동일 case 자료가 control 선정에 따라 18 배 차이.

8 응용 vs Cohort — 분업

측면	Cohort	Case-Control
효율 (희귀 결과)	비효율	효율
효율 (희귀 노출)	효율	비효율
시간	김	짧음
비용	큼	작음
Recall bias	약함	강함
Selection bias	약함 (RCT 가 아닌 한)	강함
발생률 산출	가능	불가 (cumulative)
OR / RR	RR 직접	OR (희귀 결과 시 RR 근사)
Multiple outcomes	가능	1 결과
Multiple exposures	가능	가능

이 분업이 두 설계의 본질. 희귀 결과 + 다중 노출 + 빠른 답 이라면 case-control, 희귀 노출 + 다중 결과 + 발생률 이라면 cohort.

9 결론 — 5 원칙의 의미

Schulz 의 5 원칙은 case-control 보고를 평가하는 핵심 체크리스트다. 한 원칙이라도 약하면 OR 추정이 큰 폭으로 흔들릴 수 있다.

Case 정의 명료성 — 다른 질환 섞임 방지.
Control source 일치 + 노출 독립 — Selection bias 회피.
Blinding — Interviewer bias 회피.
Memory aid — Recall bias 회피.
Confounding 통제 — 잔여 교란 회피.

다음 글(B16) 에서는 case-control 의 기본 설계와 강점·약점을, B17 에서는 case 와 control 군 선정의 실무를, B18 에서는 노출 측정과 confounding 통제를 본다.

10 관련 주제

Phase B Schulz Ch.4 시리즈 (선행 — Cohort)

Phase B SCH Ch.5 후속 (분해)

다른 카테고리