대조군 찾기 개관 — Compared to What?

Schulz & Grimes Ch.6 — Finding Controls overview

Case-control 연구의 Achilles heel 인 control 선정의 전체 지형을 개관한다. Henny Youngman 의 “Compared to what?” 부터 다니엘서의 첫 비교군까지의 역사, known vs unknown group 의 구분, 그리고 RDD·neighbourhood·hospital·friend·relative control 5 가지 옵션의 비교 표를 한 번에 조망한다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 “Compared to What?” — 비교의 본질

코미디언 Henny Youngman 의 클래식 — “How’s your wife?” 라는 질문에 “Compared to what?” 라고 응수했다 (Schulz & Grimes, 2019, Ch.6). 이 한 문장이 case-control 의 모든 비유다.

정의: Control 의 역할

Case-control 에서 control 군은 연구 인구의 background exposure rate 을 추정한다. 즉 “병이 없는 사람들에서 노출이 얼마나 흔한가” 를 알려준다 (Schulz & Grimes, 2019, Ch.6).

3 단계 직관:

  • 추상: \(P(X=1 \mid Y=0)\) 의 무편향 추정에 control 사용. Source population 일치 + 노출 독립이 두 조건.
  • 일상어 비유: 학교의 평균 점수 비교에서 비교 학교가 다른 학군이거나 학년이 다르면 비교 자체가 흐려진다.
  • 반사실: Control 이 case 와 다른 인구에서 오면 background rate 이 case source 의 background 가 아니라 다른 인구의 noise → OR 추정 편향.

2 역사 — 첫 비교군은 다니엘서에

Schulz 가 Ch.6 에서 흥미롭게 언급하는 사실 — 인류 최초로 기록된 비교군 실험은 다니엘서 (Daniel) 에 등장한다 (Grimes, 1995).

직관: 다니엘의 10 일 비교 실험 (BC 600 경)
  • Cases: Daniel 과 세 동료 (건강 식이 — 채소·물).
  • Controls: 바빌론 왕실 식이 (royal diet).
  • 결과: 10 일 후 Daniel 군이 더 건강해 보임.

비판 (Schulz 의 풍자): - 노출 기간 부족 (10 일은 외모 변화 충분 안 함). - “Divine confounding” — 신적 개입 가능성. - 출판 지연 4 세기 (Daniel 사후 출판).

교훈: 비교군의 발상은 고대부터 있었지만, 적절한 통제·기간·대안 가설 점검은 현대 역학의 산물.

이후 비교군은 수천 년간 출판 문헌에서 사라졌고, 1747 년 James Lind 의 괴혈병 실험 (Fig. 6.2) 에서 부활했다 — 6 개 처치군 × 2 명 선원 매칭.

3 Control 의 3 가지 속성 — Panel 6.1

Schulz Panel 6.1: Attributes of Controls
│
├── 1. Free of the outcome of interest
│      (관심 결과 미발생 — 단, 다른 질환 보유는 OK)
│
├── 2. Representative of the population at risk
│      (Case 가 발생한 인구의 노출 분포 대표)
│
└── 3. Selected independent of the exposure
       (노출 여부와 무관하게 표집)

3.1 속성 1 — Outcome Free 의 의미

Control 이 건강해야 한다는 뜻은 아니다. 다른 질환을 가진 사람도 OK — 단, 관심 결과 (예: 폐암) 만 없으면 됨.

가정 위반: 너무 건강한 control

가설: 폐암 case-control 에서 control 을 “어떤 만성 질환도 없는 건강한 자” 로 한정. 이런 super-healthy control 군은 일반 인구를 대표하지 않음 — 일반 인구의 노출 분포보다 흡연·음주가 모두 낮을 가능성.

3 단계 직관:

  • 추상: \(P(X=1 \mid Y=0, \text{health restricted}) < P(X=1 \mid Y=0)\). 건강 제한 control 의 노출 분율이 인구 평균보다 낮음.
  • 일상어 비유: 마라톤의 평균 페이스를 측정하기 위해 우승 후보 10 명만 표본으로. 진성 평균을 과소 추정.
  • 반사실: Outcome 만 미발생이면 다른 질환 가진 자도 control 로 포함 → 인구 노출 분포 더 잘 대표.

3.2 속성 2 — Representativeness

Case 가 발생한 인구의 노출 분포 를 그대로 반영해야 한다. Section 5.3 (B17) 의 cardiology vs ER 사례, AIDS 의 STD vs neighbourhood 사례가 이 속성의 위반.

3.3 속성 3 — Exposure Independence

Control 선택이 노출 여부와 무관해야 한다. AIDS 의 STD 클리닉 control 위반 — 클리닉 방문이 성 행위 활동성과 양의 상관 → 노출 독립 위반.

4 사례 — 흡연-폐암 case-control 의 underestimation (Doll & Hill, 1950)

가정 위반의 역사적 사례

연구: 1950 년 Doll & Hill 의 흡연-폐암 초기 case-control.

Control 선택: 같은 병원의 비-폐암 입원 환자 709 명. 그 시대 MI 환자는 3 주간 입원 → 자연스러운 control pool.

문제: MI 환자는 일반 인구보다 흡연자 비율이 높음 (흡연이 MI 의 위험 인자). 따라서 control 의 흡연율이 인구 평균을 과대 추정 → OR 가짜로 ↓ → 흡연 효과의 과소 추정.

3 단계 직관:

  • 추상: \(P(X=1 \mid Y=0, \text{MI hospital}) > P(X=1 \mid Y=0, \text{general})\). Hospital control 이 흡연 자기선택.
  • 일상어 비유: 도시의 평균 음주율을 측정하기 위해 술집 손님을 표본으로. 평균이 부풀려져 비교 효과 가려짐.
  • 반사실: Population-based control 또는 비흡연 관련 질환의 hospital control 사용 → 인구 흡연율 정직 추정 → 진성 흡연 효과 발현.

5 NSAID 사례 — Fig. 6.3

Control selection         | Flaw                              | Effect
─────────────────────────────────────────────────────────────────────
Patients with arthritis   | NSAID 노출 ↑ (관절염 치료)          | OR ↓ (가짜)
Patients with peptic      | NSAID 노출 ↓ (의사 회피 권장)        | OR ↑ (가짜)
ulcers                    |                                   |

같은 case 자료 + 다른 control = 정반대 OR 결론. Control 선정의 한 결정이 결론 자체를 결정한다.

6 Endometriosis 사례 — 진단 제약의 함정

사례: 수술 진단 한정의 self-selection

연구: Endometriosis case-control. 진단이 수술 (laparoscopy/laparotomy) 로만 가능 → control 도 수술 받았으나 endometriosis 진단 안 된 여성.

문제: 수술을 받는 여성은 일반 여성을 대표하지 않음 (Zondervan et al., 2002). 수술이 random 으로 일어나지 않음 — 자기 선택 + 의료 접근성 + 증상 심각도가 모두 영향.

3 단계 직관:

  • 추상: \(P(\text{Surgery} \mid Y=0)\) 이 인구 평균의 수술 비율이 아니라 자기 선택된 부분 인구 비율.
  • 일상어 비유: 직장 인터뷰의 일반 만족도를 측정하기 위해 인터뷰에 응한 사람만 표본. 응한 사람은 회사에 호의적인 부분 인구.
  • 반사실: 진단 도구가 비침습적 (예: 영상) 이라면 인구 기반 표집 가능 → endometriosis 의 case-control 도 더 정직한 OR. 단, 현 진단 기술의 한계가 곧 설계의 한계.

7 Where to Find Controls — Known vs Unknown Group

정의: Known Group vs Unknown Group
  • Known group: 정의된 인구를 일정 기간 관찰. 예: 카리브 크루즈 1 주 승객, 10 년간 스웨덴 거주자.
  • Unknown group: Case 가 발생한 인구가 명확하지 않음. 예: 응급실에 도착한 자동차 사고 피해자 (가까운 거주자, 통행자, 헬리콥터로 전송된 자가 섞임).

(Schulz & Grimes, 2019, Ch.6.2; Wacholder et al., 1992).

7.1 직관 3 단계 — 두 그룹의 표집 전략

  • 추상: Known group → 인구 roster 에서 random sample. Unknown group → case 의 거주지·시점·환경에서 후보 그룹 추론 후 표집.
  • 일상어 비유: 학교의 학생 인구를 알고 있다면 출석부에서 random sample. 모르면 학교 주변 거리에서 표집.
  • 반사실: Unknown group 에서 표집 방법(neighbourhood vs hospital vs friend) 에 따라 control 의 source 가 다름 → OR 의 강건성을 다중 control 로 점검.

7.2 Cruise Ship 식중독 — Known group 의 표본

크루즈선의 식중독 case-control: 모든 승객·승무원 명단(roster) 에서 case (식중독자) 를 식별, control 은 명단에서 random sample (Wacholder et al., 1992). Known group 의 모범.

8 Control 옵션 5 가지 비교 — Fig. 6.4

[Known group]
   roster 또는 RDD
   ↓
   인구 무작위 표본

[Unknown group]
   ├── Hospital
   ├── Neighbourhood (population register / door-to-door)
   ├── Friend / Associate
   └── Relative

5 옵션의 비교 표.

Control 종류 강점 약점 적합
RDD Source 일치, 인구 기반 응답률 ↓ (현대), 휴대폰 시대 한계 Known group 대안
Neighbourhood 환경·SES 자동 매칭 비용 ↑, 비응답, 다중주택 접근 환경 confounder 통제
Hospital 편리, 응답 동기 ↑ Berkson bias, 노출 자기선택 자료 접근성 우선 시
Friend SES·교육 매칭 Overmatching, 외향성 자기선택 Hidden population (drug 등)
Relative 유전 통제 Overmatching, 가족 크기 효과 못 봄 유전 confounder 통제

9 어느 옵션이 언제 우수한가

직관 3 단계: 옵션 선정의 인과 그래프
  • 추상: 각 control 옵션이 통제하는 confounder 가 다름. RDD 는 인구 baseline, neighbourhood 는 환경, friend 는 SES, relative 는 유전.
  • 일상어 비유: 블라인드 테스트에서 시각·후각·청각 차단을 어디까지 할지의 결정 — 통제하고자 하는 변수에 따라.
  • 반사실: Confounder 가 환경이라면 neighbourhood 가 효율, 유전이라면 sibling control. 잘못된 옵션 선택 = overmatching 또는 잔여 confounding.

10 결론 — Schulz Ch.6 의 메시지

Control 선정은 case-control 의 Achilles heel. 3 가지 점검 항목:

  1. Outcome Free + Population at risk 대표 + Exposure 독립.
  2. Known vs Unknown group 구분 → 적합한 옵션 선택.
  3. 5 옵션의 trade-off 인지 → 통제하려는 confounder 에 따라 결정.

다음 글들에서 5 옵션을 깊이 본다.

  • B20: Aim of Controls + Known group (RDD)
  • B21: Unknown group 옵션들 (Neighbourhood, Hospital, Friend, Relative)
  • B22: How many control groups + 비율 + What to Look for

11 관련 주제

선행

후속

다른 카테고리

Subscribe

Enjoy this blog? Get notified of new posts by email: