1 왜 Unknown Group 인가
자동차 사고 응급실 환자 — 가까운 거주자, 통행자, 헬리콥터 전송자가 섞임. Case 가 발생한 인구를 명확히 정의 못함 (Schulz & Grimes, 2019, Ch.6.4).
이때 cases 부터 식별 후 그들의 source 인구를 추론. 4 가지 옵션이 있다.
2 Option 1 — Neighbourhood Controls
Case 거주지 주변 정해진 패턴(예: H-shape, Fig. 6.6) 의 가구에서 control 표집.
도구: - Population register (북유럽 등록부) → 주소록 직접 조회. - Door-to-door canvassing — 인터뷰어가 직접 방문. - Cross-reference directory (“criss-cross”) — 주소-전화 매핑.
(Schulz & Grimes, 2019, Ch.6.4.1).
2.1 강점
- Roster 불필요 — 주소만으로 표집.
- 자동 매칭 — SES, 기후, 환경 등 confounder 가 같은 동네 거주로 통제.
- 거리 기반 노출 에 적합 — Lyme 병 (tick 매개) 등.
2.2 약점
비응답: 한 control 확보를 위해 평균 9 가구 접촉 필요 (Schulz, 일부 사례 150:1).
비용: 인터뷰어가 직접 방문 → 시간·인건비 ↑.
현실 사례 (Schulz 가 직접 참여): “German Shepherd 개들, 가시 철사 fence, 의심한 지역 경찰의 체포” 등 어려움.
3 단계 직관:
- 추상: \(\text{Yield} = \text{Contact} \times P(\text{respond}) \times P(\text{eligible})\). 각 단계의 falloff 가 누적.
- 일상어 비유: 우편 광고 발송 후 응답률 1~2% 수준. 인구 기반 표집의 일반 한계.
- 반사실: 동네 register (북유럽) → roster 가 있으니 효율 ↑. 미국·한국 등은 register 없어 door-to-door.
2.3 Door-to-Door 의 H-shape 패턴
[case 주택을 중심으로]
1st leg: 4 → 3 → 2 → 1 (case 직전) ← case 주택 (X)
2nd leg: 5 → 6 ... → 12 (반대편)
3rd leg: 13 → 14 → 15 → 18 (반대편)
총 16~18 가구 방문해 3 명 control 모집 (예: oral contraceptive 와 hepatocellular adenoma 연구, Schulz 참여).
2.4 Modern Alternative — Marketing Database
Lyme 병 case-control 에서 marketing database 로 case 거주지 distance 기반 control 추출 (Goldberg et al., 2018). Door-to-door 의 효율성 ↑ — 비용 ↓, 응답률은 marketing database 의 응답률에 의존.
3 Option 2 — Hospital Controls
같은 병원에 다른 진단으로 입원한 환자 (Schulz & Grimes, 2019, Ch.6.4.2).
3.1 강점
| 강점 | 설명 |
|---|---|
| 편리 | 같은 병원 내 모집 — 인터뷰 효율 |
| 저비용 | 추가 모집 인프라 불필요 |
| 응답 동기 ↑ | 환자 대기 중 인터뷰 가능 |
| 정보 품질 | Cases 와 비슷한 의료 기록 가용 |
| Healthcare-seeking 동질성 | Cases 와 같은 의료 이용 패턴 |
3.2 약점 — 핵심 함정
가정: 입원 확률이 노출과 결과 모두에 의존. 이 종속성이 hospital control 의 OR 을 흔든다.
Schulz 의 사례: IUD 와 salpingitis (난관염) case-control.
- Salpingitis 환자 중 IUD 사용자가 더 자주 입원 치료 (의사가 IUD 제거 권장).
- 즉 hospital cases 의 IUD 노출률이 인구 cases 보다 ↑.
- → OR 가짜로 ↑ — IUD-salpingitis 연관이 부풀려짐.
3 단계 직관:
- 추상: \(P(\text{Hospital} \mid X, Y)\) 가 X·Y 의 양쪽에 의존 → 입원 자체가 selection 절차로 작동.
- 일상어 비유: “운전 면허 보유자” 와 “면허 시험 통과율” 비교 — 통과한 사람만 보유자라 비교가 자기선택.
- 반사실: Population-based 라면 이 함정 회피. 그러나 비용·접근성 차이.
3.3 회피 전략
Schulz 의 권장: Hospital control 사용 시 노출과 관련된 진단의 입원 환자를 제외.
예시: 경구피임약-SLE case-control 의 hospital control 에서 OB/GYN 입원 제외 (Buyon et al., 2005). 이유: tertiary-care 병원의 OB/GYN 환자는 일반 여성보다 다른 산부인과 history → 인구 베이스라인을 대표 안 함.
3 단계 직관:
- 추상: 노출 분포가 인구와 다른 환자군을 분모에서 제외 → 잔여 입원 환자가 background rate 더 잘 대표.
- 일상어 비유: 흡연-폐암 연구의 hospital control 에서 호흡기 질환 입원자 제외. 흡연 노출이 그들 사이에 비대칭.
- 반사실: 제외 안 하면 control 의 노출 분율이 인구 평균 미반영 → OR 흔들림.
3.4 Catchment Area 일치
같은 병원이라도 진단별로 catchment area 다름. Cases 와 controls 가 같은 catchment 에서 와야.
가설: Cardiology ward (주 전체 의뢰) 의 MI cases vs ER (시 한정) 의 비-MI controls. 같은 병원이지만 catchment 가 다름.
(B17 의 cardiology vs ER 사례와 동일.)
해결: 두 군 모두 같은 거주 area 거주자만 포함 또는 같은 catchment 진단 환자만 포함.
3.5 Hospital Control 의 인구 비대표성
연구들의 발견 (Schulz 가 인용):
- Hospital controls 가 cases 와 닮아 OR 이 null 로 편향 (Wacholder et al., 1992).
- 체중·흡연 패턴·질병 부담이 population control 과 다름 (Hartge et al., 2011).
3 단계 직관:
- 추상: Hospital 입원자는 모든 면에서 자기선택된 부분 인구 → Cases 와 noise 정도 차이만 있을 뿐 거의 동일 부분 인구.
- 일상어 비유: 학교 보건실 방문자 중 한 진단군 vs 다른 진단군 비교 — 두 군 모두 보건실 방문자라 학교 평균과 다름.
- 반사실: Population control 이 인구 평균을 더 잘 대표. Hospital control 은 비용·편의의 trade-off.
4 Option 3 — Friend or Associate Controls
Case 가 직접 명명한 친구·동료를 control 로 (Schulz & Grimes, 2019, Ch.6.4.3).
4.1 강점
| 강점 | 설명 |
|---|---|
| 자동 매칭 | SES, 교육, 라이프스타일 매칭 |
| 모집 효율 | Case 가 직접 소개 |
| Hidden population 적합 | 마약 사용 같은 비공개 노출 — chain referral / snowball |
4.2 약점
문제: Case 가 명명한 친구는 random sample 의 정반대 — 친밀한 관계의 자기선택.
3 가지 자기선택 패턴:
- 외향적 사람: 외향 cases 가 더 많은 친구 명명 가능 → 외향이 control 에 과대.
- 암 환자의 거부: 자기 진단을 친구에게 알리지 않는 case → 친구 명명 불가.
- 사회경제 상승 매칭: Cases 가 자기보다 잘 사는 친구를 명명하는 경향 (Schulz 인용 Wacholder et al., 1992).
3 단계 직관:
- 추상: \(P(\text{Named} \mid \text{Friend})\) 가 외향성·SES 와 양의 상관 → 표본 자기선택.
- 일상어 비유: 학교에서 “가장 친한 친구” 를 묻기 — 외향 학생만 답변 → 반 평균과 다름.
- 반사실: Random sample 이라면 이 자기선택 회피. Friend 는 매칭의 강점과 자기선택의 약점을 동시 가짐.
4.3 Overmatching
Friend 가 너무 비슷하면 노출-결과 연관도 약화.
예시: 마약 case-control 에서 friend control 도 마약 사용자가 많다면, 본인 마약 사용 효과가 약화.
해결: Drug 의 nominator 가 한 명은 사용자 friend, 다른 한 명은 비사용자 friend (Schulz 인용 Diaz et al., 1995). 두 종류의 friend 모두 사용 → overmatching 회피.
5 Option 4 — Relative Controls
Sibling, spouse, 친척을 control 로 (Schulz & Grimes, 2019, Ch.6.4.4).
5.1 강점
| 강점 | 설명 |
|---|---|
| 유전 통제 | Sibling control 은 유전 confounder 자동 통제 |
| 환경 매칭 | 같은 가정 환경 (식이, 가족 흡연, 라이프스타일) |
| 모집 효율 | Case 가 직접 소개 |
5.2 약점
시나리오: Sibling control 사용 시 가족 크기·부모 흡연 같은 family-level confounder 효과를 측정 불가 (Wacholder et al., 1992).
3 단계 직관:
- 추상: Family-level 변수는 sibling 군에서 동일 → 효과 추정의 분산 0 → 추정 불가.
- 일상어 비유: 한 학교의 학생들에게 “학교 정책 효과” 를 묻기 — 모두 같은 정책 노출이라 비교 불가.
- 반사실: Random control 이라면 family-level 변수의 분산 보존 → 효과 측정 가능. Sibling 은 매칭의 강점과 변수 분산 손실의 약점.
5.3 Spouse Control 의 한계
뇌졸중 case-control 에서 65% 의 생존자만 살아있는 spouse 보유 (Schulz 인용 study) → 모집 비율 한계.
6 4 옵션 통합 비교
| 옵션 | Source 일치 | 자기선택 위험 | 비용 | Confounder 통제 |
|---|---|---|---|---|
| Neighbourhood | 환경 (지역·SES) | 비응답 | ↑↑ | 환경, SES |
| Hospital | 의료 이용 패턴 | Berkson, 입원 | ↓ | 미약 (입원자 자기선택) |
| Friend | SES, 교육 | 외향성 | ↓ | SES, 라이프스타일 (overmatching) |
| Relative | 유전, 가족 환경 | 친밀도 | ↓ | 유전 (family-level 분산 손실) |
7 결론
Unknown group 의 4 옵션은 통제하려는 confounder 에 따라 선택. 모든 옵션이 자기선택의 다른 패턴을 가지므로 다중 control (B22) 로 강건성 점검이 권장.
다음 글(B22)에서는 control 군의 수와 비율, 그리고 평가 기준을 본다.