Unknown Group 의 Control 옵션 — Neighbourhood·Hospital·Friend·Relative

Schulz & Grimes Ch.6.3~6.5 — Controls From an Unknown Group

Case 의 source population 을 명확히 정의하기 어려울 때 사용하는 4 가지 control 옵션의 비교: neighbourhood (door-to-door, register), hospital (Berkson bias 경계), friend/associate (overmatching 위험), relative (유전 통제). 각 옵션의 강·약점을 추상 → 일상어 → 반사실 3 단계로 풀어낸다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 왜 Unknown Group 인가

자동차 사고 응급실 환자 — 가까운 거주자, 통행자, 헬리콥터 전송자가 섞임. Case 가 발생한 인구를 명확히 정의 못함 (Schulz & Grimes, 2019, Ch.6.4).

이때 cases 부터 식별 후 그들의 source 인구를 추론. 4 가지 옵션이 있다.

2 Option 1 — Neighbourhood Controls

정의: Neighbourhood Control

Case 거주지 주변 정해진 패턴(예: H-shape, Fig. 6.6) 의 가구에서 control 표집.

도구: - Population register (북유럽 등록부) → 주소록 직접 조회. - Door-to-door canvassing — 인터뷰어가 직접 방문. - Cross-reference directory (“criss-cross”) — 주소-전화 매핑.

(Schulz & Grimes, 2019, Ch.6.4.1).

2.1 강점

  • Roster 불필요 — 주소만으로 표집.
  • 자동 매칭 — SES, 기후, 환경 등 confounder 가 같은 동네 거주로 통제.
  • 거리 기반 노출 에 적합 — Lyme 병 (tick 매개) 등.

2.2 약점

가정 위반: 비응답·비효율

비응답: 한 control 확보를 위해 평균 9 가구 접촉 필요 (Schulz, 일부 사례 150:1).

비용: 인터뷰어가 직접 방문 → 시간·인건비 ↑.

현실 사례 (Schulz 가 직접 참여): “German Shepherd 개들, 가시 철사 fence, 의심한 지역 경찰의 체포” 등 어려움.

3 단계 직관:

  • 추상: \(\text{Yield} = \text{Contact} \times P(\text{respond}) \times P(\text{eligible})\). 각 단계의 falloff 가 누적.
  • 일상어 비유: 우편 광고 발송 후 응답률 1~2% 수준. 인구 기반 표집의 일반 한계.
  • 반사실: 동네 register (북유럽) → roster 가 있으니 효율 ↑. 미국·한국 등은 register 없어 door-to-door.

2.3 Door-to-Door 의 H-shape 패턴

[case 주택을 중심으로]
1st leg: 4 → 3 → 2 → 1 (case 직전)  ← case 주택 (X)
2nd leg: 5 → 6 ... → 12 (반대편)
3rd leg: 13 → 14 → 15 → 18 (반대편)

총 16~18 가구 방문해 3 명 control 모집 (예: oral contraceptive 와 hepatocellular adenoma 연구, Schulz 참여).

2.4 Modern Alternative — Marketing Database

Lyme 병 case-control 에서 marketing database 로 case 거주지 distance 기반 control 추출 (Goldberg et al., 2018). Door-to-door 의 효율성 ↑ — 비용 ↓, 응답률은 marketing database 의 응답률에 의존.

3 Option 2 — Hospital Controls

정의: Hospital Control

같은 병원에 다른 진단으로 입원한 환자 (Schulz & Grimes, 2019, Ch.6.4.2).

3.1 강점

강점 설명
편리 같은 병원 내 모집 — 인터뷰 효율
저비용 추가 모집 인프라 불필요
응답 동기 ↑ 환자 대기 중 인터뷰 가능
정보 품질 Cases 와 비슷한 의료 기록 가용
Healthcare-seeking 동질성 Cases 와 같은 의료 이용 패턴

3.2 약점 — 핵심 함정

가정 위반: Berkson’s Bias (Admission Rate Bias)

가정: 입원 확률이 노출과 결과 모두에 의존. 이 종속성이 hospital control 의 OR 을 흔든다.

Schulz 의 사례: IUD 와 salpingitis (난관염) case-control.

  • Salpingitis 환자 중 IUD 사용자가 더 자주 입원 치료 (의사가 IUD 제거 권장).
  • 즉 hospital cases 의 IUD 노출률이 인구 cases 보다 ↑.
  • → OR 가짜로 ↑ — IUD-salpingitis 연관이 부풀려짐.

3 단계 직관:

  • 추상: \(P(\text{Hospital} \mid X, Y)\) 가 X·Y 의 양쪽에 의존 → 입원 자체가 selection 절차로 작동.
  • 일상어 비유: “운전 면허 보유자” 와 “면허 시험 통과율” 비교 — 통과한 사람만 보유자라 비교가 자기선택.
  • 반사실: Population-based 라면 이 함정 회피. 그러나 비용·접근성 차이.

3.3 회피 전략

직관: 노출 관련 진단의 제외

Schulz 의 권장: Hospital control 사용 시 노출과 관련된 진단의 입원 환자를 제외.

예시: 경구피임약-SLE case-control 의 hospital control 에서 OB/GYN 입원 제외 (Buyon et al., 2005). 이유: tertiary-care 병원의 OB/GYN 환자는 일반 여성보다 다른 산부인과 history → 인구 베이스라인을 대표 안 함.

3 단계 직관:

  • 추상: 노출 분포가 인구와 다른 환자군을 분모에서 제외 → 잔여 입원 환자가 background rate 더 잘 대표.
  • 일상어 비유: 흡연-폐암 연구의 hospital control 에서 호흡기 질환 입원자 제외. 흡연 노출이 그들 사이에 비대칭.
  • 반사실: 제외 안 하면 control 의 노출 분율이 인구 평균 미반영 → OR 흔들림.

3.4 Catchment Area 일치

같은 병원이라도 진단별로 catchment area 다름. Cases 와 controls 가 같은 catchment 에서 와야.

가정 위반: Catchment 불일치

가설: Cardiology ward (주 전체 의뢰) 의 MI cases vs ER (시 한정) 의 비-MI controls. 같은 병원이지만 catchment 가 다름.

(B17 의 cardiology vs ER 사례와 동일.)

해결: 두 군 모두 같은 거주 area 거주자만 포함 또는 같은 catchment 진단 환자만 포함.

3.5 Hospital Control 의 인구 비대표성

가정 위반: Hospital control 이 case 와 닮음

연구들의 발견 (Schulz 가 인용):

  • Hospital controls 가 cases 와 닮아 OR 이 null 로 편향 (Wacholder et al., 1992).
  • 체중·흡연 패턴·질병 부담이 population control 과 다름 (Hartge et al., 2011).

3 단계 직관:

  • 추상: Hospital 입원자는 모든 면에서 자기선택된 부분 인구 → Cases 와 noise 정도 차이만 있을 뿐 거의 동일 부분 인구.
  • 일상어 비유: 학교 보건실 방문자 중 한 진단군 vs 다른 진단군 비교 — 두 군 모두 보건실 방문자라 학교 평균과 다름.
  • 반사실: Population control 이 인구 평균을 더 잘 대표. Hospital control 은 비용·편의의 trade-off.

4 Option 3 — Friend or Associate Controls

정의: Friend Control

Case 가 직접 명명한 친구·동료를 control 로 (Schulz & Grimes, 2019, Ch.6.4.3).

4.1 강점

강점 설명
자동 매칭 SES, 교육, 라이프스타일 매칭
모집 효율 Case 가 직접 소개
Hidden population 적합 마약 사용 같은 비공개 노출 — chain referral / snowball

4.2 약점

가정 위반: Random Selection 의 반대

문제: Case 가 명명한 친구는 random sample 의 정반대 — 친밀한 관계의 자기선택.

3 가지 자기선택 패턴:

  1. 외향적 사람: 외향 cases 가 더 많은 친구 명명 가능 → 외향이 control 에 과대.
  2. 암 환자의 거부: 자기 진단을 친구에게 알리지 않는 case → 친구 명명 불가.
  3. 사회경제 상승 매칭: Cases 가 자기보다 잘 사는 친구를 명명하는 경향 (Schulz 인용 Wacholder et al., 1992).

3 단계 직관:

  • 추상: \(P(\text{Named} \mid \text{Friend})\) 가 외향성·SES 와 양의 상관 → 표본 자기선택.
  • 일상어 비유: 학교에서 “가장 친한 친구” 를 묻기 — 외향 학생만 답변 → 반 평균과 다름.
  • 반사실: Random sample 이라면 이 자기선택 회피. Friend 는 매칭의 강점과 자기선택의 약점을 동시 가짐.

4.3 Overmatching

Friend 가 너무 비슷하면 노출-결과 연관도 약화.

예시: 마약 case-control 에서 friend control 도 마약 사용자가 많다면, 본인 마약 사용 효과가 약화.

해결: Drug 의 nominator 가 한 명은 사용자 friend, 다른 한 명은 비사용자 friend (Schulz 인용 Diaz et al., 1995). 두 종류의 friend 모두 사용 → overmatching 회피.

5 Option 4 — Relative Controls

정의: Relative Control

Sibling, spouse, 친척을 control 로 (Schulz & Grimes, 2019, Ch.6.4.4).

5.1 강점

강점 설명
유전 통제 Sibling control 은 유전 confounder 자동 통제
환경 매칭 같은 가정 환경 (식이, 가족 흡연, 라이프스타일)
모집 효율 Case 가 직접 소개

5.2 약점

가정 위반: Family-Level Confounder 의 효과 측정 불가

시나리오: Sibling control 사용 시 가족 크기·부모 흡연 같은 family-level confounder 효과를 측정 불가 (Wacholder et al., 1992).

3 단계 직관:

  • 추상: Family-level 변수는 sibling 군에서 동일 → 효과 추정의 분산 0 → 추정 불가.
  • 일상어 비유: 한 학교의 학생들에게 “학교 정책 효과” 를 묻기 — 모두 같은 정책 노출이라 비교 불가.
  • 반사실: Random control 이라면 family-level 변수의 분산 보존 → 효과 측정 가능. Sibling 은 매칭의 강점과 변수 분산 손실의 약점.

5.3 Spouse Control 의 한계

뇌졸중 case-control 에서 65% 의 생존자만 살아있는 spouse 보유 (Schulz 인용 study) → 모집 비율 한계.

5.4 Drug Misuser Snowball — Friend·Relative 의 hidden population 활용

사례: Snowball Technique

마약 사용자 case-control 에서:

  • Case nominator: 마약 사용자.
  • Case 가 명명한 nominator : 다른 마약 사용 친구 (chain referral).
  • Control nominator: 마약 비사용 친구.

결과: Cases 와 controls 가 같은 사회 네트워크에서 와 source population 일치.

3 단계 직관:

  • 추상: Hidden population (조사 어려운 부분 인구) 의 표집은 자기 네트워크 추적이 효율적.
  • 일상어 비유: 한 동호회 회원을 알아내려면 한 명을 추적해 그가 추천하는 동호인을 추적.
  • 반사실: RDD 는 마약 사용자에 도달 못 함 (응답 거부, 혼합 인구). Friend snowball 이 유일한 실용 옵션.

6 4 옵션 통합 비교

옵션 Source 일치 자기선택 위험 비용 Confounder 통제
Neighbourhood 환경 (지역·SES) 비응답 ↑↑ 환경, SES
Hospital 의료 이용 패턴 Berkson, 입원 미약 (입원자 자기선택)
Friend SES, 교육 외향성 SES, 라이프스타일 (overmatching)
Relative 유전, 가족 환경 친밀도 유전 (family-level 분산 손실)

7 결론

Unknown group 의 4 옵션은 통제하려는 confounder 에 따라 선택. 모든 옵션이 자기선택의 다른 패턴을 가지므로 다중 control (B22) 로 강건성 점검이 권장.

다음 글(B22)에서는 control 군의 수와 비율, 그리고 평가 기준을 본다.

8 관련 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: