1 Aim of Controls — 핵심 정의 재확인
Control 의 임무는 단 하나 — 배경 노출 빈도(background exposure frequency) 의 무편향 추정 (Schulz & Grimes, 2019, Ch.6.1).
연구 인구에서 결과 미발생자의 노출 prevalence — \(P(X=1 \mid Y=0)\).
이 양이 잘 추정되어야 OR 의 분모가 정직하게 산출된다.
3 단계 직관:
- 추상: \(\text{OR} = \frac{P(X=1|Y=1) / P(X=0|Y=1)}{P(X=1|Y=0) / P(X=0|Y=0)}\) — 분모 추정에 control 직접 사용.
- 일상어 비유: 환자 군 흡연율(70%) 대비 일반인 흡연율(20%) 차이로 효과 추정. 일반인 추정에 잘못된 표본을 쓰면 OR 가 흔들린다.
- 반사실: Control 의 노출 분율이 인구 평균과 다르면 (자기선택, hospital pool, etc.) OR 추정 편향.
2 Cervical Cancer 와 Sex Partners — 양의 연관
Case: 자궁경부암 환자. Control: 자궁경부암 미발생자. 노출: 다중 성 파트너.
결과: cases 의 노출 빈도 > controls 의 노출 빈도 → OR > 1 (양의 연관).
해석: 다중 성 파트너가 자궁경부암 위험 인자 (HPV 매개). HPV 백신·검진 정책의 근거.
3 Ovarian Cancer 와 OCP — 음의 연관 (Protection)
Case: 난소암 환자. Control: 난소암 미발생자. 노출: 경구피임약 (OCP).
결과: cases 의 노출 빈도 < controls 의 노출 빈도 → OR < 1 (음의 연관, 보호).
해석: 경구피임약이 난소암 위험을 낮춤. Iversen et al. (2017) 의 평생 위험 추정에서도 같은 방향.
4 Where to Find Controls — Known vs Unknown Group
Schulz 의 분류는 source 인구의 정의 가능성을 기준으로.
[Known group]
├── Roster 존재 → 무작위 표집
└── Roster 미존재 → Random-Digit Dialling (RDD)
[Unknown group]
├── Hospital
├── Neighbourhood
├── Friend / Associate
└── Relative
4.1 Known Group — Roster 가 있는 경우
정의된 인구를 일정 기간 관찰. 예: 카리브 크루즈 1 주 승객, 10 년간 스웨덴 거주자, 한 회사 직원, 한 학교 학생 (Schulz & Grimes, 2019, Ch.6.2).
Case-Control = Cohort 의 nested 분석: Known group 안에서 case 를 식별하고, 같은 group 의 비-case 를 control 로. 이는 nested case-control 의 모범.
4.2 Cruise Ship 식중독 사례
시나리오: 크루즈선 식중독 outbreak. - Cases: 항해 중 위장염 발생자. - Controls: 같은 배 미발생자에서 random sample.
왜 깨끗한가: - 같은 시간·공간 → 환경 confounder 자동 통제. - 같은 음식 노출 → exposure source 일치. - Roster 존재 → random sampling 가능.
3 단계 직관:
- 추상: Confined population + roster + 같은 노출 source → control 의 모든 속성 (Panel 6.1) 충족.
- 일상어 비유: 한 학교의 한 반 학생 식중독 → 같은 반 미발생 학생을 control. 외부 변수 자동 통제.
- 반사실: Confined 가 아니라면 (예: 도시 식중독) 식자재 source·노출 시점 다름 → control 선정 어려움.
4.3 Population Controls 의 양면성
| 강점 | 약점 |
|---|---|
| Random sampling → 대표성 | Case 가 모두 식별되지 않으면 매칭 불완전 |
| 결과의 일반화 정당화 | 비응답 (휴가, 미접촉) ↑ |
| Hospital control 의 자기선택 회피 | 응답 동기 ↓ (비-환자) |
(Setia, 2016).
5 Random-Digit Dialling (RDD)
Roster 없을 때 인구 기반 표집의 대안.
5.1 RDD 의 기본 절차 — Fig. 6.5
지역 코드 (Area code): 555
중앙국 prefix: 555-123- (8 자리)
무작위 마지막 2 자리: -45
완성된 번호: 555-123-45xy
여기서 xy 를 0~99 random 으로 할당.
지역 전화 prefix 의 모든 가능한 마지막 2 자리 조합에서 random sample 하여 잠재 control 에 도달하는 방법 (Schulz & Grimes, 2019, Ch.6.2).
3 단계 직관:
- 추상: 모든 거주 전화 번호의 동등 표집 + unlisted number 도 도달.
- 일상어 비유: 우편 발송에서 모든 주소를 무작위 추출 — 등록된 주소록뿐 아니라 미등록도 도달.
- 반사실: 만약 전화번호부 (listed only) 만 사용하면 unlisted 가구 누락 → 자기선택. RDD 는 이를 회피.
5.2 RDD 의 강점
- 모든 거주 번호 동등 표집 (이론).
- Unlisted number 도달.
- 상업 번호 최소화 (prefix 선정 시 거주 prefix 만).
- 빠른 모집 — 인터뷰까지 즉시.
5.3 RDD 의 쇠퇴 — 응답률의 붕괴
역사적 응답률 변화:
| 시기 | 응답률 |
|---|---|
| 1980s | > 90% |
| 2000s | < 70% (Tourangeau, 2003) |
| 2010s | 11% (Pew, 2012) |
원인:
- 응답기·번호 식별 도입 → 모르는 번호 거부.
- 휴대폰 보급 — 30% 이상 미국 가구가 landline 없음 (Blumberg & Luke, 2018).
- 번호 이동 (1996~) — 지역 코드가 거주지를 더 이상 반영 안 함.
3 단계 직관:
- 추상: \(P(\text{respond} \mid X, Y)\) 가 noise 클 뿐 아니라 X 와 상관일 수 있음 → selection bias.
- 일상어 비유: 우편 설문의 응답률이 70% 에서 10% 로 떨어지면 응답자가 자기선택된 부분 인구 → 일반 인구 대표 아님.
- 반사실: 응답률 90% 면 표본의 90% 정보 활용 가능 → 거의 인구 baseline. 11% 면 극단적 자기선택.
5.4 휴대폰 시대의 RDD 보강
문제: Atlanta 거주자의 area code 가 다른 지역 (예: NY) 일 수 있음 → Atlanta RDD 가 그를 미도달.
대안 1: 휴대폰 + landline 통합 RDD — 두 frame 의 합성 표집 (Brick et al., 2007).
대안 2: Marketing database — 상업 데이터로 거주지·기본 인구학적 특성 매핑 후 표집 (Goldberg et al., 2018). Lyme 병 case-control (tick 매개) 에서 case 거주지 근접성 중요 → marketing database 로 거리 기반 표집 (Goldberg et al., 2018).
대안 3: 출생증명서 (Northam et al., 2014) — 어린이 case-control 에 적용. 출생 등록부에서 control 표집.
5.5 RDD 응답자의 비대표성
연구들에 따르면 RDD 응답자가 일반 인구와 차이.
- 교육: 더 높음 (Cunradi et al., 2009).
- 사회경제 지위: 더 높음 (Ballesteros et al., 2008).
- 인구학적 특성: 비응답자와 다름 (Goldberg et al., 2018).
결과: RDD control 의 노출 분포가 일반 인구를 대표하지 않음 → 잔여 selection bias.
3 단계 직관:
- 추상: \(E[X \mid \text{respond}] \neq E[X]\) — 응답이 X 와 상관.
- 일상어 비유: 정치 여론 조사의 응답자가 정치 의식 있는 부분 인구라면 결과가 편향.
- 반사실: 응답률 가중 (post-stratification weighting) 으로 부분 보정 가능. 그러나 미측정 노출의 자기선택은 보정 불가.
6 Modern Alternatives — RDD 의 한계 극복
| 대안 | 특징 |
|---|---|
| Birth certificates | 출생 등록부 (어린이 case-control) |
| Marketing databases | 거리 기반 + 인구학적 표집 |
| EHR pools | 의료 보험·EMR 의 부분 인구 |
| Population registries | 북유럽 국가의 인구 등록부 (Sweden, Denmark) |
| Address-based sampling (ABS) | 우편 주소 기반 — 휴대폰만 가구 도달 |
- 추상: Random sampling 의 본질은 모든 단위가 동등 확률로 선택. 도구 (전화·주소·EHR) 는 변하지만 본질은 같음.
- 일상어 비유: 추첨 통의 모양이 변해도 추첨 자체는 같음. 단, 통이 부서지면 (응답률 ↓) 추첨이 깨짐.
- 반사실: 한 가지 도구만 의존하지 말고 다중 도구 (multimode) 사용 → 응답률·대표성 모두 보강.
7 IT 대응 — Cohort/Case-Control 의 표집
A/B 테스트의 사후 분석에서 이탈 사용자 (case) vs 활성 사용자 (control) 비교 시 표집 전략.
| 전통 RDD 의 IT 대응 | 의미 |
|---|---|
| Roster 기반 (known group) | 사용자 DB 의 random sample |
| RDD (unknown group) | 광고 출고 후 응답한 사용자만 (자기선택) |
| Birth certificates | 가입 등록 일자 기반 표집 |
| Marketing database | 외부 데이터 결합 (CRM, 광고 segment) |
핵심 통찰: IT 의 사용자 DB 가 known group 에 가까움 (roster 존재). 그러나 응답률 (설문 등) 의 자기선택은 RDD 와 같은 함정.
8 결론
Control 의 source 선정은 known vs unknown group 구분으로 시작. Known group 이면 roster 또는 RDD, unknown group 이면 hospital/neighbourhood/friend/relative.
RDD 는 응답률 11% 시대에 한계. Marketing database, ABS, multimode 표집이 현대 대안. 모든 대안이 같은 본질 — 모든 단위의 동등 표집 + 노출 독립.
다음 글(B21)에서는 unknown group 의 4 옵션 (neighbourhood, hospital, friend, relative) 을 깊이 본다.