Kwangmin Kim - 대조군의 목적 + Known Group + Random-Digit Dialling

1 Aim of Controls — 핵심 정의 재확인

Control 의 임무는 단 하나 — 배경 노출 빈도(background exposure frequency) 의 무편향 추정 (Schulz & Grimes, 2019, Ch.6.1).

정의: Background Exposure Frequency

연구 인구에서 결과 미발생자의 노출 prevalence — \(P(X=1 \mid Y=0)\).

이 양이 잘 추정되어야 OR 의 분모가 정직하게 산출된다.

3 단계 직관:

추상: \(\text{OR} = \frac{P(X=1|Y=1) / P(X=0|Y=1)}{P(X=1|Y=0) / P(X=0|Y=0)}\) — 분모 추정에 control 직접 사용.
일상어 비유: 환자 군 흡연율(70%) 대비 일반인 흡연율(20%) 차이로 효과 추정. 일반인 추정에 잘못된 표본을 쓰면 OR 가 흔들린다.
반사실: Control 의 노출 분율이 인구 평균과 다르면 (자기선택, hospital pool, etc.) OR 추정 편향.

2 Cervical Cancer 와 Sex Partners — 양의 연관

사례: 명확한 양의 연관

Case: 자궁경부암 환자. Control: 자궁경부암 미발생자. 노출: 다중 성 파트너.

결과: cases 의 노출 빈도 > controls 의 노출 빈도 → OR > 1 (양의 연관).

해석: 다중 성 파트너가 자궁경부암 위험 인자 (HPV 매개). HPV 백신·검진 정책의 근거.

3 Ovarian Cancer 와 OCP — 음의 연관 (Protection)

사례: 보호 효과

Case: 난소암 환자. Control: 난소암 미발생자. 노출: 경구피임약 (OCP).

결과: cases 의 노출 빈도 < controls 의 노출 빈도 → OR < 1 (음의 연관, 보호).

해석: 경구피임약이 난소암 위험을 낮춤. Iversen et al. (2017) 의 평생 위험 추정에서도 같은 방향.

4 Where to Find Controls — Known vs Unknown Group

Schulz 의 분류는 source 인구의 정의 가능성을 기준으로.

[Known group]
   ├── Roster 존재 → 무작위 표집
   └── Roster 미존재 → Random-Digit Dialling (RDD)

[Unknown group]
   ├── Hospital
   ├── Neighbourhood
   ├── Friend / Associate
   └── Relative

4.1 Known Group — Roster 가 있는 경우

정의: Known Group

정의된 인구를 일정 기간 관찰. 예: 카리브 크루즈 1 주 승객, 10 년간 스웨덴 거주자, 한 회사 직원, 한 학교 학생 (Schulz & Grimes, 2019, Ch.6.2).

Case-Control = Cohort 의 nested 분석: Known group 안에서 case 를 식별하고, 같은 group 의 비-case 를 control 로. 이는 nested case-control 의 모범.

4.2 Cruise Ship 식중독 사례

사례: 가장 깨끗한 control 표집

시나리오: 크루즈선 식중독 outbreak. - Cases: 항해 중 위장염 발생자. - Controls: 같은 배 미발생자에서 random sample.

왜 깨끗한가: - 같은 시간·공간 → 환경 confounder 자동 통제. - 같은 음식 노출 → exposure source 일치. - Roster 존재 → random sampling 가능.

3 단계 직관:

추상: Confined population + roster + 같은 노출 source → control 의 모든 속성 (Panel 6.1) 충족.
일상어 비유: 한 학교의 한 반 학생 식중독 → 같은 반 미발생 학생을 control. 외부 변수 자동 통제.
반사실: Confined 가 아니라면 (예: 도시 식중독) 식자재 source·노출 시점 다름 → control 선정 어려움.

4.3 Population Controls 의 양면성

강점	약점
Random sampling → 대표성	Case 가 모두 식별되지 않으면 매칭 불완전
결과의 일반화 정당화	비응답 (휴가, 미접촉) ↑
Hospital control 의 자기선택 회피	응답 동기 ↓ (비-환자)

(Setia, 2016).

5 Random-Digit Dialling (RDD)

Roster 없을 때 인구 기반 표집의 대안.

5.1 RDD 의 기본 절차 — Fig. 6.5

지역 코드 (Area code): 555
중앙국 prefix: 555-123- (8 자리)
무작위 마지막 2 자리: -45
완성된 번호: 555-123-45xy

여기서 xy 를 0~99 random 으로 할당.

정의: RDD

지역 전화 prefix 의 모든 가능한 마지막 2 자리 조합에서 random sample 하여 잠재 control 에 도달하는 방법 (Schulz & Grimes, 2019, Ch.6.2).

3 단계 직관:

추상: 모든 거주 전화 번호의 동등 표집 + unlisted number 도 도달.
일상어 비유: 우편 발송에서 모든 주소를 무작위 추출 — 등록된 주소록뿐 아니라 미등록도 도달.
반사실: 만약 전화번호부 (listed only) 만 사용하면 unlisted 가구 누락 → 자기선택. RDD 는 이를 회피.

5.2 RDD 의 강점

모든 거주 번호 동등 표집 (이론).
Unlisted number 도달.
상업 번호 최소화 (prefix 선정 시 거주 prefix 만).
빠른 모집 — 인터뷰까지 즉시.

5.3 RDD 의 쇠퇴 — 응답률의 붕괴

가정 위반: 응답률의 시대적 변화

역사적 응답률 변화:

시기	응답률
1980s	> 90%
2000s	< 70% (Tourangeau, 2003)
2010s	11% (Pew, 2012)

원인:

응답기·번호 식별 도입 → 모르는 번호 거부.
휴대폰 보급 — 30% 이상 미국 가구가 landline 없음 (Blumberg & Luke, 2018).
번호 이동 (1996~) — 지역 코드가 거주지를 더 이상 반영 안 함.

3 단계 직관:

추상: \(P(\text{respond} \mid X, Y)\) 가 noise 클 뿐 아니라 X 와 상관일 수 있음 → selection bias.
일상어 비유: 우편 설문의 응답률이 70% 에서 10% 로 떨어지면 응답자가 자기선택된 부분 인구 → 일반 인구 대표 아님.
반사실: 응답률 90% 면 표본의 90% 정보 활용 가능 → 거의 인구 baseline. 11% 면 극단적 자기선택.

5.4 휴대폰 시대의 RDD 보강

직관: RDD 와 휴대폰 통합

문제: Atlanta 거주자의 area code 가 다른 지역 (예: NY) 일 수 있음 → Atlanta RDD 가 그를 미도달.

대안 1: 휴대폰 + landline 통합 RDD — 두 frame 의 합성 표집 (Brick et al., 2007).

대안 2: Marketing database — 상업 데이터로 거주지·기본 인구학적 특성 매핑 후 표집 (Goldberg et al., 2018). Lyme 병 case-control (tick 매개) 에서 case 거주지 근접성 중요 → marketing database 로 거리 기반 표집 (Goldberg et al., 2018).

대안 3: 출생증명서 (Northam et al., 2014) — 어린이 case-control 에 적용. 출생 등록부에서 control 표집.

5.5 RDD 응답자의 비대표성

가정 위반: 응답자 ≠ 인구

연구들에 따르면 RDD 응답자가 일반 인구와 차이.

교육: 더 높음 (Cunradi et al., 2009).
사회경제 지위: 더 높음 (Ballesteros et al., 2008).
인구학적 특성: 비응답자와 다름 (Goldberg et al., 2018).

결과: RDD control 의 노출 분포가 일반 인구를 대표하지 않음 → 잔여 selection bias.

3 단계 직관:

추상: \(E[X \mid \text{respond}] \neq E[X]\) — 응답이 X 와 상관.
일상어 비유: 정치 여론 조사의 응답자가 정치 의식 있는 부분 인구라면 결과가 편향.
반사실: 응답률 가중 (post-stratification weighting) 으로 부분 보정 가능. 그러나 미측정 노출의 자기선택은 보정 불가.

6 Modern Alternatives — RDD 의 한계 극복

대안	특징
Birth certificates	출생 등록부 (어린이 case-control)
Marketing databases	거리 기반 + 인구학적 표집
EHR pools	의료 보험·EMR 의 부분 인구
Population registries	북유럽 국가의 인구 등록부 (Sweden, Denmark)
Address-based sampling (ABS)	우편 주소 기반 — 휴대폰만 가구 도달

직관: 표집 도구의 시대 변화

추상: Random sampling 의 본질은 모든 단위가 동등 확률로 선택. 도구 (전화·주소·EHR) 는 변하지만 본질은 같음.
일상어 비유: 추첨 통의 모양이 변해도 추첨 자체는 같음. 단, 통이 부서지면 (응답률 ↓) 추첨이 깨짐.
반사실: 한 가지 도구만 의존하지 말고 다중 도구 (multimode) 사용 → 응답률·대표성 모두 보강.

7 IT 대응 — Cohort/Case-Control 의 표집

A/B 테스트의 사후 분석에서 이탈 사용자 (case) vs 활성 사용자 (control) 비교 시 표집 전략.

전통 RDD 의 IT 대응	의미
Roster 기반 (known group)	사용자 DB 의 random sample
RDD (unknown group)	광고 출고 후 응답한 사용자만 (자기선택)
Birth certificates	가입 등록 일자 기반 표집
Marketing database	외부 데이터 결합 (CRM, 광고 segment)

핵심 통찰: IT 의 사용자 DB 가 known group 에 가까움 (roster 존재). 그러나 응답률 (설문 등) 의 자기선택은 RDD 와 같은 함정.

8 결론

Control 의 source 선정은 known vs unknown group 구분으로 시작. Known group 이면 roster 또는 RDD, unknown group 이면 hospital/neighbourhood/friend/relative.

RDD 는 응답률 11% 시대에 한계. Marketing database, ABS, multimode 표집이 현대 대안. 모든 대안이 같은 본질 — 모든 단위의 동등 표집 + 노출 독립.

다음 글(B21)에서는 unknown group 의 4 옵션 (neighbourhood, hospital, friend, relative) 을 깊이 본다.

9 관련 주제

Finding Controls overview
1111-11-11, Unknown Group: Neighbourhood/Hospital/Friend/Relative
1111-11-11, Control 의 수와 무엇을 평가할 것인가
Case·Control 선정 (SCH Ch.5)