1 How Many Control Groups — 한 개 vs 두 개
한 가지 control 우선 (Schulz 의 권장):
- 잘 선정된 한 control 군이 두 개의 부실한 control 군보다 우수.
- 두 가지가 다른 결과를 주면 어느 것을 무시할지 결정 불가.
두 가지 control 도 유용 (대안 입장):
- 두 결과가 일치하면 결과의 강건성 강화.
- 한 source 의 편향을 다른 source 가 점검.
- Recall bias 비교: 다른 cancer 환자를 second control 로 → 같은 동기 부여로 회상 균형 (Stadel et al., 1985).
(Schulz & Grimes, 2019, Ch.6.5).
1.1 Case Study — Endometrial Cancer + Estrogen (Smith et al., 1975)
연구: 에스트로겐 치료와 자궁내막암 case-control.
- Cases: 자궁내막암 환자.
- Hospital control: 비-자궁내막암 hospital 환자.
- Community control: 같은 지역 비-환자.
비용: Community control 추가로 인터뷰 대상이 480 → 801 (67% 증가).
3 단계 직관:
- 추상: 두 control 의 OR 이 일치 → 결과 강건. 불일치 → 어느 것이 진실?
- 일상어 비유: 두 평론가의 영화 평가가 일치하면 영화 평가가 신뢰. 불일치하면 두 평론가 모두 의심.
- 반사실: 한 control 만 사용했다면 비용 ↓이지만 강건성 점검 ↓. 비용 vs 강건성 trade-off.
1.2 AIDS Case-Control 의 두 control (Moss et al., 1987)
B17 에서 본 사례 — STD clinic vs neighbourhood 두 control 모두 사용. 두 OR 의 큰 차이 (52.0 vs 2.9) 가 STD clinic control 의 부적절성을 드러냄.
이 사례는 “두 control 이 서로 점검 도구” 라는 중요한 기능을 보여준다.
2 Recall Bias 의 두 control 활용
Cancer case-control 에서:
- Community control: 비-cancer 일반인 → 자기 회상 동기 ↓ → recall bias 위험.
- Other-cancer control: 다른 cancer 환자 → 자기 진단 원인 회상 동기 ↑ → cases 와 같은 회상 강도.
3 단계 직관:
- 추상: \(\text{Recall accuracy}_{\text{community control}} < \text{Recall accuracy}_{\text{cancer case}}\). Other-cancer control 은 같은 회상 강도 가짐.
- 일상어 비유: 시험 합격자와 불합격자의 공부 시간 비교에서 불합격자도 비슷한 동기를 가지면 회상 차이 ↓.
- 반사실: Single control (community) 라면 OR 가 recall bias 로 부풀려짐. Other-cancer 추가로 진성 OR 에 가까운 추정.
3 How Many Controls Per Case — 비율의 검정력
매칭 case-control 또는 unmatched 의 검정력은 case 수와 control:case 비율의 함수.
비례 관계 (대표본): \[ \text{Var}(\hat{\log \text{OR}}) \approx \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} \]
비율을 1:k 로 늘리면 \(c, d\) 가 \(k\) 배가 되어 \(1/c + 1/d\) 가 1/k 로 ↓.
3.1 검정력의 plateau
검정력 vs 비율:
| Ratio | Relative Power Gain |
|---|---|
| 1:1 | 100% |
| 1:2 | ~90% (variance 감소) |
| 1:3 | ~85% |
| 1:4 | ~80% |
| 1:5 | ~78% — plateau |
| 1:10 | ~76% |
왜 plateau 인가:
- Cases 의 분산이 검정력의 lower bound. Control 무한 늘려도 case 분산은 그대로.
- \(\text{Var}(\log \text{OR}) = 1/a + 1/b + 1/c + 1/d\). Case-related terms (\(1/a, 1/b\)) 가 floor 를 결정.
3 단계 직관:
- 추상: 분산의 component 가 case 측과 control 측 두 부분. Control 만 늘려도 case 측 분산은 그대로 → diminishing return.
- 일상어 비유: 두 다리 의자에서 한 다리만 길게 늘려도 의자 안정도는 짧은 다리 길이에 의존. Limiting factor 의 법칙.
- 반사실: 만약 case 도 동시에 늘릴 수 있다면 검정력은 계속 ↑. 그러나 cases 의 표본은 자연 발생 한계.
3.2 Schulz 의 권장
Up to 1:4 — 검정력 ↑. 그 이상은 추가 노력 대비 한계 효용 미미.
3.3 TSS 사례 — 1:4 의 효과
시나리오: 1980 년대 미국 비-월경 TSS 가 surveillance 로 28 cases 식별. Cases 가 적으니 control 비율을 높여 검정력 보강.
선택: Age-matched 1:4 = 28 cases + 112 controls.
결과: 검정력 충분히 확보 → 위험 인자 식별 (Schwartz et al., 1989).
3 단계 직관:
- 추상: 사건이 적을 때 표본 부족이 검정력 한계. Case-related 분산이 큼 → control 추가가 효과적.
- 일상어 비유: 학생 4 명만 있는 실험에서 비교군을 16 명으로 늘려 결과 신뢰성 보강.
- 반사실: 1:1 (28 + 28) 만 했다면 검정력 부족. 1:10 (28 + 280) 까지 늘려도 큰 추가 이득 없음.
3.4 Stevens-Johnson Syndrome — 1:3 의 사례
35 cases + 1:3 = 105 controls. Age, sex, admission date matched (Yang et al., 2007). 1:3 도 충분.
3.5 1:N 의 이상값 — 데이터베이스 시대
Schulz 의 사례: UK 데이터베이스 case-control 에서 1,195 cases + 4,640 controls (1:3.9). 컴퓨터 데이터베이스가 control pool 을 사실상 무제한 제공해 비율을 높이기 쉬움.
그러나: 1:4 이상의 추가는 검정력보다 신뢰구간 좁힘 (precision) 효과만. 편향(bias) 에는 도움 안 됨.
3 단계 직관:
- 추상: Bias = \(E[\hat{\theta}] - \theta\) vs Variance = \(\text{Var}(\hat{\theta})\). Control 비율 ↑ 은 분산 ↓, 편향 그대로.
- 일상어 비유: 정확하게 측정 안 되는 자(분동) 로 100 회 측정하나 1,000 회 측정하나 평균은 비슷한 값으로 빗나감. 측정 도구 자체의 편향이 변하지 않음.
- 반사실: 편향 회피는 control 선정 (Source population 일치, 노출 독립) 으로만 가능. 비율 ↑ 으로는 못 함.
4 What to Look for in Controls — 평가 체크리스트
Schulz 의 핵심 점검 항목 (Ch.6.6).
4.1 Checklist
- Outcome Free: 관심 결과 미발생자.
- Population at Risk 대표: Case 가 발생한 인구의 노출 분포 반영.
- Exposure Independent: 선택이 노출 여부와 무관.
- Same Time and Place: Cases 와 같은 시점·장소.
4.2 Same Time and Place 의 의미
- 추상: 같은 시간 → 시대적 진단·치료 표준 일치. 같은 장소 → 환경·SES·인구 구성 일치.
- 일상어 비유: 두 학생의 점수 비교에서 다른 학년·다른 시기 시험을 비교하면 무의미. 같은 시기·같은 시험이 비교의 baseline.
- 반사실: 다른 시기·장소의 control 사용 시 시간·환경 변화가 confounder 로 침투.
4.3 A Control 이 Case 가 될 수 있다
Schulz 가 강조하는 흥미로운 통찰 — Control 도 연구 도중 결과를 발생시켜 case 가 될 수 있다. 이는 정상적이며, 그 사람은 case 군으로 이동.
- 추상: 한 사람이 시점 t 에 control 이라가 t+1 에 결과 발생 → t+1 부터는 case. Risk-set 분석에서 자연스러운 해석.
- 일상어 비유: 운동 경기에서 한 선수가 후반까지 부상 없다가 마지막에 부상 → 부상 case 군으로 이동.
- 반사실: 만약 control → case 이동이 분석에서 무시되면 발생률 추정 편향. Risk-set 또는 nested case-control 이 이를 정확 처리.
5 Inappropriate Control Group — 결과의 비용
Schulz 의 마지막 경고:
“Use of inappropriate control groups generally leads to both wrong conclusions and potential medical harm.”
잘못된 control 선정 = 잘못된 결론 = 잘못된 의학적 행동 = 환자 해.
5.1 사례 회상
| Bad control | 결과 | 의학적 비용 |
|---|---|---|
| Doll & Hill 1950: MI 환자 | 흡연 효과 underestimate | 정책 지연 |
| AIDS STD clinic: OR 2.9 | 위험 underestimate | 예방 지연 가능 |
| NSAID-colorectal: 류마티스 | 보호 효과 가짜 | 환자에게 불필요한 약 권장 |
| Multiphasic OCP-cyst (B4): 비교군 없음 | 가짜 인과 | 비계획 임신, 낙태 |
이 사례들이 Schulz 의 “potential medical harm” 의 구체적 의미.
6 Conclusion 이 강조하는 4 원칙
Schulz Ch.6 의 마무리:
- Control 은 인구의 노출 빈도를 추정.
- Known group 이면 random sample, unknown group 이면 same time and place.
- Control 은 결과 위험에 대표적이어야 함.
- “Choosing appropriate controls is the Achilles heel of case-control studies.”
7 결론 — Phase B SCH Ch.6 묶음 마무리
SCH Ch.6 시리즈 (4 편 마무리)
│
├── B19: 개관 — Compared to What? + 5 옵션 표
├── B20: Aim + Known group + RDD
├── B21: Unknown group 4 옵션 (Neighbourhood/Hospital/Friend/Relative)
└── B22: 수와 비율 + 평가 기준 (이 글)
다음 묶음 (WOO Ch.6 — Case-Control 통계 lens, B23~B28) 은 같은 주제를 통계학자의 시각으로 다시 본다 — Conditional logistic regression, McNemar’s test, matched analysis 의 수식과 직관.
8 관련 주제
다음 묶음
- 1111-11-11, WOO Ch.6 overview — 통계 lens
다른 카테고리