1 배경 — 1965 년의 명제
영국의 통계학자 Sir Austin Bradford Hill 이 1965 년 영국 왕립 의학협회 강연에서 제시한 9 가지 기준 (Hill, 1965).
목적: 관찰 연구에서 발견된 노출-결과 연관이 진성 인과인지 판단하는 가이드라인.
역사적 맥락: 1960 년대 흡연-폐암 인과 논쟁 — Hill 자신이 Doll 과 함께 흡연-폐암 연관을 보여준 case-control (1950) 의 저자.
2 9 기준 통합 정리
Hill's 9 Criteria
│
├── 1. Strength of Association (강도) — RR/OR 의 크기
├── 2. Consistency (일관성) — 반복 연구의 일치
├── 3. Specificity (특이성) — 노출-결과의 일대일
├── 4. Temporality (시간성) — 노출이 결과 선행 ★ 필수
├── 5. Biological Gradient (용량-반응) — Dose-response
├── 6. Plausibility (생물학적 타당성) — 메커니즘 일치
├── 7. Coherence (일관성) — 자연사·연구·실험의 합치
├── 8. Experiment (실험적 증거) — RCT
└── 9. Analogy (유추) — 유사 인과 사례
- Hill 자신이 이 기준을 “체크리스트”가 아닌 “고려할 관점” 으로 제시.
- 9 기준 모두 충족 → 인과 가능성 ↑.
- 9 기준 부분 충족 → 추가 연구 필요.
- temporality 만이 유일한 필수 조건 — 결과가 노출보다 앞선다면 인과 불가.
3 기준 1 — Strength of Association
연관의 크기 (RR, OR, HR) — 클수록 인과 가능성 ↑.
Hill 의 사례: - 흡연-폐암: RR 8~32. - 콜레라-수질 (Snow): RR 14.
(Hill, 1965).
3.1 직관 — 큰 효과 = 진성?
- 추상: Bias factor 가 RR 8 을 만들기 위해선 매우 큰 systematic error 필요. 일반 bias factor 1.2~1.8 정도가 한계.
- 일상어 비유: 30cm 차이는 측정 오차로 설명 가능. 3m 차이는 측정 오차로 설명 안 됨.
- 반사실: 약한 연관 (RR 1.5) 은 bias 로 설명 가능. 강한 연관 (RR 10+) 은 진성 가능성 ↑.
3.2 한계 — 큰 효과도 bias 의 산물 가능
B31 의 IUD-PID 사례 (RR 11 → bias 보정 후 무의미). 강도가 절대 기준이 아님.
4 기준 2 — Consistency
여러 연구 (다른 설계·인구·시간) 에서 일관된 결과.
- 추상: 다양한 환경에서 같은 결과 → bias 가 모든 연구에 같은 패턴은 거의 없음 → 진성 가능성 ↑.
- 일상어 비유: 한 검사기가 일관되게 같은 결과 → 측정 신뢰성 ↑. 검사기마다 다른 결과 → 측정 자체가 noise.
- 반사실: 한 연구의 결과만으로 인과 결론 → 출판 편향 + 우연 위험. Meta-analysis + 다중 연구 일관성이 더 강한 증거.
5 기준 3 — Specificity
특정 노출이 특정 결과만 유발 (one-to-one).
가설: 흡연이 폐암만 유발한다면 specificity ↑. 실제로 흡연은 심혈관·구강암·기종 등 다양한 결과 → specificity 약함.
3 단계 직관:
- 추상: One-to-one 노출-결과는 거의 없음. 대부분의 노출이 다중 결과.
- 일상어 비유: 한 약이 한 질환만 치료한다면 specificity ↑. 그러나 대부분 약은 여러 효과.
- 반사실: Specificity 는 약한 기준 — 충족 안 해도 인과 가능. Hill 자신이 후속 글에서 이 기준의 약함을 인정.
6 기준 4 — Temporality (필수)
원인이 결과보다 시간적으로 앞서야 한다. 이 기준은 유일한 필수 조건.
위반 시나리오: 만성 통증과 우울증의 cross-sectional 자료 — 어느 것이 먼저인가? 자료에서 결정 불가 → 인과 결론 불가.
3 단계 직관:
- 추상: \(T_X < T_Y\) — 노출 시점 이 결과 시점 보다 앞.
- 일상어 비유: 마라톤에서 결승선을 통과하기 전에 출발선을 통과해야. 출발선이 먼저.
- 반사실: Cohort study 가 시간 선후를 자료에서 직접 보장 → 가장 강한 인과 추론. Cross-sectional·case-control 은 시간 선후가 모호.
이 기준이 cohort study 가 case-control 보다 인과 추론에 강한 본질적 이유.
7 기준 5 — Biological Gradient (Dose-Response)
노출 양 증가 시 결과 위험 증가.
- 추상: 단조 함수 관계 → 진성 인과 패턴 시사. Bias 로는 설명 어려움.
- 일상어 비유: 운동량이 늘수록 체중이 줄면 진성 효과. 무관 변수면 dose-response 약함.
- 반사실: 임계값 효과 (threshold) 또는 J-shape 도 가능 → 단순 단조 가정 깨질 수 있음.
사례: - 흡연 개비/일 ↑ → 폐암 위험 ↑ (단조). - 알코올 음주량 ↑ → 심혈관 위험 ↓~↑ (J-shape) — 적당한 음주가 보호?
8 기준 6 — Plausibility (생물학적 타당성)
알려진 생물학적 메커니즘과 일치.
Hill 자신의 경고: “What is biologically plausible depends upon the biological knowledge of the day.”
즉 시대의 생물학 지식이 변하면 plausibility 도 변함.
3 단계 직관:
- 추상: Plausibility 는 사전 지식 의존. 사전 지식이 부정확하면 진성 인과를 기각.
- 일상어 비유: “마이크로파가 음식을 데울 수 있다” 가 1900 년에 plausibility 약함. 메커니즘 발견 전.
- 반사실: 새로운 메커니즘 발견 시 plausibility 재평가. 기존에 implausible 했던 효과가 실제일 수 있음.
9 기준 7 — Coherence
자연사·다른 연구·실험 결과와의 합치.
Plausibility 와 비슷하지만 더 넓은 범위 — 단순 메커니즘이 아닌 모든 증거의 통합.
10 기준 8 — Experiment
RCT 또는 quasi-experimental 증거.
- 추상: 무작위 배정 → bias 자동 통제. RCT 의 인과 추론 강도 최고.
- 일상어 비유: 두 그룹 random 분반 후 한 그룹만 처치 → 진성 효과.
- 반사실: RCT 가 윤리적·실용적으로 불가능한 경우 (예: 흡연 RCT) → 다른 8 기준의 누적이 RCT 대신.
11 기준 9 — Analogy
유사한 인과 관계의 존재.
- 추상: A 가 X 를 유발한다면 B (A 와 유사) 도 X 를 유발할 가능성. 약한 단서.
- 일상어 비유: 한 약이 한 질환에 효과 → 유사 약도 유사 효과 가능.
- 반사실: 유추는 가설 생성 도구이지 검증 도구 아님. 가장 약한 9 기준 중 하나.
12 9 기준의 우선순위
| 강도 | 기준 |
|---|---|
| 필수 | 4. Temporality |
| 강함 | 1. Strength, 5. Dose-response, 8. Experiment |
| 중간 | 2. Consistency, 7. Coherence |
| 약함 | 3. Specificity, 6. Plausibility, 9. Analogy |
이 위계가 인과 추론의 실무 도구 — Temporality 충족 + 1·5·8 중 다수 충족이 강한 인과 증거.
13 IT 대응 — A/B 테스트의 인과 평가
| Hill 기준 | A/B 테스트 / IT 대응 |
|---|---|
| 1. Strength | Lift 의 크기 (작은 lift 는 noise 가능) |
| 2. Consistency | 다른 segment·시간·플랫폼에서 일치 |
| 3. Specificity | 한 기능이 한 metric 만 영향 |
| 4. Temporality | A/B 무작위 배정 시 자동 보장 |
| 5. Dose-response | 노출 강도 (사용 빈도) 와 효과의 단조 관계 |
| 6. Plausibility | UX·심리학·행동경제 메커니즘과 일치 |
| 7. Coherence | 정성 연구 (사용자 인터뷰) 와 합치 |
| 8. Experiment | A/B 테스트 자체가 experiment |
| 9. Analogy | 유사 기능의 과거 효과 |
A/B 테스트는 4 + 8 을 자동 충족. 다른 기준은 사후 분석 필요.
14 결론 — Phase B 49 편 완성
Phase B 시리즈 마무리
│
├── SCH Ch.2 Descriptive Studies (4 편) — B1~B4
├── SCH Ch.4 Cohort Studies (5 편) — B5~B9
├── WOO Ch.5 Cohort 통계 (5 편) — B10~B14
├── SCH Ch.5 Case-Control (4 편) — B15~B18
├── SCH Ch.6 Finding Controls (4 편) — B19~B22
├── WOO Ch.6 Case-Control 통계 (6 편) — B23~B28
├── SCH Ch.7 Limitations (4 편) — B29~B32
├── SCH Ch.8 Screening (5 편) — B33~B37
├── SCH Ch.9 Likelihood Ratio (5 편) — B38~B42
├── WOO Ch.4.5~4.6 Standardisation+MH (4 편) — B43~B46
└── B-HILL Hill 9 기준 (1 편) — B47 (이 글)
신규 47 편 + retrofit 2 편 = 총 49 편 핸드오프 완성. 다음은 사용자 일괄 검수 + render + commit.
15 관련 주제
Phase B 전체 시리즈 (완성)
- 기술 연구 (B1~B4)
- Cohort (B5~B14)
- Case-Control (B15~B28)
- 관찰 한계 (B29~B32)
- 선별·LR (B33~B42)
- 표준화·MH (B43~B46)
다른 카테고리