Kwangmin Kim - Hill 의 인과 9 기준 — 관찰 연구의 인과 추론 가이드

1 배경 — 1965 년의 명제

정의: Hill’s Criteria

영국의 통계학자 Sir Austin Bradford Hill 이 1965 년 영국 왕립 의학협회 강연에서 제시한 9 가지 기준 (Hill, 1965).

목적: 관찰 연구에서 발견된 노출-결과 연관이 진성 인과인지 판단하는 가이드라인.

역사적 맥락: 1960 년대 흡연-폐암 인과 논쟁 — Hill 자신이 Doll 과 함께 흡연-폐암 연관을 보여준 case-control (1950) 의 저자.

2 9 기준 통합 정리

Hill's 9 Criteria
│
├── 1. Strength of Association (강도)        — RR/OR 의 크기
├── 2. Consistency (일관성)                  — 반복 연구의 일치
├── 3. Specificity (특이성)                  — 노출-결과의 일대일
├── 4. Temporality (시간성)                  — 노출이 결과 선행 ★ 필수
├── 5. Biological Gradient (용량-반응)       — Dose-response
├── 6. Plausibility (생물학적 타당성)         — 메커니즘 일치
├── 7. Coherence (일관성)                    — 자연사·연구·실험의 합치
├── 8. Experiment (실험적 증거)               — RCT
└── 9. Analogy (유추)                        — 유사 인과 사례

직관: Hill 의 명시적 메시지

Hill 자신이 이 기준을 “체크리스트”가 아닌 “고려할 관점” 으로 제시.
9 기준 모두 충족 → 인과 가능성 ↑.
9 기준 부분 충족 → 추가 연구 필요.
temporality 만이 유일한 필수 조건 — 결과가 노출보다 앞선다면 인과 불가.

3 기준 1 — Strength of Association

정의: 강도 (Strength)

연관의 크기 (RR, OR, HR) — 클수록 인과 가능성 ↑.

Hill 의 사례: - 흡연-폐암: RR 8~32. - 콜레라-수질 (Snow): RR 14.

(Hill, 1965).

3.1 직관 — 큰 효과 = 진성?

직관 3 단계: Bias factor 의 한계

추상: Bias factor 가 RR 8 을 만들기 위해선 매우 큰 systematic error 필요. 일반 bias factor 1.2~1.8 정도가 한계.
일상어 비유: 30cm 차이는 측정 오차로 설명 가능. 3m 차이는 측정 오차로 설명 안 됨.
반사실: 약한 연관 (RR 1.5) 은 bias 로 설명 가능. 강한 연관 (RR 10+) 은 진성 가능성 ↑.

3.2 한계 — 큰 효과도 bias 의 산물 가능

B31 의 IUD-PID 사례 (RR 11 → bias 보정 후 무의미). 강도가 절대 기준이 아님.

4 기준 2 — Consistency

여러 연구 (다른 설계·인구·시간) 에서 일관된 결과.

직관: Consistency 의 의미

추상: 다양한 환경에서 같은 결과 → bias 가 모든 연구에 같은 패턴은 거의 없음 → 진성 가능성 ↑.
일상어 비유: 한 검사기가 일관되게 같은 결과 → 측정 신뢰성 ↑. 검사기마다 다른 결과 → 측정 자체가 noise.
반사실: 한 연구의 결과만으로 인과 결론 → 출판 편향 + 우연 위험. Meta-analysis + 다중 연구 일관성이 더 강한 증거.

5 기준 3 — Specificity

특정 노출이 특정 결과만 유발 (one-to-one).

가정 위반: Specificity 의 약함

가설: 흡연이 폐암만 유발한다면 specificity ↑. 실제로 흡연은 심혈관·구강암·기종 등 다양한 결과 → specificity 약함.

3 단계 직관:

추상: One-to-one 노출-결과는 거의 없음. 대부분의 노출이 다중 결과.
일상어 비유: 한 약이 한 질환만 치료한다면 specificity ↑. 그러나 대부분 약은 여러 효과.
반사실: Specificity 는 약한 기준 — 충족 안 해도 인과 가능. Hill 자신이 후속 글에서 이 기준의 약함을 인정.

6 기준 4 — Temporality (필수)

가정 위반: Temporality 위반

원인이 결과보다 시간적으로 앞서야 한다. 이 기준은 유일한 필수 조건.

위반 시나리오: 만성 통증과 우울증의 cross-sectional 자료 — 어느 것이 먼저인가? 자료에서 결정 불가 → 인과 결론 불가.

3 단계 직관:

추상: \(T_X < T_Y\) — 노출 시점 이 결과 시점 보다 앞.
일상어 비유: 마라톤에서 결승선을 통과하기 전에 출발선을 통과해야. 출발선이 먼저.
반사실: Cohort study 가 시간 선후를 자료에서 직접 보장 → 가장 강한 인과 추론. Cross-sectional·case-control 은 시간 선후가 모호.

이 기준이 cohort study 가 case-control 보다 인과 추론에 강한 본질적 이유.

7 기준 5 — Biological Gradient (Dose-Response)

노출 양 증가 시 결과 위험 증가.

직관: Dose-Response 의 의의

추상: 단조 함수 관계 → 진성 인과 패턴 시사. Bias 로는 설명 어려움.
일상어 비유: 운동량이 늘수록 체중이 줄면 진성 효과. 무관 변수면 dose-response 약함.
반사실: 임계값 효과 (threshold) 또는 J-shape 도 가능 → 단순 단조 가정 깨질 수 있음.

사례: - 흡연 개비/일 ↑ → 폐암 위험 ↑ (단조). - 알코올 음주량 ↑ → 심혈관 위험 ↓~↑ (J-shape) — 적당한 음주가 보호?

8 기준 6 — Plausibility (생물학적 타당성)

알려진 생물학적 메커니즘과 일치.

가정 위반: Plausibility 의 함정

Hill 자신의 경고: “What is biologically plausible depends upon the biological knowledge of the day.”

즉 시대의 생물학 지식이 변하면 plausibility 도 변함.

3 단계 직관:

추상: Plausibility 는 사전 지식 의존. 사전 지식이 부정확하면 진성 인과를 기각.
일상어 비유: “마이크로파가 음식을 데울 수 있다” 가 1900 년에 plausibility 약함. 메커니즘 발견 전.
반사실: 새로운 메커니즘 발견 시 plausibility 재평가. 기존에 implausible 했던 효과가 실제일 수 있음.

9 기준 7 — Coherence

자연사·다른 연구·실험 결과와의 합치.

Plausibility 와 비슷하지만 더 넓은 범위 — 단순 메커니즘이 아닌 모든 증거의 통합.

10 기준 8 — Experiment

RCT 또는 quasi-experimental 증거.

직관: 가장 강한 증거

추상: 무작위 배정 → bias 자동 통제. RCT 의 인과 추론 강도 최고.
일상어 비유: 두 그룹 random 분반 후 한 그룹만 처치 → 진성 효과.
반사실: RCT 가 윤리적·실용적으로 불가능한 경우 (예: 흡연 RCT) → 다른 8 기준의 누적이 RCT 대신.

11 기준 9 — Analogy

유사한 인과 관계의 존재.

직관: 유추의 약한 도구

추상: A 가 X 를 유발한다면 B (A 와 유사) 도 X 를 유발할 가능성. 약한 단서.
일상어 비유: 한 약이 한 질환에 효과 → 유사 약도 유사 효과 가능.
반사실: 유추는 가설 생성 도구이지 검증 도구 아님. 가장 약한 9 기준 중 하나.

12 9 기준의 우선순위

직관: 기준의 강도 위계

강도	기준
필수	4. Temporality
강함	1. Strength, 5. Dose-response, 8. Experiment
중간	2. Consistency, 7. Coherence
약함	3. Specificity, 6. Plausibility, 9. Analogy

이 위계가 인과 추론의 실무 도구 — Temporality 충족 + 1·5·8 중 다수 충족이 강한 인과 증거.

13 IT 대응 — A/B 테스트의 인과 평가

Hill 기준	A/B 테스트 / IT 대응
1. Strength	Lift 의 크기 (작은 lift 는 noise 가능)
2. Consistency	다른 segment·시간·플랫폼에서 일치
3. Specificity	한 기능이 한 metric 만 영향
4. Temporality	A/B 무작위 배정 시 자동 보장
5. Dose-response	노출 강도 (사용 빈도) 와 효과의 단조 관계
6. Plausibility	UX·심리학·행동경제 메커니즘과 일치
7. Coherence	정성 연구 (사용자 인터뷰) 와 합치
8. Experiment	A/B 테스트 자체가 experiment
9. Analogy	유사 기능의 과거 효과

A/B 테스트는 4 + 8 을 자동 충족. 다른 기준은 사후 분석 필요.

14 결론 — Phase B 49 편 완성

Phase B 시리즈 마무리
│
├── SCH Ch.2 Descriptive Studies (4 편) — B1~B4
├── SCH Ch.4 Cohort Studies (5 편) — B5~B9
├── WOO Ch.5 Cohort 통계 (5 편) — B10~B14
├── SCH Ch.5 Case-Control (4 편) — B15~B18
├── SCH Ch.6 Finding Controls (4 편) — B19~B22
├── WOO Ch.6 Case-Control 통계 (6 편) — B23~B28
├── SCH Ch.7 Limitations (4 편) — B29~B32
├── SCH Ch.8 Screening (5 편) — B33~B37
├── SCH Ch.9 Likelihood Ratio (5 편) — B38~B42
├── WOO Ch.4.5~4.6 Standardisation+MH (4 편) — B43~B46
└── B-HILL Hill 9 기준 (1 편) — B47 (이 글)

신규 47 편 + retrofit 2 편 = 총 49 편 핸드오프 완성. 다음은 사용자 일괄 검수 + render + commit.

15 관련 주제

Phase B 전체 시리즈 (완성)

다른 카테고리

Effect Measures — 효과 지표 통합
관찰 연구 설계
인과 추론 프레임워크
Causal Inference Ch.7~8 — Confounding + Selection Bias (Hernan)