1 충격의 출발 — Ioannidis 2005
2005 년 Ioannidis 가 의학계에 충격을 준 논문 (PLoS Medicine).
핵심 주장: - 대부분의 출판된 연구 결과는 틀렸다. - 진성 결과 중에서도 대부분 효과가 과장되어 있다. - 작은 연구·약한 연관·여러 팀이 같은 연관을 추구할수록 거짓 양성 ↑.
(Ioannidis, 2005; Schulz & Grimes, 2019, Ch.7).
3 단계 직관:
- 추상: \(P(\text{Result True} \mid \text{Published, Significant}) < 0.5\) 인 시나리오가 흔함. 출판 편향 + bias + multiple testing 의 누적.
- 일상어 비유: 1,000 개 연관 검정 중 5% 가 우연히 유의 → 50 건 거짓 양성. 이들이 우선 출판되면 출판 풀의 다수 차지.
- 반사실: 사전 등록 + 보고 표준 + 다중 검정 보정 + meta-analysis 정직성 → 출판 풀의 신뢰성 ↑.
2 5 가지 한계 — Schulz Ch.7 의 구조
관찰 역학의 5 한계
│
├── 1. False Claims (거짓 주장) → B30
├── 2. Amateurs at Work (아마추어 연구자) → B30
├── 3. Administrative Databases (행정 DB) → B31
├── 4. Weak Associations (약한 연관) → B31
├── 5. Porous Peer Review (취약한 동료 심사) → B32
└── 6. Fraud (사기) → B32
3 한계 1 — False Claims 의 정량
연구: 식이·비타민·미네랄에 대한 12 무작위 시험이 52 관찰 연구의 주장을 검증 (Schulz 인용).
결과: - 하나도 확인되지 않음. - 10% (5 건) 는 반대 방향 효과 발견 — 관찰 연구가 정반대 결론을 도출했음.
3 단계 직관:
- 추상: 관찰 연구의 RR 이 진성 효과 + bias 의 합. Bias 가 효과 반대 방향이면 RR 도 반대.
- 일상어 비유: 흐린 거울에 비친 모습 — 흐림이 너무 강하면 거울이 거꾸로 비춰질 수도.
- 반사실: 같은 가설을 RCT 로 했다면 randomization 이 bias 제거 → 진성 효과 발현.
4 한계 2 — Amateurs at Work
의학 교육은 100 년 전 Flexner 보고 이후 표준화 (formal curriculum, 졸업시험, 자격증). 그러나 연구 교육은 여전히 도제식.
Schulz 의 진단: - 외과 수술하려면 자격증 필요. - 연구 출판하려면 자격증 불필요 — 누구나 manuscript 제출 가능. - 결과: 연구 보고의 다수가 통계 오류, 인과 추론 오역, 불완전 보고.
3 단계 직관:
- 추상: 연구 quality control 의 진입 장벽이 거의 0 → 평균 quality 가 임상보다 낮음.
- 일상어 비유: 누구나 운전할 수 있는 도시 — 사고율이 자연히 ↑.
- 반사실: 연구 방법 formal training (대학원 통계·역학) 의무화, journal 의 statistical reviewer 도입 → quality ↑.
5 한계 3 — Administrative Databases (Big Data 의 함정)
“Big data” — 보험 청구·진단 코드·인구 등록부 등 대규모 데이터셋.
5.1 강점
- 자료가 이미 수집됨.
- 큰 표본 → 정밀도 ↑.
- 시간 추세 모니터링 가능.
5.2 약점
FDA 의 경고: 약물 역학 연구에서 코드 기반 정의 (ICD 등) 의 양성예측도 (PPV) 확인 필수. 코드와 실제 진단의 불일치율이 클 수 있음.
Danish Patient Registry 사례: 진단별 PPV 가 < 15% 부터 100% 까지 변동. 정맥 혈전색전증의 oral contraceptive 분석에서 코호트 연구 결과와 다른 결론 — 진단 코드 오류가 원인.
3 단계 직관:
- 추상: \(\hat{X}_{\text{database}} \neq X_{\text{true}}\) 일 수 있음. PPV 가 낮으면 추정 OR 의 attenuation.
- 일상어 비유: 흐린 안경으로 두 가지 색깔을 구분하려 함. 색이 비슷하면 구분 불가.
- 반사실: 진단 코드 검증 + 의무 기록 sample audit → PPV 측정 후 분석. Pure database 분석은 불완전.
5.3 “Mass Significance” — 큰 표본의 함정
큰 표본은 미미한 효과도 통계 유의로 만든다. 그러나:
- 임상 유의성 (clinical relevance) 과 통계 유의성 (statistical significance) 는 다름.
- Bias 가 systematic 이면 큰 표본은 그 bias 를 더 정밀하게 추정할 뿐 (precisely wrong).
Schulz 의 표현: “Big data can find significant differences of no consequence.”
3 단계 직관:
- 추상: \(n \to \infty\) 면 SE → 0, 어떤 작은 효과도 p < 0.05. 그러나 effect size 자체는 의미 없을 수 있음.
- 일상어 비유: 매우 정밀한 저울로 머리카락 무게를 100 만 번 측정. 평균이 정확히 0.0001g 보다 큰 것이 통계 유의 — 그러나 실생활에 무의미.
- 반사실: 효과 크기 자체를 사전 임계값과 비교 (MDE, minimum detectable effect). p-value 만으로 결론 금지.
6 한계 4 — Weak Associations (약한 연관) 의 위험
Schulz 의 권장 (Fig. 7.2~7.3):
- Cohort study: RR 0.5 ~ 2.0 = “Zone of potential bias”. 이 범위는 잔여 bias 로 충분히 설명 가능.
- Case-control study: OR 0.33 ~ 3.0 = “Zone of potential bias”. 더 보수적 (case-control 이 bias 에 더 취약).
Zone of potential interest: 위 범위 밖.
6.1 Hill criteria 의 1 차 기준 — 강한 연관
- Hill 의 흡연-폐암: RR 8~32 (smoking 정도에 따라).
- Snow 의 콜레라-수질: RR 14.
3 단계 직관:
- 추상: Bias 가 RR 8 을 만들기 위해선 매우 큰 systematic effect 필요. Bias factor 가 8 배에 도달하기 어려움.
- 일상어 비유: 30cm 차이는 측정 오차로 설명 가능. 3m 차이는 측정 오차로 설명 안 됨.
- 반사실: RR 1.5 은 다양한 bias 로 설명 가능 → 약한 신호. RR 10 은 진성 효과일 가능성 ↑.
6.2 British IUD-PID 사례 — 큰 효과도 bias 의 산물일 수 있다
11 배 위험 → bias 보정 후 통계 유의성 사라짐 (Vessey et al., 1992 의 재분석).
이 사례가 보여주는 것: 큰 효과도 bias 가 누적되면 가짜일 수 있다. 단 작은 효과보다는 진성 가능성 ↑.
7 한계 5 — Porous Peer Review
Schulz 가 인용하는 편집자 평가: peer review 는 “slow, expensive, ineffective, something of a lottery, prone to bias and abuse, and hopeless at spotting errors and fraud” (Smith, 1997).
구체적 문제: - 심사자 대부분이 통계·역학 formal training 없음. - Editor 도 자격증 없음. - 무작위로 두 심사자에게 같은 manuscript 보내면 의견 일치 50% 미만 (Cicchetti, 1991).
3 단계 직관:
- 추상: Peer review 의 inter-rater reliability 가 chance 수준 → 심사가 quality control 도구로 약함.
- 일상어 비유: 학교 시험 채점에서 두 채점자의 일치도가 50% 인 것 — 채점 자체가 noise.
- 반사실: Statistical reviewer 도입, 사전 등록, 재현 가능성 점검 → quality ↑.
8 한계 6 — Fraud (사기)
Retraction Watch 의 추적: 의학 학술지 retraction 수가 시간에 따라 ↑.
원인: - 사기 (fabrication, falsification) 가 다수. - 이중 출판, salami slicing, 인용 조작 등.
Schulz 의 사례: Diederik Stapel (사회 심리학), 다수의 의학 사기 사례.
3 단계 직관:
- 추상: \(\text{Reward}_{\text{publish}} \gg \text{Cost}_{\text{detection}}\) → 사기의 경제적 유인.
- 일상어 비유: 큰 보상 + 작은 발견 위험 → 부정 행위 빈도 ↑.
- 반사실: Retraction Watch, ORCID, FAIR data principles 등이 발견 cost ↓ → 사기 유인 ↓.
9 85% 의 연구 자원 낭비
연구 보고에서 연간 연구 투자의 약 85%가 낭비 (Chalmers & Glasziou, 2009; The Lancet Series, 2014).
낭비의 원인: 1. 잘못된 질문 — 임상에 무관 (사회적 우선순위 부정합). 2. 잘못된 설계 — bias, confounding 미통제. 3. Inaccessible 결과 — 부정 결과 미출판. 4. Non-publication — 결과 자체 미출판. 5. Poor reporting — 재현 불가.
3 단계 직관:
- 추상: 단일 단계의 30~40% 손실이 5 단계 누적 → 0.6^5 ≈ 0.08 즉 92% 손실.
- 일상어 비유: 5 단계의 학교 → 직장 → 결혼 → 출산 → 노후의 각 단계 70% 성공률 → 전체 17% 만 도달.
- 반사실: 각 단계의 quality control 강화 (사전 등록, 결과 공유, 보고 표준) → 누적 손실 ↓.
10 결론
관찰 역학의 5 한계는 모두 인과 추론의 진입 장벽. 이 한계를 인식하지 못한 연구자가 “관찰 자료에서 인과를 결론” 내면 그 비용을 인구가 부담한다 (B4 의 다상성 약·EFM 사례 참조).
다음 글들에서 각 한계를 깊이 본다.
- B30: False Claims + Amateurs at Work
- B31: Administrative Databases + Weak Associations
- B32: Porous Peer Review + Fraud
11 관련 주제
Phase B 후속
- 1111-11-11, 거짓 주장과 아마추어 연구자
- 1111-11-11, 행정 DB 와 약한 연관
- 1111-11-11, 동료 심사와 사기
다른 카테고리