Kwangmin Kim - 관찰 역학의 구조적 한계

1 충격의 출발 — Ioannidis 2005

“Most Published Research Findings Are False”

2005 년 Ioannidis 가 의학계에 충격을 준 논문 (PLoS Medicine).

핵심 주장: - 대부분의 출판된 연구 결과는 틀렸다. - 진성 결과 중에서도 대부분 효과가 과장되어 있다. - 작은 연구·약한 연관·여러 팀이 같은 연관을 추구할수록 거짓 양성 ↑.

(Ioannidis, 2005; Schulz & Grimes, 2019, Ch.7).

3 단계 직관:

추상: \(P(\text{Result True} \mid \text{Published, Significant}) < 0.5\) 인 시나리오가 흔함. 출판 편향 + bias + multiple testing 의 누적.
일상어 비유: 1,000 개 연관 검정 중 5% 가 우연히 유의 → 50 건 거짓 양성. 이들이 우선 출판되면 출판 풀의 다수 차지.
반사실: 사전 등록 + 보고 표준 + 다중 검정 보정 + meta-analysis 정직성 → 출판 풀의 신뢰성 ↑.

2 5 가지 한계 — Schulz Ch.7 의 구조

관찰 역학의 5 한계
│
├── 1. False Claims (거짓 주장)              → B30
├── 2. Amateurs at Work (아마추어 연구자)    → B30
├── 3. Administrative Databases (행정 DB)    → B31
├── 4. Weak Associations (약한 연관)         → B31
├── 5. Porous Peer Review (취약한 동료 심사)  → B32
└── 6. Fraud (사기)                          → B32

3 한계 1 — False Claims 의 정량

사례: 12 RCT 가 52 관찰 주장을 검증

연구: 식이·비타민·미네랄에 대한 12 무작위 시험이 52 관찰 연구의 주장을 검증 (Schulz 인용).

결과: - 하나도 확인되지 않음. - 10% (5 건) 는 반대 방향 효과 발견 — 관찰 연구가 정반대 결론을 도출했음.

3 단계 직관:

추상: 관찰 연구의 RR 이 진성 효과 + bias 의 합. Bias 가 효과 반대 방향이면 RR 도 반대.
일상어 비유: 흐린 거울에 비친 모습 — 흐림이 너무 강하면 거울이 거꾸로 비춰질 수도.
반사실: 같은 가설을 RCT 로 했다면 randomization 이 bias 제거 → 진성 효과 발현.

4 한계 2 — Amateurs at Work

의학 교육은 100 년 전 Flexner 보고 이후 표준화 (formal curriculum, 졸업시험, 자격증). 그러나 연구 교육은 여전히 도제식.

가정 위반: 연구 자격증의 부재

Schulz 의 진단: - 외과 수술하려면 자격증 필요. - 연구 출판하려면 자격증 불필요 — 누구나 manuscript 제출 가능. - 결과: 연구 보고의 다수가 통계 오류, 인과 추론 오역, 불완전 보고.

3 단계 직관:

추상: 연구 quality control 의 진입 장벽이 거의 0 → 평균 quality 가 임상보다 낮음.
일상어 비유: 누구나 운전할 수 있는 도시 — 사고율이 자연히 ↑.
반사실: 연구 방법 formal training (대학원 통계·역학) 의무화, journal 의 statistical reviewer 도입 → quality ↑.

5 한계 3 — Administrative Databases (Big Data 의 함정)

“Big data” — 보험 청구·진단 코드·인구 등록부 등 대규모 데이터셋.

5.1 강점

자료가 이미 수집됨.
큰 표본 → 정밀도 ↑.
시간 추세 모니터링 가능.

5.2 약점

가정 위반: “Big Data 가 거짓일 수 있다”

FDA 의 경고: 약물 역학 연구에서 코드 기반 정의 (ICD 등) 의 양성예측도 (PPV) 확인 필수. 코드와 실제 진단의 불일치율이 클 수 있음.

Danish Patient Registry 사례: 진단별 PPV 가 < 15% 부터 100% 까지 변동. 정맥 혈전색전증의 oral contraceptive 분석에서 코호트 연구 결과와 다른 결론 — 진단 코드 오류가 원인.

3 단계 직관:

추상: \(\hat{X}_{\text{database}} \neq X_{\text{true}}\) 일 수 있음. PPV 가 낮으면 추정 OR 의 attenuation.
일상어 비유: 흐린 안경으로 두 가지 색깔을 구분하려 함. 색이 비슷하면 구분 불가.
반사실: 진단 코드 검증 + 의무 기록 sample audit → PPV 측정 후 분석. Pure database 분석은 불완전.

5.3 “Mass Significance” — 큰 표본의 함정

가정 위반: 통계 유의성과 임상 유의성

큰 표본은 미미한 효과도 통계 유의로 만든다. 그러나:

임상 유의성 (clinical relevance) 과 통계 유의성 (statistical significance) 는 다름.
Bias 가 systematic 이면 큰 표본은 그 bias 를 더 정밀하게 추정할 뿐 (precisely wrong).

Schulz 의 표현: “Big data can find significant differences of no consequence.”

3 단계 직관:

추상: \(n \to \infty\) 면 SE → 0, 어떤 작은 효과도 p < 0.05. 그러나 effect size 자체는 의미 없을 수 있음.
일상어 비유: 매우 정밀한 저울로 머리카락 무게를 100 만 번 측정. 평균이 정확히 0.0001g 보다 큰 것이 통계 유의 — 그러나 실생활에 무의미.
반사실: 효과 크기 자체를 사전 임계값과 비교 (MDE, minimum detectable effect). p-value 만으로 결론 금지.

6 한계 4 — Weak Associations (약한 연관) 의 위험

정의: Weak Association 의 임계값

Schulz 의 권장 (Fig. 7.2~7.3):

Cohort study: RR 0.5 ~ 2.0 = “Zone of potential bias”. 이 범위는 잔여 bias 로 충분히 설명 가능.
Case-control study: OR 0.33 ~ 3.0 = “Zone of potential bias”. 더 보수적 (case-control 이 bias 에 더 취약).

Zone of potential interest: 위 범위 밖.

6.1 Hill criteria 의 1 차 기준 — 강한 연관

직관: 강한 연관이 인과를 더 강하게 시사

Hill 의 흡연-폐암: RR 8~32 (smoking 정도에 따라).
Snow 의 콜레라-수질: RR 14.

3 단계 직관:

추상: Bias 가 RR 8 을 만들기 위해선 매우 큰 systematic effect 필요. Bias factor 가 8 배에 도달하기 어려움.
일상어 비유: 30cm 차이는 측정 오차로 설명 가능. 3m 차이는 측정 오차로 설명 안 됨.
반사실: RR 1.5 은 다양한 bias 로 설명 가능 → 약한 신호. RR 10 은 진성 효과일 가능성 ↑.

6.2 British IUD-PID 사례 — 큰 효과도 bias 의 산물일 수 있다

11 배 위험 → bias 보정 후 통계 유의성 사라짐 (Vessey et al., 1992 의 재분석).

이 사례가 보여주는 것: 큰 효과도 bias 가 누적되면 가짜일 수 있다. 단 작은 효과보다는 진성 가능성 ↑.

7 한계 5 — Porous Peer Review

가정 위반: 동료 심사가 quality 를 보장한다

Schulz 가 인용하는 편집자 평가: peer review 는 “slow, expensive, ineffective, something of a lottery, prone to bias and abuse, and hopeless at spotting errors and fraud” (Smith, 1997).

구체적 문제: - 심사자 대부분이 통계·역학 formal training 없음. - Editor 도 자격증 없음. - 무작위로 두 심사자에게 같은 manuscript 보내면 의견 일치 50% 미만 (Cicchetti, 1991).

3 단계 직관:

추상: Peer review 의 inter-rater reliability 가 chance 수준 → 심사가 quality control 도구로 약함.
일상어 비유: 학교 시험 채점에서 두 채점자의 일치도가 50% 인 것 — 채점 자체가 noise.
반사실: Statistical reviewer 도입, 사전 등록, 재현 가능성 점검 → quality ↑.

8 한계 6 — Fraud (사기)

사기 사례 증가

Retraction Watch 의 추적: 의학 학술지 retraction 수가 시간에 따라 ↑.

원인: - 사기 (fabrication, falsification) 가 다수. - 이중 출판, salami slicing, 인용 조작 등.

Schulz 의 사례: Diederik Stapel (사회 심리학), 다수의 의학 사기 사례.

3 단계 직관:

추상: \(\text{Reward}_{\text{publish}} \gg \text{Cost}_{\text{detection}}\) → 사기의 경제적 유인.
일상어 비유: 큰 보상 + 작은 발견 위험 → 부정 행위 빈도 ↑.
반사실: Retraction Watch, ORCID, FAIR data principles 등이 발견 cost ↓ → 사기 유인 ↓.

9 85% 의 연구 자원 낭비

Lancet 의 2014 추정

연구 보고에서 연간 연구 투자의 약 85%가 낭비 (Chalmers & Glasziou, 2009; The Lancet Series, 2014).

낭비의 원인: 1. 잘못된 질문 — 임상에 무관 (사회적 우선순위 부정합). 2. 잘못된 설계 — bias, confounding 미통제. 3. Inaccessible 결과 — 부정 결과 미출판. 4. Non-publication — 결과 자체 미출판. 5. Poor reporting — 재현 불가.

3 단계 직관:

추상: 단일 단계의 30~40% 손실이 5 단계 누적 → 0.6^5 ≈ 0.08 즉 92% 손실.
일상어 비유: 5 단계의 학교 → 직장 → 결혼 → 출산 → 노후의 각 단계 70% 성공률 → 전체 17% 만 도달.
반사실: 각 단계의 quality control 강화 (사전 등록, 결과 공유, 보고 표준) → 누적 손실 ↓.

10 결론

관찰 역학의 5 한계는 모두 인과 추론의 진입 장벽. 이 한계를 인식하지 못한 연구자가 “관찰 자료에서 인과를 결론” 내면 그 비용을 인구가 부담한다 (B4 의 다상성 약·EFM 사례 참조).

다음 글들에서 각 한계를 깊이 본다.

B30: False Claims + Amateurs at Work
B31: Administrative Databases + Weak Associations
B32: Porous Peer Review + Fraud

11 관련 주제

Phase B 후속

다른 카테고리