거짓 주장과 아마추어 연구자

Schulz & Grimes Ch.7.1~7.2 — False Claims & Amateurs at Work

관찰 역학의 거짓 주장 9 가지 사례 (Panel 7.1) — 흡연-자살, 베타카로틴-폐암, 폐경기 호르몬-CHD, 경구피임약-뇌하수체 종양 등 — 의 메커니즘과 회피를 정리한다. 그리고 의학 연구자의 도제식 훈련 한계와 연구 자격증 부재의 함의를 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다.

Experimentation
Epidemiology
저자

Kwangmin Kim

공개

2026년 05월 08일

1 7.1 False Claims — 9 가지 거짓 주장

Panel 7.1 — Spurious Associations 정리
노출 거짓 결과 원인
흡연 자살 위험 ↑ 흡연이 정신 상태와 confounded
베타카로틴 폐암 위험 ↓ Information bias + 잔여 confounding
폐경기 에스트로겐 CHD 위험 ↓ Selection bias (사용자가 baseline 더 건강)
Reserpine (혈압약) 유방암 위험 ↑ 부실한 case-control
커피 췌장암 위험 ↑ 부실한 case-control
유도 낙태 유방암 위험 ↑ Information bias (control 의 누락 보고)
Bendectin (입덧약) 출생 결손 위험 ↑ Junk science (소송 동기)
IUD Salpingitis ↑ + 불임 ↑ 잘못된 비교군 + 정보 편향 + STD confounding
경구피임약 뇌하수체 선종 ↑ Confounding by indication

(Schulz & Grimes, 2019, Ch.7.1, Panel 7.1).

각 사례를 살펴보자.

1.1 사례 1 — 흡연과 자살

Confounding 의 메커니즘

관찰 결과: 흡연자가 비흡연자보다 자살률 ↑.

진성 메커니즘: 흡연이 자살을 유발하는가? 거의 그렇지 않다. 흡연은 우울증·정신질환·약물 사용과 강한 상관 — 이들이 자살의 진성 위험 인자.

3 단계 직관:

  • 추상: \(\text{Smoking} \leftarrow \text{Mental state} \to \text{Suicide}\) — 정신 상태가 공통 원인.
  • 일상어 비유: 우산 사용과 비 — 우산이 비를 부르는 것이 아니라 비가 우산을 유도. 흡연이 자살을 부르는 것이 아니라 정신 상태가 양쪽을 유도.
  • 반사실: 정신 건강 변수를 보정하면 흡연-자살 RR 이 1 에 수렴. 그러나 정신 건강 측정이 어려워 잔여 confounding 잔존.

1.2 사례 2 — 베타카로틴과 폐암

관찰 연구가 베타카로틴 보충제가 폐암 ↓ 시키는 것 같다 보고.

진성: ATBC + CARET RCT 가 정반대 결론 — 베타카로틴 보충제가 흡연자의 폐암 ↑ (ATBC Cancer Prevention Study Group, 1994; Omenn et al., 1996).

원인: Information bias (베타카로틴 보충 사용자의 식이 측정 차이) + 잔여 confounding (식이 패턴 전반).

직관: RCT 가 관찰 연구를 무효화

이 사례는 “관찰 연구의 한계” 가 단순한 학술적 우려가 아니라 인구 단위 효과의 정반대를 보여줄 수 있다는 증거. 보충제 권장이 정책으로 이어지면 해를 끼칠 수 있음.

1.3 사례 3 — 폐경기 에스트로겐과 CHD (가장 유명한 사례)

가정 위반: Selection Bias 의 큰 영향

관찰 연구 (Nurses’ Health Study 등): 폐경기 호르몬 사용자의 CHD ↓ 50%.

진성 (Women’s Health Initiative RCT, Rossouw et al., 2002): 호르몬 사용군에서 CHD ↑.

원인: Selection bias — 호르몬을 선택하는 여성이 baseline 에서 더 건강 (의료 접근성 ↑, SES ↑, 운동 ↑, 식이 ↑). 즉 호르몬 자체가 보호 효과인 것이 아니라, 호르몬을 사용하는 사람이 다른 면에서 보호된 것.

3 단계 직관:

  • 추상: \(X \leftarrow C \to Y\) — Healthy lifestyle (C) 가 호르몬 선택 (X) 와 CHD 결과 (Y) 양쪽에 영향. C 보정 안 하면 X-Y 가 가짜 연관.
  • 일상어 비유: 헬스장 회원이 평균 수명 길다 → 헬스장이 수명 늘림? 아니면 건강 의식 강한 사람이 헬스장 가입?
  • 반사실: WHI 의 RCT 가 무작위 배정으로 selection 통제 → 진성 효과 발현 (정반대 방향).

이 사례가 Schulz Ch.7 의 가장 중요한 교훈 — “관찰 연구의 결론을 임상 가이드라인에 직접 옮기지 마라.”

1.4 사례 4~5 — 부실한 Case-Control (Reserpine, 커피)

노출 결과 Bias
Reserpine 유방암 ↑ 매칭 부적절, 표본 작음
커피 췌장암 ↑ Control 선정 부적절, 다중 검정

후속 큰 연구로 모두 반박. 부실한 case-control 의 누적 비용을 보여줌.

1.5 사례 6 — 낙태와 유방암

직관: Information Bias 의 비대칭

Swedish 연구 (Lindefors-Harris et al., 1991) — 낙태 보고 검정.

  • Cases (유방암): 의료 기록과 일치.
  • Controls (비암): 낙태 보고를 누락 (사회적 stigma).

→ 인터뷰 자료만 보면 case 의 낙태 노출이 control 보다 ↑ → OR > 1 가짜.

3 단계 직관:

  • 추상: \(E[X_{\text{report}} \mid X=1, Y=0] < E[X_{\text{report}} \mid X=1, Y=1]\) — 낙태 보고가 case 와 control 의 비대칭.
  • 일상어 비유: 음주 자가 보고에서 우울증자는 정직, 일반인은 음주를 줄여 보고 → 음주-우울 가짜 연관.
  • 반사실: 객관 자료원 (의료 기록) 사용 → bias 회피.

1.6 사례 7 — Bendectin (Junk Science)

Bendectin (입덧약) 이 출생 결손 ↑ 시킨다는 case report 들이 소송으로 이어짐. 이후 RCT + meta-analysis 가 무관함을 확인 (Brent, 1995). 그러나 이미 시판 중단 → 임신 입덧 환자의 옵션 사라짐.

이 사례는 법정의 인과 기준이 과학의 인과 기준보다 낮을 수 있다는 경고.

1.7 사례 8 — IUD 와 PID

1980 년대 미국 IUD 의 거의 사라짐. 원인: - 잘못된 비교군 (비-IUD 사용 여성과 그냥 비교). - Information bias (IUD 사용자의 systematic overdiagnosis). - STD confounding 통제 실패.

이후 재분석 + cohort 가 IUD-PID 연관이 거의 없음을 보여줌. 그러나 미국 IUD 시장은 수십 년간 회복 안 됨.

1.8 사례 9 — 경구피임약과 뇌하수체 선종

Confounding by indication — 호르몬 불균형으로 경구피임약을 처방 받은 여성에서 뇌하수체 선종 ↑. 진성 메커니즘은 호르몬 불균형 → 선종, 경구피임약은 처방의 결과일 뿐.

직관: Confounding by Indication

처방 약물 연구의 가장 어려운 함정 — 약을 처방받은 이유 자체가 결과의 위험 인자. 무작위 배정 없이는 보정 거의 불가.

2 7.2 Amateurs at Work — 연구 교육의 부재

2.1 의학 vs 연구의 비대칭

가정 위반: 연구 quality 의 진입 장벽

의학: - 4 년 의대 + 인턴십 + 레지던시 + 자격증 시험. - 외과: 추가 펠로십 + 시술 자격증. - 의사 면허 없으면 환자 진료 불가.

연구: - Manuscript 제출에 자격증 불필요. - 통계·역학 formal training 권장이지만 강제 아님. - Junior 연구자가 senior 의 도제로 학습 — senior 도 formal training 없을 수 있음.

Schulz 의 풍자: “The desire to be a surgeon is insufficient to gain operating-room privileges. Not so in research.

3 단계 직관:

  • 추상: Quality control 의 진입 장벽 = 0 → 평균 quality 가 임상보다 낮음.
  • 일상어 비유: 누구나 운전할 수 있는 도시 — 사고율 자연 ↑.
  • 반사실: 연구 자격증 의무화 → quality ↑. 그러나 학술 자유 침해 우려도.

2.2 보고 quality 의 부실

Schulz 가 인용하는 평가들:

  • 연구의 한계 미언급: 다수 manuscript 가 limitation 섹션 부실 (Ioannidis et al., 2007).
  • Confounding 통제 미명시: 고임팩트 의학지에서도 confounding 보정 보고가 부실 (Pocock et al., 2004).
  • 통계 오류: P-value hacking, 단일 imputation, 평균 회귀 무시, 인과 추론 (Greenland et al., 2016).

2.3 STROBE 가이드라인 — 보고 표준의 도구

STROBE 의 역할

관찰 연구 보고의 22 항목 체크리스트 (von Elm et al., 2007). RCT 의 CONSORT 와 같은 계열.

자세한 분석은 B9 (Cohort 보고 표준) 참조.

2.4 GRADE 시스템 — 증거 평가 표준

정의: GRADE

Grading of Recommendations Assessment, Development and Evaluation. 증거의 quality 와 권장의 강도를 표준 평가 (Guyatt et al., 2008).

Quality of evidence: High → Moderate → Low → Very Low. Strength of recommendation: Strong vs Weak.

이 시스템이 임상 가이드라인의 표준이 되어 가고 있음.

3 결론

거짓 주장의 9 사례는 모두 bias 의 누적이 인과 결론으로 위장한 경우. Aaateur 연구자의 부재가 이 함정에 대한 1 차 방어선의 부재를 의미. STROBE + GRADE 같은 표준화 도구가 일부 보강하지만, 근본 해법은 연구 교육의 강화.

다음 글(B31)에서는 행정 DB 의 함정과 약한 연관의 위험을 본다.

4 관련 주제

Subscribe

Enjoy this blog? Get notified of new posts by email: