Kwangmin Kim - 동료 심사의 취약과 연구 사기

1 7.5 Porous Peer Review

정의: Peer Review

학술지의 manuscript 심사 과정. 외부 reviewer 들이 익명으로 평가하여 출판 가부를 결정 (Schulz & Grimes, 2019, Ch.7.5).

가정: Peer review 가 quality 를 보장한다.

Schulz 의 진단: 이 가정은 증거로 뒷받침되지 않는다.

1.1 Smith 의 평가 — 신랄한 진단

인용: Richard Smith (前 BMJ 편집장)

“Peer review is slow, expensive, ineffective, something of a lottery, prone to bias and abuse, and hopeless at spotting errors and fraud.”

(Smith, 1997, JAMA).

전 BMJ 편집장이 본인 분야의 핵심 시스템에 대해 한 평가. 학술 출판의 질 통제 체계가 본질적으로 결함이라는 자기 비판.

1.2 통계적 증거 — Inter-Rater Reliability

가정 위반: Reviewer 간 합의

Cicchetti (1991) 메타분석: 같은 manuscript 를 서로 모르는 두 reviewer 에게 보냈을 때 의견 일치도 (kappa).

결과: 일치도가 chance 수준 (κ ≈ 0.2~0.3). 즉 거의 무작위.

3 단계 직관:

추상: \(\kappa = 0.2\) 는 두 평가자의 의견이 표현형의 chance 일치를 약간만 초과. 측정 도구의 unreliable.
일상어 비유: 두 시험관이 같은 학생의 답안을 채점할 때 합격/불합격 의견이 거의 무작위 일치. 채점 자체가 noise.
반사실: Statistical reviewer (통계 전문가) 추가, 사전 등록·재현성 점검 등 객관적 점검 도구 도입 시 일치도 ↑.

1.3 Editor 와 Reviewer 의 자격

Schulz 의 비판:

Editor: 의학 학술지의 다수 편집장은 통계·역학 formal training 없음.
Reviewer: Editor 보다도 적은 자격. 시간 압박 + 다른 책임 + 무보수 → 충실한 review 어려움.

직관: 자격증 없는 quality control

추상: Quality control 의 평균 quality 는 controller 의 평균 quality 의 함수. Controller 가 untrained → control 도 unreliable.
일상어 비유: 운전 면허증 없는 도로 검문관 — 검문 자체가 임의.
반사실: Statistical Editor 의무화, ICMJE 가이드라인 강제 등 → 평균 quality ↑.

1.4 다른 한계 — Bias, Slow, Expensive

한계	의미
Slow	Manuscript 제출에서 출판까지 6~24 개월
Expensive	Reviewer 시간 + 편집 작업의 unpaid labor
Bias	저자 명·소속·국가에 따라 달라지는 결정
Lottery	같은 manuscript 도 다른 reviewer 에게 가면 다른 결과
Hopeless at spotting errors	통계 오류 발견율 낮음
Hopeless at spotting fraud	데이터 자체 fabrication 검출 거의 불가

1.5 Open Peer Review 의 시도

일부 학술지 (BMJ, F1000) 가 open peer review 도입 — reviewer 이름·report 공개. 효과:

정중성·정직성 ↑.
한편 reviewer 의 부담 ↑ → 응답률 ↓.

증거는 mixed. 시스템 개혁의 일부.

2 7.6 Fraud — 사기

사기의 증가 추세

Retraction Watch (학술 retraction 추적 사이트) 의 데이터:

의학 학술지 retraction 수가 시간에 따라 ↑ 추세.
주된 retraction 원인 = 고의 사기 (fabrication, falsification) — 약 60~70%.
그 외: 이중 출판, salami slicing, 데이터 조작, 인용 조작.

예시: Diederik Stapel (사회 심리학, 50+ 논문 retracted, 2011), Yoshitaka Fujii (마취학, 183 논문 retracted, 2012).

2.1 사기의 경제학

직관 3 단계: Fraud 의 cost-benefit

추상: \(\text{Reward}_{\text{publish}} \gg \text{Cost}_{\text{detection}} \cdot P(\text{detection})\) → 사기의 경제적 유인.
일상어 비유: 큰 보상 + 작은 발견 위험 → 부정 행위 빈도 ↑. 시험 부정 행위가 이런 유인 구조에서 발생.
반사실: Detection cost ↓ (Retraction Watch, ORCID, FAIR data), 보상 시스템 변경 (재현성 우선) → 유인 ↓.

2.2 Detection 의 어려움

가정 위반: Peer Review 가 사기 잡는다

Schulz 의 메시지: Peer review 는 사기 발견에 거의 도움 안 됨. Reviewer 는 데이터 그 자체를 보지 못하고 manuscript 만 봄.

사기 발견의 경로: 1. 내부 고발자 (whistleblower) — 동료의 의심 보고. 2. 재현 시도 실패 — 후속 연구가 같은 결과 못 냄. 3. 통계적 이상 — 데이터의 통계 분포가 인공적 (Fujii 사례). 4. Forensic 분석 — 이미지 manipulation, plagiarism 도구.

Peer review 는 1~4 모두 약함.

3 단계 직관:

추상: Detection probability 가 사기 패턴의 정교함에 반비례. Sophisticated fraud 는 거의 무한 시간 동안 발견 안 됨.
일상어 비유: 잘 조작된 가짜 ID 는 일반 검문관이 못 잡음. 전문 forensic 만 가능.
반사실: 데이터 공유·재현성 의무화 → 후속 검증이 사기 발견 가능.

2.3 Salami Slicing

같은 자료를 여러 manuscript 로 분할 출판하여 출판 수 ↑.

가정 위반: 출판 수 = 연구 quality

Schulz 의 비판: 연구자 평가가 출판 수 기반이면 salami slicing 의 유인이 큼. 같은 자료의 한 논문이 5 편으로 분할 → “5 편” 인 양 보임.

3 단계 직관:

추상: 평가 metric 의 design 이 행동 incentive 결정. Misaligned metric → unintended behavior.
일상어 비유: 직원 평가가 “이메일 수” 기반이면 짧은 이메일 자주 보내기. 본질 가치는 무관.
반사실: H-index, citation, replication record 같은 multi-dimensional 평가 → salami slicing 유인 ↓.

2.4 회복 도구 — 시스템 개혁

Modern Tools

도구	역할
Retraction Watch	사기·retraction 공개 추적, detection cost ↓
ORCID	연구자 ID 표준화, 사기자 추적 가능
FAIR data	Findable, Accessible, Interoperable, Reusable — 재현성 ↑
사전 등록	OSF, ClinicalTrials.gov — 가설 사후 변경 (HARKing) 방지
Statistical Editor	통계 reviewer 의무화 추세
Open peer review	Reviewer report 공개
Replication studies	후속 검증 권장 학술지 (Royal Society Open Science 등)

이 도구들이 quality control 의 다층 방어선.

3 결론 — Phase B SCH Ch.7 시리즈 마무리

SCH Ch.7 시리즈 (4 편 마무리)
│
├── B29: 한계 개관 (5 한계 + 85% 낭비)
├── B30: False claims (9 사례) + Amateur 연구자
├── B31: 행정 DB + 약한 연관
└── B32: Peer review + Fraud (이 글)

관찰 역학의 5 한계가 누적되어 의학 연구 출판의 신뢰성이 흔들린다. 그러나 재현성 운동, 사전 등록, 보고 표준 (STROBE/CONSORT), 평가 metric 의 다양화 같은 시스템 개혁이 진행 중. 개별 연구자는 이런 도구를 적극 활용해야 한다.

다음 묶음 (SCH Ch.8 — Screening, B33~B37) 은 진단·선별 검사의 평가 도구 (sensitivity, specificity, PV) 를 다룬다.

4 관련 주제

Phase B SCH Ch.7 시리즈 (완성)

다음 묶음

1111-11-11, SCH Ch.8 overview — 선별 검사