Kwangmin Kim - 행정 데이터베이스와 약한 연관

1 7.3 Administrative Databases — Big Data 의 함정

정의: Big Data 와 행정 DB

Big data: 크고 복잡하며 연결 가능한 정보 (Schulz & Grimes, 2019, Ch.7.3).

행정 DB: 보험 청구, 의무 기록(EMR), 인구 등록부, 진단 코드 시스템 등.

연구 활용 증가: 빠르고 싸고 큰 표본. 그러나 두 가지 본질 한계.

1.1 한계 1 — 진단 검증 부재

가정 위반: 진단 코드 = 진성 진단?

FDA 의 경고 (2013 가이던스): 약물 역학 연구에서 코드 기반 정의의 양성예측도 (PPV) 검증 필수. 코드와 의무 기록 cross-check 권장.

Danish Patient Registry 사례: 진단별 PPV 가 <15% ~ 100% 변동 (Schmidt et al., 2015).

구체 사례: Oral contraceptive 와 정맥 혈전색전증 (VTE). - DB 분석: progestin 종류별 위험 차이 보고. - 정밀 cohort: 모든 progestin 위험 동등 (Lidegaard et al., 2011). - 차이 원인: DB 의 VTE 진단 코드의 PPV 가 낮음 → 잘못 분류된 사례가 결과 왜곡.

3 단계 직관:

추상: \(\hat{Y}_{\text{code}} \neq Y_{\text{true}}\). 분류 오차가 결과 추정의 attenuation 또는 systematic shift.
일상어 비유: 흐린 안경으로 빨간색과 주황색 구분. 두 색이 비슷하면 구분 불가.
반사실: 코드 + 의무 기록 sample audit → PPV 측정. PPV < 0.7 이면 분석 신뢰성 의문.

1.2 한계 2 — Confounder 정보 부재

가정 위반: DB 가 알고 싶은 모든 변수를 갖는다

일반 한계: - 보험 DB: BMI, 가족력, SES, 식이 등 미수집. - EMR: 의료 이용한 사람만 — 인구 baseline 다름. - 등록부: 진단·사망만 — 노출의 양적 정보 부족.

예시: VTE 의 DB 분석에서 BMI, 가족력, SES 가 누락. 이들이 진성 confounder 라면 보정 불가 → 잔여 confounding.

3 단계 직관:

추상: \(\boldsymbol{Z}_{\text{measured}} \subset \boldsymbol{Z}_{\text{true confounders}}\). 측정 안 된 confounder 의 효과는 잔존.
일상어 비유: 학생 시험 점수 분석에서 학생의 수면·영양·가정 환경을 모름. 이들이 점수에 강한 영향이라면 분석은 noise 가 큼.
반사실: Targeted cohort study 가 사전에 confounder 측정. DB 는 이 사전 측정의 자유도가 없음.

1.3 Mass Significance — 큰 표본의 함정

가정 위반: p < 0.001 = 임상적 중요

Schulz 의 경고: 큰 표본은 미세한 차이도 통계 유의로 만든다.

예시: 1 백만 명의 보험 DB 분석에서 두 군의 평균 차이가 0.001% 라도 p < 0.0001 가능. 그러나 임상 의사 결정에 무관.

Big data 의 위험: 큰 표본 + 미세 bias = “precisely wrong”.

3 단계 직관:

추상: \(n \to \infty\) 면 SE → 0, 어떤 작은 effect 도 유의. 그러나 effect size 자체는 의미 없을 수 있음.
일상어 비유: 매우 정밀한 저울로 100 만 번 측정. 평균이 정확히 0.0001g 차이가 통계 유의. 그러나 운반·보관에 무관.
반사실: 효과 크기 사전 임계값 (MDE) 과 비교. 단순 p-value 결정 금지.

1.4 “Risk Factorology” — 데이터 dredging 의 비유

Ioannidis 의 표현: “Risk factor epidemiology has excelled in salami-sliced data-dredged articles.”

같은 DB 에서 수십 개의 노출-결과 쌍을 검정 → 일부가 우연히 유의 → 출판. 사전 가설 없는 fishing expedition.

1.5 Big Data 의 적정 활용

활용	적합
시간 추세 모니터링	✓
Crude frequency 측정	✓
가설 생성	✓
인과 추론	✗ (단독으로는)
임상 가이드라인 근거	✗

큰 표본 + 정밀한 confounder 측정 + 사전 가설을 갖춘 cohort 면 가능. Pure DB 분석은 한계.

2 7.4 Weak Associations — Size Matters

정의: Zone of Potential Bias

Schulz 의 권장 (Fig. 7.2~7.3):

Cohort study: RR ∈ [0.5, 2.0] = “Zone of potential bias”. Case-control study: OR ∈ [0.33, 3.0] = “Zone of potential bias”.

이 zone 은 잔여 bias 로 충분히 설명 가능.

Zone of potential interest: 위 범위 밖.

2.1 직관 — Bias Factor 의 한계

직관 3 단계: 왜 RR 2 가 임계값인가

추상: 일반적인 cohort 의 잔여 confounding bias factor 가 1.2~1.8 정도. 이 bias 가 진성 RR=1 에 곱해지면 관찰 RR=1.2~1.8 → “잘못된 약한 연관”.
일상어 비유: 측정 자의 정밀도가 ±5cm. 두 사람 신장 차이 4cm 는 측정 오차 가능성 ↑. 50cm 차이는 측정 오차 아님.
반사실: RR=10 같은 큰 효과는 bias factor 가 10 에 도달해야 가짜 가능 — 매우 극단적 bias 만이 그럴 수 있음. 따라서 큰 효과가 진성 가능성 ↑.

2.2 Hill 의 1 차 기준 — Strength of Association

Hill (1965) 의 9 기준 중 가장 강한 것 — 연관의 강도.

Hill 의 사례: - 흡연-폐암 RR = 8~32 (양에 따라). - 콜레라-수질 RR = 14.

이런 큰 효과는 bias 만으로 설명 어려움.

2.3 큰 효과도 bias 의 산물일 수 있다 — IUD-PID 사례

가정 위반: 큰 효과 = 진성?

Vessey et al. (1992) 영국 cohort: IUD 와 PID 의 RR = 11.

Cates et al. (1992) 재분석: Bias 보정 후 RR 통계 유의성 사라짐.

3 단계 직관:

추상: 11 배 효과조차 information bias + selection bias 의 누적이 만들 수 있음.
일상어 비유: 매우 흐린 거울이 정상 거울처럼 보일 수 있다 — 흐림 자체가 systematic 이면.
반사실: 큰 효과는 진성 가능성 ↑ 이지만 절대 아님. Bias 분석을 동반해야.

2.4 Meta-Analysis 의 무력함

가정 위반: Meta-Analysis 가 bias 를 제거한다

오해: 여러 관찰 연구의 meta-analysis 가 단일 연구보다 신뢰성 ↑.

진성: Meta-analysis 는 분산을 줄이지만 bias 는 그대로. 모든 원 연구가 같은 systematic bias 를 갖는다면, meta-analysis 는 그 bias 를 더 정밀히 추정할 뿐.

Schulz 의 표현: “Meta-analysis of flawed observational studies offers no remedy; it provides more precision without addressing the more critical problem with validity.”

3 단계 직관:

추상: \(\text{Var}(\bar{X}) = \sigma^2 / n\) 은 ↓, \(E[\bar{X}] - \mu = \text{bias}\) 는 그대로.
일상어 비유: 같은 흐린 안경으로 100 번 측정 평균하나 1 만 번 측정 평균하나 평균 자체는 같이 흐림.
반사실: RCT meta-analysis 는 randomization 으로 bias 제거 → 분산 ↓ 만 의미 있음. 관찰 meta-analysis 는 bias 의심.

2.5 “Cannot Separate Noise from Signal”

Schulz 의 마지막 메시지 — 관찰 연구는 noise 와 signal 을 분리 못함.

진성 인과 효과 (signal) 와 bias·confounding (noise) 가 자료에서 구분 불가. 통계 도구의 정교함이 이 본질적 한계를 극복 못 함.

3 결론

행정 DB 와 약한 연관은 모두 “precisely wrong” 의 위험 — 정밀하지만 진성 효과를 못 잡는다. 큰 표본·정밀 추정·다중 검정이 누적되어도 bias 는 잔존.

다음 글(B32)에서는 동료 심사의 한계와 사기 사례를 본다.

1 7.3 Administrative Databases — Big Data 의 함정

1.1 한계 1 — 진단 검증 부재

1.2 한계 2 — Confounder 정보 부재

1.3 Mass Significance — 큰 표본의 함정

1.4 “Risk Factorology” — 데이터 dredging 의 비유

1.5 Big Data 의 적정 활용

2 7.4 Weak Associations — Size Matters

2.1 직관 — Bias Factor 의 한계

2.2 Hill 의 1 차 기준 — Strength of Association

2.3 큰 효과도 bias 의 산물일 수 있다 — IUD-PID 사례

2.4 Meta-Analysis 의 무력함

2.5 “Cannot Separate Noise from Signal”

3 결론

4 관련 주제