1 데이터 수집의 방향과 연구의 방향은 다르다
코호트 연구를 처음 만나는 사람이 가장 흔히 혼동하는 것은 “전향(prospective) = 연구의 방향” 이라는 등식이다. 정확히는 다음과 같다 (Schulz & Grimes, 2019, Ch.4.1).
- 연구의 방향(direction of inference): 항상 노출 → 결과 한 방향. 코호트의 정체성.
- 데이터 수집의 시점(timing of data collection): 연구 시작 시점 기준으로 과거인지 미래인지.
이 두 축이 직교한다 — 데이터가 과거에서 와도 연구의 방향은 여전히 노출에서 결과로 흐른다.
1.1 직관: 시간 여행 비유
retrospective cohort 를 “거꾸로 가는 연구” 로 오해하는 경우가 많다. 다음 비유가 이를 정리해 준다.
1985 년에 어떤 공장에서 누가 화학물질에 노출되었는지 기록이 남아있다고 하자. 2025 년에 연구자가 그 기록을 열어 노출자와 비노출자의 1985~2025 년 사이 폐암 발병을 추적한다. 연구자의 머릿속 시간은 1985(노출) → 2025(결과) 로 흐른다 — 데이터를 2025 년에 앉아서 읽었더라도 연구는 미래로 행진한다. 이것이 retrospective cohort 다.
2 세 가지 시간 방향
시간축: 과거 ─────────── 연구 시작 시점 ─────────── 미래
│
[Concurrent (전향)] │ 노출 ───→ 결과
│ (데이터 수집과 결과 발생이 미래에 일어남)
[Retrospective (후향)] 노출 ──→ 결과 │
(데이터는 이미 과거에 다 발생, 연구만 지금)
[Ambidirectional] 노출 ── 결과 │ ── 결과
(단기 결과는 과거 자료, 장기 결과는 추적)
2.1 Concurrent (전향) Cohort
연구 시작 시점에 노출자·비노출자를 등록하고 결과 발생을 미래에 추적한다.
사례 1 — 보조생식술과 다태아: 보조생식술(ART) 노출자 + 자연 임신자를 연구 시작 시점에 등록하고 임신 경과를 추적해 다태아 빈도를 비교한다 (Luke, 2017).
연구 시작 시점에 자료 수집 양식을 직접 설계할 수 있다. 어떤 변수를 측정할지, 어떤 시점에 측정할지, 어떤 정의를 사용할지를 사전에 결정한다. 그래서 retrospective 보다 데이터 품질이 우수하다 — 마치 식당이 미리 메뉴를 정한 것과, 손님이 가져온 잔반으로 요리를 만드는 것의 차이와 같다.
비용: 다태아·암·심혈관처럼 결과가 늦게 발생하면 추적 기간이 수년~수십 년으로 길어진다. 인건비·운영비가 큼.
2.2 Retrospective (후향) Cohort
연구 시작 시점에 노출과 결과 모두가 이미 과거에 발생해 있다. 의무기록·등록부에서 노출자·비노출자를 식별하고, 같은 자료에서 결과를 확인한다.
사례 — 보조생식술과 유방암 (가상): ART 시술 기록(2000~2010)과 유방암 등록부(2000~2025)를 결합하여 ART 노출자와 비노출자의 25 년 후 유방암 발생률을 비교 (Sergentanis et al., 2014).
별명들: historical cohort, historical prospective, nonconcurrent prospective, “prospective study in retrospect” 등 (Porta, 2014). 이 작명의 다양함이 곧 “어떻게 봐도 연구의 방향은 노출 → 결과” 라는 사실을 강조한다.
기존 데이터는 연구를 위해 수집된 자료가 아니다. 흡연 변수가 “흡연자/비흡연자” 두 칸뿐일 수 있고, 당시 흡연량(개비/일)·기간(년)이 빠질 수 있다. 프라이버시 규제로 환자 재접촉도 어렵다 (Setia, 2016).
만약 같은 연구 질문을 concurrent 로 시작했다면 흡연량 측정 도구를 사전에 설계해 정확한 dose-response 를 그릴 수 있었을 것이다. Retrospective 의 시간·비용 절감은 자료 품질의 트레이드오프와 동전의 양면이다.
2.3 Ambidirectional Cohort
데이터 수집이 양방향으로 진행된다 — 노출 시점에서 단기 결과까지는 과거 자료(retrospective), 장기 결과까지는 미래 추적(prospective).
사례: ART 노출이 단기로는 다태아 출산, 장기로는 유방암과 연관될 수 있는지 본다. 출산 결과는 의무기록에서 회고 추출, 유방암은 등록 후 추적 (Sergentanis et al., 2014).
활용 조건: 같은 노출에 단·장기 결과가 모두 관심사일 때. 중복 운영 비용을 양방향 자료 활용으로 상쇄한다.
3 강점 1 — 발생률과 자연사의 측정
코호트는 분모(at-risk population) 와 시간(follow-up time) 을 모두 안다. 이 두 정보가 결합되어 발생률 측정이 가능해진다.
\[ \text{누적 발생률} = \frac{\text{추적 기간 중 새로 발생한 사례 수}}{\text{시작 시점 위험 인구}} \]
\[ \text{발생률 (incidence rate)} = \frac{\text{새 사례 수}}{\text{인-시간 (person-time)}} \]
전자는 “이 인구에서 X 년 안에 사례가 발생할 확률”을 추정하고, 후자는 “단위 인-시간당 발생 빈도”를 추정한다.
3.1 직관: 분모를 모르면 빈도를 모른다
기술 연구의 case report 는 분자만 있고 분모가 없다. “이 약을 먹은 사람 중 7 명이 부작용” 만으로는 “이 약이 위험한가” 를 답할 수 없다 — 7 명이 70 명 중 7 인지, 7,000 명 중 7 인지, 70,000 명 중 7 인지에 따라 의미가 완전히 다르다.
코호트는 “이 약을 먹기 시작한 1,000 명 중 7 명이 부작용 + 비노출자 1,000 명 중 1 명이 부작용” 으로 분모와 비교군까지 함께 갖춘다. 이 단순한 차이가 인과 추론의 출발선이다.
3.2 자연사(natural history) 추적
자연사란 개입이 없을 때 질병이 시간에 따라 어떻게 진행되는가 의 묘사다. 코호트는 비노출자를 추적함으로써 자연사를 직접 관찰한다 (Schulz & Grimes, 2019, Ch.4.2).
4 강점 2 — 시간 선후의 명료성 (“닭과 달걀” 회피)
만성 통증과 우울증의 cross-sectional 자료에서 강한 상관이 관찰된다 (Buonanotte et al., 2015). 그러나 다음 두 가지 인과 방향이 자료에서 구분되지 않는다.
- 우울이 통증 인지를 강화한다 (mood → pain perception).
- 만성 통증이 우울을 유발한다 (pain → mood disorder).
같은 자료가 어느 방향으로도 해석된다 — 시간이 측정되지 않았기 때문이다.
코호트는 “노출 시점에 결과가 없었음” 을 확인하고 시작한다. 이 한 문장이 시간 선후의 모호성을 제거한다 (Thadhani & Tonelli, 2006). 즉, “노출이 결과보다 먼저” 라는 인과의 1 차 조건을 충족한다.
4.1 직관: 시간 선후 = 인과의 1 차 조건
Hill criteria (B-HILL 글에서 본격 다룸) 의 9 기준 중 가장 강한 것은 temporality(시간성) 다. 원인이 결과를 앞서야 한다는 것은 흔히 기준 9 가지 중 유일한 필수 조건으로 인용된다. Cross-sectional 은 이 1 차 조건조차 보장하지 못하는 반면, cohort 는 보장한다.
5 강점 3 — 단일 노출 → 다중 결과
흡연(노출 1 개) → 뇌졸중·기종·구강암·심장병·치매(결과 다수) 같은 1:N 관계를 한 연구에서 본다 (Schulz & Grimes, 2019, Ch.4.2). Doll & Peto 의 영국 의사 흡연 연구가 대표 (Doll et al., 2000).
5.1 P-hacking 함정과 그 회피
다중 결과 추적은 강점이지만, 다중 검정 보정이 빠지면 곧장 거짓 양성이 폭증한다.
수식 직관: 독립인 100 개 가설을 \(\alpha = 0.05\) 로 검정하면 귀무가설 하에서도 평균 5 건이 유의 하게 나온다. 이를 모르고 “유의한 5 건만 보고” 하면, 실제 효과가 없는 노출-결과 쌍을 인과로 보고하는 셈이다.
\[ P(\text{최소 1 건 거짓 양성}) = 1 - (1-\alpha)^k \]
\(k=10\) 이면 \(1 - 0.95^{10} \approx 0.40\) — 40% 의 확률로 적어도 한 건이 거짓 양성이다. \(k=20\) 이면 \(\approx 0.64\). 이 빠른 증가가 P-hacking 의 함정이다.
한 리뷰에서 관찰 연구 10 편이 평균 100 건 이상의 노출-결과 연관을 검정했고 최대 264 건 에 달했다 (Pocock et al., 2004). 보정 없이 유의한 것만 보고된다면 거짓 양성률이 통제를 벗어난다.
5.2 회피 절차
| 단계 | 행동 |
|---|---|
| 사전 등록 | 일차·이차 가설을 사전 명시 (prespecify) |
| 다중 검정 보정 | Bonferroni / FDR / 가족별 오류율 통제 (cross-link: Multiple Testing Problem) |
| 전부 보고 | 검정한 모든 연관을 보고. 유의한 것만 추리지 않음 |
| 유형 표시 | 가설 검증(confirmation) vs 가설 생성(generation) 을 명시 |
A/B 테스트에서 결제율·DAU·체류시간·CTR·재방문율·취소율을 동시에 보고, 그중 유의한 1 개만 보고하는 행위가 P-hacking 의 IT 판이다. OEC (Overall Evaluation Criterion) 또는 북극성 지표(north star metric) 를 사전 지정하는 관행은 cohort 의 사전 가설 명시와 같은 기능을 한다.
6 강점 4 — 희귀 노출에 강함
어떤 노출은 일반 인구에서 매우 드물다 — 이온화 방사선·특정 화학물질·희귀 직업 노출. 이때 노출자를 일반 인구에서 표집하면 비효율적으로 큰 표본이 필요하다 (Setia, 2016).
특정 공장이나 병원이 있다면, 거기서 노출자 100 명을 한 번에 확보 가능하다. 일반 인구에서는 1,000,000 명 중 100 명만 노출이라면 동일 표본을 위해 백만 명 표집이 필요하다.
코호트의 표집 효율 = 노출자 비율을 인위적으로 높여 잡되, 비노출자는 적당히 잡는다. 이 비대칭 표집이 곧 효율의 원천이다.
| 설계 | 강한 영역 |
|---|---|
| Cohort | 희귀 노출 (rare exposure) |
| Case-Control | 희귀 결과 (rare outcome) |
이 비대칭이 두 설계의 분업이다 — 노출이 희귀하면 cohort, 결과가 희귀하면 case-control.
7 강점 5 — Neyman Bias 회피
급사하는 질병을 case-control 로 연구하면, 사망한 사례가 표본에서 누락되어 살아남은 사례만 관찰된다. 결과적으로 표본은 더 약한 표현형 또는 보호 인자를 가진 환자에 편향된다 (Hill et al., 2003; Neyman, 1955).
7.1 Schulz 의 비유
Schulz 가 원전에서 든 비유 — “눈 치우기와 심근경색 연구를 case-control 로 하면, 진입로에서 삽을 든 채 사망한 사례를 모두 놓친다” (Schulz & Grimes, 2019, Ch.4.2). 가장 심각한 사례가 자동 누락되므로 등록된 사례군은 진성 사례군의 대표가 아니다.
7.2 반사실: Cohort 면 어떻게 다른가
Cohort 는 노출(눈 치우는 사람 vs 안 치우는 사람) 기준으로 등록하고, 그 후 발생하는 심근경색을 추적한다. 사망도 결과의 한 형태로 기록되기 때문에, 진입로에서 사망한 사례도 노출자의 결과로 정확히 들어간다. 즉 cohort 는 결과가 아니라 노출에서 시작하므로 결과 누락 편향에 강하다.
7.3 IT 대응 — 생존자 편향(Survivorship Bias)
이 패턴의 IT 판이 생존자 편향이다. “이탈하지 않은 사용자에게서 어떤 행동이 보이는가” 는 case-control 적 회고이고, 이미 이탈한 사용자는 자료에 없다. 그래서 “체류 사용자의 특성”을 “전체 사용자의 권장 행동” 으로 옮기면 편향이 발생한다. 무작위 배정 + 추적이 cohort 의 IT 판인 A/B 테스트가 이 함정을 회피한다.
8 코드 예시 — 코호트 발생률·상대위험 계산
가상의 ART 와 다태아 cohort 를 시뮬레이션한다.
import numpy as np
import pandas as pd
from scipy import stats
np.random.seed(42)
# 가상의 ART 노출 / 자연 임신 cohort
n_exposed = 1000
n_unexposed = 1000
# 다태아 비율: ART 군 30%, 자연 임신 군 3%
twins_exposed = np.random.binomial(1, 0.30, n_exposed)
twins_unexposed = np.random.binomial(1, 0.03, n_unexposed)
# 누적 발생률
ci_exposed = twins_exposed.mean()
ci_unexposed = twins_unexposed.mean()
# 상대위험 (RR)
rr = ci_exposed / ci_unexposed
# 95% CI for log(RR) (Greenland-Robins, 근사)
a, b = twins_exposed.sum(), n_exposed - twins_exposed.sum()
c, d = twins_unexposed.sum(), n_unexposed - twins_unexposed.sum()
log_rr = np.log(rr)
se_log_rr = np.sqrt(1/a - 1/n_exposed + 1/c - 1/n_unexposed)
lo = np.exp(log_rr - 1.96 * se_log_rr)
hi = np.exp(log_rr + 1.96 * se_log_rr)
print(f"누적 발생률(노출): {ci_exposed:.3f}")
print(f"누적 발생률(비노출): {ci_unexposed:.3f}")
print(f"RR = {rr:.2f} (95% CI: {lo:.2f} ~ {hi:.2f})")해석: RR 이 1 보다 크면 노출이 결과 위험을 증가시킨다는 신호. 95% CI 가 1 을 포함하지 않으면 통계적으로 유의. 그러나 cohort 는 관찰 연구이므로 selection bias·confounding 보정 후에야 인과적 해석이 가능하다.
9 결론 및 후속
| 시간 방향 | 적합 상황 | 트레이드오프 |
|---|---|---|
| Concurrent | 신규 연구 질문, 사전 통제된 변수 측정 필요 | 시간·비용 큼 |
| Retrospective | 기존 자료 활용 가능, 빠른 답 필요 | 자료 품질·완성도 한계 |
| Ambidirectional | 단·장기 결과 동시 관심 | 운영 복잡 |
5 가지 강점은 모두 “분모와 시간 정보를 보유한 채 노출에서 결과로 행진” 이라는 코호트의 정체성에서 직접 파생된다. 다음 글(B7)에서는 이 강점들의 반대편인 약점 4 가지 와, 시간-사건 분석에서 유용한 Kaplan-Meier·Cox PH 모형을 다룬다.
10 관련 주제
선행 / 후속
다른 카테고리
- Multiple Testing Problem — P-hacking 의 통계적 보정
- 관찰 연구 설계: 코호트, 케이스-컨트롤, 단면 연구
- Effect Measures: 효과·영향·인과 추정량 종합 — RR/RD/NNT 통합