Kwangmin Kim - 전향·후향·양방향 코호트 + 코호트의 5 가지 강점

1 데이터 수집의 방향과 연구의 방향은 다르다

코호트 연구를 처음 만나는 사람이 가장 흔히 혼동하는 것은 “전향(prospective) = 연구의 방향” 이라는 등식이다. 정확히는 다음과 같다 (Schulz & Grimes, 2019, Ch.4.1).

정의: 코호트의 두 시간 축

연구의 방향(direction of inference): 항상 노출 → 결과 한 방향. 코호트의 정체성.
데이터 수집의 시점(timing of data collection): 연구 시작 시점 기준으로 과거인지 미래인지.

이 두 축이 직교한다 — 데이터가 과거에서 와도 연구의 방향은 여전히 노출에서 결과로 흐른다.

1.1 직관: 시간 여행 비유

retrospective cohort 를 “거꾸로 가는 연구” 로 오해하는 경우가 많다. 다음 비유가 이를 정리해 준다.

1985 년에 어떤 공장에서 누가 화학물질에 노출되었는지 기록이 남아있다고 하자. 2025 년에 연구자가 그 기록을 열어 노출자와 비노출자의 1985~2025 년 사이 폐암 발병을 추적한다. 연구자의 머릿속 시간은 1985(노출) → 2025(결과) 로 흐른다 — 데이터를 2025 년에 앉아서 읽었더라도 연구는 미래로 행진한다. 이것이 retrospective cohort 다.

2 세 가지 시간 방향

시간축:    과거 ─────────── 연구 시작 시점 ─────────── 미래

                                      │
[Concurrent (전향)]                    │  노출 ───→ 결과
                                      │  (데이터 수집과 결과 발생이 미래에 일어남)

[Retrospective (후향)]    노출 ──→ 결과 │
                          (데이터는 이미 과거에 다 발생, 연구만 지금)

[Ambidirectional]         노출 ── 결과 │ ── 결과
                          (단기 결과는 과거 자료, 장기 결과는 추적)

2.1 Concurrent (전향) Cohort

연구 시작 시점에 노출자·비노출자를 등록하고 결과 발생을 미래에 추적한다.

사례 1 — 보조생식술과 다태아: 보조생식술(ART) 노출자 + 자연 임신자를 연구 시작 시점에 등록하고 임신 경과를 추적해 다태아 빈도를 비교한다 (Luke, 2017).

직관: 전향 코호트의 강점은 “통제력”

연구 시작 시점에 자료 수집 양식을 직접 설계할 수 있다. 어떤 변수를 측정할지, 어떤 시점에 측정할지, 어떤 정의를 사용할지를 사전에 결정한다. 그래서 retrospective 보다 데이터 품질이 우수하다 — 마치 식당이 미리 메뉴를 정한 것과, 손님이 가져온 잔반으로 요리를 만드는 것의 차이와 같다.

비용: 다태아·암·심혈관처럼 결과가 늦게 발생하면 추적 기간이 수년~수십 년으로 길어진다. 인건비·운영비가 큼.

2.2 Retrospective (후향) Cohort

연구 시작 시점에 노출과 결과 모두가 이미 과거에 발생해 있다. 의무기록·등록부에서 노출자·비노출자를 식별하고, 같은 자료에서 결과를 확인한다.

사례 — 보조생식술과 유방암 (가상): ART 시술 기록(2000~2010)과 유방암 등록부(2000~2025)를 결합하여 ART 노출자와 비노출자의 25 년 후 유방암 발생률을 비교 (Sergentanis et al., 2014).

별명들: historical cohort, historical prospective, nonconcurrent prospective, “prospective study in retrospect” 등 (Porta, 2014). 이 작명의 다양함이 곧 “어떻게 봐도 연구의 방향은 노출 → 결과” 라는 사실을 강조한다.

반사실: Retrospective 의 데이터 한계

기존 데이터는 연구를 위해 수집된 자료가 아니다. 흡연 변수가 “흡연자/비흡연자” 두 칸뿐일 수 있고, 당시 흡연량(개비/일)·기간(년)이 빠질 수 있다. 프라이버시 규제로 환자 재접촉도 어렵다 (Setia, 2016).

만약 같은 연구 질문을 concurrent 로 시작했다면 흡연량 측정 도구를 사전에 설계해 정확한 dose-response 를 그릴 수 있었을 것이다. Retrospective 의 시간·비용 절감은 자료 품질의 트레이드오프와 동전의 양면이다.

2.3 Ambidirectional Cohort

데이터 수집이 양방향으로 진행된다 — 노출 시점에서 단기 결과까지는 과거 자료(retrospective), 장기 결과까지는 미래 추적(prospective).

사례: ART 노출이 단기로는 다태아 출산, 장기로는 유방암과 연관될 수 있는지 본다. 출산 결과는 의무기록에서 회고 추출, 유방암은 등록 후 추적 (Sergentanis et al., 2014).

활용 조건: 같은 노출에 단·장기 결과가 모두 관심사일 때. 중복 운영 비용을 양방향 자료 활용으로 상쇄한다.

3 강점 1 — 발생률과 자연사의 측정

코호트는 분모(at-risk population) 와 시간(follow-up time) 을 모두 안다. 이 두 정보가 결합되어 발생률 측정이 가능해진다.

정의: 누적 발생률 (Cumulative Incidence) 과 발생률 (Incidence Rate)

\[ \text{누적 발생률} = \frac{\text{추적 기간 중 새로 발생한 사례 수}}{\text{시작 시점 위험 인구}} \]

\[ \text{발생률 (incidence rate)} = \frac{\text{새 사례 수}}{\text{인-시간 (person-time)}} \]

전자는 “이 인구에서 X 년 안에 사례가 발생할 확률”을 추정하고, 후자는 “단위 인-시간당 발생 빈도”를 추정한다.

3.1 직관: 분모를 모르면 빈도를 모른다

기술 연구의 case report 는 분자만 있고 분모가 없다. “이 약을 먹은 사람 중 7 명이 부작용” 만으로는 “이 약이 위험한가” 를 답할 수 없다 — 7 명이 70 명 중 7 인지, 7,000 명 중 7 인지, 70,000 명 중 7 인지에 따라 의미가 완전히 다르다.

코호트는 “이 약을 먹기 시작한 1,000 명 중 7 명이 부작용 + 비노출자 1,000 명 중 1 명이 부작용” 으로 분모와 비교군까지 함께 갖춘다. 이 단순한 차이가 인과 추론의 출발선이다.

3.2 자연사(natural history) 추적

자연사란 개입이 없을 때 질병이 시간에 따라 어떻게 진행되는가 의 묘사다. 코호트는 비노출자를 추적함으로써 자연사를 직접 관찰한다 (Schulz & Grimes, 2019, Ch.4.2).

4 강점 2 — 시간 선후의 명료성 (“닭과 달걀” 회피)

Cross-sectional 의 함정

만성 통증과 우울증의 cross-sectional 자료에서 강한 상관이 관찰된다 (Buonanotte et al., 2015). 그러나 다음 두 가지 인과 방향이 자료에서 구분되지 않는다.

우울이 통증 인지를 강화한다 (mood → pain perception).
만성 통증이 우울을 유발한다 (pain → mood disorder).

같은 자료가 어느 방향으로도 해석된다 — 시간이 측정되지 않았기 때문이다.

코호트는 “노출 시점에 결과가 없었음” 을 확인하고 시작한다. 이 한 문장이 시간 선후의 모호성을 제거한다 (Thadhani & Tonelli, 2006). 즉, “노출이 결과보다 먼저” 라는 인과의 1 차 조건을 충족한다.

4.1 직관: 시간 선후 = 인과의 1 차 조건

Hill criteria (B-HILL 글에서 본격 다룸) 의 9 기준 중 가장 강한 것은 temporality(시간성) 다. 원인이 결과를 앞서야 한다는 것은 흔히 기준 9 가지 중 유일한 필수 조건으로 인용된다. Cross-sectional 은 이 1 차 조건조차 보장하지 못하는 반면, cohort 는 보장한다.

5 강점 3 — 단일 노출 → 다중 결과

흡연(노출 1 개) → 뇌졸중·기종·구강암·심장병·치매(결과 다수) 같은 1:N 관계를 한 연구에서 본다 (Schulz & Grimes, 2019, Ch.4.2). Doll & Peto 의 영국 의사 흡연 연구가 대표 (Doll et al., 2000).

5.1 P-hacking 함정과 그 회피

가정 위반의 비용 — P-hacking

다중 결과 추적은 강점이지만, 다중 검정 보정이 빠지면 곧장 거짓 양성이 폭증한다.

수식 직관: 독립인 100 개 가설을 \(\alpha = 0.05\) 로 검정하면 귀무가설 하에서도 평균 5 건이 유의 하게 나온다. 이를 모르고 “유의한 5 건만 보고” 하면, 실제 효과가 없는 노출-결과 쌍을 인과로 보고하는 셈이다.

\[ P(\text{최소 1 건 거짓 양성}) = 1 - (1-\alpha)^k \]

\(k=10\) 이면 \(1 - 0.95^{10} \approx 0.40\) — 40% 의 확률로 적어도 한 건이 거짓 양성이다. \(k=20\) 이면 \(\approx 0.64\). 이 빠른 증가가 P-hacking 의 함정이다.

한 리뷰에서 관찰 연구 10 편이 평균 100 건 이상의 노출-결과 연관을 검정했고 최대 264 건 에 달했다 (Pocock et al., 2004). 보정 없이 유의한 것만 보고된다면 거짓 양성률이 통제를 벗어난다.

5.2 회피 절차

단계	행동
사전 등록	일차·이차 가설을 사전 명시 (prespecify)
다중 검정 보정	Bonferroni / FDR / 가족별 오류율 통제 (cross-link: Multiple Testing Problem)
전부 보고	검정한 모든 연관을 보고. 유의한 것만 추리지 않음
유형 표시	가설 검증(confirmation) vs 가설 생성(generation) 을 명시

직관: P-hacking 의 IT 판

A/B 테스트에서 결제율·DAU·체류시간·CTR·재방문율·취소율을 동시에 보고, 그중 유의한 1 개만 보고하는 행위가 P-hacking 의 IT 판이다. OEC (Overall Evaluation Criterion) 또는 북극성 지표(north star metric) 를 사전 지정하는 관행은 cohort 의 사전 가설 명시와 같은 기능을 한다.

6 강점 4 — 희귀 노출에 강함

어떤 노출은 일반 인구에서 매우 드물다 — 이온화 방사선·특정 화학물질·희귀 직업 노출. 이때 노출자를 일반 인구에서 표집하면 비효율적으로 큰 표본이 필요하다 (Setia, 2016).

직관: 노출의 희소성을 우회하는 표집

특정 공장이나 병원이 있다면, 거기서 노출자 100 명을 한 번에 확보 가능하다. 일반 인구에서는 1,000,000 명 중 100 명만 노출이라면 동일 표본을 위해 백만 명 표집이 필요하다.

코호트의 표집 효율 = 노출자 비율을 인위적으로 높여 잡되, 비노출자는 적당히 잡는다. 이 비대칭 표집이 곧 효율의 원천이다.

설계	강한 영역
Cohort	희귀 노출 (rare exposure)
Case-Control	희귀 결과 (rare outcome)

이 비대칭이 두 설계의 분업이다 — 노출이 희귀하면 cohort, 결과가 희귀하면 case-control.

7 강점 5 — Neyman Bias 회피

정의: Neyman Bias (Prevalence-Incidence Bias)

급사하는 질병을 case-control 로 연구하면, 사망한 사례가 표본에서 누락되어 살아남은 사례만 관찰된다. 결과적으로 표본은 더 약한 표현형 또는 보호 인자를 가진 환자에 편향된다 (Hill et al., 2003; Neyman, 1955).

7.1 Schulz 의 비유

Schulz 가 원전에서 든 비유 — “눈 치우기와 심근경색 연구를 case-control 로 하면, 진입로에서 삽을 든 채 사망한 사례를 모두 놓친다” (Schulz & Grimes, 2019, Ch.4.2). 가장 심각한 사례가 자동 누락되므로 등록된 사례군은 진성 사례군의 대표가 아니다.

7.2 반사실: Cohort 면 어떻게 다른가

Cohort 는 노출(눈 치우는 사람 vs 안 치우는 사람) 기준으로 등록하고, 그 후 발생하는 심근경색을 추적한다. 사망도 결과의 한 형태로 기록되기 때문에, 진입로에서 사망한 사례도 노출자의 결과로 정확히 들어간다. 즉 cohort 는 결과가 아니라 노출에서 시작하므로 결과 누락 편향에 강하다.

7.3 IT 대응 — 생존자 편향(Survivorship Bias)

이 패턴의 IT 판이 생존자 편향이다. “이탈하지 않은 사용자에게서 어떤 행동이 보이는가” 는 case-control 적 회고이고, 이미 이탈한 사용자는 자료에 없다. 그래서 “체류 사용자의 특성”을 “전체 사용자의 권장 행동” 으로 옮기면 편향이 발생한다. 무작위 배정 + 추적이 cohort 의 IT 판인 A/B 테스트가 이 함정을 회피한다.

8 코드 예시 — 코호트 발생률·상대위험 계산

가상의 ART 와 다태아 cohort 를 시뮬레이션한다.

import numpy as np
import pandas as pd
from scipy import stats

np.random.seed(42)

# 가상의 ART 노출 / 자연 임신 cohort
n_exposed = 1000
n_unexposed = 1000

# 다태아 비율: ART 군 30%, 자연 임신 군 3%
twins_exposed = np.random.binomial(1, 0.30, n_exposed)
twins_unexposed = np.random.binomial(1, 0.03, n_unexposed)

# 누적 발생률
ci_exposed = twins_exposed.mean()
ci_unexposed = twins_unexposed.mean()

# 상대위험 (RR)
rr = ci_exposed / ci_unexposed

# 95% CI for log(RR) (Greenland-Robins, 근사)
a, b = twins_exposed.sum(), n_exposed - twins_exposed.sum()
c, d = twins_unexposed.sum(), n_unexposed - twins_unexposed.sum()
log_rr = np.log(rr)
se_log_rr = np.sqrt(1/a - 1/n_exposed + 1/c - 1/n_unexposed)
lo = np.exp(log_rr - 1.96 * se_log_rr)
hi = np.exp(log_rr + 1.96 * se_log_rr)

print(f"누적 발생률(노출): {ci_exposed:.3f}")
print(f"누적 발생률(비노출): {ci_unexposed:.3f}")
print(f"RR = {rr:.2f} (95% CI: {lo:.2f} ~ {hi:.2f})")

해석: RR 이 1 보다 크면 노출이 결과 위험을 증가시킨다는 신호. 95% CI 가 1 을 포함하지 않으면 통계적으로 유의. 그러나 cohort 는 관찰 연구이므로 selection bias·confounding 보정 후에야 인과적 해석이 가능하다.

9 결론 및 후속

시간 방향	적합 상황	트레이드오프
Concurrent	신규 연구 질문, 사전 통제된 변수 측정 필요	시간·비용 큼
Retrospective	기존 자료 활용 가능, 빠른 답 필요	자료 품질·완성도 한계
Ambidirectional	단·장기 결과 동시 관심	운영 복잡

5 가지 강점은 모두 “분모와 시간 정보를 보유한 채 노출에서 결과로 행진” 이라는 코호트의 정체성에서 직접 파생된다. 다음 글(B7)에서는 이 강점들의 반대편인 약점 4 가지 와, 시간-사건 분석에서 유용한 Kaplan-Meier·Cox PH 모형을 다룬다.

10 관련 주제

선행 / 후속

다른 카테고리

Multiple Testing Problem — P-hacking 의 통계적 보정
관찰 연구 설계: 코호트, 케이스-컨트롤, 단면 연구
Effect Measures: 효과·영향·인과 추정량 종합 — RR/RD/NNT 통합