Kwangmin Kim - Woodward Ch.5 — 통계학자의 시각으로 본 코호트

1 왜 통계학자의 시각이 필요한가

Schulz & Grimes (2019) Ch.4 가 코호트를 임상 의사의 눈으로 본다면 — “어떤 사례를 등록할 것인가, 어떻게 진단할 것인가, 어떻게 보고할 것인가” — Woodward (2014) Ch.5 는 통계학자의 눈으로 같은 설계를 본다. 그래서 강조점이 다음 세 축으로 이동한다.

분석 단위(unit of analysis) — 사람당 1 회 관찰인가, person-time 인가, 사건 시점인가.
추적 시간 구조 — 모두 같은 시점에 시작했는가, staggered entry 인가, 고정 종료인가, 사람마다 다른가.
수학적 가정의 명시화 — 비례 위험, 시간 동질성, 독립적 censoring 등 가정이 깨질 때 어떤 추정량이 어떻게 편향되는가.

이 세 축이 같은 코호트 자료를 다루는 두 종류의 분석을 만든다 — Schulz 의 분류·보고 위주 분석과, Woodward 의 모형·추정 위주 분석.

정의: 코호트 (Woodward 의 정의)

Cohort study (= prospective study): 시작 시점(baseline) 에서 두 군 — factor group(위험 인자 보유) 과 non-factor group(미보유) — 을 선정하여 시간 경과에 따른 질병 발생률을 비교하는 연구 (Woodward, 2014, Ch.5.1).

직관 1 (일상어): 두 줄로 나란히 행진하는 군대의 시간별 사상자 비율을 비교.
직관 2 (반사실): non-factor group 이 없으면 factor group 의 발생률이 “background” 인지 “factor 효과” 인지 구분 불가. Schulz 의 case-series 가 빠지는 함정과 동형.

Schulz 가 “Roman cohort marching” 비유를 썼다면, Woodward 도 같은 두 줄 행진 비유를 사용하지만 그 다음 단계가 다르다 — 두 줄의 발생률 차이를 어떻게 정량화하고, 시간이 지나며 어떻게 변하는가를 모형으로 푼다.

2 Ch.5 전체 구조

WOO Ch.5 — Cohort Studies (통계 lens)
│
├── 5.1 Design considerations
│   ├── 5.1.1 Advantages
│   ├── 5.1.2 Disadvantages
│   ├── 5.1.3 Alternative designs (경제적 변형)
│   └── 5.1.4 Single baseline sample design
│
├── 5.2 Analytical considerations
│   ├── 5.2.1 Concurrent follow-up (고정 코호트)
│   ├── 5.2.2 Moving baseline dates
│   ├── 5.2.3 Varying follow-up durations
│   └── 5.2.4 Withdrawals
│
├── 5.3 Cohort life tables (생명표)
│
├── 5.4 Kaplan-Meier estimation (KM 추정)
│
├── 5.5 Comparison of survival curves (생존 비교)
│
├── 5.6 Competing risks (경쟁 위험)
│
├── 5.7 Person-years approach (인-년 방법)
│
└── 5.8 Period-cohort analyses (기간-코호트 분석)

후속 4 편(B11~B14)에서 각 절을 깊이 있게 다룬다. 이 글은 각 절이 푸는 통계 문제와 그 해법을 한 번에 조망한다.

3 5.1 — 설계 고려: 사례·통제군의 통계적 의미

3.1 강점 2 가지 (Schulz 와 같지만 통계적 강조)

직관 3 단계: 코호트의 시간 선후 보장

추상 정의: factor group 과 non-factor group 을 baseline 에서 결과 무발생 상태로 등록 → 노출 → 결과 추적. 시간 선후가 자동 보장.
일상어 비유: 마라톤 출발선에서 모든 주자가 결승선을 통과하지 않은 상태로 출발. 출발 이후의 결승은 출발 시점의 조건이 결정한 것임을 보장.
반사실 시나리오: 만약 baseline 에서 결과 무발생을 확인하지 않으면, “결과를 이미 가진 사람” 이 factor group 에 섞일 수 있다. 이 경우 자료가 “노출 → 결과” 가 아니라 “결과 → 노출” 도 포함하게 되어 인과 추론이 깨진다.

강점 1 — 시간 순서의 직접성: Woodward 는 이 점을 “ideal for demonstrating causality” 로 표현한다. Schulz 의 같은 메시지보다 더 강한 인과적 톤. 즉, 통계학자에게 코호트는 “관찰 자료에서 인과에 가장 가까운 설계” 다.

강점 2 — 다중 결과의 동시 추적: 흡연(노출 1) → 폐암·심장병·기종·뇌졸중(결과 다수). Schulz 와 같은 메시지지만 Woodward 는 이를 다변량 모형의 출발점으로 본다. 다중 결과를 모두 같은 코호트로 추적하면, 결과 간 상관까지 모형화할 수 있어 correlated competing events 분석이 가능해진다.

3.2 약점 6 가지 — Schulz 의 4 가지를 더 세분

Woodward 는 코호트의 약점을 6 가지로 더 세분한다 (Schulz Ch.4 의 4 가지를 통계 관점으로 확장).

약점	Schulz	Woodward 추가 통계 의미
1. 비용·시간	O	표본 크기 ↔︎ 검정력의 직접 관계
2. 잠복기 긴 질병 부적합	(암시)	추적 기간이 알고자 하는 효과 시점에 못 미침
3. 희귀 결과 부적합	O	5 cases / 100,000 person-year 같은 발생률 사례로 정량
4. Study effect	(암시)	“관찰되고 있다는 사실” 이 행동을 바꿈 (Hawthorne 효과)
5. Exposure 변화 (contamination)	O	시간에 따라 노출이 변하는 현상 — 시간 의존 공변량 모형 필요
6. Withdrawal (이탈)	O	차별 이탈 → 결과 의존이면 편향 방향 추정 가능

가정 위반: Study effect (Hawthorne 효과) 가 실험을 흔드는 방식

가설: 흡연-CHD 코호트에 등록된 흡연자가 자신이 연구되고 있다는 사실을 알면 식이를 더 건강하게 바꾼다 (more aware of “healthy eating advice”). 그래서 흡연 효과가 실제보다 작아 보인다.

이 효과는 non-factor group 의 포함으로 부분 통제된다 — 두 군 모두 같은 study effect 를 받기 때문. RCT 에서는 blinding 으로 통제, 관찰 코호트에서는 study effect 의 비대칭 가능성이 잔존한다.

IT 대응: A/B 테스트의 사용자가 자신이 실험에 있음을 알면 행동이 바뀐다 — 이는 옵트인 사용자를 보면 일반 사용자에게 일반화 어려움.

3.3 5.1.3 — 경제적 변형 5 가지

비용·시간 절감을 위한 변형 설계들. 각각 통계적 비용을 동반한다.

변형	절약	통계적 비용
1. Non-factor 군 생략	시간·비용 큼	비교 불가 → 결과를 background 인지 factor 효과인지 구분 못함 — 추천 안 함
2. 외부 비교군 (예: 국가 통계)	한 집단만 추적	Routine 자료 불완전·세밀도 부족 + 시간 동질성 가정 위반 가능
3. 사망(만)을 결과로	추적·진단 비용 ↓	표본 크기 ↑ 또는 추적 기간 ↑ 필요 (사망이 기록되는 결과보다 적음)
4. 루틴 통계로 사건 알림	능동 추적 비용 ↓	자료 누락·이주 손실 가능 — 두 군이 같이 영향 받으면 sound
5. Retrospective cohort	시간 ↓	자료 정확성·완전성 의존 — 회상 편향 위험

직관 3 단계: 외부 비교군의 함정

추상: factor group 의 사인별 사망률을 미국 인구 통계와 비교 (예: Wong 1990 의 styrene 노출 노동자 연구).
일상어 비유: 한 회사 직원의 평균 키를 전국 평균과 비교. 이 회사가 농구팀이라면 전국 평균보다 큰 것이 직업 효과인지 자기선택인지 모른다.
반사실: 만약 외부 비교군 대신 “같은 산업 다른 직무” 를 비교군으로 잡으면 healthy worker effect 의 영향이 줄어든다 — 두 군 모두 일하는 사람이라는 점이 통제됨.

3.4 5.1.4 — Single Baseline Sample 설계

가장 흔한 코호트 설계: baseline 시점에 무작위 표본을 추출하고, 그 안에서 사후적으로 factor / non-factor 를 분류 (Woodward, 2014, Ch.5.1.4).

장점 4 가지:

변수 사전 분류 불필요 — baseline 측정 후 데이터로 분류.
여러 위험 인자 동시 추적 가능 (예: 흡연 + 부모 CHD 병력).
베이스라인 prevalence 의 무편향 추정 — attributable risk 산출 가능.
위험 인자를 연속 변수로 다룰 수 있음 — 카테고리 분할의 정보 손실 회피.

단점 1 가지:

단일 위험 인자가 주된 관심이라면 factor / non-factor 비율을 통제할 수 없음 → 통계적으로 비효율(검정력 손실).

직관: 동등 표집 vs single baseline 의 trade-off

흡연 100% 표본 + 비흡연 100% 표본을 같은 크기로 매칭하는 설계는 검정력 최대.
Single baseline 에서 인구 흡연율이 25% 라면, factor : non-factor = 25 : 75 비대칭 → 검정력 약간 손실.
그러나 단일 baseline 은 다른 위험 인자도 분석 가능, prevalence 추정 가능 → 종합 효율은 단일 baseline 이 우수.

3.5 Healthy Worker Effect 의 통계적 표현

Woodward 는 EGAT 사례(Thai Electricity Generating Authority) 로 healthy worker effect 를 정밀화한다 (2014, Ch.5.1.4).

가정 위반: EGAT 의 흡연-CV 사망률을 일반 태국인에게 일반화

EGAT 직원의 baseline 흡연율과 일반 태국인의 흡연율은 다를 수 있다. 또 EGAT 직원은 고용된 자라 평균적으로 더 건강하다. 그런데 우리가 흡연-CHD 의 상대 위험(RR)만 관심이라면, healthy worker effect 가 RR 자체를 비례적으로 변화시키지 않는 한, EGAT 결과를 일반화할 수 있다.

예외 — effect modification: 만약 직업 환경(예: 교대 근무·스트레스)이 흡연의 효과를 수정한다면, EGAT RR 과 일반 태국인 RR 이 다를 수 있다. 이 경우만 일반화가 부적절.

이 통찰은 IT A/B 테스트에도 적용된다 — 옵트인 사용자만 본 RR 이 일반 사용자에게도 같은 비율로 작동한다는 가정이 있는 한, opt-in 결과의 일반화는 합리적. effect modification 이 의심되면 별도 검정 필요.

4 5.2 — 분석 고려: 고정 vs 가변 코호트

4.1 5.2.1 Concurrent Follow-up (고정 코호트)

모든 사람이 같은 시점에 등록되고 같은 기간 추적되는 가장 단순한 경우. 분석은 Ch.3 의 단순 위험비·교란 보정으로 충분.

정의: 고정 vs 가변 코호트

Fixed cohort: 모든 구성원이 같은 시점·같은 기간 추적.
Variable cohort: 등록 시점·추적 기간이 사람마다 다름. 다음 4 가지 원인 중 하나가 작동.
1. Moving baseline dates (등록 일자 이동).
2. Varying follow-up durations (개인별 추적 길이 차이).
3. Withdrawals (중도 이탈).
4. Competing risks / non-disease deaths.

4.2 5.2.2 Moving Baseline Dates

Scottish Heart Health Study (SHHS) 가 대표 사례 (Tunstall-Pedoe et al., 1997). 간호사가 스코틀랜드 각지의 클리닉을 순회하면서 등록을 받았기 때문에 첫 번째 클리닉과 마지막 클리닉 사이에 35 개월의 차이가 생겼다.

해법 (관행): 등록 일자 차이를 무시하고, 각 사람의 baseline 부터 elapsed time 으로 추적 시간을 측정. 이는 시간 동질성 가정(time homogeneity) — “효과가 달력 시간에 따라 변하지 않음” 을 전제한다.

가정 위반: 시간 동질성

추상: \(h(t \mid \text{baseline date}) = h(t)\) — baseline 의 달력 날짜와 무관하게 위험률이 같음.
일상어 비유: 1984 년에 등록한 사람과 1987 년에 등록한 사람이 자신의 baseline 후 5 년이 흐른 시점에 같은 위험률을 보인다고 가정.
반사실: 만약 1984~1987 년 사이에 의료 표준이 바뀌어 1987 년 등록자의 진단·치료 환경이 달라졌다면, 두 사람의 5 년 후 위험률이 다를 수 있다. 시간 동질성 위반 → calendar-time 모형으로 분리 분석.

4.3 5.2.3 Varying Follow-up Durations

연구 종료일이 고정되어도, 사람마다 등록 일자가 다르면 추적 기간이 다르다. SHHS 에서 가장 빠른 등록자는 9.1 년, 늦은 등록자는 6.2 년 (평균 7.7 년).

3 가지 분석 옵션:

옵션	설명	문제
1	완전 추적자만 분석	정보 낭비, 표본 ↓
2	최소 elapsed time 까지의 사건만 사용 (예: 6 년)	7~9 년 차의 사건 정보 폐기
3	변동 추적을 무시하고 모든 사건 포함	추적이 긴 자에 사건 발생 기회가 더 많음 → 시간 동질성과 길이-위험 독립 가정 필요

최선: 생존 분석. 각 시점에 위험 인구를 정확히 카운트하므로 추적 길이 차이를 자동 처리.

4.4 5.2.4 Withdrawals (이탈)

Withdrawal: 결과 발생 전에 추적이 끊긴 사람. SHHS 에서는 영국을 떠난 사람이 14/11,629 으로 매우 적었다.

정의: Censoring

위험 인구에 속해 있던 사람이 사건 미발생 상태에서 추적이 끊기는 것. 두 종류:

Administrative censoring: 연구 종료일에 사건 미발생자.
Withdrawal: 사건 발생 전 손실(이주·사망·연락 끊김).

직관 3 단계:

추상: \(T_i\) 가 진성 사건 시점, \(C_i\) 가 censoring 시점일 때 관측은 \(Y_i = \min(T_i, C_i)\), \(\delta_i = 1[T_i \le C_i]\).
일상어 비유: 마라톤 결승선 통과(이벤트) vs 중도 기권(censoring). 기권자가 결승선을 못 통과한 이유가 부상이면 “사건과 무관한 censoring” 가정 위반.
반사실: 만약 흡연자 중 폐암 초기 증상으로 자살한 사람이 censoring 으로 분류되면, 진성 폐암 사건이 누락되어 흡연 효과가 과소 추정. 차별 이탈은 분석 결과를 왜곡한다.

Withdrawal 처리 — 3 분지:

무관 이탈 (예: 직장 이전): censoring 으로 처리, 생존 분석에서 자동 흡수.
결과 관련 이탈 (예: 질병 때문에 이주): event positive 로 처리해야 (Section 5.6, 경쟁 위험).
노출 관련 이탈만: 분석은 유효하나 결과 측정의 의미가 흐려질 수 있음.

5 5.3 — Cohort Life Tables

전통적 actuarial life table 기법. 시간 축을 일정 구간(예: 1 년)으로 나누고 각 구간의 위험률을 추정.

정의: 생명표 (Life Table) — actuarial 방식

각 시간 구간 \(j = 1, \ldots, J\) 에 대해

\(n_j\): 구간 \(j\) 시작 시점 위험 인구.
\(d_j\): 구간 \(j\) 동안 사건 발생 수.
\(w_j\): 구간 \(j\) 동안 censoring 수.
조정 위험 인구: \(n_j - w_j / 2\) (이탈자가 평균적으로 구간 중간에 이탈한다고 가정).

조건부 사건 확률: \[ q_j = \frac{d_j}{n_j - w_j / 2} \]

조건부 생존 확률: \[ p_j = 1 - q_j \]

누적 생존 함수: \[ S(t_J) = \prod_{j=1}^{J} p_j \]

5.1 직관 3 단계 — Actuarial 보정의 의미

추상: \(w_j / 2\) 보정은 “이탈자가 구간 중간에 균등히 분포” 라는 단순 가정.
일상어 비유: 한 해 동안 직장을 떠난 사람들의 평균 근속 기간을 6 개월로 가정 (균등 분포 가정).
반사실: 이탈 분포가 균등하지 않고 구간 초반에 몰려 있으면 \(w_j / 2\) 가 과대 보정. 이 경우 더 정밀한 KM 이 필요.

KM 은 actuarial life table 의 한계를 사건 시점 단위 분해로 해결한다 — 다음 절(B12)에서 본격 다룬다.

6 5.4~5.5 — KM 과 생존 비교 (요약)

이 두 절은 B12, B13 에서 깊이 다룬다. 핵심만 미리 살핀다.

6.1 Kaplan-Meier 추정량 (5.4)

\[ \hat S(t) = \prod_{t_i \le t} \left( 1 - \frac{d_i}{n_i} \right) \]

사건 시점마다 한 단계씩 떨어지는 계단 함수. 시간 구간을 사건 시점 단위로 무한 분해한 actuarial life table 의 극한.

6.2 생존 비교 — Log-rank (5.5)

두 KM 곡선이 같은지 검정. 부분 가능도(partial likelihood) 의 score test 와 동치. 비례 위험 가정 하에 가장 강한 검정력.

7 5.6 — Competing Risks (경쟁 위험)

정의: 경쟁 위험 (Competing Risks)

관심 사건(예: 폐암 사망) 이외에도, 같은 사람에서 사건 발생을 가로막는 다른 사건(예: 심혈관 사망)이 있을 때, 두 이상의 사건이 서로 경쟁한다.

7.1 직관 3 단계 — 경쟁 위험이 KM 을 깨는 방식

추상: KM 은 censoring 이 사건과 독립이라는 가정 (independent censoring) 을 전제. 경쟁 위험은 이 가정을 깬다 — 심혈관 사망은 폐암 사망의 발생을 영구히 차단.
일상어 비유: 마라톤에서 결승선을 통과하는 것이 관심사인데, 다른 코스로 가버리는 사람들이 있다. 이들은 단순 censoring 이 아니라 “결승선 통과를 영구히 못함” 인 자들. 단순 censoring 으로 처리하면 결승선 통과율이 부풀려 추정.
반사실: 만약 경쟁 위험을 단순 censoring 으로 처리하면 KM 의 누적 사건 확률(1 - S(t))이 진성 누적 발생률을 과대 추정. 정확한 추정은 cumulative incidence function (CIF) 를 사용해야.

자세한 분석은 B13 에서 다룬다.

8 5.7 — Person-Years Approach (인-년 방법)

정의: 인-년 (Person-Year, PY)

각 개인이 위험 상태에 있던 시간의 합.

\[ \text{Total PY} = \sum_i (\text{추적 종료 시점}_i - \text{등록 시점}_i) \]

발생률(incidence rate): \[ \text{IR} = \frac{\text{사건 수}}{\text{Total PY}} \]

8.1 직관 3 단계 — Person-year 가 변동 추적을 흡수하는 방식

추상: 한 사람을 1 년 추적한 것과 두 사람을 6 개월씩 추적한 것이 같은 1 person-year. 분모를 person-year 로 두면 두 상황이 같은 위험률 추정에 기여.
일상어 비유: 직원 5 명을 6 개월 고용한 것이나 직원 1 명을 30 개월 고용한 것이나 같은 30 person-month. 임금이 같을 것.
반사실: 만약 시간 단위가 아니라 인 단위로만 분모를 두면(즉, 단순 발생률을 N/persons 로 계산), 추적 6 개월자도 30 개월자도 같은 분모 1 로 처리되어 짧게 추적된 자의 위험률이 부풀려 보임. Person-year 분모가 이 왜곡을 흡수.

8.2 발생률 비 (Incidence Rate Ratio, IRR)

두 군의 발생률 비: \[ \text{IRR} = \frac{\text{IR}_1}{\text{IR}_0} \]

가설 검정은 Poisson regression 또는 직접 z-검정으로.

상세 분석은 B14 에서 다룬다.

9 5.8 — Period-Cohort Analyses (기간-코호트 분석)

매우 긴 추적의 코호트는 calendar time(period) 와 cohort age 가 함께 변한다. 이를 분리하여 분석.

9.1 직관 3 단계 — APC 모형의 식별 문제

추상: Age-Period-Cohort (APC) 모형은 \(\text{Outcome} = f(A, P, C)\) 인데 \(A + C = P\) 이므로 세 변수가 선형 종속. 식별 불가 (perfect collinearity).
일상어 비유: 누군가의 학년·연도·생년월일 중 두 개를 알면 나머지가 결정된다. 세 변수의 선형 효과를 동시에 추정 불가.
반사실: 식별을 위해 한 효과를 0 으로 가정하거나, 비선형 형태로 모형화하거나, 외부 정보를 사용해 제약을 둔다.

이 한계가 APC 분석을 통계적으로 까다로운 영역으로 만든다.

10 Schulz vs Woodward — 두 시각의 분업

측면	Schulz (Ch.4)	Woodward (Ch.5)
청중	임상의	통계학자·역학자
강조	분류·보고·평가	모형·추정·검정
시간 처리	정성적 (선후 보장)	정량적 (생존 함수, 인-년)
가정 명시	일반적	수학적
사례	Doll-Peto, Framingham	SHHS, EGAT, ALSPAC

두 시각은 보완적이다. Schulz 가 “어떤 코호트를 짤 것인가” 를 답하고, Woodward 가 “이 코호트를 어떻게 분석할 것인가” 를 답한다. 좋은 코호트 연구는 두 시각을 모두 통과한다.

11 IT 대응 — Cohort 분석의 통계 lens

Woodward 도구	IT 대응
Person-year	사용자-월 (user-month) 분모로 retention 계산
KM 곡선	Cohort retention curve (가입월별 잔존율)
Competing risks	이탈 vs 결제 vs 광고 클릭 — 동시에 추적되는 경쟁 사건
APC 모형	가입월(cohort) × 사용 시점(age) × 달력 시점(period) 의 세 축 분리

A/B 테스트의 분석에 이 도구들이 직접 활용된다 — Kohavi et al. (2020) 의 분석 챕터가 인-년·KM 을 IT 데이터에 적용한 사례를 풍부히 보여준다.

12 결론 — 다음 4 편의 길잡이

글	주제	핵심 도구
B11	5.1 + 5.2	설계 변형, 분석 단위 (고정 vs 가변)
B12	5.3 + 5.4	Life table, KM 추정, 표준오차, CI
B13	5.5 + 5.6	Log-rank, 경쟁 위험, CIF
B14	5.7 + 5.8	Person-year, IRR, APC 모형

각 글이 위 절들의 통계 도구를 수식 유도와 함께 풀고, 코드 예시와 IT 대응을 추가한다.

13 관련 주제

Phase B Schulz Ch.4 시리즈 (선행)

Phase B WOO Ch.5 후속 (분해 4 편)

다른 카테고리

Time-to-Event Measures: 시간-사건 분석 지표 종합 — IR/IRR/HR/KM/Cox/SMR/SIR 통합