Survival·Cox 회귀 개관 — 추적 데이터 모델링

Woodward Ch.11 — Modelling Follow-up Data overview

추적 (cohort/intervention) 자료의 시간-사건 모델링 전체 지형을 통계학자의 lens 로 한 번에 조망한다. 생존·위험·누적위험 함수의 정의와 상호 관계, 4 가지 hazard 추정 방법 (KM·Person-time·Actuarial·Nelson-Aalen), 모수적 (Exponential, Weibull) vs 반모수적 (Cox PH) 모형의 분업, 모형 진단·경쟁 위험·Poisson 회귀·Pooled logistic 까지의 흐름을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다.

Experimentation
Modeling
저자

Kwangmin Kim

공개

2026년 05월 08일

1 왜 또 다른 회귀가 필요한가

Ch.10 의 logistic regression 이 이항 결과 (yes/no) 를 다룬다면, Ch.11 의 survival regression 은 시간-사건 (time-to-event) 결과를 다룬다. 두 분석 차이의 본질은 시간 차원과 censoring 이다.

정의: Time-to-Event Outcome

각 개인 \(i\) 에 대해 두 가지 값이 관측된다:

  • \(T_i\): 사건이 발생하기까지의 시간 (또는 추적 종료 시점).
  • \(\delta_i \in \{0, 1\}\): 사건 발생 여부 (\(\delta_i = 1\) 사건, \(\delta_i = 0\) censored).

관측 자료: \(\{(T_i, \delta_i, X_i): i = 1, \ldots, n\}\) — 시간 + 사건 지표 + 공변량 (Woodward, 2014, Ch.11.1).

3 단계 직관:

  • 추상 정의: \(T_i = \min(T_i^*, C_i)\) — 진성 사건 시점 \(T_i^*\) 와 censoring 시점 \(C_i\) 의 최솟값. \(\delta_i = \mathbb{1}[T_i^* \le C_i]\).
  • 일상어 비유: 마라톤 결승선 통과 시간 측정 — 결승선 통과한 사람은 정확한 시간, 중도 기권자는 기권 시점만 기록 (결승선 통과 안 했다는 사실 + 그 시점까지 무사했다는 사실 보존).
  • 반사실 시나리오: Logistic 으로 분석하려고 시간 정보를 “5 년 안에 사건 yes/no” 로 압축하면 censoring 자료의 부분 정보 손실. 또 추적 길이가 사람마다 다르면 분모 모호. Survival regression 이 시간 정보 보존 + censoring 정직 처리.

2 Ch.11 전체 구조 — 11 절의 분업

WOO Ch.11 — Modelling Follow-up Data
│
├── 11.1 Introduction                        → H-WOO11-1
├── 11.2 Basic functions of survival time
│   ├── 11.2.1 Survival function S(t)
│   ├── 11.2.2 Hazard function h(t)         → H-WOO11-1
├── 11.3 Estimating hazard
│   ├── 11.3.1 Kaplan-Meier
│   ├── 11.3.2 Person-time
│   ├── 11.3.3 Actuarial
│   ├── 11.3.4 Cumulative (Nelson-Aalen)    → H-WOO11-2
├── 11.4 Probability models
│   ├── 11.4.1 PDF + CDF
│   ├── 11.4.2 Choosing a model
│   ├── 11.4.3 Exponential
│   ├── 11.4.4 Weibull
│   ├── 11.4.5 Other (log-logistic, Gompertz) → H-WOO11-3
├── 11.5 Proportional hazards regression (parametric) → H-WOO11-4
├── 11.6 Cox PH model
│   ├── 11.6.1 Partial likelihood
│   ├── 11.6.2 Ties handling
├── 11.7 Weibull PH                          → H-WOO11-5
├── 11.8 Model checking                      → H-WOO11-6
├── 11.9 Competing risk + Joint modeling    → H-WOO11-7
├── 11.10 Poisson regression                 → H-WOO11-8
└── 11.11 Pooled logistic regression         → H-WOO11-9

후속 9 편이 각 절을 깊이 다룬다. 이 글은 챕터 전체의 흐름과 도구의 분업을 한 번에 조망한다.

3 11.2 — 생존 시간의 기본 함수 3 가지

정의: 생존·위험·누적위험 함수

생존 함수 (Survival Function): \[S(t) = P(T > t) = 1 - F(t)\] 시점 \(t\) 까지 사건이 발생하지 않을 확률.

위험 함수 (Hazard Function): \[h(t) = \lim_{\Delta t \to 0} \frac{P(t \le T < t + \Delta t \mid T \ge t)}{\Delta t} = \frac{f(t)}{S(t)}\] 시점 \(t\) 까지 살아남은 자에 대한 즉각적 사건 발생 비율.

누적 위험 함수 (Cumulative Hazard): \[H(t) = \int_0^t h(u)\, du = -\log S(t)\] \(0\) 에서 \(t\) 까지의 위험률 누적.

(Woodward, 2014, Ch.11.2; Collett, 2003).

3.1 세 함수의 동치성

직관 3 단계: 같은 정보를 세 가지 형태로
  • 추상 정의: 한 분포의 정보가 PDF \(f(t)\) 에 저장되고, \(S(t), h(t), H(t)\) 가 모두 \(f(t)\) 의 변환. \(S = 1 - F\), \(h = f/S\), \(H = -\log S\).
  • 일상어 비유: 같은 도시의 인구 분포를 (1) 연령별 인구수, (2) 누적 인구비율, (3) 연령별 사망률, (4) 누적 사망 위험 으로 표현. 같은 정보, 다른 강조점.
  • 반사실 시나리오: 만약 \(S(t)\) 만 추정하고 \(h(t)\) 무시하면 — 시점별 위험의 변화 패턴 (감소 → 일정 → 증가) 를 못 본다. 두 함수가 보완.

왜 세 함수 모두 필요한가: - \(S(t)\): 환자에게 “5 년 생존 확률 80%” 같은 직관적 보고. - \(h(t)\): 임상 의사에게 “현재 시점의 위험률” 같은 즉각 비교. - \(H(t)\): 통계학자에게 모형 진단 (linear plot 가능) 도구.

3.2 Bathtub Curve — 인생 위험률의 직관

사례: 인간 사망의 hazard plot (Figure 11.1)

Woodward 가 든 idealised 사례 — 인간 일생의 모든 원인 사망 hazard:

  • 유아기 (0~5 세): hazard ↑↑ (선천성, 감염).
  • 아동·청소년 (5~15 세): hazard ↓ (생존자의 적응).
  • 청년·중년 (15~50 세): hazard 거의 일정 + 약간의 사고·자살 변동.
  • 노년 (50+ 세): hazard ↑↑ (노화·만성 질환).

전형적 bathtub 곡선.

3 단계 직관:

  • 추상: \(h(t)\)\(t\) 에 따라 비단조 — 단순 모수 모형으로 적합 어려움.
  • 일상어 비유: 자동차의 고장률 곡선 — 신차 (제조 결함), 안정 운행, 노후 (마모) 의 3 단계.
  • 반사실 시나리오: 만약 hazard 가 일정하다고 가정 (exponential 모형) 하면 인간 사망 적합 부적절. 부분 인구 (예: 20~40 세 만) 분석으로 가정 충족 가능.

4 11.3 — Hazard 추정 4 방법

4 가지 비모수 추정의 분업
방법 가정 출력 장점
Kaplan-Meier (KM) Hazard 가 사건 시점 사이 일정 Step function 정확한 사건 시점 활용
Person-time 구간 내 hazard 일정 구간별 평균 hazard 부드러운 plot
Actuarial 균등 censoring 구간별 hazard Routine 자료 적합
Nelson-Aalen (NA) (없음) 누적 hazard \(H(t)\) 모형 진단에 유리

4.1 KM Hazard Estimator

\[\hat h_t = \frac{e_t}{n_t \cdot u_t}\]

  • \(e_t\): 시점 \(t\) 의 사건 수.
  • \(n_t\): 시점 \(t\) 직전의 위험 인구.
  • \(u_t\): 다음 사건 시점까지의 간격.
직관 3 단계: KM Hazard 의 단점
  • 추상: 사건 시점 사이의 hazard 일정 가정 → 사건이 드문 구간에서 매우 낮은 hazard, 빈번한 구간에서 매우 높은 hazard. 결과는 “spiky” plot.
  • 일상어 비유: 매일 아침 강수량을 측정 — 비 안 오는 날과 폭우 날의 추정이 극단적으로 달라 시각적 noise 큼.
  • 반사실 시나리오: 자료가 적으면 noise 가 진성 패턴 가림. Person-time (구간 평균) 이 매끄러운 대안.

4.2 Person-time Estimation

시간을 구간 (예: 10 주) 으로 나누고 각 구간의 person-time event rate 산출:

\[\hat h_{\text{interval}} = \frac{e_{\text{interval}}}{\sum (\text{person-time}_i)}\]

Woodward 의 사례 (Example 11.2 — Glioblastoma)

27 명 의 생존 자료를 10 주 구간으로 분할.

구간 [10, 20): - \(e = 5\) 사망 (10, 12, 13, 15, 16 주). - 사망자의 person-weeks: \(0 + 2 + 3 + 5 + 6 = 16\). - 생존자 person-weeks: \(22 \times 10 = 220\). - 합 person-weeks: \(236\). - \(\hat h = 5 / 236 = 0.0212\).

이 구간 hazard 가 KM 의 개별 사건 시점 hazards 의 가중 평균에 가까움.

3 단계 직관:

  • 추상: 구간 평균이 KM 의 spiky 결과 평탄화. 정보 손실 (구간 내 시점) 대신 시각화 안정성.
  • 일상어 비유: 일별 매출의 일주일 평균 — 일별 변동 줄고 추세 명확.
  • 반사실 시나리오: 구간이 너무 크면 시간 변화 못 보고, 너무 작으면 KM 과 비슷한 noise. Bias-variance trade-off.

4.3 Cumulative Hazard (Nelson-Aalen)

\[\hat H(t) = \sum_{t_i \le t} \frac{e_i}{n_i}\]

직관 3 단계: NA 의 모형 진단 활용
  • 추상: \(H(t) = -\log S(t)\) 라는 관계 → \(-\log \hat S_{\text{KM}}(t) \approx \hat H_{\text{NA}}(t)\).
  • 일상어 비유: 누적 강수량 plot — 단일 시점의 noise 가 평균화되어 추세 명확.
  • 반사실: \(\log \hat H(t)\) vs \(\log t\) plot 이 직선이면 Weibull 분포 가정 충족. 곡선이면 다른 모형 필요.

이 진단 plot 이 모수 모형 선택의 1 차 도구.

5 11.4 — 모수적 모형 (Parametric)

정의: Parametric Survival Models

생존 시간의 분포를 명시적 확률 모형으로 가정.

모형 \(h(t)\) 형태 가정
Exponential \(\lambda\) (일정) Memoryless
Weibull \(\lambda \gamma t^{\gamma-1}\) Monotonic (↑ or ↓)
Log-logistic 비단조 (peak after some time) Initially ↑, then ↓
Gompertz \(\lambda e^{\gamma t}\) Exponentially ↑
Generalized Gamma 유연 다른 모형 포괄

5.1 Exponential — 가장 단순

\[f(t) = \lambda e^{-\lambda t}, \quad S(t) = e^{-\lambda t}, \quad h(t) = \lambda\]

직관 3 단계: Memoryless 성질
  • 추상: \(P(T > t + s \mid T > s) = P(T > t)\) — 이미 살아남은 만큼이 향후 위험에 영향 0.
  • 일상어 비유: 매년 사망률이 일정한 가상의 인구 — 이미 80 살 살아남은 사람의 다음 1 년 위험과 20 살의 다음 1 년 위험 동일.
  • 반사실 시나리오: 진성 인간 사망은 noticeably memoryless 아님 (노년에 ↑). Exponential 은 매우 짧은 추적 또는 일정 위험 영역에서만 적합.

Exponential 의 활용: - A/B 테스트의 단기 효과 분석 (1 주 추적). - IT 서비스의 mean time between failures (MTBF). - 방사성 동위원소 붕괴.

5.2 Weibull — 가장 유연한 모수 모형

\[f(t) = \lambda \gamma (\lambda t)^{\gamma-1} e^{-(\lambda t)^\gamma}, \quad h(t) = \lambda \gamma (\lambda t)^{\gamma-1}\]

직관 3 단계: \(\gamma\) 의 의미
  • \(\gamma = 1\): Exponential (hazard 일정).
  • \(\gamma > 1\): Hazard 시간에 따라 ↑ (예: 노화).
  • \(\gamma < 1\): Hazard 시간에 따라 ↓ (예: 사고 회복).

3 단계 직관:

  • 추상: \(\gamma\) 가 hazard 의 시간 변화 패턴 결정. 단조 증가/감소만 표현 (비단조 불가).
  • 일상어 비유: 자동차 부품 — 새 부품은 시간 따라 마모 (\(\gamma > 1\)), 신생아는 시간 따라 면역 ↑ (\(\gamma < 1\)).
  • 반사실 시나리오: Bathtub 곡선 (initially ↓, then ↑) 은 Weibull 부적합. Generalized Gamma 또는 piecewise 모형 필요.

5.3 모수 모형 선택 도구

도구 사용
AIC/BIC 모형 비교
Cox-Snell residual 적합도 시각
Weibull plot: \(\log(-\log\hat S(t))\) vs \(\log t\) 직선 Weibull 적합 검증
Exponential plot: \(\log \hat S(t)\) vs \(t\) 직선 Exponential 적합 검증

상세는 H-WOO11-3 (모수 모형) 에서.

6 11.5~11.7 — Proportional Hazards Regression

정의: Proportional Hazards (PH) 모형

\[h(t \mid X) = h_0(t) \exp(\beta^T X)\]

  • \(h_0(t)\): Baseline hazard\(X = 0\) 일 때의 hazard.
  • \(\exp(\beta_j)\): 변수 \(X_j\) 1 단위 증가당 hazard ratio (HR).

핵심 가정: 두 군의 hazard 비 \(h_1(t) / h_2(t) = \exp(\beta)\) 가 시간 무관 — proportional.

6.1 Parametric PH (11.5, 11.7) vs Cox PH (11.6)

직관 3 단계: 두 모형의 분업
측면 Parametric PH (Weibull 등) Cox PH
Baseline hazard 명시적 모수 형태 비모수 (free form)
가정 PH + 분포 가정 PH 만
추론 절대 위험 산출 가능 HR 만
외삽 가능 (모형 기반) 불가
효율성 가정 맞으면 ↑ 항상 robust
  • 추상 정의: Cox 가 baseline hazard 의 형태를 자유롭게 두므로 가정 위반 위험이 작음. Parametric 은 가정 맞으면 더 정밀.
  • 일상어 비유: Parametric = 정해진 공식으로 적합 (정밀하나 공식 틀리면 큰 오차). Cox = 자유 형태 적합 (덜 정밀하나 robust).
  • 반사실 시나리오: 진성 hazard 가 Weibull 이면 Weibull PH 가 효율 우월. 임의 형태이면 Cox 가 안전.

6.2 Cox 의 Partial Likelihood

정의: Cox 의 부분 가능도

각 사건 시점 \(t_i\) 의 risk set \(R(t_i) = \{j : T_j \ge t_i\}\) 에서 사건이 발생한 개인 \(i\) 의 조건부 확률:

\[L_i(\beta) = \frac{\exp(\beta^T X_i)}{\sum_{j \in R(t_i)} \exp(\beta^T X_j)}\]

부분 가능도: \[L(\beta) = \prod_i L_i(\beta)^{\delta_i}\]

(censored 자는 \(\delta_i = 0\), likelihood 에 기여 안 함).

직관 3 단계: 왜 “Partial”
  • 추상 정의: 사건 발생 순위만 사용 — 정확한 시점은 무시. Baseline hazard \(h_0(t)\) 가 모형에 안 들어와 식별 불가하나 inference 가능.
  • 일상어 비유: 경마에서 우승마 식별 — 각 말의 절대 속도 모르고 순위만 알아도 평균적으로 빠른 말 추정 가능.
  • 반사실 시나리오: 만약 full likelihood 사용하려면 baseline hazard 의 함수 형태 가정 필요. Partial likelihood 가 이를 우회 — Cox 의 천재성.

6.3 Ties Handling

같은 시점에 여러 사건 발생 시 (예: 두 환자가 같은 날 사망) Cox 의 partial likelihood 가 정의 모호.

방법 설명
Breslow 단순 근사 (default 다수 소프트웨어)
Efron 정확 근사 — Breslow 보다 정확
Exact 모든 가능 순위 합산 — 계산 부담 ↑

자세한 분석은 H-WOO11-5 에서.

7 11.8 — Model Checking

정의: PH 가정 검증 도구

Schoenfeld residual plot: 시간 vs 잔차. 0 주위 무작위 → PH 충족.

\(\log(-\log S(t))\) plot: 두 군 비교. 평행 곡선 → PH 충족.

시간 의존 공변량 검정: \(\beta(t) = \beta_0 + \beta_1 t\) 가설 검정.

7.1 Schoenfeld Residual

직관 3 단계: PH 위반의 시각
  • 추상 정의: Schoenfeld 잔차가 시간에 따라 추세 보이면 PH 위반.
  • 일상어 비유: 두 약의 효과 비교 — 시간 따라 차이 변하면 단일 HR 부적절.
  • 반사실 시나리오: PH 위반 시 시간 의존 공변량 (time-varying covariates) 또는 stratified Cox 사용. 또는 RMST (restricted mean survival time) 가 비-PH 대안.

상세는 H-WOO11-6 에서.

8 11.9 — Competing Risk

정의: 경쟁 위험

관심 사건 외의 다른 사건이 같은 사람에서 발생하여 관심 사건을 차단.

예시: - 관심: 심장 사망 / 경쟁: 암 사망. - 관심: 첫 결혼 / 경쟁: 사망. - 관심: 결제 / 경쟁: 이탈 (IT).

8.1 Cause-specific vs Subdistribution Hazard

측면 Cause-specific Hazard Subdistribution Hazard (Fine-Gray)
분모 모든 사건 미발생자 원인 \(k\) 미발생자 (다른 원인 사망 포함)
추정 대상 즉각적 발생 비율 누적 발생 확률의 변화율
활용 Etiology (인과 메커니즘) Prediction (예측)

상세는 H-WOO11-7 에서.

9 11.10 — Poisson Regression

정의: Poisson Regression

사건 수 \(D\) 를 사용한 person-time 자료의 회귀.

\[\log E[D \mid X] = \log(\text{PT}) + \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p\]

\(\log(\text{PT})\) 는 offset (계수 1 고정).

\(\exp(\beta_j)\) = Incidence Rate Ratio (IRR).

9.1 직관 — Cox vs Poisson

직관 3 단계: 두 모형의 관계
  • 추상 정의: Cox 가 사건 시점 단위, Poisson 이 사람-시간 합산 단위. Hazard 가 시간 따라 일정 (또는 강한 가정 충족) 시 두 모형 거의 동일.
  • 일상어 비유: Cox = “각 사건이 언제 발생했는가” 분석. Poisson = “총 몇 건이 얼마의 시간 동안” 분석.
  • 반사실 시나리오: 시간 의존성 강하면 Cox 가 정밀. 인구 단위 분석 (전염병학) 이면 Poisson 이 효율.

9.2 A/B 테스트의 Poisson

A/B 테스트의 사건 수 (구매 횟수, 클릭 수, 페이지 뷰) 분석에 Poisson 자연 적합.

# A/B 테스트의 Poisson regression
import statsmodels.api as sm

# clicks ~ treatment + offset(log(exposure_time))
model = sm.GLM(df["clicks"], X,
               family=sm.families.Poisson(),
               offset=np.log(df["exposure_time"])).fit()
IRR = np.exp(model.params["treatment"])

상세는 H-WOO11-8 에서.

10 11.11 — Pooled Logistic Regression

정의: Pooled Logistic

추적 시간을 작은 구간 (예: 1 일, 1 주) 으로 분할 후 각 구간의 사건 발생을 logistic 으로 모형.

\[\text{logit}(P(\text{event in interval } k)) = \alpha_k + \beta^T X\]

각 구간 별 baseline odds \(\alpha_k\) 자유.

Cox 와의 관계: 구간이 충분히 작으면 pooled logistic ≈ Cox PH.

직관 3 단계: Pooled Logistic 의 활용
  • 추상 정의: 시간을 discretize 후 logistic 으로 분석 → causal inference 의 g-methods (IPW, g-formula) 와 통합 자연.
  • 일상어 비유: Cox 의 연속 시간 분석을 일별 binary 로 환원 → 구현 단순.
  • 반사실 시나리오: 시간 의존 공변량 + censoring + 인과 추론을 모두 다룰 때 pooled logistic 이 g-methods 의 기본 도구.

(Hernán & Robins, 2020, Ch.17 의 g-methods 와 직접 연결).

상세는 H-WOO11-9 에서.

11 Statistics·Phase B 카테고리와의 분담

분담 명시
Statistics 글 영역
survival/01-klein-ch1-examples.qmd 시리즈 Klein 교재 정본 (수학적 엄밀)
survival/08-klein-ch8-cox-ph.qmd 시리즈 Cox PH 의 이론·partial likelihood
survival/12-klein-ch12-parametric.qmd Parametric (Weibull 등)
survival/13-klein-ch13-multivariate.qmd Frailty·multivariate survival
Phase B 글 (Epidemiology) 영역
B7-cohort-survival-ph-model.qmd Schulz 의 임상 Cox 시각
B12-woo-cohort-life-table-km.qmd KM 기본
B13-woo-cohort-survival-competing.qmd Competing risk
Phase H 글 (Modeling) 영역
이 시리즈 (H-WOO11-*) 실험 분석 lens + 회귀 모형 통합

같은 도구이지만 적용 맥락이 다름:

  • Statistics: 이론 정본.
  • Phase B: 임상·역학 실무.
  • Phase H: 실험 분석 + 회귀 모형 강조.

12 결론 — Ch.11 시리즈 길잡이

주제
H-WOO11-0 (이 글) Overview
H-WOO11-1 11.1 + 11.2 — 생존·위험 함수 정의
H-WOO11-2 11.3 — Hazard 추정 4 방법
H-WOO11-3 11.4 — 모수적 모형 (Exp/Weibull)
H-WOO11-4 11.5 — 모수적 PH 회귀
H-WOO11-5 11.6~11.7 — Cox PH + Weibull PH
H-WOO11-6 11.8 — 모형 진단
H-WOO11-7 11.9 — 경쟁 위험
H-WOO11-8 11.10 — Poisson 회귀
H-WOO11-9 11.11 — Pooled logistic

각 글이 위 절을 추상 → 일상어 → 반사실 3 단계로 충실히 다룬다.

13 관련 주제

Phase H WOO Ch.10 시리즈 (선행)

Phase H WOO Ch.11 후속

Statistics 크로스링크

Phase B 크로스링크

Time-to-Event 통합 정리

Subscribe

Enjoy this blog? Get notified of new posts by email: