1 왜 또 다른 회귀가 필요한가
Ch.10 의 logistic regression 이 이항 결과 (yes/no) 를 다룬다면, Ch.11 의 survival regression 은 시간-사건 (time-to-event) 결과를 다룬다. 두 분석 차이의 본질은 시간 차원과 censoring 이다.
각 개인 \(i\) 에 대해 두 가지 값이 관측된다:
- \(T_i\): 사건이 발생하기까지의 시간 (또는 추적 종료 시점).
- \(\delta_i \in \{0, 1\}\): 사건 발생 여부 (\(\delta_i = 1\) 사건, \(\delta_i = 0\) censored).
관측 자료: \(\{(T_i, \delta_i, X_i): i = 1, \ldots, n\}\) — 시간 + 사건 지표 + 공변량 (Woodward, 2014, Ch.11.1).
3 단계 직관:
- 추상 정의: \(T_i = \min(T_i^*, C_i)\) — 진성 사건 시점 \(T_i^*\) 와 censoring 시점 \(C_i\) 의 최솟값. \(\delta_i = \mathbb{1}[T_i^* \le C_i]\).
- 일상어 비유: 마라톤 결승선 통과 시간 측정 — 결승선 통과한 사람은 정확한 시간, 중도 기권자는 기권 시점만 기록 (결승선 통과 안 했다는 사실 + 그 시점까지 무사했다는 사실 보존).
- 반사실 시나리오: Logistic 으로 분석하려고 시간 정보를 “5 년 안에 사건 yes/no” 로 압축하면 censoring 자료의 부분 정보 손실. 또 추적 길이가 사람마다 다르면 분모 모호. Survival regression 이 시간 정보 보존 + censoring 정직 처리.
2 Ch.11 전체 구조 — 11 절의 분업
WOO Ch.11 — Modelling Follow-up Data
│
├── 11.1 Introduction → H-WOO11-1
├── 11.2 Basic functions of survival time
│ ├── 11.2.1 Survival function S(t)
│ ├── 11.2.2 Hazard function h(t) → H-WOO11-1
├── 11.3 Estimating hazard
│ ├── 11.3.1 Kaplan-Meier
│ ├── 11.3.2 Person-time
│ ├── 11.3.3 Actuarial
│ ├── 11.3.4 Cumulative (Nelson-Aalen) → H-WOO11-2
├── 11.4 Probability models
│ ├── 11.4.1 PDF + CDF
│ ├── 11.4.2 Choosing a model
│ ├── 11.4.3 Exponential
│ ├── 11.4.4 Weibull
│ ├── 11.4.5 Other (log-logistic, Gompertz) → H-WOO11-3
├── 11.5 Proportional hazards regression (parametric) → H-WOO11-4
├── 11.6 Cox PH model
│ ├── 11.6.1 Partial likelihood
│ ├── 11.6.2 Ties handling
├── 11.7 Weibull PH → H-WOO11-5
├── 11.8 Model checking → H-WOO11-6
├── 11.9 Competing risk + Joint modeling → H-WOO11-7
├── 11.10 Poisson regression → H-WOO11-8
└── 11.11 Pooled logistic regression → H-WOO11-9
후속 9 편이 각 절을 깊이 다룬다. 이 글은 챕터 전체의 흐름과 도구의 분업을 한 번에 조망한다.
3 11.2 — 생존 시간의 기본 함수 3 가지
생존 함수 (Survival Function): \[S(t) = P(T > t) = 1 - F(t)\] 시점 \(t\) 까지 사건이 발생하지 않을 확률.
위험 함수 (Hazard Function): \[h(t) = \lim_{\Delta t \to 0} \frac{P(t \le T < t + \Delta t \mid T \ge t)}{\Delta t} = \frac{f(t)}{S(t)}\] 시점 \(t\) 까지 살아남은 자에 대한 즉각적 사건 발생 비율.
누적 위험 함수 (Cumulative Hazard): \[H(t) = \int_0^t h(u)\, du = -\log S(t)\] \(0\) 에서 \(t\) 까지의 위험률 누적.
(Woodward, 2014, Ch.11.2; Collett, 2003).
3.1 세 함수의 동치성
- 추상 정의: 한 분포의 정보가 PDF \(f(t)\) 에 저장되고, \(S(t), h(t), H(t)\) 가 모두 \(f(t)\) 의 변환. \(S = 1 - F\), \(h = f/S\), \(H = -\log S\).
- 일상어 비유: 같은 도시의 인구 분포를 (1) 연령별 인구수, (2) 누적 인구비율, (3) 연령별 사망률, (4) 누적 사망 위험 으로 표현. 같은 정보, 다른 강조점.
- 반사실 시나리오: 만약 \(S(t)\) 만 추정하고 \(h(t)\) 무시하면 — 시점별 위험의 변화 패턴 (감소 → 일정 → 증가) 를 못 본다. 두 함수가 보완.
왜 세 함수 모두 필요한가: - \(S(t)\): 환자에게 “5 년 생존 확률 80%” 같은 직관적 보고. - \(h(t)\): 임상 의사에게 “현재 시점의 위험률” 같은 즉각 비교. - \(H(t)\): 통계학자에게 모형 진단 (linear plot 가능) 도구.
3.2 Bathtub Curve — 인생 위험률의 직관
Woodward 가 든 idealised 사례 — 인간 일생의 모든 원인 사망 hazard:
- 유아기 (0~5 세): hazard ↑↑ (선천성, 감염).
- 아동·청소년 (5~15 세): hazard ↓ (생존자의 적응).
- 청년·중년 (15~50 세): hazard 거의 일정 + 약간의 사고·자살 변동.
- 노년 (50+ 세): hazard ↑↑ (노화·만성 질환).
전형적 bathtub 곡선.
3 단계 직관:
- 추상: \(h(t)\) 가 \(t\) 에 따라 비단조 — 단순 모수 모형으로 적합 어려움.
- 일상어 비유: 자동차의 고장률 곡선 — 신차 (제조 결함), 안정 운행, 노후 (마모) 의 3 단계.
- 반사실 시나리오: 만약 hazard 가 일정하다고 가정 (exponential 모형) 하면 인간 사망 적합 부적절. 부분 인구 (예: 20~40 세 만) 분석으로 가정 충족 가능.
4 11.3 — Hazard 추정 4 방법
| 방법 | 가정 | 출력 | 장점 |
|---|---|---|---|
| Kaplan-Meier (KM) | Hazard 가 사건 시점 사이 일정 | Step function | 정확한 사건 시점 활용 |
| Person-time | 구간 내 hazard 일정 | 구간별 평균 hazard | 부드러운 plot |
| Actuarial | 균등 censoring | 구간별 hazard | Routine 자료 적합 |
| Nelson-Aalen (NA) | (없음) | 누적 hazard \(H(t)\) | 모형 진단에 유리 |
4.1 KM Hazard Estimator
\[\hat h_t = \frac{e_t}{n_t \cdot u_t}\]
- \(e_t\): 시점 \(t\) 의 사건 수.
- \(n_t\): 시점 \(t\) 직전의 위험 인구.
- \(u_t\): 다음 사건 시점까지의 간격.
- 추상: 사건 시점 사이의 hazard 일정 가정 → 사건이 드문 구간에서 매우 낮은 hazard, 빈번한 구간에서 매우 높은 hazard. 결과는 “spiky” plot.
- 일상어 비유: 매일 아침 강수량을 측정 — 비 안 오는 날과 폭우 날의 추정이 극단적으로 달라 시각적 noise 큼.
- 반사실 시나리오: 자료가 적으면 noise 가 진성 패턴 가림. Person-time (구간 평균) 이 매끄러운 대안.
4.2 Person-time Estimation
시간을 구간 (예: 10 주) 으로 나누고 각 구간의 person-time event rate 산출:
\[\hat h_{\text{interval}} = \frac{e_{\text{interval}}}{\sum (\text{person-time}_i)}\]
27 명 의 생존 자료를 10 주 구간으로 분할.
구간 [10, 20): - \(e = 5\) 사망 (10, 12, 13, 15, 16 주). - 사망자의 person-weeks: \(0 + 2 + 3 + 5 + 6 = 16\). - 생존자 person-weeks: \(22 \times 10 = 220\). - 합 person-weeks: \(236\). - \(\hat h = 5 / 236 = 0.0212\).
이 구간 hazard 가 KM 의 개별 사건 시점 hazards 의 가중 평균에 가까움.
3 단계 직관:
- 추상: 구간 평균이 KM 의 spiky 결과 평탄화. 정보 손실 (구간 내 시점) 대신 시각화 안정성.
- 일상어 비유: 일별 매출의 일주일 평균 — 일별 변동 줄고 추세 명확.
- 반사실 시나리오: 구간이 너무 크면 시간 변화 못 보고, 너무 작으면 KM 과 비슷한 noise. Bias-variance trade-off.
4.3 Cumulative Hazard (Nelson-Aalen)
\[\hat H(t) = \sum_{t_i \le t} \frac{e_i}{n_i}\]
- 추상: \(H(t) = -\log S(t)\) 라는 관계 → \(-\log \hat S_{\text{KM}}(t) \approx \hat H_{\text{NA}}(t)\).
- 일상어 비유: 누적 강수량 plot — 단일 시점의 noise 가 평균화되어 추세 명확.
- 반사실: \(\log \hat H(t)\) vs \(\log t\) plot 이 직선이면 Weibull 분포 가정 충족. 곡선이면 다른 모형 필요.
이 진단 plot 이 모수 모형 선택의 1 차 도구.
5 11.4 — 모수적 모형 (Parametric)
생존 시간의 분포를 명시적 확률 모형으로 가정.
| 모형 | \(h(t)\) 형태 | 가정 |
|---|---|---|
| Exponential | \(\lambda\) (일정) | Memoryless |
| Weibull | \(\lambda \gamma t^{\gamma-1}\) | Monotonic (↑ or ↓) |
| Log-logistic | 비단조 (peak after some time) | Initially ↑, then ↓ |
| Gompertz | \(\lambda e^{\gamma t}\) | Exponentially ↑ |
| Generalized Gamma | 유연 | 다른 모형 포괄 |
5.1 Exponential — 가장 단순
\[f(t) = \lambda e^{-\lambda t}, \quad S(t) = e^{-\lambda t}, \quad h(t) = \lambda\]
- 추상: \(P(T > t + s \mid T > s) = P(T > t)\) — 이미 살아남은 만큼이 향후 위험에 영향 0.
- 일상어 비유: 매년 사망률이 일정한 가상의 인구 — 이미 80 살 살아남은 사람의 다음 1 년 위험과 20 살의 다음 1 년 위험 동일.
- 반사실 시나리오: 진성 인간 사망은 noticeably memoryless 아님 (노년에 ↑). Exponential 은 매우 짧은 추적 또는 일정 위험 영역에서만 적합.
Exponential 의 활용: - A/B 테스트의 단기 효과 분석 (1 주 추적). - IT 서비스의 mean time between failures (MTBF). - 방사성 동위원소 붕괴.
5.2 Weibull — 가장 유연한 모수 모형
\[f(t) = \lambda \gamma (\lambda t)^{\gamma-1} e^{-(\lambda t)^\gamma}, \quad h(t) = \lambda \gamma (\lambda t)^{\gamma-1}\]
- \(\gamma = 1\): Exponential (hazard 일정).
- \(\gamma > 1\): Hazard 시간에 따라 ↑ (예: 노화).
- \(\gamma < 1\): Hazard 시간에 따라 ↓ (예: 사고 회복).
3 단계 직관:
- 추상: \(\gamma\) 가 hazard 의 시간 변화 패턴 결정. 단조 증가/감소만 표현 (비단조 불가).
- 일상어 비유: 자동차 부품 — 새 부품은 시간 따라 마모 (\(\gamma > 1\)), 신생아는 시간 따라 면역 ↑ (\(\gamma < 1\)).
- 반사실 시나리오: Bathtub 곡선 (initially ↓, then ↑) 은 Weibull 부적합. Generalized Gamma 또는 piecewise 모형 필요.
5.3 모수 모형 선택 도구
| 도구 | 사용 |
|---|---|
| AIC/BIC | 모형 비교 |
| Cox-Snell residual | 적합도 시각 |
| Weibull plot: \(\log(-\log\hat S(t))\) vs \(\log t\) 직선 | Weibull 적합 검증 |
| Exponential plot: \(\log \hat S(t)\) vs \(t\) 직선 | Exponential 적합 검증 |
상세는 H-WOO11-3 (모수 모형) 에서.
6 11.5~11.7 — Proportional Hazards Regression
\[h(t \mid X) = h_0(t) \exp(\beta^T X)\]
- \(h_0(t)\): Baseline hazard — \(X = 0\) 일 때의 hazard.
- \(\exp(\beta_j)\): 변수 \(X_j\) 1 단위 증가당 hazard ratio (HR).
핵심 가정: 두 군의 hazard 비 \(h_1(t) / h_2(t) = \exp(\beta)\) 가 시간 무관 — proportional.
6.1 Parametric PH (11.5, 11.7) vs Cox PH (11.6)
| 측면 | Parametric PH (Weibull 등) | Cox PH |
|---|---|---|
| Baseline hazard | 명시적 모수 형태 | 비모수 (free form) |
| 가정 | PH + 분포 가정 | PH 만 |
| 추론 | 절대 위험 산출 가능 | HR 만 |
| 외삽 | 가능 (모형 기반) | 불가 |
| 효율성 | 가정 맞으면 ↑ | 항상 robust |
- 추상 정의: Cox 가 baseline hazard 의 형태를 자유롭게 두므로 가정 위반 위험이 작음. Parametric 은 가정 맞으면 더 정밀.
- 일상어 비유: Parametric = 정해진 공식으로 적합 (정밀하나 공식 틀리면 큰 오차). Cox = 자유 형태 적합 (덜 정밀하나 robust).
- 반사실 시나리오: 진성 hazard 가 Weibull 이면 Weibull PH 가 효율 우월. 임의 형태이면 Cox 가 안전.
6.2 Cox 의 Partial Likelihood
각 사건 시점 \(t_i\) 의 risk set \(R(t_i) = \{j : T_j \ge t_i\}\) 에서 사건이 발생한 개인 \(i\) 의 조건부 확률:
\[L_i(\beta) = \frac{\exp(\beta^T X_i)}{\sum_{j \in R(t_i)} \exp(\beta^T X_j)}\]
부분 가능도: \[L(\beta) = \prod_i L_i(\beta)^{\delta_i}\]
(censored 자는 \(\delta_i = 0\), likelihood 에 기여 안 함).
- 추상 정의: 사건 발생 순위만 사용 — 정확한 시점은 무시. Baseline hazard \(h_0(t)\) 가 모형에 안 들어와 식별 불가하나 inference 가능.
- 일상어 비유: 경마에서 우승마 식별 — 각 말의 절대 속도 모르고 순위만 알아도 평균적으로 빠른 말 추정 가능.
- 반사실 시나리오: 만약 full likelihood 사용하려면 baseline hazard 의 함수 형태 가정 필요. Partial likelihood 가 이를 우회 — Cox 의 천재성.
6.3 Ties Handling
같은 시점에 여러 사건 발생 시 (예: 두 환자가 같은 날 사망) Cox 의 partial likelihood 가 정의 모호.
| 방법 | 설명 |
|---|---|
| Breslow | 단순 근사 (default 다수 소프트웨어) |
| Efron | 정확 근사 — Breslow 보다 정확 |
| Exact | 모든 가능 순위 합산 — 계산 부담 ↑ |
자세한 분석은 H-WOO11-5 에서.
7 11.8 — Model Checking
Schoenfeld residual plot: 시간 vs 잔차. 0 주위 무작위 → PH 충족.
\(\log(-\log S(t))\) plot: 두 군 비교. 평행 곡선 → PH 충족.
시간 의존 공변량 검정: \(\beta(t) = \beta_0 + \beta_1 t\) 가설 검정.
7.1 Schoenfeld Residual
- 추상 정의: Schoenfeld 잔차가 시간에 따라 추세 보이면 PH 위반.
- 일상어 비유: 두 약의 효과 비교 — 시간 따라 차이 변하면 단일 HR 부적절.
- 반사실 시나리오: PH 위반 시 시간 의존 공변량 (time-varying covariates) 또는 stratified Cox 사용. 또는 RMST (restricted mean survival time) 가 비-PH 대안.
상세는 H-WOO11-6 에서.
8 11.9 — Competing Risk
관심 사건 외의 다른 사건이 같은 사람에서 발생하여 관심 사건을 차단.
예시: - 관심: 심장 사망 / 경쟁: 암 사망. - 관심: 첫 결혼 / 경쟁: 사망. - 관심: 결제 / 경쟁: 이탈 (IT).
8.1 Cause-specific vs Subdistribution Hazard
| 측면 | Cause-specific Hazard | Subdistribution Hazard (Fine-Gray) |
|---|---|---|
| 분모 | 모든 사건 미발생자 | 원인 \(k\) 미발생자 (다른 원인 사망 포함) |
| 추정 대상 | 즉각적 발생 비율 | 누적 발생 확률의 변화율 |
| 활용 | Etiology (인과 메커니즘) | Prediction (예측) |
상세는 H-WOO11-7 에서.
9 11.10 — Poisson Regression
사건 수 \(D\) 를 사용한 person-time 자료의 회귀.
\[\log E[D \mid X] = \log(\text{PT}) + \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p\]
\(\log(\text{PT})\) 는 offset (계수 1 고정).
\(\exp(\beta_j)\) = Incidence Rate Ratio (IRR).
9.1 직관 — Cox vs Poisson
- 추상 정의: Cox 가 사건 시점 단위, Poisson 이 사람-시간 합산 단위. Hazard 가 시간 따라 일정 (또는 강한 가정 충족) 시 두 모형 거의 동일.
- 일상어 비유: Cox = “각 사건이 언제 발생했는가” 분석. Poisson = “총 몇 건이 얼마의 시간 동안” 분석.
- 반사실 시나리오: 시간 의존성 강하면 Cox 가 정밀. 인구 단위 분석 (전염병학) 이면 Poisson 이 효율.
9.2 A/B 테스트의 Poisson
A/B 테스트의 사건 수 (구매 횟수, 클릭 수, 페이지 뷰) 분석에 Poisson 자연 적합.
# A/B 테스트의 Poisson regression
import statsmodels.api as sm
# clicks ~ treatment + offset(log(exposure_time))
model = sm.GLM(df["clicks"], X,
family=sm.families.Poisson(),
offset=np.log(df["exposure_time"])).fit()
IRR = np.exp(model.params["treatment"])상세는 H-WOO11-8 에서.
10 11.11 — Pooled Logistic Regression
추적 시간을 작은 구간 (예: 1 일, 1 주) 으로 분할 후 각 구간의 사건 발생을 logistic 으로 모형.
\[\text{logit}(P(\text{event in interval } k)) = \alpha_k + \beta^T X\]
각 구간 별 baseline odds \(\alpha_k\) 자유.
Cox 와의 관계: 구간이 충분히 작으면 pooled logistic ≈ Cox PH.
- 추상 정의: 시간을 discretize 후 logistic 으로 분석 → causal inference 의 g-methods (IPW, g-formula) 와 통합 자연.
- 일상어 비유: Cox 의 연속 시간 분석을 일별 binary 로 환원 → 구현 단순.
- 반사실 시나리오: 시간 의존 공변량 + censoring + 인과 추론을 모두 다룰 때 pooled logistic 이 g-methods 의 기본 도구.
(Hernán & Robins, 2020, Ch.17 의 g-methods 와 직접 연결).
상세는 H-WOO11-9 에서.
11 Statistics·Phase B 카테고리와의 분담
| Statistics 글 | 영역 |
|---|---|
survival/01-klein-ch1-examples.qmd 시리즈 |
Klein 교재 정본 (수학적 엄밀) |
survival/08-klein-ch8-cox-ph.qmd 시리즈 |
Cox PH 의 이론·partial likelihood |
survival/12-klein-ch12-parametric.qmd |
Parametric (Weibull 등) |
survival/13-klein-ch13-multivariate.qmd |
Frailty·multivariate survival |
| Phase B 글 (Epidemiology) | 영역 |
|---|---|
B7-cohort-survival-ph-model.qmd |
Schulz 의 임상 Cox 시각 |
B12-woo-cohort-life-table-km.qmd |
KM 기본 |
B13-woo-cohort-survival-competing.qmd |
Competing risk |
| Phase H 글 (Modeling) | 영역 |
|---|---|
| 이 시리즈 (H-WOO11-*) | 실험 분석 lens + 회귀 모형 통합 |
같은 도구이지만 적용 맥락이 다름:
- Statistics: 이론 정본.
- Phase B: 임상·역학 실무.
- Phase H: 실험 분석 + 회귀 모형 강조.
12 결론 — Ch.11 시리즈 길잡이
| 글 | 주제 |
|---|---|
| H-WOO11-0 (이 글) | Overview |
| H-WOO11-1 | 11.1 + 11.2 — 생존·위험 함수 정의 |
| H-WOO11-2 | 11.3 — Hazard 추정 4 방법 |
| H-WOO11-3 | 11.4 — 모수적 모형 (Exp/Weibull) |
| H-WOO11-4 | 11.5 — 모수적 PH 회귀 |
| H-WOO11-5 | 11.6~11.7 — Cox PH + Weibull PH |
| H-WOO11-6 | 11.8 — 모형 진단 |
| H-WOO11-7 | 11.9 — 경쟁 위험 |
| H-WOO11-8 | 11.10 — Poisson 회귀 |
| H-WOO11-9 | 11.11 — Pooled logistic |
각 글이 위 절을 추상 → 일상어 → 반사실 3 단계로 충실히 다룬다.
13 관련 주제
Phase H WOO Ch.10 시리즈 (선행)
Phase H WOO Ch.11 후속
- 1111-11-11, 생존 함수와 위험 함수
- 1111-11-11, 위험 함수 추정 4 방법
- 1111-11-11, 모수적 모형 (Exp/Weibull)
- 1111-11-11, 모수적 PH 회귀
- 1111-11-11, Cox PH 와 Weibull PH
- 1111-11-11, 모형 진단
- 1111-11-11, 경쟁 위험
- 1111-11-11, 포아송 회귀
- 1111-11-11, 풀링 로지스틱 회귀
Statistics 크로스링크
- Klein survival 시리즈 — 이론 정본
- Cox PH (Klein)
Phase B 크로스링크
- Schulz Cox PH (B7) — 임상 시각
- WOO KM (B12) — 기본 추정
- 경쟁 위험 (B13)
Time-to-Event 통합 정리