Klein Ch.2 Overview — Basic Quantities and Models

생존함수 S(t)·위험함수 h(t)·누적위험 H(t)·평균잔여수명 m(t)·median life·exponential/Weibull/log-normal/log-logistic/gamma/Gompertz/Pareto·proportional hazards vs accelerated failure-time·competing risks (cause-specific hazard·subdistribution hazard·cumulative incidence function)

Klein & Moeschberger Ch.2 의 7 개 절을 한 편으로 조망한다. Ch.1 의 19 데이터 catalog 다음에 오는 수학적 기초 — 생존 분석의 모든 추론을 떠받치는 4 함수 (S, h, H, m) 의 정의·동등성·관계. § 2.1 Introduction — 4 함수의 통합적 의미. § 2.2 Survival Function S(t) = P(X > t) — 정의·성질 (1 → 0 monotone)·empirical estimator (Ch.1.2 Leukemia 예제). § 2.3 Hazard Function h(t) = lim P(t ≤ X < t+Δ | X ≥ t) / Δ — instantaneous failure rate 의 직관·cumulative hazard H(t) = -log S(t)·hazard 의 패턴 (constant·increasing·decreasing·bathtub·hump-shaped). § 2.4 MRL m(t) = E[X-t | X > t] + median life t_p (S(t_p) = p) 의 임상 해석. § 2.5 Parametric models 9 가지 — exponential (constant hazard·memoryless), Weibull (monotone hazard·shape parameter), log-normal·log-logistic (non-monotone), gamma·generalized gamma (flexible), Gompertz (exponential aging), Pareto (heavy tail), inverse Gaussian (Brownian motion-based). § 2.6 Regression models 2 형태 — proportional hazards h(t|Z) = h_0(t) c(β’Z) (Cox 의 기반)·accelerated failure-time S(t|Z) = S_0(t·exp(-β’Z)) (parametric 자연). § 2.7 Competing risks — cause-specific hazard h_k(t)·subdistribution hazard λ_k(t) (Fine-Gray)·cumulative incidence function (CIF) F_k(t)·“crude” vs “net” probability 구분. Ch.4-12 의 모든 도구 (Kaplan-Meier·Nelson-Aalen·log-rank·Cox·Aalen·AFT) 의 수학적 공통 기반.

Statistics
Survival Analysis
Klein-Moeschberger
Hazard-Function
Parametric-Models
저자

Kwangmin Kim

공개

2026년 04월 27일

1 들어가며 — Ch.1 데이터에서 Ch.2 수학으로

Klein 시리즈 사다리:

주제
Ch.1 시리즈 (overview + 10 deep-dive) 19 예제 catalog (5 censoring/truncation 형태)
Ch.2 (본 편) 수학적 기초 — 4 함수 + 9 parametric models + 2 regression + competing risks
Ch.3 Censoring·truncation 의 정밀 정의 + likelihood + counting process
Ch.4 (예정) Nonparametric estimation (Kaplan-Meier·Nelson-Aalen)
… (Ch.5~13)
Ch.2 의 한 줄 요약

“비음수 random variable \(X\) (사건 시점) 의 분포를 표현하는 4 함수 (생존·위험·누적위험·평균잔여수명) 는 서로를 유일하게 결정한다. 그중 가장 자연스러운 표현 (예: hazard) 으로 데이터를 모델링하면, 나머지 3 함수가 자동 도출된다.”

이 4 함수의 동등성이 Ch.4-12 의 모든 도구 의 수학적 기반.

1.1 Ch.2 의 7 절 조망

주제 핵심
§ 2.1 Introduction 4 함수의 통합적 의미
§ 2.2 Survival Function \(S(t) = P(X > t)\) 정의·성질
§ 2.3 Hazard Function \(h(t)\), \(H(t)\) — 순간 실패율
§ 2.4 MRL + Median \(m(t)\), \(t_p\) — 임상 해석
§ 2.5 Parametric Models 9 종 분포 (exp·Weibull·log-normal·…)
§ 2.6 Regression Models PH vs AFT — 두 가지 회귀 형태
§ 2.7 Competing Risks Cause-specific·CIF·Fine-Gray

2 § 2.1 Introduction — 4 함수의 통합적 의미

2.1 비음수 random variable \(X\)

\(X\) = 사건 시점.

  • 정의: \(X \geq 0\), continuous (대부분).
  • 사건 종류:
    • 사망·재발·감염 (의학).
    • 고장 (공학).
    • 이탈·이혼 (사회).
    • 좋은 사건: 관해·임신·금연 시작.

2.2 4 함수의 정의

함수 정의 의미
Survival \(S(t) = P(X > t)\) \(t\) 까지 사건 안 일어날 확률
Hazard \(h(t) = \lim_{\Delta \to 0} \frac{P(t \leq X < t+\Delta \mid X \geq t)}{\Delta}\) 시점 \(t\) 의 순간 실패율
PDF \(f(t) = -S'(t)\) 사건 시점의 확률 밀도
MRL \(m(t) = E[X - t \mid X > t]\) \(t\) 까지 산 사람의 평균 잔여 수명

추가: cumulative hazard \(H(t) = \int_0^t h(u) du = -\log S(t)\).

직관 — 4 함수의 동등성

핵심 정리:

“4 함수 중 어느 하나를 알면 나머지 3 함수를 유일하게 결정할 수 있다.”

수식적 관계:

  • \(S(t) \to f(t) = -S'(t)\).
  • \(S(t) \to h(t) = f(t)/S(t)\).
  • \(S(t) \to m(t) = \int_t^\infty S(u) du / S(t)\).
  • \(H(t) = -\log S(t)\).

가장 자연스러운 표현 으로 모델링.

언제 어느 함수?

  • \(S(t)\): 직관적 (“X% 가 t 까지 생존”).
  • \(h(t)\): 모델링 자연 (Cox PH, parametric).
  • \(H(t)\): 비모수 추정 자연 (Nelson-Aalen).
  • \(m(t)\): 임상 의사소통 (“이 환자의 잔여 수명”).

Klein 책의 전략:

  • Ch.4: KM 으로 \(S(t)\), NA 로 \(H(t)\) 추정.
  • Ch.8: Cox 로 \(h(t)\) 의 covariate effect.
  • Ch.12: Parametric 으로 \(f(t)\) 직접 모델.

3 § 2.2 Survival Function \(S(t)\)

3.1 정의와 성질

\[ S(t) = P(X > t) = \int_t^\infty f(u) du = 1 - F(t) \]

  • \(F(t)\): cumulative distribution function.
  • \(S(0) = 1\), \(S(\infty) = 0\).
  • \(S(t)\)monotone non-increasing.
  • Continuous \(X\): \(S(t)\) continuous.
  • Discrete \(X\): \(S(t)\) step function.
직관 — Survival Function 의 시각적 해석
S(t)
 1 ─●
    │
    │\
    │ \
0.5 │  \●─●
    │     \
    │      \●─●
 0 ─┴───────────●─→ t

의미:

  • \(t = 0\): 모두 alive (\(S = 1\)).
  • \(t \to \infty\): 모두 사건 (\(S \to 0\)).
  • 매 시점의 높이 = “그 시점까지 생존한 비율”.

임상 적용:

  • “5 년 생존율 70%” → \(S(5) = 0.7\).
  • “Median survival 10 년” → \(S(10) = 0.5\).

비모수 추정:

  • Kaplan-Meier (KM): \(\hat S(t) = \prod_{t_j \leq t} (1 - d_j/n_j)\) (Ch.4).
  • 사건 시점에서 step down.

4 § 2.3 Hazard Function \(h(t)\)

4.1 정의 — Instantaneous Failure Rate

\[ h(t) = \lim_{\Delta \to 0^+} \frac{P(t \leq X < t + \Delta \mid X \geq t)}{\Delta} \]

  • \(t\) 까지 살아남은 사람이 다음 순간에 사건 발생할 비율”.
  • \(h(t) \geq 0\).
  • \(\int_0^\infty h(t) dt = \infty\) (improper density 보장).

4.2 Cumulative Hazard

\[ H(t) = \int_0^t h(u) du = -\log S(t) \]

4.3 4 함수 관계 정리

\[ S(t) = \exp\Bigl(-\int_0^t h(u) du\Bigr) = e^{-H(t)} \]

\[ f(t) = h(t) S(t) \]

직관 — Hazard 가 핵심 모델링 대상인 이유

왜 hazard 인가?

  1. Conditional: “지금까지 산 사람의 위험” → 시간 따라 변화 자연.
  2. Multiplicative model 자연: Cox \(h(t \mid Z) = h_0(t) e^{\beta Z}\).
  3. 추가 가능: competing risks 의 cause-specific hazard.

Hazard 의 패턴:

패턴 의미 예시
Constant Memoryless Exponential 분포
Increasing Aging Cancer mortality 후반부
Decreasing Burn-in / infant mortality 영아 사망률
Bathtub 인생 전체 Human lifetime
Hump-shaped 잠복기 + 회복 일부 감염성 질환

임상 의의:

  • Constant: 만성 질환 의 progression.
  • Increasing: 노화 또는 disease 진행.
  • Decreasing: 수술 후 회복 (early risk).
  • Bathtub: 인구 통계 (출생~노년).

Hazard plot:

  • Kaplan-Meier 의 직접 미분 → noisy.
  • Kernel smoothing (Klein Ch.6) 으로 부드러운 추정.

5 § 2.4 MRL + Median Life

5.1 Mean Residual Life Function

\[ m(t) = E[X - t \mid X > t] = \frac{\int_t^\infty S(u) du}{S(t)} \]

  • \(t\) 까지 살아남은 사람의 잔여 기대수명”.
  • \(m(0) = E[X]\) (전체 평균).

5.2 Median Life \(t_p\)

\[ S(t_p) = 1 - p \]

  • \(t_{0.5}\) = median (50% survival).
  • \(t_{0.25}\) = lower quartile.
직관 — MRL 의 일상 의미

:

  • 65 세 환자: \(m(65) = ?\)
  • “지금부터 평균 몇 년 더 살까?”
  • Actuarial science 의 핵심 변수.

MRL 의 패턴 (DMRL vs IMRL):

  • DMRL (decreasing): \(m(t)\) 가 시간 따라 감소 — 일반적 (노화).
  • IMRL (increasing): \(m(t)\) 가 증가 — 드물음 (early risk 통과 후).

Median 의 우위:

  • Mean 의 약점: heavy tail 또는 censoring 시 추정 어려움.
  • Median: robust, censoring 50% 까지 추정 가능.

생존 분석에서 median 이 mean 보다 자주 보고.

6 § 2.5 Common Parametric Models

6.1 9 가지 표준 분포

6.1.1 1. Exponential

\[ S(t) = e^{-\lambda t}, \quad h(t) = \lambda \text{ (constant)} \]

  • Memoryless: \(P(X > s+t \mid X > s) = P(X > t)\).
  • 유일 continuous distribution with constant hazard.
  • 단순, 그러나 비현실적 (대부분 데이터에서 hazard 변화).

6.1.2 2. Weibull

\[ S(t) = e^{-(\lambda t)^\alpha}, \quad h(t) = \lambda \alpha (\lambda t)^{\alpha - 1} \]

  • Shape parameter \(\alpha\):
    • \(\alpha = 1\): exponential.
    • \(\alpha > 1\): increasing hazard.
    • \(\alpha < 1\): decreasing hazard.
  • Monotone hazard 만 표현.
  • 가장 흔한 parametric.

6.1.3 3. Log-Normal

\[ \log X \sim N(\mu, \sigma^2) \]

  • Hazard: non-monotone (initial increase, then decrease).
  • Cancer recurrence 같은 데이터에 자연.

6.1.4 4. Log-Logistic

\[ S(t) = \frac{1}{1 + (\lambda t)^\alpha} \]

  • Hazard:
    • \(\alpha \leq 1\): monotone decreasing.
    • \(\alpha > 1\): hump-shaped.
  • AFT 모델로 자연 (closed form survival).

6.1.5 5. Gamma

\[ f(t) = \frac{\lambda^\alpha}{\Gamma(\alpha)} t^{\alpha-1} e^{-\lambda t} \]

  • \(\alpha = 1\): exponential.
  • Sum of exponential waiting times → multi-stage processes.

6.1.6 6. Generalized Gamma

3 parameters → very flexible (gamma·Weibull·log-normal 의 superset).

6.1.7 7. Gompertz

\[ h(t) = \alpha e^{\beta t} \]

  • Exponential aging — hazard 가 시간 따라 지수적 증가.
  • 인구 통계학의 mortality law.

6.1.8 8. Pareto

\[ S(t) = (t_0/t)^\alpha \]

  • Heavy tail.
  • 보험 (claim size), 경제 (income distribution).

6.1.9 9. Inverse Gaussian

  • Brownian motion 의 first passage time.
  • 특정 industrial reliability.
직관 — 어느 분포를 언제
데이터 패턴 추천 분포
Constant hazard Exponential
Monotone increasing Weibull (α > 1), Gompertz
Monotone decreasing Weibull (α < 1)
Bathtub Generalized gamma, mixture
Hump-shaped Log-logistic, log-normal
Heavy tail Pareto
Multi-stage Gamma

선택 절차:

  1. KM curve 시각화 → hazard 패턴 추정.
  2. 후보 parametric model 적합.
  3. AIC/BIC 비교.
  4. Q-Q plot 또는 deviance residuals 진단 (Klein Ch.12.5).

Parsimony vs Flexibility:

  • Parsimony (exponential): 1 parameter, 단순, 가정 강함.
  • Flexibility (generalized gamma): 3 parameters, 적합 좋지만 overfit 위험.

Default: Weibull — exponential 의 자연스러운 일반화.

7 § 2.6 Regression Models — Two Forms

7.1 Proportional Hazards (PH)

\[ h(t \mid Z) = h_0(t) \cdot c(\beta' Z) \]

  • \(h_0(t)\): baseline hazard.
  • \(c(\cdot)\): link function (보통 \(c(x) = e^x\) → Cox model).
  • “Hazard ratio \(h(t \mid Z_1)/h(t \mid Z_2) = c(\beta'(Z_1 - Z_2))\)” → time-invariant.

7.1.1 Cox PH (Klein Ch.8)

\[ h(t \mid Z) = h_0(t) \exp(\beta' Z) \]

  • Semiparametric: \(h_0\) 는 비모수, \(\beta\) 는 parametric.
  • Partial likelihood 로 \(\beta\) 추정 (Ch.8).

7.2 Accelerated Failure-Time (AFT)

\[ S(t \mid Z) = S_0(t \cdot \exp(-\beta' Z)) \]

또는

\[ \log X = \alpha + \beta' Z + \sigma W \]

  • \(W\): error distribution (Weibull → extreme value, log-normal → normal).
  • “Covariate \(Z\) 가 lifetime 의 scale 을 변경”.

7.2.1 AFT (Klein Ch.12)

\[ T(Z) = T(0) \cdot \exp(-\beta' Z) \]

  • “Acceleration factor” \(\exp(-\beta' Z)\).
  • Parametric (Weibull AFT, log-normal AFT, log-logistic AFT).
직관 — PH vs AFT
측면 PH AFT
영향 대상 Hazard rate Lifetime scale
해석 “Z 증가 → hazard X 배” “Z 증가 → 수명 X 배”
모수 Semiparametric (Cox) 또는 parametric Parametric (보통)
자연 응용 의학 (chemotherapy 의 hazard 영향) 공학 (온도가 lifetime 단축)
\(h_0\) 임의 모수 분포 (Weibull, log-normal 등)

Weibull 은 둘 다 가능:

  • Weibull PH: \(h(t \mid Z) = h_0(t) e^{\beta Z}\).
  • Weibull AFT: \(\log T = \alpha + \beta Z + \sigma W_{EV}\).
  • 두 형태가 수학적 동등 (Weibull only).

다른 분포는 둘 중 하나만:

  • Log-normal AFT: 자연.
  • Log-normal PH: 부자연.
  • Log-logistic AFT 또는 PO (proportional odds): 자연.

8 § 2.7 Models for Competing Risks

8.1 동기

  • 환자가 여러 사건 중 하나만 경험 가능.
  • 예: 백혈병 BMT — relapse OR death in remission.
  • 한 사건이 다른 사건 발생을 차단.

8.2 Cause-Specific Hazard

\[ h_k(t) = \lim_{\Delta \to 0} \frac{P(t \leq T < t + \Delta, \epsilon = k \mid T \geq t)}{\Delta} \]

  • \(\epsilon \in \{1, 2, \ldots, K\}\): 사건 종류.
  • \(t\) 까지 어느 사건도 안 일어난 사람이 다음 순간에 cause \(k\) 사건 발생할 비율”.
  • 각 cause 별 독립 hazard.

8.3 Subdistribution Hazard (Fine-Gray)

\[ \lambda_k(t) = \lim_{\Delta \to 0} \frac{P(t \leq T < t + \Delta, \epsilon = k \mid T \geq t \text{ or } \epsilon \neq k \text{ before } t)}{\Delta} \]

  • Risk set 에 다른 cause 발생자도 포함 (계속 risk 안에 있다고 간주).
  • CIF 의 직접 모델링에 자연.

8.4 Cumulative Incidence Function (CIF)

\[ F_k(t) = P(T \leq t, \epsilon = k) = \int_0^t h_k(u) S(u) du \]

  • \(t\) 까지 cause \(k\) 사건 발생 누적 확률”.
  • \(\sum_k F_k(t) = 1 - S(t)\) (모든 cause 합 = 어떤 사건이든 일어남).
직관 — Crude vs Net Probability

Crude probability (관측 가능):

  • CIF \(F_k(t)\) — “이 cause 로 사망할 확률, 다른 cause 도 존재하는 현실”.
  • 항상 추정 가능.

Net probability (반사실적):

  • “다른 cause 가 없다면 이 cause 로 사망할 확률”.
  • \(1 - S_k(t)\)” where \(S_k\) = “cause \(k\) 만 작동할 때의 survival”.
  • 추정 어려움 (가정 강함, latent 분포).

의학 의사소통:

  • “이 환자가 5 년 안에 cancer 로 사망할 확률” → CIF (crude).
  • “Cardiovascular disease 가 없었다면 5 년 안에 cancer 사망률” → net (가정 의존).

Klein 의 권장:

  • CIF (crude) 가 객관적 → 표준 보고.
  • Net 는 가정 명시 후 sensitivity analysis.

이는 Ch.21 § 21.5 BDA Chapter 22 의 mixture model 의 latent class 와 비슷한 구조.

9 핵심 수식 통합

9.1 4 함수 관계

\[ S(t) = e^{-H(t)} = e^{-\int_0^t h(u) du} \]

\[ f(t) = h(t) S(t) = -\frac{dS(t)}{dt} \]

\[ m(t) = \frac{\int_t^\infty S(u) du}{S(t)} \]

9.2 Parametric Models 의 hazard 형태

분포 \(h(t)\)
Exponential \(\lambda\)
Weibull \(\lambda \alpha (\lambda t)^{\alpha - 1}\)
Gompertz \(\alpha e^{\beta t}\)
Pareto \(\alpha / t\)

9.3 Regression

  • PH: \(h(t \mid Z) = h_0(t) \exp(\beta' Z)\).
  • AFT: \(\log T = \alpha + \beta' Z + \sigma W\).

9.4 Competing Risks

  • Cause-specific hazard: \(h_k(t)\).
  • CIF: \(F_k(t) = \int_0^t h_k(u) S(u) du\).
  • Subdistribution hazard: \(\lambda_k(t)\) (Fine-Gray).

10 R + Python EDA — 4 함수 + Parametric

10.1 R — survival + flexsurv

library(survival)
library(flexsurv)

# § 1.2 Leukemia 6-MP 데이터로 시연
leukemia <- data.frame(
  time = c(1, 22, 3, 12, 8, 17, 2, 11, 8, 12, 2, 5, 4, 15, 8, 23, 5, 11, 4, 1, 8,
           10, 7, 32, 23, 22, 6, 16, 34, 32, 25, 11, 20, 19, 6, 17, 35, 6, 13, 9, 6, 10),
  status = c(rep(1, 21),
             1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0),
  group = rep(c("placebo", "6-MP"), each = 21)
)

# 1. Survival function (KM)
fit_km <- survfit(Surv(time, status) ~ group, data = leukemia)
plot(fit_km, col = c("blue", "red"), xlab = "Months", ylab = "S(t)")

# 2. Cumulative hazard (Nelson-Aalen)
fit_na <- survfit(Surv(time, status) ~ group, data = leukemia,
                  type = "fleming-harrington")
plot(fit_na, fun = "cumhaz", col = c("blue", "red"),
     xlab = "Months", ylab = "H(t)")

# 3. Hazard rate (kernel smoothing)
library(muhaz)
hazard_placebo <- muhaz(leukemia$time[leukemia$group == "placebo"],
                       leukemia$status[leukemia$group == "placebo"])
plot(hazard_placebo, xlab = "Months", ylab = "h(t)")

# 4. Parametric models
# Weibull
fit_weibull <- flexsurvreg(Surv(time, status) ~ group, data = leukemia,
                            dist = "weibull")
print(fit_weibull)

# Log-logistic
fit_loglog <- flexsurvreg(Surv(time, status) ~ group, data = leukemia,
                          dist = "llogis")

# Log-normal
fit_lognorm <- flexsurvreg(Surv(time, status) ~ group, data = leukemia,
                           dist = "lnorm")

# AIC 비교
AIC(fit_weibull, fit_loglog, fit_lognorm)

# Cox PH (semiparametric)
cox_fit <- coxph(Surv(time, status) ~ group, data = leukemia)
summary(cox_fit)

# Mean Residual Life
# m(t) = ∫_t^∞ S(u) du / S(t)
# 단순화: 이산 sum
times <- summary(fit_km)$time
S_values <- summary(fit_km)$surv
mrl <- function(t) {
  idx <- which(times >= t)
  if (length(idx) == 0) return(0)
  sum(diff(c(t, times[idx])) * S_values[idx]) / S_values[idx[1]]
}
sapply(c(0, 5, 10, 15, 20), mrl)

10.2 Python — lifelines + scipy.stats

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from lifelines import KaplanMeierFitter, NelsonAalenFitter
from lifelines.fitters import (
    WeibullAFTFitter, LogNormalAFTFitter, LogLogisticAFTFitter,
    ExponentialFitter, WeibullFitter, GompertzFitter
)

# 데이터 (R 와 동일)
leukemia = pd.DataFrame({
    "time": [1, 22, 3, 12, 8, 17, 2, 11, 8, 12, 2, 5, 4, 15, 8, 23, 5, 11, 4, 1, 8,
             10, 7, 32, 23, 22, 6, 16, 34, 32, 25, 11, 20, 19, 6, 17, 35, 6, 13, 9, 6, 10],
    "status": [1]*21 + [1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0],
    "group": ["placebo"]*21 + ["6-MP"]*21,
})

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Survival function
for grp, color in [("placebo", "red"), ("6-MP", "blue")]:
    sub = leukemia[leukemia["group"] == grp]
    kmf = KaplanMeierFitter()
    kmf.fit(sub["time"], sub["status"], label=grp)
    kmf.plot_survival_function(ax=axes[0, 0], color=color)
axes[0, 0].set_title("S(t) — Survival function")

# 2. Cumulative hazard (Nelson-Aalen)
for grp, color in [("placebo", "red"), ("6-MP", "blue")]:
    sub = leukemia[leukemia["group"] == grp]
    naf = NelsonAalenFitter()
    naf.fit(sub["time"], sub["status"], label=grp)
    naf.plot_cumulative_hazard(ax=axes[0, 1], color=color)
axes[0, 1].set_title("H(t) — Cumulative hazard")

# 3. Hazard rate (smoothed)
for grp, color in [("placebo", "red"), ("6-MP", "blue")]:
    sub = leukemia[leukemia["group"] == grp]
    naf = NelsonAalenFitter()
    naf.fit(sub["time"], sub["status"])
    naf.plot_hazard(bandwidth=2.0, ax=axes[1, 0], color=color, label=grp)
axes[1, 0].set_title("h(t) — Hazard rate (smoothed)")

# 4. Parametric fit (Weibull)
for grp, color in [("placebo", "red"), ("6-MP", "blue")]:
    sub = leukemia[leukemia["group"] == grp]
    wf = WeibullFitter()
    wf.fit(sub["time"], sub["status"], label=grp)
    wf.plot_survival_function(ax=axes[1, 1], color=color)
axes[1, 1].set_title("Weibull parametric fit")

plt.tight_layout()
plt.savefig("klein_ch2_overview.png", dpi=100)

# AFT 비교
leukemia["six_mp"] = (leukemia["group"] == "6-MP").astype(int)
for fitter_class in [WeibullAFTFitter, LogNormalAFTFitter, LogLogisticAFTFitter]:
    fitter = fitter_class()
    fitter.fit(leukemia[["time", "status", "six_mp"]],
               duration_col="time", event_col="status")
    print(f"{fitter_class.__name__}: AIC = {fitter.AIC_:.2f}")

11 Ch.2 심화편 예고

심화편 범위 주제
02-1 § 2.2~2.3 생존함수 S(x) + 위험함수 h(x) + 누적위험 H(x) — 두 함수의 동등성, hazard 5 형태, Weibull 예제, § 1.2 Leukemia 데이터 시연
02-2 § 2.4~2.5 평균잔여수명 m(x) + median life + 4 함수 통합 + 9 parametric models (exponential·Weibull·gamma·log-normal·log-logistic·Gompertz·generalized gamma·Pareto·inverse Gaussian·exponential power) — 각 분포의 hazard 모양과 적용 가이드
02-3 § 2.6~2.7 PH vs AFT 두 regression form·Cox 의 partial likelihood 예고·competing risks (cause-specific·subdistribution·CIF·Fine-Gray)
02-4 § 2.8 20 개 연습문제 완전 풀이 — 분포별 수치 계산 + 회귀 + frailty mixture + competing risks (1-KM ≠ CIF 정전 시연)

12 실전 체크리스트 — Ch.2 Overview

4 함수

  1. \(S(t)\): 정의 + monotone 성질.
  2. \(h(t)\): instantaneous failure rate 의 정확한 정의 (limit form).
  3. \(H(t)\): \(-\log S(t)\) 동등성.
  4. \(f(t)\): \(h(t) S(t)\).
  5. \(m(t)\): 임상 해석.
  6. 4 함수 변환: 어느 하나로 나머지 3 도출.

Parametric Models

  1. Hazard 패턴 시각화 (KM curve 의 derivative).
  2. 적합 후보: exponential·Weibull·log-normal·log-logistic·gamma·Gompertz.
  3. AIC/BIC 비교.
  4. Q-Q plot 진단.

Regression

  1. PH vs AFT 선택.
  2. Weibull = PH = AFT 동등 (특수 경우).
  3. Cox = semiparametric PH.

Competing Risks

  1. Cause-specific hazard: 각 cause 별.
  2. CIF (crude) vs net survival.
  3. Fine-Gray subdistribution hazard.

13 관련 주제

Klein 시리즈

관련 개념 (cross-category)

14 참고문헌

  • Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.), Ch.2. Springer.
  • Cox, D. R. (1972). Regression Models and Life-Tables. JRSS B, 34(2), 187-220.
  • Fine, J. P., & Gray, R. J. (1999). A Proportional Hazards Model for the Subdistribution of a Competing Risk. JASA, 94(446), 496-509.
  • Kalbfleisch, J. D., & Prentice, R. L. (2002). The Statistical Analysis of Failure Time Data, 2nd ed. Wiley.
  • Lawless, J. F. (2003). Statistical Models and Methods for Lifetime Data, 2nd ed. Wiley.
  • Aalen, O. O., Borgan, Ø., & Gjessing, H. K. (2008). Survival and Event History Analysis: A Process Point of View. Springer.
  • Cleves, M., Gould, W., Gutierrez, R. G., & Marchenko, Y. (2010). An Introduction to Survival Analysis Using Stata, 3rd ed. Stata Press.
  • Therneau, T. M., & Grambsch, P. M. (2000). Modeling Survival Data: Extending the Cox Model. Springer.
  • Putter, H., Fiocco, M., & Geskus, R. B. (2007). Tutorial in Biostatistics: Competing Risks and Multi-State Models. Statistics in Medicine, 26(11), 2389-2430.
  • Andersen, P. K., Geskus, R. B., de Witte, T., & Putter, H. (2012). Competing Risks in Epidemiology: Possibilities and Pitfalls. International Journal of Epidemiology, 41(3), 861-870.
  • Davidson-Pilon, C. (2019). lifelines. JOSS, 4(40), 1317.
  • Jackson, C. H. (2016). flexsurv: A Platform for Parametric Survival Modeling in R. Journal of Statistical Software, 70(8), 1-33.

Subscribe

Enjoy this blog? Get notified of new posts by email: