모수적 생존 모형 — Exponential·Weibull·Log-logistic·Gompertz

Woodward Ch.11.4 — Probability Models

모수적 생존 분석의 4 가지 핵심 분포 (Exponential, Weibull, Log-logistic, Gompertz) 의 PDF·CDF·hazard·survival 함수, 적합성 검증 도구 (log-log plot), 그리고 각 분포의 임상·실험 분석 활용을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. 분포 선택의 trade-off 와 비단조 hazard 의 한계도 다룬다.

Experimentation
Modeling
저자

Kwangmin Kim

공개

2026년 05월 08일

1 모수적 모형의 동기

정의: Parametric Survival Model

생존 시간 \(T\) 의 분포를 명시적 확률 모형 (모수 \(\theta\)) 로 가정.

\[T \sim \text{Distribution}(\theta)\]

장점: - 매끄러운 함수 → 시각화 우수. - 외삽 가능 (관측 범위 외 예측). - 작은 표본에서 효율 ↑. - 평균 생존 시간 등 기대값 직접 산출.

단점: - 분포 가정 위반 시 부정확. - 진성 hazard 가 비단조면 (bathtub) 단순 모형 부적합.

(Woodward, 2014, Ch.11.4).

1.1 모수 모형 vs 비모수 (KM)

직관 3 단계: 두 접근의 trade-off
  • 추상 정의: 비모수 (KM) 는 어떤 함수 형태도 표현. 모수는 정해진 형태 — 더 효율 (가정 충족 시) 또는 더 부정확 (가정 위반 시).
  • 일상어 비유: 비모수 = 자유 그림, 모수 = 정해진 도형 (원, 사각형) 으로 표현. 도형이 자료에 맞으면 깔끔, 안 맞으면 왜곡.
  • 반사실 시나리오: 진성 hazard 가 매끄러운 단조이면 모수 모형 효율. 비단조 (bathtub, U-shape) 이면 비모수 또는 piecewise.

2 11.4.1 PDF, CDF, Survival 함수의 관계

정의: 4 함수의 관계 (재확인)
함수 정의
\(f(t)\) PDF — 사건 발생 강도
\(F(t) = \int_0^t f(u) du\) CDF — 누적 사건 확률
\(S(t) = 1 - F(t) = \int_t^\infty f(u) du\) 생존 확률
\(h(t) = f(t) / S(t)\) Hazard rate
\(H(t) = -\log S(t) = \int_0^t h(u) du\) 누적 hazard

5 함수가 모두 서로 변환 가능.

2.1 Glioblastoma 의 histogram

사례: Figure 11.5 — 27 명 의 생존 시간 histogram
빈도
 6 │ ████
 5 │ ████████
 4 │ ████████████
 3 │ ████████████████
 2 │ ████████████████████
 1 │ ████████████████████████
   └────────────────────────→ 시간 (주)
   0  20  40  60  80  100  120

관찰: 우측 꼬리 — 정규 분포 부적합. 일반적인 생존 시간 분포의 특성.

3 단계 직관:

  • 추상 정의: 생존 시간 \(T \in (0, \infty)\) 가 자연스럽게 right-skewed.
  • 일상어 비유: 시험 통과 시간 — 빠른 통과자 다수, 느린 통과자 long tail.
  • 반사실 시나리오: 만약 정규 모형으로 적합하면 음수 시간 예측 가능 (무의미). 또는 양 끝 (tail) 부정확.

2.2 모형 선택의 3 가지 진단

도구 의미
PDF + histogram 비교 시각적 적합
이론 \(S(t)\) vs KM 생존 곡선 적합
이론 \(h(t)\) vs estimated Hazard 패턴 적합

3 11.4.3 Exponential Distribution

정의: Exponential

\[f(t) = \lambda e^{-\lambda t}, \quad t \ge 0, \, \lambda > 0\]

Survival: \[S(t) = e^{-\lambda t}\]

Hazard: \[h(t) = \lambda \quad \text{(일정)}\]

평균 생존 시간: \[E[T] = 1/\lambda\]

3.1 Memoryless Property

직관 3 단계: Exponential 의 정체성
  • 추상 정의: \(P(T > t + s \mid T > s) = P(T > t)\) — 이미 살아남은 시간이 향후 위험에 영향 0.
  • 일상어 비유: 매번 동전 던지기 (앞면 = 사건) — 이전 결과가 다음 결과에 영향 없음.
  • 반사실 시나리오: 진성 인간 사망은 memoryless 아님 (노년 ↑). 단 짧은 추적 + 일정 위험 영역 (예: 20~40 세 의 외상 사망) 에서는 근사적으로 적합.

활용: - 방사성 동위원소 붕괴 — 정확히 exponential. - IT MTBF (Mean Time Between Failures) — 단순화. - 짧은 추적의 일정 hazard 가정.

3.2 Exponential 적합 검증

직관: \(\log S(t)\) vs \(t\) Plot

\(S(t) = e^{-\lambda t}\) 이면: \[\log S(t) = -\lambda t\]

\(\log \hat S_{\text{KM}}(t)\) vs \(t\) plot 이 직선 (기울기 \(-\lambda\)).

3 단계 직관:

  • 추상 정의: 이론 모형의 함수 형태가 직선이면 자료와 plot 비교로 검증 가능.
  • 일상어 비유: 함수 식별 — 산점도가 직선이면 선형 함수.
  • 반사실 시나리오: 곡선 형태이면 exponential 부적합 — Weibull 또는 log-logistic 시도.

3.3 Exponential 의 한계

가정 위반: 일정 hazard 가정

대부분의 실제 자료는 hazard 가 시간에 따라 변동. Exponential 의 일정 가정은 작은 표본 + 짧은 추적에서만 적합.

3 단계 직관:

  • 추상 정의: 하나의 모수 \(\lambda\) 만으로 분포 표현 — 매우 제한적.
  • 일상어 비유: 평균 키만으로 인구 묘사 — 분산 정보 폐기.
  • 반사실 시나리오: Weibull 이 모수 1 개 추가 (shape \(\gamma\)) → 단조 변화 hazard 표현.

4 11.4.4 Weibull Distribution

정의: Weibull

\[f(t) = \lambda \gamma (\lambda t)^{\gamma-1} e^{-(\lambda t)^\gamma}\]

Survival: \[S(t) = e^{-(\lambda t)^\gamma}\]

Hazard: \[h(t) = \lambda \gamma (\lambda t)^{\gamma-1}\]

  • \(\lambda\): scale parameter.
  • \(\gamma\): shape parameter.

\(\gamma = 1\) → Exponential 의 특수 경우.

4.1 Shape Parameter \(\gamma\) 의 의미

직관 3 단계: \(\gamma\) 의 영향
  • \(\gamma > 1\): \(h(t)\) 시간 따라 ↑ (예: 노화·마모).
  • \(\gamma = 1\): \(h(t) = \lambda\) 일정 (Exponential).
  • \(\gamma < 1\): \(h(t)\) 시간 따라 ↓ (예: 사고 회복기).

3 단계 직관:

  • 추상 정의: \(\gamma\) 가 hazard 의 시간 의존성을 결정. \(\gamma = 1\) 이 boundary.
  • 일상어 비유: 자동차 부품 — 새 부품 (\(\gamma > 1\), 마모로 위험 ↑), 신생아 (\(\gamma < 1\), 면역 ↑ 로 위험 ↓).
  • 반사실 시나리오: 만약 진성 hazard 가 비단조이면 \(\gamma\) 추정이 영역별 평균 → 모형 misspecified.

4.2 Weibull 적합 검증

직관: \(\log(-\log S(t))\) vs \(\log t\) Plot

\(S(t) = e^{-(\lambda t)^\gamma}\) 이면: \[-\log S(t) = (\lambda t)^\gamma\] \[\log(-\log S(t)) = \gamma \log \lambda + \gamma \log t\]

\(\log(-\log \hat S(t))\) vs \(\log t\) plot 이 직선 (기울기 \(\gamma\), intercept \(\gamma \log \lambda\)).

3 단계 직관:

  • 추상 정의: 이중 로그 변환 → Weibull 의 log-log 선형성. 시각적 적합 가능.
  • 일상어 비유: 함수 식별의 log-log plot — power law 검출의 표준 도구.
  • 반사실 시나리오: 곡선 보이면 Weibull 부적합 → log-logistic 또는 Gompertz.

4.3 Weibull 의 활용

영역 사용
공학 부품 신뢰성 — bathtub 의 noyalty 단계만
임상 만성 질환 (단조 hazard)
A/B 테스트 사용자 retention (early churn after onboarding)
사례: A/B 테스트의 retention Weibull

가입 직후 이탈 빈번 → \(\gamma < 1\) (decreasing hazard) Weibull.

3 단계 직관:

  • 추상 정의: 사용자 hazard 가 가입 직후 ↑↑, 시간 따라 안정 → Weibull \(\gamma < 1\).
  • 일상어 비유: 신혼 부부의 이혼율 (가입 직후 ↑) vs 안정기.
  • 반사실 시나리오: 만약 long-term churn 도 ↑ 패턴 (권태) 이라면 bathtub — Weibull 부적합. Piecewise 또는 spline 권장.

5 11.4.5 Other Distributions

정의: 추가 분포

Log-logistic: \[h(t) = \frac{\lambda \gamma (\lambda t)^{\gamma-1}}{1 + (\lambda t)^\gamma}\]

\(\gamma > 1\) 일 때 비단조 — 처음 ↑, peak 후 ↓.

Gompertz: \[h(t) = \lambda e^{\gamma t}\]

지수적 hazard 증가. 노화 사망에 자연 적합.

Generalized Gamma: 모수 3 개 — 다른 분포들 포괄.

5.1 Log-logistic 의 비단조 hazard

직관 3 단계: Log-logistic 의 활용
  • 추상 정의: \(\gamma > 1\) 에서 hazard 가 처음 ↑ (사건 직후 위험), peak 후 ↓ (생존자의 면역). 비단조 → Weibull 보다 유연.
  • 일상어 비유: 신생아 사망률 — 선천성 ↑, 적응 후 ↓.
  • 반사실 시나리오: 사망 자료가 “초기 risk → 안정” 패턴이면 log-logistic 자연 적합. Weibull 은 단조라 부적합.

5.2 Gompertz 의 지수적 hazard

직관 3 단계: 인간 노화의 모형
  • 추상 정의: \(h(t) = \lambda e^{\gamma t}\) — 시간에 따라 hazard 지수적 ↑. 인간 사망의 노년 부분 자연 적합.
  • 일상어 비유: 노화 가속 — 80 세 1 년 사망률 vs 60 세 1 년 사망률 의 비가 큼.
  • 반사실 시나리오: Gompertz-Makeham (Gompertz + 일정 항) 이 더 정확 — 외상 사망 (일정) + 노화 (지수) 결합.

활용: - 보험 actuarial table. - 인구 통계. - 만성 질환의 노년 단계.

5.3 Generalized Gamma — 유연한 일반화

직관: Generalized Gamma 의 포괄성

3 단계 직관:

  • 추상 정의: 3 모수 (location, scale, shape) → Exponential, Weibull, Lognormal, Gamma 모두 특수 경우.
  • 일상어 비유: Swiss army knife — 다양한 도구 통합.
  • 반사실 시나리오: 자료가 어느 분포인지 불명확이면 generalized gamma 적합 후 LR test 로 단순 모형 환원.

6 4 분포의 비교

분포 Hazard 패턴 모수 적합 영역
Exponential 일정 1 짧은 추적
Weibull 단조 (↑ or ↓) 2 일반 만성 질환
Log-logistic 비단조 (peak) 2 초기 risk + 안정
Gompertz 지수 ↑ 2 노화 사망
Generalized Gamma 유연 3 자료 기반 선택

7 모형 선택 알고리즘

[Step 1] KM 으로 비모수 추정.
   ↓
[Step 2] $\log \hat S$ vs $t$ plot — 직선이면 Exponential.
   ↓
[Step 3] $\log(-\log \hat S)$ vs $\log t$ plot — 직선이면 Weibull (기울기 = $\gamma$).
   ↓
[Step 4] 곡선 보이면 다른 분포 시도 (log-logistic, Gompertz).
   ↓
[Step 5] AIC/BIC 비교 → 최적 분포 선택.
   ↓
[Step 6] Cox-Snell residual 로 적합도 시각.

8 코드 예시 — 4 분포 적합

import numpy as np
import pandas as pd
from lifelines import (KaplanMeierFitter, ExponentialFitter,
                       WeibullFitter, LogLogisticFitter)
import matplotlib.pyplot as plt

# Glioblastoma 자료
times = [10, 12, 13, 15, 16, 20, 20, 24, 24, 26, 26, 27,
         39, 42, 45, 45, 48, 52, 58, 60, 61, 62, 73, 75, 77, 104, 120]
events = [1] * len(times)

# 4 분포 적합
exp_f = ExponentialFitter().fit(times, events)
wei_f = WeibullFitter().fit(times, events)
ll_f = LogLogisticFitter().fit(times, events)
km_f = KaplanMeierFitter().fit(times, events)

# AIC 비교
print(f"Exponential AIC: {exp_f.AIC_:.1f}")
print(f"Weibull AIC: {wei_f.AIC_:.1f}")
print(f"Log-logistic AIC: {ll_f.AIC_:.1f}")

# Weibull 의 shape parameter
print(f"\nWeibull rho_ (= γ) = {wei_f.rho_:.2f}")
print(f"  γ > 1 → hazard 시간 따라 ↑")
print(f"  γ < 1 → hazard 시간 따라 ↓")

# 시각화
fig, ax = plt.subplots(figsize=(10, 6))
km_f.plot_survival_function(ax=ax, label="KM (nonparametric)")
exp_f.plot_survival_function(ax=ax, label="Exponential")
wei_f.plot_survival_function(ax=ax, label="Weibull")
ll_f.plot_survival_function(ax=ax, label="Log-logistic")
ax.set_title("Survival functions: parametric vs nonparametric")
ax.set_xlabel("Time (weeks)")
plt.legend()

해석: AIC 가 작은 모형이 우월. KM 과 가까운 적합이 모형 검증.

9 A/B 테스트의 모수 모형 활용

사례: 사용자 retention 의 Weibull

A/B 테스트의 retention curve 가 Weibull \(\gamma < 1\) (가입 직후 churn ↑) 적합.

# A/B 테스트의 Weibull
wei_a = WeibullFitter().fit(df_a["tenure"], df_a["churned"])
wei_b = WeibullFitter().fit(df_b["tenure"], df_b["churned"])

print(f"군 A: lambda={wei_a.lambda_:.3f}, gamma={wei_a.rho_:.3f}")
print(f"군 B: lambda={wei_b.lambda_:.3f}, gamma={wei_b.rho_:.3f}")

# 평균 retention 시간
mean_a = wei_a.lambda_ ** (-1) * np.exp(np.lgamma(1 + 1/wei_a.rho_))
mean_b = wei_b.lambda_ ** (-1) * np.exp(np.lgamma(1 + 1/wei_b.rho_))

해석: 두 군의 \(\lambda, \gamma\) 차이로 retention 패턴 차이 식별. 단순 평균 retention 시간보다 풍부한 정보.

10 결론

모수적 모형은 자료 패턴이 분포에 부합할 때 효율 우월. Exponential (일정 hazard), Weibull (단조), Log-logistic (비단조 peak), Gompertz (노화) 가 4 가지 표준 도구. 적합 검증은 log-log plot + AIC 로. 비단조 + 복잡 패턴은 Cox PH (반모수) 가 안전.

다음 글 (H-WOO11-4) 에서 모수적 PH 회귀의 수식과 활용을 본다.

11 관련 주제

Statistics 크로스링크

Subscribe

Enjoy this blog? Get notified of new posts by email: