1 모수적 모형의 동기
생존 시간 \(T\) 의 분포를 명시적 확률 모형 (모수 \(\theta\)) 로 가정.
\[T \sim \text{Distribution}(\theta)\]
장점: - 매끄러운 함수 → 시각화 우수. - 외삽 가능 (관측 범위 외 예측). - 작은 표본에서 효율 ↑. - 평균 생존 시간 등 기대값 직접 산출.
단점: - 분포 가정 위반 시 부정확. - 진성 hazard 가 비단조면 (bathtub) 단순 모형 부적합.
(Woodward, 2014, Ch.11.4).
1.1 모수 모형 vs 비모수 (KM)
- 추상 정의: 비모수 (KM) 는 어떤 함수 형태도 표현. 모수는 정해진 형태 — 더 효율 (가정 충족 시) 또는 더 부정확 (가정 위반 시).
- 일상어 비유: 비모수 = 자유 그림, 모수 = 정해진 도형 (원, 사각형) 으로 표현. 도형이 자료에 맞으면 깔끔, 안 맞으면 왜곡.
- 반사실 시나리오: 진성 hazard 가 매끄러운 단조이면 모수 모형 효율. 비단조 (bathtub, U-shape) 이면 비모수 또는 piecewise.
2 11.4.1 PDF, CDF, Survival 함수의 관계
| 함수 | 정의 |
|---|---|
| \(f(t)\) | PDF — 사건 발생 강도 |
| \(F(t) = \int_0^t f(u) du\) | CDF — 누적 사건 확률 |
| \(S(t) = 1 - F(t) = \int_t^\infty f(u) du\) | 생존 확률 |
| \(h(t) = f(t) / S(t)\) | Hazard rate |
| \(H(t) = -\log S(t) = \int_0^t h(u) du\) | 누적 hazard |
5 함수가 모두 서로 변환 가능.
2.1 Glioblastoma 의 histogram
빈도
6 │ ████
5 │ ████████
4 │ ████████████
3 │ ████████████████
2 │ ████████████████████
1 │ ████████████████████████
└────────────────────────→ 시간 (주)
0 20 40 60 80 100 120
관찰: 우측 꼬리 — 정규 분포 부적합. 일반적인 생존 시간 분포의 특성.
3 단계 직관:
- 추상 정의: 생존 시간 \(T \in (0, \infty)\) 가 자연스럽게 right-skewed.
- 일상어 비유: 시험 통과 시간 — 빠른 통과자 다수, 느린 통과자 long tail.
- 반사실 시나리오: 만약 정규 모형으로 적합하면 음수 시간 예측 가능 (무의미). 또는 양 끝 (tail) 부정확.
2.2 모형 선택의 3 가지 진단
| 도구 | 의미 |
|---|---|
| PDF + histogram 비교 | 시각적 적합 |
| 이론 \(S(t)\) vs KM | 생존 곡선 적합 |
| 이론 \(h(t)\) vs estimated | Hazard 패턴 적합 |
3 11.4.3 Exponential Distribution
\[f(t) = \lambda e^{-\lambda t}, \quad t \ge 0, \, \lambda > 0\]
Survival: \[S(t) = e^{-\lambda t}\]
Hazard: \[h(t) = \lambda \quad \text{(일정)}\]
평균 생존 시간: \[E[T] = 1/\lambda\]
3.1 Memoryless Property
- 추상 정의: \(P(T > t + s \mid T > s) = P(T > t)\) — 이미 살아남은 시간이 향후 위험에 영향 0.
- 일상어 비유: 매번 동전 던지기 (앞면 = 사건) — 이전 결과가 다음 결과에 영향 없음.
- 반사실 시나리오: 진성 인간 사망은 memoryless 아님 (노년 ↑). 단 짧은 추적 + 일정 위험 영역 (예: 20~40 세 의 외상 사망) 에서는 근사적으로 적합.
활용: - 방사성 동위원소 붕괴 — 정확히 exponential. - IT MTBF (Mean Time Between Failures) — 단순화. - 짧은 추적의 일정 hazard 가정.
3.2 Exponential 적합 검증
\(S(t) = e^{-\lambda t}\) 이면: \[\log S(t) = -\lambda t\]
→ \(\log \hat S_{\text{KM}}(t)\) vs \(t\) plot 이 직선 (기울기 \(-\lambda\)).
3 단계 직관:
- 추상 정의: 이론 모형의 함수 형태가 직선이면 자료와 plot 비교로 검증 가능.
- 일상어 비유: 함수 식별 — 산점도가 직선이면 선형 함수.
- 반사실 시나리오: 곡선 형태이면 exponential 부적합 — Weibull 또는 log-logistic 시도.
3.3 Exponential 의 한계
대부분의 실제 자료는 hazard 가 시간에 따라 변동. Exponential 의 일정 가정은 작은 표본 + 짧은 추적에서만 적합.
3 단계 직관:
- 추상 정의: 하나의 모수 \(\lambda\) 만으로 분포 표현 — 매우 제한적.
- 일상어 비유: 평균 키만으로 인구 묘사 — 분산 정보 폐기.
- 반사실 시나리오: Weibull 이 모수 1 개 추가 (shape \(\gamma\)) → 단조 변화 hazard 표현.
4 11.4.4 Weibull Distribution
\[f(t) = \lambda \gamma (\lambda t)^{\gamma-1} e^{-(\lambda t)^\gamma}\]
Survival: \[S(t) = e^{-(\lambda t)^\gamma}\]
Hazard: \[h(t) = \lambda \gamma (\lambda t)^{\gamma-1}\]
- \(\lambda\): scale parameter.
- \(\gamma\): shape parameter.
\(\gamma = 1\) → Exponential 의 특수 경우.
4.1 Shape Parameter \(\gamma\) 의 의미
- \(\gamma > 1\): \(h(t)\) 시간 따라 ↑ (예: 노화·마모).
- \(\gamma = 1\): \(h(t) = \lambda\) 일정 (Exponential).
- \(\gamma < 1\): \(h(t)\) 시간 따라 ↓ (예: 사고 회복기).
3 단계 직관:
- 추상 정의: \(\gamma\) 가 hazard 의 시간 의존성을 결정. \(\gamma = 1\) 이 boundary.
- 일상어 비유: 자동차 부품 — 새 부품 (\(\gamma > 1\), 마모로 위험 ↑), 신생아 (\(\gamma < 1\), 면역 ↑ 로 위험 ↓).
- 반사실 시나리오: 만약 진성 hazard 가 비단조이면 \(\gamma\) 추정이 영역별 평균 → 모형 misspecified.
4.2 Weibull 적합 검증
\(S(t) = e^{-(\lambda t)^\gamma}\) 이면: \[-\log S(t) = (\lambda t)^\gamma\] \[\log(-\log S(t)) = \gamma \log \lambda + \gamma \log t\]
→ \(\log(-\log \hat S(t))\) vs \(\log t\) plot 이 직선 (기울기 \(\gamma\), intercept \(\gamma \log \lambda\)).
3 단계 직관:
- 추상 정의: 이중 로그 변환 → Weibull 의 log-log 선형성. 시각적 적합 가능.
- 일상어 비유: 함수 식별의 log-log plot — power law 검출의 표준 도구.
- 반사실 시나리오: 곡선 보이면 Weibull 부적합 → log-logistic 또는 Gompertz.
4.3 Weibull 의 활용
| 영역 | 사용 |
|---|---|
| 공학 | 부품 신뢰성 — bathtub 의 noyalty 단계만 |
| 임상 | 만성 질환 (단조 hazard) |
| A/B 테스트 | 사용자 retention (early churn after onboarding) |
가입 직후 이탈 빈번 → \(\gamma < 1\) (decreasing hazard) Weibull.
3 단계 직관:
- 추상 정의: 사용자 hazard 가 가입 직후 ↑↑, 시간 따라 안정 → Weibull \(\gamma < 1\).
- 일상어 비유: 신혼 부부의 이혼율 (가입 직후 ↑) vs 안정기.
- 반사실 시나리오: 만약 long-term churn 도 ↑ 패턴 (권태) 이라면 bathtub — Weibull 부적합. Piecewise 또는 spline 권장.
5 11.4.5 Other Distributions
Log-logistic: \[h(t) = \frac{\lambda \gamma (\lambda t)^{\gamma-1}}{1 + (\lambda t)^\gamma}\]
\(\gamma > 1\) 일 때 비단조 — 처음 ↑, peak 후 ↓.
Gompertz: \[h(t) = \lambda e^{\gamma t}\]
지수적 hazard 증가. 노화 사망에 자연 적합.
Generalized Gamma: 모수 3 개 — 다른 분포들 포괄.
5.1 Log-logistic 의 비단조 hazard
- 추상 정의: \(\gamma > 1\) 에서 hazard 가 처음 ↑ (사건 직후 위험), peak 후 ↓ (생존자의 면역). 비단조 → Weibull 보다 유연.
- 일상어 비유: 신생아 사망률 — 선천성 ↑, 적응 후 ↓.
- 반사실 시나리오: 사망 자료가 “초기 risk → 안정” 패턴이면 log-logistic 자연 적합. Weibull 은 단조라 부적합.
5.2 Gompertz 의 지수적 hazard
- 추상 정의: \(h(t) = \lambda e^{\gamma t}\) — 시간에 따라 hazard 지수적 ↑. 인간 사망의 노년 부분 자연 적합.
- 일상어 비유: 노화 가속 — 80 세 1 년 사망률 vs 60 세 1 년 사망률 의 비가 큼.
- 반사실 시나리오: Gompertz-Makeham (Gompertz + 일정 항) 이 더 정확 — 외상 사망 (일정) + 노화 (지수) 결합.
활용: - 보험 actuarial table. - 인구 통계. - 만성 질환의 노년 단계.
5.3 Generalized Gamma — 유연한 일반화
3 단계 직관:
- 추상 정의: 3 모수 (location, scale, shape) → Exponential, Weibull, Lognormal, Gamma 모두 특수 경우.
- 일상어 비유: Swiss army knife — 다양한 도구 통합.
- 반사실 시나리오: 자료가 어느 분포인지 불명확이면 generalized gamma 적합 후 LR test 로 단순 모형 환원.
6 4 분포의 비교
| 분포 | Hazard 패턴 | 모수 | 적합 영역 |
|---|---|---|---|
| Exponential | 일정 | 1 | 짧은 추적 |
| Weibull | 단조 (↑ or ↓) | 2 | 일반 만성 질환 |
| Log-logistic | 비단조 (peak) | 2 | 초기 risk + 안정 |
| Gompertz | 지수 ↑ | 2 | 노화 사망 |
| Generalized Gamma | 유연 | 3 | 자료 기반 선택 |
7 모형 선택 알고리즘
[Step 1] KM 으로 비모수 추정.
↓
[Step 2] $\log \hat S$ vs $t$ plot — 직선이면 Exponential.
↓
[Step 3] $\log(-\log \hat S)$ vs $\log t$ plot — 직선이면 Weibull (기울기 = $\gamma$).
↓
[Step 4] 곡선 보이면 다른 분포 시도 (log-logistic, Gompertz).
↓
[Step 5] AIC/BIC 비교 → 최적 분포 선택.
↓
[Step 6] Cox-Snell residual 로 적합도 시각.
8 코드 예시 — 4 분포 적합
import numpy as np
import pandas as pd
from lifelines import (KaplanMeierFitter, ExponentialFitter,
WeibullFitter, LogLogisticFitter)
import matplotlib.pyplot as plt
# Glioblastoma 자료
times = [10, 12, 13, 15, 16, 20, 20, 24, 24, 26, 26, 27,
39, 42, 45, 45, 48, 52, 58, 60, 61, 62, 73, 75, 77, 104, 120]
events = [1] * len(times)
# 4 분포 적합
exp_f = ExponentialFitter().fit(times, events)
wei_f = WeibullFitter().fit(times, events)
ll_f = LogLogisticFitter().fit(times, events)
km_f = KaplanMeierFitter().fit(times, events)
# AIC 비교
print(f"Exponential AIC: {exp_f.AIC_:.1f}")
print(f"Weibull AIC: {wei_f.AIC_:.1f}")
print(f"Log-logistic AIC: {ll_f.AIC_:.1f}")
# Weibull 의 shape parameter
print(f"\nWeibull rho_ (= γ) = {wei_f.rho_:.2f}")
print(f" γ > 1 → hazard 시간 따라 ↑")
print(f" γ < 1 → hazard 시간 따라 ↓")
# 시각화
fig, ax = plt.subplots(figsize=(10, 6))
km_f.plot_survival_function(ax=ax, label="KM (nonparametric)")
exp_f.plot_survival_function(ax=ax, label="Exponential")
wei_f.plot_survival_function(ax=ax, label="Weibull")
ll_f.plot_survival_function(ax=ax, label="Log-logistic")
ax.set_title("Survival functions: parametric vs nonparametric")
ax.set_xlabel("Time (weeks)")
plt.legend()해석: AIC 가 작은 모형이 우월. KM 과 가까운 적합이 모형 검증.
9 A/B 테스트의 모수 모형 활용
A/B 테스트의 retention curve 가 Weibull \(\gamma < 1\) (가입 직후 churn ↑) 적합.
# A/B 테스트의 Weibull
wei_a = WeibullFitter().fit(df_a["tenure"], df_a["churned"])
wei_b = WeibullFitter().fit(df_b["tenure"], df_b["churned"])
print(f"군 A: lambda={wei_a.lambda_:.3f}, gamma={wei_a.rho_:.3f}")
print(f"군 B: lambda={wei_b.lambda_:.3f}, gamma={wei_b.rho_:.3f}")
# 평균 retention 시간
mean_a = wei_a.lambda_ ** (-1) * np.exp(np.lgamma(1 + 1/wei_a.rho_))
mean_b = wei_b.lambda_ ** (-1) * np.exp(np.lgamma(1 + 1/wei_b.rho_))해석: 두 군의 \(\lambda, \gamma\) 차이로 retention 패턴 차이 식별. 단순 평균 retention 시간보다 풍부한 정보.
10 결론
모수적 모형은 자료 패턴이 분포에 부합할 때 효율 우월. Exponential (일정 hazard), Weibull (단조), Log-logistic (비단조 peak), Gompertz (노화) 가 4 가지 표준 도구. 적합 검증은 log-log plot + AIC 로. 비단조 + 복잡 패턴은 Cox PH (반모수) 가 안전.
다음 글 (H-WOO11-4) 에서 모수적 PH 회귀의 수식과 활용을 본다.
11 관련 주제
- Survival·Cox 회귀 개관
- 생존 함수와 위험 함수
- 위험 함수 추정 4 방법
- 1111-11-11, 모수적 PH 회귀
Statistics 크로스링크