1 Proportional Hazards 의 정의
위험 함수가 baseline 과 covariate 효과의 곱으로 분리되는 모형:
\[h(t \mid X) = h_0(t) \cdot \exp(\beta^T X)\]
- \(h_0(t)\): baseline hazard (\(X = 0\) 일 때).
- \(\exp(\beta_j)\): \(X_j\) 1 단위 증가당 hazard ratio.
핵심 가정 — Proportional Hazards:
\[\frac{h(t \mid X_1)}{h(t \mid X_2)} = \frac{h_0(t) \exp(\beta^T X_1)}{h_0(t) \exp(\beta^T X_2)} = \exp(\beta^T (X_1 - X_2))\]
→ 시간에 무관한 ratio.
1.1 Parametric vs Semi-parametric (Cox)
| 측면 | Parametric PH | Cox PH (Semi-param) |
|---|---|---|
| Baseline \(h_0(t)\) | 모수 형태 (Weibull 등) | 비모수 (자유) |
| 가정 | PH + 분포 | PH 만 |
| 외삽 | 가능 | 불가 |
| 절대 위험 | 가능 | HR 만 |
| Robust | 가정 충족 시 ↑ | 항상 |
- 추상 정의: Parametric 은 “전체 함수 + covariate 효과” 모두 모수. Cox 는 “covariate 효과만” 모수, baseline 자유.
- 일상어 비유: Parametric = 정해진 공식 (효율적), Cox = 자유 형태 (안전). 자료 패턴 알면 parametric, 모르면 Cox.
- 반사실 시나리오: 진성 hazard 가 Weibull 이면 parametric Weibull PH 가 Cox 보다 효율 ↑ (10~20%). 임의 형태이면 Cox 가 정직.
2 Weibull PH
Baseline: \[h_0(t) = \lambda_0 \gamma t^{\gamma-1}\]
Covariate 추가: \[h(t \mid X) = \lambda_0 \gamma t^{\gamma-1} \exp(\beta^T X)\]
또는 동등하게: \[h(t \mid X) = (\lambda_0 e^{\beta^T X}) \gamma t^{\gamma-1}\]
해석: \(X\) 가 scale parameter 만 변경, shape (\(\gamma\)) 일정.
Survival: \[S(t \mid X) = \exp(-\lambda_0 e^{\beta^T X} t^\gamma)\]
2.1 Weibull PH 의 두 가지 해석
Weibull PH 는 두 가지 동등 형태:
PH form (위 수식): \[h(t \mid X) = h_0(t) e^{\beta^T X}\]
Accelerated Failure Time (AFT) form: \[\log T = \mu + \beta^T X + \sigma \epsilon, \quad \epsilon \sim \text{Gumbel}\]
여기서 \(\sigma = 1/\gamma\), \(\beta_{\text{AFT}} = -\beta_{\text{PH}}/\gamma\).
3 단계 직관:
- 추상 정의: PH 는 “hazard 곱셈”, AFT 는 “시간 가속”. 같은 모형의 두 시각.
- 일상어 비유: 같은 자동차 — “더 빨리 마모” (PH, hazard 곱셈) vs “수명이 짧음” (AFT, 시간 단축).
- 반사실 시나리오: 임상에서는 PH 해석 (HR) 익숙. 공학·신뢰성에서는 AFT 해석 (수명 비) 더 직관적.
Weibull 은 두 form 동등 — 유일한 분포. Log-logistic, Lognormal 은 AFT 만 가능 (PH 아님).
2.2 Weibull PH 의 MLE
Censored 자료의 likelihood:
\[L(\theta) = \prod_{i: \delta_i=1} f(t_i \mid X_i, \theta) \cdot \prod_{i: \delta_i=0} S(t_i \mid X_i, \theta)\]
사건 발생자는 PDF 기여, censored 는 survival 기여.
Log-likelihood: \[\log L = \sum_i \delta_i \log h(t_i \mid X_i) - \sum_i H(t_i \mid X_i)\]
Weibull PH 의 경우: \[\log L = \sum_i \delta_i [\log \lambda_0 + \log \gamma + (\gamma-1) \log t_i + \beta^T X_i] - \sum_i \lambda_0 e^{\beta^T X_i} t_i^\gamma\]
- 추상 정의: 사건 발생자 = “이 시점에 사건” → PDF. Censored = “이 시점까지 무사” → survival.
- 일상어 비유: 시험 통과 시간 분석 — 통과자는 정확한 시점 (\(f\)), 미통과자는 종료 시점 (\(S\)) 만 정보.
- 반사실 시나리오: 만약 censored 무시하면 평균 통과 시간이 부풀려짐. Censored 의 정직한 처리가 표준.
3 Exponential PH
\[h(t \mid X) = \lambda_0 \exp(\beta^T X)\]
Hazard 가 시간 무관 (일정).
Weibull 의 \(\gamma = 1\) 특수 경우.
- 추상 정의: 사건 수 \(D \sim \text{Poisson}(\lambda \cdot \text{PT})\) 일 때, \(\log D = \log \text{PT} + \log \lambda + \beta^T X\). Exponential PH 와 거의 동등.
- 일상어 비유: 시점별 분석 (Cox-like) vs 인-시간 합산 분석 (Poisson) — 일정 hazard 가정 하에 등가.
- 반사실 시나리오: 진성 hazard 가 시간 의존이면 Exponential 부정확. Weibull 또는 Cox.
4 HR 의 해석
\[\text{HR} = \exp(\beta_j) = \frac{h(t \mid X_j+1, X_{-j})}{h(t \mid X_j, X_{-j})}\]
해석: \(X_j\) 1 단위 증가 → hazard 가 \(\exp(\beta_j)\) 배.
4.1 HR 의 시간 무관성
PH 가정 — HR 가 시간 무관. 가정 위반 시: - 시간 의존 HR. - Crossing hazards (두 군의 hazard 곡선 교차).
Schoenfeld residual 로 검증 (다음 글 H-WOO11-6).
3 단계 직관:
- 추상 정의: \(h(t\mid X)/h(t\mid 0)\) 가 \(t\) 의 함수가 아니라는 강한 가정.
- 일상어 비유: 두 약의 효과 비가 시간 무관 — 약 A 가 약 B 보다 항상 정확히 2 배 효과.
- 반사실 시나리오: 진성 효과가 시간 따라 변하면 단일 HR 평탄화. 시간 의존 HR 또는 RMST 필요.
5 Weibull AFT vs Cox PH — 동일 자료 비교
가설: 흡연 (X) 과 사망 (Y) 의 cohort 자료. 진성 hazard 가 Weibull.
Weibull PH 적합: - \(\hat\beta_{\text{smoke}} = 0.69\). - \(\hat{\text{HR}} = \exp(0.69) = 2.00\).
Cox PH 적합: - \(\hat\beta_{\text{smoke}} = 0.71\). - \(\hat{\text{HR}} = \exp(0.71) = 2.03\).
거의 동일 — Weibull 가정 충족 시 Cox 와 일치.
3 단계 직관:
- 추상 정의: 두 모형이 같은 진성 효과 추정 — covariate 효과 부분만 모수, baseline 영향 작음.
- 일상어 비유: 두 측정 도구의 결과 일치 — 도구 검증.
- 반사실 시나리오: 만약 두 결과 큰 차이면 Weibull 가정 위반. Cox 가 robust 한 default.
6 모수 모형의 외삽
- 추상 정의: 모수 모형의 함수 형태가 관측 외 시점 예측 가능. 만약 5 년 추적 자료로 10 년 예측이라면 parametric 가능, Cox 어려움.
- 일상어 비유: 회귀 직선의 외삽 — 가정 충족 시 가능, 위반 시 위험.
- 반사실 시나리오: 외삽 시 가정의 진성 충족 점검 우선. Sensitivity analysis 권장.
활용: - 의약품 효과의 long-term 예측. - 인구 건강의 장기 추세. - A/B 테스트의 lifetime value (LTV) 추정.
7 A/B 테스트의 Parametric PH
A/B 테스트의 결과 = 사용자의 평생 가치 (LTV) 추정.
# Weibull PH 로 LTV 추정
from lifelines import WeibullAFTFitter
# X = treatment + 사용자 특성
df["treatment"] = ... # A=0, B=1
df["age"] = ...
df["channel_paid"] = ...
aft = WeibullAFTFitter()
aft.fit(df, duration_col="tenure", event_col="churned",
formula="treatment + age + channel_paid")
# Treatment 의 평균 LTV 효과
median_a = aft.predict_median(df[df["treatment"] == 0])
median_b = aft.predict_median(df[df["treatment"] == 1])
# 5 년 (1825 일) retention 예측
sf_a = aft.predict_survival_function(df[df["treatment"] == 0], times=[1825])
sf_b = aft.predict_survival_function(df[df["treatment"] == 1], times=[1825])3 단계 직관:
- 추상 정의: Weibull PH 가 retention curve 와 long-term 예측 모두 산출.
- 일상어 비유: 모형이 매끄러우니 5 년 후 사용자 비율 예측 가능 (Cox 는 10 년 추적 자료가 있어야).
- 반사실 시나리오: Weibull 가정 위반 시 외삽 부정확. Cross-validation 으로 가정 검증.
8 모수 모형 적합도 검증
각 관측의 Cox-Snell residual: \[r_i^{CS} = \hat H(t_i \mid X_i)\]
만약 모형이 정확하면 \(r_i^{CS}\) 의 분포가 \(\text{Exponential}(1)\) — \(-\log S_{r}(t)\) vs \(t\) plot 이 직선 (기울기 1).
- 추상 정의: 모형이 정확하면 cumulative hazard 가 \(\text{Exponential}(1)\) 분포.
- 일상어 비유: 변환 후 표준 분포 검정 — Q-Q plot 의 선형성과 동일.
- 반사실 시나리오: Plot 이 직선 아니면 모형 misspecified. AIC 비교 + 다른 분포 시도.
9 AFT 와 PH 의 동치 — Weibull 의 특수성
PH form: \[h(t \mid X) = h_0(t) \exp(\beta^T X)\]
AFT form: \[\log T = \mu + \beta_{\text{AFT}}^T X + \sigma \epsilon\]
동치 가능 분포 (PH 도 AFT 도 됨): Weibull 만. AFT 만: Log-logistic, Log-normal, Generalized Gamma.
(Kleinbaum & Klein, 2012).
- 추상 정의: Weibull 만이 PH + AFT 두 form 모두 만족 — 유일.
- 일상어 비유: Swiss army knife — 두 도구 모두 가능.
- 반사실 시나리오: Log-logistic 적합 시 PH 가정 위반 → AFT 만 해석. 분야에 따라 적합 분포.
10 Parametric PH vs Cox 의 효율 비교
가설: 진성 hazard 가 Weibull. 같은 자료에 두 모형 적합.
Weibull PH: - \(\hat\beta_{\text{smoke}} = 0.69\), SE = 0.10. - 95% CI: (0.49, 0.89).
Cox PH: - \(\hat\beta_{\text{smoke}} = 0.71\), SE = 0.12. - 95% CI: (0.47, 0.95).
Cox 의 SE 가 약간 ↑ — 분포 가정 부재의 비용.
3 단계 직관:
- 추상 정의: 진성 분포 가정 충족 시 parametric 이 SE 약 10~20% ↓.
- 일상어 비유: 정확한 공식 사용 vs 자유 형태 — 공식 맞으면 정밀.
- 반사실 시나리오: 분포 가정 위반 시 parametric 이 부정확. Cox 가 robust default.
11 Q&A — Parametric PH 의 흔한 오해
A: 분포 가정 충족 시만. 위반 시 Cox 우월.
3 단계 직관:
- 추상 정의: Bias-variance trade-off — parametric 이 가정 맞으면 variance ↓, 위반이면 bias ↑.
- 일상어 비유: 정확한 도구 (분포 맞으면 정밀) vs 자유 도구 (분포 모르면 안전).
- 반사실 시나리오: 분포 검증 (KM vs parametric S(t) 비교) 후 결정.
A: 짧은 추적 + 일정 hazard 가정 시.
3 단계 직관:
- 추상 정의: Memoryless 성질이 자연인 경우. 매우 제한적.
- 일상어 비유: 방사성 동위원소 붕괴 — 정확히 exponential.
- 반사실 시나리오: 인간 사망 등 실제 자료는 거의 exponential 부적합. Weibull 이 일반적.
A: 분야에 따라.
3 단계 직관:
- 추상 정의: 같은 정보의 다른 표현. PH 는 hazard ratio, AFT 는 시간 ratio.
- 일상어 비유: 환율 vs 시간 — 다른 단위.
- 반사실 시나리오: 임상에서 HR 익숙 → PH. 공학·신뢰성에서 수명 ratio → AFT.
12 결론
Parametric PH 는 분포 가정 충족 시 효율 우월 + 외삽 가능. Weibull PH 가 가장 흔한 모수 PH 모형 (PH + AFT 모두 가능). Cox 와의 결과 비교가 모형 검증의 1 차 도구. AFT form 도 동등 해석 — 분야에 따라 활용.
다음 글 (H-WOO11-5) 에서 Cox PH 의 partial likelihood 와 ties handling 을 깊이 본다.
13 관련 주제
Statistics 크로스링크