모수적 Proportional Hazards 회귀

Woodward Ch.11.5 — Parametric Proportional Hazards Regression

모수적 PH 회귀의 수식 (Weibull·Exponential PH), 모수 추정, hazard ratio 의 해석을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. Cox PH 와의 차이 (baseline hazard 의 모수 형태), 적합도 검증, 그리고 실험 분석에서의 활용을 함께 다룬다.

Experimentation
Modeling
저자

Kwangmin Kim

공개

2026년 05월 08일

1 Proportional Hazards 의 정의

정의: PH Regression

위험 함수가 baseline 과 covariate 효과의 곱으로 분리되는 모형:

\[h(t \mid X) = h_0(t) \cdot \exp(\beta^T X)\]

  • \(h_0(t)\): baseline hazard (\(X = 0\) 일 때).
  • \(\exp(\beta_j)\): \(X_j\) 1 단위 증가당 hazard ratio.

핵심 가정 — Proportional Hazards:

\[\frac{h(t \mid X_1)}{h(t \mid X_2)} = \frac{h_0(t) \exp(\beta^T X_1)}{h_0(t) \exp(\beta^T X_2)} = \exp(\beta^T (X_1 - X_2))\]

시간에 무관한 ratio.

1.1 Parametric vs Semi-parametric (Cox)

측면 Parametric PH Cox PH (Semi-param)
Baseline \(h_0(t)\) 모수 형태 (Weibull 등) 비모수 (자유)
가정 PH + 분포 PH 만
외삽 가능 불가
절대 위험 가능 HR 만
Robust 가정 충족 시 ↑ 항상
직관 3 단계: 두 모형의 분업
  • 추상 정의: Parametric 은 “전체 함수 + covariate 효과” 모두 모수. Cox 는 “covariate 효과만” 모수, baseline 자유.
  • 일상어 비유: Parametric = 정해진 공식 (효율적), Cox = 자유 형태 (안전). 자료 패턴 알면 parametric, 모르면 Cox.
  • 반사실 시나리오: 진성 hazard 가 Weibull 이면 parametric Weibull PH 가 Cox 보다 효율 ↑ (10~20%). 임의 형태이면 Cox 가 정직.

2 Weibull PH

정의: Weibull PH

Baseline: \[h_0(t) = \lambda_0 \gamma t^{\gamma-1}\]

Covariate 추가: \[h(t \mid X) = \lambda_0 \gamma t^{\gamma-1} \exp(\beta^T X)\]

또는 동등하게: \[h(t \mid X) = (\lambda_0 e^{\beta^T X}) \gamma t^{\gamma-1}\]

해석: \(X\) 가 scale parameter 만 변경, shape (\(\gamma\)) 일정.

Survival: \[S(t \mid X) = \exp(-\lambda_0 e^{\beta^T X} t^\gamma)\]

2.1 Weibull PH 의 두 가지 해석

직관 3 단계: PH form vs AFT form

Weibull PH 는 두 가지 동등 형태:

PH form (위 수식): \[h(t \mid X) = h_0(t) e^{\beta^T X}\]

Accelerated Failure Time (AFT) form: \[\log T = \mu + \beta^T X + \sigma \epsilon, \quad \epsilon \sim \text{Gumbel}\]

여기서 \(\sigma = 1/\gamma\), \(\beta_{\text{AFT}} = -\beta_{\text{PH}}/\gamma\).

3 단계 직관:

  • 추상 정의: PH 는 “hazard 곱셈”, AFT 는 “시간 가속”. 같은 모형의 두 시각.
  • 일상어 비유: 같은 자동차 — “더 빨리 마모” (PH, hazard 곱셈) vs “수명이 짧음” (AFT, 시간 단축).
  • 반사실 시나리오: 임상에서는 PH 해석 (HR) 익숙. 공학·신뢰성에서는 AFT 해석 (수명 비) 더 직관적.

Weibull 은 두 form 동등 — 유일한 분포. Log-logistic, Lognormal 은 AFT 만 가능 (PH 아님).

2.2 Weibull PH 의 MLE

정의: Likelihood

Censored 자료의 likelihood:

\[L(\theta) = \prod_{i: \delta_i=1} f(t_i \mid X_i, \theta) \cdot \prod_{i: \delta_i=0} S(t_i \mid X_i, \theta)\]

사건 발생자는 PDF 기여, censored 는 survival 기여.

Log-likelihood: \[\log L = \sum_i \delta_i \log h(t_i \mid X_i) - \sum_i H(t_i \mid X_i)\]

Weibull PH 의 경우: \[\log L = \sum_i \delta_i [\log \lambda_0 + \log \gamma + (\gamma-1) \log t_i + \beta^T X_i] - \sum_i \lambda_0 e^{\beta^T X_i} t_i^\gamma\]

직관 3 단계: Censored 의 likelihood 기여
  • 추상 정의: 사건 발생자 = “이 시점에 사건” → PDF. Censored = “이 시점까지 무사” → survival.
  • 일상어 비유: 시험 통과 시간 분석 — 통과자는 정확한 시점 (\(f\)), 미통과자는 종료 시점 (\(S\)) 만 정보.
  • 반사실 시나리오: 만약 censored 무시하면 평균 통과 시간이 부풀려짐. Censored 의 정직한 처리가 표준.

3 Exponential PH

정의: Exponential PH

\[h(t \mid X) = \lambda_0 \exp(\beta^T X)\]

Hazard 가 시간 무관 (일정).

Weibull 의 \(\gamma = 1\) 특수 경우.

직관: Exponential PH = Poisson Regression
  • 추상 정의: 사건 수 \(D \sim \text{Poisson}(\lambda \cdot \text{PT})\) 일 때, \(\log D = \log \text{PT} + \log \lambda + \beta^T X\). Exponential PH 와 거의 동등.
  • 일상어 비유: 시점별 분석 (Cox-like) vs 인-시간 합산 분석 (Poisson) — 일정 hazard 가정 하에 등가.
  • 반사실 시나리오: 진성 hazard 가 시간 의존이면 Exponential 부정확. Weibull 또는 Cox.

4 HR 의 해석

정의: Hazard Ratio (HR)

\[\text{HR} = \exp(\beta_j) = \frac{h(t \mid X_j+1, X_{-j})}{h(t \mid X_j, X_{-j})}\]

해석: \(X_j\) 1 단위 증가 → hazard 가 \(\exp(\beta_j)\) 배.

4.1 HR 의 시간 무관성

가정 위반: PH 가정 검증

PH 가정 — HR 가 시간 무관. 가정 위반 시: - 시간 의존 HR. - Crossing hazards (두 군의 hazard 곡선 교차).

Schoenfeld residual 로 검증 (다음 글 H-WOO11-6).

3 단계 직관:

  • 추상 정의: \(h(t\mid X)/h(t\mid 0)\)\(t\) 의 함수가 아니라는 강한 가정.
  • 일상어 비유: 두 약의 효과 비가 시간 무관 — 약 A 가 약 B 보다 항상 정확히 2 배 효과.
  • 반사실 시나리오: 진성 효과가 시간 따라 변하면 단일 HR 평탄화. 시간 의존 HR 또는 RMST 필요.

5 Weibull AFT vs Cox PH — 동일 자료 비교

사례: Weibull 과 Cox 의 결과 비교

가설: 흡연 (X) 과 사망 (Y) 의 cohort 자료. 진성 hazard 가 Weibull.

Weibull PH 적합: - \(\hat\beta_{\text{smoke}} = 0.69\). - \(\hat{\text{HR}} = \exp(0.69) = 2.00\).

Cox PH 적합: - \(\hat\beta_{\text{smoke}} = 0.71\). - \(\hat{\text{HR}} = \exp(0.71) = 2.03\).

거의 동일 — Weibull 가정 충족 시 Cox 와 일치.

3 단계 직관:

  • 추상 정의: 두 모형이 같은 진성 효과 추정 — covariate 효과 부분만 모수, baseline 영향 작음.
  • 일상어 비유: 두 측정 도구의 결과 일치 — 도구 검증.
  • 반사실 시나리오: 만약 두 결과 큰 차이면 Weibull 가정 위반. Cox 가 robust 한 default.

6 모수 모형의 외삽

직관 3 단계: Parametric 의 외삽 강점
  • 추상 정의: 모수 모형의 함수 형태가 관측 외 시점 예측 가능. 만약 5 년 추적 자료로 10 년 예측이라면 parametric 가능, Cox 어려움.
  • 일상어 비유: 회귀 직선의 외삽 — 가정 충족 시 가능, 위반 시 위험.
  • 반사실 시나리오: 외삽 시 가정의 진성 충족 점검 우선. Sensitivity analysis 권장.

활용: - 의약품 효과의 long-term 예측. - 인구 건강의 장기 추세. - A/B 테스트의 lifetime value (LTV) 추정.

7 A/B 테스트의 Parametric PH

사례: Lifetime Value 의 Weibull PH

A/B 테스트의 결과 = 사용자의 평생 가치 (LTV) 추정.

# Weibull PH 로 LTV 추정
from lifelines import WeibullAFTFitter

# X = treatment + 사용자 특성
df["treatment"] = ...  # A=0, B=1
df["age"] = ...
df["channel_paid"] = ...

aft = WeibullAFTFitter()
aft.fit(df, duration_col="tenure", event_col="churned",
        formula="treatment + age + channel_paid")

# Treatment 의 평균 LTV 효과
median_a = aft.predict_median(df[df["treatment"] == 0])
median_b = aft.predict_median(df[df["treatment"] == 1])

# 5 년 (1825 일) retention 예측
sf_a = aft.predict_survival_function(df[df["treatment"] == 0], times=[1825])
sf_b = aft.predict_survival_function(df[df["treatment"] == 1], times=[1825])

3 단계 직관:

  • 추상 정의: Weibull PH 가 retention curve 와 long-term 예측 모두 산출.
  • 일상어 비유: 모형이 매끄러우니 5 년 후 사용자 비율 예측 가능 (Cox 는 10 년 추적 자료가 있어야).
  • 반사실 시나리오: Weibull 가정 위반 시 외삽 부정확. Cross-validation 으로 가정 검증.

8 모수 모형 적합도 검증

정의: Cox-Snell Residual

각 관측의 Cox-Snell residual: \[r_i^{CS} = \hat H(t_i \mid X_i)\]

만약 모형이 정확하면 \(r_i^{CS}\) 의 분포가 \(\text{Exponential}(1)\)\(-\log S_{r}(t)\) vs \(t\) plot 이 직선 (기울기 1).

직관: Cox-Snell 의 해석
  • 추상 정의: 모형이 정확하면 cumulative hazard 가 \(\text{Exponential}(1)\) 분포.
  • 일상어 비유: 변환 후 표준 분포 검정 — Q-Q plot 의 선형성과 동일.
  • 반사실 시나리오: Plot 이 직선 아니면 모형 misspecified. AIC 비교 + 다른 분포 시도.

9 AFT 와 PH 의 동치 — Weibull 의 특수성

정의: PH ↔︎ AFT 동치 분포

PH form: \[h(t \mid X) = h_0(t) \exp(\beta^T X)\]

AFT form: \[\log T = \mu + \beta_{\text{AFT}}^T X + \sigma \epsilon\]

동치 가능 분포 (PH 도 AFT 도 됨): Weibull 만. AFT 만: Log-logistic, Log-normal, Generalized Gamma.

(Kleinbaum & Klein, 2012).

직관 3 단계: Weibull 의 유일성
  • 추상 정의: Weibull 만이 PH + AFT 두 form 모두 만족 — 유일.
  • 일상어 비유: Swiss army knife — 두 도구 모두 가능.
  • 반사실 시나리오: Log-logistic 적합 시 PH 가정 위반 → AFT 만 해석. 분야에 따라 적합 분포.

10 Parametric PH vs Cox 의 효율 비교

사례: Weibull 의 효율 우월

가설: 진성 hazard 가 Weibull. 같은 자료에 두 모형 적합.

Weibull PH: - \(\hat\beta_{\text{smoke}} = 0.69\), SE = 0.10. - 95% CI: (0.49, 0.89).

Cox PH: - \(\hat\beta_{\text{smoke}} = 0.71\), SE = 0.12. - 95% CI: (0.47, 0.95).

Cox 의 SE 가 약간 ↑ — 분포 가정 부재의 비용.

3 단계 직관:

  • 추상 정의: 진성 분포 가정 충족 시 parametric 이 SE 약 10~20% ↓.
  • 일상어 비유: 정확한 공식 사용 vs 자유 형태 — 공식 맞으면 정밀.
  • 반사실 시나리오: 분포 가정 위반 시 parametric 이 부정확. Cox 가 robust default.

11 Q&A — Parametric PH 의 흔한 오해

Q1: Parametric 이 항상 Cox 보다 효율적?

A: 분포 가정 충족 시만. 위반 시 Cox 우월.

3 단계 직관:

  • 추상 정의: Bias-variance trade-off — parametric 이 가정 맞으면 variance ↓, 위반이면 bias ↑.
  • 일상어 비유: 정확한 도구 (분포 맞으면 정밀) vs 자유 도구 (분포 모르면 안전).
  • 반사실 시나리오: 분포 검증 (KM vs parametric S(t) 비교) 후 결정.
Q2: Exponential 이 적용되는 실제 사례?

A: 짧은 추적 + 일정 hazard 가정 시.

3 단계 직관:

  • 추상 정의: Memoryless 성질이 자연인 경우. 매우 제한적.
  • 일상어 비유: 방사성 동위원소 붕괴 — 정확히 exponential.
  • 반사실 시나리오: 인간 사망 등 실제 자료는 거의 exponential 부적합. Weibull 이 일반적.
Q3: PH 와 AFT 중 어느 form 보고?

A: 분야에 따라.

3 단계 직관:

  • 추상 정의: 같은 정보의 다른 표현. PH 는 hazard ratio, AFT 는 시간 ratio.
  • 일상어 비유: 환율 vs 시간 — 다른 단위.
  • 반사실 시나리오: 임상에서 HR 익숙 → PH. 공학·신뢰성에서 수명 ratio → AFT.

12 결론

Parametric PH 는 분포 가정 충족 시 효율 우월 + 외삽 가능. Weibull PH 가 가장 흔한 모수 PH 모형 (PH + AFT 모두 가능). Cox 와의 결과 비교가 모형 검증의 1 차 도구. AFT form 도 동등 해석 — 분야에 따라 활용.

다음 글 (H-WOO11-5) 에서 Cox PH 의 partial likelihood 와 ties handling 을 깊이 본다.

13 관련 주제

Statistics 크로스링크

Subscribe

Enjoy this blog? Get notified of new posts by email: