Klein Ch.12 — Inference for Parametric Regression Models

1 도입 — 왜 모수적 모형인가

Ch.8-11에서는 Cox 비례위험(PH) 모형을 중심으로 다루었다. Cox 모형은 베이스라인 위험률 \(h_0(t)\) 을 비모수로 두기에 분포 가정을 피할 수 있다는 큰 장점이 있다. 그러나 다음과 같은 상황에서는 모수적 모형이 더 매력적이다.

외삽 (extrapolation): 관찰 기간 밖 (예: 5 년 임상 시험에서 10 년 후 생존율) 의 예측이 필요할 때, 비모수 적합은 마지막 사건 이후 정의되지 않는다.
소표본 효율성: 분포 가정이 옳다면 모수 추정량이 비모수보다 분산이 작다.
위험률의 형상 (shape): 위험률이 단조 증가/감소 (예: 노화) 또는 단봉 (예: 수술 회복) 등 명확한 형상을 가질 때, 분포 선택만으로 정보가 추가된다.
해석의 단순성: \(\widehat{S}(x \mid Z)\) 가 매끄러운 함수이므로 의사 결정에 직접 사용하기 쉽다.

물론 모형이 틀리면 일관된 추정량이 잘못된 모수에 수렴한다는 위험이 있다. 따라서 Ch.12 의 마지막 절은 진단에 할애된다.

2 두 가지 표현 — AFT vs 로그 선형

Klein § 12.1 에 따르면 본 장의 모든 분포는 두 가지 동치 표현을 가진다.

2.1 가속 실패 시간 (Accelerated Failure Time, AFT) 표현

\[ S(x \mid Z) = S_0\bigl[\exp(\theta^t Z)\, x\bigr], \quad \forall x . \]

\(\exp(\theta^t Z)\) 는 가속 인자 (acceleration factor) 라 부르며 시간 척도를 베이스라인 대비 얼마나 압축/늘릴지 결정한다.
\(\theta^t Z > 0\) 이면 시간이 빨리 흐르므로 사건이 빨리 발생한다 (위험 증가).
위험률은 다음과 같이 변환된다:

\[ h(x \mid Z) = \exp(\theta^t Z)\, h_0\bigl[\exp(\theta^t Z)\, x\bigr] . \]

한 가지 직관적 함의: 공변량이 \(Z\) 인 개체의 중앙 생존시간 = 베이스라인 중앙 생존시간 / 가속 인자.

2.2 로그 선형 (log linear) 표현

\[ Y = \ln X = \mu + \gamma^t Z + \sigma W . \]

\(W\) 는 오차 분포, \(\sigma\) 는 척도 모수 (scale), \(\mu\) 는 위치 모수 (location).
통상적인 선형 회귀의 형식이므로 \(\gamma\) 의 해석이 직관적이다 (로그 시간에 미치는 효과).
두 표현은 다음 관계로 연결된다: \(S_0(x)\) 가 \(\exp(\mu + \sigma W)\) 의 생존함수일 때 \(\theta = -\gamma\).

직관 — AFT 와 PH 의 차이

PH 모형 (\(h(x \mid Z) = \exp(\beta^t Z) h_0(x)\)) 은 위험률을 곱한다 (시간 척도는 그대로). AFT 모형은 시간 자체를 곱한다. PH 에서는 두 군의 생존 곡선이 비례 위험을 유지하지만, AFT 에서는 한 군의 곡선이 다른 군의 곡선을 시간축으로 늘리거나 축소한 것에 불과하다.

흥미로운 사실: Weibull 분포는 AFT 와 PH 표현을 모두 가진다. 본 장에서 다루는 다른 분포 (로그-로지스틱, 로그정규 등) 는 AFT 표현만 가진다.

3 § 12.2 Weibull 분포

위험률이 단조 증가, 단조 감소, 또는 상수 형태를 모두 표현할 수 있는 가장 유연한 분포 중 하나이다.

3.1 분포 형식

\[ S_X(x) = \exp(-\lambda x^\alpha), \qquad h_X(x) = \lambda \alpha\, x^{\alpha-1} . \]

\(\alpha = 1\): 지수 분포 (상수 위험률).
\(\alpha > 1\): 위험률 증가 (예: 노화).
\(\alpha < 1\): 위험률 감소 (예: 수술 직후의 위험이 시간이 지날수록 감소).

3.2 두 표현의 연결

로그 선형 표현 \(Y = \mu + \sigma W\) 에서 \(W\) 가 표준 극단값 분포 (standard extreme value) 를 따를 때:

\[ \lambda = \exp(-\mu/\sigma), \qquad \alpha = 1/\sigma . \]

회귀 모형은 다음 두 가지 표현이 동등하다:

AFT: \(Y = \mu + \gamma^t Z + \sigma W\)
PH: \(h(x \mid Z) = \lambda \alpha x^{\alpha-1} \exp(\beta^t Z)\), \(\beta = -\gamma/\sigma\)

직관 — Weibull 의 이중성

Weibull 분포에서 \(\beta = -\gamma/\sigma\) 라는 관계는 AFT 효과를 시간 척도에 주는 것 = PH 효과를 위험률에 주는 것임을 의미한다. 다른 분포에서는 이 등식이 성립하지 않으므로 PH 와 AFT 가 별개의 모형이 된다.

3.3 MLE 와 분산 (델타 방법)

대부분의 패키지는 \((\widehat{\mu}, \widehat{\sigma}, \widehat{\gamma})\) 와 그 공분산을 출력한다. 원래 모수 \((\widehat{\lambda}, \widehat{\alpha}, \widehat{\beta})\) 의 분산은 델타 방법 (statistical differentials) 으로 변환한다:

\[ \mathrm{Var}\bigl(g(\widehat{\theta})\bigr) \approx \nabla g^t\, \mathrm{Var}(\widehat{\theta})\, \nabla g . \]

4 § 12.3 로그-로지스틱 분포

위험률이 단봉형 (hump-shaped) — 초기에는 증가하다가 어느 시점 이후 감소 — 인 경우에 적합하다. 폐쇄형 (closed-form) 생존함수가 있어 수치 계산이 쉽다.

4.1 분포 형식

\[ S_X(x) = \frac{1}{1 + \lambda x^\alpha}, \qquad H_X(x) = \ln(1 + \lambda x^\alpha) . \]

오차 분포 \(W\) 는 표준 로지스틱:

\[ f_W(w) = \frac{e^w}{(1 + e^w)^2}, \qquad S_W(w) = \frac{1}{1 + e^w} . \]

모수 변환은 Weibull 과 동일하다: \(\alpha = 1/\sigma\), \(\lambda = \exp(-\mu/\sigma)\).

4.2 비례 오즈 (Proportional Odds) 표현

로그-로지스틱은 AFT 와 비례 오즈 표현을 동시에 가지는 유일한 분포이다:

\[ \frac{S(x \mid Z)}{1 - S(x \mid Z)} = \exp(\beta^t Z) \cdot \frac{S_0(x)}{1 - S_0(x)} . \]

좌변: 시점 \(x\) 까지 생존할 오즈.
우변: 베이스라인 오즈에 \(\exp(\beta^t Z)\) 가 곱해진 형태.
\(\beta = -\gamma/\sigma\).

직관 — 비례 오즈의 시간 변동

PH 모형에서는 두 군의 위험비가 시간에 무관하지만, 비례 오즈 모형에서는 위험비가 시간에 따라 변하더라도 오즈비는 일정하다. 단봉형 위험률을 가지는 사건 (예: 수술 후 합병증) 에서는 Cox PH 가 부적합하지만 로그-로지스틱은 잘 맞을 수 있다.

5 § 12.4 그 밖의 모수 분포

5.1 로그정규 (log-normal) 분포

\[ Y = \log X = \mu + \gamma^t Z + \sigma W, \qquad W \sim N(0, 1) . \]

생존함수는 표준정규 누적분포 \(\Phi\) 로 표현된다:

\[ S(x) = 1 - \Phi\!\left\{\frac{\log(x) - (\mu + \gamma^t Z)}{\sigma}\right\} . \]

위험률 형상은 로그-로지스틱과 매우 유사 (단봉형) 하다.
실제 적합 결과는 두 분포가 거의 같은 추정치를 주는 경우가 많다.

5.2 일반화 감마 (generalized gamma) 분포

본 장에서 가장 일반적인 모형이며, 다른 분포를 극한으로 포함한다.

\[ f(w) = \frac{|\theta| \bigl[\exp(\theta w)/\theta^2\bigr]^{1/\theta^2} \exp\bigl[-\exp(\theta w)/\theta^2\bigr]}{\Gamma(1/\theta^2)} . \]

모수 제약	환원되는 모형
\(\theta = 1\)	Weibull
\(\theta = 0\)	로그정규
\(\theta = 1, \sigma = 1\)	지수

따라서 일반화 감마는 모형 선택용 도구로 주로 쓰인다. 다음 가설 검정으로 분포를 선택한다:

\(H_0: \theta = 1\) → Weibull 적합 검정
\(H_0: \theta = 0\) → 로그정규 적합 검정

Wald 또는 우도비 검정으로 수행하며, 둘 다 기각하면 일반화 감마를 그대로 쓰거나 다른 분포 (로그-로지스틱 등) 로 옮겨간다.

5.3 AIC 기반 모형 선택

서로 다른 비-내포 분포 (예: Weibull vs 로그-로지스틱) 사이에서는 우도비 검정을 쓸 수 없다. 대신 Akaike Information Criterion (AIC) 을 사용한다:

\[ \mathrm{AIC} = -2 \log L + 2(p + k) . \]

\(p\): 회귀 계수 개수, \(k\): 분포 모수 개수 (Weibull · 로그-로지스틱 · 로그정규 = 2, 일반화 감마 = 3).
AIC 가 가장 작은 모형을 선택한다.

주의 — AIC 의 한계

AIC 는 데이터 적합도를 보지만 모형 가정 (선형성, AFT, 비례 오즈) 자체의 타당성은 확인하지 않는다. 항상 § 12.5 의 그래프 진단과 병행해야 한다.

6 § 12.5 진단 — 그래프와 잔차

6.1 단변량 누적위험률 도표 (hazard plot)

각 분포의 누적위험률 \(H(x) = -\log S(x)\) 를 시간의 적절한 함수로 변환했을 때 선형이 되는 형태를 도표로 그린다. Nelson-Aalen 추정량 \(\widehat{H}(x)\) 를 사용한다.

분포	누적위험률	도표 (X축 vs Y축)
지수	\(\lambda x\)	\(x\) vs \(\widehat{H}(x)\)
Weibull	\(\lambda x^\alpha\)	\(\ln x\) vs \(\ln \widehat{H}(x)\)
로그정규	\(-\log \Phi[\,\cdot\,]\)	\(\ln x\) vs \(\Phi^{-1}\{1 - \exp[-\widehat{H}]\}\)
로그-로지스틱	\(\ln(1 + \lambda x^\alpha)\)	\(\ln x\) vs \(\ln\{\exp[\widehat{H}] - 1\}\)

도표가 직선이면 모형이 적합하며, 기울기와 절편에서 \(\alpha, \lambda\) 의 거친 추정치를 얻을 수 있다.

직관 — 왜 선형성이 적합도를 의미하는가

각 분포의 \(H(x)\) 표현을 양변에 적절히 변환하면 \(\ln \lambda + \alpha \ln x\) 형태가 된다. 좌변을 데이터에서 얻은 \(\widehat{H}(x)\) 로 대체했을 때, 만약 분포가 옳으면 우변은 \(\ln x\) 의 선형 함수이다. 데이터가 직선에서 크게 벗어나면 분포 가정이 틀린 것이다.

6.2 회귀 모형용 잔차

Cox 모형에서 정의된 진단 잔차 (Ch.11) 를 모수적 회귀에 맞게 일반화한다:

잔차	용도	정의
Cox-Snell	전체 적합도	\(r_j = \widehat{H}(T_j \mid Z_j)\) — 단위 지수 분포여야
Martingale	함수 형태	\(\widehat{M}_j = \delta_j - r_j\)
Deviance	이상치	\(D_j = \mathrm{sign}(\widehat{M}_j)\sqrt{-2[\widehat{M}_j + \delta_j \log(\delta_j - \widehat{M}_j)]}\)
Q-Q plot	AFT 가정	두 군의 분위수가 일직선 → AFT 적합

6.3 Q-Q 도표 — AFT 가정 점검

두 군의 생존시간을 동일 분위수로 매핑한 점 \((t_1^{(p)}, t_2^{(p)})\) 를 그렸을 때, 원점을 지나는 직선 이면 두 군이 AFT 관계로 연결된다.

기울기 = 가속 인자 \(\exp(\theta^t Z)\) 의 추정치.
직선에서 벗어나면 AFT 가정이 깨진 것이며, 다른 회귀 구조 (예: PH 또는 비례 오즈) 가 필요할 수 있다.

7 진단 워크플로 — 6 단계

Ch.12 의 도구를 통합하면 다음 절차를 얻는다:

단변량 적합 (univariate fit): 군별로 분포를 적합하고 누적위험률 도표가 직선인지 확인한다.
분포 후보 선정: 위험률 형상 (단조 vs 단봉) 을 보고 Weibull 또는 로그-로지스틱/로그정규를 우선 후보로 정한다.
회귀 적합: AFT 표현으로 \(\mu, \gamma, \sigma\) 를 MLE 추정한다.
모형 선택 (일반화 감마): \(\theta = 1\) (Weibull) 과 \(\theta = 0\) (로그정규) 을 우도비 검정으로 평가한다. 둘 다 기각되면 AIC 로 선택한다.
잔차 진단: Cox-Snell · martingale · deviance 를 그려 적합도, 함수 형태, 이상치를 점검한다.
AFT 가정 점검: Q-Q 도표가 원점을 지나는 직선인지 확인한다. 이상하면 모형 자체를 재고한다.

8 코드 — Python lifelines

from lifelines import (
    WeibullAFTFitter, LogLogisticAFTFitter,
    LogNormalAFTFitter, GeneralizedGammaFitter
)

# 데이터: T (시간), E (사건 여부), Z (공변량)
weibull = WeibullAFTFitter().fit(df, duration_col="T", event_col="E")
loglogis = LogLogisticAFTFitter().fit(df, "T", "E")
lognorm = LogNormalAFTFitter().fit(df, "T", "E")

# AIC 비교
print(weibull.AIC_, loglogis.AIC_, lognorm.AIC_)

# Q-Q 도표
weibull.plot_qq(df)

# Cox-Snell · martingale 잔차
cs = -weibull.predict_cumulative_hazard(df).iloc[-1]
m_resid = df["E"] - cs

9 코드 — R survival/flexsurv

library(survival)
library(flexsurv)

# Weibull AFT (생존함수 동치)
m_wei <- survreg(Surv(T, E) ~ Z, dist = "weibull", data = df)

# 일반화 감마 (모형 선택용)
m_gg <- flexsurvreg(Surv(T, E) ~ Z, dist = "gengamma", data = df)
summary(m_gg)  # theta -> 1 (Weibull), 0 (lognormal)

# AIC 비교
AIC(m_wei)
AIC(flexsurvreg(Surv(T, E) ~ Z, dist = "llogis", data = df))
AIC(flexsurvreg(Surv(T, E) ~ Z, dist = "lnorm", data = df))

10 Ch.11 (Cox 진단) 과의 관계

측면	Ch.11 (Cox)	Ch.12 (모수적)
베이스라인	비모수 (\(H_0\) 임의)	모수 분포로 명시
외삽	불가	가능 (분포로 정의)
잔차	Cox-Snell · martingale · Schoenfeld	Cox-Snell · martingale · deviance · Q-Q
효율성	분포 무관, 견고	분포 옳으면 더 효율적
모형 선택	변수 선택 (AIC, LRT)	분포 선택 + 변수 선택

언제 모수적 모형을 선택할 것인가

다음 조건이 충족되면 모수적 회귀를 적극 고려한다:

위험률 형상이 명확 (예: 노화 → Weibull 단조 증가; 회복 → 단봉형).
외삽 또는 정확한 분위수 예측이 필요 (예: 의료 의사결정).
표본 크기가 작아 비모수 분산이 크다.
AIC 와 잔차 진단이 모두 분포 가정을 지지한다.

반대로 위험률 형상이 불분명하거나 표본이 충분히 크면 Cox 모형이 안전한 기본값이다.

11 Ch.12 시리즈

본 장의 세부 절은 후속 포스트에서 다룬다:

12 핵심 요약

모수적 회귀는 분포 가정 을 통해 외삽 가능성과 효율성을 얻고, 그 대가로 모형 오설정 위험을 떠안는다.
모든 모형은 AFT 와 로그 선형 표현 으로 동일하게 쓸 수 있다 (\(\theta = -\gamma\)).
Weibull: 단조 위험률, AFT + PH 동시 표현 (유일).
로그-로지스틱: 단봉 위험률, AFT + 비례 오즈 동시 표현 (유일).
로그정규: 단봉 위험률, \(\Phi\) 기반.
일반화 감마: Weibull/로그정규/지수를 극한으로 포함, 모형 선택 도구.
모형 선택: 내포 (LRT, \(\theta = 1, 0\)) + 비내포 (AIC).
진단: 누적위험률 도표 (선형성), Cox-Snell · martingale · deviance 잔차, Q-Q 도표 (AFT).

13 참고 문헌

Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.). Springer. Chapter 12.
Kalbfleisch, J. D., & Prentice, R. L. (2002). The Statistical Analysis of Failure Time Data (2nd ed.). Wiley. (AFT 모형의 고전적 정리)
Collett, D. (2015). Modelling Survival Data in Medical Research (3rd ed.). CRC. (분포 진단 도표 풍부)