1 도입 — § 12.4-12.5 의 위치
§ 12.2-12.3 에서 Weibull 과 로그-로지스틱을 다루었다. 그러나 실제 데이터는 두 분포 중 어느 하나로 깔끔하게 결정되지 않는 경우가 많다. § 12.4 는 다음 두 가지를 추가한다:
- 로그정규 분포 — 로그-로지스틱과 형상이 비슷하지만 표준정규 오차를 가진다.
- 일반화 감마 분포 — Weibull, 로그정규, 지수를 극한으로 포함하는 부모 분포로, 모형 선택의 결정 도구이다.
§ 12.5 는 모형이 정해진 후 데이터에 정말 맞는가를 그래프와 잔차로 검증한다. Cox 진단 (Ch.11) 의 모수 버전이라 보면 된다.
2 § 12.4 그 밖의 모수 모형
2.1 로그정규 분포
로그 시간이 정규 분포를 따른다고 가정한다:
\[ Y = \log X = \mu + \gamma^t Z + \sigma W, \qquad W \sim N(0, 1) . \]
(식 12.4.1)
생존함수는 표준정규 누적분포 \(\Phi(\cdot)\) 로 표현된다:
\[ S(x) = 1 - \Phi\!\left\{\frac{\log(x) - (\mu + \gamma^t Z)}{\sigma}\right\} . \]
\(X\) 가 로그정규이면 \(X\) 자체는 0 근처에서 밀도가 0 이고, 어떤 시점에서 정점을 찍은 후 꼬리가 두꺼운 분포이다. 위험률 \(h(x) = f(x)/S(x)\) 를 계산하면 단봉 형태가 나온다. 로그-로지스틱과 모양이 매우 유사하지만, 꼬리가 더 두꺼워 (heavy-tailed) 장기 생존자 비율이 더 높게 추정된다.
2.1.1 로그정규 vs 로그-로지스틱 — 무엇을 선택하나
| 항목 | 로그정규 | 로그-로지스틱 |
|---|---|---|
| 오차 분포 | 표준정규 | 표준 로지스틱 |
| 생존함수 | \(\Phi(\cdot)\) (수치 적분) | 폐쇄형 |
| 추가 표현 | 없음 | 비례 오즈 |
| 꼬리 | 두꺼움 | 더 두꺼움 |
| 실무 결론 | 거의 동일 | 거의 동일 |
두 모형은 거의 같은 추정치를 주는 경우가 많다. 폐쇄형이 필요하거나 비례 오즈 해석이 매력적이면 로그-로지스틱을 택하고, 정규 이론과의 친숙함이 우선이면 로그정규를 택한다.
2.2 일반화 감마 분포
본 장에서 가장 일반적인 분포이며, 다른 모든 분포를 극한으로 포함한다.
\[ f(w) = \frac{|\theta| \bigl[\exp(\theta w)/\theta^2\bigr]^{1/\theta^2} \exp\bigl[-\exp(\theta w)/\theta^2\bigr]}{\Gamma(1/\theta^2)}, \quad -\infty < w < \infty . \]
(식 12.4.2)
2.2.1 모수 제약과 환원 모형
| 모수 제약 | 환원되는 모형 |
|---|---|
| \(\theta = 1\) | Weibull |
| \(\theta = 0\) | 로그정규 |
| \(\theta = 1, \sigma = 1\) | 지수 |
일반화 감마는 세 모수 (\(\mu, \sigma, \theta\)) 를 가진다. 이 중 \(\theta\) 가 분포의 모양 (family) 을 결정한다. \(\theta = 1\) 이면 Weibull, \(\theta = 0\) 이면 로그정규로 변환되므로, \(\theta\) 는 “어느 분포에 가까운가”를 측정하는 연속적 모수이다. 따라서 일반화 감마를 적합하면 데이터 스스로가 어느 분포에 가까운지 말해준다.
2.2.2 모형 선택 가설 검정
일반화 감마 적합 후 다음 두 가설을 검정한다:
- \(H_0: \theta = 1\) → Weibull 적합 검정.
- \(H_0: \theta = 0\) → 로그정규 적합 검정.
Wald 또는 우도비 검정을 사용한다. 두 가설이 모두 채택되면 (둘 다 적합) 더 단순한 모형 (Weibull 또는 로그정규) 을 선호하고, 둘 다 기각되면 일반화 감마를 그대로 쓰거나 다른 분포 (로그-로지스틱 등) 로 옮긴다.
2.3 AIC 기반 모형 선택
서로 내포되지 않은 분포 (예: Weibull vs 로그-로지스틱) 사이에서는 우도비 검정이 불가능하다. 대신 Akaike Information Criterion (AIC) 으로 비교한다:
\[ \mathrm{AIC} = -2 \log L + 2(p + k) . \]
(식 12.4.3)
- \(p\) = 회귀 계수 개수.
- \(k\) = 분포 모수 개수.
- 지수: \(k = 1\)
- Weibull · 로그-로지스틱 · 로그정규: \(k = 2\)
- 일반화 감마: \(k = 3\)
AIC 가 가장 작은 모형이 데이터에 가장 잘 맞는 (모수의 추가 비용을 고려한) 모형이다.
AIC 는 상대적 적합도 비교이지 절대적 적합도가 아니다. 모든 후보 모형이 다 부적합해도 AIC 는 그중 가장 덜 부적합한 모형을 선택해 준다. 따라서 § 12.5 의 그래프 진단과 반드시 병행해야 한다.
2.4 예제 12.1 (계속) — AML 이식 단변량 5 모형 비교
| 모형 | \(\log L\) (allo) | AIC (allo) | \(\log L\) (auto) | AIC (auto) |
|---|---|---|---|---|
| 지수 | \(-81.203\) | 164.406 | \(-68.653\) | 139.306 |
| Weibull | \(-72.879\) | 149.758 | \(-68.420\) | 140.840 |
| 로그-로지스틱 | \(-71.722\) | 147.444 | \(-67.146\) | 138.292 |
| 로그정규 | \(-71.187\) | 146.374 | \(-66.847\) | 137.694 |
| 일반화 감마 | \(-70.892\) | 147.784 | \(-66.781\) | 139.562 |
2.4.1 일반화 감마 검정
| 군 | \(\widehat{\theta}\) | SE | \(H_0: \theta = 0\) (\(p\)) | \(H_0: \theta = 1\) (\(p\)) |
|---|---|---|---|---|
| allo | \(-0.633\) | 0.826 | 0.443 | 0.048 |
| auto | \(-0.261\) | 0.725 | 0.719 | 0.082 |
2.4.2 해석
- AIC 최소: 두 군 모두 로그정규가 최적 (allo 146.374, auto 137.694).
- 로그-로지스틱이 근소한 2 위.
- 일반화 감마는 우도가 가장 크지만 모수가 1 개 더 많으므로 AIC 에서 손해를 봄 → 단순 모형 선호.
- allo 의 Weibull 검정: \(p = 0.048\) 로 Weibull 기각. 로그정규 (\(p = 0.443\)) 는 채택.
- auto 의 두 검정: 둘 다 채택 → 데이터가 어느 분포인지 명확히 가르지 못함.
- 지수 vs Weibull (LRT): allo \(\chi^2 = 16.648\) (\(p < 0.0001\)) Weibull 채택, auto \(\chi^2 = 0.468\) 지수 채택 가능.
2.5 예제 12.2 (계속) — 후두암 회귀 5 모형 비교
| 변수 | 지수 | Weibull | 로그-로지스틱 | 로그정규 | 일반화 감마 |
|---|---|---|---|---|---|
| \(\mu\) | 3.755 | 3.539 | 3.102 | 3.383 | 3.453 |
| Stage II (\(\gamma_1\)) | \(-0.146\) | \(-0.148\) | \(-0.126\) | \(-0.199\) | \(-0.158\) |
| Stage III (\(\gamma_2\)) | \(-0.648\) | \(-0.587\) | \(-0.806\) | \(-0.900\) | \(-0.758\) |
| Stage IV (\(\gamma_3\)) | \(-1.635\) | \(-1.544\) | \(-1.766\) | \(-1.857\) | \(-1.729\) |
| Age (\(\gamma_4\)) | \(-0.020\) | \(-0.017\) | \(-0.015\) | \(-0.018\) | \(-0.018\) |
| \(\sigma\) | 1.000 | 0.885 | 0.715 | 1.264 | 1.104 |
| \(\theta\) | — | — | — | — | 0.458 |
| \(\log L\) | \(-108.50\) | \(-108.03\) | \(-108.19\) | \(-108.00\) | \(-107.68\) |
| AIC | 227.00 | 228.05 | 228.38 | 227.99 | 229.36 |
2.5.1 해석
- AIC 최소: 지수 모형 (227.00) 이 가장 작다. 단순한 지수가 후두암 데이터에 충분.
- 다섯 모형 모두 비슷한 추정치를 준다. 회귀 계수의 부호와 크기가 거의 동일.
- \(\widehat{\theta} = 0.458\) (일반화 감마) 으로 0 과 1 사이 중간이라 어느 한쪽 모형도 명확히 가르지 못한다.
- \(Z_3\) 의 부호: 모든 모형에서 음수 → Stage IV 환자는 Stage I 보다 단명.
같은 5 모형을 적용해도 결론이 다르다:
- AML (작은 표본 치료 비교): 위험률 형상이 분포 선택에 결정적 → 로그정규가 명확한 우위.
- 후두암 (회귀 분석): 회귀 계수가 분포에 거의 무감응 → 어느 모형이든 같은 결론. 단순한 지수가 AIC 우위.
회귀 분석에서는 분포 선택이 단변량보다 덜 중요한 경우가 많다. 효과 추정의 안정성이 핵심 양이고, 그것이 분포에 강건한 경우가 흔하기 때문이다.
3 § 12.5 모수 모형의 진단
3.1 진단 철학
Klein 은 공식적 통계 검정보다 그래프 진단을 선호한다. 이유:
- 작은 표본: 검정의 검정력이 낮아 잘못된 모형도 통과시킨다.
- 큰 표본: 검정이 너무 민감해 임상적으로 무관한 위반도 모두 기각한다.
- 그래프: 명백히 부적합한 모형을 배제하는 것이 목표이지, 한 모형이 옳다는 것을 “증명”하는 게 아니다.
실제로 여러 모형이 비슷한 추정치를 주는 경우가 많고, 핵심 양 (계수, 중앙값, 분위수 등) 이 분포 선택에 강건하다.
3.2 단변량 누적위험률 도표 (hazard plot)
핵심 아이디어: 각 분포의 누적위험률 \(H(x)\) 를 시간의 적절한 함수로 변환했을 때 직선이 되는 형태를 도표로 그린다. Nelson-Aalen 추정량 \(\widehat{H}(x)\) 를 \(x\) 축 변환과 함께 그려 직선성을 본다.
3.2.1 로그-로지스틱의 변환 유도
로그-로지스틱은 \(H(x) = \ln(1 + \lambda x^\alpha)\) 이므로:
\[ \exp[H(x)] - 1 = \lambda x^\alpha . \]
양변에 로그를 취하면:
\[ \ln\bigl\{\exp[H(x)] - 1\bigr\} = \ln \lambda + \alpha \ln x . \]
(식 12.5.1)
따라서 \(\ln \widehat{H}\) 의 변환 \(\ln\{\exp[\widehat{H}] - 1\}\) 을 \(\ln x\) 에 대해 그렸을 때 직선이면 로그-로지스틱이 적합하다. 기울기 \(= \alpha\), 절편 \(= \ln \lambda\) 의 거친 추정치를 얻는다.
\(S = 1/(1 + \lambda x^\alpha)\) 이므로 \(\exp[H] - 1 = (1-S)/S\) 가 된다. 따라서 \(\ln\{\exp[H] - 1\} = \ln[(1-S)/S]\) 는 사망 오즈의 로그 (logit of dying) 이다. 로그-로지스틱 모형은 사망 로그-오즈가 로그 시간의 선형 함수라는 가정과 동치이다.
3.2.2 분포별 도표 정리
| 분포 | 누적위험률 | X축 | Y축 | 기울기 의미 |
|---|---|---|---|---|
| 지수 | \(\lambda x\) | \(x\) | \(\widehat{H}(x)\) | \(\lambda\) |
| Weibull | \(\lambda x^\alpha\) | \(\ln x\) | \(\ln \widehat{H}(x)\) | \(\alpha\) |
| 로그정규 | \(-\log\Phi(\cdot)\) | \(\ln x\) | \(\Phi^{-1}(1 - e^{-\widehat{H}})\) | \(1/\sigma\) |
| 로그-로지스틱 | \(\ln(1+\lambda x^\alpha)\) | \(\ln x\) | \(\ln\{\exp[\widehat{H}] - 1\}\) | \(\alpha\) |
(식 12.5.2-4)
Weibull 도표 (\(\ln \widehat{H}\) vs \(\ln x\)) 의 기울기가 1 이면 지수 분포가 적합하다. 따라서 같은 도표 한 장으로 Weibull 적합과 지수 가능성을 모두 확인할 수 있다.
3.3 예제 12.1 — AML 이식 4 모형 도표 (Figs 12.1-12.4)
- Fig 12.1 (지수): allo 곡선 비선형 → 지수 부적합. auto 곡선은 꼬리 변동성 외에는 직선 → 지수 가능.
- Fig 12.2 (Weibull): 두 군 모두 거의 직선.
- Fig 12.3 (로그-로지스틱): 두 군 모두 거의 직선.
- Fig 12.4 (로그정규): 두 군 모두 거의 직선.
§ 12.4 의 AIC 결과 (로그정규가 최적) 와 일관되며, 지수가 부적합하다는 결론이 도표로 시각적으로 확인된다.
3.4 AFT 점검용 Q-Q 도표
두 군의 AFT 가정 \(S_1(t) = S_0(\theta t)\) (식 12.5.2’) 를 점검한다. 핵심 등식:
\[ S_0(t_{0p}) = 1 - p = S_1(t_{1p}) = S_0(\theta\, t_{1p}) \;\Rightarrow\; t_{0p} = \theta\, t_{1p} . \]
여기서 \(t_{kp}\) 는 군 \(k\) 의 \(p\)-분위수 (즉 \(S_k(t_{kp}) = 1-p\)).
3.4.1 절차
- 두 군의 Kaplan-Meier 추정량을 따로 적합.
- \(p = 0.05, 0.10, \ldots, 0.35\) 등 적절한 분위에서 \(\widehat{t}_{0p}, \widehat{t}_{1p}\) 추정.
- \((\widehat{t}_{1p}, \widehat{t}_{0p})\) 점들을 산점도로 그림.
3.4.2 해석
- 원점을 지나는 직선이면 AFT 가정 성립. 기울기 \(= \widehat{\theta}\) (가속 인자의 거친 추정치).
- 곡선이거나 절편이 0 이 아니면 AFT 가정이 깨진 것. PH 또는 비례 오즈를 고려해야 한다.
AFT 모형은 두 군의 시간 척도를 단순히 곱셈으로 연결한다. 한 군의 \(p\)-분위수가 다른 군의 \(p\)-분위수의 정확히 \(\theta\) 배라면, 모든 \(p\) 값에서 같은 비율이 유지되어 점들이 원점을 지나는 직선 위에 놓인다. 점들이 곡선이면 비례성이 깨진 것, 즉 시간 척도가 일정 비율이 아니라 시간에 따라 변하는 것이다.
3.5 예제 12.1 (Fig 12.5) — auto vs allo Q-Q 도표
\(p = 0.05, \ldots, 0.35\) 의 점들이 거의 직선을 이루며 기울기 ≈ 0.6 → AFT 가정 적합. 가속 인자 \(\widehat{\theta} \approx 0.6\) (auto 군이 더 빠르게 사건이 발생, 즉 무백혈병 생존이 짧음).
3.6 회귀 모형용 잔차 — Cox-Snell
Ch.11 의 Cox-Snell 잔차 \(r_j = \widehat{H}(T_j \mid Z_j)\) 를 모수 모형에 적용한다.
3.6.1 분포별 폐쇄형
| 분포 | \(r_j\) |
|---|---|
| 지수 | \(\widehat{\lambda} t_j \exp(\widehat{\beta}^t Z_j)\) |
| Weibull | \(\widehat{\lambda} \exp(\widehat{\beta}^t Z_j)\, t_j^{\widehat{\alpha}}\) |
| 로그-로지스틱 | \(\ln\!\left[1 + \widehat{\lambda} \exp(\widehat{\beta}^t Z_j)\, t_j^{\widehat{\alpha}}\right]\) |
| 로그정규 | \(-\ln\!\left[1 - \Phi\!\left(\frac{\ln T_j - \widehat{\mu} - \widehat{\gamma}^t Z_j}{\widehat{\sigma}}\right)\right]\) |
3.6.2 점검 방법
모형이 옳으면 \(r_j\) 는 표준 (\(\lambda = 1\)) 지수 분포를 따른다. 따라서 \(r_j\) 의 Nelson-Aalen 누적위험률 \(H_r(r)\) 을 \(r\) 에 대해 그렸을 때 기울기 1 의 직선 (\(H_r(r) = r\)) 이면 모형이 적합하다.
확률 적분 변환 (probability integral transform) 의 결과: 누적위험률 \(H(X)\) 의 분포는 항상 표준 지수이다. 이는 분포에 무관한 보편적 성질이므로, 어떤 모수 모형이든 적합값으로 변환한 잔차가 표준 지수에 가까운지 보면 된다.
3.7 표준화 잔차 (standardized residuals)
로그 선형 표현에 기반한 잔차:
\[ s_j = \frac{\ln T_j - \widehat{\mu} - \widehat{\gamma}^t Z_j}{\widehat{\sigma}} . \]
모형이 옳으면 \(s_j\) 는 절단된 다음 분포의 표본:
| 모형 | \(s_j\) 의 분포 |
|---|---|
| Weibull | 표준 극단값 (식 12.2.2) |
| 로그-로지스틱 | 표준 로지스틱 (식 12.3.5) |
| 로그정규 | 표준 정규 |
표준화 잔차의 누적위험률 도표는 Cox-Snell 잔차의 지수 도표와 본질적으로 같은 정보를 준다. 어느 쪽을 쓰는가는 취향의 문제.
3.8 마팅게일 잔차
\[ \widehat{M}_j = \delta_j - r_j . \]
Cox 모형에서 \(M_j\) 가 실제 마팅게일 (martingale) 인 이유는 부분우도가 계수과정 (counting process) 의 분해와 관련되기 때문이다. 모수 모형에서는 이 도출이 성립하지 않지만, 잔차의 형태와 사용법이 같으므로 같은 이름을 쓴다. 해석은 “관측 사건 수와 모형이 예측한 사건 수의 차이” 그대로이다.
3.9 Deviance 잔차
\[ D_j = \mathrm{sign}(\widehat{M}_j)\sqrt{-2\!\left[\widehat{M}_j + \delta_j \ln(\delta_j - \widehat{M}_j)\right]} . \]
마팅게일 잔차의 비대칭성을 줄여 0 주변에 대칭으로 만든 잔차. 모형이 옳으면 랜덤 노이즈처럼 보여야 한다.
3.9.1 도표
- \(D_j\) vs 시간 (또는 관측 번호): 패턴이 있으면 모형 부적합. 시간에 따라 잔차가 체계적으로 변하면 시간 의존 효과 누락.
- \(D_j\) vs 가속 인자 \(\exp(\widehat{\theta}^t Z_j)\): 어떤 환자 군에서 잔차가 큰지 식별.
3.10 예제 12.2 (Figs 12.6-12.10) — 후두암 회귀 진단
3.10.1 Cox-Snell 도표 (Figs 12.6-12.9)
지수, Weibull, 로그-로지스틱, 로그정규 4 개 모형 모두에서 Cox-Snell 잔차의 누적위험률 도표가 거의 기울기 1 의 직선 → 모두 합리적 적합. 그중 로그정규와 로그-로지스틱이 가장 좋다 (AIC Table 12.6 과 동일한 결론).
3.10.2 Deviance 도표 (Fig 12.10)
로그-로지스틱 모형의 deviance 잔차 vs 시간:
- 작은 \(t\) 에서 잔차가 크다 (양수).
- 시간이 지날수록 감소.
해석: 모형이 작은 \(t\) 에서 사망 확률을 과소 추정 (underestimate) 하고, 큰 \(t\) 에서 과대 추정 (overestimate) 한다. 다만 이상치가 몇 개에 불과해 모형의 큰 결함은 아니다. 다른 세 모형의 deviance 도표도 비슷한 패턴을 보인다.
후두암 데이터에서:
- AIC: 5 모형이 모두 비슷, 지수가 근소한 우위.
- Cox-Snell: 4 모형 모두 합리적, 로그정규/로그-로지스틱이 약간 더 좋음.
- Deviance: 4 모형 모두 작은 \(t\) 에서 미세한 부적합.
결론: 회귀 추정은 분포에 강건하다. 어느 모형을 골라도 Stage 효과의 해석은 거의 같다. 분포 선택의 부담을 너무 크게 가질 필요가 없다.
4 진단 워크플로 — 통합
§ 12.4-12.5 의 도구를 묶어 다음 절차를 권장한다:
- 단변량 적합: 군별로 4-5 분포를 따로 적합, 누적위험률 도표 확인.
- 분포 후보 선정: AIC 와 도표 직선성으로 1-2 개 후보 분포 결정.
- 일반화 감마 검정 (선택): \(\theta = 1, 0\) 가설로 Weibull/로그정규 적합 여부 평가.
- AFT 점검: 두 군의 Q-Q 도표가 원점을 지나는 직선인지 확인.
- 회귀 적합: 후보 분포로 회귀 모형 적합.
- Cox-Snell 잔차: 누적위험률 도표 직선성으로 전체 적합도 확인.
- Deviance 잔차: 시간/관측 번호 대비 도표로 이상치와 시간 의존 효과 점검.
- 민감도 비교: 1-2 개 후보 모형의 회귀 계수가 일관된지 비교 → 최종 모형 결정.
5 코드 — Python lifelines
import numpy as np
from lifelines import (
ExponentialFitter, WeibullFitter, LogNormalFitter,
LogLogisticFitter, GeneralizedGammaFitter,
WeibullAFTFitter, LogNormalAFTFitter, LogLogisticAFTFitter
)
# 단변량 5 모형 비교 (AML allo 군 예시)
models = {
"Exp": ExponentialFitter(), "Wei": WeibullFitter(),
"LL": LogLogisticFitter(), "LN": LogNormalFitter(),
"GG": GeneralizedGammaFitter()
}
for name, m in models.items():
m.fit(df_allo["T"], df_allo["E"])
print(name, "AIC:", m.AIC_)
# Q-Q 도표 (AFT 점검)
from lifelines.plotting import qq_plot
qq_plot(WeibullFitter().fit(df["T"], df["E"]))
# 회귀 + Cox-Snell 잔차
ll = LogLogisticAFTFitter().fit(df, "T", "E")
H_pred = ll.predict_cumulative_hazard(df).values
cs = np.diag(H_pred[-1, :]) # 각 환자의 H(T_j)
# Martingale & Deviance
m_resid = df["E"].values - cs
d_resid = np.sign(m_resid) * np.sqrt(
-2 * (m_resid + df["E"].values *
np.log(np.where(df["E"]==1, 1 - m_resid, 1)))
)6 코드 — R survival/flexsurv
library(survival); library(flexsurv)
# 5 모형 적합 + AIC 비교 (후두암 데이터)
m_exp <- flexsurvreg(Surv(T, E) ~ stage + age, dist = "exp", data = larynx)
m_wei <- flexsurvreg(Surv(T, E) ~ stage + age, dist = "weibull", data = larynx)
m_ll <- flexsurvreg(Surv(T, E) ~ stage + age, dist = "llogis", data = larynx)
m_ln <- flexsurvreg(Surv(T, E) ~ stage + age, dist = "lnorm", data = larynx)
m_gg <- flexsurvreg(Surv(T, E) ~ stage + age, dist = "gengamma", data = larynx)
sapply(list(m_exp, m_wei, m_ll, m_ln, m_gg), AIC)
# 일반화 감마의 theta 검정
summary(m_gg) # Q (= theta) 추정치와 SE
# Wald: (theta_hat - 1) / SE → Weibull 적합 검정
# Wald: (theta_hat - 0) / SE → 로그정규 적합 검정
# Cox-Snell 잔차 (Weibull AFT)
m_wei2 <- survreg(Surv(T, E) ~ stage + age, dist = "weibull", data = larynx)
sigma_hat <- m_wei2$scale
linpred <- predict(m_wei2, type = "lp")
s_resid <- (log(larynx$T) - linpred) / sigma_hat # 표준화 잔차
cs_resid <- exp(s_resid) # Weibull Cox-Snell
# 누적위험률 도표
H_cs <- survfit(Surv(cs_resid, larynx$E) ~ 1)
plot(H_cs$time, -log(H_cs$surv), xlab = "Cox-Snell residual",
ylab = "Estimated H_r(r)")
abline(0, 1, col = "red") # 기울기 1 직선7 Ch.11 (Cox 진단) 과의 비교
| 도구 | Ch.11 (Cox) | Ch.12 (모수) |
|---|---|---|
| 적합도 잔차 | Cox-Snell | Cox-Snell (분포별 폐쇄형) |
| 함수 형태 잔차 | Martingale | Martingale (이름만 같음) |
| PH/AFT 점검 | Schoenfeld, Andersen | Q-Q 도표 |
| 이상치 잔차 | Deviance | Deviance |
| 영향력 | dfbeta | Score 잔차 (Theoretical Note) |
| 베이스라인 | 비모수 | 분포 폐쇄형 |
| 외삽 | 불가 | 가능 |
Ch.11 용어 풀이: Schoenfeld 잔차 (시점별 점수 잔차로 PH 가정 위반 검정), Andersen 도표 (군별 누적 위험률을 비교하는 PH 점검 그래프), dfbeta (관측치 하나를 제거했을 때의 회귀 계수 변화량으로 영향력 측정). 자세한 정의와 사용법은 Ch.11 Cox 진단 참조.
8 핵심 요약
- 로그정규: \(W \sim N(0,1)\), \(\Phi\) 기반, 로그-로지스틱과 거의 동일한 추정.
- 일반화 감마: 부모 분포, \(\theta = 1\) Weibull / \(\theta = 0\) 로그정규 / \((\theta, \sigma) = (1, 1)\) 지수. 모형 선택 도구.
- AIC = \(-2\log L + 2(p + k)\): 비-내포 분포 비교의 표준.
- AML 단변량: 로그정규 AIC 최적, allo 의 Weibull 기각 (\(p = 0.048\)).
- 후두암 회귀: 5 모형 비슷, 지수 AIC 최소. 분포에 강건.
- 누적위험률 도표: 분포별 변환으로 직선성 확인. 식 12.5.1-4.
- Q-Q 도표: AFT 가정 점검. 원점 지나는 직선이면 AFT 적합, 기울기 = 가속 인자.
- Cox-Snell 잔차: \(r_j = \widehat{H}(T_j \mid Z_j)\), 표준 지수여야 함. 분포별 폐쇄형 표 참조.
- 표준화 잔차: \(s_j = (\ln T_j - \widehat{\mu} - \widehat{\gamma}^t Z_j)/\widehat{\sigma}\), 분포별 절단 표본.
- Deviance 잔차: 0 주변 대칭, 시간 대비 패턴 점검.
- 결론 통합: 회귀 효과 추정은 분포에 강건한 경우가 많다.
9 참고 문헌
- Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.). Springer. § 12.4-12.5.
- Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. Auto. Control, 19(6), 716-723. (AIC 의 원전)
- Weissfeld, L. A., & Schneider, H. (1990). Influence diagnostics for the Weibull model fit to censored data. Statistics & Probability Letters, 9(1), 67-73.
- Escobar, L. A., & Meeker, W. Q. (1992). Assessing influence in regression analysis with censored data. Biometrics, 48(2), 507-528.
- Collett, D. (2015). Modelling Survival Data in Medical Research (3rd ed.). CRC. (모수 잔차 도표 풍부)