1 들어가며 — Ch.8 시리즈의 마무리
| 편 | 주제 |
|---|---|
| Ch.8 Overview | 9 절 조망 |
| § 8.1~8.2 | Cox 모형 + Coding |
| § 8.3~8.4 | Partial Likelihood + Ties |
| § 8.5~8.6 | Local Tests + Discretizing |
| § 8.7~8.8 | Model Building + Survival Estimation |
| § 8.9 (본 편) | 14 Exercises 풀이 + Ch.8 마무리 |
“Ch.8 의 14 exercises 는 § 8.1~8.8 의 모든 도구를 다양한 데이터에 통합 적용 — coding 3 (Ex 8.1~8.3) + local tests 3 (Ex 8.4~8.6) + discretizing 2 (Ex 8.7~8.8) + model building 4 (Ex 8.9~8.12) + survival estimation 2 (Ex 8.13~8.14). 각 문제의 핵심: (a) 적절한 coding → (b) 편우도 + 검정 → (c) 모형 구축 전략 → (d) 생존 추정 + 임상 해석. Ch.8 시리즈 마무리 + Ch.9 (refinements: time-dependent covariates, stratified model) 으로의 자연 연결.”
2 14 문제 분류표
| Ex | 데이터 | 주요 도구 | 절 |
|---|---|---|---|
| 8.1 | NHL/HOD Allo/Auto 4 군 | 4-군 dummy + interaction coding | 8.2 |
| 8.2 | Burn disinfectant 2 군 + 면적 | 단순 + 보정 Cox | 8.2 |
| 8.3 | Tongue ploidy 2 군 | Score/LR/Wald 3 검정 | 8.3 |
| 8.4 | BNCT rats 3 군 | Global 3 검정 + contrast | 8.3~8.5 |
| 8.5 | NHL/HOD 4 군 (Ex 8.1 연속) | ANOVA + interaction + pairwise | 8.5 |
| 8.6 | Pneumonia race × poverty | Discrete likelihood + interaction | 8.4~8.5 |
| 8.7 | Burn 면적 cut-point | Contal-O’Quigley § 8.6 | 8.6 |
| 8.8 | BMT ALL waiting time | Cut-point + 연속 비교 | 8.6 |
| 8.9 | Burn forward selection | 가설 주도 model building | 8.7 |
| 8.10 | BMT AGVHD MTX | 가설 주도 (4 단계) | 8.7 |
| 8.11 | Pneumonia 모유수유 | AIC 탐색적 model building | 8.7 |
| 8.12 | STD 재감염 | 탐색적 model building | 8.7 |
| 8.13 | Burn 20일 생존 CI | Breslow 생존 추정 + CI | 8.8 |
| 8.14 | BMT AGVHD 생존곡선 | 공변량 보정 생존 추정 | 8.8 |
3 Group A — Coding + 단일 공변량 (§ 8.1~8.2)
3.1 Ex 8.1 — NHL/HOD Allo/Auto 4 군
§ 1.10 의 림프종 데이터:
- NHL Allo 11 명, NHL Auto 12 명, HOD Allo 5 명, HOD Auto 15 명.
- 사건: 사망 또는 재발 (일 단위).
- 기저 위험: NHL Allo.
3.1.1 (a) 독립 4-군 coding
4 군을 3 개 더미 변수로 표현한다 (NHL Allo = 기저):
| 군 | \(Z_1\) | \(Z_2\) | \(Z_3\) |
|---|---|---|---|
| NHL Allo (기저) | 0 | 0 | 0 |
| HOD Allo | 1 | 0 | 0 |
| NHL Auto | 0 | 1 | 0 |
| HOD Auto | 0 | 0 | 1 |
모형:
\[ h(t|Z) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2 + \beta_3 Z_3) \]
직관: 이 coding 은 4 군을 완전히 자유로운 3 개 모수로 비교한다. 각 \(\beta_i\) 는 해당 군 vs NHL Allo 의 로그 위험비이다. 질병 유형(NHL/HOD)과 이식 유형(Allo/Auto) 사이의 구조를 강제하지 않는다.
3.1.2 (b) Main effects + interaction coding
질병 유형과 이식 유형의 주효과 + 교호작용으로 분해:
| 군 | \(Z_1\) (HOD) | \(Z_2\) (Auto) | \(Z_3 = Z_1 \times Z_2\) |
|---|---|---|---|
| NHL Allo | 0 | 0 | 0 |
| HOD Allo | 1 | 0 | 0 |
| NHL Auto | 0 | 1 | 0 |
| HOD Auto | 1 | 1 | 1 |
모형:
\[ h(t|Z) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2 + \beta_3 Z_1 Z_2) \]
직관: 이 coding 은 동일한 3 자유도를 사용하지만, 의미가 다르다. \(\beta_1\) 은 Allo 내 질병 효과, \(\beta_2\) 는 NHL 내 이식 효과, \(\beta_3\) 은 교호작용(질병 효과가 이식 유형에 따라 달라지는 정도)이다. \(H_0: \beta_3 = 0\) 이 교호작용 검정이 된다.
3.1.3 (c) 위험비에서 \(\beta\) 역추정
주어진 위험률:
\[ \begin{aligned} h(t|\text{NHL Allo}) &= h_0(t) \\ h(t|\text{HOD Allo}) &= h_0(t) e^2 \\ h(t|\text{NHL Auto}) &= h_0(t) e^{1.5} \\ h(t|\text{HOD Auto}) &= h_0(t) e^{0.5} \end{aligned} \]
- 의 interaction coding 에서:
- HOD Allo: \(\beta_1 = 2\)
- NHL Auto: \(\beta_2 = 1.5\)
- HOD Auto: \(\beta_1 + \beta_2 + \beta_3 = 0.5\), 따라서 \(\beta_3 = 0.5 - 2 - 1.5 = -3\)
직관: \(\beta_3 = -3\) 으로 강한 음의 교호작용이다. 이는 HOD 와 Auto 가 각각 단독으로는 위험을 높이지만(\(\beta_1 = 2\), \(\beta_2 = 1.5\)), 함께 작용하면 그 합보다 훨씬 낮아진다는 뜻이다. 즉, Auto 이식은 HOD 환자에서 NHL 환자보다 상대적으로 더 큰 보호 효과를 보인다.
3.2 Ex 8.2 — Burn Disinfectant 2 군
§ 1.6 의 화상환자 데이터: chlorhexidine 84 명, povidone-iodine 70 명. 공변량: 총 화상 면적(%).
3.2.1 (a) 단순 비교
\(Z = 1\) (chlorhexidine), \(Z = 0\) (povidone-iodine). 단일 공변량 Cox 모형. \(H_0: \beta = 0\) 의 세 검정(Score, LR, Wald)을 수행한다.
직관: 이것은 Ch.7 의 log-rank 검정과 동치이다(Score test at \(\beta = 0\) = log-rank). Cox 모형을 적합하면 위험비 점추정과 CI 를 추가로 얻는다.
3.2.2 (b) 면적 보정 비교
\[ h(t|Z_1, Z_2) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2) \]
\(Z_1\): 소독제 지시변수, \(Z_2\): 총 화상 면적(연속).
직관: 화상 면적이 크면 감염 위험이 높다. 두 군의 평균 면적이 다르면 면적이 교란이 된다. \(\beta_1\) (보정 후 소독제 효과)과 (a) 의 비보정 \(\beta\) 의 차이가 교란의 정도를 보여준다.
3.3 Ex 8.3 — Tongue Cancer Ploidy
§ 1.11 의 설암(tongue cancer) 데이터: aneuploid vs diploid DNA profile. Breslow tie 처리.
3.3.1 (a)~(d) 세 검정 비교
\(Z = 1\) (aneuploid), \(Z = 0\) (diploid). Breslow 방법으로 동점 처리.
| 검정 | 식 | 특성 |
|---|---|---|
| Score (a) | \(\chi^2_{Sc} = U(0)^2 / I(0)\) | \(\beta = 0\) 에서 평가. log-rank 과 동치 |
| LR (c) | \(\chi^2_{LR} = 2[LL(b) - LL(0)]\) | Full vs null 비교 |
| Wald (d) | \(\chi^2_W = b^2 / \widehat{V}(b)\) | MLE 에서 평가 |
직관: 세 검정은 점근적으로 동치이지만 소표본에서 다를 수 있다. 일반적으로 LR 이 가장 신뢰할 수 있고, Score 가 계산이 가장 효율적이다.
3.3.2 (b) RR 추정
\(\widehat{\text{RR}} = e^b\) 의 95% CI: \(\exp\left(b \pm 1.96 \cdot \text{SE}(b)\right)\).
직관: aneuploid tumor 는 암세포의 DNA 양이 비정상이므로 더 공격적인 종양을 나타낸다. RR > 1 이면 aneuploid 환자의 사망 위험이 더 높다.
4 Group B — 다중 공변량 + Local Tests (§ 8.3~8.5)
4.1 Ex 8.4 — BNCT Rats 3 군
Ch.7 Ex 7.7 의 F98 glioma rats: untreated, radiation only, radiation + BPA. 더미 변수: \(Z_1 = 1\) (radiation only), \(Z_2 = 1\) (radiation + BPA). Breslow tie 처리.
4.1.1 (a) 추정 + CI
\(b_1, b_2\) 와 SE 를 구하고, radiation only vs untreated 의 RR = \(\exp(b_1)\) 과 95% CI = \(\exp(b_1 \pm 1.96 \cdot \text{SE}(b_1))\).
직관: 두 치료군의 위험이 기저(untreated)보다 낮으면 \(b_1, b_2 < 0\) 이다. 방사선이 종양 성장을 억제하므로 사망까지 시간이 늘어난다.
4.1.2 (b) Global test — 3 검정 비교
\(H_0: \beta_1 = \beta_2 = 0\) (치료 효과 없음). Wald, LR, Score 모두 df=2.
직관: 전체 효과의 유의성을 확인한다. Ch.7 의 3-군 log-rank 와 Score test 가 정확히 동치이다.
4.1.3 (c) Contrast: \(\beta_1 = \beta_2\)
\(H_0: \beta_1 = \beta_2\) (radiation only = radiation + BPA).
\[ \chi^2_W = \frac{(b_1 - b_2)^2}{V(b_1) + V(b_2) - 2\text{Cov}(b_1, b_2)} \]
직관: BPA 를 추가하는 것이 방사선 단독보다 더 효과적인가? \(b_2 < b_1\) 이면 BPA 추가가 더 보호적이고, \(\beta_1 = \beta_2\) 기각이면 그 차이가 통계적으로 유의하다.
4.1.4 (d) RR: radiation + BPA vs radiation only
\(\widehat{\text{RR}} = \exp(b_2 - b_1)\). CI: \(\exp\left[(b_2 - b_1) \pm 1.96 \sqrt{V(b_1) + V(b_2) - 2\text{Cov}(b_1, b_2)}\right]\).
직관: 이것은 기저를 “radiation only”로 재정의한 것과 같다. (a) 에서는 untreated 가 기저였지만, (d) 에서는 radiation only 가 비교 기준이다. 모형을 다시 적합할 필요 없이 기존 추정치로 계산할 수 있다 — linear contrast 의 강점이다.
4.1.5 (e)~(f) Combined radiation: LR + Wald
\(H_0: \beta_1 = \beta_2 = 0\) 이 아니라, “임의 방사선 치료 vs 무치료” 검정. 이를 위해 reduced model 에서 \(Z^* = Z_1 + Z_2\) (어떤 방사선이든 받았으면 1)로 단일 공변량 모형을 적합한다.
LR 검정: \(\chi^2_{LR} = 2[LL(\text{full 2-param}) - LL(\text{reduced 1-param})]\), df=1.
직관: (b) 는 “치료 전체가 무의미한가”를 검정하고, (e) 는 “방사선의 유무가 중요한가(BPA 차이 무시)”를 검정한다. 다른 질문이므로 답이 다를 수 있다.
4.2 Ex 8.5 — NHL/HOD 4 군 (Ex 8.1 연속)
- Ex 8.1(a) 의 독립 4-군 coding 으로 ANOVA table: \(b_1, b_2, b_3\) 각각의 SE, Wald \(\chi^2\), p-value.
- Ex 8.1(b) 의 interaction coding 으로 ANOVA table + 교호작용 검정 (LR + Wald). (c)~(e) 는 linear contrast.
4.2.1 (c) NHL Auto vs NHL Allo RR
독립 coding 에서 \(\widehat{\text{RR}} = \exp(b_2)\), CI = \(\exp(b_2 \pm 1.96 \cdot \text{SE}(b_2))\).
직관: NHL 환자에서 Auto 이식이 Allo 이식보다 위험한가? Auto 이식은 자가 줄기세포를 사용하므로 이식편대숙주질환(GVHD) 위험은 낮지만, 이식편대백혈병(GVL) 효과도 없다.
4.2.2 (d) HOD Allo vs NHL Allo
독립 coding: \(\widehat{\text{RR}} = \exp(b_1)\), Wald \(\chi^2 = b_1^2 / V(b_1)\).
Auto 환자에서는 HOD Auto vs NHL Auto: \(\widehat{\text{RR}} = \exp(b_3 - b_2)\).
직관: 같은 이식 유형 내에서 질병(NHL vs HOD)의 효과를 본다.
4.2.3 (e) 2-df 동시 검정
\(H_0: h(t|\text{NHL Allo}) = h(t|\text{NHL Auto})\) 그리고 \(h(t|\text{HOD Allo}) = h(t|\text{HOD Auto})\).
이것은 interaction coding 에서 \(H_0: \beta_2 = 0\) 그리고 \(\beta_2 + \beta_3 = 0\), 즉 contrast matrix
\[ C = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 1 & 1 \end{pmatrix} \]
\(\chi^2 = (Cb)' [CI^{-1}C']^{-1} (Cb) \sim \chi^2_2\).
직관: “각 질병군 내에서 이식 유형이 차이가 없다”를 동시에 검정한다. 개별 검정 2 개를 따로 하면 다중비교 문제가 생기지만, 2-df 검정은 이를 자연스럽게 처리한다.
4.3 Ex 8.6 — Pneumonia Race x Poverty
§ 1.13 의 소아 폐렴 입원 데이터: 3,470 관찰. 동점이 많으므로 discrete likelihood 사용. 인종(black/white), 빈곤여부, 교호작용.
4.3.1 (a) ANOVA Table
\(Z_1\) (black), \(Z_2\) (poverty), \(Z_3 = Z_1 \times Z_2\) (black × poverty).
\[ h(t|Z) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2 + \beta_3 Z_1 Z_2) \]
직관: discrete likelihood 는 동점이 많을 때 Breslow/Efron 보다 정확하다. 이산 모형에서는 사건이 동시에 일어날 확률을 명시적으로 모형화한다.
4.3.2 (b) 인종별 조건부 RR
- White 에서 빈곤 효과: \(\text{RR} = \exp(\beta_2)\), CI = \(\exp(\beta_2 \pm 1.96 \cdot \text{SE}(\beta_2))\).
- Black 에서 빈곤 효과: \(\text{RR} = \exp(\beta_2 + \beta_3)\), CI 는 \(\text{Var}(b_2 + b_3)\) 사용.
직관: 교호작용이 있으면 빈곤의 효과가 인종에 따라 다르다. 예를 들어, 빈곤이 Black 아동에서 더 큰 위험 증가를 보인다면 \(\beta_3 > 0\) 이다.
4.3.3 (c) Cross-group contrast
\(H_0\): Black poverty = White non-poverty. 즉 \(\beta_1 + \beta_2 + \beta_3 = 0\).
Wald: \(\chi^2 = (b_1 + b_2 + b_3)^2 / \text{Var}(b_1 + b_2 + b_3)\).
\(\text{Var}(b_1 + b_2 + b_3) = V_1 + V_2 + V_3 + 2C_{12} + 2C_{13} + 2C_{23}\) (공분산행렬 원소).
직관: 가장 불리한 조합(Black + poverty)과 가장 유리한 조합(White + non-poverty)을 직접 비교한다. 이것은 정책적으로 의미 있는 질문이다 — 건강 불평등의 극단 간 차이를 정량화한다.
5 Group C — Discretizing (§ 8.6)
5.1 Ex 8.7 — Burn Cut-Point
Step 1: 각 소독제군 내에서 화상면적의 모든 관측값을 후보 cut-point 로 설정.
Step 2: 각 cut-point \(C_k\) 에서 log-rank statistic \(S_k\) 계산 (식 8.6.1).
Step 3: \(\widehat{C} = \arg\max |S_k|\).
Step 4: Brownian bridge 보정: \(Q = \max|S_k| / (s\sqrt{D-1})\). \(p \approx 2\exp(-2Q^2)\) for \(Q > 1\).
Step 5: 선택된 cut-point 에서 binary Cox 모형 적합 → RR.
Step 6: 연속형 Cox 모형과 비교.
5.1.1 (a) 최적 cut-point
각 소독제군별로 화상면적의 최적 cut-point 를 찾는다.
직관: 화상면적은 연속형이지만, 임상에서는 “고위험 vs 저위험”의 이분 분류가 의사결정에 유용하다. Contal-O’Quigley 방법은 데이터에서 최적의 분할점을 찾되, 다중비교 보정(Brownian bridge)을 통해 과적합을 방지한다.
5.1.2 (b) Binary 모형 적합
선택된 cut-point 로 \(Z = 1\) (면적 \(\geq C\))을 만들고 Cox 모형 적합. RR 과 CI 보고.
5.1.3 (c) 연속형 비교
화상면적을 원래 연속형으로 Cox 모형 적합. 연속형 모형의 RR 은 면적 1% 증가당 위험 변화이다.
직관: binary 모형은 해석이 쉽지만 정보 손실이 있다. 연속형 모형은 정보를 보존하지만 선형 관계를 가정한다. 두 모형의 결과가 일관되면 cut-point 변환의 정당성이 확인된다.
5.2 Ex 8.8 — BMT Waiting Time
§ 1.3 의 BMT 데이터, ALL 그룹만 대상. 공변량: 진단에서 이식까지 대기시간(일).
5.2.1 (a)~(c) Categorized vs Continuous
- ALL 그룹 내에서 대기시간의 최적 cut-point 를 찾는다. (b) Binary Cox 적합. (c) 연속형 비교.
직관: 대기시간은 생물학적으로 이중 효과를 가진다. 짧은 대기는 질병이 공격적이라는 신호일 수 있고(나쁨), 긴 대기는 이식 준비가 더 충분하다는 의미일 수 있다(좋음). 또는 긴 대기는 적절한 공여자를 찾기 어려웠다는 뜻일 수도 있다(나쁨). cut-point 와 연속형 분석 모두 이 비선형 관계를 탐색하는 데 유용하다.
6 Group D — Model Building (§ 8.7)
6.1 Ex 8.9 — Burn Forward Selection
§ 1.6 의 화상환자 데이터. 주효과: 소독제(chlorhexidine vs povidone-iodine). 교란 후보: 성별, 인종, 총 화상면적, 화상 유형(chemical, scald, electrical, flame).
6.1.1 (a)~(b) 단순 + 면적 보정
- Ex 8.2(a) 재현. (b) Ex 8.2(b) 재현.
6.1.2 (c) 개별 보정
주효과를 고정하고 각 교란 후보를 하나씩 추가하여 local test.
직관: § 8.7 의 시나리오 1(가설 주도)의 전형적 적용이다. 소독제 비교가 주 목적이므로 소독제 변수는 항상 모형에 포함된다.
6.1.3 (d) 전진 선택
§ 8.7 의 절차를 따른다:
- 소독제 고정, 가장 유의한 교란 추가.
- 소독제 + 교란1 고정, 다음 유의 교란 추가.
- 비유의하면 중단.
- 최종 모형에서 주 가설(소독제 효과) 검정.
직관: 최종 모형에서 \(\beta_1\) (소독제)의 p-value 가 핵심이다. 교란 보정 전후의 \(\beta_1\) 변화를 비교하면 교란의 정도를 가늠할 수 있다. 변화가 10% 이상이면 실질적 교란이 있었다고 본다.
6.2 Ex 8.10 — BMT AGVHD MTX 효과
§ 1.3 의 BMT 데이터. 주효과: MTX prophylactic (methotrexate 포함 vs 불포함). 사건: 급성 이식편대숙주질환(AGVHD) 발생. 교란 후보: disease category (ALL, AML low-risk, AML high-risk), 나이, 성별, CMV, FAB class, 대기시간.
6.2.1 (a) 비보정 MTX 효과
단일 공변량 \(Z = 1\) (MTX). RR 과 CI 보고.
직관: MTX 는 면역 억제제이므로 AGVHD(면역 반응)를 예방할 것으로 기대된다. \(\beta < 0\) 이면 MTX 가 AGVHD 위험을 낮춘다.
6.2.2 (b) Disease category 보정
\(Z_1\) (MTX)를 고정하고 disease category (\(Z_2\): AML low-risk, \(Z_3\): AML high-risk)를 추가. 보정 후 MTX 효과의 변화를 관찰.
직관: 비무작위 배정이므로 disease category 가 MTX 사용과 상관될 수 있다. 특정 병원에서만 MTX 를 사용했다면, 병원별 환자 구성이 다를 수 있다.
6.2.3 (c) 교호작용 검정
\(Z_4 = Z_1 \times Z_2\), \(Z_5 = Z_1 \times Z_3\) 추가. \(H_0: \beta_4 = \beta_5 = 0\) (MTX 효과가 질병군에 따라 다르지 않다).
직관: MTX 의 효과가 ALL 과 AML 에서 다를 수 있다. 질병의 면역학적 특성이 다르기 때문이다.
6.2.4 (d) 최적 모형 구축
§ 8.7 시나리오 1 의 full 절차:
- MTX 고정.
- 모든 교란(disease, age, sex, CMV, FAB, waiting time) 순차 local test.
- 유의한 교란 추가, 반복.
- 최종 모형에서 MTX 효과 검정 + RR.
6.3 Ex 8.11 — Pneumonia 모유수유
§ 1.13 의 소아 폐렴 데이터. 주효과: 출생 시 모유수유 여부. 교란 후보: 모 연령, 도시/농촌, 음주, 흡연, 지역, 출생체중, 빈곤, 인종, 형제 수. Discrete likelihood 사용.
6.3.1 (a) 비보정 모유수유 효과
\(Z = 1\) (breast fed). Score, LR, Wald 3 검정 + RR.
직관: 모유수유가 폐렴 입원을 방지하는 보호 효과가 있다면 \(\beta < 0\) (\(\text{RR} < 1\)).
6.3.2 (b) 개별 교란 탐색
주효과 고정, 각 교란 변수를 하나씩 추가하여 Wald test.
6.3.3 (c) AIC 기반 최적 모형
§ 8.7 시나리오 1 의 절차를 AIC 기준으로 적용. AIC = \(-2\log L + 2p\).
직관: Ex 8.6 (weaning time)에서 p-value 와 AIC 가 다른 최종 모형을 준 것처럼, 여기서도 두 기준이 다를 수 있다. AIC 는 일반적으로 더 많은 변수를 포함한다.
6.3.4 (d) 결과 요약
최종 모형의 임상적 해석. 모유수유의 보호 효과가 교란 보정 후에도 유지되는가?
6.4 Ex 8.12 — STD 재감염 탐색적 모형
§ 1.12 의 STD 재감염 데이터. 사전 가설 없이 다수 공변량 중 재감염과 관련된 변수를 탐색.
후보: 인종, 결혼상태, 나이, 교육, 초기 감염유형(gonorrhea/chlamydia/both), 최근 30 일 파트너 수, 구강성교, 직장성교, 증상(복통, 분비물, 배뇨통, 가려움, 병변, 발진, 림프절), 콘돔 사용.
- 각 후보 변수 단독 global test → Wald \(\chi^2\) + p-value 표 작성.
- 가장 유의한 변수 모형에 추가.
- 나머지 local test → 다음 유의 변수 추가.
- p-value 기준 (\(\alpha = 0.05\)) 비유의하면 중단.
- 최종 ANOVA table 보고.
직관: 시나리오 2 (탐색적) 의 전형적 적용이다. Ex 8.9~8.11 은 주효과가 사전에 정해져 있었지만, 여기서는 “어떤 변수든 중요하면 찾아라”가 목표이다. 결과는 가설 생성(hypothesis generating) 용도이며, 확증적(confirmatory) 결론이 아니다. 향후 전향적 연구에서 발견된 변수를 검증해야 한다.
7 Group E — Survival Estimation (§ 8.8)
7.1 Ex 8.13 — Burn 20일 생존 CI
§ 1.6 의 화상환자 데이터. 총 화상면적 25%인 환자의 각 소독제군별 20일 생존확률과 95% CI.
Step 1: Ex 8.2(b) 의 모형 (소독제 + 면적) 적합 → \(b_1, b_2\) 추정.
Step 2: Breslow 추정량 \(\widehat{H}_0(t)\) 계산 (식 8.8.2).
Step 3: 각 군의 \(Z_0\) 설정:
- Chlorhexidine, 면적 25%: \(Z_0 = (1, 25)\)
- Povidone-iodine, 면적 25%: \(Z_0 = (0, 25)\)
Step 4: \(\widehat{S}(20|Z_0) = \widehat{S}_0(20)^{\exp(b'Z_0)}\) (식 8.8.4).
Step 5: 분산 (식 8.8.5) — \(Q_1(20) + Q_2(20; Z_0)\) 계산.
Step 6: 95% CI — log-transformed (§ 4.3 방법):
\[ \exp\left[\log \widehat{S}(20) \pm 1.96 \cdot \frac{\text{SE}(\widehat{S})}{\widehat{S}(20)}\right] \]
직관: 20 일은 화상 감염의 임계 시점이다. 초기 감염이 대부분 이 기간에 발생한다. 면적 25%를 고정함으로써 동일 조건에서 소독제의 순효과를 비교한다. 두 CI 가 겹치지 않으면 소독제 간 유의한 차이가 있다.
7.2 Ex 8.14 — AGVHD MTX/no-MTX 생존곡선
Ex 8.10 의 BMT AGVHD 데이터. Disease category 보정 후 MTX/no-MTX 각 군의 생존곡선 추정.
7.2.1 (a) Disease category 별 생존곡선
Ex 8.10(b) 의 보정 모형에서 6 개 곡선 산출:
| 조합 | \(Z_0\) |
|---|---|
| MTX + ALL | \((1, 0, 0)\) |
| MTX + AML low | \((1, 1, 0)\) |
| MTX + AML high | \((1, 0, 1)\) |
| no-MTX + ALL | \((0, 0, 0)\) |
| no-MTX + AML low | \((0, 1, 0)\) |
| no-MTX + AML high | \((0, 0, 1)\) |
직관: Disease category 가 교란이므로, MTX 효과를 보려면 같은 disease 내에서 MTX vs no-MTX 곡선을 비교해야 한다. 모든 category 에서 MTX 곡선이 위에 있으면 일관된 보호 효과이다.
7.2.2 (b) 80일 CI — AML high-risk
AML high-risk 환자의 80 일 시점에서 MTX 와 no-MTX 의 \(\widehat{S}(80)\) + 95% CI.
직관: 80 일은 AGVHD 의 급성기가 지나는 시점이다. AML high-risk 는 가장 예후가 나쁜 그룹이므로 MTX 의 효과가 가장 필요한 곳이다. CI 의 폭은 이 subgroup 의 표본 크기(45 명)에 의해 결정된다.
import pandas as pd
from lifelines import CoxPHFitter
import numpy as np
np.random.seed(42)
n = 100
df = pd.DataFrame({
'T': np.random.exponential(50, n),
'E': np.random.binomial(1, 0.7, n),
'mtx': np.random.binomial(1, 0.5, n),
'aml_low': np.random.binomial(1, 0.3, n),
'aml_high': np.random.binomial(1, 0.2, n),
})
cph = CoxPHFitter()
cph.fit(df, duration_col='T', event_col='E')
cph.print_summary()
profiles = pd.DataFrame({
'mtx': [1, 0, 1, 0],
'aml_low': [0, 0, 0, 0],
'aml_high': [1, 1, 0, 0],
})
labels = ['MTX+AMLhi', 'noMTX+AMLhi', 'MTX+ALL', 'noMTX+ALL']
sf = cph.predict_survival_function(profiles)
for i, label in enumerate(labels):
s80 = sf.iloc[:, i].loc[sf.index <= 80].iloc[-1]
print(f"{label}: S(80) = {s80:.3f}")8 Ch.8 시리즈 통합 교훈
- Score test at \(\beta = 0\) = log-rank: Ch.7 의 비모수 검정이 Cox 모형의 특수 경우이다.
- Partial likelihood 는 \(h_0\) 를 소거: semiparametric 의 핵심 — 기저 위험 없이 \(\beta\) 추정.
- 3 검정의 선택: LR 이 가장 신뢰, Score 가 가장 효율, Wald 가 가장 편리.
- Linear contrast 의 위력: 모형을 재적합하지 않고 임의의 군 비교 가능.
- 두 시나리오 구분: 가설 주도(주효과 고정) vs 탐색적(전진 선택). 목적이 전략을 결정.
- AIC vs p-value: AIC 가 더 관대 (\(k=2\) \(\approx\) \(\alpha = 0.16\)). 데이터에 따라 다른 최종 모형.
- Breslow 생존 추정: \(\widehat{S}(t|Z_0) = \widehat{S}_0(t)^{\exp(b'Z_0)}\) — 절대적 예후 정보. 분산의 두 항(\(Q_1\) + \(Q_2\))은 극단 공변량에서 불확실성 증가.
9 Ch.9 예고 — Refinements
Ch.8 은 고정 공변량(fixed covariates) 만 다뤘다. 실제 임상에서는:
- 시간의존 공변량: AGVHD 발생 여부, 혈소판 회복 여부 — 시간에 따라 변하는 변수.
- PH 가정 위반: 특정 공변량의 효과가 시간에 따라 변할 때 → 층화 모형.
- 좌절단: 지연 진입 환자.
- 다상태 모형: 경쟁위험의 일반화.
Ch.9 는 이 네 가지 정교화를 다룬다. 핵심 아이디어: 편우도의 \(Z_j\) 를 \(Z_j(t)\) 로 바꾸면 시간의존 공변량이 자연스럽게 처리된다.
10 관련 주제
선행 지식
- § 8.1~8.2 — Cox 모형 · Coding — coding 기초
- § 8.3~8.4 — Partial Likelihood · Ties — 편우도 + 동점
- § 8.5~8.6 — Local Tests · Discretizing — 부분 검정 + cut-point
- § 8.7~8.8 — Model Building · Survival Estimation — 모형 구축 + 생존 추정
후속 주제
- Ch.9 — Cox Refinements (예정) — 시간의존 공변량, 층화 모형, 좌절단, 다상태 모형
- Ch.10 — Additive Hazards (예정) — Aalen 비모수적 가법 위험 모형
- Ch.11 — Regression Diagnostics (예정) — Cox-Snell, 마팅게일, Schoenfeld 잔차