Klein § 8.9 — Ch.8 Exercises 14 문제 풀이

Group A Coding + 단일 공변량 (Ex 8.1~8.3) — NHL/HOD 4 군 dummy vs interaction coding + tongue ploidy Score/LR/Wald 3 검정 / Group B 다중 공변량 + Local Tests (Ex 8.4~8.6) — BNCT 3 군 global + contrast + LR/Wald + pneumonia race × poverty interaction / Group C Discretizing (Ex 8.7~8.8) — burn 최적 cut-point Contal-O’Quigley + BMT waiting time categorize vs continuous / Group D Model Building (Ex 8.9~8.12) — burn forward selection + BMT AGVHD MTX 가설 주도 + pneumonia AIC 탐색 + STD 탐색적 모형 / Group E Survival Estimation (Ex 8.13~8.14) — burn 20일 CI + AGVHD Stage 별 생존곡선

Klein & Moeschberger Ch.8 의 14 exercises (8.1~8.14) 풀이 가이드. § 8.1~8.8 이 도구(Cox 모형, 편우도, 검정, 모형 구축, 생존 추정)를 정의했다면, § 8.9 의 14 문제는 그 도구를 다양한 데이터에 통합 적용한다. Ch.8 시리즈의 마지막 deep-dive. 14 문제 5 그룹: Group A Coding + 단일 공변량 (§ 8.1~8.2) — Ex 8.1 NHL/HOD Allo/Auto 4 군 (독립 4 군 dummy + main-interaction coding + 역추정), Ex 8.2 burn disinfectant 2 군 (단순 + 면적 보정), Ex 8.3 tongue ploidy (Score·LR·Wald 3 검정 + RR CI). Group B 다중 공변량 + Local Tests (§ 8.3~8.5) — Ex 8.4 BNCT 3 군 (global 3 검정 + β_1=β_2 contrast + combined radiation), Ex 8.5 NHL/HOD (ANOVA + interaction + pairwise RR + 2-df simultaneous), Ex 8.6 pneumonia race × poverty (discrete likelihood + conditional RR + cross-group contrast). Group C Discretizing (§ 8.6) — Ex 8.7 burn 최적 cut-point (Contal-O’Quigley + 연속 비교), Ex 8.8 BMT waiting time (ALL 그룹 cut-point + categorized vs continuous 비교). Group D Model Building (§ 8.7) — Ex 8.9 burn 가설 주도 forward (4 factor), Ex 8.10 BMT AGVHD MTX 효과 (단변량 → 교란 보정 → interaction → 최적 모형), Ex 8.11 pneumonia 모유수유 AIC 탐색, Ex 8.12 STD 재감염 탐색적 모형 구축. Group E Survival Estimation (§ 8.8) — Ex 8.13 burn 20일 생존 CI (면적 25%), Ex 8.14 AGVHD MTX/no-MTX × disease category 생존곡선 + 80일 CI.

Statistics
Survival Analysis
Klein-Moeschberger
Exercises
Cox-Proportional-Hazards
Model-Building
Survival-Function
저자

Kwangmin Kim

공개

2026년 04월 28일

1 들어가며 — Ch.8 시리즈의 마무리

주제
Ch.8 Overview 9 절 조망
§ 8.1~8.2 Cox 모형 + Coding
§ 8.3~8.4 Partial Likelihood + Ties
§ 8.5~8.6 Local Tests + Discretizing
§ 8.7~8.8 Model Building + Survival Estimation
§ 8.9 (본 편) 14 Exercises 풀이 + Ch.8 마무리
§ 8.9 의 한 줄 요약

“Ch.8 의 14 exercises 는 § 8.1~8.8 의 모든 도구를 다양한 데이터에 통합 적용 — coding 3 (Ex 8.1~8.3) + local tests 3 (Ex 8.4~8.6) + discretizing 2 (Ex 8.7~8.8) + model building 4 (Ex 8.9~8.12) + survival estimation 2 (Ex 8.13~8.14). 각 문제의 핵심: (a) 적절한 coding → (b) 편우도 + 검정 → (c) 모형 구축 전략 → (d) 생존 추정 + 임상 해석. Ch.8 시리즈 마무리 + Ch.9 (refinements: time-dependent covariates, stratified model) 으로의 자연 연결.”

2 14 문제 분류표

Ex 데이터 주요 도구
8.1 NHL/HOD Allo/Auto 4 군 4-군 dummy + interaction coding 8.2
8.2 Burn disinfectant 2 군 + 면적 단순 + 보정 Cox 8.2
8.3 Tongue ploidy 2 군 Score/LR/Wald 3 검정 8.3
8.4 BNCT rats 3 군 Global 3 검정 + contrast 8.3~8.5
8.5 NHL/HOD 4 군 (Ex 8.1 연속) ANOVA + interaction + pairwise 8.5
8.6 Pneumonia race × poverty Discrete likelihood + interaction 8.4~8.5
8.7 Burn 면적 cut-point Contal-O’Quigley § 8.6 8.6
8.8 BMT ALL waiting time Cut-point + 연속 비교 8.6
8.9 Burn forward selection 가설 주도 model building 8.7
8.10 BMT AGVHD MTX 가설 주도 (4 단계) 8.7
8.11 Pneumonia 모유수유 AIC 탐색적 model building 8.7
8.12 STD 재감염 탐색적 model building 8.7
8.13 Burn 20일 생존 CI Breslow 생존 추정 + CI 8.8
8.14 BMT AGVHD 생존곡선 공변량 보정 생존 추정 8.8

3 Group A — Coding + 단일 공변량 (§ 8.1~8.2)

3.1 Ex 8.1 — NHL/HOD Allo/Auto 4 군

데이터

§ 1.10 의 림프종 데이터:

  • NHL Allo 11 명, NHL Auto 12 명, HOD Allo 5 명, HOD Auto 15 명.
  • 사건: 사망 또는 재발 (일 단위).
  • 기저 위험: NHL Allo.

3.1.1 (a) 독립 4-군 coding

4 군을 3 개 더미 변수로 표현한다 (NHL Allo = 기저):

\(Z_1\) \(Z_2\) \(Z_3\)
NHL Allo (기저) 0 0 0
HOD Allo 1 0 0
NHL Auto 0 1 0
HOD Auto 0 0 1

모형:

\[ h(t|Z) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2 + \beta_3 Z_3) \]

직관: 이 coding 은 4 군을 완전히 자유로운 3 개 모수로 비교한다. 각 \(\beta_i\) 는 해당 군 vs NHL Allo 의 로그 위험비이다. 질병 유형(NHL/HOD)과 이식 유형(Allo/Auto) 사이의 구조를 강제하지 않는다.

3.1.2 (b) Main effects + interaction coding

질병 유형과 이식 유형의 주효과 + 교호작용으로 분해:

\(Z_1\) (HOD) \(Z_2\) (Auto) \(Z_3 = Z_1 \times Z_2\)
NHL Allo 0 0 0
HOD Allo 1 0 0
NHL Auto 0 1 0
HOD Auto 1 1 1

모형:

\[ h(t|Z) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2 + \beta_3 Z_1 Z_2) \]

직관: 이 coding 은 동일한 3 자유도를 사용하지만, 의미가 다르다. \(\beta_1\) 은 Allo 내 질병 효과, \(\beta_2\) 는 NHL 내 이식 효과, \(\beta_3\) 은 교호작용(질병 효과가 이식 유형에 따라 달라지는 정도)이다. \(H_0: \beta_3 = 0\) 이 교호작용 검정이 된다.

3.1.3 (c) 위험비에서 \(\beta\) 역추정

주어진 위험률:

\[ \begin{aligned} h(t|\text{NHL Allo}) &= h_0(t) \\ h(t|\text{HOD Allo}) &= h_0(t) e^2 \\ h(t|\text{NHL Auto}) &= h_0(t) e^{1.5} \\ h(t|\text{HOD Auto}) &= h_0(t) e^{0.5} \end{aligned} \]

  1. 의 interaction coding 에서:
  • HOD Allo: \(\beta_1 = 2\)
  • NHL Auto: \(\beta_2 = 1.5\)
  • HOD Auto: \(\beta_1 + \beta_2 + \beta_3 = 0.5\), 따라서 \(\beta_3 = 0.5 - 2 - 1.5 = -3\)

직관: \(\beta_3 = -3\) 으로 강한 음의 교호작용이다. 이는 HOD 와 Auto 가 각각 단독으로는 위험을 높이지만(\(\beta_1 = 2\), \(\beta_2 = 1.5\)), 함께 작용하면 그 합보다 훨씬 낮아진다는 뜻이다. 즉, Auto 이식은 HOD 환자에서 NHL 환자보다 상대적으로 더 큰 보호 효과를 보인다.

3.2 Ex 8.2 — Burn Disinfectant 2 군

데이터

§ 1.6 의 화상환자 데이터: chlorhexidine 84 명, povidone-iodine 70 명. 공변량: 총 화상 면적(%).

3.2.1 (a) 단순 비교

\(Z = 1\) (chlorhexidine), \(Z = 0\) (povidone-iodine). 단일 공변량 Cox 모형. \(H_0: \beta = 0\) 의 세 검정(Score, LR, Wald)을 수행한다.

직관: 이것은 Ch.7 의 log-rank 검정과 동치이다(Score test at \(\beta = 0\) = log-rank). Cox 모형을 적합하면 위험비 점추정과 CI 를 추가로 얻는다.

3.2.2 (b) 면적 보정 비교

\[ h(t|Z_1, Z_2) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2) \]

\(Z_1\): 소독제 지시변수, \(Z_2\): 총 화상 면적(연속).

직관: 화상 면적이 크면 감염 위험이 높다. 두 군의 평균 면적이 다르면 면적이 교란이 된다. \(\beta_1\) (보정 후 소독제 효과)과 (a) 의 비보정 \(\beta\) 의 차이가 교란의 정도를 보여준다.

3.3 Ex 8.3 — Tongue Cancer Ploidy

데이터

§ 1.11 의 설암(tongue cancer) 데이터: aneuploid vs diploid DNA profile. Breslow tie 처리.

3.3.1 (a)~(d) 세 검정 비교

\(Z = 1\) (aneuploid), \(Z = 0\) (diploid). Breslow 방법으로 동점 처리.

검정 특성
Score (a) \(\chi^2_{Sc} = U(0)^2 / I(0)\) \(\beta = 0\) 에서 평가. log-rank 과 동치
LR (c) \(\chi^2_{LR} = 2[LL(b) - LL(0)]\) Full vs null 비교
Wald (d) \(\chi^2_W = b^2 / \widehat{V}(b)\) MLE 에서 평가

직관: 세 검정은 점근적으로 동치이지만 소표본에서 다를 수 있다. 일반적으로 LR 이 가장 신뢰할 수 있고, Score 가 계산이 가장 효율적이다.

3.3.2 (b) RR 추정

\(\widehat{\text{RR}} = e^b\) 의 95% CI: \(\exp\left(b \pm 1.96 \cdot \text{SE}(b)\right)\).

직관: aneuploid tumor 는 암세포의 DNA 양이 비정상이므로 더 공격적인 종양을 나타낸다. RR > 1 이면 aneuploid 환자의 사망 위험이 더 높다.

4 Group B — 다중 공변량 + Local Tests (§ 8.3~8.5)

4.1 Ex 8.4 — BNCT Rats 3 군

데이터

Ch.7 Ex 7.7 의 F98 glioma rats: untreated, radiation only, radiation + BPA. 더미 변수: \(Z_1 = 1\) (radiation only), \(Z_2 = 1\) (radiation + BPA). Breslow tie 처리.

4.1.1 (a) 추정 + CI

\(b_1, b_2\) 와 SE 를 구하고, radiation only vs untreated 의 RR = \(\exp(b_1)\) 과 95% CI = \(\exp(b_1 \pm 1.96 \cdot \text{SE}(b_1))\).

직관: 두 치료군의 위험이 기저(untreated)보다 낮으면 \(b_1, b_2 < 0\) 이다. 방사선이 종양 성장을 억제하므로 사망까지 시간이 늘어난다.

4.1.2 (b) Global test — 3 검정 비교

\(H_0: \beta_1 = \beta_2 = 0\) (치료 효과 없음). Wald, LR, Score 모두 df=2.

직관: 전체 효과의 유의성을 확인한다. Ch.7 의 3-군 log-rank 와 Score test 가 정확히 동치이다.

4.1.3 (c) Contrast: \(\beta_1 = \beta_2\)

\(H_0: \beta_1 = \beta_2\) (radiation only = radiation + BPA).

\[ \chi^2_W = \frac{(b_1 - b_2)^2}{V(b_1) + V(b_2) - 2\text{Cov}(b_1, b_2)} \]

직관: BPA 를 추가하는 것이 방사선 단독보다 더 효과적인가? \(b_2 < b_1\) 이면 BPA 추가가 더 보호적이고, \(\beta_1 = \beta_2\) 기각이면 그 차이가 통계적으로 유의하다.

4.1.4 (d) RR: radiation + BPA vs radiation only

\(\widehat{\text{RR}} = \exp(b_2 - b_1)\). CI: \(\exp\left[(b_2 - b_1) \pm 1.96 \sqrt{V(b_1) + V(b_2) - 2\text{Cov}(b_1, b_2)}\right]\).

직관: 이것은 기저를 “radiation only”로 재정의한 것과 같다. (a) 에서는 untreated 가 기저였지만, (d) 에서는 radiation only 가 비교 기준이다. 모형을 다시 적합할 필요 없이 기존 추정치로 계산할 수 있다 — linear contrast 의 강점이다.

4.1.5 (e)~(f) Combined radiation: LR + Wald

\(H_0: \beta_1 = \beta_2 = 0\) 이 아니라, “임의 방사선 치료 vs 무치료” 검정. 이를 위해 reduced model 에서 \(Z^* = Z_1 + Z_2\) (어떤 방사선이든 받았으면 1)로 단일 공변량 모형을 적합한다.

LR 검정: \(\chi^2_{LR} = 2[LL(\text{full 2-param}) - LL(\text{reduced 1-param})]\), df=1.

직관: (b) 는 “치료 전체가 무의미한가”를 검정하고, (e) 는 “방사선의 유무가 중요한가(BPA 차이 무시)”를 검정한다. 다른 질문이므로 답이 다를 수 있다.

4.2 Ex 8.5 — NHL/HOD 4 군 (Ex 8.1 연속)

풀이 패턴 — ANOVA Table 구축
  1. Ex 8.1(a) 의 독립 4-군 coding 으로 ANOVA table: \(b_1, b_2, b_3\) 각각의 SE, Wald \(\chi^2\), p-value.
  2. Ex 8.1(b) 의 interaction coding 으로 ANOVA table + 교호작용 검정 (LR + Wald). (c)~(e) 는 linear contrast.

4.2.1 (c) NHL Auto vs NHL Allo RR

독립 coding 에서 \(\widehat{\text{RR}} = \exp(b_2)\), CI = \(\exp(b_2 \pm 1.96 \cdot \text{SE}(b_2))\).

직관: NHL 환자에서 Auto 이식이 Allo 이식보다 위험한가? Auto 이식은 자가 줄기세포를 사용하므로 이식편대숙주질환(GVHD) 위험은 낮지만, 이식편대백혈병(GVL) 효과도 없다.

4.2.2 (d) HOD Allo vs NHL Allo

독립 coding: \(\widehat{\text{RR}} = \exp(b_1)\), Wald \(\chi^2 = b_1^2 / V(b_1)\).

Auto 환자에서는 HOD Auto vs NHL Auto: \(\widehat{\text{RR}} = \exp(b_3 - b_2)\).

직관: 같은 이식 유형 내에서 질병(NHL vs HOD)의 효과를 본다.

4.2.3 (e) 2-df 동시 검정

\(H_0: h(t|\text{NHL Allo}) = h(t|\text{NHL Auto})\) 그리고 \(h(t|\text{HOD Allo}) = h(t|\text{HOD Auto})\).

이것은 interaction coding 에서 \(H_0: \beta_2 = 0\) 그리고 \(\beta_2 + \beta_3 = 0\), 즉 contrast matrix

\[ C = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 1 & 1 \end{pmatrix} \]

\(\chi^2 = (Cb)' [CI^{-1}C']^{-1} (Cb) \sim \chi^2_2\).

직관: “각 질병군 내에서 이식 유형이 차이가 없다”를 동시에 검정한다. 개별 검정 2 개를 따로 하면 다중비교 문제가 생기지만, 2-df 검정은 이를 자연스럽게 처리한다.

4.3 Ex 8.6 — Pneumonia Race x Poverty

데이터

§ 1.13 의 소아 폐렴 입원 데이터: 3,470 관찰. 동점이 많으므로 discrete likelihood 사용. 인종(black/white), 빈곤여부, 교호작용.

4.3.1 (a) ANOVA Table

\(Z_1\) (black), \(Z_2\) (poverty), \(Z_3 = Z_1 \times Z_2\) (black × poverty).

\[ h(t|Z) = h_0(t) \exp(\beta_1 Z_1 + \beta_2 Z_2 + \beta_3 Z_1 Z_2) \]

직관: discrete likelihood 는 동점이 많을 때 Breslow/Efron 보다 정확하다. 이산 모형에서는 사건이 동시에 일어날 확률을 명시적으로 모형화한다.

4.3.2 (b) 인종별 조건부 RR

  • White 에서 빈곤 효과: \(\text{RR} = \exp(\beta_2)\), CI = \(\exp(\beta_2 \pm 1.96 \cdot \text{SE}(\beta_2))\).
  • Black 에서 빈곤 효과: \(\text{RR} = \exp(\beta_2 + \beta_3)\), CI 는 \(\text{Var}(b_2 + b_3)\) 사용.

직관: 교호작용이 있으면 빈곤의 효과가 인종에 따라 다르다. 예를 들어, 빈곤이 Black 아동에서 더 큰 위험 증가를 보인다면 \(\beta_3 > 0\) 이다.

4.3.3 (c) Cross-group contrast

\(H_0\): Black poverty = White non-poverty. 즉 \(\beta_1 + \beta_2 + \beta_3 = 0\).

Wald: \(\chi^2 = (b_1 + b_2 + b_3)^2 / \text{Var}(b_1 + b_2 + b_3)\).

\(\text{Var}(b_1 + b_2 + b_3) = V_1 + V_2 + V_3 + 2C_{12} + 2C_{13} + 2C_{23}\) (공분산행렬 원소).

직관: 가장 불리한 조합(Black + poverty)과 가장 유리한 조합(White + non-poverty)을 직접 비교한다. 이것은 정책적으로 의미 있는 질문이다 — 건강 불평등의 극단 간 차이를 정량화한다.

5 Group C — Discretizing (§ 8.6)

5.1 Ex 8.7 — Burn Cut-Point

풀이 패턴 — Contal-O’Quigley 절차

Step 1: 각 소독제군 내에서 화상면적의 모든 관측값을 후보 cut-point 로 설정.

Step 2: 각 cut-point \(C_k\) 에서 log-rank statistic \(S_k\) 계산 (식 8.6.1).

Step 3: \(\widehat{C} = \arg\max |S_k|\).

Step 4: Brownian bridge 보정: \(Q = \max|S_k| / (s\sqrt{D-1})\). \(p \approx 2\exp(-2Q^2)\) for \(Q > 1\).

Step 5: 선택된 cut-point 에서 binary Cox 모형 적합 → RR.

Step 6: 연속형 Cox 모형과 비교.

5.1.1 (a) 최적 cut-point

각 소독제군별로 화상면적의 최적 cut-point 를 찾는다.

직관: 화상면적은 연속형이지만, 임상에서는 “고위험 vs 저위험”의 이분 분류가 의사결정에 유용하다. Contal-O’Quigley 방법은 데이터에서 최적의 분할점을 찾되, 다중비교 보정(Brownian bridge)을 통해 과적합을 방지한다.

5.1.2 (b) Binary 모형 적합

선택된 cut-point 로 \(Z = 1\) (면적 \(\geq C\))을 만들고 Cox 모형 적합. RR 과 CI 보고.

5.1.3 (c) 연속형 비교

화상면적을 원래 연속형으로 Cox 모형 적합. 연속형 모형의 RR 은 면적 1% 증가당 위험 변화이다.

직관: binary 모형은 해석이 쉽지만 정보 손실이 있다. 연속형 모형은 정보를 보존하지만 선형 관계를 가정한다. 두 모형의 결과가 일관되면 cut-point 변환의 정당성이 확인된다.

5.2 Ex 8.8 — BMT Waiting Time

데이터

§ 1.3 의 BMT 데이터, ALL 그룹만 대상. 공변량: 진단에서 이식까지 대기시간(일).

5.2.1 (a)~(c) Categorized vs Continuous

  1. ALL 그룹 내에서 대기시간의 최적 cut-point 를 찾는다. (b) Binary Cox 적합. (c) 연속형 비교.

직관: 대기시간은 생물학적으로 이중 효과를 가진다. 짧은 대기는 질병이 공격적이라는 신호일 수 있고(나쁨), 긴 대기는 이식 준비가 더 충분하다는 의미일 수 있다(좋음). 또는 긴 대기는 적절한 공여자를 찾기 어려웠다는 뜻일 수도 있다(나쁨). cut-point 와 연속형 분석 모두 이 비선형 관계를 탐색하는 데 유용하다.

6 Group D — Model Building (§ 8.7)

6.1 Ex 8.9 — Burn Forward Selection

데이터

§ 1.6 의 화상환자 데이터. 주효과: 소독제(chlorhexidine vs povidone-iodine). 교란 후보: 성별, 인종, 총 화상면적, 화상 유형(chemical, scald, electrical, flame).

6.1.1 (a)~(b) 단순 + 면적 보정

  1. Ex 8.2(a) 재현. (b) Ex 8.2(b) 재현.

6.1.2 (c) 개별 보정

주효과를 고정하고 각 교란 후보를 하나씩 추가하여 local test.

직관: § 8.7 의 시나리오 1(가설 주도)의 전형적 적용이다. 소독제 비교가 주 목적이므로 소독제 변수는 항상 모형에 포함된다.

6.1.3 (d) 전진 선택

§ 8.7 의 절차를 따른다:

  1. 소독제 고정, 가장 유의한 교란 추가.
  2. 소독제 + 교란1 고정, 다음 유의 교란 추가.
  3. 비유의하면 중단.
  4. 최종 모형에서 주 가설(소독제 효과) 검정.

직관: 최종 모형에서 \(\beta_1\) (소독제)의 p-value 가 핵심이다. 교란 보정 전후의 \(\beta_1\) 변화를 비교하면 교란의 정도를 가늠할 수 있다. 변화가 10% 이상이면 실질적 교란이 있었다고 본다.

6.2 Ex 8.10 — BMT AGVHD MTX 효과

데이터

§ 1.3 의 BMT 데이터. 주효과: MTX prophylactic (methotrexate 포함 vs 불포함). 사건: 급성 이식편대숙주질환(AGVHD) 발생. 교란 후보: disease category (ALL, AML low-risk, AML high-risk), 나이, 성별, CMV, FAB class, 대기시간.

6.2.1 (a) 비보정 MTX 효과

단일 공변량 \(Z = 1\) (MTX). RR 과 CI 보고.

직관: MTX 는 면역 억제제이므로 AGVHD(면역 반응)를 예방할 것으로 기대된다. \(\beta < 0\) 이면 MTX 가 AGVHD 위험을 낮춘다.

6.2.2 (b) Disease category 보정

\(Z_1\) (MTX)를 고정하고 disease category (\(Z_2\): AML low-risk, \(Z_3\): AML high-risk)를 추가. 보정 후 MTX 효과의 변화를 관찰.

직관: 비무작위 배정이므로 disease category 가 MTX 사용과 상관될 수 있다. 특정 병원에서만 MTX 를 사용했다면, 병원별 환자 구성이 다를 수 있다.

6.2.3 (c) 교호작용 검정

\(Z_4 = Z_1 \times Z_2\), \(Z_5 = Z_1 \times Z_3\) 추가. \(H_0: \beta_4 = \beta_5 = 0\) (MTX 효과가 질병군에 따라 다르지 않다).

직관: MTX 의 효과가 ALL 과 AML 에서 다를 수 있다. 질병의 면역학적 특성이 다르기 때문이다.

6.2.4 (d) 최적 모형 구축

§ 8.7 시나리오 1 의 full 절차:

  1. MTX 고정.
  2. 모든 교란(disease, age, sex, CMV, FAB, waiting time) 순차 local test.
  3. 유의한 교란 추가, 반복.
  4. 최종 모형에서 MTX 효과 검정 + RR.

6.3 Ex 8.11 — Pneumonia 모유수유

데이터

§ 1.13 의 소아 폐렴 데이터. 주효과: 출생 시 모유수유 여부. 교란 후보: 모 연령, 도시/농촌, 음주, 흡연, 지역, 출생체중, 빈곤, 인종, 형제 수. Discrete likelihood 사용.

6.3.1 (a) 비보정 모유수유 효과

\(Z = 1\) (breast fed). Score, LR, Wald 3 검정 + RR.

직관: 모유수유가 폐렴 입원을 방지하는 보호 효과가 있다면 \(\beta < 0\) (\(\text{RR} < 1\)).

6.3.2 (b) 개별 교란 탐색

주효과 고정, 각 교란 변수를 하나씩 추가하여 Wald test.

6.3.3 (c) AIC 기반 최적 모형

§ 8.7 시나리오 1 의 절차를 AIC 기준으로 적용. AIC = \(-2\log L + 2p\).

직관: Ex 8.6 (weaning time)에서 p-value 와 AIC 가 다른 최종 모형을 준 것처럼, 여기서도 두 기준이 다를 수 있다. AIC 는 일반적으로 더 많은 변수를 포함한다.

6.3.4 (d) 결과 요약

최종 모형의 임상적 해석. 모유수유의 보호 효과가 교란 보정 후에도 유지되는가?

6.4 Ex 8.12 — STD 재감염 탐색적 모형

데이터

§ 1.12 의 STD 재감염 데이터. 사전 가설 없이 다수 공변량 중 재감염과 관련된 변수를 탐색.

후보: 인종, 결혼상태, 나이, 교육, 초기 감염유형(gonorrhea/chlamydia/both), 최근 30 일 파트너 수, 구강성교, 직장성교, 증상(복통, 분비물, 배뇨통, 가려움, 병변, 발진, 림프절), 콘돔 사용.

풀이 패턴 — 시나리오 2 (탐색적)
  1. 각 후보 변수 단독 global test → Wald \(\chi^2\) + p-value 표 작성.
  2. 가장 유의한 변수 모형에 추가.
  3. 나머지 local test → 다음 유의 변수 추가.
  4. p-value 기준 (\(\alpha = 0.05\)) 비유의하면 중단.
  5. 최종 ANOVA table 보고.

직관: 시나리오 2 (탐색적) 의 전형적 적용이다. Ex 8.9~8.11 은 주효과가 사전에 정해져 있었지만, 여기서는 “어떤 변수든 중요하면 찾아라”가 목표이다. 결과는 가설 생성(hypothesis generating) 용도이며, 확증적(confirmatory) 결론이 아니다. 향후 전향적 연구에서 발견된 변수를 검증해야 한다.

7 Group E — Survival Estimation (§ 8.8)

7.1 Ex 8.13 — Burn 20일 생존 CI

데이터

§ 1.6 의 화상환자 데이터. 총 화상면적 25%인 환자의 각 소독제군별 20일 생존확률과 95% CI.

풀이 패턴 — § 8.8 직접 적용

Step 1: Ex 8.2(b) 의 모형 (소독제 + 면적) 적합 → \(b_1, b_2\) 추정.

Step 2: Breslow 추정량 \(\widehat{H}_0(t)\) 계산 (식 8.8.2).

Step 3: 각 군의 \(Z_0\) 설정:

  • Chlorhexidine, 면적 25%: \(Z_0 = (1, 25)\)
  • Povidone-iodine, 면적 25%: \(Z_0 = (0, 25)\)

Step 4: \(\widehat{S}(20|Z_0) = \widehat{S}_0(20)^{\exp(b'Z_0)}\) (식 8.8.4).

Step 5: 분산 (식 8.8.5) — \(Q_1(20) + Q_2(20; Z_0)\) 계산.

Step 6: 95% CI — log-transformed (§ 4.3 방법):

\[ \exp\left[\log \widehat{S}(20) \pm 1.96 \cdot \frac{\text{SE}(\widehat{S})}{\widehat{S}(20)}\right] \]

직관: 20 일은 화상 감염의 임계 시점이다. 초기 감염이 대부분 이 기간에 발생한다. 면적 25%를 고정함으로써 동일 조건에서 소독제의 순효과를 비교한다. 두 CI 가 겹치지 않으면 소독제 간 유의한 차이가 있다.

7.2 Ex 8.14 — AGVHD MTX/no-MTX 생존곡선

데이터

Ex 8.10 의 BMT AGVHD 데이터. Disease category 보정 후 MTX/no-MTX 각 군의 생존곡선 추정.

7.2.1 (a) Disease category 별 생존곡선

Ex 8.10(b) 의 보정 모형에서 6 개 곡선 산출:

조합 \(Z_0\)
MTX + ALL \((1, 0, 0)\)
MTX + AML low \((1, 1, 0)\)
MTX + AML high \((1, 0, 1)\)
no-MTX + ALL \((0, 0, 0)\)
no-MTX + AML low \((0, 1, 0)\)
no-MTX + AML high \((0, 0, 1)\)

직관: Disease category 가 교란이므로, MTX 효과를 보려면 같은 disease 내에서 MTX vs no-MTX 곡선을 비교해야 한다. 모든 category 에서 MTX 곡선이 위에 있으면 일관된 보호 효과이다.

7.2.2 (b) 80일 CI — AML high-risk

AML high-risk 환자의 80 일 시점에서 MTX 와 no-MTX 의 \(\widehat{S}(80)\) + 95% CI.

직관: 80 일은 AGVHD 의 급성기가 지나는 시점이다. AML high-risk 는 가장 예후가 나쁜 그룹이므로 MTX 의 효과가 가장 필요한 곳이다. CI 의 폭은 이 subgroup 의 표본 크기(45 명)에 의해 결정된다.

import pandas as pd
from lifelines import CoxPHFitter
import numpy as np

np.random.seed(42)
n = 100
df = pd.DataFrame({
    'T': np.random.exponential(50, n),
    'E': np.random.binomial(1, 0.7, n),
    'mtx': np.random.binomial(1, 0.5, n),
    'aml_low': np.random.binomial(1, 0.3, n),
    'aml_high': np.random.binomial(1, 0.2, n),
})

cph = CoxPHFitter()
cph.fit(df, duration_col='T', event_col='E')
cph.print_summary()

profiles = pd.DataFrame({
    'mtx': [1, 0, 1, 0],
    'aml_low': [0, 0, 0, 0],
    'aml_high': [1, 1, 0, 0],
})
labels = ['MTX+AMLhi', 'noMTX+AMLhi', 'MTX+ALL', 'noMTX+ALL']

sf = cph.predict_survival_function(profiles)
for i, label in enumerate(labels):
    s80 = sf.iloc[:, i].loc[sf.index <= 80].iloc[-1]
    print(f"{label}: S(80) = {s80:.3f}")

8 Ch.8 시리즈 통합 교훈

7 가지 핵심 교훈
  1. Score test at \(\beta = 0\) = log-rank: Ch.7 의 비모수 검정이 Cox 모형의 특수 경우이다.
  2. Partial likelihood 는 \(h_0\) 를 소거: semiparametric 의 핵심 — 기저 위험 없이 \(\beta\) 추정.
  3. 3 검정의 선택: LR 이 가장 신뢰, Score 가 가장 효율, Wald 가 가장 편리.
  4. Linear contrast 의 위력: 모형을 재적합하지 않고 임의의 군 비교 가능.
  5. 두 시나리오 구분: 가설 주도(주효과 고정) vs 탐색적(전진 선택). 목적이 전략을 결정.
  6. AIC vs p-value: AIC 가 더 관대 (\(k=2\) \(\approx\) \(\alpha = 0.16\)). 데이터에 따라 다른 최종 모형.
  7. Breslow 생존 추정: \(\widehat{S}(t|Z_0) = \widehat{S}_0(t)^{\exp(b'Z_0)}\) — 절대적 예후 정보. 분산의 두 항(\(Q_1\) + \(Q_2\))은 극단 공변량에서 불확실성 증가.

9 Ch.9 예고 — Refinements

Ch.8 은 고정 공변량(fixed covariates) 만 다뤘다. 실제 임상에서는:

  • 시간의존 공변량: AGVHD 발생 여부, 혈소판 회복 여부 — 시간에 따라 변하는 변수.
  • PH 가정 위반: 특정 공변량의 효과가 시간에 따라 변할 때 → 층화 모형.
  • 좌절단: 지연 진입 환자.
  • 다상태 모형: 경쟁위험의 일반화.

Ch.9 는 이 네 가지 정교화를 다룬다. 핵심 아이디어: 편우도의 \(Z_j\)\(Z_j(t)\) 로 바꾸면 시간의존 공변량이 자연스럽게 처리된다.

10 관련 주제

선행 지식

후속 주제

  • Ch.9 — Cox Refinements (예정) — 시간의존 공변량, 층화 모형, 좌절단, 다상태 모형
  • Ch.10 — Additive Hazards (예정) — Aalen 비모수적 가법 위험 모형
  • Ch.11 — Regression Diagnostics (예정) — Cox-Snell, 마팅게일, Schoenfeld 잔차

Subscribe

Enjoy this blog? Get notified of new posts by email: