Kwangmin Kim - Klein § 8.3~8.4 — Partial Likelihood + Ties

1 들어가며 — Ch.8 두 번째 deep-dive

편	주제
Ch.8 Overview	9 절 조망
§ 8.1~8.2	Cox 모형 + Coding
§ 8.3~8.4 (본 편)	Partial Likelihood + Ties
§ 8.5 (예정)	Local Tests
§ 8.6~8.8 (예정)	Discretizing + Model Building + Survival Estimation
§ 8.9 (예정)	Exercises

§ 8.3~8.4 의 한 줄 요약

“§ 8.3 의 partial likelihood 식 8.3.1 — 분자 사건자 $\exp(\beta'Z_{(i)})$, 분모 risk set 합 $\sum_{j \in R(t_i)} \exp(\beta'Z_j)$. $h_0(t)$ cancel 로 semiparametric. 도출 두 갈래 — conditional probability + profile likelihood. Score 식 8.3.3 + Information 식 8.3.4 + 세 검정 (Wald 식 8.3.5, LR 식 8.3.6, Score 식 8.3.7). Score test at $\beta=0$ = log-rank test (Ch.7-Ch.8 자연 연결). Klein Example 8.1 Newton-Raphson 3 iterations 수렴 $b=0.9802$, RR=2.67, 95% CI (1.14, 6.25). § 8.4 ties — Breslow 식 8.4.1 (SAS 기본), Efron 식 8.4.2 (R 기본, 더 정확), Discrete 식 8.4.3 (정확 logistic). Klein Example 8.4 dialysis 6 ties: 세 method 모두 $b \approx -0.62$, RR $\approx 0.54$ — 그러나 PH 위반 진단 시 결론 신뢰 불가. Klein Example 8.2 larynx LR=16.26 (p=0.001), Klein Example 8.3 kidney 4-group LR=4.37 (p=0.22, 비유의).”

2 § 8.3 — Partial Likelihood for Distinct Events

2.1 문제 설정

정의: Partial Likelihood 의 데이터 구조

표본 $n$, 데이터 $(T_j, \delta_j, Z_j)$, $j = 1, \ldots, n$.

가정:

Censoring 비정보적 (noninformative) — $Z_j$ 주어진 하 사건 시간과 검열 시간 독립.
Distinct event times (§ 8.3) — 사건 시점 동률 없음 (ties 는 § 8.4).

기호:

$t_1 < t_2 < \cdots < t_D$: 정렬된 사건 시점 ($D$ 개).
$Z_{(i)k}$: $i$ 번째 사건 발생자의 $k$ 번째 covariate.
$R(t_i)$: $t_i$ 직전까지 study 에 남아 있는 모든 개체의 집합 — risk set.

2.2 Partial Likelihood — 식 8.3.1

정의: Cox Partial Likelihood (식 8.3.1)

\[ L(\beta) = \prod_{i=1}^D \frac{\exp\left[\sum_{k=1}^p \beta_k Z_{(i)k}\right]}{\sum_{j \in R(t_i)} \exp\left[\sum_{k=1}^p \beta_k Z_{jk}\right]} = \prod_{i=1}^D \frac{\exp(\beta' Z_{(i)})}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \]

해석:

분자: $i$ 번째 사건 발생자의 covariate effect $\exp(\beta' Z_{(i)})$.
분모: 사건 시점에 살아 있던 모든 개체의 effect 합.

특징:

$h_0(t)$ 가 분자·분모에서 cancel → baseline 형태에 무관한 추정.
“Partial” — 전체 likelihood (사건 시점 + 정확한 사망자) 의 일부분만 사용.

Log-likelihood (식 8.3.2):

\[ \ell(\beta) = \sum_{i=1}^D \beta' Z_{(i)} - \sum_{i=1}^D \ln\left[\sum_{j \in R(t_i)} \exp(\beta' Z_j)\right] \]

직관 — Partial Likelihood 의 의미

핵심 질문: “각 사건 시점에서 risk set 안의 개체들 중에서 왜 하필 그 사람이 죽었는가?”

사건 시점 $t_i$ 에서 누군가 죽음 (1 명, distinct events 가정).
Risk set $R(t_i)$ 안의 누구든 죽을 수 있었다.
각 개체 $j$ 의 사망 확률은 hazard $h(t_i | Z_j) = h_0(t_i) \exp(\beta' Z_j)$ 에 비례.
“$Z_{(i)}$ 가 죽었을 확률” / “누군가 죽었을 확률” = $\exp(\beta' Z_{(i)}) / \sum_R \exp(\beta' Z_j)$.

baseline cancel:

\[ \frac{h_0(t_i) \exp(\beta' Z_{(i)})}{\sum_{j \in R(t_i)} h_0(t_i) \exp(\beta' Z_j)} = \frac{\exp(\beta' Z_{(i)})}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \]

→ $h_0(t)$ 가 무엇이든 likelihood 에 영향 없음. Cox 의 천재성.

왜 “partial” 이라 불리는가:

전체 likelihood = 사건 발생 시점의 분포 × 사건 발생자의 conditional 분포.
시점 분포는 $h_0(t)$ 에 의존 — 버림.
Conditional 분포만 사용 → “partial”.
그럼에도 $\beta$ 추정에는 충분한 정보 (Cox 1972·1975).

2.3 도출 1 — Conditional Probability (Theoretical Note 1)

정의: Conditional Probability 도출

사건 시점 $t_i$ 에서 1 명 사망 ($d_i = 1$, distinct event) 라고 했을 때, 그 사람이 covariate $Z_{(i)}$ 인 개체일 조건부 확률:

\[ \begin{aligned} P\left[\text{개체 } i \text{ 가 } t_i \text{ 에 사망} \mid t_i \text{ 에 1 명 사망}\right] &= \frac{P\left[\text{개체 } i \text{ 가 } t_i \text{ 에 사망} \mid t_i \text{ 까지 생존}\right]}{P\left[t_i \text{ 에 1 명 사망} \mid t_i \text{ 까지 생존}\right]} \\ &= \frac{h(t_i \mid Z_{(i)})}{\sum_{j \in R(t_i)} h(t_i \mid Z_j)} \\ &= \frac{h_0(t_i) \exp(\beta' Z_{(i)})}{\sum_{j \in R(t_i)} h_0(t_i) \exp(\beta' Z_j)} \\ &= \frac{\exp(\beta' Z_{(i)})}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \end{aligned} \]

Partial likelihood = 모든 사건 시점의 conditional 확률을 곱:

\[ L(\beta) = \prod_{i=1}^D \frac{\exp(\beta' Z_{(i)})}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \quad (\text{식 8.3.1}) \]

직관 — 조건부 확률의 사고 흐름

비유: 100 명의 학생이 시험을 보는데, 1 명만 100 점.

누가 100 점을 맞을지는 학생들의 “능력”에 비례.
“철수가 100 점일 확률” = “철수의 능력” / “100 명 능력의 합”.
이 ratio 가 conditional probability.

Cox 의 통찰:

시점 $t_i$ 의 risk set 이 시험 보는 100 명.
사망자 $Z_{(i)}$ 의 hazard $h_0(t_i) \exp(\beta' Z_{(i)})$ 가 “능력”.
“그 사람이 죽었을 확률” = ratio.
$h_0$ 가 분자·분모 동시 cancel — baseline 무관.

의미:

Partial likelihood 는 “누가 죽었느냐” 의 정보만 사용.
“언제 죽었느냐” (시점 분포) 는 baseline 추정에 사용 — § 8.8 의 Breslow estimator.
두 정보를 분리해서 $\beta$ 와 $h_0$ 를 따로 추정하는 것이 semiparametric 의 본질.

2.4 도출 2 — Profile Likelihood (Theoretical Note 2)

정의: Profile Likelihood 도출 (Johansen 1983)

전체 censored-data likelihood (식 8.3.8):

\[ L[\beta, h_0(t)] = \prod_{j=1}^n h_0(T_j)^{\delta_j} [\exp(\beta' Z_j)]^{\delta_j} \exp\left[-H_0(T_j) \exp(\beta' Z_j)\right] \]

Profile 절차: $\beta$ 고정 → $h_0(t)$ 에 대해 maximize → 그 결과를 다시 $\beta$ 에 대해 maximize.

Step 1 — $h_0(t) = 0$ except at event times. Let $h_{0i} = h_0(t_i)$, $i = 1, \ldots, D$. 그러면 $H_0(T_j) = \sum_{t_i \leq T_j} h_{0i}$.

Step 2 — $h_{0i}$ 에 대해 최대화 (식 8.3.9 의 단순화):

\[ \widehat{h}_{0i} = \frac{1}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \]

Step 3 — 누적 hazard 의 profile 추정 (Breslow estimator, § 8.8):

\[ \widehat{H}_0(t) = \sum_{t_i \leq t} \frac{1}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \]

Step 4 — 이를 식 8.3.8 에 대입하면 partial likelihood 식 8.3.1 도출.

직관 — Profile Likelihood 의 의미

Profile likelihood 의 일반 원리:

Likelihood $L(\theta_1, \theta_2)$ 가 nuisance parameter $\theta_2$ 를 포함.
$\theta_1$ 고정 → $\theta_2$ 에 대해 maximize → $\widehat{\theta}_2(\theta_1)$ 얻음.
$L_{\text{profile}}(\theta_1) = L(\theta_1, \widehat{\theta}_2(\theta_1))$ 로 $\theta_1$ 추정.

Cox 모형에서:

$\theta_1 = \beta$ (관심 parameter).
$\theta_2 = h_0(t)$ (nuisance, 무한 차원).
$h_0$ 를 step function 으로 제한 → 유한 차원 ($h_{01}, \ldots, h_{0D}$).
각 $h_{0i}$ 에 대해 maximize 하면 $\widehat{h}_{0i} = 1 / \sum_R \exp(\beta' Z)$ — Breslow 형태.

두 도출의 동치성:

Conditional probability 도출 — 직관적, 확률 해석 명료.
Profile likelihood 도출 — 수학적으로 엄밀, $h_0$ 추정도 동시에 제공.
두 도출 모두 같은 식 8.3.1 에 도달 → 이중 정당화.

Andersen-Gill (1982):

Counting process martingale theory 로 또 한 번 도출.
Partial likelihood 의 점근적 정규성·일치성 엄밀 증명.

2.5 Score 와 Information — 식 8.3.3·8.3.4

정의: Score Function (식 8.3.3)

$U_b(\beta) = \partial \ell(\beta) / \partial \beta_b$, $b = 1, \ldots, p$:

\[ U_b(\beta) = \sum_{i=1}^D Z_{(i)b} - \sum_{i=1}^D \frac{\sum_{j \in R(t_i)} Z_{jb} \exp(\beta' Z_j)}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} \]

해석:

첫 항: 사건 발생자의 $Z_b$ 합 (관측).
둘째 항: 각 사건 시점에서의 위험가중 평균 (기대).

Score = 관측 - 기대 가중합.

정의: Information Matrix (식 8.3.4)

$I(\beta) = [I_{gh}(\beta)]_{p \times p}$, where

\[ I_{gh}(\beta) = \sum_{i=1}^D \frac{\sum_{j \in R(t_i)} Z_{jg} Z_{jh} \exp(\beta' Z_j)}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)} - \sum_{i=1}^D \left[\frac{\sum_{j \in R(t_i)} Z_{jg} \exp(\beta' Z_j)}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)}\right]\left[\frac{\sum_{j \in R(t_i)} Z_{jh} \exp(\beta' Z_j)}{\sum_{j \in R(t_i)} \exp(\beta' Z_j)}\right] \]

구조: 위험가중 $Z$ 의 분산·공분산 (각 사건 시점에서) 의 합.

Newton-Raphson 식:

\[ b_m = b_{m-1} + I^{-1}(b_{m-1}) U(b_{m-1}) \]

수렴 판정: $|\ell(b_m) - \ell(b_{m-1})| / |\ell(b_{m-1})| < 0.0001$.

직관 — Score 의 의미

Score = “데이터가 $\beta$ 를 어느 방향으로 미는가”.

$U(\beta) > 0$: 관측 covariate 가 기대보다 큼 → $\beta$ 증가 방향.
$U(\beta) < 0$: 관측 covariate 가 기대보다 작음 → $\beta$ 감소 방향.
$U(\hat{\beta}) = 0$: 관측 = 기대 → MLE.

Information = “데이터가 얼마나 강하게 $\beta$ 를 식별하는가”.

$I(\beta)$ 클수록 likelihood 곡률 커짐 → 좁은 SE.
$I(\beta) = 0$ 이면 $\beta$ 식별 불가능 (예: covariate 에 변동 없음).

Newton-Raphson 의 이해:

$U(\beta)$ 의 1차 Taylor 전개: $0 \approx U(b_{m-1}) + U'(b_{m-1})(b_m - b_{m-1})$.
$U'(\beta) = -I(\beta)$ (information 의 정의).
$\therefore b_m = b_{m-1} + I^{-1}(b_{m-1}) U(b_{m-1})$.

→ Score 가 0 인 점을 찾는 반복 알고리즘.

2.6 세 검정 — 식 8.3.5·8.3.6·8.3.7

정의: Three Tests for $H_0: \beta = \beta_0$

Wald test (식 8.3.5):

\[ X_W^2 = (b - \beta_0)' I(b) (b - \beta_0) \sim \chi^2_p \]

Likelihood Ratio test (식 8.3.6):

\[ X_{LR}^2 = 2[\ell(b) - \ell(\beta_0)] \sim \chi^2_p \]

Score test (식 8.3.7):

\[ X_{SC}^2 = U(\beta_0)' I^{-1}(\beta_0) U(\beta_0) \sim \chi^2_p \]

점근적 동치: $H_0$ 하 큰 표본에서 셋 모두 동일한 $\chi^2_p$ 분포.

직관 — 세 검정의 시각적 해석

Likelihood 곡선 $\ell(\beta)$ 위에서 (가로 $\beta$, 세로 $\ell$):

검정	측정	시각적
Wald	$b$ 와 $\beta_0$ 의 거리	곡선의 정점 위치 비교
LR	$\ell(b) - \ell(\beta_0)$	곡선의 높이 차이
Score	$U(\beta_0)$ 의 크기	$\beta_0$ 점에서의 곡선 기울기

유한 표본에서의 차이:

Wald — $b$ 의 정규성 가정 (가장 많이 보고).
LR — 두 likelihood 평가 필요 (계산 약간 더 비쌈).
Score — $\beta_0$ 만 평가 (가장 효율적, 그러나 수렴 느림).

일반적 권장:

LR ≈ Wald 가 일치할 때: 결론 안정.
Score 만 다를 때: 표본 작거나 $H_0$ 멀리 — Score 결과 신중.
실무에서는 세 검정 모두 보고 (SAS, R 기본 출력).

2.7 Score Test at β=0 = Log-Rank Test

핵심 결과 — Cox-LogRank 연결

이항 covariate $Z_j = 0$ or $1$ (예: 처치 vs 대조).

$Y_{0i}, Y_{1i}$ = 시점 $t_i$ 의 risk set 에서 $Z = 0, 1$ 의 수. $d_i$ = 시점 $t_i$ 의 사건 수. $d_{1i}$ = 사건자 중 $Z = 1$ 의 수.

Score at $\beta = 0$:

\[ U(0) = \sum_i d_{1i} - \sum_i \frac{Y_{1i} d_i}{Y_{0i} + Y_{1i}} \]

Information at $\beta = 0$ (no ties, $d_i = 1$):

\[ I(0) = \sum_i \frac{Y_{0i} Y_{1i}}{(Y_{0i} + Y_{1i})^2} \]

Score statistic $X_{SC}^2 = U(0)^2 / I(0)$ — Klein § 7.3 의 2-sample log-rank test 와 동일.

→ Cox PH 모형의 Score test (at $\beta = 0$) = Log-rank test.

직관 — 왜 두 검정이 같은가

Log-rank test (Ch.7 § 7.3):

“$Z = 0$ 군과 $Z = 1$ 군의 hazard 가 같다” 검정.
비모수 — 분포 가정 없음.

Score test at $\beta = 0$:

“$\beta = 0$ vs $\beta \neq 0$” 검정.
$\beta = 0$ 이면 두 군의 hazard 가 같음 (Cox 모형).
모수 (Cox PH) — PH 가정 하.

왜 같은 통계량:

PH 가정 하 → Cox 모형이 진짜 모형.
Score test 가 $\beta = 0$ 에서 가장 효율적 (locally most powerful).
그 점근 분포가 log-rank 과 일치.

Cox-LogRank 의 자연 연결:

Ch.7 의 log-rank → Ch.8 의 Cox 의 특수 경우 (Score at $\beta=0$).
Cox 가 일반화 — 여러 covariate, continuous covariate, interaction 처리.
그러나 PH 위반 시 두 검정 모두 유효성 잃음 — Renyi (Ch.7 § 7.6) 또는 stratified Cox (Ch.9) 필요.

3 § 8.3 — Klein Example 8.1 손풀이

3.1 데이터 설정

Klein Example 8.1 — Breast Cancer Immunoperoxidase

데이터 (Klein § 1.5):

45 명 림프절 음성 유방암 환자.
SLM (standard light microscopy) 음성, IH (immunohistochemical) 검사 추가.
$Z = 1$ if IH+ (immunoperoxidase positive), $0$ otherwise.
사건: 사망. 시점 $t_j$, 검열 $\delta_j$.

모형:

\[ h(t \mid Z) = h_0(t) \exp(\beta Z) \]

식 단순화:

\[ \ell(\beta) = \beta d_1 - \sum_{i=1}^D \ln[Y_{0i} + Y_{1i} e^{\beta}] \]

\[ U(\beta) = d_1 - \sum_{i=1}^D \frac{Y_{1i} e^{\beta}}{Y_{0i} + Y_{1i} e^{\beta}} \]

\[ I(\beta) = \sum_{i=1}^D \frac{Y_{0i} Y_{1i} e^{\beta}}{(Y_{0i} + Y_{1i} e^{\beta})^2} \]

관측값: $d_1 = $ IH+ 사망자 수, $Y_{0i}, Y_{1i}$ = 시점 $t_i$ 의 IH-/IH+ risk set 크기.

3.2 Score Test at β=0 = Log-Rank Test

Klein Example 8.1 의 Score Test

$\beta = 0$ 에서:

\[ U(0) = d_1 - \sum_i \frac{Y_{1i}}{Y_{0i} + Y_{1i}}, \quad I(0) = \sum_i \frac{Y_{0i} Y_{1i}}{(Y_{0i} + Y_{1i})^2} \]

계산값: $U(0) = 4.19$, $I(0) = 3.19$.

Score statistic:

\[ X_{SC}^2 = \frac{U(0)^2}{I(0)} = \frac{4.19^2}{3.19} = 5.49 \quad (p = 0.019) \]

→ 이는 Klein § 7.3 의 log-rank test 와 정확히 일치 (Theoretical Note 3).

→ Score test 가 $\beta = 0$ 에서 log-rank 의 모형 기반 등가.

3.3 Newton-Raphson — 3 Iterations

Klein Example 8.1 — Newton-Raphson 수렴

초기값: $b_0 = 0$, $\ell(0) = -83.7438$.

$m$	$b_{m-1}$	$\ell(b_{m-1})$	$U(b_{m-1})$	$I(b_{m-1})$	$b_m = b_{m-1} + U/I$	$\ell(b_m)$	상대변화
1	0	-83.7438	4.1873	3.1912	1.3121	-81.8205	0.0230
2	1.3121	-81.8205	-1.8382	5.7494	0.9924	-81.5210	0.0037
3	0.9924	-81.5210	-0.0646	5.3084	0.9802	-81.5206	< 0.0001

수렴: 3 iteration 만에 수렴 ($\ell$ 변화 < 0.0001).

MLE: $b = 0.9802$.

직관 — Newton-Raphson 의 흐름

Iteration 1 ($b_0 = 0 \to b_1 = 1.3121$):

$U(0) = 4.19 > 0$ → $\beta$ 증가 방향.
한 번에 1.31 증가 (overshoot 가능).

Iteration 2 ($b_1 = 1.3121 \to b_2 = 0.9924$):

$U(1.3121) = -1.84 < 0$ → 증가 방향 너무 갔음, 감소 방향.
$b$ 0.32 감소 (correction).

Iteration 3 ($b_2 = 0.9924 \to b_3 = 0.9802$):

$U(0.9924) = -0.06$ (거의 0) → 거의 수렴.
$b$ 0.012 미세 조정.

수렴 판정: 두 가지 지표.

Likelihood 변화: $|\ell(b_m) - \ell(b_{m-1})| / |\ell(b_{m-1})| < 10^{-4}$.
모수 변화: $|b_m - b_{m-1}| < 10^{-4}$ — Practical Note 2 의 권장.

→ Iteration 3 에서 두 지표 모두 만족.

완전 분리 (perfect separation) 함정:

Covariate 가 사건 시점과 완벽히 정렬되면 $\beta \to \pm \infty$.
Likelihood 가 수렴해도 $b$ 가 발산 — 모수 변화 점검 필수.

3.4 검정 결과

Klein Example 8.1 — 세 검정 비교

MLE: $b = 0.9802$.

SE: $\text{SE}(b) = 1 / \sqrt{I(b)} = 1 / \sqrt{5.2871} = 0.4349$.

Wald test:

\[ X_W^2 = (0.9802)^2 / (0.4349)^2 = 5.08 \quad (p = 0.024) \]

LR test:

\[ X_{LR}^2 = 2[\ell(0.9802) - \ell(0)] = 2[-81.52 - (-83.74)] = 4.44 \quad (p = 0.035) \]

Score test (위 계산):

\[ X_{SC}^2 = 5.49 \quad (p = 0.019) \]

→ 세 검정 모두 $H_0: \beta = 0$ 기각 (p < 0.05).

→ 결론: IH 검사 결과가 사망 위험과 유의한 연관.

3.5 Hazard Ratio 와 95% CI

Klein Example 8.1 — RR 와 임상 해석

Relative Risk:

\[ \text{RR} = e^b = e^{0.9802} = 2.67 \]

→ IH+ 환자가 IH- 환자보다 2.67 배 빠른 사망.

95% CI for $\beta$:

\[ 0.9802 \pm 1.96 \times 0.4349 = (0.128, 1.833) \]

95% CI for RR (transform):

\[ \exp(0.128, 1.833) = (1.14, 6.25) \]

임상 해석: IH+ 환자의 사망 위험은 IH- 보다 1.14 배에서 6.25 배 사이 (95% 신뢰).

임상 의미:

SLM 음성 환자 중에서도 IH 검사로 더 위험한 환자 식별 가능.
IH 검사 양성 환자에게 추가적인 보조 치료 고려.
그러나 CI 가 넓음 (n = 45 표본 작음) — 더 큰 연구 필요.

4 § 8.4 — Partial Likelihoods When Ties Are Present

4.1 문제 — 동시 사망의 처리

정의: Tied Event Times

관측 데이터: $t_1 < t_2 < \cdots < t_D$ 의 distinct 사건 시점, 그러나 각 시점에 $d_i \geq 1$ 명 사망.

$D_i$ = 시점 $t_i$ 에 사망하는 모든 개체 집합, $|D_i| = d_i$.
$s_i = \sum_{j \in D_i} Z_j$ = 사건자들의 $Z$ 합 (vector).
$R_i = R(t_i)$ = 시점 $t_i$ 직전의 risk set.

문제: $d_i \geq 2$ 일 때, “누가 먼저 죽었는지” 모름.

진짜 연속 시간 모형 → 동시 사망 확률 0.
그러나 데이터는 이산화 (월, 일 단위).
동시 사망을 어떻게 처리할 것인가?

직관 — 왜 ties 가 문제인가

Distinct events 가정 (§ 8.3) 위반:

식 8.3.1 의 likelihood 는 한 사건자 $Z_{(i)}$ 가정.
$d_i \geq 2$ 명 사망 시 한 명만 분자로 못 씀.

가능한 처리:

모든 $d_i!$ 개의 가능한 순서 평균 — 정확하지만 계산 비쌈.
동시 사망을 “독립” 처리 — Breslow 의 단순 근사.
이산 시간 logistic 모형 — Cox (1972) 의 정확 처리.
Breslow 와 Discrete 의 중간 — Efron 의 가중 평균.

→ Klein § 8.4 에서 세 가지 (Breslow, Efron, Discrete) 제시.

4.2 Breslow Likelihood — 식 8.4.1

정의: Breslow Likelihood (Breslow 1974, 식 8.4.1)

\[ L_1(\beta) = \prod_{i=1}^D \frac{\exp(\beta' s_i)}{\left[\sum_{j \in R_i} \exp(\beta' Z_j)\right]^{d_i}} \]

분자: 사건자 $Z$ 합의 effect.
분모: risk set sum 을 $d_i$ 거듭제곱.

SAS PHREG 기본 method.

직관 — Breslow 의 단순 근사

해석: 동시 사망 $d_i$ 명을 “동일 risk set 에서 독립적으로 추출”로 처리.

분모는 그대로 $\sum_{R_i} \exp(\beta' Z)$.
첫 번째 사망자 추출 → risk set 변화 없음.
두 번째 사망자도 같은 risk set 에서 추출 → 독립.
$d_i$ 번 반복 → 분모 $d_i$ 거듭제곱.

문제: 첫 사망 후 risk set 이 줄어들어야 함 (사망자 1 명 빠짐).

Breslow 는 이를 무시 → 분모 과대.
$\beta$ 추정값 0 방향 편향 (0 으로 끌림).

Ties 적을 때 OK:

$d_i \ll |R_i|$ 면 risk set 1 명 줄어도 분모 거의 그대로.
편향 작음.

Ties 많을 때 위험:

$d_i / |R_i|$ 클수록 편향 커짐.
Efron 또는 Discrete 권장.

유래: Theoretical Note 2 의 profile likelihood 에서 자연 도출 — Breslow 의 baseline estimator 의 동시 사망 처리.

4.3 Efron Likelihood — 식 8.4.2

정의: Efron Likelihood (Efron 1977, 식 8.4.2)

\[ L_2(\beta) = \prod_{i=1}^D \frac{\exp(\beta' s_i)}{\prod_{j=1}^{d_i} \left[\sum_{k \in R_i} \exp(\beta' Z_k) - \frac{j-1}{d_i} \sum_{k \in D_i} \exp(\beta' Z_k)\right]} \]

분모는 $d_i$ 개 항의 곱.
$j$ 번째 항: risk set sum 에서 동시 사망자 effect 의 $(j-1)/d_i$ 비례 차감.

R coxph 기본 method.

직관 — Efron 의 가중 차감

아이디어: 동시 사망을 순차적으로 처리하되, 정확한 순서를 모르므로 평균.

$d_i$ 명이 동시에 사망 → 누가 먼저 죽는지는 무작위.
$j$ 번째 사망 시점에서는 $d_i$ 명 중 평균 $(j-1)$ 명이 이미 죽었음.
이미 죽은 비율 = $(j-1)/d_i$.
분모에서 그 비율만큼 동시 사망자 effect 차감.

예 ($d_i = 3$, 3 명 동시 사망):

$j = 1$: 분모 = $\sum_{R_i} \exp - 0 = \sum_{R_i} \exp$ (모두 살아 있음).
$j = 2$: 분모 = $\sum_{R_i} \exp - (1/3) \sum_{D_i} \exp$ (평균 1 명 죽음).
$j = 3$: 분모 = $\sum_{R_i} \exp - (2/3) \sum_{D_i} \exp$ (평균 2 명 죽음).
곱셈으로 결합.

Breslow vs Efron:

Breslow 분모 = $[\sum_{R_i} \exp]^3$ (모든 항 동일).
Efron 분모 = 위의 가중 곱.
Efron 이 분모 작음 → $\beta$ 추정값 더 정확 (덜 편향).

계산: Breslow 와 비슷한 비용, Discrete 보다 훨씬 빠름.

R 기본: 작은 표본·중간 ties 에서 가장 합리적 trade-off.

4.4 Discrete Likelihood — 식 8.4.3

정의: Discrete Likelihood (Cox 1972, 식 8.4.3)

기반: 이산 시간 logistic hazard 모형.

\[ \frac{h(t \mid Z)}{1 - h(t \mid Z)} = \frac{h_0(t)}{1 - h_0(t)} \exp(\beta' Z) \]

Likelihood:

\[ L_3(\beta) = \prod_{i=1}^D \frac{\exp(\beta' s_i)}{\sum_{q \in Q_i} \exp(\beta' s_q^*)} \]

$Q_i$ = $R_i$ 에서 $d_i$ 명을 뽑는 모든 부분집합.
$q = (q_1, \ldots, q_{d_i})$ ∈ $Q_i$, $s_q^* = \sum_{j=1}^{d_i} Z_{q_j}$.

계산 비용: $\binom{|R_i|}{d_i}$ 부분집합 — exponential 증가.

직관 — Discrete 의 정확 처리

아이디어: “Risk set $R_i$ 에서 정확히 $d_i$ 명이 죽었다” 의 모든 가능성 고려.

“철수, 영희, 민수” 가 죽을 수도 있고 “철수, 영희, 정수” 가 죽을 수도 있음.
모든 $\binom{|R_i|}{d_i}$ 가능성의 effect 합 — 분모.
실제 사망자 조합의 effect — 분자.

예 (Klein Example 8.4): $|R_i| = 119$, $d_i = 6$:

부분집합 수 = $\binom{119}{6} = 3,096,955,000$ ≈ 31 억.
그러나 모든 사망자가 $Z = 1$ 동일 → 합산 가능.

계산 trick: 동시 사망자가 같은 covariate value 가지면 부분집합 수 줄어듦.

언제 사용:

진짜 이산 시간 데이터 (예: 매일 검사, 이산 점수).
Tied 가 많고 정확한 답이 필요할 때.
계산 자원 충분할 때.

SAS: TIES = DISCRETE 옵션, TIES = EXACT (Kalbfleisch-Prentice 일반화 rank statistic).

R: method = "exact" — 작은 데이터만 가능.

무 ties 시: 세 likelihood 모두 식 8.3.1 로 환원 — 동일한 결과.

5 § 8.4 — Klein Example 8.4 손풀이

5.1 데이터 설정

Klein Example 8.4 — Renal Insufficiency Dialysis

데이터 (Klein § 1.4):

119 명 신부전 환자.
첫 exit-site 감염까지의 시간 (개월).
43 명: 외과적 카테터 ($Z = 0$, surgical).
76 명: 경피적 카테터 ($Z = 1$, percutaneous).
카테터 실패 시 검열.

관심: 시점 $t = 0.5$ 에 6 명 동시 사망 (모두 $Z = 1$).

$d_i = 6$, $D_i$ = 6 명 percutaneous.
$|R_i| = 119$ (시점 0.5 직전 모두 risk).
$|R_i \cap \{Z=0\}| = 43$, $|R_i \cap \{Z=1\}| = 76$.
$s_i = 6 \times 1 = 6$ (모두 $Z = 1$).

5.2 세 Likelihood 의 contribution at t=0.5

Klein Example 8.4 — 세 Likelihood 의 직접 비교

Breslow (식 8.4.1):

\[ \frac{\exp(6\beta)}{[43 + 76 e^{\beta}]^6} \]

Efron (식 8.4.2):

\[ \frac{\exp(6\beta)}{\prod_{j=1}^{6} \left[76 e^{\beta} + 43 - \frac{j-1}{6}(6 e^{\beta})\right]} \]

분모 항을 풀면:

$j=1$: $76 e^\beta + 43$
$j=2$: $76 e^\beta + 43 - e^\beta = 75 e^\beta + 43$
$j=3$: $76 e^\beta + 43 - 2 e^\beta = 74 e^\beta + 43$
$j=4$: $73 e^\beta + 43$
$j=5$: $72 e^\beta + 43$
$j=6$: $71 e^\beta + 43$

Discrete (식 8.4.3):

\[ \frac{\exp(6\beta)}{\binom{43}{6} + \binom{43}{5}\binom{76}{1} e^\beta + \binom{43}{4}\binom{76}{2} e^{2\beta} + \binom{43}{3}\binom{76}{3} e^{3\beta} + \binom{43}{2}\binom{76}{4} e^{4\beta} + \binom{43}{1}\binom{76}{5} e^{5\beta} + \binom{76}{6} e^{6\beta}} \]

→ $Z=0$ 에서 $k$ 명, $Z=1$ 에서 $6-k$ 명 뽑는 모든 가능성.

다른 사건 시점에서도 같은 형태로 likelihood 항 누적.

5.3 추정 결과 비교

Klein Example 8.4 — 세 Method 결과

항목	Breslow	Efron	Discrete
초기 $\ell$	-104.4533	-104.2319	-94.1869
최종 $\ell$	-103.2285	-103.0278	-92.9401
$b$	-0.6180	-0.6126	-0.6204
SE($b$)	0.3981	0.3979	0.4019
$e^b$ (RR)	0.539	0.542	0.553
Score $\chi^2$	2.49 (p=0.115)	2.44 (p=0.117)	2.53 (p=0.112)
Wald $\chi^2$	2.41 (p=0.121)	2.37 (p=0.124)	2.45 (p=0.117)
LR $\chi^2$	2.45 (p=0.118)	2.41 (p=0.121)	2.49 (p=0.114)

핵심 관찰:

세 method 모두 $b \approx -0.62$, RR ≈ 0.54.
Percutaneous ($Z=1$) 가 surgical ($Z=0$) 의 약 절반 위험.
그러나 모든 검정 p > 0.05 → 비유의.

Breslow vs Efron 차이: $b$ 차이 0.005 (작음). Ties 한 곳 (6 명) 만 — 데이터 대부분이 distinct.

Discrete 의 likelihood 절댓값 차이: 다른 normalization 으로 직접 비교 불가. 그러나 추정값 (b, SE, p) 거의 동일.

5.4 PH 가정 위반 진단

Klein Example 8.4 — Figure 8.1 의 위반

Graphical check (Klein § 8.4 끝부분):

PH 가정 하 $H(t \mid Z=1) = e^\beta H(t \mid Z=0)$.
$\therefore \ln \widetilde{H}(t \mid Z=1) - \ln \widetilde{H}(t \mid Z=0) \approx \beta$ — 시간에 대해 상수.
Nelson-Aalen 추정량 $\widetilde{H}$ 사용.

Klein Figure 8.1: 두 차이가 시간에 따라 2 → -2 발산 (시간 0~25 개월).

→ PH 가정 강력히 위반.

의미:

$h(t|Z=1)/h(t|Z=0)$ 가 시간에 따라 변동.
평균적 RR=0.54 결과는 의미 없음 (시간 평균에 가려짐).
더 중요한 시간-구체적 효과 놓칠 수 있음.

대안:

Ch.9 — Time-varying coefficient.
Ch.9 § 9.4 — Stratified Cox 의 변형.
Ch.11 — Schoenfeld residuals 으로 위반 진단 + 해결.

직관 — PH 진단의 첫 걸음

Cox 분석 권장 절차:

EDA — KM 곡선 그리기 (Ch.5).
PH 진단 — log-log plot 또는 $\ln \widetilde{H}$ 차이 (위 식).
PH OK → Cox PH 모형 (§ 8.3~8.4 의 partial likelihood).
PH 위반 → time-varying coefficient (Ch.9) 또는 stratified Cox.

Klein Example 8.4 의 교훈:

Cox 결과 (b, RR, p-value) 만 보고 결론 내리지 말 것.
PH 가정 검증은 선택이 아니라 필수.
위반 시 결과 신뢰성 즉시 깨짐.

진단 도구 (Ch.11 미리보기):

Schoenfeld residuals — 시간에 따른 변동 시각화.
Cox-Snell residuals — 모형 적합도.
Martingale residuals — functional form 확인.

6 § 8.4 — Klein Example 8.2 (continued)

Klein Example 8.2 — Larynx 4 Stage (Breslow Ties)

데이터 (Klein § 1.8): 90 명 후두암 환자, 4-stage.

모형 (식 8.2.3): 3 dummy variables (Stage I = referent).

$Z_1 = 1$ if Stage II.
$Z_2 = 1$ if Stage III.
$Z_3 = 1$ if Stage IV.

MLE (Breslow ties):

항목	$b$	SE	RR
Stage II vs I ($\beta_1$)	0.0658	0.4584	1.07
Stage III vs I ($\beta_2$)	0.612	0.3552	1.84
Stage IV vs I ($\beta_3$)	1.723	0.4197	5.60

Global tests ($H_0: \beta_1 = \beta_2 = \beta_3 = 0$, df=3):

$X_{LR}^2 = 16.26$ (p = 0.001).
$X_W^2 = 18.95$ (p = 0.0003).
$X_{SC}^2 = 22.46$ (p = 0.0001).

→ 세 검정 모두 강력 기각 — 적어도 한 stage 효과 유의.

임상 해석:

Stage II 와 I 차이 거의 없음 (RR=1.07).
Stage IV 가 Stage I 의 5.6 배 위험 — 임상적으로 매우 중대.
Stage III 가 중간 (RR=1.84).

다음 단계 (§ 8.5 Local Tests): Stage II 가 정말 Stage I 과 같은지 (subset hypothesis), Stage III vs IV 차이는 어떤지 등 local test.

7 § 8.4 — Klein Example 8.3 (continued)

Klein Example 8.3 — Kidney Transplant 4-Group (Breslow Ties)

데이터 (Klein § 1.7): 863 명 신장 이식 환자.

432 white male, 92 black male, 280 white female, 59 black female.
4-group 분석 (white female = reference).

Coding:

$Z_1 = 1$ if black male.
$Z_2 = 1$ if white male.
$Z_3 = 1$ if black female.

MLE (Breslow ties):

항목	$b$	RR
Black male vs WF ($\beta_1$)	0.160	1.17
White male vs WF ($\beta_2$)	0.248	1.28
Black female vs WF ($\beta_3$)	0.65	1.93

Global tests (df=3):

$X_{LR}^2 = 4.37$ (p = 0.22).
$X_W^2 = 4.64$ (p = 0.20).
$X_{SC}^2 = 4.74$ (p = 0.19).

→ 세 검정 모두 비유의 ($p > 0.15$).