1 도입 — 같은 가설을 보는 세 가지 시선
귀무가설 \(H_0: \theta = \theta_0\) 을 검정할 때 가능도 이론은 세 가지 통계량을 제공한다 — Likelihood Ratio (LR), Wald, Rao Score. 셋 다 \(H_0\) 하에서 점근적으로 \(\chi^2_p\) 분포를 따라 같은 결정을 주지만, 각자 다른 양을 측정 한다.
우도 함수 \(\ell(\theta) = \log L(\theta)\) 의 그래프를 떠올린다. 최대값 \(\hat{\theta}\) 와 가설값 \(\theta_0\) 가 표시되어 있다.
1. Likelihood Ratio (LR): “MLE 의 우도와 가설값의 우도 차이를 본다.” 우도 곡선의 세로 방향 거리. \(\chi^2_{LR} = -2[\ell(\theta_0) - \ell(\hat{\theta})]\). 두 점의 높이 차이.
2. Wald: “MLE 가 가설값에서 얼마나 멀리 떨어졌나.” 우도 곡선의 가로 방향 거리. \(\chi^2_W = (\hat{\theta} - \theta_0)^t I(\hat{\theta}) (\hat{\theta} - \theta_0)\). 정보 행렬로 정규화한 거리.
3. Score (Rao): “가설값에서 우도의 기울기가 0 에서 얼마나 벗어났나.” 우도 곡선의 기울기. \(\chi^2_S = U(\theta_0)^t I^{-1}(\theta_0) U(\theta_0)\). 가설값의 score 노름.
세 양은 우도 곡선의 다른 측면을 본다:
ℓ(θ)
│ ● ← ℓ(θ̂) (MLE)
│ ╱
│ ╱
│ ╱ ← LR = 2(높이 차이)
│╱ /
│ /
● ● ← ℓ(θ₀) (귀무가설 점)
│ ↑
│ 기울기 = U(θ₀) ← Score
│
└────●─────●──→ θ
θ₀ θ̂
↑
Wald = (θ̂ - θ₀) × 곡률
우도가 정확히 quadratic 이면 셋이 같은 값. 비대칭 또는 곡률 변화가 있으면 다른 값. 작은 표본에서 차이가 클 수 있고, 큰 표본에서 점근적으로 일치.
본 포스트는 식 B.1-B.6 (단순 가설) 과 식 B.10-B.14 (복합 가설) 을 직관과 함께 풀이하고, Klein 의 두 지수 분포 예제로 수치 결과를 확인한다.
2 표기 — Score, Fisher Information, Observed Information
2.1 Efficient Score Vector — 식 (B.1)
데이터 \(\mathbf{Y}\) 와 모수 \(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_p)\). 로그 우도 \(\ell(\boldsymbol{\theta}; \mathbf{Y}) = \log L(\boldsymbol{\theta}; \mathbf{Y})\).
Efficient score (또는 score function):
\[ U_j(\boldsymbol{\theta}) = \frac{\partial \ell(\boldsymbol{\theta}; \mathbf{Y})}{\partial \theta_j} , \quad j = 1, \ldots, p . \tag{식 B.1} \]
벡터 형태: \(\mathbf{U}(\boldsymbol{\theta}) = (U_1, \ldots, U_p)^t\).
Score \(\mathbf{U}(\boldsymbol{\theta})\) 는 우도 함수의 기울기. \(\theta_j\) 를 약간 늘리면 로그 우도가 얼마나 변하는지를 알려준다.
핵심 성질 (정칙 조건 하):
\[ E_{\boldsymbol{\theta}}[\mathbf{U}(\boldsymbol{\theta})] = \mathbf{0} . \]
즉 진짜 모수 값 \(\boldsymbol{\theta}\) 에서 score 의 기댓값은 0. 이게 MLE 의 출발점 — score 영점이 진짜 모수의 자연스러운 추정량.
MLE 의 정의: \(\mathbf{U}(\hat{\boldsymbol{\theta}}) = \mathbf{0}\) 의 해 (정칙 조건 하). \(\hat{\boldsymbol{\theta}}\) 는 식 B.1 영점 찾기 — 정확히 부록 A 의 수치 최적화 문제.
2.2 Fisher Information Matrix — 식 (B.2)
\[ \mathbf{i}(\boldsymbol{\theta}) = E_{\boldsymbol{\theta}}\!\left[\mathbf{U}(\boldsymbol{\theta}) \mathbf{U}(\boldsymbol{\theta})^t\right] = -E_{\boldsymbol{\theta}}\!\left[\frac{\partial \mathbf{U}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right] = \left\{-E_{\boldsymbol{\theta}}\!\left[\frac{\partial^2 \ell}{\partial \theta_j \partial \theta_k}\right]\right\}_{j,k} . \tag{식 B.2} \]
식 (B.2) 에 두 가지 동치 표현이 있다:
Outer-product 형식: \(E[\mathbf{U} \mathbf{U}^t]\) — score 의 분산.
Hessian 형식: \(-E[\partial^2 \ell / \partial \boldsymbol{\theta}^2]\) — 로그 우도의 음의 곡률 기댓값.
두 표현이 같음은 information identity (regularity 조건 하). 이 정체성은 score 가 평균 0 인 데서 출발 + 미분 가능 조건으로 나옴.
왜 “정보” 인가: \(\mathbf{i}(\boldsymbol{\theta})\) 가 클수록 \(\hat{\boldsymbol{\theta}}\) 가 정확하게 추정 가능 — Cramér-Rao 부등식 \(\text{Var}(\hat{\boldsymbol{\theta}}) \geq \mathbf{i}^{-1}(\boldsymbol{\theta})\). 정보 행렬이 표본의 “정보량” 을 정량화.
2.3 Observed Information — 식 (B.3)
기댓값 계산이 어려우므로 (분포에 대한 적분 필요) 실용적으로는 관측 정보 행렬 사용:
\[ I_{j,k}(\boldsymbol{\theta}) = -\frac{\partial^2 \ell(\boldsymbol{\theta}; \mathbf{Y})}{\partial \theta_j \partial \theta_k} , \quad j, k = 1, \ldots, p . \tag{식 B.3} \]
기댓값 없이 Hessian 의 음수만. 표본 의존이지만 \(n \to \infty\) 에서 \(\mathbf{i}(\boldsymbol{\theta})\) 의 일치 추정량.
Fisher (expected): 분포 가정이 정확한 경우 분석적 결과 좋음. 그러나 기댓값 계산이 거의 항상 어려움.
Observed: 표본만으로 계산 가능. 점근적으로 같은 결과. 실무 표준.
특히 검열 데이터 (생존 분석) 에서는 Fisher information 의 기댓값이 검열 분포에 의존해 매우 복잡 — observed information 이 거의 항상 사용된다.
3 단순 가설 — \(H_0: \boldsymbol{\theta} = \boldsymbol{\theta}_0\)
3.1 Likelihood Ratio Test — 식 (B.4)
\[ \chi^2_{LR} = -2[\ell(\boldsymbol{\theta}_0; \mathbf{Y}) - \ell(\hat{\boldsymbol{\theta}}; \mathbf{Y})] . \tag{식 B.4} \]
\(\ell(\hat{\boldsymbol{\theta}})\) 는 데이터에 가장 잘 맞는 모형의 로그 우도 (최대값). \(\ell(\boldsymbol{\theta}_0)\) 는 가설이 옳다는 가정 하의 로그 우도.
차이 \(\ell(\hat{\boldsymbol{\theta}}) - \ell(\boldsymbol{\theta}_0) \geq 0\) 가 항상 음이 아님 (MLE 가 가장 큰 우도를 줌).
이 차이가 클수록 가설이 의심스럽다. \(-2 \times\) 차이가 자연스럽게 \(\chi^2\) 분포로 수렴 (Wilks 정리).
해석: “데이터를 (가설 모형 vs 일반 모형) 으로 설명할 때 우도가 얼마나 다른가?”
3.2 Wald Test — 식 (B.5)
\[ \chi^2_W = (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) . \tag{식 B.5} \]
\((\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) 는 MLE 가 가설값에서 얼마나 떨어졌나의 벡터 거리.
이 거리를 그냥 쓰면 모수의 척도에 의존. \(\mathbf{I}(\hat{\boldsymbol{\theta}})\) 로 정규화하면 표준편차 단위의 거리 가 된다 (정보 = 분산의 역수).
$^2_W = $ “MLE 와 가설값 사이의 정규화된 거리 제곱”. 큰 값 → 가설 기각.
스칼라 \(p = 1\) 의 경우: \(\chi^2_W = (\hat{\theta} - \theta_0)^2 / \widehat{\text{Var}}(\hat{\theta}) = z^2\), 일반 \(z\)-test 와 동치.
3.3 Score Test (Rao) — 식 (B.6)
\[ \chi^2_S = \mathbf{U}(\boldsymbol{\theta}_0)^t \mathbf{I}^{-1}(\boldsymbol{\theta}_0) \mathbf{U}(\boldsymbol{\theta}_0) . \tag{식 B.6} \]
\(\mathbf{U}(\boldsymbol{\theta}_0)\) 는 “가설값에서의 우도 기울기”. 가설이 옳으면 score 가 0 근처여야 함 (MLE 정의에 의해 \(\mathbf{U}(\hat{\boldsymbol{\theta}}) = \mathbf{0}\)).
\(\mathbf{U}(\boldsymbol{\theta}_0)\) 가 0 에서 멀면 → 가설값이 데이터의 우도 최대점에서 떨어져 있다는 신호 → 가설 기각.
\(\mathbf{I}^{-1}(\boldsymbol{\theta}_0)\) 로 정규화 — score 의 분산이 정보 행렬이라 정규화에 그 역수 사용 (\(\mathbf{U} \sim N(\mathbf{0}, \mathbf{I})\) 가설 하).
실무 큰 장점: MLE \(\hat{\boldsymbol{\theta}}\) 를 계산할 필요가 없다. 가설값 \(\boldsymbol{\theta}_0\) 만 있으면 OK. EM 같은 무거운 최적화를 피할 수 있어 매력적.
이 점이 § 13.2 Commenges-Andersen score test 의 매력 — frailty 모형 적합 없이 검정 가능했던 이유.
3.4 점근 동등성 — Wilks 정리
\(H_0\) 가 옳을 때:
\[ \chi^2_{LR}, \chi^2_W, \chi^2_S \xrightarrow{d} \chi^2_p \quad (n \to \infty) . \]
$p = $ 검정되는 모수 차원.
증명 스케치 (Wilks 정리):
- \(\hat{\boldsymbol{\theta}}\) 의 점근 분포: \(\sqrt{n}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \xrightarrow{d} N(\mathbf{0}, \mathbf{i}^{-1}(\boldsymbol{\theta}_0))\) (MLE 점근 정규성).
- Taylor 전개로 \(\ell(\hat{\boldsymbol{\theta}}) - \ell(\boldsymbol{\theta}_0) \approx \frac{1}{2} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\boldsymbol{\theta}_0) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) → \(\chi^2_{LR} \approx \chi^2_W\).
- Score 의 점근: \(\mathbf{U}(\boldsymbol{\theta}_0) \xrightarrow{d} N(\mathbf{0}, \mathbf{i}(\boldsymbol{\theta}_0))\) → \(\chi^2_S \xrightarrow{d} \chi^2_p\).
- Taylor 전개로 \(\mathbf{U}(\boldsymbol{\theta}_0) \approx -\mathbf{I}(\boldsymbol{\theta}_0)(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) → 점근적으로 \(\chi^2_W = \chi^2_S\).
결론: 큰 표본에서 셋 다 같은 결정. 작은 표본에서는 다를 수 있고, 어느 것이 더 정확한지는 우도 함수의 모양에 의존.
3.5 작은 표본에서의 차이
우도 함수가 정확히 quadratic 이면 세 통계량이 정확히 같다. 비대칭이거나 곡률이 모수에 따라 변하면 다르다.
| 통계량 | 강점 | 약점 |
|---|---|---|
| LR | 변환 불변 (parametrization-invariant) | \(\hat{\boldsymbol{\theta}}\) + \(\boldsymbol{\theta}_0\) 두 우도 모두 평가 |
| Wald | \(\hat{\boldsymbol{\theta}}\) 만 사용 (계산 간단) | 변환 불변 X (모수화 의존) |
| Score | \(\hat{\boldsymbol{\theta}}\) 불필요 (가설값만) | 신뢰구간 구성 어려움 |
LR 의 변환 불변성: \(\theta\) 대신 \(\eta = g(\theta)\) 로 다시 모수화해도 같은 통계량 값 — 자연스러운 성질. Wald 는 그렇지 않음 (예: \(\theta = 0.5\) vs \(\eta = \ln(\theta/(1-\theta)) = 0\) 이 같은 모형이지만 Wald 통계량은 다름).
일반적 권고: LR 가 작은 표본에서 가장 신뢰할 만함. Wald 는 계산 편의 (signed sqrt 가 z-test) 로 자주 쓰임. Score 는 nuisance 모수가 있는 경우 매력 (다음 절).
3.6 Example B.1 — 지수 분포 단순 가설
3.6.1 셋업
지수 분포 \(f(t) = \lambda e^{-\lambda t}\) 의 검열 표본 \((T_i, \delta_i)\), \(i = 1, \ldots, n\). 검정 \(H_0: \lambda = 1\).
핵심 양:
- \(D = \sum \delta_i\): 사건 수
- \(S = \sum T_i\): total time on test (Ch.3.5)
우도 (검열 데이터):
\[ L(\lambda) = \prod_i \lambda^{\delta_i} e^{-\lambda T_i} = \lambda^D e^{-\lambda S} . \]
\[ \ell(\lambda) = D \ln \lambda - \lambda S . \tag{식 B.7} \]
\[ U(\lambda) = \frac{D}{\lambda} - S . \tag{식 B.8} \]
\[ I(\lambda) = -\frac{d^2 \ell}{d\lambda^2} = \frac{D}{\lambda^2} . \tag{식 B.9} \]
MLE: \(U(\hat{\lambda}) = 0 \Rightarrow \hat{\lambda} = D/S\).
3.6.2 세 통계량 계산
Score (식 B.6): 가설값 \(\lambda_0 = 1\):
\[ \chi^2_S = U(1)^2 \cdot I^{-1}(1) = (D - S)^2 \cdot \frac{1^2}{D} = \frac{(D - S)^2}{D} . \]
Wald (식 B.5): MLE \(\hat{\lambda} = D/S\):
\[ \chi^2_W = (\hat{\lambda} - 1)^2 \cdot I(\hat{\lambda}) = (D/S - 1)^2 \cdot \frac{D}{(D/S)^2} = \frac{(D - S)^2}{D} . \]
LR (식 B.4):
\[ \chi^2_{LR} = -2\{\ell(1) - \ell(\hat{\lambda})\} = -2\{(D \ln 1 - S) - (D \ln(D/S) - D)\} = 2[S - D + D \ln(D/S)] . \]
이 단순 사례에서:
- \(\chi^2_W = \chi^2_S = (D-S)^2 / D\) — 정확히 같다.
- \(\chi^2_{LR} = 2[S - D + D \ln(D/S)]\) — 다른 형태이지만 점근적으로 같은 분포.
세 통계량 모두 \(\chi^2_1\) 점근.
왜 W = S 가 나왔는가: 지수 분포는 single parameter, 우도가 거의 quadratic 형태 → 점근 동등성이 정확하게 성립. 대부분의 분포는 W ≠ S.
수치 예: \(D = 10, S = 12\) → \(\chi^2_W = \chi^2_S = (10-12)^2/10 = 0.4\). \(\chi^2_{LR} = 2[12 - 10 + 10 \ln(10/12)] = 2[2 + 10 \times (-0.182)] = 2[2 - 1.82] = 0.36\). 비슷하지만 약간 다름. \(\chi^2_1\) 임계값 3.84 와 비교 → 비유의.
4 복합 가설 — Nuisance 모수 처리
4.1 셋업
모수 \(\boldsymbol{\theta} = (\boldsymbol{\psi}, \boldsymbol{\phi})\), 여기서:
- \(\boldsymbol{\psi} \in \mathbb{R}^{p_1}\): 검정 대상 모수
- \(\boldsymbol{\phi} \in \mathbb{R}^{p_2}\): nuisance 모수 (검정 대상 아니지만 모형에 필요)
가설: \(H_0: \boldsymbol{\psi} = \boldsymbol{\psi}_0\), \(\boldsymbol{\phi}\) 는 자유.
전형적 사례:
- Cox 회귀: 처치 효과 (\(\beta_1\)) 가 0 인지 검정. 다른 보정 변수 (\(\beta_2, \ldots, \beta_p\)) 는 nuisance.
- 두 그룹 비교: 효과 차이 (\(\beta = 0\)) 검정. 베이스라인 위험 (\(\lambda\)) 은 nuisance.
- Frailty test: \(\theta = 0\) 검정. 회귀 계수 \(\boldsymbol{\beta}\) 는 nuisance.
각 검정마다 nuisance 처리 방식이 다르다:
- LR: \(H_0\) 하 profile MLE \(\hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)\) + 일반 MLE \(\hat{\boldsymbol{\theta}}\) — 두 우도 비교.
- Wald: 일반 MLE \(\hat{\boldsymbol{\theta}}\) 만 + 정보 행렬 partition 의 \(\boldsymbol{\psi}\) 부분.
- Score: \(H_0\) 하 profile MLE 만 — 가장 가벼운 적합.
4.2 Information Matrix Partition — 식 (B.10), (B.11)
\[ \mathbf{I} = \begin{pmatrix} \mathbf{I}_{\psi\psi} & \mathbf{I}_{\psi\phi} \\ \mathbf{I}_{\phi\psi} & \mathbf{I}_{\phi\phi} \end{pmatrix} , \tag{식 B.10} \]
블록 차원: \(\mathbf{I}_{\psi\psi}\) 는 \(p_1 \times p_1\), \(\mathbf{I}_{\phi\phi}\) 는 \(p_2 \times p_2\), \(\mathbf{I}_{\psi\phi}\) 는 \(p_1 \times p_2\), \(\mathbf{I}_{\phi\psi} = \mathbf{I}_{\psi\phi}^t\).
역행렬도 partition:
\[ \mathbf{I}^{-1} = \begin{pmatrix} \mathbf{I}^{\psi\psi} & \mathbf{I}^{\psi\phi} \\ \mathbf{I}^{\phi\psi} & \mathbf{I}^{\phi\phi} \end{pmatrix} . \tag{식 B.11} \]
핵심 차이: \(\mathbf{I}^{\psi\psi}\) (역행렬의 \((\psi, \psi)\) 블록) 는 \(\mathbf{I}_{\psi\psi}^{-1}\) (\((\psi, \psi)\) 블록의 역수) 와 다르다.
Schur 보수 공식:
\[ \mathbf{I}^{\psi\psi} = (\mathbf{I}_{\psi\psi} - \mathbf{I}_{\psi\phi} \mathbf{I}_{\phi\phi}^{-1} \mathbf{I}_{\phi\psi})^{-1} . \]
\(\mathbf{I}^{\psi\psi}\) 가 \(\boldsymbol{\psi}\) 의 marginal 분산 (nuisance 보정 후), \(\mathbf{I}_{\psi\psi}^{-1}\) 는 \(\boldsymbol{\phi}\) 가 알려진 경우의 분산.
왜 nuisance 보정이 필요한가: \(\boldsymbol{\phi}\) 도 추정해야 하므로 그 추정 오차가 \(\boldsymbol{\psi}\) 의 분산을 부풀린다. Schur 보수가 이 부풀림을 정확히 반영.
생존 분석 본문에서 자주 등장 — Cox 모형의 단일 회귀 계수 SE 가 다른 계수의 추정 변동성을 포함한 형태.
4.3 Likelihood Ratio Test — 식 (B.12)
\[ \chi^2_{LR} = -2\{\ell[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0); \mathbf{Y}] - \ell(\hat{\boldsymbol{\theta}}; \mathbf{Y})\} . \tag{식 B.12} \]
여기서 \(\hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)\) 는 profile MLE — \(\boldsymbol{\psi}\) 를 \(\boldsymbol{\psi}_0\) 로 고정한 채 \(\boldsymbol{\phi}\) 만 최대화한 추정.
제약 모형 (\(\boldsymbol{\psi} = \boldsymbol{\psi}_0\) 가설 하): \(\ell[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)]\). 가설이 옳다고 가정하고 nuisance 만 최적화한 우도.
일반 모형 (제약 없음): \(\ell(\hat{\boldsymbol{\theta}})\). 모든 모수 자유 추정.
차이가 큼 → 제약 (가설) 이 데이터에 맞지 않음 → 가설 기각.
\(\chi^2_{LR} \xrightarrow{d} \chi^2_{p_1}\), 자유도 = 검정되는 모수 수.
4.4 Wald Test — 식 (B.13)
\[ \chi^2_W = (\hat{\boldsymbol{\psi}} - \boldsymbol{\psi}_0)^t [\mathbf{I}^{\psi\psi}(\hat{\boldsymbol{\psi}}, \hat{\boldsymbol{\phi}})]^{-1} (\hat{\boldsymbol{\psi}} - \boldsymbol{\psi}_0) . \tag{식 B.13} \]
식 (B.13) 의 \(\mathbf{I}^{\psi\psi}\) 는 식 B.11 의 partition 역행렬의 \(\boldsymbol{\psi}\) 블록 — nuisance 보정된 \(\hat{\boldsymbol{\psi}}\) 의 marginal 분산.
따라서 Wald 의 거리 정규화에 nuisance 의 추정 변동성이 자동 반영. 일반 MLE \(\hat{\boldsymbol{\theta}}\) 만 필요 (제약 모형 적합 X).
실무 매력: Cox 회귀의 SE 출력에서 직접 통계량 계산. 한 변수 검정에 가장 자주 사용.
4.5 Score Test (Rao) — 식 (B.14)
\[ \chi^2_S = \mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)]^t \mathbf{I}^{\psi\psi}[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] \mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] . \tag{식 B.14} \]
\(\mathbf{U}_\psi\) 는 score 벡터의 \(\boldsymbol{\psi}\) 부분. 이를 제약 모형 (\(\boldsymbol{\psi} = \boldsymbol{\psi}_0\) 고정 + \(\boldsymbol{\phi}\) profile MLE) 에서 평가.
귀무 모형이 옳으면 \(\mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] \approx \mathbf{0}\) — 가설값에서 score 가 0 근처여야.
이 score 가 0 에서 멀면 → 가설값이 자료의 우도 최대점에서 떨어져 있다 → 기각.
실무 큰 매력: 일반 MLE \(\hat{\boldsymbol{\theta}}\) 불필요. 무거운 최적화 (예: frailty EM) 없이 검정 가능. § 13.2 Commenges-Andersen 가 이 패턴.
주의: 식 (B.14) 의 \(\mathbf{I}^{\psi\psi}\) 는 inverse 가 아닌 그 자체 (식 B.6 와 부호 다름). Score 의 분산이 정보 행렬의 역수의 역수 — 즉 정보 행렬 자체로 정규화. 식 (B.6) 의 \(\mathbf{I}^{-1}\) 와 형식 차이 주의.
세 통계량 모두 \(\chi^2_{LR}, \chi^2_W, \chi^2_S \xrightarrow{d} \chi^2_{p_1}\).
4.6 Example B.2 — 두 지수 그룹 비교
4.6.1 셋업
두 지수 분포 그룹:
- 그룹 1: \(h_1(t) = \lambda\)
- 그룹 2: \(h_2(t) = \lambda \beta\)
\(\beta\) 는 그룹 2 의 그룹 1 대비 위험비. 가설: \(H_0: \beta = 1\) (두 그룹 같은 위험률), \(\lambda\) 는 nuisance.
각 그룹의 사건 수 \(D_i\), total time on test \(S_i\) (\(i = 1, 2\)).
4.6.2 우도
\[ L(\lambda, \beta) = \lambda^{D_1 + D_2} \beta^{D_2} \exp(-\lambda S_1 - \lambda \beta S_2) . \tag{식 B.15} \]
\[ \ell(\beta, \lambda) = (D_1 + D_2) \ln \lambda + D_2 \ln \beta - \lambda S_1 - \lambda \beta S_2 . \tag{식 B.16} \]
4.6.3 Score 와 Information
\[ U_\beta = \frac{D_2}{\beta} - \lambda S_2 , \quad U_\lambda = \frac{D_1 + D_2}{\lambda} - S_1 - \beta S_2 . \tag{식 B.17, B.18} \]
\[ I_{\beta\beta} = \frac{D_2}{\beta^2} , \quad I_{\lambda\lambda} = \frac{D_1 + D_2}{\lambda^2} , \quad I_{\beta\lambda} = S_2 . \tag{식 B.19, B.20, B.21} \]
4.6.4 MLE
\(U_\beta = 0, U_\lambda = 0\) 에서:
\[ \hat{\beta} = \frac{S_1 D_2}{S_2 D_1} , \quad \hat{\lambda} = \frac{D_1}{S_1} . \]
직관: \(\hat{\lambda}\) 는 그룹 1 의 단순 MLE (그룹 1 만 사용). \(\hat{\beta}\) 는 그룹 2 의 위험률 / 그룹 1 의 위험률 = \((D_2/S_2) / (D_1/S_1)\). 즉 \(\hat{\beta}\) = 두 그룹 위험률의 비.
4.6.5 Profile MLE — 제약 (\(\beta = 1\)) 하
\(U_\lambda(\beta = 1) = 0\) 에서:
\[ \hat{\lambda}(1) = \frac{D_1 + D_2}{S_1 + S_2} . \]
직관: \(\beta = 1\) (두 그룹 동일) 가설 하 모든 데이터를 합쳐 단일 지수 분포 추정 → pooled estimator.
4.6.6 LR Test 식 (B.12)
\[ \chi^2_{LR} = 2 D_1 \ln\!\left[\frac{D_1 (S_1 + S_2)}{S_1 (D_1 + D_2)}\right] + 2 D_2 \ln\!\left[\frac{D_2 (S_1 + S_2)}{S_2 (D_1 + D_2)}\right] . \]
각 그룹 \(i\) 에 대해: - 관측 = \(D_i\) (그 그룹의 실제 사건 수) - 기대 = \(\hat{\lambda}(1) S_i = (D_1 + D_2)/(S_1 + S_2) \cdot S_i\) (pooled rate × 그 그룹의 노출)
비율 \(\frac{D_i}{\hat{\lambda}(1) S_i} = \frac{D_i (S_1 + S_2)}{S_i (D_1 + D_2)}\) — log-rank 검정의 그룹별 관측/기대 비와 같은 형태.
LR 통계량은 두 그룹의 \(D_i \ln(\text{관측}/\text{기대})\) 합 — Poisson regression 의 deviance 형태와 동일.
4.6.7 Wald Test 식 (B.13)
식 B.11 의 partition 으로 \(I^{\beta\beta}\) 계산:
\[ \chi^2_W = \frac{D_1^2 (S_1 D_2 - S_2 D_1)^2}{D_2 S_1^2 (D_1 + D_2)} . \]
4.6.8 Score Test 식 (B.14)
\[ \chi^2_S = \frac{[D_2 (S_1 + S_2) - (D_1 + D_2) S_2]^2}{D_2 (S_1 + S_2)^2 - (D_1 + D_2) S_1^2} . \]
(분자가 \(D_2 S_1 - D_1 S_2\) 의 형태로 정리 가능 — 그룹 차이의 제곱.)
4.6.9 수치 예 — Klein 본문
\(D_1 = 10, D_2 = 12, S_1 = 25, S_2 = 27\) 대입:
| 통계량 | 값 |
|---|---|
| \(\chi^2_{LR}\) | 0.0607 |
| \(\chi^2_W\) | 0.0545 |
| \(\chi^2_S\) | 0.0448 |
세 통계량 모두 \(\chi^2_1\) 의 5 % 임계값 \(3.841\) 보다 훨씬 작음 → 모두 비유의.
결론: \(H_0: \beta = 1\) 기각 안 함. 두 그룹의 위험률에 통계적으로 유의한 차이 없음.
세 통계량의 차이:
- 작은 표본에서 비대칭 우도로 인해 \(\chi^2_{LR} = 0.0607 \neq \chi^2_W = 0.0545 \neq \chi^2_S = 0.0448\).
- 그러나 점근적으로 같은 결정 (모두 비유의).
- 일반적으로 \(\chi^2_{LR}\) 이 가장 신뢰할 만하지만 (변환 불변), 이 사례에서는 모두 일관 결론.
직관: \(\hat{\beta} = (S_1 D_2)/(S_2 D_1) = (25 \times 12)/(27 \times 10) = 300/270 = 1.111\) — \(\beta = 1\) 에서 약 11 % 떨어졌지만 표본이 작아 (\(D_1 = 10, D_2 = 12\)) 유의 수준 도달 못함.
5 세 검정의 실무 권고
| 상황 | 권장 |
|---|---|
| 일반적, 큰 표본 | LR — 변환 불변, 가장 견고 |
| 한 변수 t-test 형태 | Wald — summary(fit) 출력의 표준 |
| MLE 비싼 모형 (frailty EM 등) | Score — 제약 모형만 적합 |
| 모수 공간 경계 가설 (\(\theta = 0\) 등) | Score — 점근 정칙 더 강건 |
| 신뢰구간 inversion | LR — 가장 정확 |
| 작은 표본 | LR > Wald > Score (일반적) |
일관성: 가능하면 세 검정을 모두 계산하고 일관된 결론을 확인. 큰 차이가 나면 우도 함수의 비대칭 또는 점근 근사의 부정확을 의심.
6 본문에서의 응용 — Klein 책의 검정들
Wald test: coxph() 의 summary(fit) 출력의 z-test. \(\beta_k\) 의 marginal 검정.
LR test: 제약 모형 (변수 제거) 과 일반 모형의 우도 비교 — anova(fit_null, fit_full). 변수 추가의 유의성.
Score test: 변수 추가의 score-based 검정 — anova(fit, scoretest = TRUE) 또는 직접 계산. 큰 모형 적합 부담 회피.
Score test for \(\theta = 0\) (Commenges-Andersen): § 13.2 의 핵심. 일반 Cox 만 적합하고 frailty 의 score 통계량 계산.
Wald test for \(\theta\): § 13.3 의 EM 후 \(\hat{\theta} / SE(\hat{\theta})\). 모수 경계 (\(\theta \geq 0\)) 라 점근 정칙 약함.
LR test for \(\theta = 0\): \(-2[\ell_{\text{Cox}} - \ell_{\text{frailty}}]\). 분포가 정확히 \(\chi^2\) 가 아니라 \(0.5 \chi^2_0 + 0.5 \chi^2_1\) — 모수 경계 효과.
LR test for nested 분포: Weibull vs 지수 (\(\sigma = 1\)). \(\chi^2_{LR} = -2[\ell_{\text{exp}} - \ell_{\text{Wei}}]\), \(\chi^2_1\).
Wald test for 분포 모수: survreg() 출력의 t-statistic.
일반화 감마의 \(\theta\): \(\theta = 1\) (Weibull) 또는 \(\theta = 0\) (로그정규) 의 LR/Wald — § 12.4.
7 코드 예시
7.1 Step 1 — R: 세 검정의 직접 비교
library(survival)
# Example B.2 데이터: 두 그룹 지수 분포
d <- data.frame(
time = c(rep(c(2.5, 2.5), 5), rep(c(2.25), 12)), # 단순화 예
event = c(rep(1, 10), rep(1, 12)),
group = c(rep(1, 10), rep(2, 12))
)
# D_1 = 10, D_2 = 12, S_1 = 25, S_2 = 27 가정
# 1. LR test — 제약 vs 일반 모형
fit_null <- survreg(Surv(time, event) ~ 1, dist = "exponential", data = d)
fit_full <- survreg(Surv(time, event) ~ group, dist = "exponential", data = d)
chi_LR <- 2 * (fit_full$loglik[2] - fit_null$loglik[2])
cat("LR:", chi_LR, "p =", 1 - pchisq(chi_LR, df = 1), "\n")
# 2. Wald test — 일반 모형의 z-statistic
summary(fit_full)
# coef$z 의 제곱이 chi^2_W (df=1)
# 3. Score test — 직접 구현 또는 anova()
# anova() 는 R 의 LRT 가 default
anova(fit_null, fit_full)7.2 Step 2 — Python: scipy.stats.chi2 로 직접
import numpy as np
from scipy.stats import chi2
# Klein Example B.2 의 직접 계산
D1, D2, S1, S2 = 10, 12, 25, 27
# Profile MLE under H_0: beta = 1
lam_pooled = (D1 + D2) / (S1 + S2)
# General MLE
beta_hat = (S1 * D2) / (S2 * D1)
lam_hat = D1 / S1
# 1. LR test (식 B.12)
ll_null = (D1 + D2) * np.log(lam_pooled) - lam_pooled * (S1 + S2)
ll_full = (D1 + D2) * np.log(lam_hat) + D2 * np.log(beta_hat) - lam_hat * S1 - lam_hat * beta_hat * S2
chi_LR = -2 * (ll_null - ll_full)
# 2. Wald test (식 B.13)
chi_W = D1**2 * (S1 * D2 - S2 * D1)**2 / (D2 * S1**2 * (D1 + D2))
# 3. Score test (식 B.14)
chi_S = ((D2 * (S1 + S2) - (D1 + D2) * S2)**2
/ (D2 * (S1 + S2)**2 - (D1 + D2) * S1**2))
# 모두 chi^2_1 임계 3.841 와 비교
for name, stat in [("LR", chi_LR), ("Wald", chi_W), ("Score", chi_S)]:
p = 1 - chi2.cdf(stat, df=1)
print(f"{name}: chi^2 = {stat:.4f}, p = {p:.4f}")
# 출력: LR: 0.0607, Wald: 0.0545, Score: 0.0448 (Klein 본문 값과 일치)7.3 Step 3 — Cox 모형의 세 검정 자동 출력
8 핵심 요약
가능도 이론은 가설 \(H_0: \boldsymbol{\theta} = \boldsymbol{\theta}_0\) 에 대해 세 가지 검정을 제공한다 — LR \(\chi^2_{LR} = -2[\ell(\boldsymbol{\theta}_0) - \ell(\hat{\boldsymbol{\theta}})]\) (식 B.4, 우도 세로 비교), Wald \(\chi^2_W = (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) (식 B.5, 가로 거리 + 정보 정규화), Score \(\chi^2_S = \mathbf{U}(\boldsymbol{\theta}_0)^t \mathbf{I}^{-1}(\boldsymbol{\theta}_0) \mathbf{U}(\boldsymbol{\theta}_0)\) (식 B.6, 가설값 score 의 0 으로부터 거리). 세 통계량 모두 \(H_0\) 하 \(\chi^2_p\) 점근 분포 (Wilks). Nuisance 모수 \(\boldsymbol{\phi}\) 가 있으면 식 B.10-B.14 의 partition 형태로 일반화 — Score 는 제약 모형만 (MLE 불필요), Wald 는 일반 모형만, LR 는 둘 다 필요. Klein Example B.2 의 두 지수 그룹 비교 (\(D_1=10, D_2=12, S_1=25, S_2=27\)) 결과: \(\chi^2_{LR}=0.0607, \chi^2_W=0.0545, \chi^2_S=0.0448\) — 모두 비유의 (\(\chi^2_1\) 임계 3.84 미만).
| 검정 | 식 | 직관 | 필요 모형 |
|---|---|---|---|
| LR | 식 (B.4), (B.12) | 두 우도의 세로 차이 | 제약 + 일반 둘 다 |
| Wald | 식 (B.5), (B.13) | MLE 의 가로 거리 (정보 정규화) | 일반 MLE 만 |
| Score | 식 (B.6), (B.14) | 가설값 score 의 0 으로부터 거리 | 제약 모형만 (MLE 불필요) |
1. 작은 표본은 LR: 변환 불변, 우도 비대칭에 강건. 작은 표본에서 가장 정확.
2. 큰 표본은 모두 동등: \(\chi^2_p\) 점근 분포로 수렴 (Wilks 정리). 어느 것이든 같은 결정.
3. MLE 비싼 모형은 Score: Frailty EM, 일반화 감마 등에서 score test (Commenges-Andersen 등) 가 무거운 적합 회피.
4. 신뢰구간은 LR-based: Wald CI 는 대칭 + 모수화 의존. LR-based CI (profile likelihood) 가 작은 표본에서 더 정확.
5. 일관성 점검: 가능하면 세 검정 모두 계산, 큰 차이 시 우도의 비대칭 또는 점근 근사 부정확 의심.
9 관련 주제
Klein Appendix 시리즈
- Appendix A — Numerical Techniques for Maximization — MLE 계산 도구 (LR/Wald/Score 의 공통 계산 기반)
- § A.1 — Univariate Methods
- § A.2 — Multivariate Methods
본문 검정 응용
- Ch.8 — Cox 비례위험 모형 —
summary(coxph)의 LR/Wald/Score 동시 출력 - Ch.12 — 모수적 회귀 모형 — 분포 비교 LR (Weibull vs exponential)
- § 13.1-13.2 — Frailty + Score Test — Commenges-Andersen score test 의 본보기
관련 개념
- Wilks’ theorem (Wikipedia) — LR 의 점근 분포
- Cramér-Rao bound — Fisher information 의 의미
- Profile likelihood (다양한 통계 교재)
10 참고 문헌
- Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.). Springer. Appendix B.
- Cox, D. R., & Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall. Chapter 9. (Klein 이 인용한 표준 reference)
- Wilks, S. S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. Annals of Mathematical Statistics, 9(1), 60-62. (LR 점근 분포의 원전)
- Wald, A. (1943). Tests of statistical hypotheses concerning several parameters when the number of observations is large. Trans. Amer. Math. Soc., 54(3), 426-482. (Wald test 의 원전)
- Rao, C. R. (1948). Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation. Math. Proc. Cambridge Phil. Soc., 44(1), 50-57. (Score test 의 원전)
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 8-10. (수리통계 표준 — LR, Wald, Score 의 일반적 처리)