Klein Appendix B — Large-Sample Tests Based on Likelihood Theory

LR · Wald · Score 세 검정의 직관·식·점근 동등성 — 같은 가설을 보는 세 가지 시선

Klein 책의 부록 B 를 정리한다. 가능도 이론에 기반한 세 가지 대표본 검정 (Likelihood Ratio · Wald · Rao Score) 의 식 B.4-B.6 과 직관, 단순 가설과 복합 가설 (nuisance 모수 포함) 의 통계량 식 B.10-B.14, 그리고 Klein 의 두 지수 분포 예제 (Example B.1 단일 모수, B.2 두 그룹 비교) 의 수치 결과를 풀이한다. 세 검정이 점근적으로 동등 (\(\chi^2_p\)) 하지만 작은 표본에서 다르게 나오는 이유와 실무에서 어느 검정을 선택할지의 trade-off 를 다룬다. (Klein & Moeschberger, 2003, Appendix B)

Statistics
Survival Analysis
저자

Kwangmin Kim

공개

2026년 05월 14일

1 도입 — 같은 가설을 보는 세 가지 시선

귀무가설 \(H_0: \theta = \theta_0\) 을 검정할 때 가능도 이론은 세 가지 통계량을 제공한다 — Likelihood Ratio (LR), Wald, Rao Score. 셋 다 \(H_0\) 하에서 점근적으로 \(\chi^2_p\) 분포를 따라 같은 결정을 주지만, 각자 다른 양을 측정 한다.

직관 — 세 검정의 기하학

우도 함수 \(\ell(\theta) = \log L(\theta)\) 의 그래프를 떠올린다. 최대값 \(\hat{\theta}\) 와 가설값 \(\theta_0\) 가 표시되어 있다.

1. Likelihood Ratio (LR): “MLE 의 우도와 가설값의 우도 차이를 본다.” 우도 곡선의 세로 방향 거리. \(\chi^2_{LR} = -2[\ell(\theta_0) - \ell(\hat{\theta})]\). 두 점의 높이 차이.

2. Wald: “MLE 가 가설값에서 얼마나 멀리 떨어졌나.” 우도 곡선의 가로 방향 거리. \(\chi^2_W = (\hat{\theta} - \theta_0)^t I(\hat{\theta}) (\hat{\theta} - \theta_0)\). 정보 행렬로 정규화한 거리.

3. Score (Rao): “가설값에서 우도의 기울기가 0 에서 얼마나 벗어났나.” 우도 곡선의 기울기. \(\chi^2_S = U(\theta_0)^t I^{-1}(\theta_0) U(\theta_0)\). 가설값의 score 노름.

세 양은 우도 곡선의 다른 측면을 본다:

ℓ(θ)
 │     ●  ← ℓ(θ̂) (MLE)
 │   ╱
 │  ╱
 │ ╱   ← LR = 2(높이 차이)
 │╱   /
 │   /
 ●  ●  ← ℓ(θ₀) (귀무가설 점)
 │   ↑
 │   기울기 = U(θ₀)  ← Score
 │
 └────●─────●──→ θ
     θ₀    θ̂
        ↑
        Wald = (θ̂ - θ₀) × 곡률

우도가 정확히 quadratic 이면 셋이 같은 값. 비대칭 또는 곡률 변화가 있으면 다른 값. 작은 표본에서 차이가 클 수 있고, 큰 표본에서 점근적으로 일치.

본 포스트는 식 B.1-B.6 (단순 가설) 과 식 B.10-B.14 (복합 가설) 을 직관과 함께 풀이하고, Klein 의 두 지수 분포 예제로 수치 결과를 확인한다.

2 표기 — Score, Fisher Information, Observed Information

2.1 Efficient Score Vector — 식 (B.1)

데이터 \(\mathbf{Y}\) 와 모수 \(\boldsymbol{\theta} = (\theta_1, \ldots, \theta_p)\). 로그 우도 \(\ell(\boldsymbol{\theta}; \mathbf{Y}) = \log L(\boldsymbol{\theta}; \mathbf{Y})\).

Efficient score (또는 score function):

\[ U_j(\boldsymbol{\theta}) = \frac{\partial \ell(\boldsymbol{\theta}; \mathbf{Y})}{\partial \theta_j} , \quad j = 1, \ldots, p . \tag{식 B.1} \]

벡터 형태: \(\mathbf{U}(\boldsymbol{\theta}) = (U_1, \ldots, U_p)^t\).

직관 — Score 가 측정하는 것

Score \(\mathbf{U}(\boldsymbol{\theta})\)우도 함수의 기울기. \(\theta_j\) 를 약간 늘리면 로그 우도가 얼마나 변하는지를 알려준다.

핵심 성질 (정칙 조건 하):

\[ E_{\boldsymbol{\theta}}[\mathbf{U}(\boldsymbol{\theta})] = \mathbf{0} . \]

즉 진짜 모수 값 \(\boldsymbol{\theta}\) 에서 score 의 기댓값은 0. 이게 MLE 의 출발점 — score 영점이 진짜 모수의 자연스러운 추정량.

MLE 의 정의: \(\mathbf{U}(\hat{\boldsymbol{\theta}}) = \mathbf{0}\) 의 해 (정칙 조건 하). \(\hat{\boldsymbol{\theta}}\) 는 식 B.1 영점 찾기 — 정확히 부록 A 의 수치 최적화 문제.

2.2 Fisher Information Matrix — 식 (B.2)

\[ \mathbf{i}(\boldsymbol{\theta}) = E_{\boldsymbol{\theta}}\!\left[\mathbf{U}(\boldsymbol{\theta}) \mathbf{U}(\boldsymbol{\theta})^t\right] = -E_{\boldsymbol{\theta}}\!\left[\frac{\partial \mathbf{U}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right] = \left\{-E_{\boldsymbol{\theta}}\!\left[\frac{\partial^2 \ell}{\partial \theta_j \partial \theta_k}\right]\right\}_{j,k} . \tag{식 B.2} \]

Fisher information 의 두 동치 정의

식 (B.2) 에 두 가지 동치 표현이 있다:

Outer-product 형식: \(E[\mathbf{U} \mathbf{U}^t]\) — score 의 분산.

Hessian 형식: \(-E[\partial^2 \ell / \partial \boldsymbol{\theta}^2]\) — 로그 우도의 음의 곡률 기댓값.

두 표현이 같음은 information identity (regularity 조건 하). 이 정체성은 score 가 평균 0 인 데서 출발 + 미분 가능 조건으로 나옴.

왜 “정보” 인가: \(\mathbf{i}(\boldsymbol{\theta})\) 가 클수록 \(\hat{\boldsymbol{\theta}}\) 가 정확하게 추정 가능 — Cramér-Rao 부등식 \(\text{Var}(\hat{\boldsymbol{\theta}}) \geq \mathbf{i}^{-1}(\boldsymbol{\theta})\). 정보 행렬이 표본의 “정보량” 을 정량화.

2.3 Observed Information — 식 (B.3)

기댓값 계산이 어려우므로 (분포에 대한 적분 필요) 실용적으로는 관측 정보 행렬 사용:

\[ I_{j,k}(\boldsymbol{\theta}) = -\frac{\partial^2 \ell(\boldsymbol{\theta}; \mathbf{Y})}{\partial \theta_j \partial \theta_k} , \quad j, k = 1, \ldots, p . \tag{식 B.3} \]

기댓값 없이 Hessian 의 음수만. 표본 의존이지만 \(n \to \infty\) 에서 \(\mathbf{i}(\boldsymbol{\theta})\) 의 일치 추정량.

\(\mathbf{i}(\theta)\) vs \(\mathbf{I}(\theta)\) — 언제 무엇을 쓰나

Fisher (expected): 분포 가정이 정확한 경우 분석적 결과 좋음. 그러나 기댓값 계산이 거의 항상 어려움.

Observed: 표본만으로 계산 가능. 점근적으로 같은 결과. 실무 표준.

특히 검열 데이터 (생존 분석) 에서는 Fisher information 의 기댓값이 검열 분포에 의존해 매우 복잡 — observed information 이 거의 항상 사용된다.

3 단순 가설 — \(H_0: \boldsymbol{\theta} = \boldsymbol{\theta}_0\)

3.1 Likelihood Ratio Test — 식 (B.4)

\[ \chi^2_{LR} = -2[\ell(\boldsymbol{\theta}_0; \mathbf{Y}) - \ell(\hat{\boldsymbol{\theta}}; \mathbf{Y})] . \tag{식 B.4} \]

직관 — 우도의 세로 비교

\(\ell(\hat{\boldsymbol{\theta}})\) 는 데이터에 가장 잘 맞는 모형의 로그 우도 (최대값). \(\ell(\boldsymbol{\theta}_0)\) 는 가설이 옳다는 가정 하의 로그 우도.

차이 \(\ell(\hat{\boldsymbol{\theta}}) - \ell(\boldsymbol{\theta}_0) \geq 0\) 가 항상 음이 아님 (MLE 가 가장 큰 우도를 줌).

이 차이가 클수록 가설이 의심스럽다. \(-2 \times\) 차이가 자연스럽게 \(\chi^2\) 분포로 수렴 (Wilks 정리).

해석: “데이터를 (가설 모형 vs 일반 모형) 으로 설명할 때 우도가 얼마나 다른가?”

3.2 Wald Test — 식 (B.5)

\[ \chi^2_W = (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) . \tag{식 B.5} \]

직관 — 가로 거리, 정보로 정규화

\((\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) 는 MLE 가 가설값에서 얼마나 떨어졌나의 벡터 거리.

이 거리를 그냥 쓰면 모수의 척도에 의존. \(\mathbf{I}(\hat{\boldsymbol{\theta}})\) 로 정규화하면 표준편차 단위의 거리 가 된다 (정보 = 분산의 역수).

$^2_W = $ “MLE 와 가설값 사이의 정규화된 거리 제곱”. 큰 값 → 가설 기각.

스칼라 \(p = 1\) 의 경우: \(\chi^2_W = (\hat{\theta} - \theta_0)^2 / \widehat{\text{Var}}(\hat{\theta}) = z^2\), 일반 \(z\)-test 와 동치.

3.3 Score Test (Rao) — 식 (B.6)

\[ \chi^2_S = \mathbf{U}(\boldsymbol{\theta}_0)^t \mathbf{I}^{-1}(\boldsymbol{\theta}_0) \mathbf{U}(\boldsymbol{\theta}_0) . \tag{식 B.6} \]

직관 — 가설값의 score 가 0 에서 얼마나 떨어졌나

\(\mathbf{U}(\boldsymbol{\theta}_0)\) 는 “가설값에서의 우도 기울기”. 가설이 옳으면 score 가 0 근처여야 함 (MLE 정의에 의해 \(\mathbf{U}(\hat{\boldsymbol{\theta}}) = \mathbf{0}\)).

\(\mathbf{U}(\boldsymbol{\theta}_0)\) 가 0 에서 멀면 → 가설값이 데이터의 우도 최대점에서 떨어져 있다는 신호 → 가설 기각.

\(\mathbf{I}^{-1}(\boldsymbol{\theta}_0)\) 로 정규화 — score 의 분산이 정보 행렬이라 정규화에 그 역수 사용 (\(\mathbf{U} \sim N(\mathbf{0}, \mathbf{I})\) 가설 하).

실무 큰 장점: MLE \(\hat{\boldsymbol{\theta}}\) 를 계산할 필요가 없다. 가설값 \(\boldsymbol{\theta}_0\) 만 있으면 OK. EM 같은 무거운 최적화를 피할 수 있어 매력적.

이 점이 § 13.2 Commenges-Andersen score test 의 매력 — frailty 모형 적합 없이 검정 가능했던 이유.

3.4 점근 동등성 — Wilks 정리

세 통계량은 점근적으로 같다

\(H_0\) 가 옳을 때:

\[ \chi^2_{LR}, \chi^2_W, \chi^2_S \xrightarrow{d} \chi^2_p \quad (n \to \infty) . \]

$p = $ 검정되는 모수 차원.

증명 스케치 (Wilks 정리):

  1. \(\hat{\boldsymbol{\theta}}\) 의 점근 분포: \(\sqrt{n}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \xrightarrow{d} N(\mathbf{0}, \mathbf{i}^{-1}(\boldsymbol{\theta}_0))\) (MLE 점근 정규성).
  2. Taylor 전개로 \(\ell(\hat{\boldsymbol{\theta}}) - \ell(\boldsymbol{\theta}_0) \approx \frac{1}{2} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\boldsymbol{\theta}_0) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\)\(\chi^2_{LR} \approx \chi^2_W\).
  3. Score 의 점근: \(\mathbf{U}(\boldsymbol{\theta}_0) \xrightarrow{d} N(\mathbf{0}, \mathbf{i}(\boldsymbol{\theta}_0))\)\(\chi^2_S \xrightarrow{d} \chi^2_p\).
  4. Taylor 전개로 \(\mathbf{U}(\boldsymbol{\theta}_0) \approx -\mathbf{I}(\boldsymbol{\theta}_0)(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) → 점근적으로 \(\chi^2_W = \chi^2_S\).

결론: 큰 표본에서 셋 다 같은 결정. 작은 표본에서는 다를 수 있고, 어느 것이 더 정확한지는 우도 함수의 모양에 의존.

3.5 작은 표본에서의 차이

우도의 비대칭이 결과를 가른다

우도 함수가 정확히 quadratic 이면 세 통계량이 정확히 같다. 비대칭이거나 곡률이 모수에 따라 변하면 다르다.

통계량 강점 약점
LR 변환 불변 (parametrization-invariant) \(\hat{\boldsymbol{\theta}}\) + \(\boldsymbol{\theta}_0\) 두 우도 모두 평가
Wald \(\hat{\boldsymbol{\theta}}\) 만 사용 (계산 간단) 변환 불변 X (모수화 의존)
Score \(\hat{\boldsymbol{\theta}}\) 불필요 (가설값만) 신뢰구간 구성 어려움

LR 의 변환 불변성: \(\theta\) 대신 \(\eta = g(\theta)\) 로 다시 모수화해도 같은 통계량 값 — 자연스러운 성질. Wald 는 그렇지 않음 (예: \(\theta = 0.5\) vs \(\eta = \ln(\theta/(1-\theta)) = 0\) 이 같은 모형이지만 Wald 통계량은 다름).

일반적 권고: LR 가 작은 표본에서 가장 신뢰할 만함. Wald 는 계산 편의 (signed sqrt 가 z-test) 로 자주 쓰임. Score 는 nuisance 모수가 있는 경우 매력 (다음 절).

3.6 Example B.1 — 지수 분포 단순 가설

3.6.1 셋업

지수 분포 \(f(t) = \lambda e^{-\lambda t}\) 의 검열 표본 \((T_i, \delta_i)\), \(i = 1, \ldots, n\). 검정 \(H_0: \lambda = 1\).

핵심 양:

  • \(D = \sum \delta_i\): 사건 수
  • \(S = \sum T_i\): total time on test (Ch.3.5)

우도 (검열 데이터):

\[ L(\lambda) = \prod_i \lambda^{\delta_i} e^{-\lambda T_i} = \lambda^D e^{-\lambda S} . \]

\[ \ell(\lambda) = D \ln \lambda - \lambda S . \tag{식 B.7} \]

\[ U(\lambda) = \frac{D}{\lambda} - S . \tag{식 B.8} \]

\[ I(\lambda) = -\frac{d^2 \ell}{d\lambda^2} = \frac{D}{\lambda^2} . \tag{식 B.9} \]

MLE: \(U(\hat{\lambda}) = 0 \Rightarrow \hat{\lambda} = D/S\).

3.6.2 세 통계량 계산

Score (식 B.6): 가설값 \(\lambda_0 = 1\):

\[ \chi^2_S = U(1)^2 \cdot I^{-1}(1) = (D - S)^2 \cdot \frac{1^2}{D} = \frac{(D - S)^2}{D} . \]

Wald (식 B.5): MLE \(\hat{\lambda} = D/S\):

\[ \chi^2_W = (\hat{\lambda} - 1)^2 \cdot I(\hat{\lambda}) = (D/S - 1)^2 \cdot \frac{D}{(D/S)^2} = \frac{(D - S)^2}{D} . \]

LR (식 B.4):

\[ \chi^2_{LR} = -2\{\ell(1) - \ell(\hat{\lambda})\} = -2\{(D \ln 1 - S) - (D \ln(D/S) - D)\} = 2[S - D + D \ln(D/S)] . \]

결과 — Wald = Score, LR 다름

이 단순 사례에서:

  • \(\chi^2_W = \chi^2_S = (D-S)^2 / D\)정확히 같다.
  • \(\chi^2_{LR} = 2[S - D + D \ln(D/S)]\) — 다른 형태이지만 점근적으로 같은 분포.

세 통계량 모두 \(\chi^2_1\) 점근.

왜 W = S 가 나왔는가: 지수 분포는 single parameter, 우도가 거의 quadratic 형태 → 점근 동등성이 정확하게 성립. 대부분의 분포는 W ≠ S.

수치 예: \(D = 10, S = 12\)\(\chi^2_W = \chi^2_S = (10-12)^2/10 = 0.4\). \(\chi^2_{LR} = 2[12 - 10 + 10 \ln(10/12)] = 2[2 + 10 \times (-0.182)] = 2[2 - 1.82] = 0.36\). 비슷하지만 약간 다름. \(\chi^2_1\) 임계값 3.84 와 비교 → 비유의.

4 복합 가설 — Nuisance 모수 처리

4.1 셋업

모수 \(\boldsymbol{\theta} = (\boldsymbol{\psi}, \boldsymbol{\phi})\), 여기서:

  • \(\boldsymbol{\psi} \in \mathbb{R}^{p_1}\): 검정 대상 모수
  • \(\boldsymbol{\phi} \in \mathbb{R}^{p_2}\): nuisance 모수 (검정 대상 아니지만 모형에 필요)

가설: \(H_0: \boldsymbol{\psi} = \boldsymbol{\psi}_0\), \(\boldsymbol{\phi}\) 는 자유.

직관 — Nuisance 의 처리

전형적 사례:

  • Cox 회귀: 처치 효과 (\(\beta_1\)) 가 0 인지 검정. 다른 보정 변수 (\(\beta_2, \ldots, \beta_p\)) 는 nuisance.
  • 두 그룹 비교: 효과 차이 (\(\beta = 0\)) 검정. 베이스라인 위험 (\(\lambda\)) 은 nuisance.
  • Frailty test: \(\theta = 0\) 검정. 회귀 계수 \(\boldsymbol{\beta}\) 는 nuisance.

각 검정마다 nuisance 처리 방식이 다르다:

  • LR: \(H_0\) 하 profile MLE \(\hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)\) + 일반 MLE \(\hat{\boldsymbol{\theta}}\) — 두 우도 비교.
  • Wald: 일반 MLE \(\hat{\boldsymbol{\theta}}\) 만 + 정보 행렬 partition 의 \(\boldsymbol{\psi}\) 부분.
  • Score: \(H_0\) 하 profile MLE 만 — 가장 가벼운 적합.

4.2 Information Matrix Partition — 식 (B.10), (B.11)

\[ \mathbf{I} = \begin{pmatrix} \mathbf{I}_{\psi\psi} & \mathbf{I}_{\psi\phi} \\ \mathbf{I}_{\phi\psi} & \mathbf{I}_{\phi\phi} \end{pmatrix} , \tag{식 B.10} \]

블록 차원: \(\mathbf{I}_{\psi\psi}\)\(p_1 \times p_1\), \(\mathbf{I}_{\phi\phi}\)\(p_2 \times p_2\), \(\mathbf{I}_{\psi\phi}\)\(p_1 \times p_2\), \(\mathbf{I}_{\phi\psi} = \mathbf{I}_{\psi\phi}^t\).

역행렬도 partition:

\[ \mathbf{I}^{-1} = \begin{pmatrix} \mathbf{I}^{\psi\psi} & \mathbf{I}^{\psi\phi} \\ \mathbf{I}^{\phi\psi} & \mathbf{I}^{\phi\phi} \end{pmatrix} . \tag{식 B.11} \]

\(\mathbf{I}^{\psi\psi} \neq \mathbf{I}_{\psi\psi}^{-1}\) — Schur 보수

핵심 차이: \(\mathbf{I}^{\psi\psi}\) (역행렬의 \((\psi, \psi)\) 블록) 는 \(\mathbf{I}_{\psi\psi}^{-1}\) (\((\psi, \psi)\) 블록의 역수) 와 다르다.

Schur 보수 공식:

\[ \mathbf{I}^{\psi\psi} = (\mathbf{I}_{\psi\psi} - \mathbf{I}_{\psi\phi} \mathbf{I}_{\phi\phi}^{-1} \mathbf{I}_{\phi\psi})^{-1} . \]

\(\mathbf{I}^{\psi\psi}\)\(\boldsymbol{\psi}\) 의 marginal 분산 (nuisance 보정 후), \(\mathbf{I}_{\psi\psi}^{-1}\)\(\boldsymbol{\phi}\) 가 알려진 경우의 분산.

왜 nuisance 보정이 필요한가: \(\boldsymbol{\phi}\) 도 추정해야 하므로 그 추정 오차가 \(\boldsymbol{\psi}\) 의 분산을 부풀린다. Schur 보수가 이 부풀림을 정확히 반영.

생존 분석 본문에서 자주 등장 — Cox 모형의 단일 회귀 계수 SE 가 다른 계수의 추정 변동성을 포함한 형태.

4.3 Likelihood Ratio Test — 식 (B.12)

\[ \chi^2_{LR} = -2\{\ell[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0); \mathbf{Y}] - \ell(\hat{\boldsymbol{\theta}}; \mathbf{Y})\} . \tag{식 B.12} \]

여기서 \(\hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)\)profile MLE\(\boldsymbol{\psi}\)\(\boldsymbol{\psi}_0\) 로 고정한 채 \(\boldsymbol{\phi}\) 만 최대화한 추정.

직관 — 두 모형의 우도 비교

제약 모형 (\(\boldsymbol{\psi} = \boldsymbol{\psi}_0\) 가설 하): \(\ell[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)]\). 가설이 옳다고 가정하고 nuisance 만 최적화한 우도.

일반 모형 (제약 없음): \(\ell(\hat{\boldsymbol{\theta}})\). 모든 모수 자유 추정.

차이가 큼 → 제약 (가설) 이 데이터에 맞지 않음 → 가설 기각.

\(\chi^2_{LR} \xrightarrow{d} \chi^2_{p_1}\), 자유도 = 검정되는 모수 수.

4.4 Wald Test — 식 (B.13)

\[ \chi^2_W = (\hat{\boldsymbol{\psi}} - \boldsymbol{\psi}_0)^t [\mathbf{I}^{\psi\psi}(\hat{\boldsymbol{\psi}}, \hat{\boldsymbol{\phi}})]^{-1} (\hat{\boldsymbol{\psi}} - \boldsymbol{\psi}_0) . \tag{식 B.13} \]

직관 — Marginal 분산 사용

식 (B.13) 의 \(\mathbf{I}^{\psi\psi}\) 는 식 B.11 의 partition 역행렬의 \(\boldsymbol{\psi}\) 블록 — nuisance 보정된 \(\hat{\boldsymbol{\psi}}\) 의 marginal 분산.

따라서 Wald 의 거리 정규화에 nuisance 의 추정 변동성이 자동 반영. 일반 MLE \(\hat{\boldsymbol{\theta}}\) 만 필요 (제약 모형 적합 X).

실무 매력: Cox 회귀의 SE 출력에서 직접 통계량 계산. 한 변수 검정에 가장 자주 사용.

4.5 Score Test (Rao) — 식 (B.14)

\[ \chi^2_S = \mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)]^t \mathbf{I}^{\psi\psi}[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] \mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] . \tag{식 B.14} \]

직관 — 제약 모형만 적합

\(\mathbf{U}_\psi\) 는 score 벡터의 \(\boldsymbol{\psi}\) 부분. 이를 제약 모형 (\(\boldsymbol{\psi} = \boldsymbol{\psi}_0\) 고정 + \(\boldsymbol{\phi}\) profile MLE) 에서 평가.

귀무 모형이 옳으면 \(\mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] \approx \mathbf{0}\) — 가설값에서 score 가 0 근처여야.

이 score 가 0 에서 멀면 → 가설값이 자료의 우도 최대점에서 떨어져 있다 → 기각.

실무 큰 매력: 일반 MLE \(\hat{\boldsymbol{\theta}}\) 불필요. 무거운 최적화 (예: frailty EM) 없이 검정 가능. § 13.2 Commenges-Andersen 가 이 패턴.

주의: 식 (B.14) 의 \(\mathbf{I}^{\psi\psi}\) 는 inverse 가 아닌 그 자체 (식 B.6 와 부호 다름). Score 의 분산이 정보 행렬의 역수의 역수 — 즉 정보 행렬 자체로 정규화. 식 (B.6) 의 \(\mathbf{I}^{-1}\) 와 형식 차이 주의.

세 통계량 모두 \(\chi^2_{LR}, \chi^2_W, \chi^2_S \xrightarrow{d} \chi^2_{p_1}\).

4.6 Example B.2 — 두 지수 그룹 비교

4.6.1 셋업

두 지수 분포 그룹:

  • 그룹 1: \(h_1(t) = \lambda\)
  • 그룹 2: \(h_2(t) = \lambda \beta\)

\(\beta\) 는 그룹 2 의 그룹 1 대비 위험비. 가설: \(H_0: \beta = 1\) (두 그룹 같은 위험률), \(\lambda\) 는 nuisance.

각 그룹의 사건 수 \(D_i\), total time on test \(S_i\) (\(i = 1, 2\)).

4.6.2 우도

\[ L(\lambda, \beta) = \lambda^{D_1 + D_2} \beta^{D_2} \exp(-\lambda S_1 - \lambda \beta S_2) . \tag{식 B.15} \]

\[ \ell(\beta, \lambda) = (D_1 + D_2) \ln \lambda + D_2 \ln \beta - \lambda S_1 - \lambda \beta S_2 . \tag{식 B.16} \]

4.6.3 Score 와 Information

\[ U_\beta = \frac{D_2}{\beta} - \lambda S_2 , \quad U_\lambda = \frac{D_1 + D_2}{\lambda} - S_1 - \beta S_2 . \tag{식 B.17, B.18} \]

\[ I_{\beta\beta} = \frac{D_2}{\beta^2} , \quad I_{\lambda\lambda} = \frac{D_1 + D_2}{\lambda^2} , \quad I_{\beta\lambda} = S_2 . \tag{식 B.19, B.20, B.21} \]

4.6.4 MLE

\(U_\beta = 0, U_\lambda = 0\) 에서:

\[ \hat{\beta} = \frac{S_1 D_2}{S_2 D_1} , \quad \hat{\lambda} = \frac{D_1}{S_1} . \]

직관: \(\hat{\lambda}\) 는 그룹 1 의 단순 MLE (그룹 1 만 사용). \(\hat{\beta}\) 는 그룹 2 의 위험률 / 그룹 1 의 위험률 = \((D_2/S_2) / (D_1/S_1)\). 즉 \(\hat{\beta}\) = 두 그룹 위험률의 비.

4.6.5 Profile MLE — 제약 (\(\beta = 1\)) 하

\(U_\lambda(\beta = 1) = 0\) 에서:

\[ \hat{\lambda}(1) = \frac{D_1 + D_2}{S_1 + S_2} . \]

직관: \(\beta = 1\) (두 그룹 동일) 가설 하 모든 데이터를 합쳐 단일 지수 분포 추정 → pooled estimator.

4.6.6 LR Test 식 (B.12)

\[ \chi^2_{LR} = 2 D_1 \ln\!\left[\frac{D_1 (S_1 + S_2)}{S_1 (D_1 + D_2)}\right] + 2 D_2 \ln\!\left[\frac{D_2 (S_1 + S_2)}{S_2 (D_1 + D_2)}\right] . \]

LR 식의 직관 — 그룹별 관측-기대 비교

각 그룹 \(i\) 에 대해: - 관측 = \(D_i\) (그 그룹의 실제 사건 수) - 기대 = \(\hat{\lambda}(1) S_i = (D_1 + D_2)/(S_1 + S_2) \cdot S_i\) (pooled rate × 그 그룹의 노출)

비율 \(\frac{D_i}{\hat{\lambda}(1) S_i} = \frac{D_i (S_1 + S_2)}{S_i (D_1 + D_2)}\) — log-rank 검정의 그룹별 관측/기대 비와 같은 형태.

LR 통계량은 두 그룹의 \(D_i \ln(\text{관측}/\text{기대})\) 합 — Poisson regression 의 deviance 형태와 동일.

4.6.7 Wald Test 식 (B.13)

식 B.11 의 partition 으로 \(I^{\beta\beta}\) 계산:

\[ \chi^2_W = \frac{D_1^2 (S_1 D_2 - S_2 D_1)^2}{D_2 S_1^2 (D_1 + D_2)} . \]

4.6.8 Score Test 식 (B.14)

\[ \chi^2_S = \frac{[D_2 (S_1 + S_2) - (D_1 + D_2) S_2]^2}{D_2 (S_1 + S_2)^2 - (D_1 + D_2) S_1^2} . \]

(분자가 \(D_2 S_1 - D_1 S_2\) 의 형태로 정리 가능 — 그룹 차이의 제곱.)

4.6.9 수치 예 — Klein 본문

\(D_1 = 10, D_2 = 12, S_1 = 25, S_2 = 27\) 대입:

통계량
\(\chi^2_{LR}\) 0.0607
\(\chi^2_W\) 0.0545
\(\chi^2_S\) 0.0448
결과 해석

세 통계량 모두 \(\chi^2_1\) 의 5 % 임계값 \(3.841\) 보다 훨씬 작음 → 모두 비유의.

결론: \(H_0: \beta = 1\) 기각 안 함. 두 그룹의 위험률에 통계적으로 유의한 차이 없음.

세 통계량의 차이:

  • 작은 표본에서 비대칭 우도로 인해 \(\chi^2_{LR} = 0.0607 \neq \chi^2_W = 0.0545 \neq \chi^2_S = 0.0448\).
  • 그러나 점근적으로 같은 결정 (모두 비유의).
  • 일반적으로 \(\chi^2_{LR}\) 이 가장 신뢰할 만하지만 (변환 불변), 이 사례에서는 모두 일관 결론.

직관: \(\hat{\beta} = (S_1 D_2)/(S_2 D_1) = (25 \times 12)/(27 \times 10) = 300/270 = 1.111\)\(\beta = 1\) 에서 약 11 % 떨어졌지만 표본이 작아 (\(D_1 = 10, D_2 = 12\)) 유의 수준 도달 못함.

5 세 검정의 실무 권고

어느 검정을 언제 쓰나
상황 권장
일반적, 큰 표본 LR — 변환 불변, 가장 견고
한 변수 t-test 형태 Waldsummary(fit) 출력의 표준
MLE 비싼 모형 (frailty EM 등) Score — 제약 모형만 적합
모수 공간 경계 가설 (\(\theta = 0\) 등) Score — 점근 정칙 더 강건
신뢰구간 inversion LR — 가장 정확
작은 표본 LR > Wald > Score (일반적)

일관성: 가능하면 세 검정을 모두 계산하고 일관된 결론을 확인. 큰 차이가 나면 우도 함수의 비대칭 또는 점근 근사의 부정확을 의심.

6 본문에서의 응용 — Klein 책의 검정들

Cox 모형 (Ch.8)

Wald test: coxph()summary(fit) 출력의 z-test. \(\beta_k\) 의 marginal 검정.

LR test: 제약 모형 (변수 제거) 과 일반 모형의 우도 비교 — anova(fit_null, fit_full). 변수 추가의 유의성.

Score test: 변수 추가의 score-based 검정 — anova(fit, scoretest = TRUE) 또는 직접 계산. 큰 모형 적합 부담 회피.

Frailty Models (Ch.13)

Score test for \(\theta = 0\) (Commenges-Andersen): § 13.2 의 핵심. 일반 Cox 만 적합하고 frailty 의 score 통계량 계산.

Wald test for \(\theta\): § 13.3 의 EM 후 \(\hat{\theta} / SE(\hat{\theta})\). 모수 경계 (\(\theta \geq 0\)) 라 점근 정칙 약함.

LR test for \(\theta = 0\): \(-2[\ell_{\text{Cox}} - \ell_{\text{frailty}}]\). 분포가 정확히 \(\chi^2\) 가 아니라 \(0.5 \chi^2_0 + 0.5 \chi^2_1\) — 모수 경계 효과.

모수 회귀 (Ch.12)

LR test for nested 분포: Weibull vs 지수 (\(\sigma = 1\)). \(\chi^2_{LR} = -2[\ell_{\text{exp}} - \ell_{\text{Wei}}]\), \(\chi^2_1\).

Wald test for 분포 모수: survreg() 출력의 t-statistic.

일반화 감마의 \(\theta\): \(\theta = 1\) (Weibull) 또는 \(\theta = 0\) (로그정규) 의 LR/Wald — § 12.4.

7 코드 예시

7.1 Step 1 — R: 세 검정의 직접 비교

library(survival)

# Example B.2 데이터: 두 그룹 지수 분포
d <- data.frame(
  time = c(rep(c(2.5, 2.5), 5), rep(c(2.25), 12)),  # 단순화 예
  event = c(rep(1, 10), rep(1, 12)),
  group = c(rep(1, 10), rep(2, 12))
)
# D_1 = 10, D_2 = 12, S_1 = 25, S_2 = 27 가정

# 1. LR test — 제약 vs 일반 모형
fit_null <- survreg(Surv(time, event) ~ 1, dist = "exponential", data = d)
fit_full <- survreg(Surv(time, event) ~ group, dist = "exponential", data = d)
chi_LR <- 2 * (fit_full$loglik[2] - fit_null$loglik[2])
cat("LR:", chi_LR, "p =", 1 - pchisq(chi_LR, df = 1), "\n")

# 2. Wald test — 일반 모형의 z-statistic
summary(fit_full)
# coef$z 의 제곱이 chi^2_W (df=1)

# 3. Score test — 직접 구현 또는 anova()
# anova() 는 R 의 LRT 가 default
anova(fit_null, fit_full)

7.2 Step 2 — Python: scipy.stats.chi2 로 직접

import numpy as np
from scipy.stats import chi2

# Klein Example B.2 의 직접 계산
D1, D2, S1, S2 = 10, 12, 25, 27

# Profile MLE under H_0: beta = 1
lam_pooled = (D1 + D2) / (S1 + S2)

# General MLE
beta_hat = (S1 * D2) / (S2 * D1)
lam_hat = D1 / S1

# 1. LR test (식 B.12)
ll_null = (D1 + D2) * np.log(lam_pooled) - lam_pooled * (S1 + S2)
ll_full = (D1 + D2) * np.log(lam_hat) + D2 * np.log(beta_hat) - lam_hat * S1 - lam_hat * beta_hat * S2
chi_LR = -2 * (ll_null - ll_full)

# 2. Wald test (식 B.13)
chi_W = D1**2 * (S1 * D2 - S2 * D1)**2 / (D2 * S1**2 * (D1 + D2))

# 3. Score test (식 B.14)
chi_S = ((D2 * (S1 + S2) - (D1 + D2) * S2)**2
         / (D2 * (S1 + S2)**2 - (D1 + D2) * S1**2))

# 모두 chi^2_1 임계 3.841 와 비교
for name, stat in [("LR", chi_LR), ("Wald", chi_W), ("Score", chi_S)]:
    p = 1 - chi2.cdf(stat, df=1)
    print(f"{name}: chi^2 = {stat:.4f}, p = {p:.4f}")

# 출력: LR: 0.0607, Wald: 0.0545, Score: 0.0448 (Klein 본문 값과 일치)

7.3 Step 3 — Cox 모형의 세 검정 자동 출력

library(survival)
library(survminer)

# Cox 모형 적합 후 세 검정 자동 비교
fit <- coxph(Surv(time, status) ~ x + z, data = mydata)
summary(fit)
# 출력:
#   - "Wald test = X on p df, p = ..."
#   - "Score (logrank) test = X on p df, p = ..."
#   - "Likelihood ratio test = X on p df, p = ..."
# 세 검정 동시 출력 — Cox 의 default

8 핵심 요약

Appendix B 한 줄 요약

가능도 이론은 가설 \(H_0: \boldsymbol{\theta} = \boldsymbol{\theta}_0\) 에 대해 세 가지 검정을 제공한다 — LR \(\chi^2_{LR} = -2[\ell(\boldsymbol{\theta}_0) - \ell(\hat{\boldsymbol{\theta}})]\) (식 B.4, 우도 세로 비교), Wald \(\chi^2_W = (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)\) (식 B.5, 가로 거리 + 정보 정규화), Score \(\chi^2_S = \mathbf{U}(\boldsymbol{\theta}_0)^t \mathbf{I}^{-1}(\boldsymbol{\theta}_0) \mathbf{U}(\boldsymbol{\theta}_0)\) (식 B.6, 가설값 score 의 0 으로부터 거리). 세 통계량 모두 \(H_0\)\(\chi^2_p\) 점근 분포 (Wilks). Nuisance 모수 \(\boldsymbol{\phi}\) 가 있으면 식 B.10-B.14 의 partition 형태로 일반화 — Score 는 제약 모형만 (MLE 불필요), Wald 는 일반 모형만, LR 는 둘 다 필요. Klein Example B.2 의 두 지수 그룹 비교 (\(D_1=10, D_2=12, S_1=25, S_2=27\)) 결과: \(\chi^2_{LR}=0.0607, \chi^2_W=0.0545, \chi^2_S=0.0448\) — 모두 비유의 (\(\chi^2_1\) 임계 3.84 미만).

검정 직관 필요 모형
LR 식 (B.4), (B.12) 두 우도의 세로 차이 제약 + 일반 둘 다
Wald 식 (B.5), (B.13) MLE 의 가로 거리 (정보 정규화) 일반 MLE 만
Score 식 (B.6), (B.14) 가설값 score 의 0 으로부터 거리 제약 모형만 (MLE 불필요)
5 가지 실무 권고

1. 작은 표본은 LR: 변환 불변, 우도 비대칭에 강건. 작은 표본에서 가장 정확.

2. 큰 표본은 모두 동등: \(\chi^2_p\) 점근 분포로 수렴 (Wilks 정리). 어느 것이든 같은 결정.

3. MLE 비싼 모형은 Score: Frailty EM, 일반화 감마 등에서 score test (Commenges-Andersen 등) 가 무거운 적합 회피.

4. 신뢰구간은 LR-based: Wald CI 는 대칭 + 모수화 의존. LR-based CI (profile likelihood) 가 작은 표본에서 더 정확.

5. 일관성 점검: 가능하면 세 검정 모두 계산, 큰 차이 시 우도의 비대칭 또는 점근 근사 부정확 의심.

9 관련 주제

Klein Appendix 시리즈

본문 검정 응용

관련 개념

10 참고 문헌

  • Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.). Springer. Appendix B.
  • Cox, D. R., & Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall. Chapter 9. (Klein 이 인용한 표준 reference)
  • Wilks, S. S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. Annals of Mathematical Statistics, 9(1), 60-62. (LR 점근 분포의 원전)
  • Wald, A. (1943). Tests of statistical hypotheses concerning several parameters when the number of observations is large. Trans. Amer. Math. Soc., 54(3), 426-482. (Wald test 의 원전)
  • Rao, C. R. (1948). Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation. Math. Proc. Cambridge Phil. Soc., 44(1), 50-57. (Score test 의 원전)
  • Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 8-10. (수리통계 표준 — LR, Wald, Score 의 일반적 처리)

Subscribe

Enjoy this blog? Get notified of new posts by email: