Kwangmin Kim - Klein Appendix B — Large-Sample Tests Based on Likelihood Theory

1 도입 — 같은 가설을 보는 세 가지 시선

귀무가설 $H_0: \theta = \theta_0$ 을 검정할 때 가능도 이론은 세 가지 통계량을 제공한다 — Likelihood Ratio (LR), Wald, Rao Score. 셋 다 $H_0$ 하에서 점근적으로 $\chi^2_p$ 분포를 따라 같은 결정을 주지만, 각자 다른 양을 측정 한다.

직관 — 세 검정의 기하학

우도 함수 $\ell(\theta) = \log L(\theta)$ 의 그래프를 떠올린다. 최대값 $\hat{\theta}$ 와 가설값 $\theta_0$ 가 표시되어 있다.

1. Likelihood Ratio (LR): “MLE 의 우도와 가설값의 우도 차이를 본다.” 우도 곡선의 세로 방향 거리. $\chi^2_{LR} = -2[\ell(\theta_0) - \ell(\hat{\theta})]$. 두 점의 높이 차이.

2. Wald: “MLE 가 가설값에서 얼마나 멀리 떨어졌나.” 우도 곡선의 가로 방향 거리. $\chi^2_W = (\hat{\theta} - \theta_0)^t I(\hat{\theta}) (\hat{\theta} - \theta_0)$. 정보 행렬로 정규화한 거리.

3. Score (Rao): “가설값에서 우도의 기울기가 0 에서 얼마나 벗어났나.” 우도 곡선의 기울기. $\chi^2_S = U(\theta_0)^t I^{-1}(\theta_0) U(\theta_0)$. 가설값의 score 노름.

세 양은 우도 곡선의 다른 측면을 본다:

ℓ(θ)
 │     ●  ← ℓ(θ̂) (MLE)
 │   ╱
 │  ╱
 │ ╱   ← LR = 2(높이 차이)
 │╱   /
 │   /
 ●  ●  ← ℓ(θ₀) (귀무가설 점)
 │   ↑
 │   기울기 = U(θ₀)  ← Score
 │
 └────●─────●──→ θ
     θ₀    θ̂
        ↑
        Wald = (θ̂ - θ₀) × 곡률

우도가 정확히 quadratic 이면 셋이 같은 값. 비대칭 또는 곡률 변화가 있으면 다른 값. 작은 표본에서 차이가 클 수 있고, 큰 표본에서 점근적으로 일치.

본 포스트는 식 B.1-B.6 (단순 가설) 과 식 B.10-B.14 (복합 가설) 을 직관과 함께 풀이하고, Klein 의 두 지수 분포 예제로 수치 결과를 확인한다.

2 표기 — Score, Fisher Information, Observed Information

2.1 Efficient Score Vector — 식 (B.1)

데이터 $\mathbf{Y}$ 와 모수 $\boldsymbol{\theta} = (\theta_1, \ldots, \theta_p)$. 로그 우도 $\ell(\boldsymbol{\theta}; \mathbf{Y}) = \log L(\boldsymbol{\theta}; \mathbf{Y})$.

Efficient score (또는 score function):

\[ U_j(\boldsymbol{\theta}) = \frac{\partial \ell(\boldsymbol{\theta}; \mathbf{Y})}{\partial \theta_j} , \quad j = 1, \ldots, p . \tag{식 B.1} \]

벡터 형태: $\mathbf{U}(\boldsymbol{\theta}) = (U_1, \ldots, U_p)^t$.

직관 — Score 가 측정하는 것

Score $\mathbf{U}(\boldsymbol{\theta})$ 는 우도 함수의 기울기. $\theta_j$ 를 약간 늘리면 로그 우도가 얼마나 변하는지를 알려준다.

핵심 성질 (정칙 조건 하):

\[ E_{\boldsymbol{\theta}}[\mathbf{U}(\boldsymbol{\theta})] = \mathbf{0} . \]

즉 진짜 모수 값 $\boldsymbol{\theta}$ 에서 score 의 기댓값은 0. 이게 MLE 의 출발점 — score 영점이 진짜 모수의 자연스러운 추정량.

MLE 의 정의: $\mathbf{U}(\hat{\boldsymbol{\theta}}) = \mathbf{0}$ 의 해 (정칙 조건 하). $\hat{\boldsymbol{\theta}}$ 는 식 B.1 영점 찾기 — 정확히 부록 A 의 수치 최적화 문제.

2.2 Fisher Information Matrix — 식 (B.2)

\[ \mathbf{i}(\boldsymbol{\theta}) = E_{\boldsymbol{\theta}}\!\left[\mathbf{U}(\boldsymbol{\theta}) \mathbf{U}(\boldsymbol{\theta})^t\right] = -E_{\boldsymbol{\theta}}\!\left[\frac{\partial \mathbf{U}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right] = \left\{-E_{\boldsymbol{\theta}}\!\left[\frac{\partial^2 \ell}{\partial \theta_j \partial \theta_k}\right]\right\}_{j,k} . \tag{식 B.2} \]

Fisher information 의 두 동치 정의

식 (B.2) 에 두 가지 동치 표현이 있다:

Outer-product 형식: $E[\mathbf{U} \mathbf{U}^t]$ — score 의 분산.

Hessian 형식: $-E[\partial^2 \ell / \partial \boldsymbol{\theta}^2]$ — 로그 우도의 음의 곡률 기댓값.

두 표현이 같음은 information identity (regularity 조건 하). 이 정체성은 score 가 평균 0 인 데서 출발 + 미분 가능 조건으로 나옴.

왜 “정보” 인가: $\mathbf{i}(\boldsymbol{\theta})$ 가 클수록 $\hat{\boldsymbol{\theta}}$ 가 정확하게 추정 가능 — Cramér-Rao 부등식 $\text{Var}(\hat{\boldsymbol{\theta}}) \geq \mathbf{i}^{-1}(\boldsymbol{\theta})$. 정보 행렬이 표본의 “정보량” 을 정량화.

2.3 Observed Information — 식 (B.3)

기댓값 계산이 어려우므로 (분포에 대한 적분 필요) 실용적으로는 관측 정보 행렬 사용:

\[ I_{j,k}(\boldsymbol{\theta}) = -\frac{\partial^2 \ell(\boldsymbol{\theta}; \mathbf{Y})}{\partial \theta_j \partial \theta_k} , \quad j, k = 1, \ldots, p . \tag{식 B.3} \]

기댓값 없이 Hessian 의 음수만. 표본 의존이지만 $n \to \infty$ 에서 $\mathbf{i}(\boldsymbol{\theta})$ 의 일치 추정량.

$\mathbf{i}(\theta)$ vs $\mathbf{I}(\theta)$ — 언제 무엇을 쓰나

Fisher (expected): 분포 가정이 정확한 경우 분석적 결과 좋음. 그러나 기댓값 계산이 거의 항상 어려움.

Observed: 표본만으로 계산 가능. 점근적으로 같은 결과. 실무 표준.

특히 검열 데이터 (생존 분석) 에서는 Fisher information 의 기댓값이 검열 분포에 의존해 매우 복잡 — observed information 이 거의 항상 사용된다.

3 단순 가설 — $H_0: \boldsymbol{\theta} = \boldsymbol{\theta}_0$

3.1 Likelihood Ratio Test — 식 (B.4)

\[ \chi^2_{LR} = -2[\ell(\boldsymbol{\theta}_0; \mathbf{Y}) - \ell(\hat{\boldsymbol{\theta}}; \mathbf{Y})] . \tag{식 B.4} \]

직관 — 우도의 세로 비교

$\ell(\hat{\boldsymbol{\theta}})$ 는 데이터에 가장 잘 맞는 모형의 로그 우도 (최대값). $\ell(\boldsymbol{\theta}_0)$ 는 가설이 옳다는 가정 하의 로그 우도.

차이 $\ell(\hat{\boldsymbol{\theta}}) - \ell(\boldsymbol{\theta}_0) \geq 0$ 가 항상 음이 아님 (MLE 가 가장 큰 우도를 줌).

이 차이가 클수록 가설이 의심스럽다. $-2 \times$ 차이가 자연스럽게 $\chi^2$ 분포로 수렴 (Wilks 정리).

해석: “데이터를 (가설 모형 vs 일반 모형) 으로 설명할 때 우도가 얼마나 다른가?”

3.2 Wald Test — 식 (B.5)

\[ \chi^2_W = (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) . \tag{식 B.5} \]

직관 — 가로 거리, 정보로 정규화

$(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)$ 는 MLE 가 가설값에서 얼마나 떨어졌나의 벡터 거리.

이 거리를 그냥 쓰면 모수의 척도에 의존. $\mathbf{I}(\hat{\boldsymbol{\theta}})$ 로 정규화하면 표준편차 단위의 거리 가 된다 (정보 = 분산의 역수).

$^2_W = $ “MLE 와 가설값 사이의 정규화된 거리 제곱”. 큰 값 → 가설 기각.

스칼라 $p = 1$ 의 경우: $\chi^2_W = (\hat{\theta} - \theta_0)^2 / \widehat{\text{Var}}(\hat{\theta}) = z^2$, 일반 $z$-test 와 동치.

3.3 Score Test (Rao) — 식 (B.6)

\[ \chi^2_S = \mathbf{U}(\boldsymbol{\theta}_0)^t \mathbf{I}^{-1}(\boldsymbol{\theta}_0) \mathbf{U}(\boldsymbol{\theta}_0) . \tag{식 B.6} \]

직관 — 가설값의 score 가 0 에서 얼마나 떨어졌나

$\mathbf{U}(\boldsymbol{\theta}_0)$ 는 “가설값에서의 우도 기울기”. 가설이 옳으면 score 가 0 근처여야 함 (MLE 정의에 의해 $\mathbf{U}(\hat{\boldsymbol{\theta}}) = \mathbf{0}$).

$\mathbf{U}(\boldsymbol{\theta}_0)$ 가 0 에서 멀면 → 가설값이 데이터의 우도 최대점에서 떨어져 있다는 신호 → 가설 기각.

$\mathbf{I}^{-1}(\boldsymbol{\theta}_0)$ 로 정규화 — score 의 분산이 정보 행렬이라 정규화에 그 역수 사용 ($\mathbf{U} \sim N(\mathbf{0}, \mathbf{I})$ 가설 하).

실무 큰 장점: MLE $\hat{\boldsymbol{\theta}}$ 를 계산할 필요가 없다. 가설값 $\boldsymbol{\theta}_0$ 만 있으면 OK. EM 같은 무거운 최적화를 피할 수 있어 매력적.

이 점이 § 13.2 Commenges-Andersen score test 의 매력 — frailty 모형 적합 없이 검정 가능했던 이유.

3.4 점근 동등성 — Wilks 정리

세 통계량은 점근적으로 같다

$H_0$ 가 옳을 때:

\[ \chi^2_{LR}, \chi^2_W, \chi^2_S \xrightarrow{d} \chi^2_p \quad (n \to \infty) . \]

$p = $ 검정되는 모수 차원.

증명 스케치 (Wilks 정리):

$\hat{\boldsymbol{\theta}}$ 의 점근 분포: $\sqrt{n}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \xrightarrow{d} N(\mathbf{0}, \mathbf{i}^{-1}(\boldsymbol{\theta}_0))$ (MLE 점근 정규성).
Taylor 전개로 $\ell(\hat{\boldsymbol{\theta}}) - \ell(\boldsymbol{\theta}_0) \approx \frac{1}{2} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\boldsymbol{\theta}_0) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)$ → $\chi^2_{LR} \approx \chi^2_W$.
Score 의 점근: $\mathbf{U}(\boldsymbol{\theta}_0) \xrightarrow{d} N(\mathbf{0}, \mathbf{i}(\boldsymbol{\theta}_0))$ → $\chi^2_S \xrightarrow{d} \chi^2_p$.
Taylor 전개로 $\mathbf{U}(\boldsymbol{\theta}_0) \approx -\mathbf{I}(\boldsymbol{\theta}_0)(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)$ → 점근적으로 $\chi^2_W = \chi^2_S$.

결론: 큰 표본에서 셋 다 같은 결정. 작은 표본에서는 다를 수 있고, 어느 것이 더 정확한지는 우도 함수의 모양에 의존.

3.5 작은 표본에서의 차이

우도의 비대칭이 결과를 가른다

우도 함수가 정확히 quadratic 이면 세 통계량이 정확히 같다. 비대칭이거나 곡률이 모수에 따라 변하면 다르다.

통계량	강점	약점
LR	변환 불변 (parametrization-invariant)	$\hat{\boldsymbol{\theta}}$ + $\boldsymbol{\theta}_0$ 두 우도 모두 평가
Wald	$\hat{\boldsymbol{\theta}}$ 만 사용 (계산 간단)	변환 불변 X (모수화 의존)
Score	$\hat{\boldsymbol{\theta}}$ 불필요 (가설값만)	신뢰구간 구성 어려움

LR 의 변환 불변성: $\theta$ 대신 $\eta = g(\theta)$ 로 다시 모수화해도 같은 통계량 값 — 자연스러운 성질. Wald 는 그렇지 않음 (예: $\theta = 0.5$ vs $\eta = \ln(\theta/(1-\theta)) = 0$ 이 같은 모형이지만 Wald 통계량은 다름).

일반적 권고: LR 가 작은 표본에서 가장 신뢰할 만함. Wald 는 계산 편의 (signed sqrt 가 z-test) 로 자주 쓰임. Score 는 nuisance 모수가 있는 경우 매력 (다음 절).

3.6 Example B.1 — 지수 분포 단순 가설

3.6.1 셋업

지수 분포 $f(t) = \lambda e^{-\lambda t}$ 의 검열 표본 $(T_i, \delta_i)$, $i = 1, \ldots, n$. 검정 $H_0: \lambda = 1$.

핵심 양:

$D = \sum \delta_i$: 사건 수
$S = \sum T_i$: total time on test (Ch.3.5)

우도 (검열 데이터):

\[ L(\lambda) = \prod_i \lambda^{\delta_i} e^{-\lambda T_i} = \lambda^D e^{-\lambda S} . \]

\[ \ell(\lambda) = D \ln \lambda - \lambda S . \tag{식 B.7} \]

\[ U(\lambda) = \frac{D}{\lambda} - S . \tag{식 B.8} \]

\[ I(\lambda) = -\frac{d^2 \ell}{d\lambda^2} = \frac{D}{\lambda^2} . \tag{식 B.9} \]

MLE: $U(\hat{\lambda}) = 0 \Rightarrow \hat{\lambda} = D/S$.

3.6.2 세 통계량 계산

Score (식 B.6): 가설값 $\lambda_0 = 1$:

\[ \chi^2_S = U(1)^2 \cdot I^{-1}(1) = (D - S)^2 \cdot \frac{1^2}{D} = \frac{(D - S)^2}{D} . \]

Wald (식 B.5): MLE $\hat{\lambda} = D/S$:

\[ \chi^2_W = (\hat{\lambda} - 1)^2 \cdot I(\hat{\lambda}) = (D/S - 1)^2 \cdot \frac{D}{(D/S)^2} = \frac{(D - S)^2}{D} . \]

LR (식 B.4):

\[ \chi^2_{LR} = -2\{\ell(1) - \ell(\hat{\lambda})\} = -2\{(D \ln 1 - S) - (D \ln(D/S) - D)\} = 2[S - D + D \ln(D/S)] . \]

결과 — Wald = Score, LR 다름

이 단순 사례에서:

$\chi^2_W = \chi^2_S = (D-S)^2 / D$ — 정확히 같다.
$\chi^2_{LR} = 2[S - D + D \ln(D/S)]$ — 다른 형태이지만 점근적으로 같은 분포.

세 통계량 모두 $\chi^2_1$ 점근.

왜 W = S 가 나왔는가: 지수 분포는 single parameter, 우도가 거의 quadratic 형태 → 점근 동등성이 정확하게 성립. 대부분의 분포는 W ≠ S.

수치 예: $D = 10, S = 12$ → $\chi^2_W = \chi^2_S = (10-12)^2/10 = 0.4$. $\chi^2_{LR} = 2[12 - 10 + 10 \ln(10/12)] = 2[2 + 10 \times (-0.182)] = 2[2 - 1.82] = 0.36$. 비슷하지만 약간 다름. $\chi^2_1$ 임계값 3.84 와 비교 → 비유의.

4 복합 가설 — Nuisance 모수 처리

4.1 셋업

모수 $\boldsymbol{\theta} = (\boldsymbol{\psi}, \boldsymbol{\phi})$, 여기서:

$\boldsymbol{\psi} \in \mathbb{R}^{p_1}$: 검정 대상 모수
$\boldsymbol{\phi} \in \mathbb{R}^{p_2}$: nuisance 모수 (검정 대상 아니지만 모형에 필요)

가설: $H_0: \boldsymbol{\psi} = \boldsymbol{\psi}_0$, $\boldsymbol{\phi}$ 는 자유.

직관 — Nuisance 의 처리

전형적 사례:

Cox 회귀: 처치 효과 ($\beta_1$) 가 0 인지 검정. 다른 보정 변수 ($\beta_2, \ldots, \beta_p$) 는 nuisance.
두 그룹 비교: 효과 차이 ($\beta = 0$) 검정. 베이스라인 위험 ($\lambda$) 은 nuisance.
Frailty test: $\theta = 0$ 검정. 회귀 계수 $\boldsymbol{\beta}$ 는 nuisance.

각 검정마다 nuisance 처리 방식이 다르다:

LR: $H_0$ 하 profile MLE $\hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)$ + 일반 MLE $\hat{\boldsymbol{\theta}}$ — 두 우도 비교.
Wald: 일반 MLE $\hat{\boldsymbol{\theta}}$ 만 + 정보 행렬 partition 의 $\boldsymbol{\psi}$ 부분.
Score: $H_0$ 하 profile MLE 만 — 가장 가벼운 적합.

4.2 Information Matrix Partition — 식 (B.10), (B.11)

\[ \mathbf{I} = \begin{pmatrix} \mathbf{I}_{\psi\psi} & \mathbf{I}_{\psi\phi} \\ \mathbf{I}_{\phi\psi} & \mathbf{I}_{\phi\phi} \end{pmatrix} , \tag{식 B.10} \]

블록 차원: $\mathbf{I}_{\psi\psi}$ 는 $p_1 \times p_1$, $\mathbf{I}_{\phi\phi}$ 는 $p_2 \times p_2$, $\mathbf{I}_{\psi\phi}$ 는 $p_1 \times p_2$, $\mathbf{I}_{\phi\psi} = \mathbf{I}_{\psi\phi}^t$.

역행렬도 partition:

\[ \mathbf{I}^{-1} = \begin{pmatrix} \mathbf{I}^{\psi\psi} & \mathbf{I}^{\psi\phi} \\ \mathbf{I}^{\phi\psi} & \mathbf{I}^{\phi\phi} \end{pmatrix} . \tag{식 B.11} \]

$\mathbf{I}^{\psi\psi} \neq \mathbf{I}_{\psi\psi}^{-1}$ — Schur 보수

핵심 차이: $\mathbf{I}^{\psi\psi}$ (역행렬의 $(\psi, \psi)$ 블록) 는 $\mathbf{I}_{\psi\psi}^{-1}$ ($(\psi, \psi)$ 블록의 역수) 와 다르다.

Schur 보수 공식:

\[ \mathbf{I}^{\psi\psi} = (\mathbf{I}_{\psi\psi} - \mathbf{I}_{\psi\phi} \mathbf{I}_{\phi\phi}^{-1} \mathbf{I}_{\phi\psi})^{-1} . \]

$\mathbf{I}^{\psi\psi}$ 가 $\boldsymbol{\psi}$ 의 marginal 분산 (nuisance 보정 후), $\mathbf{I}_{\psi\psi}^{-1}$ 는 $\boldsymbol{\phi}$ 가 알려진 경우의 분산.

왜 nuisance 보정이 필요한가: $\boldsymbol{\phi}$ 도 추정해야 하므로 그 추정 오차가 $\boldsymbol{\psi}$ 의 분산을 부풀린다. Schur 보수가 이 부풀림을 정확히 반영.

생존 분석 본문에서 자주 등장 — Cox 모형의 단일 회귀 계수 SE 가 다른 계수의 추정 변동성을 포함한 형태.

4.3 Likelihood Ratio Test — 식 (B.12)

\[ \chi^2_{LR} = -2\{\ell[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0); \mathbf{Y}] - \ell(\hat{\boldsymbol{\theta}}; \mathbf{Y})\} . \tag{식 B.12} \]

여기서 $\hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)$ 는 profile MLE — $\boldsymbol{\psi}$ 를 $\boldsymbol{\psi}_0$ 로 고정한 채 $\boldsymbol{\phi}$ 만 최대화한 추정.

직관 — 두 모형의 우도 비교

제약 모형 ($\boldsymbol{\psi} = \boldsymbol{\psi}_0$ 가설 하): $\ell[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)]$. 가설이 옳다고 가정하고 nuisance 만 최적화한 우도.

일반 모형 (제약 없음): $\ell(\hat{\boldsymbol{\theta}})$. 모든 모수 자유 추정.

차이가 큼 → 제약 (가설) 이 데이터에 맞지 않음 → 가설 기각.

$\chi^2_{LR} \xrightarrow{d} \chi^2_{p_1}$, 자유도 = 검정되는 모수 수.

4.4 Wald Test — 식 (B.13)

\[ \chi^2_W = (\hat{\boldsymbol{\psi}} - \boldsymbol{\psi}_0)^t [\mathbf{I}^{\psi\psi}(\hat{\boldsymbol{\psi}}, \hat{\boldsymbol{\phi}})]^{-1} (\hat{\boldsymbol{\psi}} - \boldsymbol{\psi}_0) . \tag{식 B.13} \]

직관 — Marginal 분산 사용

식 (B.13) 의 $\mathbf{I}^{\psi\psi}$ 는 식 B.11 의 partition 역행렬의 $\boldsymbol{\psi}$ 블록 — nuisance 보정된 $\hat{\boldsymbol{\psi}}$ 의 marginal 분산.

따라서 Wald 의 거리 정규화에 nuisance 의 추정 변동성이 자동 반영. 일반 MLE $\hat{\boldsymbol{\theta}}$ 만 필요 (제약 모형 적합 X).

실무 매력: Cox 회귀의 SE 출력에서 직접 통계량 계산. 한 변수 검정에 가장 자주 사용.

4.5 Score Test (Rao) — 식 (B.14)

\[ \chi^2_S = \mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)]^t \mathbf{I}^{\psi\psi}[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] \mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] . \tag{식 B.14} \]

직관 — 제약 모형만 적합

$\mathbf{U}_\psi$ 는 score 벡터의 $\boldsymbol{\psi}$ 부분. 이를 제약 모형 ($\boldsymbol{\psi} = \boldsymbol{\psi}_0$ 고정 + $\boldsymbol{\phi}$ profile MLE) 에서 평가.

귀무 모형이 옳으면 $\mathbf{U}_\psi[\boldsymbol{\psi}_0, \hat{\boldsymbol{\phi}}(\boldsymbol{\psi}_0)] \approx \mathbf{0}$ — 가설값에서 score 가 0 근처여야.

이 score 가 0 에서 멀면 → 가설값이 자료의 우도 최대점에서 떨어져 있다 → 기각.

실무 큰 매력: 일반 MLE $\hat{\boldsymbol{\theta}}$ 불필요. 무거운 최적화 (예: frailty EM) 없이 검정 가능. § 13.2 Commenges-Andersen 가 이 패턴.

주의: 식 (B.14) 의 $\mathbf{I}^{\psi\psi}$ 는 inverse 가 아닌 그 자체 (식 B.6 와 부호 다름). Score 의 분산이 정보 행렬의 역수의 역수 — 즉 정보 행렬 자체로 정규화. 식 (B.6) 의 $\mathbf{I}^{-1}$ 와 형식 차이 주의.

세 통계량 모두 $\chi^2_{LR}, \chi^2_W, \chi^2_S \xrightarrow{d} \chi^2_{p_1}$.

4.6 Example B.2 — 두 지수 그룹 비교

4.6.1 셋업

두 지수 분포 그룹:

그룹 1: $h_1(t) = \lambda$
그룹 2: $h_2(t) = \lambda \beta$

$\beta$ 는 그룹 2 의 그룹 1 대비 위험비. 가설: $H_0: \beta = 1$ (두 그룹 같은 위험률), $\lambda$ 는 nuisance.

각 그룹의 사건 수 $D_i$, total time on test $S_i$ ($i = 1, 2$).

4.6.2 우도

\[ L(\lambda, \beta) = \lambda^{D_1 + D_2} \beta^{D_2} \exp(-\lambda S_1 - \lambda \beta S_2) . \tag{식 B.15} \]

\[ \ell(\beta, \lambda) = (D_1 + D_2) \ln \lambda + D_2 \ln \beta - \lambda S_1 - \lambda \beta S_2 . \tag{식 B.16} \]

4.6.3 Score 와 Information

\[ U_\beta = \frac{D_2}{\beta} - \lambda S_2 , \quad U_\lambda = \frac{D_1 + D_2}{\lambda} - S_1 - \beta S_2 . \tag{식 B.17, B.18} \]

\[ I_{\beta\beta} = \frac{D_2}{\beta^2} , \quad I_{\lambda\lambda} = \frac{D_1 + D_2}{\lambda^2} , \quad I_{\beta\lambda} = S_2 . \tag{식 B.19, B.20, B.21} \]

4.6.4 MLE

$U_\beta = 0, U_\lambda = 0$ 에서:

\[ \hat{\beta} = \frac{S_1 D_2}{S_2 D_1} , \quad \hat{\lambda} = \frac{D_1}{S_1} . \]

직관: $\hat{\lambda}$ 는 그룹 1 의 단순 MLE (그룹 1 만 사용). $\hat{\beta}$ 는 그룹 2 의 위험률 / 그룹 1 의 위험률 = $(D_2/S_2) / (D_1/S_1)$. 즉 $\hat{\beta}$ = 두 그룹 위험률의 비.

4.6.5 Profile MLE — 제약 ($\beta = 1$) 하

$U_\lambda(\beta = 1) = 0$ 에서:

\[ \hat{\lambda}(1) = \frac{D_1 + D_2}{S_1 + S_2} . \]

직관: $\beta = 1$ (두 그룹 동일) 가설 하 모든 데이터를 합쳐 단일 지수 분포 추정 → pooled estimator.

4.6.6 LR Test 식 (B.12)

\[ \chi^2_{LR} = 2 D_1 \ln\!\left[\frac{D_1 (S_1 + S_2)}{S_1 (D_1 + D_2)}\right] + 2 D_2 \ln\!\left[\frac{D_2 (S_1 + S_2)}{S_2 (D_1 + D_2)}\right] . \]

LR 식의 직관 — 그룹별 관측-기대 비교

각 그룹 $i$ 에 대해: - 관측 = $D_i$ (그 그룹의 실제 사건 수) - 기대 = $\hat{\lambda}(1) S_i = (D_1 + D_2)/(S_1 + S_2) \cdot S_i$ (pooled rate × 그 그룹의 노출)

비율 $\frac{D_i}{\hat{\lambda}(1) S_i} = \frac{D_i (S_1 + S_2)}{S_i (D_1 + D_2)}$ — log-rank 검정의 그룹별 관측/기대 비와 같은 형태.

LR 통계량은 두 그룹의 $D_i \ln(\text{관측}/\text{기대})$ 합 — Poisson regression 의 deviance 형태와 동일.

4.6.7 Wald Test 식 (B.13)

식 B.11 의 partition 으로 $I^{\beta\beta}$ 계산:

\[ \chi^2_W = \frac{D_1^2 (S_1 D_2 - S_2 D_1)^2}{D_2 S_1^2 (D_1 + D_2)} . \]

4.6.8 Score Test 식 (B.14)

\[ \chi^2_S = \frac{[D_2 (S_1 + S_2) - (D_1 + D_2) S_2]^2}{D_2 (S_1 + S_2)^2 - (D_1 + D_2) S_1^2} . \]

(분자가 $D_2 S_1 - D_1 S_2$ 의 형태로 정리 가능 — 그룹 차이의 제곱.)

4.6.9 수치 예 — Klein 본문

$D_1 = 10, D_2 = 12, S_1 = 25, S_2 = 27$ 대입:

통계량	값
$\chi^2_{LR}$	0.0607
$\chi^2_W$	0.0545
$\chi^2_S$	0.0448

결과 해석

세 통계량 모두 $\chi^2_1$ 의 5 % 임계값 $3.841$ 보다 훨씬 작음 → 모두 비유의.

결론: $H_0: \beta = 1$ 기각 안 함. 두 그룹의 위험률에 통계적으로 유의한 차이 없음.

세 통계량의 차이:

작은 표본에서 비대칭 우도로 인해 $\chi^2_{LR} = 0.0607 \neq \chi^2_W = 0.0545 \neq \chi^2_S = 0.0448$.
그러나 점근적으로 같은 결정 (모두 비유의).
일반적으로 $\chi^2_{LR}$ 이 가장 신뢰할 만하지만 (변환 불변), 이 사례에서는 모두 일관 결론.

직관: $\hat{\beta} = (S_1 D_2)/(S_2 D_1) = (25 \times 12)/(27 \times 10) = 300/270 = 1.111$ — $\beta = 1$ 에서 약 11 % 떨어졌지만 표본이 작아 ($D_1 = 10, D_2 = 12$) 유의 수준 도달 못함.

5 세 검정의 실무 권고

어느 검정을 언제 쓰나

상황	권장
일반적, 큰 표본	LR — 변환 불변, 가장 견고
한 변수 t-test 형태	Wald — `summary(fit)` 출력의 표준
MLE 비싼 모형 (frailty EM 등)	Score — 제약 모형만 적합
모수 공간 경계 가설 ($\theta = 0$ 등)	Score — 점근 정칙 더 강건
신뢰구간 inversion	LR — 가장 정확
작은 표본	LR > Wald > Score (일반적)

일관성: 가능하면 세 검정을 모두 계산하고 일관된 결론을 확인. 큰 차이가 나면 우도 함수의 비대칭 또는 점근 근사의 부정확을 의심.

6 본문에서의 응용 — Klein 책의 검정들

Cox 모형 (Ch.8)

Wald test: coxph() 의 summary(fit) 출력의 z-test. $\beta_k$ 의 marginal 검정.

LR test: 제약 모형 (변수 제거) 과 일반 모형의 우도 비교 — anova(fit_null, fit_full). 변수 추가의 유의성.

Score test: 변수 추가의 score-based 검정 — anova(fit, scoretest = TRUE) 또는 직접 계산. 큰 모형 적합 부담 회피.

Frailty Models (Ch.13)

Score test for $\theta = 0$ (Commenges-Andersen): § 13.2 의 핵심. 일반 Cox 만 적합하고 frailty 의 score 통계량 계산.

Wald test for $\theta$: § 13.3 의 EM 후 $\hat{\theta} / SE(\hat{\theta})$. 모수 경계 ($\theta \geq 0$) 라 점근 정칙 약함.

LR test for $\theta = 0$: $-2[\ell_{\text{Cox}} - \ell_{\text{frailty}}]$. 분포가 정확히 $\chi^2$ 가 아니라 $0.5 \chi^2_0 + 0.5 \chi^2_1$ — 모수 경계 효과.

모수 회귀 (Ch.12)

LR test for nested 분포: Weibull vs 지수 ($\sigma = 1$). $\chi^2_{LR} = -2[\ell_{\text{exp}} - \ell_{\text{Wei}}]$, $\chi^2_1$.

Wald test for 분포 모수: survreg() 출력의 t-statistic.

일반화 감마의 $\theta$: $\theta = 1$ (Weibull) 또는 $\theta = 0$ (로그정규) 의 LR/Wald — § 12.4.

7 코드 예시

7.1 Step 1 — R: 세 검정의 직접 비교

library(survival)

# Example B.2 데이터: 두 그룹 지수 분포
d <- data.frame(
  time = c(rep(c(2.5, 2.5), 5), rep(c(2.25), 12)),  # 단순화 예
  event = c(rep(1, 10), rep(1, 12)),
  group = c(rep(1, 10), rep(2, 12))
)
# D_1 = 10, D_2 = 12, S_1 = 25, S_2 = 27 가정

# 1. LR test — 제약 vs 일반 모형
fit_null <- survreg(Surv(time, event) ~ 1, dist = "exponential", data = d)
fit_full <- survreg(Surv(time, event) ~ group, dist = "exponential", data = d)
chi_LR <- 2 * (fit_full$loglik[2] - fit_null$loglik[2])
cat("LR:", chi_LR, "p =", 1 - pchisq(chi_LR, df = 1), "\n")

# 2. Wald test — 일반 모형의 z-statistic
summary(fit_full)
# coef$z 의 제곱이 chi^2_W (df=1)

# 3. Score test — 직접 구현 또는 anova()
# anova() 는 R 의 LRT 가 default
anova(fit_null, fit_full)

7.2 Step 2 — Python: scipy.stats.chi2 로 직접

import numpy as np
from scipy.stats import chi2

# Klein Example B.2 의 직접 계산
D1, D2, S1, S2 = 10, 12, 25, 27

# Profile MLE under H_0: beta = 1
lam_pooled = (D1 + D2) / (S1 + S2)

# General MLE
beta_hat = (S1 * D2) / (S2 * D1)
lam_hat = D1 / S1

# 1. LR test (식 B.12)
ll_null = (D1 + D2) * np.log(lam_pooled) - lam_pooled * (S1 + S2)
ll_full = (D1 + D2) * np.log(lam_hat) + D2 * np.log(beta_hat) - lam_hat * S1 - lam_hat * beta_hat * S2
chi_LR = -2 * (ll_null - ll_full)

# 2. Wald test (식 B.13)
chi_W = D1**2 * (S1 * D2 - S2 * D1)**2 / (D2 * S1**2 * (D1 + D2))

# 3. Score test (식 B.14)
chi_S = ((D2 * (S1 + S2) - (D1 + D2) * S2)**2
         / (D2 * (S1 + S2)**2 - (D1 + D2) * S1**2))

# 모두 chi^2_1 임계 3.841 와 비교
for name, stat in [("LR", chi_LR), ("Wald", chi_W), ("Score", chi_S)]:
    p = 1 - chi2.cdf(stat, df=1)
    print(f"{name}: chi^2 = {stat:.4f}, p = {p:.4f}")

# 출력: LR: 0.0607, Wald: 0.0545, Score: 0.0448 (Klein 본문 값과 일치)

7.3 Step 3 — Cox 모형의 세 검정 자동 출력

library(survival)
library(survminer)

# Cox 모형 적합 후 세 검정 자동 비교
fit <- coxph(Surv(time, status) ~ x + z, data = mydata)
summary(fit)
# 출력:
#   - "Wald test = X on p df, p = ..."
#   - "Score (logrank) test = X on p df, p = ..."
#   - "Likelihood ratio test = X on p df, p = ..."
# 세 검정 동시 출력 — Cox 의 default

8 핵심 요약

Appendix B 한 줄 요약

가능도 이론은 가설 $H_0: \boldsymbol{\theta} = \boldsymbol{\theta}_0$ 에 대해 세 가지 검정을 제공한다 — LR $\chi^2_{LR} = -2[\ell(\boldsymbol{\theta}_0) - \ell(\hat{\boldsymbol{\theta}})]$ (식 B.4, 우도 세로 비교), Wald $\chi^2_W = (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^t \mathbf{I}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)$ (식 B.5, 가로 거리 + 정보 정규화), Score $\chi^2_S = \mathbf{U}(\boldsymbol{\theta}_0)^t \mathbf{I}^{-1}(\boldsymbol{\theta}_0) \mathbf{U}(\boldsymbol{\theta}_0)$ (식 B.6, 가설값 score 의 0 으로부터 거리). 세 통계량 모두 $H_0$ 하 $\chi^2_p$ 점근 분포 (Wilks). Nuisance 모수 $\boldsymbol{\phi}$ 가 있으면 식 B.10-B.14 의 partition 형태로 일반화 — Score 는 제약 모형만 (MLE 불필요), Wald 는 일반 모형만, LR 는 둘 다 필요. Klein Example B.2 의 두 지수 그룹 비교 ($D_1=10, D_2=12, S_1=25, S_2=27$) 결과: $\chi^2_{LR}=0.0607, \chi^2_W=0.0545, \chi^2_S=0.0448$ — 모두 비유의 ($\chi^2_1$ 임계 3.84 미만).

검정	식	직관	필요 모형
LR	식 (B.4), (B.12)	두 우도의 세로 차이	제약 + 일반 둘 다
Wald	식 (B.5), (B.13)	MLE 의 가로 거리 (정보 정규화)	일반 MLE 만
Score	식 (B.6), (B.14)	가설값 score 의 0 으로부터 거리	제약 모형만 (MLE 불필요)

5 가지 실무 권고

1. 작은 표본은 LR: 변환 불변, 우도 비대칭에 강건. 작은 표본에서 가장 정확.

2. 큰 표본은 모두 동등: $\chi^2_p$ 점근 분포로 수렴 (Wilks 정리). 어느 것이든 같은 결정.

3. MLE 비싼 모형은 Score: Frailty EM, 일반화 감마 등에서 score test (Commenges-Andersen 등) 가 무거운 적합 회피.

4. 신뢰구간은 LR-based: Wald CI 는 대칭 + 모수화 의존. LR-based CI (profile likelihood) 가 작은 표본에서 더 정확.

5. 일관성 점검: 가능하면 세 검정 모두 계산, 큰 차이 시 우도의 비대칭 또는 점근 근사 부정확 의심.

9 관련 주제

Klein Appendix 시리즈

Appendix A — Numerical Techniques for Maximization — MLE 계산 도구 (LR/Wald/Score 의 공통 계산 기반)
§ A.1 — Univariate Methods
§ A.2 — Multivariate Methods

본문 검정 응용

Ch.8 — Cox 비례위험 모형 — summary(coxph) 의 LR/Wald/Score 동시 출력
Ch.12 — 모수적 회귀 모형 — 분포 비교 LR (Weibull vs exponential)
§ 13.1-13.2 — Frailty + Score Test — Commenges-Andersen score test 의 본보기

관련 개념

Wilks’ theorem (Wikipedia) — LR 의 점근 분포
Cramér-Rao bound — Fisher information 의 의미
Profile likelihood (다양한 통계 교재)

10 참고 문헌

Klein, J. P., & Moeschberger, M. L. (2003). Survival Analysis: Techniques for Censored and Truncated Data (2nd ed.). Springer. Appendix B.
Cox, D. R., & Hinkley, D. V. (1974). Theoretical Statistics. Chapman and Hall. Chapter 9. (Klein 이 인용한 표준 reference)
Wilks, S. S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. Annals of Mathematical Statistics, 9(1), 60-62. (LR 점근 분포의 원전)
Wald, A. (1943). Tests of statistical hypotheses concerning several parameters when the number of observations is large. Trans. Amer. Math. Soc., 54(3), 426-482. (Wald test 의 원전)
Rao, C. R. (1948). Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation. Math. Proc. Cambridge Phil. Soc., 44(1), 50-57. (Score test 의 원전)
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 8-10. (수리통계 표준 — LR, Wald, Score 의 일반적 처리)

Klein Appendix B — Large-Sample Tests Based on Likelihood Theory