Conditional Likelihoods — Further Results and Exercises
정규 축약 우도 · REML 유도 · Fieller-Creasy · 사영 행렬 · 초기하 반복 (McCullagh §7.7)
Ch.7 조건부 우도의 심화 결과와 연습문제를 재구성한다. 정규 모형의 축약 우도와 Bartlett (1936) 결과, 공간 공분산의 REML 유도, Fieller-Creasy 문제, 사영 행렬과 일반화역행렬, 초기하 반복 알고리즘, 순서형 분산 근사, Ille-et-Vilaine 확장 모형을 다룬다.
Statistics
GLM
저자
Kwangmin Kim
공개
2026년 04월 18일
1 이 장의 위치
McCullagh §7.7은 Ch.7 전체를 관통하는 19개의 연습문제를 제시한다. 단순 계산 문제가 아니라, 조건부 우도 이론의 핵심 확장과 연결을 담고 있다:
Exercises 7.1-7.4: 정규 모형에서 축약 우도(reduced likelihood) \(l^*\) 와 조건부 우도의 관계 — Bartlett (1936)의 고전적 결과
Exercise 7.5: 공간 공분산 추정에서 REML의 정확한 유도
Exercises 7.6-7.7, 7.19: Fieller-Creasy 문제 — 정규 평균의 비(ratio)에 대한 조건부 추론
Exercises 7.8-7.13: 사영 행렬, 일반화역행렬, 잔차 벡터의 동치성 — REML의 행렬 대수적 기초
로 쓸 수 있다. \(S_0\) 가 \(\sigma^2\) 에 대한 지수족의 자연 통계량이므로 충분성은 인수분해 정리에서, 완전성은 \(S_0 / \sigma^2 \sim \chi^2_n\) 이 자연 지수족이므로 자동으로 따른다.
직관: \(\mu_0\) 가 알려져 있으면 각 관측값에서 \(\mu_0\) 를 빼고 제곱한 합이 \(\sigma^2\) 에 대한 모든 정보를 담는다. \(\mu\) 를 모르면 \(S(\bar{Y}) = \sum(Y_j - \bar{Y})^2\) 가 충분통계량이 되지만, 이때 자유도가 \(n-1\) 로 줄어든다 — 이것이 바로 REML의 직관적 기원이다.
\(l^*\) 는 \(\sigma^2\) 가 완전히 사라진 함수이다. \(S(\mu)\) 는 \(\mu\) 에서의 잔차제곱합이므로, \(l^*\) 는 “잔차를 가장 작게 만드는 \(\mu\)”를 찾는다 — 이는 최소제곱과 같은 답을 주지만, 정당화 경로가 다르다(조건부 우도를 경유). 지수 \((n-2)\) 가 \((n-1)\) 이 아닌 이유는 조건부 취함으로써 자유도가 하나 더 줄어들기 때문이다.
직관: \(l_c\) 의 미분은 \(\sigma^2\) 에 의존하지만 \(\bar{y}\) 에 대해 단조이므로 \(\mu\) 의 MLE는 항상 \(\hat{\mu} = \bar{y}\) 이다. 반면 \(U^*\) 는 \(\sigma^2\) 에 의존하지 않지만, 분모에 \((\bar{y} - \mu)^2\) 항이 있어 \(\bar{y}\) 에 대해 비단조이다.
특수한 경우:
\(n = 1\): \(l^* = -\frac{1}{2} \cdot (-1) \cdot \log S(\mu)\) — \(S(\mu) = (y - \mu)^2\) 이므로 \(l^*\) 가 \(\mu = y\) 에서 최대가 아니라 최소가 된다. \(l^*\) 는 의미 있는 우도가 아니다.
\(n = 2\): \(l^* = 0\) (상수). 데이터에 무관하게 \(\mu\) 에 대한 정보가 전혀 없다.
이 기이한 행동은 \(l^*\) 가 엄밀한 로그우도가 아님을 보여준다 — Exercise 7.5에서 이 점이 공식적으로 확인된다.
2.4 Exercise 7.4 — 조건부 모멘트와 Bartlett (1936)
\(S(\mu)\) 가 주어졌을 때 \(Y_i\) 와 \(Y_j\) 는 조건부 비상관(conditionally uncorrelated)이며 \(\operatorname{var}(Y_i \mid S(\mu)) = S(\mu)/n\) 이다. 따라서
직관: 기대 정보 = 분산 등식이 성립한다. 이것은 \(l^*\) 가 우도 함수의 핵심 성질 — Bartlett 항등식(information identity) — 을 만족함을 의미한다. Bartlett (1936)가 보인 이 결과는 조건부 우도 이론의 초기 성과 중 하나이다.
이 식은 REML(Restricted Maximum Likelihood) 의 정확한 형태이다.
첫째 항: 잔차의 가중 제곱합 — \((I - P_W)Y\) 가 “회귀 잔차”이고 이를 가중 내적한 것
둘째 항: \(-\frac{1}{2}\log\det\Sigma\) — 관측의 공분산 구조에 대한 벌점
셋째 항: \(+\frac{1}{2}\log\det(X^T \Sigma^{-1} X)\) — 이 항이 REML을 일반 ML과 구분짓는다. \(\beta\) 를 적분(marginalize)한 대가로 생기는 보정항이다.
패턴 인식: Exercises 7.1-7.4에서 \((n-2)\) 지수가 등장한 것은 스칼라 버전의 REML 보정이었다. 여기서는 행렬 버전으로 확장된 것이다.
\(l^*\) 는 \(\beta\) 에 의존하지 않는다 — 장해 모수가 완전히 소거되었다.
그러나 \(X = I\) (즉 관측 수 = 모수 수)를 대입하면 \(l^*\) 가 로그우도 함수가 아님을 보일 수 있다. 이는 축약 함수가 일반적으로 진정한 우도가 아니라 근사적 우도(approximate likelihood)라는 사실을 확인한다.
4 Fieller-Creasy 문제 (Exercises 7.6–7.7, 7.19)
4.1 문제 설정
\(Y_1, Y_2\) 가 독립이고 \(Y_i \sim N(\mu_i, 1)\) 일 때 관심 모수는 평균의 비:
\[
\psi = \mu_2 / \mu_1.
\]
이 문제는 §7.2.2 끝에서 언급된 Fieller-Creasy 문제의 구체적 전개이다.
4.2 Exercise 7.6 — 조건부 분포의 비유일성
\(Y_1 + \psi Y_2 = C\) 를 조건으로 하면 \(\psi Y_1 - Y_2\) 의 조건부 분포는 \(\psi\) 에만 의존하고 \(\mu_1\) 에는 의존하지 않는다. 그러나 \(Y_1\) 단독의 조건부 분포나 \(Y_2\) 단독의 조건부 분포는 서로 다른 “우도”를 유도한다.
직관: 장해 모수를 소거하는 충분통계량이 \(\psi\) 에 의존하므로 (\(S_\lambda(\psi) = Y_1 + \psi Y_2\)), 서로 다른 \(\psi\) 값에서 서로 다른 통계량으로 조건부를 취하게 된다. 이것이 조건부 우도의 근본적 한계 — 조건부 통계량의 \(\psi\)-의존성 — 이다.
4.3 Exercise 7.7 — 조건부 vs 주변 MLE
식 (7.2)를 사용한 조건부 MLE와 §7.2.1의 잔차 기반 주변 MLE를 비교하면:
조건부 MLE: \(\hat{\psi}_c\) 는 \((Y_1 + \psi Y_2)\) 의 충분성에 기반
\[
R^T \Sigma_I^{-} R = R_W^T \Sigma_W^{-} R_W = Y^T W Y - Y^T \Sigma^{-1} P_W Y.
\]
직관 — 왜 이 동치가 중요한가
실무에서 REML을 구현할 때, “OLS 잔차 \(R\) 에 기반한 우도”와 “GLS 잔차 \(R_W\) 에 기반한 우도”가 동일하다는 사실은 구현의 자유도를 준다. 어느 잔차를 사용하든 같은 REML 추정값을 얻으므로, 수치적으로 안정적인 쪽을 선택하면 된다. lme4 등의 혼합모형 패키지는 이 동치를 활용하여 효율적인 REML 계산을 수행한다.
6 초기하 반복 알고리즘 (Exercise 7.14)
6.1 식 (7.11)-(7.12)의 반복 풀이
§7.3에서 비중심 초기하 \(H(m, s; \psi)\) 의 평균 \(\mu_{11}\) 과 분산 \(\kappa_2\) 가 동시에 다음 연립방정식을 만족한다:
직관: 단계 (iii)는 Newton-Raphson의 한 스텝이다. 비중심 초기하가 지수족이므로 \(\log \psi\) 가 자연 모수이고, \(\mu_{11}\) 이 평균 모수이며, \(\kappa_2 = \partial \mu_{11} / \partial(\log \psi)\) 가 정보(information)이다. 따라서 “현재 오즈비에서 목표 오즈비까지의 자연 모수 차이 \(\times\) 정보 = 평균의 보정량”이 된다.
초기값이 나쁘면 \(\mu_{11}\) 이 허용 범위 밖으로 나갈 수 있으므로 범위 제한이 필요하다. 수렴은 일반적으로 매우 빠르다 (Liao, 1988).
두 공식은 동일하지 않지만 수치적으로 매우 유사하다. Table 7.3 데이터에서 차이는 약 0.5% 이다.
직관: 둘째 공식은 \(d_j\) 를 \(\widetilde{V}\) 의 대각 원소로 근사한 것이다. 도수가 극단적으로 불균등하지 않은 한 이 근사는 매우 정확하다. 실무에서는 어느 공식을 사용하든 결론이 동일하다.
7.2 Exercise 7.16 — 미사용 범주의 삭제
특정 범주에 응답이 전혀 없으면 (\(s_j = 0\)), 그 범주를 삭제해도 추정 방정식 (7.26)에 영향이 없다.
직관: \(s_j = 0\) 이면 \(S_{j-1} = S_j\) 이므로 연속된 두 절단점에서의 조건부 분포가 동일해지고, 해당 항이 텔레스코핑(telescoping)으로 상쇄된다. 이는 데이터가 결정하는 “유효 범주 수”만이 추정에 기여함을 의미한다.
7.3 Exercise 7.17 — 가중치의 전역 의존성
추정 방정식 (7.26)의 가중치 \(w_j^* = (\zeta_j + \zeta_{j+1}) / \zeta_\cdot\) 는 \(S_j\) 뿐만 아니라 전체 벡터 \(S\) 에 의존한다. 이것은 (7.25)의 “각 \(w_j^*\) 가 \((\psi, S_j)\) 에만 의존” 조건을 위반한다.
직관: 이론적 최적 가중치를 정확히 사용하려면 전체 주변 합계 정보가 필요하다. 그러나 가중치 선택이 효율에 미치는 영향은 작으므로 (§7.5.2 본문에서 “at worst a small loss of efficiency”), 이 위반은 실무적으로 무해하다. 단순 가중치 \(w_j^* = 1\) 또는 \(w_j^* = S_j(m_\cdot - S_j)\) 도 일치추정량을 주며, 효율 손실은 미미하다.
8 Ille-et-Vilaine 확장 모형 (Exercise 7.18)
8.1 구간별 상수 오즈비 모형
§7.4.3에서 세 모형을 비교했다. Exercise 7.18은 네 번째 모형을 추가한다: 75세 미만에서는 오즈비가 상수이고, 75세 이상에서는 다른 값을 가지는 모형이다.
직관: Table 7.2에서 75세 이상 층은 비암-고알코올 칸이 0이어서 오즈비가 \(\infty\) 이다. 또한 25-34세 층은 암-저알코올이 0이어서 역시 오즈비가 \(\infty\) 이다. 이 두 극단 층이 모형 (ii)의 이탈도를 주로 부풀리고 있다.
75세 이상을 분리하면 이탈도가 모형 (iii)의 선형 경향보다 더 많이 감소할 가능성이 있다. 그러나 이 모형은 데이터를 보고 선택한 것이므로 유의수준에 선택 효과(selection effect) 보정이 필요하다 — 이탈도 감소량 자체가 아니라, “가능한 모든 구간 분할 중 최선을 선택했다”는 사실을 고려해야 한다.
축약 우도와 REML: 정규 모형에서 \(l^*(\mu) = -\frac{1}{2}(n-2)\log S(\mu)\) 는 \(\sigma^2\) 를 소거한 축약 우도이다. 다변량으로 확장하면 REML의 정확한 형태 \(l^* = -\frac{1}{2}Y^T\Sigma^{-1}(I - P_W)Y - \frac{1}{2}\log\det\Sigma + \frac{1}{2}\log\det(X^T\Sigma^{-1}X)\) 가 된다. 이 함수는 \(\beta\) 에 의존하지 않지만 엄밀한 우도는 아니다.
Fieller-Creasy: 충분통계량이 관심 모수 \(\psi\) 에 의존할 때 조건부 우도의 한계가 드러난다. 편향 보정이 가능하지만 추정 방정식이 복잡해진다.
초기하 반복: Exercise 7.14의 알고리즘은 지수족의 \(\partial\mu/\partial\theta = \kappa_2\) 성질을 활용한 Newton-Raphson 스텝이며, 비중심 초기하의 평균과 분산을 수치적으로 빠르게 구한다.
Subscribe
Enjoy this blog? Get notified of new posts by email: