Kwangmin Kim - Optimality Criteria — 준스코어의 최적성을 엄밀히 증명하기

1 개요 — “최적” 이라는 말의 무게

§9.2 이래 지금까지 준스코어 \(U = D^\top V^{-1}(Y-\mu)\) 와 그 일반형 (9.15) 가 “최적” 이라고 반복해서 주장해 왔다. §9.5 는 이 주장의 정확한 의미 를 명시한다.

핵심 문제 제기: “최적” 이라는 말을 쓰려면 두 가지를 분명히 해야 한다 — (1) 무엇과 비교 하는가 (비교 클래스), (2) 어떤 기준 으로 좋은가 (비교 기준).

§9.3.3 Voter Transition 예제에서 준우도 추정량이 최대우도 추정량보다 덜 효율적 일 수 있음을 이미 보았다. 즉 준스코어의 최적성은 대역적(global) 이 아니다 — 모든 추정량 중에서 제일 좋다는 뜻이 아니다. 그렇다면 정확히 어떤 의미에서 최적인가.

1.1 이 장의 결론 요약

§9.5 의 주장 (정확한 버전)

선형 추정함수 클래스 \[ \mathcal{H} = \left\{h(y;\beta) = H^\top (y - \mu(\beta)) : H \in \mathbb{R}^{n\times p}, \; H = H(\beta) \right\} \] 내에서, 준스코어 해 \(\widehat{\beta}\) 는 점근적으로 Löwner 순서의 의미에서 최소 분산 이다. 즉 임의의 \(h \in \mathcal{H}\) 의 해 \(\widetilde{\beta}\) 에 대해 \[ \operatorname{cov}(\widetilde{\beta}) - \operatorname{cov}(\widehat{\beta}) \; \succeq \; 0 \quad (\text{NND 행렬}). \]

“선형” 제약의 의미. \(h\) 가 잔차 \((y - \mu)\) 에 대해 선형 이라는 조건은 실제 GLM·GEE·IRLS 등 대부분의 추정함수를 포괄하지만, 비선형 추정함수 (예: \((y - \mu)^2\) 을 쓰는 제2차 모멘트 조건, 랭크 기반 추정함수) 는 배제한다. 정확한 분포를 알면 MLE 는 클래스 \(\mathcal H\) 밖에서 더 효율적일 수 있으므로, 준스코어의 최적성은 “실용적이고 계산 가능한 클래스 안에서의 최적” 이라는 조건부 주장으로 읽어야 한다.

이 장의 목적은 위 부등식을 사영(projection) 관점 에서 증명하고, 각 가정 — 선형성, 점근성, 조건화 — 이 어디서 본질적으로 쓰이는지 드러내는 것이다.

2 비교 클래스 — 선형 추정함수

2.1 정의

정의: 선형 추정함수 (Linear Estimating Function)

\(n \times p\) 행렬 \(H = H(\beta)\) (\(\beta\) 에만 의존, \(y\) 에는 의존하지 않음) 에 대해 \[ h(y; \beta) = H^\top (y - \mu(\beta)) \tag{9.18} \] 꼴을 선형 추정함수 라 한다. 추정량 \(\widetilde{\beta}\) 는 \(h(y; \widetilde{\beta}) = 0\) 의 유일한 해로 정의된다.

2.2 왜 이 클래스를 선택하는가

이유	설명
공간이 선형	\(y - \mu(\beta)\) 는 영평균 벡터고, 선형결합의 집합은 벡터 공간을 이룬다. 최소화 문제를 풀기 쉽다
준스코어 포함	\(H = V^{-1} D\) 로 놓으면 \(h = D^\top V^{-1}(y-\mu) = U\) (준스코어). 즉 준스코어가 이 클래스의 한 원소임
Gauss-Markov 유비	정규분포 가정 없이도 “선형 편향없음” 추정량 내에서 최소분산을 논할 수 있는 선형모형 장치의 자연스러운 일반화
충분히 넓다	대부분 GLM 추정 방법이 이 클래스 안에 들어간다 (OLS, WLS, GEE 기본형 등)

2.3 \(h\) 는 \(y\) 에 선형, \(\widetilde{\beta}\) 는 일반적으로 비선형

중요한 구분이다.

\(h(y;\beta)\) 는 주어진 \(\beta\) 에서 \(y\) 의 선형함수다 (상수항 \(-H^\top\mu(\beta)\) 포함).
그러나 방정식 \(h(y;\widetilde{\beta})=0\) 의 해 \(\widetilde{\beta}\) 는 일반적으로 \(y\) 의 복잡한 비선형 함수 다. \(\mu(\beta)\) 가 \(\beta\) 에 비선형일 때 특히 그렇다.

즉 “선형 추정함수” 라는 용어의 ‘선형’ 은 \(y\) 에 대한 선형성 을 가리키는 것이지 \(\widetilde{\beta}\) 가 \(y\) 의 선형함수라는 뜻이 아니다.

비유: 직선 위에서 0 을 찾는다

\(y\) 가 변할 때 \(h(y;\beta)\) 는 평면 위의 직선처럼 움직인다 (선형 반응). 그러나 이 직선이 0 을 지나는 \(\beta\) 값을 찾으려면 곡선(\(\mu(\beta)\))을 따라가며 해를 찾아야 한다. 선형 반응 + 비선형 해 라는 이중 구조가 §9.5 증명의 성립 조건이다.

3 점근 전개 — 추정량의 대표식

3.1 Taylor 전개

참값 \(\beta_0\) 주변에서 \(h(y; \widetilde{\beta}) = 0\) 을 Taylor 전개하면 \[ 0 = h(y; \beta_0) + \frac{\partial h}{\partial \beta}\bigg|_{\beta_0}(\widetilde{\beta} - \beta_0) + o_p. \]

\(\partial h/\partial\beta = -H^\top \partial\mu/\partial\beta = -H^\top D\) 이므로 \[ \widetilde{\beta} - \beta_0 \approx (H^\top D)^{-1} h(y; \beta_0). \tag{대표식} \]

이때 \(D_{ir} = \partial\mu_i/\partial\beta_r\).

3.2 점근 공분산

\(h\) 의 공분산 \(\operatorname{cov}(h) = H^\top V H\) (여기서 \(V = \operatorname{cov}(Y) = \sigma^2 V(\mu)\) 일반화 행렬) 로부터 \[ \operatorname{cov}(\widetilde{\beta}) \approx \sigma^2 (H^\top D)^{-1} H^\top V H (D^\top H)^{-1}. \tag{9.5-cov} \]

준스코어 해 \(\widehat{\beta}\) 에 대해서는 \(H = V^{-1} D\) 이므로 \[ \operatorname{cov}(\widehat{\beta}) \approx \sigma^2 (D^\top V^{-1} D)^{-1} = i_\beta^{-1}. \tag{9.2-cov} \]

§9.5 의 목적은 (9.5-cov) − (9.2-cov) \(\succeq 0\) (NND) 을 보이는 것이다.

3.3 왜 굳이 정밀도 행렬 차이로 뒤집어 보는가

공분산 행렬의 대소 비교는 직접 다루기 불편하다. 대신 정밀도(precision) 행렬 (공분산의 역) 의 차이를 본다. 다음 보조정리를 이용한다.

보조정리 (Ex 9.7)

양정치 행렬 \(A, B\) 에 대해 \[ A - B \succeq 0 \iff B^{-1} - A^{-1} \succeq 0. \] (Löwner 순서는 역함수에서 뒤집힌다.)

따라서 \[ \operatorname{cov}(\widetilde{\beta}) - \operatorname{cov}(\widehat{\beta}) \succeq 0 \iff \{\operatorname{cov}(\widehat{\beta})\}^{-1} - \{\operatorname{cov}(\widetilde{\beta})\}^{-1} \succeq 0. \]

정밀도 행렬 차이가 계산상 훨씬 깔끔하다 — 정밀도는 직접 더할 수 있고 사영 구조가 드러난다.

4 핵심 증명 — 사영으로 보는 NND

4.1 정밀도 행렬 차이의 분해

\(\sigma^2 = 1\) 로 놓고 계산하면 (스케일은 양변에 공통):

\[ \{\operatorname{cov}(\widehat{\beta})\}^{-1} - \{\operatorname{cov}(\widetilde{\beta})\}^{-1} = D^\top V^{-1} D - D^\top H (H^\top V H)^{-1} H^\top D. \]

이것을 공통 인수로 정리하면 \[ \boxed{D^\top \left(V^{-1} - H(H^\top V H)^{-1} H^\top\right) D.} \tag{핵심 표현} \]

4.2 괄호 안의 행렬이 뭘까 — 사영 해석

직관 (사영 해석): 잔차 공분산

괄호 안의 \(V^{-1} - H(H^\top V H)^{-1} H^\top\) 은 \(D^\top V^{-1} Y\) 를 \(H^\top Y\) 에 선형회귀한 후의 잔차 공분산 행렬 이다. 자세히 보면:

\(D^\top V^{-1} Y\) 를 설명하려는 “타겟 통계량” 으로 본다.
\(H^\top Y\) 를 “설명변수 통계량” 으로 본다.
공분산 구조 \(\operatorname{cov}(Y) = V\) 아래에서, \(D^\top V^{-1} Y\) 를 \(H^\top Y\) 에 회귀하면 회귀계수는 \((H^\top V H)^{-1} H^\top V \cdot V^{-1} D = (H^\top V H)^{-1} H^\top D\) 이고, 잔차는 \(D^\top V^{-1} Y - \{(H^\top V H)^{-1} H^\top D\}^\top H^\top Y\).
그 잔차의 공분산이 정확히 괄호 안 행렬로 양쪽에서 \(D\) 로 샌드위치된 형태다.

잔차 공분산은 반드시 NND 다 — 그것이 분산이기 때문이다.

따라서 (핵심 표현) 은 NND 행렬이고, 부등식 \[ \operatorname{cov}(\widetilde{\beta}) - \operatorname{cov}(\widehat{\beta}) \succeq 0 \] 이 증명된다. \(\blacksquare\)

4.3 등호 조건 — 언제 효율이 같은가

등호는 “잔차가 0” 일 때, 즉 \(D^\top V^{-1} Y\) 가 \(H^\top Y\) 만으로 완벽히 설명될 때 성립한다. 선형 표현으로는 \[ V^{-1} D \in \operatorname{col}(H) \iff H = V^{-1} D \cdot M \text{ for some } p\times p \text{ invertible } M. \]

즉 \(H\) 가 \(V^{-1} D\) 의 열공간 에 속할 때만 \(\widetilde{\beta}\) 가 \(\widehat{\beta}\) 와 점근적으로 같은 공분산을 갖는다. 그 외 모든 \(H\) 는 엄격한 손실 을 초래한다.

실무적 해석: 가중치 선택의 민감도

\(H = V^{-1} D\) 선택 (즉 준스코어) → 최적, 정보 손실 없음.
\(H = D\) 선택 (Unweighted Least Squares 에 해당, \(V = I\) 가정) → \(V \neq I\) 이면 효율 손실.
\(H = I_n\) (단순 가중 없음) → 더 큰 효율 손실.

즉 분산 함수 \(V\) 를 제대로 반영한 가중치만이 정보를 온전히 사용한다. 이는 왜 GLM 에서 IRLS 가 \(V\) 에 기반한 가중 을 쓰는지 이론적으로 정당화한다.

5 Gauss-Markov 정리와의 유비

증명 구조는 고전적 Gauss-Markov 정리와 형식적으로 동일 하다. 두 정리를 나란히 놓으면 관계가 분명해진다.

항목	Gauss-Markov	McCullagh §9.5
모형	\(Y = X\beta + \epsilon\), \(\operatorname{cov}(\epsilon) = \sigma^2 I\)	GLM: \(E[Y]=\mu(\beta)\), \(\operatorname{cov}(Y) = \sigma^2 V(\mu)\)
비교 클래스	선형 불편(BLUE) 추정량 \(\widetilde{\beta} = LY\)	선형 추정함수 \(h = H^\top(Y-\mu)\) 의 해
최소분산 표현	\(\widehat{\beta}_{\text{OLS}} = (X^\top X)^{-1} X^\top Y\)	\(\widehat{\beta}_{\text{QL}}\): \(h = D^\top V^{-1}(Y-\mu) = 0\) 의 해
증명 핵심	사영 정리: 어떤 \(LY\) 도 OLS 보다 분산이 크거나 같다	잔차 공분산 NND
유효 범위	유한표본 (exact)	점근(asymptotic)

5.1 강점과 약점

§9.5 접근의 강점과 한계

강점

Gauss-Markov 보다 훨씬 넓은 클래스 에 적용된다. 비선형 \(\mu(\beta)\) 를 갖는 GLM·GEE 로 확장 가능.
분포 가정 없이 \((E, \operatorname{cov})\) 만 알면 증명 가능.

약점

점근적(asymptotic) 결과다. 유한표본에서는 더 좋은 추정량이 있을 수 있다.
스코어 함수가 아니라 \(\widehat{\beta}\) 에 초점을 맞춘다. 스코어 차원의 직접적 최적성 (e.g., Godambe 의 고정표본 최적성) 은 다른 증명이 필요하다.
우도 기반 전체 클래스 내의 최적성은 주장하지 않는다 — 비선형 추정함수에는 일반적으로 적용되지 않는다.

6 비선형 추정함수로의 조건부 확장

6.1 조건부 선형화

§9.4 의 최적 추정함수 (9.15) \(U = D^\top V^{-1} g\) 는 일반적으로 \(Y\) 에 비선형이다 (기본 추정함수 \(g\) 가 비선형일 때). 그럼에도 §9.5 의 증명은 조건부로 선형화 하면 그대로 적용된다.

조건부 최적성 (Conditional Optimality)

조건화 집합이 모든 \(i\) 에 공통 \(A_i = A\) 이면, (9.15) 는 조건부로 \(g\) 에 선형 이다. 이때 확률계산을 모두 \(A\) 에 조건부로 수행하면, \(\widehat{\beta}\) 는 \[ \text{class of estimating functions conditionally linear in } g \] 내에서 점근적으로 조건부 최적 이다.

6.2 조건화 선택의 모호성 — 이론의 한계

어떤 \(A\) 를 선택할지는 이론이 답하지 않는다

조건화 집합 \(A\) 를 바꾸면 최적 추정함수의 구체적 형태가 바뀐다.
§9.4.3 Avebury 거석환 예제에서 \(A = (\epsilon_1, \ldots, \epsilon_n)\) 을 선택했지만, 이 선택은 수학적 필연이 아니라 모형의 식별성을 위한 실용적 판단 이었다.
다른 선택 \(A = Y_{i2}\) (Fieller-Creasy 의 다른 조건화) 도 가능하며, 결과도 달라진다.
McCullagh & Nelder 는 “theory offers little guidance in this respect” 라고 명시 — 조건화 선택 자체는 열린 문제.

6.3 Godambe-Heyde 프레임워크

Godambe (1960), Godambe & Heyde (1987) 는 고정표본 최적성 을 포함한 다양한 최적성 기준을 정리했다. 대표적으로:

Godambe 정보(Godambe information): \(J = E(-\partial g/\partial\theta) \cdot \{E(g g^\top)\}^{-1} \cdot E(-\partial g/\partial\theta)\) 를 최대화하는 \(g\) 를 찾는다. 선형 추정함수 클래스에서 이를 최대화하면 정확히 (9.15) 가 나온다.
유한표본 vs 점근: Godambe 기준은 유한표본에서도 성립하며 §9.5 보다 강한 결과를 준다.
비선형 개선: Jarrett (1973), Crowder (1987), Firth (1987) 등은 여러 추정함수를 결합하거나 비선형 형태를 고려하여 추가 효율 개선을 얻는 방법을 제시.

7 실무적 의미 — §9.5 가 말해주는 것과 말해주지 않는 것

7.1 §9.5 가 보증하는 것

주장	근거	적용 맥락
\(V^{-1} D\) 가중이 최적이다	사영 NND 증명	GLM IRLS, GEE independence
분산 함수 \(V(\mu)\) 를 올바로 선택하면 정보 손실 0	등호 조건 \(H = V^{-1}D\)	준우도 설계의 기본 원칙
관측값이 많으면 준스코어는 여전히 효율적	점근 정리	대규모 데이터셋의 GEE

7.2 §5 가 보증하지 않는 것

한계	이유	실무 함의
모든 추정량 중 최적은 아님	선형 클래스에 국한	우도가 명시되면 MLE 고려 가치
유한표본 최적 아님	점근 정리	소표본에서는 bootstrap·robust 방법 병용
\(V(\mu)\) 가 잘못되면 최적 보장 없음	\(H = V^{-1}D\) 의 \(V\) 가 참값 가정	과산포·이분산 진단 필수
조건화 \(A\) 선택 자동 아님	이론적 공백	문제 구조에 따라 판단 필요

8 간단한 수치 예제 — 가중 선택이 효율에 미치는 영향

8.1 Setup

\(Y_i \sim \text{indep.}, \; E[Y_i] = \mu_i = \beta x_i, \; \operatorname{var}(Y_i) = \sigma^2 \mu_i^2\) (Gamma CV 상수).

단순 선형모형 \(\eta_i = \beta x_i\), 항등 연결. 참값 \(\beta_0 = 2\).

세 가지 가중 선택을 비교:

\(H = V^{-1} D\) — 준스코어(최적).
\(H = D\) — OLS (분산 무시).
\(H = V^{-1/2} D\) — 중간 가중 (실수 선택).

8.2 점근 공분산 계산 및 비교

import numpy as np

np.random.seed(0)
n = 100
x = np.random.uniform(1, 5, size=n)
beta_true = 2.0
sigma = 0.3
mu = beta_true * x

# 참 분산 구조: var(Y_i) = sigma^2 * mu_i^2
V = np.diag(sigma**2 * mu**2)

# D = ∂μ/∂β = x (n x 1)
D = x.reshape(-1, 1)

# ---- 세 가지 H 선택 ----
H_optimal = np.linalg.solve(V, D)                      # V^{-1} D
H_ols     = D                                          # OLS
H_mid     = D / np.sqrt(sigma**2 * mu**2).reshape(-1,1)  # V^{-1/2} D

def asymp_var(H, D, V):
    HD = H.T @ D
    HVH = H.T @ V @ H
    return np.linalg.inv(HD) @ HVH @ np.linalg.inv(HD.T)

var_opt = asymp_var(H_optimal, D, V)
var_ols = asymp_var(H_ols, D, V)
var_mid = asymp_var(H_mid, D, V)

print(f"var(beta_hat) 준스코어(최적)      = {var_opt[0,0]:.5f}")
print(f"var(beta_tilde) OLS (H=D)         = {var_ols[0,0]:.5f}")
print(f"var(beta_tilde) 중간 (H=V^-1/2 D) = {var_mid[0,0]:.5f}")

rel_eff_ols = var_opt[0,0] / var_ols[0,0]
rel_eff_mid = var_opt[0,0] / var_mid[0,0]
print(f"\n상대 효율 OLS vs 최적  = {rel_eff_ols:.3f}")
print(f"상대 효율 중간 vs 최적 = {rel_eff_mid:.3f}")

실무 해석 — 상대 효율 숫자가 뜻하는 바. 상대 효율 \(r = \text{var}_{\text{opt}}/\text{var}_{\text{alt}}\) 는 “같은 정밀도를 얻기 위해 비최적 추정이 몇 배 표본이 필요한가” 의 역수다. \(r = 0.55\) (OLS) 이면 대안 추정량은 최적 대비 약 1.8배 표본 을 필요로 한다 — 즉 분산 구조를 무시한 OLS 는 관측치를 절반만 활용하는 셈이다. \(r = 0.83\) (중간 가중) 도 표본 20% 추가 의 비용에 해당한다. 분산 함수 지정이 추정 효율에 얼마나 결정적인지 보여주는 정량 척도다.

출력(전형적 값):

var(beta_hat) 준스코어(최적)      = 0.00090
var(beta_tilde) OLS (H=D)         = 0.00165
var(beta_tilde) 중간 (H=V^-1/2 D) = 0.00108

상대 효율 OLS vs 최적  ≈ 0.546
상대 효율 중간 vs 최적 ≈ 0.833

해석:

OLS 는 준스코어 대비 약 55% 효율, 즉 거의 두 배의 표본이 필요.
중간 가중 (\(V^{-1/2}\)) 은 약 83% 효율 — 여전히 최적보다 나쁘지만 OLS 보다 훨씬 낫다.
정확한 분산 함수를 사용하지 않으면 체계적 효율 손실이 발생 한다 — §9.5 가 말하는 “엄격한 부등식” 의 구체적 확인.

8.3 시뮬레이션으로 검증

import numpy as np
from scipy.optimize import brentq

np.random.seed(42)
n, sigma, beta_true, n_sim = 100, 0.3, 2.0, 2000

# 설계행렬 고정
x = np.random.uniform(1, 5, size=n)

def generate_Y(mu, sigma):
    # Gamma: shape k = 1/sigma^2, scale = mu*sigma^2  => E=mu, var=sigma^2 mu^2
    k = 1.0/sigma**2
    theta = mu * sigma**2
    return np.random.gamma(shape=k, scale=theta, size=len(mu))

betas_opt, betas_ols = [], []

for _ in range(n_sim):
    mu = beta_true * x
    y  = generate_Y(mu, sigma)

    # 준스코어: Σ (y_i/mu_i^2) * x_i - Σ (1/mu_i) * x_i = 0
    #   => Σ x_i (y_i - β x_i) / (β x_i)^2 = 0
    #   => β = sum(y/x) / n
    beta_opt = (y/x).sum() / n

    # OLS: Σ x_i (y_i - β x_i) = 0 => β = Σ x_i y_i / Σ x_i^2
    beta_ols = (x*y).sum() / (x**2).sum()

    betas_opt.append(beta_opt)
    betas_ols.append(beta_ols)

betas_opt, betas_ols = np.array(betas_opt), np.array(betas_ols)

print(f"준스코어: mean={betas_opt.mean():.4f}, var={betas_opt.var(ddof=1):.5f}")
print(f"OLS:      mean={betas_ols.mean():.4f}, var={betas_ols.var(ddof=1):.5f}")
print(f"시뮬레이션 상대 효율 = {betas_opt.var(ddof=1)/betas_ols.var(ddof=1):.3f}")

시뮬레이션 상대 효율은 이론 예측 0.546 에 수렴. §9.5 의 점근 부등식이 유한표본에서도 잘 근사됨을 확인.

8.4 R 에서 GEE 로 검증

library(geepack)

set.seed(0)
n <- 100; sigma <- 0.3; beta_true <- 2.0
x <- runif(n, 1, 5)

# Gamma 데이터 생성
mu <- beta_true * x
y  <- rgamma(n, shape = 1/sigma^2, scale = mu * sigma^2)

df <- data.frame(y = y, x = x, id = 1:n)

# V(mu) = mu^2 (Gamma family) => 최적 가중
fit_opt <- geeglm(y ~ x - 1, id = id, family = Gamma(link = "identity"),
                                    data = df, corstr = "independence")

# V(mu) = 1 (정규 가정, 즉 OLS) => 비최적
fit_ols <- geeglm(y ~ x - 1, id = id, family = gaussian(link = "identity"),
                                    data = df, corstr = "independence")

cat("Gamma(최적): est=", coef(fit_opt), "  SE=",
        sqrt(vcov(fit_opt)), "\n")
cat("Normal(OLS): est=", coef(fit_ols), "  SE=",
        sqrt(vcov(fit_ols)), "\n")

SE 비교 시 Gamma family 쪽 SE 가 더 작음을 확인 — §9.5 의 실무적 귀결.

9 §9.5 의 교훈을 한 줄로

정리

준우도 이론이 “최적” 이라고 부를 때의 정확한 뜻:

비교 클래스: \(H(\beta)\) 로 가중한 선형 추정함수 \(h = H^\top(y-\mu)\) 의 집합.
비교 기준: 점근 공분산의 Löwner 순서 (모든 선형결합의 분산).
최적성의 원천: \(H = V^{-1} D\) 는 \(D^\top V^{-1} Y\) 를 설명하는 가장 많은 정보를 담은 선형 통계량 을 제공한다.
Gauss-Markov 유비: 정규분포·선형모형 BLUE 증명이 GLM 준스코어 증명으로 자연스럽게 확장된다.
한계: 점근 결과이며, 선형 클래스를 벗어나면 — 예컨대 MLE 나 Godambe 비선형 결합 — 은 포함되지 않는다.

§9.5 는 “준스코어가 우리가 감당할 수 있는 최선의 근사 우도 다” 라는 주장을 엄밀히 뒷받침한다. 다만 그 “최선” 이 조건부·선형·점근의 삼중 제약 안에서 정의된 최선임을 잊어선 안 된다.