1 서론 — MLE 의 숨은 편향
최대가능도 추정량 (MLE) 은 점근적 일치성 을 가진다: \(n \to \infty\) 에서 \(\widehat\beta \xrightarrow{p} \beta\). 그러나 유한 표본에서는
\[ E(\widehat\beta) = \beta + \frac{b_1}{n} + O(n^{-2}). \]
\(b_1/n\) = \(O(n^{-1})\) 편향. \(n\) 이 충분히 크면 SE (\(O(n^{-1/2})\)) 에 비해 무시 가능하지만, 작은 표본 · 많은 모수에서는 SE 의 10-30% 수준에 이를 수 있다.
McCullagh & Nelder (1989) 의 §15.2 는 이 편향을 계산 가능한 공식 으로 바꾸고, 보조 선형 회귀 로 실무에서 구할 수 있게 만든다. 이 글은 공식의 유도와 실무 구현을 깊이 들여다본다.
overview 포스트 (14-1) 에서 편향 보정을 “한 페이지” 로 요약했다면, 이번 글은 텐서 공식 (15.1) 의 유도 구조, canonical link 에서 보조 회귀 (15.3) 로의 축약, non-canonical \(\xi\) 의 링크별 형태 표, 이항 모형의 수축 근사 (15.5), Lizard 예제 완전 재현, 그리고 Firth (1993) penalized MLE 와의 동등성 까지를 일관된 흐름으로 풀어낸다.
2 왜 MLE 가 편향되는가 — Cox-Snell 전개
2.1 점수 방정식에서의 Taylor 전개
MLE 의 점수 방정식:
\[ U(\widehat\beta) = \left. \frac{\partial l}{\partial \beta} \right|_{\widehat\beta} = 0. \]
참값 \(\beta\) 근방에서 Taylor 전개:
\[ 0 = U(\widehat\beta) \simeq U(\beta) + \mathcal{H}(\beta) \cdot (\widehat\beta - \beta) + \frac{1}{2} \mathcal{T}(\beta) \cdot (\widehat\beta - \beta)^{\otimes 2}. \]
\(\mathcal{H}\) = Hessian (2차 미분), \(\mathcal{T}\) = 3차 미분 텐서.
2.2 편향의 1차 항
\(\widehat\beta - \beta \simeq -\mathcal{H}^{-1} U\) 가 1차 근사 (일치성의 기초). 이것을 위 식에 재대입 하고 \(E(\cdot)\) 을 취하면:
\[ E(\widehat\beta - \beta) = -\mathcal{H}^{-1} \{ E(U) + \frac{1}{2} \mathcal{T} E[(\widehat\beta - \beta)^{\otimes 2}] \} + O(n^{-2}). \]
\(E(U) = 0\) (점수의 기본 성질), \(E[(\widehat\beta - \beta)^{\otimes 2}] = \text{Var}(\widehat\beta) \simeq -\mathcal{H}^{-1}\) (정보 부등식 등호). 대입하면
\[ E(\widehat\beta - \beta) \simeq -\frac{1}{2} \mathcal{H}^{-1} \mathcal{T} \mathcal{H}^{-1}. \]
텐서 표현으로 정리 (Fisher 정보의 역 \(\kappa^{r,s}\), 3차 cumulant \(\kappa_{s,t,u}\)):
\[ \boxed{\; b^r = E(\widehat\beta^r - \beta^r) \simeq -\frac{1}{2} \kappa^{r,s} \kappa^{t,u} \kappa_{s,t,u}. \;} \tag{15.1} \]
2.3 공식의 요소 해석
- \(\kappa^{r,s} = [(X^TWX)^{-1}]_{rs}\): 역 Fisher 정보의 \((r, s)\) 원소.
- \(\kappa_{s,t,u} = \sum_i x_s^i x_t^i x_u^i \kappa_{3i}\): 설계 행렬과 3차 cumulant 의 3-선형 곱.
- \(\kappa_{3i}\): 관측치 \(i\) 의 반응 변수 3차 cumulant.
Taylor 전개의 2차 항: \(\frac{1}{2} \mathcal{T} (\widehat\beta - \beta)^{\otimes 2}\).
이 항이 기대값 0 이 아니려면: - \(\mathcal{T} \neq 0\): 로그 우도의 곡률 변화율 (왜도 반영). - \(E[(\widehat\beta - \beta)^{\otimes 2}] \neq 0\): 추정량의 분산.
두 조건이 만나면 편향. 완전 대칭 분포 (Gaussian) + 선형 모형은 \(\mathcal{T} = 0\) 이라 편향 없음.
\(\kappa_3\) 가 큰 관측치 (Poisson 작은 \(\mu\), 이항 극단 \(\pi\)) 가 편향의 주 원천.
3 Canonical Link 의 단순화 — (15.3)
3.1 구조적 단순화
Canonical link 모형 (로짓, 로그, 역수 등) 에서 (15.1) 이 극적으로 단순화. 이유: canonical link 하에서
\[ W = \text{cov}(Y), \qquad \kappa_{3i} = \frac{\partial \kappa_{2i}}{\partial \theta_i} = \frac{\partial V(\mu_i)}{\partial \theta_i}. \]
\(\theta\) = canonical parameter, \(W\) = IRLS 가중치가 공분산과 일치.
3.2 \(b_s\) 중간 형태
(15.1) 을 \(r\) 에 대해 먼저 합산하기 전 단계:
\[ b_s = -\frac{1}{2} \kappa_{s,t,u} \kappa^{t,u} = -\frac{1}{2} \sum_i x_s^i \kappa_{3i} \cdot (x_t^i x_u^i \kappa^{t,u}). \]
핵심 관찰: \(x_t^i x_u^i \kappa^{t,u}\) 는 “관측치 \(i\) 의 예측 분산” 이다. 구체적으로 \(Q = X(X^TWX)^{-1}X^T\) 의 \((i, i)\) 원소.
\(Q_{ii}\) = \(\widehat\eta_i\) 의 근사 분산 = 레버리지.
따라서:
\[ b_s = -\frac{1}{2} \sum_i x_s^i \cdot \kappa_{3i} \cdot Q_{ii} = -\frac{1}{2} \sum_i x_s^i \cdot w_i \cdot \xi_i, \]
\(w_i = \kappa_{2i}\) (IRLS 가중치), \(\xi_i = -Q_{ii} \kappa_{3i}/(2\kappa_{2i})\).
매트릭스 표기: \(b_s = (X^TW\xi)_s\).
3.3 전체 편향 벡터 (15.3)
\(b^r = \kappa^{r,s} b_s\), 즉 \(b = (X^TWX)^{-1} X^TW\xi\).
이것이 \(X\) 에 대한 \(\xi\) 의 가중 선형 회귀 계수 와 동일:
\[ \boxed{\;b = \text{Weighted OLS coefficient of } \xi \text{ on } X \text{ with weights } W\; } \tag{15.3} \]
3.4 보조 회귀의 구체적 구현
[보조 회귀 레시피]
1. 원 GLM 적합 → β̂, μ̂, W (가중치 행렬), Q_{ii} (햇 대각)
2. 각 i 에 대해:
ξ_i = -(1/2) · Q_{ii} · κ_{3i} / κ_{2i}
3. ξ 를 반응 변수로, X 를 설계 행렬로, W 를 가중치로 갖는
**항등 링크 가중 선형 회귀** 적합 → 계수 b̂
4. 편향 교정: β̂_corrected = β̂ - b̂
한 번의 추가 선형 회귀만 필요. 기존 GLM 소프트웨어로 구현 가능.
3.5 \(\xi_i\) 의 직관
\[\xi_i = -\frac{1}{2} \cdot Q_{ii} \cdot \frac{\kappa_{3i}}{\kappa_{2i}} = -\frac{1}{2} \cdot (\text{레버리지}) \cdot (\text{왜도})\]
- \(Q_{ii}\) 큰 점: 외톨이 (공변량 공간의 끝). 적합을 강하게 견인.
- \(\kappa_{3i}/\kappa_{2i}\) 큰 점: 반응 분포가 비대칭. Poisson 작은 \(\mu\) 나 이항 극단 \(\pi\).
두 요인이 결합된 점이 편향의 진원지. \(\xi_i\) 가 이들 점에서 큰 값을 갖는다.
\(\xi_i\) 가 크면 편향 크다. 설계 단계에서 \(\xi_i\) 를 예측 할 수 있다:
- Balanced 설계 (\(Q_{ii}\) 일정): 모든 \(\xi_i \propto \kappa_{3i}/\kappa_{2i}\). 편향이 왜도에만 의존.
- 극단 레버리지 회피: 공변량 공간 외곽 관측치 수 늘리기.
- 비대칭 분포 영역 회피: 가능하면 \(\pi\) 를 0.5 근처, \(\mu\) 를 \(>5\) 로.
이러한 설계 원칙이 편향 적은 추정 을 자연스럽게 유도한다. 편향 보정은 사후 처리, 좋은 설계는 사전 예방.
4 Non-canonical Link — \(\mu''/\mu'\) 공식 (15.4)
4.1 변형된 \(\xi\)
Non-canonical link (probit, cloglog 등) 에서 canonical 의 “깔끔한 cancellation” 이 안 일어난다. 유도가 복잡해져 (15.1) 의 바로 매트릭스 환원이 어렵다.
그러나 비슷한 구조 의 보조 회귀 여전히 가능. \(\xi\) 만 다르게:
\[ \boxed{\;\xi_i = -\frac{1}{2} \left(\frac{\mu_i''}{\mu_i'}\right) Q_{ii}\;} \tag{15.4} \]
여기서 \(\mu'_i = \partial \mu_i/\partial \eta_i\), \(\mu''_i = \partial^2 \mu_i/\partial \eta_i^2\) = 역링크의 1, 2차 미분.
가중치는 여전히 IRLS 표준 가중치 \(W_i = (\mu'_i)^2 / \kappa_{2i}\).
4.2 링크별 \(\xi\) 공식 표
McCullagh-Nelder 가 제시하는 표:
| Link | \(g(\mu)\) | \(\mu = g^{-1}(\eta)\) | \(\mu'\) | \(\mu''\) | \(\xi_i\) |
|---|---|---|---|---|---|
| identity | \(\mu\) | \(\eta\) | 1 | 0 | 0 |
| log | \(\log\mu\) | \(e^\eta\) | \(e^\eta = \mu\) | \(\mu\) | \(-Q_{ii}/2\) |
| logit | \(\log\{\mu/(1-\mu)\}\) | \(\pi\) | \(\pi(1-\pi)\) | \(\pi(1-\pi)(1-2\pi)\) | \(Q_{ii}(\pi - 1/2)\) |
| probit | \(\Phi^{-1}(\mu)\) | \(\Phi(\eta)\) | \(\phi(\eta)\) | \(-\eta\phi(\eta)\) | \(Q_{ii}\eta/2\) |
| c-log-log | \(\log\{-\log(1-\mu)\}\) | \(1 - e^{-e^\eta}\) | \(e^{\eta}(1-\mu)\) | \((1-e^\eta)e^\eta(1-\mu)\) | \(Q_{ii}(e^\eta - 1)/2\) |
4.3 각 공식의 의미
Identity (정규 회귀): \(\mu'' = 0\) → \(\xi = 0\) → 편향 없음. 익숙한 사실의 수식 확증.
Log link (로그선형/Poisson): \(\xi = -Q_{ii}/2\). 왜도 무관, 레버리지만 영향. 모든 점이 음의 편향에 기여. 이유: 로그 링크에서 \(\mu\) 가 작으면 \(\widehat\mu\) 가 아래 편향되는 경향.
Logit: \(\xi = Q_{ii}(\pi - 1/2)\). \(\pi > 1/2\) 에서 양, \(\pi < 1/2\) 에서 음. 중앙 \(\pi = 0.5\) 에서 편향 0. 극단으로 갈수록 편향 증가.
Probit: \(\xi = Q_{ii}\eta/2\). \(\eta\) 에 선형. 극단 \(|\eta|\) 에서 편향 큼.
C-log-log: \(\xi = Q_{ii}(e^\eta - 1)/2\). 비대칭 — 큰 \(\eta\) 에서 매우 빠르게 증가.
4.4 이항 링크의 비교
세 이항 링크 (logit, probit, cloglog) 의 편향 패턴이 다르다:
- Logit 의 대칭성: 편향이 \(\pi = 0.5\) 에 대해 대칭. 보수적.
- Probit 의 선형성: \(\eta\) 가 크면 편향 크지만 양쪽 대칭.
- Cloglog 의 비대칭: 한 쪽 꼬리 편향이 극단적. 지수 증가.
일반 지침: 작은 표본 이항 회귀에서 logit 선호. 편향이 더 잘 통제됨.
5 이항 모형의 수축 근사 — (15.5)
5.1 근사 공식
이항 로지스틱 모형에서 대략적 근사:
\[ b \simeq \frac{p \beta}{m_{\cdot}}, \qquad m_{\cdot} = \sum_i m_i, \; p = \dim(\beta). \tag{15.5} \]
5.2 유도 (조건 충족 시)
조건: (i) 근사 quadratic balance (\(Q_{ii} \approx \text{const}\)), (ii) 작은 \(|\beta|\) (\(|\eta|\) 도 작음).
Logit 공식 \(\xi_i = Q_{ii}(\pi_i - 1/2)\) 에 \(\pi_i - 1/2 \approx \eta_i / 4\) (Taylor at \(\eta = 0\)). \(\eta_i = x_i^T \beta\) 대입:
\[ \xi_i \approx Q_{ii} \cdot x_i^T \beta / 4. \]
회귀 \(\xi = X \beta'\) 의 계수 \(\beta' = (X^TWX)^{-1}X^TW\xi\). \(\xi_i = Q_{ii} x_i^T\beta/4\) 이 \(X\beta\) 의 배수이고 weight \(W\) 로 가중하면 정확히 \(\beta\) 배수가 나와야 한다.
\(Q_{ii} \approx p/m_{\cdot}\) (balanced 근사, 평균 레버리지) 대입:
\[ b \simeq \frac{p}{m_{\cdot}} \cdot \beta / 4 \cdot 4 = \frac{p\beta}{m_{\cdot}}. \]
(계수 4 는 \((\pi(1-\pi))\) 가 \(1/4\) 로 단순화되는 과정에서 상쇄.)
5.3 수축 해석
\(\widehat\beta^{\text{corrected}} = \widehat\beta - \widehat b \simeq \widehat\beta (1 - p/m_{\cdot})\).
\(1 - p/m_{\cdot}\) 배 수축:
- \(m_{\cdot} \gg p\): 거의 1 — 수축 미미.
- \(m_{\cdot} = p\): 계수가 0 으로 수축 (극단 case).
- \(m_{\cdot} = 10p\): 10% 수축.
MLE 의 편향 방향은 “0 에서 멀어지는” 쪽. 이유: perfect separation 근방에서 MLE 가 \(\pm\infty\) 로 발산. 유한 \(n\) 에서도 그 방향으로 과대 추정.
수축 = 이 과대 추정을 원점 방향으로 끌어당김. 기하적으로 MLE 의 “원점에서 멀어지는 편향” 과 정확히 반대 방향.
Stein 수축, Ridge 회귀, Bayesian prior 이 모두 같은 가족 — 정규화 (regularization) 의 다른 이름들.
5.4 수축 인수와 정보량
\(m_{\cdot}\) = 전체 정보량 (binomial denominators 합). 정보가 많을수록 수축이 작음.
Rule of thumb: - \(m_{\cdot} \geq 10p\): MLE 직접 사용 OK. - \(5p \leq m_{\cdot} < 10p\): 편향 보정 권장. - \(m_{\cdot} < 5p\): 편향 보정 또는 Firth penalized MLE 필수. - Perfect separation: Firth 만 가능 (MLE 는 \(\pm\infty\)).
6 §15.2.3 — Lizard 데이터 재현
6.1 배경
§4.24 의 이항 로지스틱 모형 (Lizard 서식지 선호 데이터, Table 4.5). \(\mu\) (절편), \(H\) (높이), \(D\) (지름), \(S\) (햇빛 여부), \(T(2), T(3)\) (시간대) 6 모수.
6.2 원래 결과와 \(\widehat\xi, \widehat b\)
첫 6 관측치의 적합량:
| 관측 | \(\widehat\pi\) | \(\widehat Q_{ii}\) | \(\widehat\xi_i\) | \(\widehat w_i\) |
|---|---|---|---|---|
| 1 | 0.8749 | 0.1161 | 0.0435 | 2.4085 |
| 2 | 0.8977 | 0.1333 | 0.0530 | 0.8266 |
| 3 | 0.7699 | 0.1246 | 0.0336 | 1.4171 |
| 4 | 0.9558 | 0.1506 | 0.0687 | 0.5488 |
| 5 | 0.9645 | 0.1749 | 0.0812 | 0.2740 |
| 6 | 0.9120 | 0.1530 | 0.0630 | 0.9634 |
\(\widehat w_i = m_i \widehat\pi_i(1-\widehat\pi_i)\) = 이항 IRLS 가중치.
\(\widehat\xi_i = \widehat Q_{ii}(\widehat\pi_i - 1/2)\): logit 공식. 모두 양수 (\(\pi > 1/2\) 이므로).
6.3 편향 벡터 \(\widehat b\)
\(\widehat\xi\) 에 대한 \(X\) 의 가중 회귀:
| 모수 | \(\widehat\beta\) | SE | \(\widehat b\) | \(\widehat\beta - \widehat b\) | 수정 / SE |
|---|---|---|---|---|---|
| \(\mu\) | 1.9447 | 0.3408 | 0.0436 | 1.9011 | 12.8% SE |
| \(H\) | 1.1300 | 0.2568 | 0.0238 | 1.1062 | 9.3% SE |
| \(D\) | \(-0.7626\) | 0.2112 | \(-0.0090\) | \(-0.7536\) | 4.3% SE |
| \(S\) | \(-0.8473\) | 0.3217 | \(-0.0302\) | \(-0.8171\) | 9.4% SE |
| \(T(2)\) | 0.2271 | 0.2500 | \(-0.0009\) | 0.2280 | 0.4% SE |
| \(T(3)\) | \(-0.7368\) | 0.2988 | \(-0.0095\) | \(-0.7273\) | 3.2% SE |
6.4 해석
편향이 SE 의 $$10% 수준. 일반 임상/실무 판단에서는 해석 변경 없음.
그러나 McCullagh-Nelder 는 주목: 원래 분석에서 \(S\) (햇빛) 의 유의성 이 의심스러웠는데 (\(t = -0.847/0.322 = -2.64\)), 편향 보정 후 \(t = -0.817/0.322 = -2.54\) — 소폭 감소. 한계 유의도 유지.
구조적 관찰: - 절편 \(\mu\) 가 가장 큰 편향 (0.044). Logit 공식에서 \(\widehat\pi\) 가 평균적으로 \(> 1/2\) 이므로 모든 \(\xi_i > 0\), 절편이 양의 편향 흡수. - 이항 denominator 개수가 적은 고립 관측치들이 \(\xi_i\) 큰 값에 기여.
6.5 Lizard 예제의 교훈
- 작은 표본에서 편향 보정은 판단을 크게 바꾸지 않지만, 한계 유의 결정에서 참고 자료 가 된다.
- 절편은 편향 더 큼 — 로그-오즈 평균이 원점에서 멀수록.
- 보정 후 추정치가 0 에 가까워짐 — 수축 원칙 확인.
7 Firth (1993) 와의 연결 — 현대적 구현
7.1 Firth Penalized Likelihood
Firth (1993) 은 편향 보정을 가능도 함수 수정 으로 재구성:
\[ l^*(\beta) = l(\beta) + \frac{1}{2} \log |I(\beta)|, \]
\(I(\beta) = X^TW(\beta)X\) = Fisher 정보. \(|I|\) = 행렬식.
7.2 왜 이것이 편향 보정 역할을 하는가
\(l^*\) 을 최대화한 \(\widehat\beta^{\text{Firth}}\) 는:
- 첫째 차수 편향이 없다 — Firth 가 증명.
- Jeffreys prior 하의 posterior mode — 베이지안 해석.
- 항상 유한 — perfect separation 에도 \(\pm\infty\) 안 됨.
7.3 Firth vs McCullagh-Nelder (15.3) 의 차이
| 측면 | (15.3) 보조 회귀 | Firth |
|---|---|---|
| 접근 | 사후 보정 (post-hoc) | 사전 보정 (modification) |
| 유한 표본 보장 | 없음 | 항상 유한 |
| 계산 | 1 회 추가 회귀 | 수정 IRLS (반복) |
| 함수 | 선형 근사 | 정확 비선형 |
| 구현 | 기본 GLM 툴 | 전용 logistf, brglm |
7.4 언제 무엇을 쓰는가
(15.3) 사용 상황: - MLE 이 이미 수렴 · 유한함. - 편향 크기 “확인” 용. - 교육적 설명.
Firth 사용 상황: - Perfect separation / quasi-separation. - 희귀 이벤트 (이항 \(\pi \to 0\) 또는 \(1\)). - 규제 분야 (재현 가능 · 안정적 추정 필요).
현대 실무는 Firth 기본값. R logistf::logistf(), brglm2::brglm_fit() 등이 표준.
8 Python 실전 — 편향 보정 직접 구현
8.1 Lizard 시뮬레이션 재현
import numpy as np
import statsmodels.api as sm
import pandas as pd
np.random.seed(42)
# 간단 시뮬레이션: 30 cases, 5 공변량 + 이항 반응
n = 30
p = 5
X_raw = np.random.randn(n, p-1)
X = sm.add_constant(X_raw) # (n, p) 설계 행렬
beta_true = np.array([1.5, 0.8, -0.5, -0.3, 0.2])
eta_true = X @ beta_true
pi_true = 1 / (1 + np.exp(-eta_true))
y = np.random.binomial(1, pi_true)
# MLE 적합
m = sm.GLM(y, X, family=sm.families.Binomial()).fit()
print(f"\nMLE β̂:")
print(m.params)
print(f"\nSE:")
print(m.bse)8.2 편향 벡터 계산
pi_hat = m.fittedvalues
eta_hat = X @ m.params
# 가중치 W = m_i π̂ (1 - π̂). 여기서 m_i = 1 (Bernoulli)
W = pi_hat * (1 - pi_hat)
# 햇 행렬 Q = X (X' W X)^-1 X'
W_sqrt = np.sqrt(W)
WX = W_sqrt[:, None] * X
XtWX_inv = np.linalg.inv(X.T @ np.diag(W) @ X)
Q = X @ XtWX_inv @ X.T
Q_ii = np.diag(Q)
# ξ_i = Q_ii (π̂ - 1/2) for logit
xi = Q_ii * (pi_hat - 0.5)
# 보조 가중 회귀: b = (X'WX)^-1 X'W ξ
b_hat = XtWX_inv @ X.T @ (W * xi)
print(f"\n편향 벡터 b̂:")
print(b_hat)
print(f"\n보정된 β̂ - b̂:")
print(m.params - b_hat)
print(f"\n편향/SE 비율 (%):")
print(100 * b_hat / m.bse)8.3 Firth 와의 비교
Firth 구현은 Python 에서 직접 없으므로 R 호출 또는 수동 IRLS 수정 필요. R 의 logistf:
또는 Python statsmodels 에서 수동 Firth IRLS 구현 (약 20 줄).
8.4 반복 시뮬레이션으로 편향 경험
n_sim = 1000
beta_mle_all = []
for _ in range(n_sim):
y_sim = np.random.binomial(1, pi_true)
try:
m_sim = sm.GLM(y_sim, X, family=sm.families.Binomial()).fit(disp=0)
beta_mle_all.append(m_sim.params)
except:
continue # separation case 제외
beta_mle_all = np.array(beta_mle_all)
mean_mle = beta_mle_all.mean(axis=0)
observed_bias = mean_mle - beta_true
print(f"\n시뮬레이션 관찰 편향 (1000 회 평균):")
print(observed_bias)
print(f"\n이론 예측 편향 b̂ (한 번의 적합에서):")
print(b_hat)
print(f"\n비율 (observed / theoretical):")
print(observed_bias / b_hat)기대: 이론 예측 \(\widehat b\) 와 관찰 편향이 같은 부호, 비슷한 크기. 완벽 일치는 아니지만 \(\pm 30\%\) 이내면 이론이 유효.
9 요약 — §15.2 의 세 가지 교훈
9.1 교훈 1 — 편향의 텐서 구조가 보조 회귀로 변환
(15.1) 의 3 차 텐서 공식이 canonical link 에서 단순 가중 회귀 (15.3) 로 환원. 텐서 계산 없이 기본 GLM 도구만으로 편향 보정 가능.
9.2 교훈 2 — \(\xi_i\) 의 “레버리지 × 왜도” 해석
\(\xi_i\) 는 편향의 관측치별 기여. 고레버리지 + 비대칭 분포 = 큰 편향 기여. 설계 단계에서 \(\xi_i\) 를 낮추면 편향 없는 추정.
9.3 교훈 3 — 이항 모형의 \(1 - p/m_\cdot\) 수축
간단한 근사 (15.5) 가 Stein-type shrinkage 의 통계 버전. Firth (1993) 의 penalized MLE 가 같은 원리를 exact 하게 구현 — 현대 희귀 이벤트 로지스틱 회귀의 표준.
9.4 실무 체크리스트
[1] 모수/관측치 비율 확인: p/m_· 가 10% 초과?
YES → 편향 보정 고려
NO → MLE 충분
[2] Perfect separation 있나?
YES → Firth 필수
NO → (15.3) 또는 Firth 선택 가능
[3] 규제/재현성 중요?
YES → Firth (사전 보정 · 재현 용이)
NO → (15.3) 또는 MLE
[4] 편향 규모 확인:
보조 회귀로 b̂ 계산 → |b̂| / SE 가 10% 넘으면 보정 유의미
10 관련 주제
선행 지식
- Further Topics — Ch.15 개관
- GLM 이론 기초 — IRLS (McCullagh §2)
- 이항 반응 모형 (McCullagh §4.3)
- Lizard 서식지 예제 (McCullagh §4.6)
관련 개념
- Model Checking — 햇 행렬과 레버리지 (McCullagh §12.5) — \(Q_{ii}\) 의 기원
- Checks for Isolated Departure (McCullagh §12.7) — 레버리지 해석
- 점근 이론 — Casella-Berger Ch.10
현대 참고 문헌
- Firth, D. (1993). “Bias reduction of maximum likelihood estimates.” Biometrika 80: 27-38. — 반드시 읽어야 할 후속 논문.
- Heinze, G. & Schemper, M. (2002). “A solution to the problem of separation in logistic regression.” Statistics in Medicine 21: 2409-2419. — Firth 실무 응용.
- Kosmidis, I. & Firth, D. (2009). “Bias reduction in exponential family nonlinear models.” Biometrika 96: 793-804.
- Puhr, R. 외 (2017). “Firth’s logistic regression…” Statistics in Medicine 36: 2302-2317. — 희귀 이벤트 설정 비교.
실무 패키지
- R:
logistf,brglm2,bayesglm(arm). - Python:
statsmodels.GLM(..., method='firth')(일부 버전), 직접 구현. - SAS:
PROC LOGISTIC의FIRTH옵션.
후속 주제