1 3 가지 가설검정 — Wald, LR, Score
Wald: \(H_0: \beta_j = 0\). 통계량 \(W = (\hat\beta_j / \widehat{\text{se}}(\hat\beta_j))^2 \sim \chi^2_1\).
Likelihood Ratio (LR): 두 중첩 모형의 likelihood 비교. \(\Lambda = -2 \log(L_0 / L_1) \sim \chi^2_k\) (k = 추가 모수 수).
Score: 귀무 모형에서의 score 함수. 모수 추정 안 한 상태로 검정.
대표본 + 진성 효과면 세 검정 거의 동등. 작은 표본·경계값 효과면 차이.
1.1 직관 — 세 검정의 분업
- 추상:
- Wald: 적합 후 단일 계수 검정 — 빠름.
- LR: 모형 비교 (multi-coefficient) — 가장 강력.
- Score: 귀무 모형 적합만 필요 — 계산 효율.
- 일상어 비유: Wald = 스냅샷, LR = 두 모형의 비교, Score = 사전 검정.
- 반사실: 작은 표본에서 Wald 가 보수적 (CI wide). LR 이 최대 검정력. Score 는 nuisance parameter 회피 시 유리.
1.2 Hauck-Donner 효과 — Wald 의 함정
추정 \(\hat\beta\) 가 매우 크면 (강한 효과) Wald CI 가 paradoxically narrow → 검정력 ↓.
Hauck-Donner (1977) 효과: 진성 효과 ↑ 일수록 Wald 검정의 검정력이 ↓ 어떤 임계값을 넘어가면. 매우 일반적이지 않으나 알려진 현상.
3 단계 직관:
- 추상: \(\hat\beta\) 의 분포가 정규 근사 위반 시 (강한 효과·적은 표본) Wald 부정확.
- 일상어 비유: 측정 기기의 한계 — 매우 큰 값 측정 시 정밀도 ↓.
- 반사실: LR 또는 profile likelihood CI 가 강한 효과에서 더 정확.
2 Likelihood Ratio Test — 모형 비교의 표준
두 중첩 모형 \(M_0 \subset M_1\): - \(M_1\): full model (자유도 \(p_1\)). - \(M_0\): reduced model (자유도 \(p_0 < p_1\)).
\[\Lambda = -2(\log L_0 - \log L_1) \sim \chi^2_{p_1 - p_0}\]
귀무가설 \(H_0\): 추가 모수 \(= 0\).
2.1 사용 예시
| 비교 | df |
|---|---|
| Null vs single \(X\) | 1 |
| Single \(X\) vs \(X + Z\) | 1 |
| Single \(X\) vs \(X + X^2\) (비선형 검정) | 1 |
| Linear \(X\) vs Categorical \(X\) (4 cat) | 2 |
- 추상: \(-2 \log L\) 이 deviance (모형 적합도). 두 모형의 deviance 차이 = \(\chi^2\).
- 일상어 비유: 두 학습 모형의 train loss 차이 — 충분히 크면 더 복잡한 모형 정당화.
- 반사실: \(\Lambda\) 작으면 (df 대비) 추가 모수 정당화 안 됨 → 단순 모형 선택.
3 Hosmer-Lemeshow Goodness-of-Fit Test
예측 확률을 deciles (10 그룹) 로 분할, 각 그룹의 observed vs expected 비교.
\[\chi^2_{HL} = \sum_{g=1}^{10} \frac{(O_g - E_g)^2}{E_g (1 - E_g/n_g)} \sim \chi^2_{8}\]
큰 표본에서 \(df = g - 2 = 8\).
3.1 한계 — 큰 표본의 함정
큰 표본 (예: A/B 테스트의 수만 명) 에서 H-L 이 항상 유의 — 미세한 misfit 도 잡아냄.
3 단계 직관:
- 추상: \(n \to \infty\) 면 작은 misfit 도 통계 유의. 임상 의의와 무관.
- 일상어 비유: 정밀 저울로 측정 — 미세한 환경 차이도 유의 차이로 보임.
- 반사실: 임상 의의 임계값 (예: calibration plot 의 시각적 평가) 으로 보완.
3.2 Calibration Plot — 시각적 보강
각 deciles 의 (predicted, observed) plot. 대각선 (y=x) 에 가까우면 calibration OK.
자세한 calibration 분석은 H-WOO13-5 (Risk Score) 에서.
4 AIC / BIC — 정보 기준
Akaike Information Criterion: \[\text{AIC} = -2 \log L + 2k\]
Bayesian Information Criterion: \[\text{BIC} = -2 \log L + k \log n\]
여기서 \(k\) = 모수 수, \(n\) = 표본 크기.
작을수록 좋음. 모형 비교용.
4.1 AIC vs BIC
- 추상: AIC 는 prediction-oriented (over-fit 약간 허용), BIC 는 selection-oriented (true model 선호).
- 일상어 비유: AIC = 새로운 자료 예측 능력, BIC = “진짜 메커니즘 식별”.
- 반사실: \(n\) 큰 시점부터 BIC 가 AIC 보다 단순 모형 선호 (\(\log n > 2\)).
5 Deviance — 모형 적합도의 핵심 지표
\[D = -2 \log\left(\frac{L_{\text{model}}}{L_{\text{saturated}}}\right) = -2(\log L_{\text{model}} - \log L_{\text{saturated}})\]
Saturated model = 각 관측에 별도 모수 (perfect fit). Deviance = “현재 모형이 saturated 에서 얼마나 멀리?”
Null deviance: \(H_0\) (intercept only) 의 deviance. Residual deviance: 적합 모형의 deviance.
5.1 Pseudo R²
\[R^2_{\text{Cox-Snell}} = 1 - \exp\left(-\frac{D_{\text{null}} - D_{\text{model}}}{n}\right)\]
\[R^2_{\text{Nagelkerke}} = R^2_{\text{Cox-Snell}} / R^2_{\text{Cox-Snell, max}}\]
선형 회귀의 R² 와 비슷 — 0~1 사이. 단 logistic 의 진성 R² 는 정의 어려움.
Logistic 의 pseudo R² 는 선형 R² 와 다른 값 — 직접 비교 불가.
- 선형 R² 0.5 = 50% 분산 설명.
- Pseudo R² 0.5 = “매우 좋은 적합” 수준.
3 단계 직관:
- 추상: Pseudo R² 가 0~1 의 단순 비율 아님. Reference (max) 에 따라 정의 변화.
- 일상어 비유: 환율과 환율 — 다른 도시의 같은 척도 사용 불가.
- 반사실: 모형 비교 시 같은 자료 + 같은 종류 R² 사용. Cross-domain 비교 부적절.
6 코드 예시 — 가설 검정 + 적합도
import numpy as np
import pandas as pd
import statsmodels.api as sm
from scipy.stats import chi2
np.random.seed(42)
n = 1000
# 가상 자료
df = pd.DataFrame({
"smoke": np.random.binomial(1, 0.30, n),
"age": np.random.normal(50, 10, n),
})
log_odds = -3 + 0.6 * df["smoke"] + 0.04 * df["age"]
df["disease"] = np.random.binomial(1, 1/(1+np.exp(-log_odds)), n)
# 모형들
m_null = sm.Logit(df["disease"], sm.add_constant(np.ones(n))).fit(disp=0)
m1 = sm.Logit(df["disease"], sm.add_constant(df[["smoke"]])).fit(disp=0)
m2 = sm.Logit(df["disease"], sm.add_constant(df[["smoke", "age"]])).fit(disp=0)
# Wald — m2 의 각 계수
print("=== Wald (m2) ===")
for var in ["smoke", "age"]:
z = m2.params[var] / m2.bse[var]
p = 2 * (1 - chi2.cdf(z**2, 1))
print(f" {var}: z² = {z**2:.2f}, p = {p:.4f}")
# LR test — m_null vs m1
LR_1 = 2 * (m1.llf - m_null.llf)
p_1 = 1 - chi2.cdf(LR_1, df=1)
print(f"\n=== LR (null vs m1) ===")
print(f" LR = {LR_1:.2f}, df = 1, p = {p_1:.4f}")
# LR test — m1 vs m2
LR_2 = 2 * (m2.llf - m1.llf)
p_2 = 1 - chi2.cdf(LR_2, df=1)
print(f"\n=== LR (m1 vs m2) ===")
print(f" LR = {LR_2:.2f}, df = 1, p = {p_2:.4f}")
# AIC, BIC
print(f"\n=== AIC/BIC ===")
for label, m in [("null", m_null), ("m1", m1), ("m2", m2)]:
print(f" {label}: AIC = {m.aic:.1f}, BIC = {m.bic:.1f}")해석: m2 가 가장 작은 AIC/BIC → 다중 변수 모형 정당화. LR test 도 m1 → m2 추가가 유의.
7 A/B 테스트의 가설 검정
A/B 테스트에서 logistic 의 활용:
| 검정 | 활용 |
|---|---|
| Wald (treatment) | A vs B 의 lift 의 통계 유의성 |
| LR (treatment + interaction) | HTE 의 통계 유의성 |
| Hosmer-Lemeshow | 모형 calibration |
| AIC/BIC | 어느 공변량 보정이 best |
- 추상: 사전 변수 (CUPED) 추가 → SE ↓ → Wald z 통계 ↑ → 검정력 ↑.
- 일상어 비유: 측정 도구의 정밀도 ↑ → 작은 차이도 유의 검출.
- 반사실: 단순 lift 만 보면 noise 큼. 다중 logistic 으로 분산 감소.
8 Profile Likelihood — Wald 의 대안
각 \(\beta_j\) 에 대해 다른 모수 (nuisance) 를 최대화한 likelihood:
\[L_p(\beta_j) = \max_{\beta_{-j}} L(\beta_j, \beta_{-j})\]
CI: \(\beta_j\) values where \(-2 \log(L_p(\beta_j)/L_{\max}) \le \chi^2_{1, 0.95} = 3.84\).
- 추상 정의: Profile 이 likelihood 자체의 정확한 곡률, Wald 가 정규 근사.
- 일상어 비유: Profile = 정밀 측정, Wald = 빠른 근사.
- 반사실 시나리오: 작은 표본 + 강한 효과 시 Wald 부정확. Profile 이 robust.
Hauck-Donner 효과 회피: Profile likelihood 가 큰 효과에서도 정확.
9 Score Test 의 활용
귀무 가설 모형에서의 score function:
\[U(\beta_0) = \frac{\partial \log L}{\partial \beta} \bigg|_{\beta = \beta_0}\]
검정: \[T = U(\beta_0)^T I(\beta_0)^{-1} U(\beta_0) \sim \chi^2_p\]
장점: \(\beta\) 추정 불필요 — 빠름.
- 추상 정의: 귀무 모형 적합만 → 새 변수 추가 효과 검정.
- 일상어 비유: 추가 답안 작성 전 점수 영향 예측.
- 반사실 시나리오: 다중 변수 후보 중 우선순위 결정 시 score 가 효율.
10 Q&A — 검정 도구의 흔한 오해
A: 아니다. 임상 의의 평가 우선.
3 단계 직관:
- 추상 정의: 큰 표본의 검정력 ↑ → 사소한 misfit 도 유의.
- 일상어 비유: 정밀 도구가 모든 차이 검출 — 임상 무관.
- 반사실 시나리오: H-L p < 0.05 + calibration plot 시각이 임상 의의 판정.
A: 분석 목적에 따라.
3 단계 직관:
- 추상 정의: AIC = prediction-oriented (over-fit 약간 허용), BIC = true-model-oriented.
- 일상어 비유: AIC = 새 자료 예측, BIC = 진성 메커니즘 식별.
- 반사실 시나리오: 예측 모형은 AIC, 인과 분석은 BIC. 또는 cross-validation 이 결정.
A: 분야에 따라. Cox-Snell 의 max 가 < 1.
3 단계 직관:
- 추상 정의: Pseudo R² 가 선형 R² 와 다른 정의.
- 일상어 비유: 다른 도시의 교환율 — 직접 비교 불가.
- 반사실 시나리오: AIC + AUC + calibration 종합 평가가 단일 R² 보다 정직.
11 결론
3 가지 검정 (Wald, LR, Score) + GoF (Hosmer-Lemeshow) + IC (AIC, BIC) 가 logistic 의 표준 도구. 큰 표본에서 H-L 의 한계 + Wald 의 Hauck-Donner 효과 주의. LR 이 일반적으로 가장 robust. Profile likelihood CI 가 작은 표본 + 강한 효과의 표준.
다음 글 (H-WOO10-6) 에서 confounding 과 interaction 의 모형화를 본다.
12 관련 주제
- Logistic 개관
- 다중 logistic
- 1111-11-11, 교란과 상호작용
Statistics 크로스링크