1 왜 또 다른 회귀인가
A/B 테스트나 코호트의 결과가 이항 (binary) 일 때 — 결제·전환·재방문·사망·발병 — 표준 선형 회귀를 그대로 쓰면 세 가지 본질 문제에 부딪힌다 (Woodward, 2014, Ch.10.2). Logistic regression 은 이 세 문제 모두를 한 번에 해결한다.
이항 결과 변수 \(Y \in \{0, 1\}\) 의 위험 (risk) \(r = P(Y=1 \mid X)\) 를 logit 변환을 통해 선형 모형으로 표현한다 (Woodward, 2014, Ch.10.3).
\[ \text{logit}(r) = \log\left(\frac{r}{1-r}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p \]
좌변은 odds 의 로그. 우변은 일반 선형 모형의 linear predictor.
1.1 3 단계 직관
- 추상 정의: \(r \in (0, 1)\) 은 비선형 경계가 있어 직접 선형 모형 부적합. Logit 은 \(\mathbb{R}\) 전체로 변환 → 선형 모형 적용 가능.
- 일상어 비유: 시험 합격 확률 \(r\) 자체는 0~1 경계가 있어 점수 차이 1 점이 합격 확률에 미치는 영향이 비선형. 합격 odds 의 로그는 점수와 거의 선형.
- 반사실 시나리오: 만약 logit 변환을 안 하고 선형 회귀를 쓰면 (1) 예측값이 0 미만 또는 1 초과 가능, (2) 분산이 일정 가정 위반 (binomial 분산 \(r(1-r)/n\)), (3) 정규성 위반. 세 문제가 모두 한 번에 발생.
2 Ch.10 전체 구조
WOO Ch.10 — Logistic Regression
│
├── 10.1 Intro → H-WOO10-1
├── 10.2 Standard regression 의 3 문제 → H-WOO10-1
├── 10.3 Logistic regression → H-WOO10-2
├── 10.4 Coefficient interpretation
│ ├── 10.4.1 Binary risk factor → H-WOO10-2
│ ├── 10.4.2 Quantitative → H-WOO10-2
│ ├── 10.4.3 Categorical → H-WOO10-3
│ ├── 10.4.4 Ordinal + Floating absolute risk → H-WOO10-3
├── 10.5 Generic data → H-WOO10-4
├── 10.6 Multiple logistic regression → H-WOO10-4
├── 10.7 Tests of hypotheses (GoF, IC) → H-WOO10-5
├── 10.8 Confounding → H-WOO10-6
├── 10.9 Interaction → H-WOO10-6
└── 10.10 Quantitative variable handling → H-WOO10-7
후속 7 편에서 각 절을 깊이 다룬다. 이 글은 챕터 전체 흐름과 실험 분석 lens 의 활용을 한 번에 조망한다.
3 표준 선형 회귀의 3 문제
3.1 문제 1 — Risk-X 관계의 비선형성
이항 결과의 risk 가 0~1 사이에 갇혀 있으므로, 양 끝에서 “squashing” — risk 가 0 또는 1 에 가까워지면 X 의 변화가 risk 에 미치는 영향이 작아진다.
Woodward 의 사례 (Table 10.3): 북부 글래스고 남성의 H. pylori 감염 prevalence 가 직업 사회 계층 (I~V) 에 따라 0.26 → 0.82 로 증가. 산점도가 명확한 S 곡선 (Figure 10.1).
3 단계 직관:
- 추상: \(\mathbb{E}[r \mid x] = f(x)\) 가 0~1 경계 근처에서 비선형. 선형 회귀 가정 위반.
- 일상어 비유: 학년 ↑ 에 따라 시험 합격률 ↑ — 1 학년 0%, 6 학년 100% 가까워질수록 학년 1 단위 증가의 효과가 작아짐.
- 반사실: 직선 적합 시 기울기가 평균 효과만 잡고 양 끝의 비선형 무시 → 외삽이 위험.
3.2 문제 2 — 예측 범위 위반
직선 회귀는 \(\hat r = a + bx\) 로 음수 또는 1 초과 예측 가능.
스코티시 심장 건강 연구의 40~59 세 남성의 7.7 년 사망률을 baseline 연령으로 직선 회귀.
\[\hat r = -25.394 + 0.645 \times \text{age}\]
매우 유의 (\(p < 0.001\)), \(R^2 = 0.97\). 그러나 39 세 예측 → \(-25.394 + 0.645 \times 39 = -0.239\) — 음의 risk!
3 단계 직관:
- 추상: 선형 함수의 치역은 \(\mathbb{R}\). Risk 의 정의역 0~1 과 불일치.
- 일상어 비유: 키-몸무게 회귀에서 음수 키 예측은 무의미. 모델이 변수의 본질적 제약을 무시.
- 반사실: 외삽 1 년 차이만으로도 무의미한 예측. 관측 범위 안에서도 신뢰구간이 0 이하로 내려갈 수 있음.
3.3 문제 3 — 비정규 오차
\(r = e/n\) 은 binomial 분포에서 도출. 정규 분포 가정과 분산 동일성 가정 모두 위반.
\[\text{Var}(r_i) = \frac{r_i (1-r_i)}{n_i}\]
는 \(r_i\) 에 의존 — 분산이 일정하지 않다. T-검정·CI 산출이 부정확해진다.
4 Logit 변환의 발상
\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right)\]
- 추상: \(r \in (0, 1)\) → odds \(r/(1-r) \in (0, \infty)\) → log → \((-\infty, \infty)\). 정의역 변환으로 선형 모형 적용 가능.
- 일상어 비유: 합격 확률 50% 면 odds 1:1, log 0. 99% 면 odds 99:1, log 4.6. 0.5% 면 odds 1:200, log -5.3. 확률의 변화를 odds 의 로그 단위 변화로 환산.
- 반사실: 만약 logit 대신 다른 변환 (probit, complementary log-log) 을 써도 비슷한 효과 — 단 logit 의 OR 해석이 가장 직관적이라 표준이 됨.
5 계수 해석 — OR 의 직접 산출
이항 risk factor \(x \in \{0, 1\}\) 에 대해:
\[ \log\left(\widehat{\Psi}\right) = b_1 (x_1 - x_0) = b_1 \]
\[\widehat{\Psi} = \exp(b_1)\]
즉 slope \(b_1\) 이 그대로 log OR, \(\exp(b_1)\) 이 OR.
태국 EGAT 흡연-CV 사망 logistic regression:
\[\text{logit} = -4.8326 + 1.0324 \cdot \text{smoke}\]
OR (smoker vs nonsmoker) = \(\exp(1.0324) = 2.808\) — 흡연자의 CV 사망 odds 가 비흡연자의 약 2.8 배.
3 단계 직관:
- 추상: \(\beta\) = log OR. 모형 적합 결과가 곧 OR 테이블.
- 일상어 비유: 회귀 출력의 한 줄로 임상·역학 표준 지표 (OR + CI) 산출.
- 반사실: 만약 risk 자체로 회귀했다면 risk difference (RD) 만 산출. RR 이나 OR 산출은 추가 변환 필요. Logit 회귀가 OR 을 자연 산출.
6 다중 보정·교란·상호작용
다변량 logistic 은 cohort/case-control 의 모든 분석 도구를 통합.
| 분석 | Logistic 의 표현 |
|---|---|
| Crude OR | 단변량 logistic |
| Mantel-Haenszel | Stratified logistic (interaction 없음) |
| Confounding 보정 | 다변량 logistic |
| Effect modification | Interaction 항 추가 |
| Dose-response | 양적 변수 + spline |
자세한 분석은 H-WOO10-4 (다중), H-WOO10-6 (교란·상호작용), H-WOO10-7 (양적 변수) 에서.
7 가설 검정
세 가지 표준 검정.
| 검정 | 활용 |
|---|---|
| Wald | 단일 계수 \(H_0: \beta_j = 0\) |
| Likelihood ratio (LR) | 모형 비교 (중첩 모형) |
| Score | 가설 검정 (모수 추정 안 한 상태) |
표본이 클 때 세 검정이 거의 동일. 작은 표본에서는 LR 권장.
- Hosmer-Lemeshow 검정: 예측 확률을 deciles 로 분할 후 observed vs expected 비교. 큰 표본에서 검정력 너무 강해 신중.
- Deviance: 포화 모형과의 우도 비. \(\chi^2\) 분포 근사.
- AIC / BIC: Information criteria. 모형 비교용.
8 실험 분석 lens — A/B 테스트와 logistic regression
A/B 테스트의 이항 결과 (전환·결제·클릭) 분석에서 logistic 이 표준 도구.
| 단계 | Logistic 의 활용 |
|---|---|
| 단순 lift | OR or RR 추정 (변환 후) |
| 공변량 보정 | 사전 변수 (활동량, 신규/기존, 채널) 추가 |
| Heterogeneous Treatment Effect | Treatment × Covariate interaction |
| CUPED | Pre-experiment baseline 을 공변량으로 |
- A/B 의 결과가 흔하면 (예: 클릭률 30%) → OR 와 RR 차이 큼. RR 이 더 직관적이지만 logistic 은 OR 출력. 변환 필요.
- A/B 의 결과가 희귀하면 (예: 결제 1%) → OR ≈ RR. 변환 불필요.
A/B 테스트 보고에서 metric 정의에 따라 OR 인지 RR 인지 명시 중요.
9 Statistics 카테고리와의 분담
Statistics 카테고리에 logistic 관련 글이 풍부하다.
| Statistics 글 | 영역 |
|---|---|
glm/logistic-regression-model.qmd |
단순 logistic 모형의 정의 |
glm/logistic-regression-estimation.qmd |
MLE 추정 |
glm/03-*-binary-data-*.qmd 시리즈 |
McCullagh-Nelder GLM 의 binary 부분 |
LDA/09-*-mrm-glmm-binary-*.qmd 시리즈 |
Mixed effect logistic (longitudinal) |
Phase H 의 분담:
- Statistics: 이론 정본 (McCullagh-Nelder) — 모형 정의, MLE, 분포 이론.
- LDA: 혼합 효과 확장 — repeated measurement, longitudinal.
- Phase H: 실험 분석 lens — cohort/case-control 분석, OR 해석, A/B 테스트 적용, dose-response.
같은 logistic 도구이지만 적용 맥락이 다름.
10 Logistic Regression 의 7 개 가정
1. Independence: 관측 간 독립.
2. Logit linearity: 양적 covariate 가 logit 단위에서 선형.
3. No perfect separation: Covariate 가 결과를 완벽히 분류 안 됨.
4. No multicollinearity: Covariate 간 강한 상관 없음.
5. Adequate sample size: 사건 수 ≥ 10 × 변수 수 (EPV rule).
6. Outcome correctness: Binary outcome 의 정의 명확.
7. Predictors not measured with substantial error: 측정 오차 작음.
- 추상 정의: 각 가정의 위반이 다른 결과 — bias, inflated SE, convergence 실패.
- 일상어 비유: 자동차의 7 가지 점검 — 각 결함이 다른 문제.
- 반사실 시나리오: Pre-modeling 점검 (correlation, EPV, perfect separation) 가 표준.
가정 위반 진단: - Logit linearity: spline + LR test. - Multicollinearity: VIF. - Sample size: EPV (Events Per Variable). - Separation: Convergence warning.
10.1 EPV Rule — Events Per Variable
권장: \(\text{사건 수} / \text{변수 수} \ge 10\).
예시: 100 사건 → 10 변수 까지 안전.
(Peduzzi et al., 1996).
EPV 작 시: - \(\hat\beta\) bias. - SE 부정확. - Over-fit.
3 단계 직관:
- 추상 정의: 사건 수가 변수 수의 안전 한계.
- 일상어 비유: 시험 응시자 100 명에 변수 50 개 분석 — 결론 불안정.
- 반사실 시나리오: EPV < 10 시 Lasso 또는 변수 사전 선택 (DAG 기반) 으로 변수 ↓.
11 Penalized Logistic — 작은 자료 도구
작은 자료 (perfect separation 위험) 의 logistic.
\[L_{\text{Firth}}(\beta) = L(\beta) + \frac{1}{2} \log |I(\beta)|\]
추가 항이 estimator 의 bias 보정.
3 단계 직관:
- 추상 정의: 작은 자료의 MLE bias 보정. Penalized likelihood 의 일종.
- 일상어 비유: 작은 표본의 평균 추정 보정 — Bayesian shrinkage.
- 반사실 시나리오: Firth 없이 작은 자료 적합 시 \(\hat\beta = \infty\) 가능 (separation). Firth 가 안전.
12 A/B 테스트의 가정 점검
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
# 1. EPV 점검
n_events = df["conversion"].sum()
n_features = X.shape[1]
EPV = n_events / n_features
print(f"EPV: {EPV:.1f} ({'OK' if EPV >= 10 else '낮음'})")
# 2. VIF 점검
for i, var in enumerate(X.columns):
vif = variance_inflation_factor(X.values, i)
print(f" {var}: VIF = {vif:.2f}")
# 3. Logit linearity (Box-Tidwell)
for var in continuous_vars:
df[f"{var}_log"] = df[var] * np.log(df[var])
X_test = sm.add_constant(pd.concat([X[continuous_vars],
df[[f"{v}_log" for v in continuous_vars]]], axis=1))
m = sm.Logit(df["conversion"], X_test).fit(disp=0)
# 각 _log 항의 p-value 점검3 단계 직관:
- 추상 정의: 모형 적합 전 가정 점검 → robust 결과.
- 일상어 비유: 자동차 점검 후 출발.
- 반사실 시나리오: 점검 없이 적합 시 결과 misleading 가능. Pre-modeling 이 표준.
13 결론 — Ch.10 시리즈 길잡이
| 글 | 주제 |
|---|---|
| H-WOO10-0 (이 글) | Overview |
| H-WOO10-1 | 표준 회귀의 3 문제 + logit 도입 |
| H-WOO10-2 | Logistic + 계수 해석 (Binary, Quantitative) |
| H-WOO10-3 | 계수 해석 (Categorical, Ordinal, FAR) |
| H-WOO10-4 | 일반 데이터 + 다중 logistic |
| H-WOO10-5 | 가설 검정 (GoF, Effect, IC) |
| H-WOO10-6 | 교란과 상호작용 |
| H-WOO10-7 | 양적 변수 처리 (Linear/Categorical/Spline) |
각 글이 위 절을 추상 → 일상어 → 반사실 3 단계로 깊이 다룬다.
14 관련 주제
Phase H WOO Ch.10 시리즈 (후속)
- 1111-11-11, 표준 회귀의 문제와 logit 도입
- 1111-11-11, 로지스틱 회귀와 계수 해석 (1)
- 1111-11-11, 계수 해석 (2) — 범주·순서·FAR
- 1111-11-11, 일반 데이터와 다중 로지스틱
- 1111-11-11, 가설검정 (적합도·효과·IC)
- 1111-11-11, 교란과 상호작용
- 1111-11-11, 양적 설명 변수 처리
Statistics 크로스링크
- logistic-regression-model — McCullagh-Nelder 정본
- logistic-regression-estimation — MLE 추정
- LDA mrm-glmm-binary 시리즈 — Mixed effect 확장
다른 카테고리
- Effect Measures — RD/RR/OR 통합
- Case-Control 시리즈 (Phase B)