Kwangmin Kim - Logistic Regression 개관

1 왜 또 다른 회귀인가

A/B 테스트나 코호트의 결과가 이항 (binary) 일 때 — 결제·전환·재방문·사망·발병 — 표준 선형 회귀를 그대로 쓰면 세 가지 본질 문제에 부딪힌다 (Woodward, 2014, Ch.10.2). Logistic regression 은 이 세 문제 모두를 한 번에 해결한다.

정의: Logistic Regression

이항 결과 변수 \(Y \in \{0, 1\}\) 의 위험 (risk) \(r = P(Y=1 \mid X)\) 를 logit 변환을 통해 선형 모형으로 표현한다 (Woodward, 2014, Ch.10.3).

\[ \text{logit}(r) = \log\left(\frac{r}{1-r}\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p \]

좌변은 odds 의 로그. 우변은 일반 선형 모형의 linear predictor.

1.1 3 단계 직관

추상 정의: \(r \in (0, 1)\) 은 비선형 경계가 있어 직접 선형 모형 부적합. Logit 은 \(\mathbb{R}\) 전체로 변환 → 선형 모형 적용 가능.
일상어 비유: 시험 합격 확률 \(r\) 자체는 0~1 경계가 있어 점수 차이 1 점이 합격 확률에 미치는 영향이 비선형. 합격 odds 의 로그는 점수와 거의 선형.
반사실 시나리오: 만약 logit 변환을 안 하고 선형 회귀를 쓰면 (1) 예측값이 0 미만 또는 1 초과 가능, (2) 분산이 일정 가정 위반 (binomial 분산 \(r(1-r)/n\)), (3) 정규성 위반. 세 문제가 모두 한 번에 발생.

2 Ch.10 전체 구조

WOO Ch.10 — Logistic Regression
│
├── 10.1 Intro                                → H-WOO10-1
├── 10.2 Standard regression 의 3 문제          → H-WOO10-1
├── 10.3 Logistic regression                  → H-WOO10-2
├── 10.4 Coefficient interpretation
│   ├── 10.4.1 Binary risk factor             → H-WOO10-2
│   ├── 10.4.2 Quantitative                   → H-WOO10-2
│   ├── 10.4.3 Categorical                    → H-WOO10-3
│   ├── 10.4.4 Ordinal + Floating absolute risk → H-WOO10-3
├── 10.5 Generic data                          → H-WOO10-4
├── 10.6 Multiple logistic regression         → H-WOO10-4
├── 10.7 Tests of hypotheses (GoF, IC)        → H-WOO10-5
├── 10.8 Confounding                          → H-WOO10-6
├── 10.9 Interaction                          → H-WOO10-6
└── 10.10 Quantitative variable handling     → H-WOO10-7

후속 7 편에서 각 절을 깊이 다룬다. 이 글은 챕터 전체 흐름과 실험 분석 lens 의 활용을 한 번에 조망한다.

3 표준 선형 회귀의 3 문제

3.1 문제 1 — Risk-X 관계의 비선형성

가정 위반: 직선 회귀

이항 결과의 risk 가 0~1 사이에 갇혀 있으므로, 양 끝에서 “squashing” — risk 가 0 또는 1 에 가까워지면 X 의 변화가 risk 에 미치는 영향이 작아진다.

Woodward 의 사례 (Table 10.3): 북부 글래스고 남성의 H. pylori 감염 prevalence 가 직업 사회 계층 (I~V) 에 따라 0.26 → 0.82 로 증가. 산점도가 명확한 S 곡선 (Figure 10.1).

3 단계 직관:

추상: \(\mathbb{E}[r \mid x] = f(x)\) 가 0~1 경계 근처에서 비선형. 선형 회귀 가정 위반.
일상어 비유: 학년 ↑ 에 따라 시험 합격률 ↑ — 1 학년 0%, 6 학년 100% 가까워질수록 학년 1 단위 증가의 효과가 작아짐.
반사실: 직선 적합 시 기울기가 평균 효과만 잡고 양 끝의 비선형 무시 → 외삽이 위험.

3.2 문제 2 — 예측 범위 위반

직선 회귀는 \(\hat r = a + bx\) 로 음수 또는 1 초과 예측 가능.

Woodward 의 SHHS 사례 (Example 10.3)

스코티시 심장 건강 연구의 40~59 세 남성의 7.7 년 사망률을 baseline 연령으로 직선 회귀.

\[\hat r = -25.394 + 0.645 \times \text{age}\]

매우 유의 (\(p < 0.001\)), \(R^2 = 0.97\). 그러나 39 세 예측 → \(-25.394 + 0.645 \times 39 = -0.239\) — 음의 risk!

3 단계 직관:

추상: 선형 함수의 치역은 \(\mathbb{R}\). Risk 의 정의역 0~1 과 불일치.
일상어 비유: 키-몸무게 회귀에서 음수 키 예측은 무의미. 모델이 변수의 본질적 제약을 무시.
반사실: 외삽 1 년 차이만으로도 무의미한 예측. 관측 범위 안에서도 신뢰구간이 0 이하로 내려갈 수 있음.

3.3 문제 3 — 비정규 오차

\(r = e/n\) 은 binomial 분포에서 도출. 정규 분포 가정과 분산 동일성 가정 모두 위반.

\[\text{Var}(r_i) = \frac{r_i (1-r_i)}{n_i}\]

는 \(r_i\) 에 의존 — 분산이 일정하지 않다. T-검정·CI 산출이 부정확해진다.

4 Logit 변환의 발상

직관 3 단계: Logit 의 핵심

\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right)\]

추상: \(r \in (0, 1)\) → odds \(r/(1-r) \in (0, \infty)\) → log → \((-\infty, \infty)\). 정의역 변환으로 선형 모형 적용 가능.
일상어 비유: 합격 확률 50% 면 odds 1:1, log 0. 99% 면 odds 99:1, log 4.6. 0.5% 면 odds 1:200, log -5.3. 확률의 변화를 odds 의 로그 단위 변화로 환산.
반사실: 만약 logit 대신 다른 변환 (probit, complementary log-log) 을 써도 비슷한 효과 — 단 logit 의 OR 해석이 가장 직관적이라 표준이 됨.

5 계수 해석 — OR 의 직접 산출

이항 risk factor \(x \in \{0, 1\}\) 에 대해:

\[ \log\left(\widehat{\Psi}\right) = b_1 (x_1 - x_0) = b_1 \]

\[\widehat{\Psi} = \exp(b_1)\]

즉 slope \(b_1\) 이 그대로 log OR, \(\exp(b_1)\) 이 OR.

Woodward 의 EGAT 사례 (Example 10.4)

태국 EGAT 흡연-CV 사망 logistic regression:

\[\text{logit} = -4.8326 + 1.0324 \cdot \text{smoke}\]

OR (smoker vs nonsmoker) = \(\exp(1.0324) = 2.808\) — 흡연자의 CV 사망 odds 가 비흡연자의 약 2.8 배.

3 단계 직관:

추상: \(\beta\) = log OR. 모형 적합 결과가 곧 OR 테이블.
일상어 비유: 회귀 출력의 한 줄로 임상·역학 표준 지표 (OR + CI) 산출.
반사실: 만약 risk 자체로 회귀했다면 risk difference (RD) 만 산출. RR 이나 OR 산출은 추가 변환 필요. Logit 회귀가 OR 을 자연 산출.

6 다중 보정·교란·상호작용

다변량 logistic 은 cohort/case-control 의 모든 분석 도구를 통합.

분석	Logistic 의 표현
Crude OR	단변량 logistic
Mantel-Haenszel	Stratified logistic (interaction 없음)
Confounding 보정	다변량 logistic
Effect modification	Interaction 항 추가
Dose-response	양적 변수 + spline

자세한 분석은 H-WOO10-4 (다중), H-WOO10-6 (교란·상호작용), H-WOO10-7 (양적 변수) 에서.

7 가설 검정

세 가지 표준 검정.

검정	활용
Wald	단일 계수 \(H_0: \beta_j = 0\)
Likelihood ratio (LR)	모형 비교 (중첩 모형)
Score	가설 검정 (모수 추정 안 한 상태)

표본이 클 때 세 검정이 거의 동일. 작은 표본에서는 LR 권장.

직관: 적합도 검정 (Goodness of Fit)

Hosmer-Lemeshow 검정: 예측 확률을 deciles 로 분할 후 observed vs expected 비교. 큰 표본에서 검정력 너무 강해 신중.
Deviance: 포화 모형과의 우도 비. \(\chi^2\) 분포 근사.
AIC / BIC: Information criteria. 모형 비교용.

8 실험 분석 lens — A/B 테스트와 logistic regression

A/B 테스트의 이항 결과 (전환·결제·클릭) 분석에서 logistic 이 표준 도구.

단계	Logistic 의 활용
단순 lift	OR or RR 추정 (변환 후)
공변량 보정	사전 변수 (활동량, 신규/기존, 채널) 추가
Heterogeneous Treatment Effect	Treatment × Covariate interaction
CUPED	Pre-experiment baseline 을 공변량으로

직관: A/B 의 OR vs RR

A/B 의 결과가 흔하면 (예: 클릭률 30%) → OR 와 RR 차이 큼. RR 이 더 직관적이지만 logistic 은 OR 출력. 변환 필요.
A/B 의 결과가 희귀하면 (예: 결제 1%) → OR ≈ RR. 변환 불필요.

A/B 테스트 보고에서 metric 정의에 따라 OR 인지 RR 인지 명시 중요.

9 Statistics 카테고리와의 분담

Statistics 카테고리에 logistic 관련 글이 풍부하다.

Statistics 글	영역
`glm/logistic-regression-model.qmd`	단순 logistic 모형의 정의
`glm/logistic-regression-estimation.qmd`	MLE 추정
`glm/03--binary-data-.qmd` 시리즈	McCullagh-Nelder GLM 의 binary 부분
`LDA/09--mrm-glmm-binary-.qmd` 시리즈	Mixed effect logistic (longitudinal)

Phase H 의 분담:

Statistics: 이론 정본 (McCullagh-Nelder) — 모형 정의, MLE, 분포 이론.
LDA: 혼합 효과 확장 — repeated measurement, longitudinal.
Phase H: 실험 분석 lens — cohort/case-control 분석, OR 해석, A/B 테스트 적용, dose-response.

같은 logistic 도구이지만 적용 맥락이 다름.

10 Logistic Regression 의 7 개 가정

정의: 7 개 핵심 가정

1. Independence: 관측 간 독립.

2. Logit linearity: 양적 covariate 가 logit 단위에서 선형.

3. No perfect separation: Covariate 가 결과를 완벽히 분류 안 됨.

4. No multicollinearity: Covariate 간 강한 상관 없음.

5. Adequate sample size: 사건 수 ≥ 10 × 변수 수 (EPV rule).

6. Outcome correctness: Binary outcome 의 정의 명확.

7. Predictors not measured with substantial error: 측정 오차 작음.

직관 3 단계: 7 가정의 분업

추상 정의: 각 가정의 위반이 다른 결과 — bias, inflated SE, convergence 실패.
일상어 비유: 자동차의 7 가지 점검 — 각 결함이 다른 문제.
반사실 시나리오: Pre-modeling 점검 (correlation, EPV, perfect separation) 가 표준.

가정 위반 진단: - Logit linearity: spline + LR test. - Multicollinearity: VIF. - Sample size: EPV (Events Per Variable). - Separation: Convergence warning.

10.1 EPV Rule — Events Per Variable

정의: EPV Rule

권장: \(\text{사건 수} / \text{변수 수} \ge 10\).

예시: 100 사건 → 10 변수 까지 안전.

(Peduzzi et al., 1996).

가정 위반: EPV < 10

EPV 작 시: - \(\hat\beta\) bias. - SE 부정확. - Over-fit.

3 단계 직관:

추상 정의: 사건 수가 변수 수의 안전 한계.
일상어 비유: 시험 응시자 100 명에 변수 50 개 분석 — 결론 불안정.
반사실 시나리오: EPV < 10 시 Lasso 또는 변수 사전 선택 (DAG 기반) 으로 변수 ↓.

11 Penalized Logistic — 작은 자료 도구

사례: Firth ’s correction

작은 자료 (perfect separation 위험) 의 logistic.

\[L_{\text{Firth}}(\beta) = L(\beta) + \frac{1}{2} \log |I(\beta)|\]

추가 항이 estimator 의 bias 보정.

3 단계 직관:

추상 정의: 작은 자료의 MLE bias 보정. Penalized likelihood 의 일종.
일상어 비유: 작은 표본의 평균 추정 보정 — Bayesian shrinkage.
반사실 시나리오: Firth 없이 작은 자료 적합 시 \(\hat\beta = \infty\) 가능 (separation). Firth 가 안전.

12 A/B 테스트의 가정 점검

사례: Pre-modeling 점검

import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor

# 1. EPV 점검
n_events = df["conversion"].sum()
n_features = X.shape[1]
EPV = n_events / n_features
print(f"EPV: {EPV:.1f} ({'OK' if EPV >= 10 else '낮음'})")

# 2. VIF 점검
for i, var in enumerate(X.columns):
    vif = variance_inflation_factor(X.values, i)
    print(f"  {var}: VIF = {vif:.2f}")

# 3. Logit linearity (Box-Tidwell)
for var in continuous_vars:
    df[f"{var}_log"] = df[var] * np.log(df[var])

X_test = sm.add_constant(pd.concat([X[continuous_vars],
                                      df[[f"{v}_log" for v in continuous_vars]]], axis=1))
m = sm.Logit(df["conversion"], X_test).fit(disp=0)
# 각 _log 항의 p-value 점검

3 단계 직관:

추상 정의: 모형 적합 전 가정 점검 → robust 결과.
일상어 비유: 자동차 점검 후 출발.
반사실 시나리오: 점검 없이 적합 시 결과 misleading 가능. Pre-modeling 이 표준.

13 결론 — Ch.10 시리즈 길잡이

글	주제
H-WOO10-0 (이 글)	Overview
H-WOO10-1	표준 회귀의 3 문제 + logit 도입
H-WOO10-2	Logistic + 계수 해석 (Binary, Quantitative)
H-WOO10-3	계수 해석 (Categorical, Ordinal, FAR)
H-WOO10-4	일반 데이터 + 다중 logistic
H-WOO10-5	가설 검정 (GoF, Effect, IC)
H-WOO10-6	교란과 상호작용
H-WOO10-7	양적 변수 처리 (Linear/Categorical/Spline)

각 글이 위 절을 추상 → 일상어 → 반사실 3 단계로 깊이 다룬다.

14 관련 주제

Phase H WOO Ch.10 시리즈 (후속)

Statistics 크로스링크

logistic-regression-model — McCullagh-Nelder 정본
logistic-regression-estimation — MLE 추정
LDA mrm-glmm-binary 시리즈 — Mixed effect 확장

다른 카테고리

Effect Measures — RD/RR/OR 통합
Case-Control 시리즈 (Phase B)