Kwangmin Kim - 표준 회귀의 3 문제와 Logit 변환의 발상

1 10.1 Introduction — 위험 인자와 결과의 관계

정의: 이항 결과 모델링

위험 인자 (risk factor) $X$ 와 결과 (disease/event) $Y \in \{0, 1\}$ 사이의 관계 모형. $Y$ 는 이항 변수이며, $X$ 는 양적 또는 질적 (Woodward, 2014, Ch.10.1).

자료 형태 2 가지:

개별 자료 (Table 10.1): 각 개인 $(x_i, y_i)$.
집계 자료 (Table 10.2): 각 risk factor 값 $x_i$ 에서 발병자 수 $e_i$, 전체 $n_i$, 비율 $r_i = e_i/n_i$.

집계 형태가 분석에 더 유용 — $r_i$ 가 risk 의 추정.

2 H. pylori 사례 — Table 10.3

사례: 사회 계층과 H. pylori 감염

McDonagh et al. (1997) MONICA 조사의 북부 글래스고 남성:

직업 사회 계층	감염자 / 전체	Prevalence
I (전문직 비-수공)	10/38	0.26
II (중간 비-수공)	40/86	0.46
IIIn (숙련 비-수공)	36/57	0.63
IIIm (숙련 수공)	226/300	0.75
IV (반숙련 수공)	83/108	0.77
V (비숙련 수공)	60/73	0.82

관찰: 사회 계층 ↓ 따라 감염률 ↑. 그러나 곡선의 모양이 단순 직선이 아님 — S 모양.

3 단계 직관:

추상: $r$ 가 0.26 → 0.82 로 0~1 의 대부분 범위 차지. 이 범위에서 직선 적합 부적합.
일상어 비유: 키-나이 관계 — 0~3 살에는 급증, 18 살 이후 멈춤. 단순 직선 부적합.
반사실: 만약 직선 회귀를 적용해 외삽 (예: 사회 계층 0 또는 7) 하면 음수 또는 1 초과 prevalence 예측 — 무의미.

3 SHHS 사례 — Table 10.4

사례: 연령과 사망률

스코티시 심장 건강 연구 (SHHS) 의 5754 명 남성 (40~59 세) 의 7.7 년 사망률 (Tunstall-Pedoe et al., 1997):

Age	사망 / 전체	%
40	1/251	0.4
41	12/317	3.8
42	13/309	4.2
…	…	…
58	38/260	14.6
59	49/302	16.2

관찰: 연령 ↑ 따라 사망률 ↑. 0.4% ~ 16.2% 로 0~1 의 작은 범위만 차지 — 직선 적합이 비교적 잘 작동하나 양 끝의 squashing 일부 보임.

3 단계 직관:

추상: Risk 가 0~0.16 의 좁은 범위 → 직선 적합의 일부 영역에서 잘 작동. 그러나 외삽 시 문제.
일상어 비유: 좁은 범위의 키 비교 (170~180cm) — 직선 근사 잘 작동. 그러나 인간 키 0~250cm 전체로 외삽하면 무의미.
반사실: 직선 회귀 적합 결과 ($\hat r = -25.394 + 0.645 \cdot \text{age}$) 가 39 세 예측 시 음수 — 1 년 외삽이 함정.

4 10.2 표준 회귀의 3 문제

4.1 문제 1 — r-x 관계의 비선형성

가정 위반: 직선 가정

$r$ 와 $x$ 의 관계가 직선이 아닌 S 모양인 이유는 0 과 1 의 경계 때문.

3 단계 직관:

추상: $r \to 0$ 또는 $r \to 1$ 부근에서 $x$ 의 변화가 $r$ 에 미치는 영향이 작아짐. 미분 $dr/dx$ 가 양 끝에서 0 에 수렴.
일상어 비유: 시험 점수와 합격률 — 60 점이면 합격선에 가까워 1 점 추가가 합격률에 큰 영향. 95 점은 거의 모두 합격 → 추가 1 점 효과 작음.
반사실: 만약 직선 적합하면 양 끝의 squashing 무시 → 평균 기울기로 모든 영역 묘사. 외삽이 자동 무의미.

4.2 문제 2 — 예측값이 유효 범위 벗어남

가정 위반: 범위 제약 무시

직선 회귀 $\hat r = a + bx$ 의 치역은 $\mathbb{R}$. Risk 정의역 $[0, 1]$ 과 불일치.

Woodward 의 SHHS 예시 (Example 10.3):

\[\hat r = -25.394 + 0.645 \times \text{age}\]

$\text{age} = 39$ → $\hat r = -0.239$ (음수). $\text{age} = 100$ → $\hat r = 39.106$ (1 초과).

3 단계 직관:

추상: 모형의 함수 형태가 변수의 본질 제약과 부합해야 함. 직선은 부합 안 됨.
일상어 비유: 카운트 변수 (사람 수) 를 음수 또는 분수로 예측하는 것과 같은 무의미.
반사실: 모형이 0~1 안에 갇히도록 변환 (logit, probit, complementary log-log) → 자동 해결.

4.3 문제 3 — 비정규 오차

가정 위반: 정규 분포 + 분산 동일

선형 회귀의 오차 가정: - $\epsilon \sim N(0, \sigma^2)$. - 모든 관측의 분산 $\sigma^2$ 일정.

이항 risk: \[\text{Var}(r_i) = \frac{r_i (1-r_i)}{n_i}\]

가정 위반: - 분포: Binomial (정규 아님). - 분산: $r_i$ 에 의존 → 비-동일.

결과: - t-검정·CI 가 비정규 오차 가정에 의존 → 추론 부정확. - WLS (가중 최소제곱) 으로 일부 보정 가능하나 근본 해결 아님.

3 단계 직관:

추상: 분포가 binomial 이면 likelihood 가 binomial. 정규 가정 사용하면 misspecified.
일상어 비유: 동전 던지기 결과를 정규 분포로 모형하면 양 끝 (모두 앞면 또는 모두 뒷면) 확률 계산이 부정확.
반사실: Binomial likelihood 직접 사용 (logistic regression 의 본질) → 정확한 추론.

5 Arcsine 변환의 한계

WLS 나 arcsine sqrt 변환 ($\sin^{-1}\sqrt{r}$) 으로 분산 안정화 시도 가능. 그러나:

$n_i$ 가 모두 비슷할 때만 효과적.
Risk 자체의 해석이 어려워짐 (변환 후 단위 무의미).
어디까지나 근사 — Logistic 이 정본.

직관: 왜 Logistic 이 표준이 되었나

추상: Logistic 이 (1) 비선형 S 곡선 + (2) 0~1 범위 + (3) Binomial likelihood 모두를 한 번에 해결.
일상어 비유: 한 도구로 세 문제 해결 — 다용도 칼.
반사실: Probit 또는 complementary log-log 도 비슷한 효과. Logistic 의 OR 해석이 가장 직관적이라 표준이 됨.

6 Logit 의 미리 보기

다음 글 (H-WOO10-2) 에서 본격 다룰 logit 변환의 핵심 발상:

\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right)\]

변환 단계	정의역	치역
Risk $r$	$[0, 1]$	$[0, 1]$
Odds $r/(1-r)$	$[0, 1]$	$[0, \infty)$
Log odds (logit)	$[0, 1]$	$(-\infty, \infty)$

직관 3 단계: Logit 의 변환

추상: 두 단계 변환 — odds 가 0~∞ 로 펴고, log 가 -∞~∞ 로 펴기. 마지막이 선형 모형의 정의역과 일치.
일상어 비유: 종이 접기 — 두 번 펼치면 정사각형이 직사각형으로 펴진다.
반사실: 한 단계만 (odds 까지만) 하면 음의 값 안 나옴 → 여전히 직선 부적합. 두 단계 모두 필수.

7 A/B 테스트 분석에서의 함의

A/B 테스트의 이항 결과 (클릭, 결제, 전환) 는 위 3 문제 모두에 해당.

A/B 의 시나리오	표준 회귀의 함정	Logistic 의 해결
결제율 1% (희귀)	직선 회귀가 음의 결제율 예측 가능	$\hat r \in (0, 1)$ 보장
Heavy user 의 결제율 30%	양 끝에서 squashing	S 곡선이 자연 적합
신뢰구간 산출	정규 가정의 CI 부정확	Wald/LR CI 가 binomial 기반

A/B 테스트의 표준 분석 도구가 logistic 인 이유.

8 Logit·Probit·Complementary Log-Log — 3 가지 link 함수

정의: Link 함수 비교

이항 회귀의 3 가지 표준 link:

Logit: \[\text{logit}(r) = \log(r/(1-r))\]

Probit: \[\text{probit}(r) = \Phi^{-1}(r)\] ($\Phi$ = 표준 정규 CDF).

Complementary log-log (cloglog): \[\log(-\log(1-r))\]

8.1 직관 — 3 link 의 차이

직관 3 단계: 3 link 의 분업

추상 정의: 모두 $(0,1) \to \mathbb{R}$ 변환. 함수 형태 약간 다름.
일상어 비유: 같은 비율을 다른 단위로 변환 — log odds, z-score, log hazard.
반사실 시나리오:
- Logit: OR 직접 해석 가능 → 임상 표준.
- Probit: 잠재 변수 (latent normal) 모형 자연 → 행동경제학·심리학.
- Cloglog: Discrete-time hazard 모형 → 생존 분석의 시점 binary 환원.

왜 logit 이 표준인가: - $() = $ OR 직접. - 작은 $r$ 에서 logit ≈ probit (스케일 차이만). - 임상·역학 친화.

8.2 작은 비율에서 logit ≈ log(r)

직관 3 단계: 희귀 결과의 단순화

희귀 결과 ($r < 0.05$) 시:

\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right) \approx \log r\]

(분모 $1 - r \approx 1$).

추상 정의: 희귀 결과의 logit 이 log 자체에 근사. OR ≈ RR 의 본질.
일상어 비유: 1% 의 log 가 약 -4.6, 0.99 의 log 가 약 -0.01. 분모 무시 가능.
반사실 시나리오: 결과 흔하면 (예: 30%) logit ≠ log → OR ≠ RR. 보고 시 metric 명시 중요.

9 Logit 의 수학적 성질

정의: Logit 의 4 가지 성질

1. Range: $(-\infty, +\infty)$ — 선형 모형 적용 가능. 2. Symmetry: $\text{logit}(r) = -\text{logit}(1-r)$ — 0.5 대칭. 3. Differentiability: $\frac{d \text{logit}}{dr} = \frac{1}{r(1-r)}$ — 0.5 에서 최소. 4. Inverse: $r = 1/(1 + e^{-\text{logit}})$ — sigmoid 함수.

직관: Symmetry 의 의미

추상 정의: Logit(0.5) = 0, logit(0.99) = +4.6, logit(0.01) = -4.6.
일상어 비유: 50:50 odds 가 0, 99:1 vs 1:99 가 +/- 같은 거리.
반사실 시나리오: Probit 도 symmetric. Cloglog 는 asymmetric (양 끝의 log 비대칭).

10 OR 의 직접 도출

직관 3 단계: OR = exp(β) 의 본질

$\text{logit}(r_1) - \text{logit}(r_0) = b_1$ 이면:

\[\log\left(\frac{r_1/(1-r_1)}{r_0/(1-r_0)}\right) = b_1\]

\[\frac{\text{Odds}_1}{\text{Odds}_0} = \exp(b_1) = \text{OR}\]

추상 정의: Logit 차이 = log OR. 회귀 출력의 한 줄 = OR 자동.
일상어 비유: 같은 단위 (log odds) 에서 차이 = ratio. 환율 변환의 차이 = ratio.
반사실 시나리오: 만약 probit 사용 시 $\beta$ 가 OR 아님 — z-score 차이. 변환 필요.

11 Q&A — Logit 변환의 흔한 오해

Q1: Logit 의 절편 $b_0$ 의 임상 의미는?

A: $b_0 = \text{logit}(r_0)$, 즉 모든 covariate 0 일 때의 risk 의 logit.

\[r_0 = \frac{1}{1 + e^{-b_0}}\]

3 단계 직관:

추상 정의: 회귀 절편 = baseline log odds.
일상어 비유: 모든 위험 인자 0 일 때의 baseline 위험.
반사실 시나리오: 변수 모두 0 인 환자가 자연스럽지 않으면 (예: age 0) 절편 해석 어려움. Centering (age - 50) 이 도구.

Q2: 결과 흔하면 OR 과 RR 차이 큰가?

A: 그렇다. $r > 0.10$ 부터 OR 와 RR 차이 의미 있음.

예시: $r_0 = 0.20, r_1 = 0.40$. - RR = 2.0. - OR = (0.40/0.60) / (0.20/0.80) = 0.67/0.25 = 2.67.

OR 가 RR 보다 33% 더 큰 효과로 보임.

3 단계 직관:

추상 정의: $\text{OR} = \text{RR} \cdot \frac{1-r_0}{1-r_1}$. $r$ 큼 → ratio 멀어짐.
일상어 비유: 작은 효과는 OR ≈ RR, 큰 효과는 OR ↑.
반사실 시나리오: 흔한 결과 (예: 클릭률 30%) 의 A/B 결과 보고 시 OR 와 RR 명시. RR 가 임상 직관 유리.

Q3: Probit 대신 logit 이 표준인 이유?

A: OR 의 임상 활용성.

3 단계 직관:

추상 정의: Logit 의 $\beta$ 가 log OR 직접. Probit 의 $\beta$ 는 z-score 단위 — 변환 필요.
일상어 비유: 직접 단위 vs 추가 변환. 직접이 임상 친화.
반사실 시나리오: 행동경제학·심리학에서 latent normal 가정 자연 → probit. 의학·역학은 logit 표준.

12 사례 — H. pylori 의 직선 vs Logistic 비교

사례: 사회 계층 6 단계의 직선 부적합

H. pylori 자료 (Table 10.3) 에 두 모형 비교:

직선: \[\hat r = a + b \cdot \text{class}\] - 1 단계 → 0.26, 6 단계 → 0.82 까지 잘 적합. - 외삽: 0 단계 → -0.05 (음수!). - 7 단계 → 1.05 (1 초과).

Logistic: \[\text{logit}(\hat r) = b_0 + b_1 \cdot \text{class}\] - 모든 카테고리에 잘 적합. - 외삽: 0 단계 → 0.18 (안전), 7 단계 → 0.88 (1 미만).

3 단계 직관:

추상 정의: Logistic 의 S 곡선이 양 끝 asymptote 자연 처리.
일상어 비유: 시험 합격률 - 점수 관계 — 양 끝에서 plateau 자연.
반사실 시나리오: 외삽 무관 시 직선도 acceptable. 외삽·예측 시 logistic 우월.

13 결론

표준 선형 회귀의 3 문제 (비선형, 범위 위반, 비정규) 가 logit 변환으로 한 번에 해결. Logit·probit·cloglog 의 3 link 중 logit 이 OR 의 직접 해석 + 임상 친화로 표준. 작은 결과율에서 logit ≈ log → OR ≈ RR. 다음 글 (H-WOO10-2) 에서 logistic 의 핵심 수식과 binary·quantitative risk factor 의 OR 해석을 본다.

14 관련 주제

Logistic 개관
1111-11-11, 로지스틱 회귀와 계수 해석 (1)

Statistics 크로스링크

GLM 의 이론 정본 — McCullagh-Nelder Ch.3 의 binary data
logistic-regression-model

변환 단계	정의역	치역
Risk \(r\)	\([0, 1]\)	\([0, 1]\)
Odds \(r/(1-r)\)	\([0, 1]\)	\([0, \infty)\)
Log odds (logit)	\([0, 1]\)	\((-\infty, \infty)\)