1 10.1 Introduction — 위험 인자와 결과의 관계
위험 인자 (risk factor) \(X\) 와 결과 (disease/event) \(Y \in \{0, 1\}\) 사이의 관계 모형. \(Y\) 는 이항 변수이며, \(X\) 는 양적 또는 질적 (Woodward, 2014, Ch.10.1).
자료 형태 2 가지:
- 개별 자료 (Table 10.1): 각 개인 \((x_i, y_i)\).
- 집계 자료 (Table 10.2): 각 risk factor 값 \(x_i\) 에서 발병자 수 \(e_i\), 전체 \(n_i\), 비율 \(r_i = e_i/n_i\).
집계 형태가 분석에 더 유용 — \(r_i\) 가 risk 의 추정.
2 H. pylori 사례 — Table 10.3
McDonagh et al. (1997) MONICA 조사의 북부 글래스고 남성:
| 직업 사회 계층 | 감염자 / 전체 | Prevalence |
|---|---|---|
| I (전문직 비-수공) | 10/38 | 0.26 |
| II (중간 비-수공) | 40/86 | 0.46 |
| IIIn (숙련 비-수공) | 36/57 | 0.63 |
| IIIm (숙련 수공) | 226/300 | 0.75 |
| IV (반숙련 수공) | 83/108 | 0.77 |
| V (비숙련 수공) | 60/73 | 0.82 |
관찰: 사회 계층 ↓ 따라 감염률 ↑. 그러나 곡선의 모양이 단순 직선이 아님 — S 모양.
3 단계 직관:
- 추상: \(r\) 가 0.26 → 0.82 로 0~1 의 대부분 범위 차지. 이 범위에서 직선 적합 부적합.
- 일상어 비유: 키-나이 관계 — 0~3 살에는 급증, 18 살 이후 멈춤. 단순 직선 부적합.
- 반사실: 만약 직선 회귀를 적용해 외삽 (예: 사회 계층 0 또는 7) 하면 음수 또는 1 초과 prevalence 예측 — 무의미.
3 SHHS 사례 — Table 10.4
스코티시 심장 건강 연구 (SHHS) 의 5754 명 남성 (40~59 세) 의 7.7 년 사망률 (Tunstall-Pedoe et al., 1997):
| Age | 사망 / 전체 | % |
|---|---|---|
| 40 | 1/251 | 0.4 |
| 41 | 12/317 | 3.8 |
| 42 | 13/309 | 4.2 |
| … | … | … |
| 58 | 38/260 | 14.6 |
| 59 | 49/302 | 16.2 |
관찰: 연령 ↑ 따라 사망률 ↑. 0.4% ~ 16.2% 로 0~1 의 작은 범위만 차지 — 직선 적합이 비교적 잘 작동하나 양 끝의 squashing 일부 보임.
3 단계 직관:
- 추상: Risk 가 0~0.16 의 좁은 범위 → 직선 적합의 일부 영역에서 잘 작동. 그러나 외삽 시 문제.
- 일상어 비유: 좁은 범위의 키 비교 (170~180cm) — 직선 근사 잘 작동. 그러나 인간 키 0~250cm 전체로 외삽하면 무의미.
- 반사실: 직선 회귀 적합 결과 (\(\hat r = -25.394 + 0.645 \cdot \text{age}\)) 가 39 세 예측 시 음수 — 1 년 외삽이 함정.
4 10.2 표준 회귀의 3 문제
4.1 문제 1 — r-x 관계의 비선형성
\(r\) 와 \(x\) 의 관계가 직선이 아닌 S 모양인 이유는 0 과 1 의 경계 때문.
3 단계 직관:
- 추상: \(r \to 0\) 또는 \(r \to 1\) 부근에서 \(x\) 의 변화가 \(r\) 에 미치는 영향이 작아짐. 미분 \(dr/dx\) 가 양 끝에서 0 에 수렴.
- 일상어 비유: 시험 점수와 합격률 — 60 점이면 합격선에 가까워 1 점 추가가 합격률에 큰 영향. 95 점은 거의 모두 합격 → 추가 1 점 효과 작음.
- 반사실: 만약 직선 적합하면 양 끝의 squashing 무시 → 평균 기울기로 모든 영역 묘사. 외삽이 자동 무의미.
4.2 문제 2 — 예측값이 유효 범위 벗어남
직선 회귀 \(\hat r = a + bx\) 의 치역은 \(\mathbb{R}\). Risk 정의역 \([0, 1]\) 과 불일치.
Woodward 의 SHHS 예시 (Example 10.3):
\[\hat r = -25.394 + 0.645 \times \text{age}\]
\(\text{age} = 39\) → \(\hat r = -0.239\) (음수). \(\text{age} = 100\) → \(\hat r = 39.106\) (1 초과).
3 단계 직관:
- 추상: 모형의 함수 형태가 변수의 본질 제약과 부합해야 함. 직선은 부합 안 됨.
- 일상어 비유: 카운트 변수 (사람 수) 를 음수 또는 분수로 예측하는 것과 같은 무의미.
- 반사실: 모형이 0~1 안에 갇히도록 변환 (logit, probit, complementary log-log) → 자동 해결.
4.3 문제 3 — 비정규 오차
선형 회귀의 오차 가정: - \(\epsilon \sim N(0, \sigma^2)\). - 모든 관측의 분산 \(\sigma^2\) 일정.
이항 risk: \[\text{Var}(r_i) = \frac{r_i (1-r_i)}{n_i}\]
가정 위반: - 분포: Binomial (정규 아님). - 분산: \(r_i\) 에 의존 → 비-동일.
결과: - t-검정·CI 가 비정규 오차 가정에 의존 → 추론 부정확. - WLS (가중 최소제곱) 으로 일부 보정 가능하나 근본 해결 아님.
3 단계 직관:
- 추상: 분포가 binomial 이면 likelihood 가 binomial. 정규 가정 사용하면 misspecified.
- 일상어 비유: 동전 던지기 결과를 정규 분포로 모형하면 양 끝 (모두 앞면 또는 모두 뒷면) 확률 계산이 부정확.
- 반사실: Binomial likelihood 직접 사용 (logistic regression 의 본질) → 정확한 추론.
5 Arcsine 변환의 한계
WLS 나 arcsine sqrt 변환 (\(\sin^{-1}\sqrt{r}\)) 으로 분산 안정화 시도 가능. 그러나:
- \(n_i\) 가 모두 비슷할 때만 효과적.
- Risk 자체의 해석이 어려워짐 (변환 후 단위 무의미).
- 어디까지나 근사 — Logistic 이 정본.
- 추상: Logistic 이 (1) 비선형 S 곡선 + (2) 0~1 범위 + (3) Binomial likelihood 모두를 한 번에 해결.
- 일상어 비유: 한 도구로 세 문제 해결 — 다용도 칼.
- 반사실: Probit 또는 complementary log-log 도 비슷한 효과. Logistic 의 OR 해석이 가장 직관적이라 표준이 됨.
6 Logit 의 미리 보기
다음 글 (H-WOO10-2) 에서 본격 다룰 logit 변환의 핵심 발상:
\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right)\]
| 변환 단계 | 정의역 | 치역 |
|---|---|---|
| Risk \(r\) | \([0, 1]\) | \([0, 1]\) |
| Odds \(r/(1-r)\) | \([0, 1]\) | \([0, \infty)\) |
| Log odds (logit) | \([0, 1]\) | \((-\infty, \infty)\) |
- 추상: 두 단계 변환 — odds 가 0~∞ 로 펴고, log 가 -∞~∞ 로 펴기. 마지막이 선형 모형의 정의역과 일치.
- 일상어 비유: 종이 접기 — 두 번 펼치면 정사각형이 직사각형으로 펴진다.
- 반사실: 한 단계만 (odds 까지만) 하면 음의 값 안 나옴 → 여전히 직선 부적합. 두 단계 모두 필수.
7 A/B 테스트 분석에서의 함의
A/B 테스트의 이항 결과 (클릭, 결제, 전환) 는 위 3 문제 모두에 해당.
| A/B 의 시나리오 | 표준 회귀의 함정 | Logistic 의 해결 |
|---|---|---|
| 결제율 1% (희귀) | 직선 회귀가 음의 결제율 예측 가능 | \(\hat r \in (0, 1)\) 보장 |
| Heavy user 의 결제율 30% | 양 끝에서 squashing | S 곡선이 자연 적합 |
| 신뢰구간 산출 | 정규 가정의 CI 부정확 | Wald/LR CI 가 binomial 기반 |
A/B 테스트의 표준 분석 도구가 logistic 인 이유.
8 Logit·Probit·Complementary Log-Log — 3 가지 link 함수
이항 회귀의 3 가지 표준 link:
Logit: \[\text{logit}(r) = \log(r/(1-r))\]
Probit: \[\text{probit}(r) = \Phi^{-1}(r)\] (\(\Phi\) = 표준 정규 CDF).
Complementary log-log (cloglog): \[\log(-\log(1-r))\]
8.1 직관 — 3 link 의 차이
- 추상 정의: 모두 \((0,1) \to \mathbb{R}\) 변환. 함수 형태 약간 다름.
- 일상어 비유: 같은 비율을 다른 단위로 변환 — log odds, z-score, log hazard.
- 반사실 시나리오:
- Logit: OR 직접 해석 가능 → 임상 표준.
- Probit: 잠재 변수 (latent normal) 모형 자연 → 행동경제학·심리학.
- Cloglog: Discrete-time hazard 모형 → 생존 분석의 시점 binary 환원.
왜 logit 이 표준인가: - $() = $ OR 직접. - 작은 \(r\) 에서 logit ≈ probit (스케일 차이만). - 임상·역학 친화.
8.2 작은 비율에서 logit ≈ log(r)
희귀 결과 (\(r < 0.05\)) 시:
\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right) \approx \log r\]
(분모 \(1 - r \approx 1\)).
- 추상 정의: 희귀 결과의 logit 이 log 자체에 근사. OR ≈ RR 의 본질.
- 일상어 비유: 1% 의 log 가 약 -4.6, 0.99 의 log 가 약 -0.01. 분모 무시 가능.
- 반사실 시나리오: 결과 흔하면 (예: 30%) logit ≠ log → OR ≠ RR. 보고 시 metric 명시 중요.
9 Logit 의 수학적 성질
1. Range: \((-\infty, +\infty)\) — 선형 모형 적용 가능. 2. Symmetry: \(\text{logit}(r) = -\text{logit}(1-r)\) — 0.5 대칭. 3. Differentiability: \(\frac{d \text{logit}}{dr} = \frac{1}{r(1-r)}\) — 0.5 에서 최소. 4. Inverse: \(r = 1/(1 + e^{-\text{logit}})\) — sigmoid 함수.
- 추상 정의: Logit(0.5) = 0, logit(0.99) = +4.6, logit(0.01) = -4.6.
- 일상어 비유: 50:50 odds 가 0, 99:1 vs 1:99 가 +/- 같은 거리.
- 반사실 시나리오: Probit 도 symmetric. Cloglog 는 asymmetric (양 끝의 log 비대칭).
10 OR 의 직접 도출
\(\text{logit}(r_1) - \text{logit}(r_0) = b_1\) 이면:
\[\log\left(\frac{r_1/(1-r_1)}{r_0/(1-r_0)}\right) = b_1\]
\[\frac{\text{Odds}_1}{\text{Odds}_0} = \exp(b_1) = \text{OR}\]
- 추상 정의: Logit 차이 = log OR. 회귀 출력의 한 줄 = OR 자동.
- 일상어 비유: 같은 단위 (log odds) 에서 차이 = ratio. 환율 변환의 차이 = ratio.
- 반사실 시나리오: 만약 probit 사용 시 \(\beta\) 가 OR 아님 — z-score 차이. 변환 필요.
11 Q&A — Logit 변환의 흔한 오해
A: \(b_0 = \text{logit}(r_0)\), 즉 모든 covariate 0 일 때의 risk 의 logit.
\[r_0 = \frac{1}{1 + e^{-b_0}}\]
3 단계 직관:
- 추상 정의: 회귀 절편 = baseline log odds.
- 일상어 비유: 모든 위험 인자 0 일 때의 baseline 위험.
- 반사실 시나리오: 변수 모두 0 인 환자가 자연스럽지 않으면 (예: age 0) 절편 해석 어려움. Centering (age - 50) 이 도구.
A: 그렇다. \(r > 0.10\) 부터 OR 와 RR 차이 의미 있음.
예시: \(r_0 = 0.20, r_1 = 0.40\). - RR = 2.0. - OR = (0.40/0.60) / (0.20/0.80) = 0.67/0.25 = 2.67.
OR 가 RR 보다 33% 더 큰 효과로 보임.
3 단계 직관:
- 추상 정의: \(\text{OR} = \text{RR} \cdot \frac{1-r_0}{1-r_1}\). \(r\) 큼 → ratio 멀어짐.
- 일상어 비유: 작은 효과는 OR ≈ RR, 큰 효과는 OR ↑.
- 반사실 시나리오: 흔한 결과 (예: 클릭률 30%) 의 A/B 결과 보고 시 OR 와 RR 명시. RR 가 임상 직관 유리.
A: OR 의 임상 활용성.
3 단계 직관:
- 추상 정의: Logit 의 \(\beta\) 가 log OR 직접. Probit 의 \(\beta\) 는 z-score 단위 — 변환 필요.
- 일상어 비유: 직접 단위 vs 추가 변환. 직접이 임상 친화.
- 반사실 시나리오: 행동경제학·심리학에서 latent normal 가정 자연 → probit. 의학·역학은 logit 표준.
12 사례 — H. pylori 의 직선 vs Logistic 비교
H. pylori 자료 (Table 10.3) 에 두 모형 비교:
직선: \[\hat r = a + b \cdot \text{class}\] - 1 단계 → 0.26, 6 단계 → 0.82 까지 잘 적합. - 외삽: 0 단계 → -0.05 (음수!). - 7 단계 → 1.05 (1 초과).
Logistic: \[\text{logit}(\hat r) = b_0 + b_1 \cdot \text{class}\] - 모든 카테고리에 잘 적합. - 외삽: 0 단계 → 0.18 (안전), 7 단계 → 0.88 (1 미만).
3 단계 직관:
- 추상 정의: Logistic 의 S 곡선이 양 끝 asymptote 자연 처리.
- 일상어 비유: 시험 합격률 - 점수 관계 — 양 끝에서 plateau 자연.
- 반사실 시나리오: 외삽 무관 시 직선도 acceptable. 외삽·예측 시 logistic 우월.
13 결론
표준 선형 회귀의 3 문제 (비선형, 범위 위반, 비정규) 가 logit 변환으로 한 번에 해결. Logit·probit·cloglog 의 3 link 중 logit 이 OR 의 직접 해석 + 임상 친화로 표준. 작은 결과율에서 logit ≈ log → OR ≈ RR. 다음 글 (H-WOO10-2) 에서 logistic 의 핵심 수식과 binary·quantitative risk factor 의 OR 해석을 본다.
14 관련 주제
- Logistic 개관
- 1111-11-11, 로지스틱 회귀와 계수 해석 (1)
Statistics 크로스링크
- GLM 의 이론 정본 — McCullagh-Nelder Ch.3 의 binary data
- logistic-regression-model