표준 회귀의 3 문제와 Logit 변환의 발상

Woodward Ch.10.1~10.2 — Problems with Standard Regression

이항 결과를 표준 선형 회귀로 분석할 때 발생하는 3 가지 본질 문제 (비선형 r-x 관계, 불가능한 예측값, 비정규 오차) 의 메커니즘과 logit 변환이 이들을 한 번에 해결하는 방식을 추상 → 일상어 → 반사실 3 단계 직관으로 풀어낸다. SHHS·H. pylori 사례로 구체적 위반을 본다.

Experimentation
Modeling
저자

Kwangmin Kim

공개

2026년 05월 08일

1 10.1 Introduction — 위험 인자와 결과의 관계

정의: 이항 결과 모델링

위험 인자 (risk factor) \(X\) 와 결과 (disease/event) \(Y \in \{0, 1\}\) 사이의 관계 모형. \(Y\) 는 이항 변수이며, \(X\) 는 양적 또는 질적 (Woodward, 2014, Ch.10.1).

자료 형태 2 가지:

  1. 개별 자료 (Table 10.1): 각 개인 \((x_i, y_i)\).
  2. 집계 자료 (Table 10.2): 각 risk factor 값 \(x_i\) 에서 발병자 수 \(e_i\), 전체 \(n_i\), 비율 \(r_i = e_i/n_i\).

집계 형태가 분석에 더 유용 — \(r_i\) 가 risk 의 추정.

2 H. pylori 사례 — Table 10.3

사례: 사회 계층과 H. pylori 감염

McDonagh et al. (1997) MONICA 조사의 북부 글래스고 남성:

직업 사회 계층 감염자 / 전체 Prevalence
I (전문직 비-수공) 10/38 0.26
II (중간 비-수공) 40/86 0.46
IIIn (숙련 비-수공) 36/57 0.63
IIIm (숙련 수공) 226/300 0.75
IV (반숙련 수공) 83/108 0.77
V (비숙련 수공) 60/73 0.82

관찰: 사회 계층 ↓ 따라 감염률 ↑. 그러나 곡선의 모양이 단순 직선이 아님 — S 모양.

3 단계 직관:

  • 추상: \(r\) 가 0.26 → 0.82 로 0~1 의 대부분 범위 차지. 이 범위에서 직선 적합 부적합.
  • 일상어 비유: 키-나이 관계 — 0~3 살에는 급증, 18 살 이후 멈춤. 단순 직선 부적합.
  • 반사실: 만약 직선 회귀를 적용해 외삽 (예: 사회 계층 0 또는 7) 하면 음수 또는 1 초과 prevalence 예측 — 무의미.

3 SHHS 사례 — Table 10.4

사례: 연령과 사망률

스코티시 심장 건강 연구 (SHHS) 의 5754 명 남성 (40~59 세) 의 7.7 년 사망률 (Tunstall-Pedoe et al., 1997):

Age 사망 / 전체 %
40 1/251 0.4
41 12/317 3.8
42 13/309 4.2
58 38/260 14.6
59 49/302 16.2

관찰: 연령 ↑ 따라 사망률 ↑. 0.4% ~ 16.2% 로 0~1 의 작은 범위만 차지 — 직선 적합이 비교적 잘 작동하나 양 끝의 squashing 일부 보임.

3 단계 직관:

  • 추상: Risk 가 0~0.16 의 좁은 범위 → 직선 적합의 일부 영역에서 잘 작동. 그러나 외삽 시 문제.
  • 일상어 비유: 좁은 범위의 키 비교 (170~180cm) — 직선 근사 잘 작동. 그러나 인간 키 0~250cm 전체로 외삽하면 무의미.
  • 반사실: 직선 회귀 적합 결과 (\(\hat r = -25.394 + 0.645 \cdot \text{age}\)) 가 39 세 예측 시 음수 — 1 년 외삽이 함정.

4 10.2 표준 회귀의 3 문제

4.1 문제 1 — r-x 관계의 비선형성

가정 위반: 직선 가정

\(r\)\(x\) 의 관계가 직선이 아닌 S 모양인 이유는 0 과 1 의 경계 때문.

3 단계 직관:

  • 추상: \(r \to 0\) 또는 \(r \to 1\) 부근에서 \(x\) 의 변화가 \(r\) 에 미치는 영향이 작아짐. 미분 \(dr/dx\) 가 양 끝에서 0 에 수렴.
  • 일상어 비유: 시험 점수와 합격률 — 60 점이면 합격선에 가까워 1 점 추가가 합격률에 큰 영향. 95 점은 거의 모두 합격 → 추가 1 점 효과 작음.
  • 반사실: 만약 직선 적합하면 양 끝의 squashing 무시 → 평균 기울기로 모든 영역 묘사. 외삽이 자동 무의미.

4.2 문제 2 — 예측값이 유효 범위 벗어남

가정 위반: 범위 제약 무시

직선 회귀 \(\hat r = a + bx\) 의 치역은 \(\mathbb{R}\). Risk 정의역 \([0, 1]\) 과 불일치.

Woodward 의 SHHS 예시 (Example 10.3):

\[\hat r = -25.394 + 0.645 \times \text{age}\]

\(\text{age} = 39\)\(\hat r = -0.239\) (음수). \(\text{age} = 100\)\(\hat r = 39.106\) (1 초과).

3 단계 직관:

  • 추상: 모형의 함수 형태가 변수의 본질 제약과 부합해야 함. 직선은 부합 안 됨.
  • 일상어 비유: 카운트 변수 (사람 수) 를 음수 또는 분수로 예측하는 것과 같은 무의미.
  • 반사실: 모형이 0~1 안에 갇히도록 변환 (logit, probit, complementary log-log) → 자동 해결.

4.3 문제 3 — 비정규 오차

가정 위반: 정규 분포 + 분산 동일

선형 회귀의 오차 가정: - \(\epsilon \sim N(0, \sigma^2)\). - 모든 관측의 분산 \(\sigma^2\) 일정.

이항 risk: \[\text{Var}(r_i) = \frac{r_i (1-r_i)}{n_i}\]

가정 위반: - 분포: Binomial (정규 아님). - 분산: \(r_i\) 에 의존 → 비-동일.

결과: - t-검정·CI 가 비정규 오차 가정에 의존 → 추론 부정확. - WLS (가중 최소제곱) 으로 일부 보정 가능하나 근본 해결 아님.

3 단계 직관:

  • 추상: 분포가 binomial 이면 likelihood 가 binomial. 정규 가정 사용하면 misspecified.
  • 일상어 비유: 동전 던지기 결과를 정규 분포로 모형하면 양 끝 (모두 앞면 또는 모두 뒷면) 확률 계산이 부정확.
  • 반사실: Binomial likelihood 직접 사용 (logistic regression 의 본질) → 정확한 추론.

5 Arcsine 변환의 한계

WLS 나 arcsine sqrt 변환 (\(\sin^{-1}\sqrt{r}\)) 으로 분산 안정화 시도 가능. 그러나:

  • \(n_i\) 가 모두 비슷할 때만 효과적.
  • Risk 자체의 해석이 어려워짐 (변환 후 단위 무의미).
  • 어디까지나 근사 — Logistic 이 정본.
직관: 왜 Logistic 이 표준이 되었나
  • 추상: Logistic 이 (1) 비선형 S 곡선 + (2) 0~1 범위 + (3) Binomial likelihood 모두를 한 번에 해결.
  • 일상어 비유: 한 도구로 세 문제 해결 — 다용도 칼.
  • 반사실: Probit 또는 complementary log-log 도 비슷한 효과. Logistic 의 OR 해석이 가장 직관적이라 표준이 됨.

6 Logit 의 미리 보기

다음 글 (H-WOO10-2) 에서 본격 다룰 logit 변환의 핵심 발상:

\[\text{logit}(r) = \log\left(\frac{r}{1-r}\right)\]

변환 단계 정의역 치역
Risk \(r\) \([0, 1]\) \([0, 1]\)
Odds \(r/(1-r)\) \([0, 1]\) \([0, \infty)\)
Log odds (logit) \([0, 1]\) \((-\infty, \infty)\)
직관 3 단계: Logit 의 변환
  • 추상: 두 단계 변환 — odds 가 0~∞ 로 펴고, log 가 -∞~∞ 로 펴기. 마지막이 선형 모형의 정의역과 일치.
  • 일상어 비유: 종이 접기 — 두 번 펼치면 정사각형이 직사각형으로 펴진다.
  • 반사실: 한 단계만 (odds 까지만) 하면 음의 값 안 나옴 → 여전히 직선 부적합. 두 단계 모두 필수.

7 A/B 테스트 분석에서의 함의

A/B 테스트의 이항 결과 (클릭, 결제, 전환) 는 위 3 문제 모두에 해당.

A/B 의 시나리오 표준 회귀의 함정 Logistic 의 해결
결제율 1% (희귀) 직선 회귀가 음의 결제율 예측 가능 \(\hat r \in (0, 1)\) 보장
Heavy user 의 결제율 30% 양 끝에서 squashing S 곡선이 자연 적합
신뢰구간 산출 정규 가정의 CI 부정확 Wald/LR CI 가 binomial 기반

A/B 테스트의 표준 분석 도구가 logistic 인 이유.

9 Logit 의 수학적 성질

정의: Logit 의 4 가지 성질

1. Range: \((-\infty, +\infty)\) — 선형 모형 적용 가능. 2. Symmetry: \(\text{logit}(r) = -\text{logit}(1-r)\) — 0.5 대칭. 3. Differentiability: \(\frac{d \text{logit}}{dr} = \frac{1}{r(1-r)}\) — 0.5 에서 최소. 4. Inverse: \(r = 1/(1 + e^{-\text{logit}})\) — sigmoid 함수.

직관: Symmetry 의 의미
  • 추상 정의: Logit(0.5) = 0, logit(0.99) = +4.6, logit(0.01) = -4.6.
  • 일상어 비유: 50:50 odds 가 0, 99:1 vs 1:99 가 +/- 같은 거리.
  • 반사실 시나리오: Probit 도 symmetric. Cloglog 는 asymmetric (양 끝의 log 비대칭).

10 OR 의 직접 도출

직관 3 단계: OR = exp(β) 의 본질

\(\text{logit}(r_1) - \text{logit}(r_0) = b_1\) 이면:

\[\log\left(\frac{r_1/(1-r_1)}{r_0/(1-r_0)}\right) = b_1\]

\[\frac{\text{Odds}_1}{\text{Odds}_0} = \exp(b_1) = \text{OR}\]

  • 추상 정의: Logit 차이 = log OR. 회귀 출력의 한 줄 = OR 자동.
  • 일상어 비유: 같은 단위 (log odds) 에서 차이 = ratio. 환율 변환의 차이 = ratio.
  • 반사실 시나리오: 만약 probit 사용 시 \(\beta\) 가 OR 아님 — z-score 차이. 변환 필요.

11 Q&A — Logit 변환의 흔한 오해

Q1: Logit 의 절편 \(b_0\) 의 임상 의미는?

A: \(b_0 = \text{logit}(r_0)\), 즉 모든 covariate 0 일 때의 risk 의 logit.

\[r_0 = \frac{1}{1 + e^{-b_0}}\]

3 단계 직관:

  • 추상 정의: 회귀 절편 = baseline log odds.
  • 일상어 비유: 모든 위험 인자 0 일 때의 baseline 위험.
  • 반사실 시나리오: 변수 모두 0 인 환자가 자연스럽지 않으면 (예: age 0) 절편 해석 어려움. Centering (age - 50) 이 도구.
Q2: 결과 흔하면 OR 과 RR 차이 큰가?

A: 그렇다. \(r > 0.10\) 부터 OR 와 RR 차이 의미 있음.

예시: \(r_0 = 0.20, r_1 = 0.40\). - RR = 2.0. - OR = (0.40/0.60) / (0.20/0.80) = 0.67/0.25 = 2.67.

OR 가 RR 보다 33% 더 큰 효과로 보임.

3 단계 직관:

  • 추상 정의: \(\text{OR} = \text{RR} \cdot \frac{1-r_0}{1-r_1}\). \(r\) 큼 → ratio 멀어짐.
  • 일상어 비유: 작은 효과는 OR ≈ RR, 큰 효과는 OR ↑.
  • 반사실 시나리오: 흔한 결과 (예: 클릭률 30%) 의 A/B 결과 보고 시 OR 와 RR 명시. RR 가 임상 직관 유리.
Q3: Probit 대신 logit 이 표준인 이유?

A: OR 의 임상 활용성.

3 단계 직관:

  • 추상 정의: Logit 의 \(\beta\) 가 log OR 직접. Probit 의 \(\beta\) 는 z-score 단위 — 변환 필요.
  • 일상어 비유: 직접 단위 vs 추가 변환. 직접이 임상 친화.
  • 반사실 시나리오: 행동경제학·심리학에서 latent normal 가정 자연 → probit. 의학·역학은 logit 표준.

12 사례 — H. pylori 의 직선 vs Logistic 비교

사례: 사회 계층 6 단계의 직선 부적합

H. pylori 자료 (Table 10.3) 에 두 모형 비교:

직선: \[\hat r = a + b \cdot \text{class}\] - 1 단계 → 0.26, 6 단계 → 0.82 까지 잘 적합. - 외삽: 0 단계 → -0.05 (음수!). - 7 단계 → 1.05 (1 초과).

Logistic: \[\text{logit}(\hat r) = b_0 + b_1 \cdot \text{class}\] - 모든 카테고리에 잘 적합. - 외삽: 0 단계 → 0.18 (안전), 7 단계 → 0.88 (1 미만).

3 단계 직관:

  • 추상 정의: Logistic 의 S 곡선이 양 끝 asymptote 자연 처리.
  • 일상어 비유: 시험 합격률 - 점수 관계 — 양 끝에서 plateau 자연.
  • 반사실 시나리오: 외삽 무관 시 직선도 acceptable. 외삽·예측 시 logistic 우월.

13 결론

표준 선형 회귀의 3 문제 (비선형, 범위 위반, 비정규) 가 logit 변환으로 한 번에 해결. Logit·probit·cloglog 의 3 link 중 logit 이 OR 의 직접 해석 + 임상 친화로 표준. 작은 결과율에서 logit ≈ log → OR ≈ RR. 다음 글 (H-WOO10-2) 에서 logistic 의 핵심 수식과 binary·quantitative risk factor 의 OR 해석을 본다.

14 관련 주제

Statistics 크로스링크

Subscribe

Enjoy this blog? Get notified of new posts by email: