Kwangmin Kim - Polytomous GLM — Further Results and Exercises

1 왜 “연습문제” 를 하나의 포스트로 묶는가

§5.8 의 16개 연습문제는 단순 숙제가 아니라 Ch.5 의 이론이 어디까지 확장되는가 를 보여주는 축약된 참고지도이다. 개별 문제를 순서대로 나열하기보다, 같은 주제의 문제들을 묶어 하나의 이야기 로 풀어내는 것이 학습에 더 효과적이다.

이 포스트는 여섯 주제로 재구성한다.

표본공간의 조합론 (5.1) — 다항 표본공간이 왜 \(\binom{m+k-1}{k-1}\) 점인가
누적벡터의 모멘트와 Pearson \(X^2\) (5.2, 5.3, 5.16) — 다항 이차형식의 통합 표현
점근 공분산 — \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 의 정체 (5.4) — Clayton 의 유효 정보량
모형 등가성 — 보완로그로그 = 연속비율 (5.6, 5.7) — 순서형과 계층의 교차점
점수검정과 비모수 검정 (5.8–5.12) — Wilcoxon, Yates, Ridit scores 의 통합
Logistic 판별과 LDA (5.15) — 생성 모형 vs 판별 모형
실데이터 연습 두 건 (5.5 CNS 기형, 5.13 숙제 평가) — 독자가 직접 풀어볼 구조

먼저 §5.7 참고문헌을 짧게 정리한 뒤 시작한다.

2 §5.7 참고문헌 — 핵심 족보

Ch.4(이항) 참고문헌 대부분이 Ch.5 에도 유효하지만, 다범주 특화 자료는 아래가 중심이다.

주제	대표 문헌	비고
순서형 반응 전반	Agresti (1984, 2010)	연관 측도까지 포괄
로그선형 계산	Haberman (1978, 1979), Fienberg (1980)	IPF 알고리즘 상세
IPF (반복 비례 적합)	Deming & Stephan (1940), Darroch & Ratcliff (1972), Bishop 등 (1975)
척도 유형 논의	Stevens (1951, 1958, 1968), Aickin (1983)	명목 vs 계층 구분
연속 구간 잠재변수 관점	Pearson (1901), Pearson & Heron (1913)	Tetrachoric/polychoric 기원
비례 오즈 초기 적용	Hewlett & Plackett (1956), Snell (1964), Walker & Duncan (1967), Clayton (1974), Simon (1974), Bock (1975)
프로빗 대안	Ashford (1959), Gurland 외 (1960), Finney (1971)	진폐증 예제 원본 포함
점수법 vs 비례 오즈	Williams & Grizzle (1972), McCullagh (1980)	후자 선호 근거
Dirichlet-multinomial	Goodhardt, Ehrenberg, Chatfield (1984), Engel (1987)	브랜드 선택 과산포
MLE 존재·유일성	Pratt (1981), Burridge (1982)
복합 링크 수치계산	Thompson & Baker (1981)

핵심 메시지: McCullagh (1980) 은 “점수법(scoring)보다 비례 오즈가 낫다” 는 논거를 범주 통합 불변성에서 찾는다. 이것이 Ch.5 전체를 관통하는 설계 철학이다. Pearson (1901) 의 말에 대한 일화 — 관측 범주를 연속 잠재변수의 구간으로 보는 발상은 100년도 더 전에 이미 있었다.

3 주제 1 — 표본공간의 조합론 (Exercise 5.1)

3.1 문제 — 격자점 수 세기

\(0 \le y_j \le m\), \(\sum_j y_j = m\) 을 만족하는 정수 벡터 \(\mathbf{y}\) 의 수를 구하시오.

3.2 해법

\[ \sum_{j=0}^{m} \binom{j + k - 1}{k - 1} = \binom{m + k}{k}. \]

이것이 “hockey-stick identity” 의 변형이며, 생성함수 \((1-x)^{-k}\) 의 전개 계수로부터 온다. 결국 답은 \(\binom{m + k - 1}{k - 1}\).

직관 — \(m\) 개 공을 \(k\) 개 상자에 배분: 공 \(m\) 개와 상자 경계 \(k - 1\) 개를 총 \(m + k - 1\) 자리에 배치 (stars and bars). 경계 위치를 고르는 경우의 수 \(\binom{m+k-1}{k-1}\).

왜 중요한가: §5.3 에서 “다항 표본공간은 \(k-1\) 차원 단체(simplex) 위 격자점” 이라고 말한 주장의 정확한 개수. 작은 예시:

\(k = 2, m = 10\): \(\binom{11}{1} = 11\) — 이항 표본공간 \(\{0, 1, \ldots, 10\}\)
\(k = 3, m = 10\): \(\binom{12}{2} = 66\) — 삼각형 격자
\(k = 4, m = 6\): \(\binom{9}{3} = 84\) — 사면체 격자

계산이 기하급수적으로 늘어나지 않는다 — \(O(m^{k-1})\). 정확 검정(exact test) 이 \(k\) 가 작을 때 실용적인 이유.

3.3 파이썬 확인

from math import comb
from itertools import product

def enumerate_simplex(m, k):
    return [y for y in product(range(m+1), repeat=k) if sum(y) == m]

for (m, k) in [(10, 2), (10, 3), (6, 4)]:
    pts = enumerate_simplex(m, k)
    assert len(pts) == comb(m + k - 1, k - 1)
    print(f"m={m}, k={k}: |S| = {len(pts)} = C({m+k-1},{k-1})")

4 주제 2 — 누적 벡터의 모멘트·이차형식 (5.2, 5.3, 5.16)

4.1 Ex 5.2 — 누적 벡터의 교차 적률

\(\mathbf{Y} \sim \text{Mult}(1, \boldsymbol{\pi})\) (한 번의 시행) 이고 \(\mathbf{Z} = \mathbf{L}\mathbf{Y}\) 가 누적벡터일 때

\[ \mathrm{E}(Z_r Z_s Z_t \cdots) = \gamma_r \quad \text{for } r \le s \le t \le \cdots \]

왜 그런가: 한 번의 시행에서 \(Z_r \in \{0, 1\}\) 이고 \(Z_r = 1 \Leftrightarrow Y \le r\). \(Z_r \le Z_s \le Z_t \le \cdots\) 이므로 곱은 최솟값과 같다 — \(\min(Z_r, Z_s, Z_t, \ldots) = Z_r\) (정렬된 인덱스). 따라서 기대값이 \(\mathrm{E}(Z_r) = \gamma_r\).

이로부터

\[ \mathrm{Cov}(Z_r, Z_s) = \gamma_r(1 - \gamma_s) \quad (r \le s) \]

를 한 번의 시행에 대해 얻고, \(m\) 배로 확장된다. §5.3.2 식 (5.13) 재유도.

직관적 비유 — “언제까지 살아있었는가”: \(Z_r = 1\) 은 “첫 \(r\) 범주 이내에 떨어짐”을 의미. 두 누적 사건은 포함 관계이므로 “둘 다 일어남” = “더 빠른 것이 일어남” = “\(Z_r\) 이 일어남” (\(r \le s\) 이므로). 생존분석의 “생존곡선의 교차점 기대값” 과 같은 구조.

4.2 Ex 5.3 — 다섯 가지 이차합의 등가성

다음 다섯 식이 모두 같음을 보이시오.

\[ \sum_j \gamma_j(1 - \gamma_j)(\pi_j + \pi_{j+1}), \quad \sum_j \pi_j (1 - \gamma_j - \gamma_{j-1})^2, \]

\[ \sum_j \gamma_j \gamma_{j+1} \pi_{j+1}, \quad \sum_j (1 - \gamma_j)(1 - \gamma_{j-1}) \pi_j, \quad \tfrac{1}{3}\{1 - \sum_j \pi_j^3\}. \]

왜 이런 등가성이 필요한가: 다음 주제(5.4)에서 점근 정보행렬의 가중치로 쓰인다. 같은 양을 여러 표현으로 쓸 수 있어야 계산·해석을 상황에 맞게 택할 수 있다. 특히 마지막 표현 \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 은 가장 깔끔하고 계산이 빠른 형태.

범위: 모든 \(\pi_j = 1/k\) 일 때 \(\sum \pi_j^3 = k \cdot (1/k)^3 = 1/k^2\), 값은 \(\tfrac{1}{3}(1 - 1/k^2)\). \(k \to \infty\) 극한에서 \(1/3\) 으로 수렴. 한 범주에 확률 집중 (\(\pi_1 \to 1\)) 이면 \(\sum \pi_j^3 \to 1\), 값이 \(0\). 즉 분포가 “흩어질수록” 이 값이 크고, 집중될수록 작다 — “유효 범주 수”의 척도.

4.3 Ex 5.16 — 누적 Pearson \(X^2\) 이 원래 \(X^2\) 과 같음

누적 벡터 표현으로 쓴

\[ \sum_{j=1}^{k-1} \frac{(Z_j - m\gamma_j)^2}{m}\!\left(\frac{1}{\pi_j} + \frac{1}{\pi_{j+1}}\right) - 2\sum_{j=1}^{k-2} \frac{(Z_j - m\gamma_j)(Z_{j+1} - m\gamma_{j+1})}{m\pi_{j+1}} \]

가 Pearson \(X^2 = \sum_j (Y_j - m\pi_j)^2/(m\pi_j)\) 와 정확히 같음을 보이시오.

핵심 원리: 이차형식은 비특이 선형 변환에 불변이다. \(\mathbf{R} = \mathbf{Y} - m\boldsymbol{\pi}\) 과 \(\mathbf{Z} - m\boldsymbol{\gamma} = \mathbf{L}\mathbf{R}\) 이며, 해당 g-inverse 도 그에 맞게 변환된다. 그 결과 \(\mathbf{R}^\top \boldsymbol{\Sigma}^- \mathbf{R}\) 은 어느 표현으로 계산해도 같은 값.

실무적 함의: 순서형 모형에서 이차형식을 직접 계산해야 할 때 누적 표현이 편리하다. 행렬이 삼중대각(§5.3.3) 이라 계산이 \(O(k)\) 로 줄어든다. 기본 표현은 밀집 \(k \times k\).

5 주제 3 — 점근 정보: \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 의 정체 (Exercise 5.4)

5.1 정리

비례 오즈 모형 (5.1) 에서 \((\hat{\theta}_1, \hat{\boldsymbol{\beta}})\) 의 점근 공분산은 근사적으로 \((\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}\) 이며 가중치는

\[ w_i = \frac{m_i}{3}\!\left\{1 - \sum_j \pi_{ij}^3\right\}. \]

5.2 왜 \(\tfrac{1}{3}\) 인가 — 직관

비례 오즈의 스코어 정보가 \(\sum_j \gamma_{ij}(1 - \gamma_{ij})(\pi_{ij} + \pi_{i,j+1})\) 꼴이며, 5.3 에서 본 등가성에 의해 \(\tfrac{1}{3}(1 - \sum \pi_{ij}^3)\) 로 쓸 수 있다. \(1/3\) 은 잠재 로지스틱 변수의 분산과 관련 된 상수이며, 정규 분포 대신 로지스틱을 잠재 분포로 택한 결과이다.

“유효 범주 수” 해석: \(1 - \sum \pi_j^3\) 은 다항분포의 Tsallis 엔트로피의 변형으로, 범주 분산이 넓을수록 큰 값. 즉 반응이 여러 범주에 고루 퍼질수록 정보량 가중치가 커진다.

\(\pi = (1/k, \ldots, 1/k)\) 균일: \(w = m(1 - 1/k^2)/3\), 최대 정보
한 범주에 집중: \(w \to 0\), 정보 거의 없음 (이미 쏠려 있어 추가 공변량이 할 일 없음)

5.3 하한 해석 (Clayton, 1974)

\((\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}\) 은 장해 모수 \(\theta_1, \ldots, \theta_{k-1}\) 의 불확실성을 무시한 경우의 공분산. 실제 공분산은 이보다 크거나 같다. 따라서 이 식은 \(\mathrm{Cov}(\hat{\boldsymbol{\beta}})\) 의 하한(lower bound).

정확성: \(k = 2\) 이항이거나, 로그 오즈비가 작을 때 (즉 \(|\boldsymbol{\beta}| \ll 1\)) 근사가 정확. 실무적으로 \(|\Delta| \le 1\) 범위에서 만족스럽다는 것이 Clayton 의 평가.

5.4 두 표본 특수 경우

두 처리군 비교(\(x = 0, 1\))에서 오즈비 \(\hat\Delta\) 의 근사 분산:

\[ \mathrm{Var}(\hat\Delta) \approx \frac{1}{w_1} + \frac{1}{w_2} \]

이항 로지스틱의 \(\mathrm{Var}(\hat\Delta) \approx \frac{1}{m_1 \pi_1(1 - \pi_1)} + \frac{1}{m_2 \pi_2(1 - \pi_2)}\) 와 정확히 같은 형태 — 유효 범주 수 \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 이 \(\pi(1 - \pi)\) 의 역할을 대신할 뿐이다. 이 대응이 이항에서 다항으로의 개념적 다리를 완성한다.

6 주제 4 — 모형 등가성: 보완로그로그 = 연속비율 (5.6, 5.7)

6.1 Ex 5.6 — 비례위험 모형 (5.3) 이 연속비율과 같다

주장: 연결함수 \(g(\cdot) = \text{cloglog}\) 일 때, 누적 확률 모형

\[ \log[-\log(1 - \gamma_j(\mathbf{x}))] = \theta_j - \boldsymbol{\beta}^\top \mathbf{x} \tag{5.3} \]

은 연속비율 모형

\[ g\!\left(\frac{\pi_j(\mathbf{x})}{1 - \gamma_{j-1}(\mathbf{x})}\right) = \alpha_j - \boldsymbol{\beta}^\top \mathbf{x} \]

와 완전히 동치이며, \(\alpha_j\) 는 \(\theta_j\) 들의 함수로 표현 가능. 반면 로지스틱 링크의 비례 오즈 모형 (5.1) 과 연속비율 모형 (5.10) 은 동치가 아니다.

6.2 왜 보완로그로그만 이 성질을 갖는가

핵심 계산: \(1 - \gamma_j = \exp(-\exp(\theta_j - \boldsymbol{\beta}^\top \mathbf{x}))\) 로부터

\[ \frac{1 - \gamma_j}{1 - \gamma_{j-1}} = \exp\{-\exp(\theta_j - \boldsymbol{\beta}^\top \mathbf{x}) + \exp(\theta_{j-1} - \boldsymbol{\beta}^\top \mathbf{x})\}. \]

이 비율을 연속비율 관점에서 쓰면 역시 보완로그로그 링크로 정리된다. 지수의 지수 구조가 누적과 조건부 표현 사이를 자연스럽게 오가게 만든다.

생존분석과의 연결: 보완로그로그가 비례위험(proportional-hazards) 모형을 낳는 이유가 여기 있다. 이산 시간 생존에서 “지금까지 살았다는 조건 하에 현재 죽을 위험” (해저드) 이 공변량에 곱셈적으로 작용하면 연속비율 구조가 자연스럽고, 이 구조는 잠재 수명의 극값분포 (Extreme-value) 와 대응한다. 로지스틱에는 이런 대응이 없다.

링크 선택의 실무적 함의

로지스틱 링크 → 비례 오즈는 누적 로짓, 연속비율은 이산 해저드. 두 표현의 해석이 다르다.
보완로그로그 링크 → 비례위험과 연속비율이 같음. 해석이 통일.

생존형 데이터(시간 경과에 따른 질병 진행 단계) 에는 보완로그로그가 해석적으로 더 깔끔. 로지스틱은 범주 대칭성이 자연스러운 선호도·만족도 데이터에 어울린다.

6.3 Ex 5.7 — 특수 점수의 연속비율 해석

모형 (5.7) \(\eta_j = \eta_j + (\boldsymbol{\beta}^\top \mathbf{x}) s_j\) 에 점수 \(\mathbf{s} = (1, 0, \ldots, 0)\) 을 쓰면

\[ \text{logit}\,\pi_1(\mathbf{x}_i) = \eta_1 + \boldsymbol{\beta}^\top \mathbf{x}_i, \qquad \text{logit}\!\left(\frac{\pi_j(\mathbf{x}_i)}{1 - \gamma_{j-1}(\mathbf{x}_i)}\right) = \eta_j \; (j \ge 2) \]

의미: 점수가 “첫 범주만 특별 대우”라는 지시일 때, 로그선형 모형이 “첫 단계는 공변량 의존, 이후 단계는 공변량 무관” 인 계층 모형과 동등해진다. 점수의 선택이 모형 구조를 결정하는 사례.

7 주제 5 — 점수검정과 비모수 검정 (5.8–5.12)

7.1 Ex 5.8 — Yates (1948) 통계량의 올바른 표준화

2원 분할표에서 통계량 \(T = \sum_{ij} r_i s_j Y_{ij}\) 의 독립성 검정. 순진한 표준화

\[ \frac{T - m_\cdot \mu_r \tilde{\mu}_s}{\sqrt{\tilde{\sigma}_s^2 \sum_i m_i r_i^2}} \]

는 \(m_i \to \infty\) 극한에서 정규분포에 근사하지만 단위 분산이 아니다. 올바른 표준화는

\[ \frac{T - m_\cdot \mu_r \tilde{\mu}_s}{\sigma_r \tilde{\sigma}_s \sqrt{m_\cdot}}, \qquad \sigma_r^2 = \sum m_i (r_i - \mu_r)^2 / m_\cdot. \]

교훈: 분할표의 독립성 검정에서 “행의 가중 분산” 과 “열의 가중 분산” 을 따로 곱해야 한다. 순진한 분산 추정은 한쪽의 변동만 반영한다. 이것은 Yates 의 추세 검정(§5.2.3) 의 엄밀한 분산 공식이다.

7.2 Ex 5.9 — 비례 오즈의 점수검정 (score test)

\(\beta = 0\) 하의 로그우도 미분을 계산하면

\[ T = \sum R_{ij} x_i s_j, \qquad R_{ij} = Y_{ij} - m_i \hat{\pi}_j, \quad s_j = \hat{\gamma}_j + \hat{\gamma}_{j-1}. \]

직관 — “독립 잔차 × 범주 점수”: 독립성 하의 잔차 \(R_{ij}\) 에 누적 확률의 평균을 점수로 삼아 곱한 것. 이것은 Wald 가 아닌 Rao 의 점수(score) 검정 — \(\beta = 0\) 에서의 우도 기울기를 이용해 원래 모형을 적합하지 않고도 검정을 실시.

7.3 Ex 5.10–5.11 — Wilcoxon 과의 동치

\(T\) 의 근사 평균·분산을 5.2 와 5.7 의 결과로 구성하여 검정을 세우면, 두 표본 문제에서 \(T\) 는 Wilcoxon 순위합 통계량과 동치이다. 즉

\[ \text{비례 오즈의 score test} \;\equiv\; \text{Wilcoxon rank-sum} \]

왜 이것이 놀라운가: 비례 오즈는 모수적(parametric) 가정을 포함하는 모형. Wilcoxon 은 순수 비모수 검정. 그러나 영가설(\(\beta = 0\)) 근처에서 두 검정이 같은 통계량을 만든다.

비례 오즈가 맞으면 Wilcoxon 은 거의 최적(optimal) 점근 효율 (\(\pi^2/3 \approx 3.29\) 의 Pitman 효율)
보완로그로그 모형에서는 로그순위(log-rank) 검정이 대응 (5.11)

의미: “어떤 비모수 검정을 써야 하는가” 의 답은 데이터 생성 분포에 대한 잠재적 믿음 이다. 로지스틱 잠재 → Wilcoxon, 극값 잠재 → log-rank. 비례 오즈 vs 비례 위험의 철학이 여기서 비모수 검정 선택으로 연결된다.

7.4 Ex 5.12 — Ridit 점수의 등가성

로그선형 모형 (5.7) 의 점수검정이 ridit 점수 \(s_j \propto\) “평균 범주 순위” 를 쓰면 비례 오즈의 점수검정과 정확히 같아진다. Bross (1958) 의 ridit 는 “\(j\) 범주 이하 확률과 \(j\) 범주 이상 확률의 평균” — 이 확률 조합이 §5.9 의 점수 \(s_j = \hat{\gamma}_j + \hat{\gamma}_{j-1}\) 와 일치한다.

실무적 의의: 분할표의 추세 검정에서 “어떤 점수를 쓸 것인가” 의 고민이 크다 (정수 점수, 중위수 점수, ridit 등). 이 등가성은 “모형을 정하면 점수가 자동으로 결정된다” 는 원리를 보여준다. 점수는 임의 선택이 아니라 모형의 함수이다.

8 주제 6 — Logistic 판별과 LDA (Exercise 5.15)

8.1 설정

\(k\) 개 모집단 \(G_1, \ldots, G_k\) 에서 측정 \(\mathbf{Z}\) 가 정규분포

\[ G_j: \mathbf{Z} \sim N_p(\boldsymbol{\mu}_j, \boldsymbol{\Sigma}) \]

(공통 공분산). 사전 확률 \(\pi_j\). 새 관측 \(\mathbf{z}^*\) 에 대해 사후 확률은 (Bayes 규칙)

\[ \text{odds}(Y = j \mid \mathbf{z}^*) = \frac{\pi_j}{1 - \pi_j} \cdot \frac{\exp(\alpha_j + \boldsymbol{\beta}_j^\top \mathbf{z}^*)}{\sum_i \exp(\alpha_i + \boldsymbol{\beta}_i^\top \mathbf{z}^*)} \]

여기서

\[ \boldsymbol{\beta}_j = \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_j, \qquad \alpha_j = -\tfrac{1}{2} \boldsymbol{\mu}_j^\top \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_j + \log \pi_j. \]

8.2 해석 — 생성 모형 vs 판별 모형

관점	설명	추정
생성(generative) 모형	\((\boldsymbol{\mu}_j, \boldsymbol{\Sigma}, \pi_j)\) 직접 추정 → \(\alpha_j, \boldsymbol{\beta}_j\) 유도	Fisher’s LDA
판별(discriminative) 모형	\(\alpha_j, \boldsymbol{\beta}_j\) 직접 추정	Logistic regression (다항)

두 접근의 차이:

LDA: 공분산 \(\boldsymbol{\Sigma}\) 가 정말 공통이고 정규면 효율적. 틀리면 편향 증가
Logistic: 분포 가정 없이 “사후 확률이 소프트맥스 형태” 라는 구조만 사용. 분포가 정규가 아니어도 유효하지만 정규 가정 하에서는 LDA 보다 약간 비효율적

Efron (1975) 의 고전적 계산: 공통 정규 가정 하에서 LDA 대비 로지스틱의 상대 효율은 약 66%~100% 범위, 모집단 분리도에 따라 다르다.

8.3 특수 경우 — 평균이 직선 위

\(k\) 정규 평균 \(\boldsymbol{\mu}_j\) 가 \(\mathbb{R}^p\) 의 한 직선 위에 있으면:

\[ \boldsymbol{\beta}_j = \lambda_j \boldsymbol{\beta}, \qquad \lambda_1, \ldots, \lambda_k \text{ 는 스칼라} \]

즉 모든 \(\boldsymbol{\beta}_j\) 가 공통 방향. 이때 판별함수는 1차원으로 축소되어 순서형 로지스틱 과 같아진다 — 이것이 LDA 와 비례 오즈 모형을 연결하는 다리.

실무적 함의: “여러 클래스가 순서를 이룬다” 는 가정은 평균 벡터가 직선 위에 있다 는 기하학적 주장과 동치. LDA 에 클래스 순서 가정을 추가하면 순서형 로지스틱이 나온다.

8.4 두 추정 방식의 비교

          LDA            Multinomial Logistic
             \              /
              \            /
           같은 함수 형태
           (소프트맥스)
              /          \
            /             \
      Generative MLE    Discriminative MLE
      (분포 가정)        (분포 불문)

결정 규칙: 분포 가정이 맞는다는 증거가 있으면 LDA, 아니면 Logistic. 현대 ML 실무는 후자를 기본값으로 한다 — 분포 검증이 어렵고 표본이 크면 효율 손실이 무시할 만하다.

9 주제 7 — 실데이터 연습

9.1 Ex 5.5 — CNS 기형 (South Wales, Lowe et al., 1971)

8개 지역 × 2 직업군(manual/non-manual) × 3 질병 유형(anencephalus/spina bifida/other) + 수돗물 경도.

분석 포인트:

수돗물 경도의 효과 — 연속 공변량, 로그 경도 변환 고려
직업군 차이 — 2원 factor
지역적 이상치(anomaly) — 지역 factor 의 잔차 진단
CNS 장애 유형 분포 의 체계적 차이 — 명목형 3범주 반응

권장 모형: 전체는 다항 구조이지만 “장애 유무 이항 + 장애 종류 다항” 의 계층 분해가 자연스럽다. 수돗물 경도는 이전의 진폐증 예제와 마찬가지로 log 변환 을 예비 플롯으로 점검. 직업군과 지역은 factor 로 넣되 교호작용 필요성은 이탈도 비교로 판단.

수학적으로 주목할 점: 모수 많고 데이터 희소(일부 셀 0 관측). §5.6.1 치즈 실험에서 보았듯 희소해도 관심 모수(\(\beta\)) 에 대한 점근 추론은 견고할 것. 단 절대 이탈도로 적합도를 절대적으로 판단하지 않는다.

9.2 Ex 5.13 — 숙제 평가 (Yates, 1948)

\(5 \times 3\) 분할표 (숙제 조건 A–E × 교사 평가 A–C) 총 1019명.

단계적 분석:

독립성 적합 → \(X^2, D \approx \text{df}\) 이면 독립 귀무 채택 어려움 없다는 증거
정수 점수 Yates 통계량 \(T\): 표준화 값 1.527, 단측 p-value 6.3%
보완로그로그 선형 모형 (5.3): \(\hat\beta = 0.0476, \text{SE} = 0.027\), p = 3.9%
로그선형 점수 모형 (5.7): \(\hat\beta / \text{SE} = 1.525\), 이탈도 감소 2.33 on 1 df

핵심 관찰: Yates 의 단순 통계량(1.527)과 로그선형 점수 모형의 Wald 비(1.525)가 거의 동일. 이것은 주제 5 의 ridit 등가성 (5.12) 의 직접 확인이다.

교훈: 서로 다른 검정법이 같은 값을 주는 경우, 같은 정보가 다른 포장으로 쓰인 것. 연구자가 Wald 와 Yates 중 어느 쪽을 보고해도 결론은 동일.

10 코드 예시 — 연습문제 핵심 재현

10.1 예시 1: \(1 - \sum \pi^3\) 가중치와 유효 정보량

import numpy as np

def effective_info_weight(pi, m):
    """Ex 5.3 / 5.4 — 비례오즈의 유효 정보 가중치 w_i = m/3 * (1 - sum pi^3)"""
    return m / 3 * (1 - np.sum(np.asarray(pi) ** 3))

# 분포 비교
scenarios = {
    "uniform(k=3)":     [1/3, 1/3, 1/3],
    "uniform(k=9)":     [1/9]*9,
    "concentrated":     [0.9, 0.05, 0.05],
    "cheese-A":         [0, 0, 1/52, 7/52, 8/52, 8/52, 19/52, 8/52, 1/52],
}
m = 52
for name, pi in scenarios.items():
    w = effective_info_weight(pi, m)
    print(f"{name:20s}  w = {w:6.2f}   (최대 = {m*(1-1/len(pi)**2)/3:.2f})")

균일 분포가 최대 정보, 집중 분포가 최소 정보임을 확인. 치즈 A 같은 실제 분포는 중간.

10.2 예시 2: 비례 오즈 score test = Wilcoxon

import numpy as np
from scipy.stats import mannwhitneyu, norm

rng = np.random.default_rng(0)
n1, n2 = 50, 50

# 두 군에서 다항 반응 생성 (군 2가 약간 높은 범주로 치우침)
pi1 = [0.3, 0.3, 0.2, 0.1, 0.1]
pi2 = [0.1, 0.2, 0.2, 0.3, 0.2]
y1 = rng.choice(5, size=n1, p=pi1) + 1
y2 = rng.choice(5, size=n2, p=pi2) + 1

# Wilcoxon
stat_w, p_w = mannwhitneyu(y1, y2, alternative="two-sided")
print(f"Wilcoxon: U = {stat_w:.2f}, p = {p_w:.4f}")

# 비례 오즈 score test (직접 구현)
all_y = np.concatenate([y1, y2])
all_g = np.concatenate([np.zeros(n1), np.ones(n2)])
k = all_y.max()
# 독립 하 pi_hat
counts = np.bincount(all_y - 1, minlength=k)
pi_hat = counts / counts.sum()
gamma_hat = np.cumsum(pi_hat)
# s_j = gamma_j + gamma_{j-1}
s = np.concatenate([[0], gamma_hat[:-1]]) + gamma_hat
# residual = Y_ij - m_i pi_hat_j, x_i = group indicator
# T = sum_{i,j} R_ij x_i s_j
R = np.zeros((2, k))
for i, (yi, gi) in enumerate(zip(all_y, all_g)):
    R[int(gi), yi - 1] += 1
m_group = np.array([n1, n2])
T_score = np.sum((R[1] - m_group[1] * pi_hat) * s)
# 표준화 (근사)
var_pi = pi_hat - pi_hat**2
var_s = np.sum(pi_hat * (s - np.sum(pi_hat * s))**2)
var_T = n1 * n2 / (n1 + n2) * var_s
Z = T_score / np.sqrt(var_T)
p_score = 2 * (1 - norm.cdf(abs(Z)))
print(f"Score test: Z = {Z:.2f}, p = {p_score:.4f}")

두 p-value 가 거의 같은 값을 보인다 — 실험적으로 Exercise 5.10 의 등가성 확인.

10.3 예시 3: 보완로그로그 비례위험 = 연속비율

import numpy as np
import statsmodels.api as sm

# 인위적 3범주 진폐증 유사 데이터
rng = np.random.default_rng(1)
n_obs = 300
t = rng.uniform(5, 50, size=n_obs)
# 잠재 극값 변수로 생성
u = -np.log(-np.log(rng.uniform(size=n_obs)))
z = 0.1 * t + u
y = np.where(z < 1.5, 1, np.where(z < 3.5, 2, 3))

# (A) 비례위험(5.3) — cloglog 링크 + 누적 이항 GLM
# gamma_j = 1 - exp(-exp(theta_j - beta t))
# 각 경계 j 에 대해 이항 (Y<=j vs Y>j)
from statsmodels.formula.api import glm
import pandas as pd

for j in [1, 2]:
    df = pd.DataFrame({"lt_j": (y <= j).astype(int), "t": t})
    res = glm("lt_j ~ t", data=df,
              family=sm.families.Binomial(link=sm.families.links.CLogLog())).fit()
    print(f"[cloglog, Y<={j}]  beta_t = {-res.params['t']:.3f}  "
          f"(비례위험 모형의 beta)")

# (B) 연속비율 — 단계별 이항
# Stage 1: 질병(Y>=2) vs 정상
# Stage 2: 중증(Y=3) vs 경증(Y=2), 질병자만
df1 = pd.DataFrame({"y": (y >= 2).astype(int), "t": t})
df2 = pd.DataFrame({"y": (y == 3).astype(int), "t": t})
df2 = df2[y >= 2]  # 질병자만
res1 = glm("y ~ t", data=df1,
           family=sm.families.Binomial(link=sm.families.links.CLogLog())).fit()
res2 = glm("y ~ t", data=df2,
           family=sm.families.Binomial(link=sm.families.links.CLogLog())).fit()
print(f"\n[cloglog 연속비율]  stage1 beta = {res1.params['t']:.3f}, "
      f"stage2 beta = {res2.params['t']:.3f}")

두 접근이 수치적으로 호환됨 (로지스틱 대비) 을 확인. 로지스틱 링크로 같은 코드를 돌리면 두 접근의 \(\beta\) 가 서로 일치하지 않음을 볼 수 있다 — 5.6 의 주장 그대로.

11 자주 걸리는 함정

함정	증상	처방
격자점 기반 정확검정을 \(k\) 큰 문제에 적용	\(\binom{m+k-1}{k-1}\) 폭발	점근 또는 Monte Carlo
다섯 가지 이차합 표현을 독립 결과로 착각	불필요한 증명 반복	5.3 의 등가성으로 단일 계산
비례 오즈 lower bound 를 상한으로 오해	CI 축소로 과소확신	진짜 SE 는 이것보다 크다
비례 오즈 score test 와 Wald test 를 같다고 혼동	p-value 불일치	Score 는 \(\beta=0\) 에서, Wald 는 \(\hat\beta\) 에서
보완로그로그 등가성을 로지스틱에 적용	수치 불일치	로지스틱에서는 두 모형 다름
LDA 와 로지스틱 판별을 동일시	분포 가정 차이 무시	정규 가정이 현실적일 때만 LDA 선호
Yates 통계량의 순진한 표준화	단위 분산 아님	\(\sigma_r \tilde\sigma_s \sqrt{m_\cdot}\) 분모 사용
Ridit 점수 임의 조정	점수 검정이 모형과 어긋남	모형이 점수를 결정한다는 원칙

12 관련 주제

선행 지식

관련 개념

Wilcoxon Rank-Sum 검정 — 비례 오즈 score test 와 동치
Log-rank 검정 — 비례 위험 score test 와 동치
Fisher’s LDA — 로지스틱 판별의 생성 모형 버전
Score Test 와 Wald, LR 삼형제
Hockey-stick Identity 와 Stars-and-bars

후속 주제

Log-linear Models (Ch.6) — 포아송-다항 동치성의 일반 이론
Conditional Likelihoods (Ch.7) — 장해 모수 제거

13 참고문헌

McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §5.7–§5.8. Chapman & Hall.
Clayton, D. G. (1974). Some odds ratio statistics for the analysis of ordered categorical data. Biometrika, 61, 525–531.
Yates, F. (1948). The analysis of contingency tables with groupings based on quantitative characters. Biometrika, 35, 176–181.
Bross, I. D. J. (1958). How to use ridit analysis. Biometrics, 14, 18–38.
Läärä, E. & Matthews, J. N. S. (1985). The equivalence of two models for ordinal data. Biometrika, 72, 206–207.
Efron, B. (1975). The efficiency of logistic regression compared to normal discriminant analysis. JASA, 70, 892–898.
Lowe, C. R. et al. (1971). Incidence of malformations of the central nervous system in relation to water hardness. Lancet, 1, 1359–1362.
Pratt, J. W. (1981). Concavity of the log likelihood. JASA, 76, 137–159.
Burridge, J. (1982). Some unimodality properties of likelihoods derived from grouped data. Biometrika, 69, 145–151.