1 왜 “연습문제” 를 하나의 포스트로 묶는가
§5.8 의 16개 연습문제는 단순 숙제가 아니라 Ch.5 의 이론이 어디까지 확장되는가 를 보여주는 축약된 참고지도이다. 개별 문제를 순서대로 나열하기보다, 같은 주제의 문제들을 묶어 하나의 이야기 로 풀어내는 것이 학습에 더 효과적이다.
이 포스트는 여섯 주제로 재구성한다.
- 표본공간의 조합론 (5.1) — 다항 표본공간이 왜 \(\binom{m+k-1}{k-1}\) 점인가
- 누적벡터의 모멘트와 Pearson \(X^2\) (5.2, 5.3, 5.16) — 다항 이차형식의 통합 표현
- 점근 공분산 — \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 의 정체 (5.4) — Clayton 의 유효 정보량
- 모형 등가성 — 보완로그로그 = 연속비율 (5.6, 5.7) — 순서형과 계층의 교차점
- 점수검정과 비모수 검정 (5.8–5.12) — Wilcoxon, Yates, Ridit scores 의 통합
- Logistic 판별과 LDA (5.15) — 생성 모형 vs 판별 모형
- 실데이터 연습 두 건 (5.5 CNS 기형, 5.13 숙제 평가) — 독자가 직접 풀어볼 구조
먼저 §5.7 참고문헌을 짧게 정리한 뒤 시작한다.
2 §5.7 참고문헌 — 핵심 족보
Ch.4(이항) 참고문헌 대부분이 Ch.5 에도 유효하지만, 다범주 특화 자료는 아래가 중심이다.
| 주제 | 대표 문헌 | 비고 |
|---|---|---|
| 순서형 반응 전반 | Agresti (1984, 2010) | 연관 측도까지 포괄 |
| 로그선형 계산 | Haberman (1978, 1979), Fienberg (1980) | IPF 알고리즘 상세 |
| IPF (반복 비례 적합) | Deming & Stephan (1940), Darroch & Ratcliff (1972), Bishop 등 (1975) | |
| 척도 유형 논의 | Stevens (1951, 1958, 1968), Aickin (1983) | 명목 vs 계층 구분 |
| 연속 구간 잠재변수 관점 | Pearson (1901), Pearson & Heron (1913) | Tetrachoric/polychoric 기원 |
| 비례 오즈 초기 적용 | Hewlett & Plackett (1956), Snell (1964), Walker & Duncan (1967), Clayton (1974), Simon (1974), Bock (1975) | |
| 프로빗 대안 | Ashford (1959), Gurland 외 (1960), Finney (1971) | 진폐증 예제 원본 포함 |
| 점수법 vs 비례 오즈 | Williams & Grizzle (1972), McCullagh (1980) | 후자 선호 근거 |
| Dirichlet-multinomial | Goodhardt, Ehrenberg, Chatfield (1984), Engel (1987) | 브랜드 선택 과산포 |
| MLE 존재·유일성 | Pratt (1981), Burridge (1982) | |
| 복합 링크 수치계산 | Thompson & Baker (1981) |
핵심 메시지: McCullagh (1980) 은 “점수법(scoring)보다 비례 오즈가 낫다” 는 논거를 범주 통합 불변성에서 찾는다. 이것이 Ch.5 전체를 관통하는 설계 철학이다. Pearson (1901) 의 말에 대한 일화 — 관측 범주를 연속 잠재변수의 구간으로 보는 발상은 100년도 더 전에 이미 있었다.
3 주제 1 — 표본공간의 조합론 (Exercise 5.1)
3.1 문제 — 격자점 수 세기
\(0 \le y_j \le m\), \(\sum_j y_j = m\) 을 만족하는 정수 벡터 \(\mathbf{y}\) 의 수를 구하시오.
3.2 해법
\[ \sum_{j=0}^{m} \binom{j + k - 1}{k - 1} = \binom{m + k}{k}. \]
이것이 “hockey-stick identity” 의 변형이며, 생성함수 \((1-x)^{-k}\) 의 전개 계수로부터 온다. 결국 답은 \(\binom{m + k - 1}{k - 1}\).
직관 — \(m\) 개 공을 \(k\) 개 상자에 배분: 공 \(m\) 개와 상자 경계 \(k - 1\) 개를 총 \(m + k - 1\) 자리에 배치 (stars and bars). 경계 위치를 고르는 경우의 수 \(\binom{m+k-1}{k-1}\).
왜 중요한가: §5.3 에서 “다항 표본공간은 \(k-1\) 차원 단체(simplex) 위 격자점” 이라고 말한 주장의 정확한 개수. 작은 예시:
- \(k = 2, m = 10\): \(\binom{11}{1} = 11\) — 이항 표본공간 \(\{0, 1, \ldots, 10\}\)
- \(k = 3, m = 10\): \(\binom{12}{2} = 66\) — 삼각형 격자
- \(k = 4, m = 6\): \(\binom{9}{3} = 84\) — 사면체 격자
계산이 기하급수적으로 늘어나지 않는다 — \(O(m^{k-1})\). 정확 검정(exact test) 이 \(k\) 가 작을 때 실용적인 이유.
3.3 파이썬 확인
from math import comb
from itertools import product
def enumerate_simplex(m, k):
return [y for y in product(range(m+1), repeat=k) if sum(y) == m]
for (m, k) in [(10, 2), (10, 3), (6, 4)]:
pts = enumerate_simplex(m, k)
assert len(pts) == comb(m + k - 1, k - 1)
print(f"m={m}, k={k}: |S| = {len(pts)} = C({m+k-1},{k-1})")4 주제 2 — 누적 벡터의 모멘트·이차형식 (5.2, 5.3, 5.16)
4.1 Ex 5.2 — 누적 벡터의 교차 적률
\(\mathbf{Y} \sim \text{Mult}(1, \boldsymbol{\pi})\) (한 번의 시행) 이고 \(\mathbf{Z} = \mathbf{L}\mathbf{Y}\) 가 누적벡터일 때
\[ \mathrm{E}(Z_r Z_s Z_t \cdots) = \gamma_r \quad \text{for } r \le s \le t \le \cdots \]
왜 그런가: 한 번의 시행에서 \(Z_r \in \{0, 1\}\) 이고 \(Z_r = 1 \Leftrightarrow Y \le r\). \(Z_r \le Z_s \le Z_t \le \cdots\) 이므로 곱은 최솟값과 같다 — \(\min(Z_r, Z_s, Z_t, \ldots) = Z_r\) (정렬된 인덱스). 따라서 기대값이 \(\mathrm{E}(Z_r) = \gamma_r\).
이로부터
\[ \mathrm{Cov}(Z_r, Z_s) = \gamma_r(1 - \gamma_s) \quad (r \le s) \]
를 한 번의 시행에 대해 얻고, \(m\) 배로 확장된다. §5.3.2 식 (5.13) 재유도.
직관적 비유 — “언제까지 살아있었는가”: \(Z_r = 1\) 은 “첫 \(r\) 범주 이내에 떨어짐”을 의미. 두 누적 사건은 포함 관계이므로 “둘 다 일어남” = “더 빠른 것이 일어남” = “\(Z_r\) 이 일어남” (\(r \le s\) 이므로). 생존분석의 “생존곡선의 교차점 기대값” 과 같은 구조.
4.2 Ex 5.3 — 다섯 가지 이차합의 등가성
다음 다섯 식이 모두 같음을 보이시오.
\[ \sum_j \gamma_j(1 - \gamma_j)(\pi_j + \pi_{j+1}), \quad \sum_j \pi_j (1 - \gamma_j - \gamma_{j-1})^2, \]
\[ \sum_j \gamma_j \gamma_{j+1} \pi_{j+1}, \quad \sum_j (1 - \gamma_j)(1 - \gamma_{j-1}) \pi_j, \quad \tfrac{1}{3}\{1 - \sum_j \pi_j^3\}. \]
왜 이런 등가성이 필요한가: 다음 주제(5.4)에서 점근 정보행렬의 가중치로 쓰인다. 같은 양을 여러 표현으로 쓸 수 있어야 계산·해석을 상황에 맞게 택할 수 있다. 특히 마지막 표현 \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 은 가장 깔끔하고 계산이 빠른 형태.
범위: 모든 \(\pi_j = 1/k\) 일 때 \(\sum \pi_j^3 = k \cdot (1/k)^3 = 1/k^2\), 값은 \(\tfrac{1}{3}(1 - 1/k^2)\). \(k \to \infty\) 극한에서 \(1/3\) 으로 수렴. 한 범주에 확률 집중 (\(\pi_1 \to 1\)) 이면 \(\sum \pi_j^3 \to 1\), 값이 \(0\). 즉 분포가 “흩어질수록” 이 값이 크고, 집중될수록 작다 — “유효 범주 수”의 척도.
4.3 Ex 5.16 — 누적 Pearson \(X^2\) 이 원래 \(X^2\) 과 같음
누적 벡터 표현으로 쓴
\[ \sum_{j=1}^{k-1} \frac{(Z_j - m\gamma_j)^2}{m}\!\left(\frac{1}{\pi_j} + \frac{1}{\pi_{j+1}}\right) - 2\sum_{j=1}^{k-2} \frac{(Z_j - m\gamma_j)(Z_{j+1} - m\gamma_{j+1})}{m\pi_{j+1}} \]
가 Pearson \(X^2 = \sum_j (Y_j - m\pi_j)^2/(m\pi_j)\) 와 정확히 같음을 보이시오.
핵심 원리: 이차형식은 비특이 선형 변환에 불변이다. \(\mathbf{R} = \mathbf{Y} - m\boldsymbol{\pi}\) 과 \(\mathbf{Z} - m\boldsymbol{\gamma} = \mathbf{L}\mathbf{R}\) 이며, 해당 g-inverse 도 그에 맞게 변환된다. 그 결과 \(\mathbf{R}^\top \boldsymbol{\Sigma}^- \mathbf{R}\) 은 어느 표현으로 계산해도 같은 값.
실무적 함의: 순서형 모형에서 이차형식을 직접 계산해야 할 때 누적 표현이 편리하다. 행렬이 삼중대각(§5.3.3) 이라 계산이 \(O(k)\) 로 줄어든다. 기본 표현은 밀집 \(k \times k\).
5 주제 3 — 점근 정보: \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 의 정체 (Exercise 5.4)
5.1 정리
비례 오즈 모형 (5.1) 에서 \((\hat{\theta}_1, \hat{\boldsymbol{\beta}})\) 의 점근 공분산은 근사적으로 \((\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}\) 이며 가중치는
\[ w_i = \frac{m_i}{3}\!\left\{1 - \sum_j \pi_{ij}^3\right\}. \]
5.2 왜 \(\tfrac{1}{3}\) 인가 — 직관
비례 오즈의 스코어 정보가 \(\sum_j \gamma_{ij}(1 - \gamma_{ij})(\pi_{ij} + \pi_{i,j+1})\) 꼴이며, 5.3 에서 본 등가성에 의해 \(\tfrac{1}{3}(1 - \sum \pi_{ij}^3)\) 로 쓸 수 있다. \(1/3\) 은 잠재 로지스틱 변수의 분산과 관련 된 상수이며, 정규 분포 대신 로지스틱을 잠재 분포로 택한 결과이다.
“유효 범주 수” 해석: \(1 - \sum \pi_j^3\) 은 다항분포의 Tsallis 엔트로피의 변형으로, 범주 분산이 넓을수록 큰 값. 즉 반응이 여러 범주에 고루 퍼질수록 정보량 가중치가 커진다.
- \(\pi = (1/k, \ldots, 1/k)\) 균일: \(w = m(1 - 1/k^2)/3\), 최대 정보
- 한 범주에 집중: \(w \to 0\), 정보 거의 없음 (이미 쏠려 있어 추가 공변량이 할 일 없음)
5.3 하한 해석 (Clayton, 1974)
\((\mathbf{X}^\top \mathbf{W} \mathbf{X})^{-1}\) 은 장해 모수 \(\theta_1, \ldots, \theta_{k-1}\) 의 불확실성을 무시한 경우의 공분산. 실제 공분산은 이보다 크거나 같다. 따라서 이 식은 \(\mathrm{Cov}(\hat{\boldsymbol{\beta}})\) 의 하한(lower bound).
정확성: \(k = 2\) 이항이거나, 로그 오즈비가 작을 때 (즉 \(|\boldsymbol{\beta}| \ll 1\)) 근사가 정확. 실무적으로 \(|\Delta| \le 1\) 범위에서 만족스럽다는 것이 Clayton 의 평가.
5.4 두 표본 특수 경우
두 처리군 비교(\(x = 0, 1\))에서 오즈비 \(\hat\Delta\) 의 근사 분산:
\[ \mathrm{Var}(\hat\Delta) \approx \frac{1}{w_1} + \frac{1}{w_2} \]
이항 로지스틱의 \(\mathrm{Var}(\hat\Delta) \approx \frac{1}{m_1 \pi_1(1 - \pi_1)} + \frac{1}{m_2 \pi_2(1 - \pi_2)}\) 와 정확히 같은 형태 — 유효 범주 수 \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 이 \(\pi(1 - \pi)\) 의 역할을 대신할 뿐이다. 이 대응이 이항에서 다항으로의 개념적 다리를 완성한다.
6 주제 4 — 모형 등가성: 보완로그로그 = 연속비율 (5.6, 5.7)
6.1 Ex 5.6 — 비례위험 모형 (5.3) 이 연속비율과 같다
주장: 연결함수 \(g(\cdot) = \text{cloglog}\) 일 때, 누적 확률 모형
\[ \log[-\log(1 - \gamma_j(\mathbf{x}))] = \theta_j - \boldsymbol{\beta}^\top \mathbf{x} \tag{5.3} \]
은 연속비율 모형
\[ g\!\left(\frac{\pi_j(\mathbf{x})}{1 - \gamma_{j-1}(\mathbf{x})}\right) = \alpha_j - \boldsymbol{\beta}^\top \mathbf{x} \]
와 완전히 동치이며, \(\alpha_j\) 는 \(\theta_j\) 들의 함수로 표현 가능. 반면 로지스틱 링크의 비례 오즈 모형 (5.1) 과 연속비율 모형 (5.10) 은 동치가 아니다.
6.2 왜 보완로그로그만 이 성질을 갖는가
핵심 계산: \(1 - \gamma_j = \exp(-\exp(\theta_j - \boldsymbol{\beta}^\top \mathbf{x}))\) 로부터
\[ \frac{1 - \gamma_j}{1 - \gamma_{j-1}} = \exp\{-\exp(\theta_j - \boldsymbol{\beta}^\top \mathbf{x}) + \exp(\theta_{j-1} - \boldsymbol{\beta}^\top \mathbf{x})\}. \]
이 비율을 연속비율 관점에서 쓰면 역시 보완로그로그 링크로 정리된다. 지수의 지수 구조가 누적과 조건부 표현 사이를 자연스럽게 오가게 만든다.
생존분석과의 연결: 보완로그로그가 비례위험(proportional-hazards) 모형을 낳는 이유가 여기 있다. 이산 시간 생존에서 “지금까지 살았다는 조건 하에 현재 죽을 위험” (해저드) 이 공변량에 곱셈적으로 작용하면 연속비율 구조가 자연스럽고, 이 구조는 잠재 수명의 극값분포 (Extreme-value) 와 대응한다. 로지스틱에는 이런 대응이 없다.
- 로지스틱 링크 → 비례 오즈는 누적 로짓, 연속비율은 이산 해저드. 두 표현의 해석이 다르다.
- 보완로그로그 링크 → 비례위험과 연속비율이 같음. 해석이 통일.
생존형 데이터(시간 경과에 따른 질병 진행 단계) 에는 보완로그로그가 해석적으로 더 깔끔. 로지스틱은 범주 대칭성이 자연스러운 선호도·만족도 데이터에 어울린다.
6.3 Ex 5.7 — 특수 점수의 연속비율 해석
모형 (5.7) \(\eta_j = \eta_j + (\boldsymbol{\beta}^\top \mathbf{x}) s_j\) 에 점수 \(\mathbf{s} = (1, 0, \ldots, 0)\) 을 쓰면
\[ \text{logit}\,\pi_1(\mathbf{x}_i) = \eta_1 + \boldsymbol{\beta}^\top \mathbf{x}_i, \qquad \text{logit}\!\left(\frac{\pi_j(\mathbf{x}_i)}{1 - \gamma_{j-1}(\mathbf{x}_i)}\right) = \eta_j \; (j \ge 2) \]
의미: 점수가 “첫 범주만 특별 대우”라는 지시일 때, 로그선형 모형이 “첫 단계는 공변량 의존, 이후 단계는 공변량 무관” 인 계층 모형과 동등해진다. 점수의 선택이 모형 구조를 결정하는 사례.
7 주제 5 — 점수검정과 비모수 검정 (5.8–5.12)
7.1 Ex 5.8 — Yates (1948) 통계량의 올바른 표준화
2원 분할표에서 통계량 \(T = \sum_{ij} r_i s_j Y_{ij}\) 의 독립성 검정. 순진한 표준화
\[ \frac{T - m_\cdot \mu_r \tilde{\mu}_s}{\sqrt{\tilde{\sigma}_s^2 \sum_i m_i r_i^2}} \]
는 \(m_i \to \infty\) 극한에서 정규분포에 근사하지만 단위 분산이 아니다. 올바른 표준화는
\[ \frac{T - m_\cdot \mu_r \tilde{\mu}_s}{\sigma_r \tilde{\sigma}_s \sqrt{m_\cdot}}, \qquad \sigma_r^2 = \sum m_i (r_i - \mu_r)^2 / m_\cdot. \]
교훈: 분할표의 독립성 검정에서 “행의 가중 분산” 과 “열의 가중 분산” 을 따로 곱해야 한다. 순진한 분산 추정은 한쪽의 변동만 반영한다. 이것은 Yates 의 추세 검정(§5.2.3) 의 엄밀한 분산 공식이다.
7.2 Ex 5.9 — 비례 오즈의 점수검정 (score test)
\(\beta = 0\) 하의 로그우도 미분을 계산하면
\[ T = \sum R_{ij} x_i s_j, \qquad R_{ij} = Y_{ij} - m_i \hat{\pi}_j, \quad s_j = \hat{\gamma}_j + \hat{\gamma}_{j-1}. \]
직관 — “독립 잔차 × 범주 점수”: 독립성 하의 잔차 \(R_{ij}\) 에 누적 확률의 평균을 점수로 삼아 곱한 것. 이것은 Wald 가 아닌 Rao 의 점수(score) 검정 — \(\beta = 0\) 에서의 우도 기울기를 이용해 원래 모형을 적합하지 않고도 검정을 실시.
7.3 Ex 5.10–5.11 — Wilcoxon 과의 동치
\(T\) 의 근사 평균·분산을 5.2 와 5.7 의 결과로 구성하여 검정을 세우면, 두 표본 문제에서 \(T\) 는 Wilcoxon 순위합 통계량과 동치이다. 즉
\[ \text{비례 오즈의 score test} \;\equiv\; \text{Wilcoxon rank-sum} \]
왜 이것이 놀라운가: 비례 오즈는 모수적(parametric) 가정을 포함하는 모형. Wilcoxon 은 순수 비모수 검정. 그러나 영가설(\(\beta = 0\)) 근처에서 두 검정이 같은 통계량을 만든다.
- 비례 오즈가 맞으면 Wilcoxon 은 거의 최적(optimal) 점근 효율 (\(\pi^2/3 \approx 3.29\) 의 Pitman 효율)
- 보완로그로그 모형에서는 로그순위(log-rank) 검정이 대응 (5.11)
의미: “어떤 비모수 검정을 써야 하는가” 의 답은 데이터 생성 분포에 대한 잠재적 믿음 이다. 로지스틱 잠재 → Wilcoxon, 극값 잠재 → log-rank. 비례 오즈 vs 비례 위험의 철학이 여기서 비모수 검정 선택으로 연결된다.
7.4 Ex 5.12 — Ridit 점수의 등가성
로그선형 모형 (5.7) 의 점수검정이 ridit 점수 \(s_j \propto\) “평균 범주 순위” 를 쓰면 비례 오즈의 점수검정과 정확히 같아진다. Bross (1958) 의 ridit 는 “\(j\) 범주 이하 확률과 \(j\) 범주 이상 확률의 평균” — 이 확률 조합이 §5.9 의 점수 \(s_j = \hat{\gamma}_j + \hat{\gamma}_{j-1}\) 와 일치한다.
실무적 의의: 분할표의 추세 검정에서 “어떤 점수를 쓸 것인가” 의 고민이 크다 (정수 점수, 중위수 점수, ridit 등). 이 등가성은 “모형을 정하면 점수가 자동으로 결정된다” 는 원리를 보여준다. 점수는 임의 선택이 아니라 모형의 함수이다.
8 주제 6 — Logistic 판별과 LDA (Exercise 5.15)
8.1 설정
\(k\) 개 모집단 \(G_1, \ldots, G_k\) 에서 측정 \(\mathbf{Z}\) 가 정규분포
\[ G_j: \mathbf{Z} \sim N_p(\boldsymbol{\mu}_j, \boldsymbol{\Sigma}) \]
(공통 공분산). 사전 확률 \(\pi_j\). 새 관측 \(\mathbf{z}^*\) 에 대해 사후 확률은 (Bayes 규칙)
\[ \text{odds}(Y = j \mid \mathbf{z}^*) = \frac{\pi_j}{1 - \pi_j} \cdot \frac{\exp(\alpha_j + \boldsymbol{\beta}_j^\top \mathbf{z}^*)}{\sum_i \exp(\alpha_i + \boldsymbol{\beta}_i^\top \mathbf{z}^*)} \]
여기서
\[ \boldsymbol{\beta}_j = \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_j, \qquad \alpha_j = -\tfrac{1}{2} \boldsymbol{\mu}_j^\top \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_j + \log \pi_j. \]
8.2 해석 — 생성 모형 vs 판별 모형
| 관점 | 설명 | 추정 |
|---|---|---|
| 생성(generative) 모형 | \((\boldsymbol{\mu}_j, \boldsymbol{\Sigma}, \pi_j)\) 직접 추정 → \(\alpha_j, \boldsymbol{\beta}_j\) 유도 | Fisher’s LDA |
| 판별(discriminative) 모형 | \(\alpha_j, \boldsymbol{\beta}_j\) 직접 추정 | Logistic regression (다항) |
두 접근의 차이:
- LDA: 공분산 \(\boldsymbol{\Sigma}\) 가 정말 공통이고 정규면 효율적. 틀리면 편향 증가
- Logistic: 분포 가정 없이 “사후 확률이 소프트맥스 형태” 라는 구조만 사용. 분포가 정규가 아니어도 유효하지만 정규 가정 하에서는 LDA 보다 약간 비효율적
Efron (1975) 의 고전적 계산: 공통 정규 가정 하에서 LDA 대비 로지스틱의 상대 효율은 약 66%~100% 범위, 모집단 분리도에 따라 다르다.
8.3 특수 경우 — 평균이 직선 위
\(k\) 정규 평균 \(\boldsymbol{\mu}_j\) 가 \(\mathbb{R}^p\) 의 한 직선 위에 있으면:
\[ \boldsymbol{\beta}_j = \lambda_j \boldsymbol{\beta}, \qquad \lambda_1, \ldots, \lambda_k \text{ 는 스칼라} \]
즉 모든 \(\boldsymbol{\beta}_j\) 가 공통 방향. 이때 판별함수는 1차원으로 축소되어 순서형 로지스틱 과 같아진다 — 이것이 LDA 와 비례 오즈 모형을 연결하는 다리.
실무적 함의: “여러 클래스가 순서를 이룬다” 는 가정은 평균 벡터가 직선 위에 있다 는 기하학적 주장과 동치. LDA 에 클래스 순서 가정을 추가하면 순서형 로지스틱이 나온다.
8.4 두 추정 방식의 비교
LDA Multinomial Logistic
\ /
\ /
같은 함수 형태
(소프트맥스)
/ \
/ \
Generative MLE Discriminative MLE
(분포 가정) (분포 불문)
결정 규칙: 분포 가정이 맞는다는 증거가 있으면 LDA, 아니면 Logistic. 현대 ML 실무는 후자를 기본값으로 한다 — 분포 검증이 어렵고 표본이 크면 효율 손실이 무시할 만하다.
9 주제 7 — 실데이터 연습
9.1 Ex 5.5 — CNS 기형 (South Wales, Lowe et al., 1971)
8개 지역 × 2 직업군(manual/non-manual) × 3 질병 유형(anencephalus/spina bifida/other) + 수돗물 경도.
분석 포인트:
- 수돗물 경도의 효과 — 연속 공변량, 로그 경도 변환 고려
- 직업군 차이 — 2원 factor
- 지역적 이상치(anomaly) — 지역 factor 의 잔차 진단
- CNS 장애 유형 분포 의 체계적 차이 — 명목형 3범주 반응
권장 모형: 전체는 다항 구조이지만 “장애 유무 이항 + 장애 종류 다항” 의 계층 분해가 자연스럽다. 수돗물 경도는 이전의 진폐증 예제와 마찬가지로 log 변환 을 예비 플롯으로 점검. 직업군과 지역은 factor 로 넣되 교호작용 필요성은 이탈도 비교로 판단.
수학적으로 주목할 점: 모수 많고 데이터 희소(일부 셀 0 관측). §5.6.1 치즈 실험에서 보았듯 희소해도 관심 모수(\(\beta\)) 에 대한 점근 추론은 견고할 것. 단 절대 이탈도로 적합도를 절대적으로 판단하지 않는다.
9.2 Ex 5.13 — 숙제 평가 (Yates, 1948)
\(5 \times 3\) 분할표 (숙제 조건 A–E × 교사 평가 A–C) 총 1019명.
단계적 분석:
- 독립성 적합 → \(X^2, D \approx \text{df}\) 이면 독립 귀무 채택 어려움 없다는 증거
- 정수 점수 Yates 통계량 \(T\): 표준화 값 1.527, 단측 p-value 6.3%
- 보완로그로그 선형 모형 (5.3): \(\hat\beta = 0.0476, \text{SE} = 0.027\), p = 3.9%
- 로그선형 점수 모형 (5.7): \(\hat\beta / \text{SE} = 1.525\), 이탈도 감소 2.33 on 1 df
핵심 관찰: Yates 의 단순 통계량(1.527)과 로그선형 점수 모형의 Wald 비(1.525)가 거의 동일. 이것은 주제 5 의 ridit 등가성 (5.12) 의 직접 확인이다.
교훈: 서로 다른 검정법이 같은 값을 주는 경우, 같은 정보가 다른 포장으로 쓰인 것. 연구자가 Wald 와 Yates 중 어느 쪽을 보고해도 결론은 동일.
10 코드 예시 — 연습문제 핵심 재현
10.1 예시 1: \(1 - \sum \pi^3\) 가중치와 유효 정보량
import numpy as np
def effective_info_weight(pi, m):
"""Ex 5.3 / 5.4 — 비례오즈의 유효 정보 가중치 w_i = m/3 * (1 - sum pi^3)"""
return m / 3 * (1 - np.sum(np.asarray(pi) ** 3))
# 분포 비교
scenarios = {
"uniform(k=3)": [1/3, 1/3, 1/3],
"uniform(k=9)": [1/9]*9,
"concentrated": [0.9, 0.05, 0.05],
"cheese-A": [0, 0, 1/52, 7/52, 8/52, 8/52, 19/52, 8/52, 1/52],
}
m = 52
for name, pi in scenarios.items():
w = effective_info_weight(pi, m)
print(f"{name:20s} w = {w:6.2f} (최대 = {m*(1-1/len(pi)**2)/3:.2f})")균일 분포가 최대 정보, 집중 분포가 최소 정보임을 확인. 치즈 A 같은 실제 분포는 중간.
10.2 예시 2: 비례 오즈 score test = Wilcoxon
import numpy as np
from scipy.stats import mannwhitneyu, norm
rng = np.random.default_rng(0)
n1, n2 = 50, 50
# 두 군에서 다항 반응 생성 (군 2가 약간 높은 범주로 치우침)
pi1 = [0.3, 0.3, 0.2, 0.1, 0.1]
pi2 = [0.1, 0.2, 0.2, 0.3, 0.2]
y1 = rng.choice(5, size=n1, p=pi1) + 1
y2 = rng.choice(5, size=n2, p=pi2) + 1
# Wilcoxon
stat_w, p_w = mannwhitneyu(y1, y2, alternative="two-sided")
print(f"Wilcoxon: U = {stat_w:.2f}, p = {p_w:.4f}")
# 비례 오즈 score test (직접 구현)
all_y = np.concatenate([y1, y2])
all_g = np.concatenate([np.zeros(n1), np.ones(n2)])
k = all_y.max()
# 독립 하 pi_hat
counts = np.bincount(all_y - 1, minlength=k)
pi_hat = counts / counts.sum()
gamma_hat = np.cumsum(pi_hat)
# s_j = gamma_j + gamma_{j-1}
s = np.concatenate([[0], gamma_hat[:-1]]) + gamma_hat
# residual = Y_ij - m_i pi_hat_j, x_i = group indicator
# T = sum_{i,j} R_ij x_i s_j
R = np.zeros((2, k))
for i, (yi, gi) in enumerate(zip(all_y, all_g)):
R[int(gi), yi - 1] += 1
m_group = np.array([n1, n2])
T_score = np.sum((R[1] - m_group[1] * pi_hat) * s)
# 표준화 (근사)
var_pi = pi_hat - pi_hat**2
var_s = np.sum(pi_hat * (s - np.sum(pi_hat * s))**2)
var_T = n1 * n2 / (n1 + n2) * var_s
Z = T_score / np.sqrt(var_T)
p_score = 2 * (1 - norm.cdf(abs(Z)))
print(f"Score test: Z = {Z:.2f}, p = {p_score:.4f}")두 p-value 가 거의 같은 값을 보인다 — 실험적으로 Exercise 5.10 의 등가성 확인.
10.3 예시 3: 보완로그로그 비례위험 = 연속비율
import numpy as np
import statsmodels.api as sm
# 인위적 3범주 진폐증 유사 데이터
rng = np.random.default_rng(1)
n_obs = 300
t = rng.uniform(5, 50, size=n_obs)
# 잠재 극값 변수로 생성
u = -np.log(-np.log(rng.uniform(size=n_obs)))
z = 0.1 * t + u
y = np.where(z < 1.5, 1, np.where(z < 3.5, 2, 3))
# (A) 비례위험(5.3) — cloglog 링크 + 누적 이항 GLM
# gamma_j = 1 - exp(-exp(theta_j - beta t))
# 각 경계 j 에 대해 이항 (Y<=j vs Y>j)
from statsmodels.formula.api import glm
import pandas as pd
for j in [1, 2]:
df = pd.DataFrame({"lt_j": (y <= j).astype(int), "t": t})
res = glm("lt_j ~ t", data=df,
family=sm.families.Binomial(link=sm.families.links.CLogLog())).fit()
print(f"[cloglog, Y<={j}] beta_t = {-res.params['t']:.3f} "
f"(비례위험 모형의 beta)")
# (B) 연속비율 — 단계별 이항
# Stage 1: 질병(Y>=2) vs 정상
# Stage 2: 중증(Y=3) vs 경증(Y=2), 질병자만
df1 = pd.DataFrame({"y": (y >= 2).astype(int), "t": t})
df2 = pd.DataFrame({"y": (y == 3).astype(int), "t": t})
df2 = df2[y >= 2] # 질병자만
res1 = glm("y ~ t", data=df1,
family=sm.families.Binomial(link=sm.families.links.CLogLog())).fit()
res2 = glm("y ~ t", data=df2,
family=sm.families.Binomial(link=sm.families.links.CLogLog())).fit()
print(f"\n[cloglog 연속비율] stage1 beta = {res1.params['t']:.3f}, "
f"stage2 beta = {res2.params['t']:.3f}")두 접근이 수치적으로 호환됨 (로지스틱 대비) 을 확인. 로지스틱 링크로 같은 코드를 돌리면 두 접근의 \(\beta\) 가 서로 일치하지 않음을 볼 수 있다 — 5.6 의 주장 그대로.
11 자주 걸리는 함정
| 함정 | 증상 | 처방 |
|---|---|---|
| 격자점 기반 정확검정을 \(k\) 큰 문제에 적용 | \(\binom{m+k-1}{k-1}\) 폭발 | 점근 또는 Monte Carlo |
| 다섯 가지 이차합 표현을 독립 결과로 착각 | 불필요한 증명 반복 | 5.3 의 등가성으로 단일 계산 |
| 비례 오즈 lower bound 를 상한으로 오해 | CI 축소로 과소확신 | 진짜 SE 는 이것보다 크다 |
| 비례 오즈 score test 와 Wald test 를 같다고 혼동 | p-value 불일치 | Score 는 \(\beta=0\) 에서, Wald 는 \(\hat\beta\) 에서 |
| 보완로그로그 등가성을 로지스틱에 적용 | 수치 불일치 | 로지스틱에서는 두 모형 다름 |
| LDA 와 로지스틱 판별을 동일시 | 분포 가정 차이 무시 | 정규 가정이 현실적일 때만 LDA 선호 |
| Yates 통계량의 순진한 표준화 | 단위 분산 아님 | \(\sigma_r \tilde\sigma_s \sqrt{m_\cdot}\) 분모 사용 |
| Ridit 점수 임의 조정 | 점수 검정이 모형과 어긋남 | 모형이 점수를 결정한다는 원칙 |
12 관련 주제
선행 지식
- Models for Polytomous Data — 개관
- Measurement Scales
- The Multinomial Distribution
- Likelihood Functions for Polytomous GLMs
- Over-dispersion
- Polytomous Examples — 치즈와 진폐증
관련 개념
- Wilcoxon Rank-Sum 검정 — 비례 오즈 score test 와 동치
- Log-rank 검정 — 비례 위험 score test 와 동치
- Fisher’s LDA — 로지스틱 판별의 생성 모형 버전
- Score Test 와 Wald, LR 삼형제
- Hockey-stick Identity 와 Stars-and-bars
후속 주제
- Log-linear Models (Ch.6) — 포아송-다항 동치성의 일반 이론
- Conditional Likelihoods (Ch.7) — 장해 모수 제거
13 참고문헌
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §5.7–§5.8. Chapman & Hall.
- Clayton, D. G. (1974). Some odds ratio statistics for the analysis of ordered categorical data. Biometrika, 61, 525–531.
- Yates, F. (1948). The analysis of contingency tables with groupings based on quantitative characters. Biometrika, 35, 176–181.
- Bross, I. D. J. (1958). How to use ridit analysis. Biometrics, 14, 18–38.
- Läärä, E. & Matthews, J. N. S. (1985). The equivalence of two models for ordinal data. Biometrika, 72, 206–207.
- Efron, B. (1975). The efficiency of logistic regression compared to normal discriminant analysis. JASA, 70, 892–898.
- Lowe, C. R. et al. (1971). Incidence of malformations of the central nervous system in relation to water hardness. Lancet, 1, 1359–1362.
- Pratt, J. W. (1981). Concavity of the log likelihood. JASA, 76, 137–159.
- Burridge, J. (1982). Some unimodality properties of likelihoods derived from grouped data. Biometrika, 69, 145–151.