1 왜 “연습” 을 한 포스트로 묶는가
§6.8 의 16개 연습은 단순 문제집이 아니라 Ch.6 의 이론이 어디까지 확장되는지를 보여주는 실전 지도이다. 4장·5장에서와 마찬가지로, 각 연습을 독립 항목이 아닌 주제별 묶음 으로 읽으면 이 장의 통합적 시각이 드러난다.
이 포스트는 §6.7 의 참고문헌 요지를 짧게 정리한 뒤, §6.8 을 다섯 주제로 재구성한다.
- 포아송 변환과 이탈도 근사 (6.1, 6.2) — \(\sqrt{Y}\)·\(Y^{2/3}\) 의 고차 모멘트
- 음이항 분포의 재유도 (6.3) — 감마-포아송 혼합의 메카니즘
- 결핵균 실데이터 (6.4, 6.5) — 파라미터화 선택이 대조에 주는 영향
- 이변량 로짓과 다변량 모형 대수 (6.6, 6.7, 6.8, 6.10, 6.11) — §6.5 이론의 구체화
- 실데이터 분석 실전 (6.9 Solomon, 6.12–6.13 APA 투표, 6.14–6.15 유전학, 6.16 말발굽) — 다섯 고전 데이터에서 로그선형 모형의 응용
2 §6.7 참고문헌 — 주요 갈래
Ch.4·Ch.5 의 참고문헌이 대부분 Ch.6 에도 적용되지만, 특별히 로그선형에 중요한 문헌은 다음과 같다.
| 주제 | 대표 문헌 | 핵심 기여 |
|---|---|---|
| 전체 이론 | Agresti (1984, 2013), Bishop–Fienberg–Holland (1975), Haberman (1974a), Plackett (1981) | 표준 교재 |
| 분해가능성 + 그래프 모형 | Darroch, Lauritzen & Speed (1980) | decomposable = chordal graph. 현대 PGM 의 기원 |
| 곱셈적 교호작용 | Mandel (1959, 1971) | 라틴 정방·요인 설계에서 교호작용 분해 |
| 대응분석 | Greenacre (1984), Benzécri (1976), Gilula–Haberman (1986) | SVD 기반 시각화 |
| 정준상관 모형 | Goodman (1979, 1981, 1986), Haberman (1981) | log-bilinear 모형 |
| 다변량 로짓의 한계 지적 | Cox (1972b) | “로그선형 파라미터가 주변 로짓과 단순 관계 아님” — §6.6.2 논의의 원형 |
| 다변량 로짓 링크 | Dale (1986) | 이변량 이상의 logit 변환 |
| 비정통적 시각 | Anscombe (1981, Ch.12) | 분할표 모형에 대한 독자적 관점 |
핵심 연결고리: Darroch–Lauritzen–Speed (1980) 의 decomposable = chordal graph 등가성은 통계와 그래프 이론을 연결한 고전이다. 현대의 그래프 모형(probabilistic graphical models), 베이지안 네트워크, 조건부 랜덤 필드(CRF) 가 모두 이 뿌리에서 갈라져 나왔다. Ch.6 §6.5.2 의 분해가능성 논의가 통계 영역을 훨씬 넘어선 발전의 출발점이었다는 사실은 기억할 만하다.
3 주제 1 — 포아송 변환의 고차 모멘트 (6.1, 6.2)
3.1 Ex 6.1 — \(\sqrt{Y}\) 와 \(Y^{2/3}\) 의 Taylor 전개
\(Y \sim \text{Poisson}(\mu)\) 에 대해 \(Y = \mu(1 + \epsilon)\) 로 쓰고 \(\epsilon\) 에 대해 4차까지 Taylor 전개하면:
제곱근 변환:
\[ \mathrm{E}(Y^{1/2}) \simeq \mu^{1/2}\!\left\{1 - \frac{1}{8\mu} - \frac{7}{128\mu^2} + O(\mu^{-3})\right\} \]
\[ \mathrm{Var}(Y^{1/2}) \simeq \frac{1}{4}\!\left\{1 + \frac{3}{8\mu} + O(\mu^{-2})\right\} \]
\[ \kappa_3(Y^{1/2}) \simeq -\frac{1}{16\mu^{1/2}}\{1 + O(\mu^{-1})\} \]
큐브루트 변환 (Anscombe):
\[ \mathrm{E}(Y^{2/3}) \simeq \mu^{2/3}\!\left\{1 - \frac{1}{9\mu} - \frac{1}{27\mu^2} + O(\mu^{-3})\right\} \]
\[ \mathrm{Var}(Y^{2/3}) \simeq \frac{4\mu^{1/3}}{9}\!\left\{1 + \frac{1}{6\mu} + O(\mu^{-2})\right\} \]
\[ \kappa_3(Y^{2/3}) \simeq -\frac{68}{729\mu} + O(\mu^{-2}) \]
3.2 해석 — 두 변환의 목적이 다르다
| 변환 | 주목적 | 수치 증거 |
|---|---|---|
| \(\sqrt{Y}\) | 분산 안정화 — Var ≈ 1/4 (μ 무관) | 분산이 \(\mu\) 에 거의 무관해짐 |
| \(Y^{2/3}\) | 대칭화 — 왜도를 \(O(\mu^{-1})\) 로 | 왜도가 \(\sqrt{Y}\) 보다 훨씬 빠르게 0에 수렴 |
핵심 관찰 — 왜도 비교:
- \(\sqrt{Y}\) 의 왜도 ∝ \(\mu^{-1/2}\)
- \(Y^{2/3}\) 의 왜도 ∝ \(\mu^{-1}\) (한 차수 빠른 수렴)
- \(Y\) 자체의 왜도는 \(\mu^{-1/2}\)
실무적 의미: 잔차 플롯에서 정규성이 필요하면 \(Y^{2/3}\) 가 유리, 분산 균일이 필요하면 \(\sqrt{Y}\) 가 유리. Anscombe 잔차(§5.2 GLM residual) 는 후자의 철학을 따른다.
왜 \(\kappa_3\) 계수가 \(-68/729\) 인가: 729 = \(9^3\), 68 은 \(\mu\) 의 \((1+\epsilon)^{2/3}\) 전개에서 3차 이상 계수의 종합. 수치 자체는 외워둘 필요 없으나 부호가 음수(좌왜) 라는 사실이 중요 — \(Y\) 자체(우왜)와 반대 방향.
3.3 Ex 6.2 — Signed Deviance 근사
\(Y \log(Y/\mu) - (Y - \mu) \simeq \mu\!\left\{\tfrac{\epsilon^2}{2} - \tfrac{\epsilon^3}{6} + \tfrac{\epsilon^4}{12} - \cdots\right\}\)
반면:
\(\tfrac{9}{2} Y^{1/3}(\mu^{1/3} - Y^{1/3})^2 \simeq \mu\!\left\{\tfrac{\epsilon^2}{2} - \tfrac{\epsilon^3}{6} + \tfrac{2\epsilon^4}{27} - \tfrac{\epsilon^5}{27} + \cdots\right\}\)
두 근사의 첫 두 항이 같다 (\(\epsilon^2/2 - \epsilon^3/6\)). \(\epsilon^4\) 이상에서 분기.
3.4 결과 — 표준화 근사 공식
\[ 3 Y^{1/6}(Y^{1/3} - \mu^{1/3}) + \frac{\mu^{-1/2}}{6} \sim N(0, 1) + O_p(\mu^{-1}) \]
이것이 §6.1 에서 간단히 언급된 Signed deviance 변환의 정확한 정의. 뒤쪽 보정항 \(\mu^{-1/2}/6\) 이 대칭성을 추가로 확보한다.
왜 이렇게 복잡한 변환을 쓰는가: Pearson \(X^2\) 의 \(\chi^2\) 근사는 \(O(\mu^{-1/2})\), 이 변환은 \(O(\mu^{-1})\) — \(\sqrt{\mu}\) 배 더 정확. 희소 데이터에서 큰 차이를 만든다. \(\mu = 5\) 정도의 작은 평균에서도 tail 확률이 소수점 4자리까지 일치.
4 주제 2 — 음이항 유도 (6.3)
4.1 감마-포아송 혼합
\(Y \mid Z \sim \text{Poisson}(Z)\) 이고 \(Z\) 가 감마 밀도
\[ f_Z(z; \mu, \phi) \, dz = \frac{(\phi z)^{\phi\mu}\, e^{-\phi z}}{\Gamma(\phi\mu)}\, d\log z \]
를 따른다고 하자. \(Z\) 의 분산은 \(\mu/\phi\) — 포아송과 유사한 “평균 = 분산 배수” 구조를 가진 사전분포.
4.2 주변 분포
\(Z\) 를 적분하면 \(Y\) 의 주변 분포가 다음 음이항:
\[ \Pr(Y = y;\, \mu, \phi) = \frac{\Gamma(y + \phi\mu)\, \phi^{\phi\mu}}{y!\, \Gamma(\phi\mu)\, (1 + \phi)^{y + \phi\mu}} \]
4.3 모멘트
\[ \mathrm{E}(Y) = \mu, \qquad \mathrm{Var}(Y) = \frac{\mu(1 + \phi)}{\phi} = \mu\!\left(1 + \frac{1}{\phi}\right) \]
\(\phi \to \infty\) 극한: \(\mathrm{Var}(Y) \to \mu\) — 순수 포아송으로 수렴. \(\phi \to 0\): 분산이 발산 — 극단적 과산포.
4.4 왜 이 유도가 §6.2.3 에서 중요한가
05-2 포스트에서 음이항을 소개했지만 감마 밀도의 구체 형태는 건너뛰었다. Exercise 6.3 이 이 공백을 채운다 — “\(\phi\mu\) 매개의 감마” 를 쓰면 \(\sigma^2 = 1 + 1/\phi\) 가 \(\mu\) 에 무관한 상수가 되어 quasi-Poisson 의 “Var = \(\sigma^2\mu\)” 구조와 정합한다.
4.5 실무 권고
- \(\phi\) 를 MLE 로 추정 → 음이항 회귀 (NB1)
- \(\phi\) 를 비우고 \(\sigma^2 = X^2/\text{df}\) 로 추정 → quasi-Poisson
- 두 방법의 \(\hat{\boldsymbol{\beta}}\) 는 \(O_p(\phi^{-2})\) 로 동일
5 주제 3 — 결핵균 실데이터의 파라미터화 (6.4, 6.5)
5.1 Ex 6.4 — Volume 의 두 가지 표현
결핵균 검정 데이터(Table 6.1b)에 다음 모형을 적합.
\[ \text{site} + \text{class} + \text{volume} + \text{tuberculin} \]
선택 1 — Volume = 정량 변수 \(\{-1, 0, +1\}\) (half, single, double):
- \(A\) (Standard double): \(\text{tuberculin} = 0\), \(\text{volume} = +1\)
- \(B\) (Standard single): \(\text{tuberculin} = 0\), \(\text{volume} = 0\)
- \(C\) (Weybridge single): \(\text{tuberculin} = 1\), \(\text{volume} = 0\)
- \(D\) (Weybridge half): \(\text{tuberculin} = 1\), \(\text{volume} = -1\)
선택 2 — Volume = 2수준 factor (low/high):
- low dose: half + single (B, D)
- high dose: double + single (A, C)
5.2 놀라운 결과
두 파라미터화의 적합값은 완전히 동일. 그러나 tuberculin 대조의 의미가 다르다.
| 파라미터화 | tuberculin 대조의 의미 |
|---|---|
| 정량 volume | “같은 용량에서 Weybridge – Standard” — 두 제제의 동량 효과 차 |
| 2수준 volume | “Weybridge 의 low-dose (half) – Standard 의 low-dose (single) = 서로 다른 용량 비교” |
선택 2 에서 tuberculin 대조가 0에 가깝게 나오는 이유: Weybridge half ≈ Standard single (상대 효능 2) 이므로 두 용량을 저용량 그룹으로 묶으면 처리 효과가 거의 상쇄된다.
5.3 교훈 — 교차 분류 해석의 함정
범주 그룹화가 효과 해석의 의미를 바꾼다. 같은 적합값·이탈도인데도 tuberculin: volume:1 계수가 완전히 다른 질문에 답한다.
실무 규칙: factor 수준의 정의와 어떤 대조(contrast) 가 연구 질문에 부합하는가를 먼저 결정한 뒤 파라미터화 선택.
5.4 Ex 6.5 — 제제별 용량 효과 동일성 검정
“용량 두 배의 효과가 Standard 와 Weybridge 에 같은가?” 가설. §6.3.1 말미의 F-검정 (volume × tuberculin 교호작용) 으로 접근.
\[ F_{1, 6} = \frac{(\text{deviance w/o interaction} - \text{deviance w/ interaction})/1}{\hat\sigma^2} \]
6 자유도의 \(F\) 로 비교 (\(\sigma^2\) 자유도가 라틴정방 잔차 7 - 1 = 6). p-value 가 크면 곱셈성 가정 유지.
직관: “두 제제가 같은 로그-반응 곡선을 같은 기울기로 공유하는가” 를 묻는 것. 이것이 relative potency 개념의 전제이다.
6 주제 4 — 이변량 로짓과 다변량 모형 대수 (6.6–6.11)
6.1 Ex 6.6 — \(\Delta\) 의 경계와 표현
§6.5.6 의 두 이항 반응 연관 척도 \(\Delta\) 에 대해:
\[ \Delta = \frac{S_3}{S_3 + \Delta_\pi^2} \]
여기서 \(S_3\) 은 \(2 \times 2\) 확률의 대칭함수 (구체 표현은 교재), \(\Delta_\pi\) 는 적절히 정의된 확률 대조.
\(\Delta\) 의 경계:
- \(0 \le \Delta \le 1\)
- \(\Delta = 0\) iff \(A, B\) 독립
\(\Delta\) 는 “0–1 정규화된 연관 측도” — 오즈비와 달리 유계. 독립성 가설 검정의 통계량으로 유용.
6.2 Ex 6.7 — 이변량 로짓 모형의 우도 방정식
이변량 반응 \((A, B)\) 에 대해:
\[ \eta_a(\mathbf{x}) = \boldsymbol{\beta}_a^\top \mathbf{x}_a, \quad \eta_b(\mathbf{x}) = \boldsymbol{\beta}_b^\top \mathbf{x}_b, \quad \eta_{ab}(\mathbf{x}) = \eta_{ab}. \]
즉 두 주변 로짓은 공변량에 회귀, 교호작용 \(\eta_{ab}\) 는 상수. \(\boldsymbol{\eta}\) 의 로그 우도 도함수 (6.21) 로부터 MLE 방정식은 매우 단순:
\[ y_{i.} = m \hat\pi_{i.}, \qquad y_{.j} = m \hat\pi_{.j}, \quad \text{for each bivariate response} \]
\[ \sum_{1}^{n} (y_{11} - m \hat\pi_{11}) = 0 \]
6.3 해석 — 무엇이 맞춰지는가
- 행/열 주변: 각 이변량 관측에서 \(A, B\) 의 주변 빈도 정확히 맞춤
- \((1,1)\) 셀 합: 모든 \(n\) 관측에서 \(y_{11}\) 합이 \(\hat\pi_{11}\) 합과 같음
즉 각 관측마다 2개 + 전체에서 1개의 방정식. 이는 로지스틱 주변 회귀가 “\(A \sim x\)” 와 “\(B \sim x\)” 를 독립으로 적합한 결과와 본질적으로 동일 한 이유이다 (§6.6.1 에서 본 3% 효율 차이의 근원).
6.4 Ex 6.8 — 다변량 로짓의 역변환 알고리즘
다변량 로짓 \(\boldsymbol{\eta} = \mathbf{C}\log(\mathbf{L}\boldsymbol{\pi})\) 의 역변환 \(\boldsymbol{\eta} \to \boldsymbol{\pi}\) 를 세 단계로 분해:
- 지수화: \(\boldsymbol{\gamma} = \exp(\mathbf{C}^{-1}\boldsymbol{\eta})\) (로그 해제)
- 반복 비례 적합(IPF): \(\boldsymbol{\gamma}\) 의 주변 합 제약 만족
- 선형 변환 \(\mathbf{L}^{-1}\): 주변 확률 \(\boldsymbol{\gamma}\) 를 셀 확률 \(\boldsymbol{\pi}\) 로
Yates 알고리즘의 활용: \(\mathbf{L}\) 이 직접 곱(direct product) 구조일 때 \(\mathbf{L}^{-1}\) 을 순차적 factor-level 차분/합계로 계산. McCullagh (1987, p. 15) 의 책에 상세.
왜 이 알고리즘이 중요한가: 소프트웨어로 이변량 로짓 모형 적합 시 내부적 수치 계산에 정확히 이 3단계가 쓰인다. 직접 코딩하지는 않더라도 수렴 실패·수치 불안정의 원인을 이해할 때 유용.
6.5 Ex 6.10–6.11 — 다변량 로짓 변환의 중복성과 순서형 버전
6.10: (6.10) 의 \(\boldsymbol{\gamma} = \mathbf{L}\boldsymbol{\pi}\) 에서 “인덱스 중 1인 성분” 을 모두 제거하면 중복성 제거 — 완전 rank 표현.
6.11: \(A\) 명목형 3수준, \(B\) 순서형 4수준의 이변량 반응에 적합한 로짓 변환:
\[ \eta_{ai} = \log(\gamma_{i.}/\gamma_{3.}), \quad i = 1, 2 \quad (\text{명목 기준범주 로짓}) \]
\[ \eta_{bj} = \text{logit}\,\gamma_{.j}, \quad j = 1, 2, 3 \quad (\text{순서 비례오즈}) \]
\[ \eta_{abij} = \text{logit}(\gamma_{ij}/\gamma_{i.}) - \text{logit}(\gamma_{3j}/\gamma_{3.}) \]
핵심: 명목형에는 기준범주 로짓, 순서형에는 누적 로짓, 교호작용은 이 둘의 조합으로 자연스럽게 정의. 서로 다른 척도의 반응이 섞여 있을 때 각 주변 로짓이 해당 척도의 고유 형태를 취한다는 것이 규칙.
7 주제 5 — 실데이터 분석 실전
7.1 Ex 6.9 — Solomon 고교생 태도조사 (Table 6.10)
1957년 뉴저지 고교 졸업생 2982명의 네 과학 관련 명제 찬반 × I.Q. 그룹. 4 이항 반응 + 2 그룹 = \(2^4 \times 2\) 분할표.
분석 과제:
- 각 응답의 주변 분포가 I.Q. 그룹에 의존하는가? → 4개 독립 로지스틱 회귀
- 여섯 개 쌍의 오즈비가 두 그룹에서 다른가? → 이변량 로짓의 교호작용 검정
- 비기술적 요약 서술
핵심 모형: (Y1; Y2; Y3; Y4) : group; (Y1*Y2; ...) : group. 앞부분은 주변 로지스틱, 뒷부분은 오즈비의 그룹 차이.
기대되는 결과: 각 문항의 찬성률 자체는 I.Q. 에 약하게 의존할 수 있으나, 문항 간 연관 패턴 이 I.Q. 그룹별로 다른 것이 더 흥미로운 사회학적 발견. 예컨대 “과학자의 창의성” 과 “과학자 급여” 의 연관 강도가 고 I.Q. 에서 더 큰 경우 지능 수준에 따른 세계관의 일관성 차이로 해석 가능.
7.2 Ex 6.12–6.13 — APA 투표 데이터 (Diaconis, 1988)
1980년 미국 심리학회 회장 선거의 완전 순위 투표 5738장 (후보 5명). 각 투표가 120개 순위 중 하나.
분석 단계:
6.12: \(A, B, C, D, E\) 각각 5수준 factor (후보가 받은 순위).
- 모형 1: intercept 만 (균일 가정)
- 모형 \(A + B + C + D + E\): 후보별 평균 순위 효과 — rank 는? \(E\) 를 빼도 같은 이유는?
답: 순위 합이 고정 (\(1+2+3+4+5 = 15\)) 이므로 한 factor 는 나머지에 의해 결정. 즉 rank \(= 1 + 5 \times 4 = 21\) 또는 더 적음. \(E\) 의 수준은 \(A,B,C,D\) 수준들로부터 결정되므로 모형에서 불필요.
선형·이차 대조: \(B_L = (-2,-1,0,1,2)\), \(B_Q = (2,-1,-2,-1,2)\). 모형 \(A_L + B_L + C_L + D_L + E_L\) 적합 후 \(A_L + B_L + C_L + D_L + E_L\) 합이 0인지 확인.
6.13: 이항 대조 정의. \(AB = 1\) iff 순위 \(\pi\) 에서 \(A\) 가 \(B\) 보다 앞 (즉 더 높은 순위). 10쌍 (\(\binom{5}{2} = 10\)) 의 pairwise 대조.
모형 1 + AB + AC + AD + AE + BC + BD + BE + CD + CE + DE 의 rank 는?
답: 각 대조는 이항이지만, 삼각 관계 \(AB \cdot BC = AC\) 등 제약이 있어 rank 는 \(1 + \binom{5}{2} - \text{dependent} = 1 + 10 - \ldots\) — 구체 계산 필요.
ABC 6수준 factor: 세 후보 상대 순위의 6 순열. Model matrix \(Z\) 에 대해
\[ \text{rank}(Z) = 1 + \binom{k}{2} + 2\binom{k}{3} \]
\(k = 5\) 에서 \(1 + 10 + 20 = 31\).
Babington-Smith / Mallows 모형: \(\text{rank}\) 가 더 높은 \(Z\) 모형이 순위 간의 트리플 교호작용 (세 후보가 어떤 순서로 배치되었는가)까지 포착. 후보 이름을 치환해도 모형은 불변(symmetry).
실무 의미: 설문·선거·평점 데이터에서 단순 “평균 순위” 이상의 정보 — 예컨대 “A 가 좋아하는 사람은 \(B\) 를 \(C\) 보다 선호” 같은 상호 선호 패턴 을 탐지.
7.3 Ex 6.14–6.15 — 유전학: 눈색 유전과 “버틀러 효과”
6.14 — 랜덤 교배 가설: Table 4.10 에 부모 눈색(light/hazel/dark) × 자녀 눈색. 랜덤 교배 가정 = “부모 쌍이 인구 비율에 따라 무작위로 짝지어짐”.
로그선형 표현: \(\log \mu_{ij} = \alpha_i + \alpha_j\) (부모 눈색 주효과 + 상호 독립). 자녀 분포는 Mendel 유전학으로 제약.
가정:
- 광학적 우성·열성 비율 \(1/4\) (양쪽 dark → 1/4 light 등)
- 성별 눈색 분포 동일
- 기록 오류 없음
이 제약 하에 인구의 light / hazel / dark 비율을 MLE 로 추정.
6.15 — 버틀러 효과: 자녀 중 일부가 표면상의 아버지와 생물학적 아버지가 다를 확률 \(\epsilon\) 를 추정.
가정 (4가지):
- 두 부모 모두 light면 자녀는 반드시 light
- 성별 간 눈색 분포 동일
- 버틀러 집단의 눈색 분포 = 표면상 아버지 집단 분포
- 기록 오류 없음
1을 이용하면 “두 부모 모두 light” 셀에서 자녀가 non-light 인 비율 → \(\epsilon\) 직접 추정.
추가 가정 (a), (b): 부모 조합 dark-dark 의 자녀가 light 일 확률 1/4, light-dark 의 자녀가 light 일 확률 1/2 → 여러 셀에서 \(\epsilon\) 정보를 결합해 정밀도 향상.
역사적 위트: 빅토리아 시대 상류층의 “버틀러 효과” 는 실제 데이터로 추정 가능한 현상이었고, 이는 현대 신원 확인 검정 (DNA paternity testing) 의 통계적 전사(前史) 로 볼 수 있다.
7.4 Ex 6.16 — Bortkewitsch 의 말발굽 사망 (1898)
데이터: 1875–1894 (20년) × 14개 프러시아 군단 = \(r \times c = 20 \times 14 = 280\) 셀. 각 셀에 군단-연도별 말발굽으로 인한 사망자 수. 총계 \(N = \sum s_i = \sum t_j\).
포아송 독립성 모형 corps + year 적합. 이 모형이 참이면 “모든 군단이 같은 시간 위험률” 과 “시간이 군단에 무관” 을 의미.
적합도 문제 — 희소 데이터: 전형적 셀 평균 \(\hat\mu_{ij}\) 가 0에 가까운 셀이 많다. \(\chi^2_{(r-1)(c-1)}\) 근사가 엄청나게 부정확 할 수 있다.
Haldane-Dawson 공식 (정확한 \(E, \text{Var}(X^2)\)):
\[ \mathrm{E}(X^2) = \frac{(r-1)(c-1)N}{N-1} \]
\[ \mathrm{Var}(X^2) = \frac{2N(\nu-\sigma)(\mu-\tau)}{N-3} + \frac{N^2 \sigma\tau}{N-1} \]
여기서
\[ \nu = \frac{(N-r)(r-1)}{N-1}, \quad \sigma = \frac{N\{\sum_i s_i^{-1} - r^2/N\}}{N-2}, \]
\[ \mu = \frac{(N-c)(c-1)}{N-1}, \quad \tau = \frac{N\{\sum_j t_j^{-1} - c^2/N\}}{N-2} \]
수치 결과: 말발굽 데이터에서 \(\mathrm{E}(X^2) = 248.27\), \(\mathrm{Var}(X^2) = 419.81\).
대비 — 표준 \(\chi^2\) 근사: \(\chi^2_{(r-1)(c-1)} = \chi^2_{247}\) 의 분산은 \(2 \times 247 = 494\). 실제는 \(419.81\) 로 약 15% 작다. 즉 표준 근사는 희소 데이터에서 분산을 과대평가 하고, 검정은 보수적 방향으로 편향.
결과 해석: 관측된 \(X^2\) 값을 올바른 분산으로 표준화하면 (Haldane-Dawson 기반 z-value), 독립성이 기각되는지 재평가 가능. 정확히 0이 되는 셀을 가진 희소 분할표에서의 정확 추론의 대표적 예.
역사적 의의: Bortkewitsch (1898) 의 데이터는 포아송 분포의 발견의 계기가 된 바로 그 데이터. “희귀 사건의 수” 가 포아송으로 설명된다는 사실을 보여주는 고전이지만, 독립성까지 엄격히 검정하면 미묘한 시점·군단 효과가 남아있다는 것이 Quine–Seneta (1987), Preece-Ross-Kirby (1988) 의 발견.
8 코드 예시
8.1 Step 1: 포아송 변환의 왜도 수렴 비교
import numpy as np
rng = np.random.default_rng(0)
mus = [1, 2, 5, 10, 50, 100]
print(f"{'mu':>5} {'skew(Y)':>10} {'skew(Y^.5)':>12} {'skew(Y^2/3)':>14}")
for mu in mus:
Y = rng.poisson(mu, size=200_000)
def skew(x):
x = x.astype(float)
m = x.mean()
return ((x - m)**3).mean() / x.std()**3
print(f"{mu:>5} {skew(Y):>10.3f} {skew(np.sqrt(Y)):>12.3f} {skew(Y**(2/3)):>14.3f}")예상: \(Y\) 의 왜도 ∝ \(\mu^{-1/2}\), \(\sqrt{Y}\) 비슷, \(Y^{2/3}\) 이 훨씬 빠르게 0 접근.
8.2 Step 2: Signed Deviance tail 확률 정확도
import numpy as np
from scipy.stats import poisson, norm
def g_signed_deviance(y, mu):
if y == 0:
return -np.sqrt(2*mu) + mu**(-0.5) / 6
return 3 * y**(1/6) * (y**(1/3) - mu**(1/3)) + mu**(-0.5) / 6
mu = 5.0
print(f"{'y':>3} {'exact P(Y>=y)':>14} {'signed-dev approx':>18} {'sqrt approx':>14}")
for y in range(7, 14):
exact = poisson.sf(y - 1, mu)
sd = 1 - norm.cdf(g_signed_deviance(y - 0.5, mu))
sqrt_approx = 1 - norm.cdf((np.sqrt(y - 0.5) - np.sqrt(mu)) * 2)
print(f"{y:>3} {exact:>14.4f} {sd:>18.4f} {sqrt_approx:>14.4f}")signed-deviance 근사가 제곱근 근사보다 정확하고 \(\mu = 5\) 에서도 소수점 3자리 일치함을 확인.
8.3 Step 3: 말발굽 데이터 Haldane-Dawson 분산
import numpy as np
# 가상의 말발굽 표 (실제 데이터는 Andrews-Herzberg 1985)
rng = np.random.default_rng(1)
r, c = 20, 14
# 대략적 모방: 행 합 평균 15, 열 합 평균 21
tab = rng.poisson(lam=0.8, size=(r, c))
N = tab.sum()
s = tab.sum(axis=1) # row totals
t = tab.sum(axis=0) # col totals
expected = np.outer(s, t) / N
# Pearson X^2
mask = expected > 0
X2 = np.sum((tab[mask] - expected[mask])**2 / expected[mask])
# Haldane-Dawson
nu = (N - r) * (r - 1) / (N - 1)
mu_hd = (N - c) * (c - 1) / (N - 1)
sigma = N * (np.sum(1 / s) - r**2 / N) / (N - 2)
tau = N * (np.sum(1 / t) - c**2 / N) / (N - 2)
E_X2 = (r - 1) * (c - 1) * N / (N - 1)
V_X2 = 2 * N * (nu - sigma) * (mu_hd - tau) / (N - 3) + N**2 * sigma * tau / (N - 1)
V_chi2 = 2 * (r - 1) * (c - 1)
print(f"N = {N}")
print(f"X^2 관측 = {X2:.2f}")
print(f"E(X^2) Haldane = {E_X2:.2f}")
print(f"Var(X^2) Haldane = {V_X2:.2f}")
print(f"Var(chi^2) 표준근사 = {V_chi2:.2f}")
print(f"표준 근사 과대평가 비율 = {V_chi2 / V_X2:.3f}")
# 올바른 표준화로 z 근사
z = (X2 - E_X2) / np.sqrt(V_X2)
print(f"Haldane z = {z:.2f}")9 자주 걸리는 함정
| 함정 | 증상 | 처방 |
|---|---|---|
| \(\sqrt{Y}\) 와 \(Y^{2/3}\) 의 목적 혼동 | 분산 안정화 대신 대칭화 쓰거나 반대 | 필요 목적에 맞춰 선택 |
| 음이항 \(\phi\) 와 quasi \(\sigma^2\) 혼동 | 수치적 차이에 과도한 의미 부여 | \(\sigma^2 = 1 + 1/\phi\) 관계 기억 |
| volume 파라미터화 차이 무시 | tuberculin 대조가 예상과 다름 | 대조의 의미 먼저 명확화 |
| 다변량 로짓 역변환 직접 시도 | 수치 불안정 | IPF + Yates 알고리즘 활용 |
| APA 순위 데이터에 독립 모형만 | rank 제약 놓침 | 대조로 재구성, Mallows/Babington-Smith 고려 |
| 버틀러 효과 추정에 가정 생략 | 식별 불가능 | 명시된 네 가정 모두 확인 |
| 희소 분할표에 표준 \(\chi^2\) | 보수적 편향 | Haldane-Dawson 분산 사용 |
| Bortkewitsch 데이터 = “포아송 완전 성립” 으로 단순화 | 독립성 미묘한 위반 놓침 | 정확 공식으로 재검정 |
10 관련 주제
선행 지식
- Log-linear Models — 개관
- Likelihood Functions for Log-linear Models
- Log-linear Examples (결핵균·선박)
- Log-linear ↔︎ Multinomial 쌍대성
- Multiple Responses in Log-linear Models
- Respiratory Ailments 예제
관련 개념
- Anscombe 잔차와 분산 안정화 변환
- Negative Binomial 과 Quasi-Poisson
- Plackett–Burman 설계와 대조
- Mallows 순위 모형
- Fisher’s Exact Test 와 희소 분할표
- 그래프 모형과 분해가능성 (Darroch-Lauritzen-Speed)
후속 주제
- Conditional Likelihoods (Ch.7) — 장해 모수 제거의 일반 이론
11 참고문헌
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.7–§6.8. Chapman & Hall.
- Anscombe, F. J. (1953). Contribution to the discussion of H. Hotelling’s paper. JRSS B, 15, 229–230.
- Darroch, J. N., Lauritzen, S. L., & Speed, T. P. (1980). Markov fields and log-linear interaction models. Annals of Statistics, 8, 522–539.
- Cox, D. R. (1972b). The analysis of multivariate binary data. Appl. Stat., 21, 113–120.
- Dale, J. R. (1986). Global cross-ratio models for bivariate discrete ordered responses. Biometrics, 42, 909–917.
- Solomon, H. (1961). Studies in Item Analysis and Prediction. Stanford UP.
- Diaconis, P. (1988). Group Representations in Probability and Statistics. IMS Lecture Notes.
- Mallows, C. L. (1957). Non-null ranking models, I. Biometrika, 44, 114–130.
- Babington-Smith, B. (1950). Discussion of Professor Ross’s paper. JRSS B, 12, 153–162.
- Haldane, J. B. S. (1939). The mean and variance of \(\chi^2\) when used as a test of homogeneity. Biometrika, 31, 346–355.
- Dawson, R. B. (1954). A simplified expression for the variance of the \(\chi^2\)-function on a contingency table. Biometrika, 41, 280.
- Quine, M. P. & Seneta, E. (1987). Bortkiewicz’s data and the law of small numbers. International Statistical Review, 55, 173–181.
- Preece, D. A., Ross, G. J. S., & Kirby, S. P. J. (1988). Bortkewitsch’s horse-kicks and the generalised linear model. The Statistician, 37, 313–318.
- McCullagh, P. (1987). Tensor Methods in Statistics. Chapman & Hall.