Log-linear Models — Further Results and Exercises

참고문헌·포아송 변환·이변량 로짓·순위 데이터·희소 \(X^2\) (McCullagh & Nelder §6.7~§6.8)

Ch.6 의 마무리 절들을 주제별로 재구성한다. §6.7 Haberman·Darroch–Lauritzen–Speed· Cox 의 고전 문헌 요지, §6.8 의 16개 연습문제를 (1) 포아송 변환의 고차 모멘트 (2) 음이항 유도 (3) 결핵균 실데이터 (4) 이변량 지표와 로짓 (5) 다변량 로짓 알고리즘 (6) Solomon·APA 투표·유전학·말발굽 사고 실데이터 다섯 주제로 묶어 수식과 직관을 함께 전개한다.

Statistics
GLM
저자

Kwangmin Kim

공개

2026년 04월 15일

1 왜 “연습” 을 한 포스트로 묶는가

§6.8 의 16개 연습은 단순 문제집이 아니라 Ch.6 의 이론이 어디까지 확장되는지를 보여주는 실전 지도이다. 4장·5장에서와 마찬가지로, 각 연습을 독립 항목이 아닌 주제별 묶음 으로 읽으면 이 장의 통합적 시각이 드러난다.

이 포스트는 §6.7 의 참고문헌 요지를 짧게 정리한 뒤, §6.8 을 다섯 주제로 재구성한다.

  1. 포아송 변환과 이탈도 근사 (6.1, 6.2) — \(\sqrt{Y}\)·\(Y^{2/3}\) 의 고차 모멘트
  2. 음이항 분포의 재유도 (6.3) — 감마-포아송 혼합의 메카니즘
  3. 결핵균 실데이터 (6.4, 6.5) — 파라미터화 선택이 대조에 주는 영향
  4. 이변량 로짓과 다변량 모형 대수 (6.6, 6.7, 6.8, 6.10, 6.11) — §6.5 이론의 구체화
  5. 실데이터 분석 실전 (6.9 Solomon, 6.12–6.13 APA 투표, 6.14–6.15 유전학, 6.16 말발굽) — 다섯 고전 데이터에서 로그선형 모형의 응용

2 §6.7 참고문헌 — 주요 갈래

Ch.4·Ch.5 의 참고문헌이 대부분 Ch.6 에도 적용되지만, 특별히 로그선형에 중요한 문헌은 다음과 같다.

주제 대표 문헌 핵심 기여
전체 이론 Agresti (1984, 2013), Bishop–Fienberg–Holland (1975), Haberman (1974a), Plackett (1981) 표준 교재
분해가능성 + 그래프 모형 Darroch, Lauritzen & Speed (1980) decomposable = chordal graph. 현대 PGM 의 기원
곱셈적 교호작용 Mandel (1959, 1971) 라틴 정방·요인 설계에서 교호작용 분해
대응분석 Greenacre (1984), Benzécri (1976), Gilula–Haberman (1986) SVD 기반 시각화
정준상관 모형 Goodman (1979, 1981, 1986), Haberman (1981) log-bilinear 모형
다변량 로짓의 한계 지적 Cox (1972b) “로그선형 파라미터가 주변 로짓과 단순 관계 아님” — §6.6.2 논의의 원형
다변량 로짓 링크 Dale (1986) 이변량 이상의 logit 변환
비정통적 시각 Anscombe (1981, Ch.12) 분할표 모형에 대한 독자적 관점

핵심 연결고리: Darroch–Lauritzen–Speed (1980) 의 decomposable = chordal graph 등가성은 통계와 그래프 이론을 연결한 고전이다. 현대의 그래프 모형(probabilistic graphical models), 베이지안 네트워크, 조건부 랜덤 필드(CRF) 가 모두 이 뿌리에서 갈라져 나왔다. Ch.6 §6.5.2 의 분해가능성 논의가 통계 영역을 훨씬 넘어선 발전의 출발점이었다는 사실은 기억할 만하다.


3 주제 1 — 포아송 변환의 고차 모멘트 (6.1, 6.2)

3.1 Ex 6.1 — \(\sqrt{Y}\)\(Y^{2/3}\) 의 Taylor 전개

\(Y \sim \text{Poisson}(\mu)\) 에 대해 \(Y = \mu(1 + \epsilon)\) 로 쓰고 \(\epsilon\) 에 대해 4차까지 Taylor 전개하면:

제곱근 변환:

\[ \mathrm{E}(Y^{1/2}) \simeq \mu^{1/2}\!\left\{1 - \frac{1}{8\mu} - \frac{7}{128\mu^2} + O(\mu^{-3})\right\} \]

\[ \mathrm{Var}(Y^{1/2}) \simeq \frac{1}{4}\!\left\{1 + \frac{3}{8\mu} + O(\mu^{-2})\right\} \]

\[ \kappa_3(Y^{1/2}) \simeq -\frac{1}{16\mu^{1/2}}\{1 + O(\mu^{-1})\} \]

큐브루트 변환 (Anscombe):

\[ \mathrm{E}(Y^{2/3}) \simeq \mu^{2/3}\!\left\{1 - \frac{1}{9\mu} - \frac{1}{27\mu^2} + O(\mu^{-3})\right\} \]

\[ \mathrm{Var}(Y^{2/3}) \simeq \frac{4\mu^{1/3}}{9}\!\left\{1 + \frac{1}{6\mu} + O(\mu^{-2})\right\} \]

\[ \kappa_3(Y^{2/3}) \simeq -\frac{68}{729\mu} + O(\mu^{-2}) \]

3.2 해석 — 두 변환의 목적이 다르다

변환 주목적 수치 증거
\(\sqrt{Y}\) 분산 안정화 — Var ≈ 1/4 (μ 무관) 분산이 \(\mu\) 에 거의 무관해짐
\(Y^{2/3}\) 대칭화 — 왜도를 \(O(\mu^{-1})\) 왜도가 \(\sqrt{Y}\) 보다 훨씬 빠르게 0에 수렴

핵심 관찰 — 왜도 비교:

  • \(\sqrt{Y}\) 의 왜도 ∝ \(\mu^{-1/2}\)
  • \(Y^{2/3}\) 의 왜도 ∝ \(\mu^{-1}\) (한 차수 빠른 수렴)
  • \(Y\) 자체의 왜도는 \(\mu^{-1/2}\)

실무적 의미: 잔차 플롯에서 정규성이 필요하면 \(Y^{2/3}\) 가 유리, 분산 균일이 필요하면 \(\sqrt{Y}\) 가 유리. Anscombe 잔차(§5.2 GLM residual) 는 후자의 철학을 따른다.

\(\kappa_3\) 계수가 \(-68/729\) 인가: 729 = \(9^3\), 68 은 \(\mu\)\((1+\epsilon)^{2/3}\) 전개에서 3차 이상 계수의 종합. 수치 자체는 외워둘 필요 없으나 부호가 음수(좌왜) 라는 사실이 중요 — \(Y\) 자체(우왜)와 반대 방향.

3.3 Ex 6.2 — Signed Deviance 근사

\(Y \log(Y/\mu) - (Y - \mu) \simeq \mu\!\left\{\tfrac{\epsilon^2}{2} - \tfrac{\epsilon^3}{6} + \tfrac{\epsilon^4}{12} - \cdots\right\}\)

반면:

\(\tfrac{9}{2} Y^{1/3}(\mu^{1/3} - Y^{1/3})^2 \simeq \mu\!\left\{\tfrac{\epsilon^2}{2} - \tfrac{\epsilon^3}{6} + \tfrac{2\epsilon^4}{27} - \tfrac{\epsilon^5}{27} + \cdots\right\}\)

두 근사의 첫 두 항이 같다 (\(\epsilon^2/2 - \epsilon^3/6\)). \(\epsilon^4\) 이상에서 분기.

3.4 결과 — 표준화 근사 공식

\[ 3 Y^{1/6}(Y^{1/3} - \mu^{1/3}) + \frac{\mu^{-1/2}}{6} \sim N(0, 1) + O_p(\mu^{-1}) \]

이것이 §6.1 에서 간단히 언급된 Signed deviance 변환의 정확한 정의. 뒤쪽 보정항 \(\mu^{-1/2}/6\)대칭성을 추가로 확보한다.

왜 이렇게 복잡한 변환을 쓰는가: Pearson \(X^2\)\(\chi^2\) 근사는 \(O(\mu^{-1/2})\), 이 변환은 \(O(\mu^{-1})\)\(\sqrt{\mu}\) 배 더 정확. 희소 데이터에서 큰 차이를 만든다. \(\mu = 5\) 정도의 작은 평균에서도 tail 확률이 소수점 4자리까지 일치.


4 주제 2 — 음이항 유도 (6.3)

4.1 감마-포아송 혼합

\(Y \mid Z \sim \text{Poisson}(Z)\) 이고 \(Z\) 가 감마 밀도

\[ f_Z(z; \mu, \phi) \, dz = \frac{(\phi z)^{\phi\mu}\, e^{-\phi z}}{\Gamma(\phi\mu)}\, d\log z \]

를 따른다고 하자. \(Z\) 의 분산은 \(\mu/\phi\) — 포아송과 유사한 “평균 = 분산 배수” 구조를 가진 사전분포.

4.2 주변 분포

\(Z\) 를 적분하면 \(Y\) 의 주변 분포가 다음 음이항:

\[ \Pr(Y = y;\, \mu, \phi) = \frac{\Gamma(y + \phi\mu)\, \phi^{\phi\mu}}{y!\, \Gamma(\phi\mu)\, (1 + \phi)^{y + \phi\mu}} \]

4.3 모멘트

\[ \mathrm{E}(Y) = \mu, \qquad \mathrm{Var}(Y) = \frac{\mu(1 + \phi)}{\phi} = \mu\!\left(1 + \frac{1}{\phi}\right) \]

\(\phi \to \infty\) 극한: \(\mathrm{Var}(Y) \to \mu\) — 순수 포아송으로 수렴. \(\phi \to 0\): 분산이 발산 — 극단적 과산포.

4.4 왜 이 유도가 §6.2.3 에서 중요한가

05-2 포스트에서 음이항을 소개했지만 감마 밀도의 구체 형태는 건너뛰었다. Exercise 6.3 이 이 공백을 채운다 — “\(\phi\mu\) 매개의 감마” 를 쓰면 \(\sigma^2 = 1 + 1/\phi\)\(\mu\) 에 무관한 상수가 되어 quasi-Poisson 의 “Var = \(\sigma^2\mu\)” 구조와 정합한다.

4.5 실무 권고

  • \(\phi\) 를 MLE 로 추정 → 음이항 회귀 (NB1)
  • \(\phi\) 를 비우고 \(\sigma^2 = X^2/\text{df}\) 로 추정 → quasi-Poisson
  • 두 방법의 \(\hat{\boldsymbol{\beta}}\)\(O_p(\phi^{-2})\) 로 동일

5 주제 3 — 결핵균 실데이터의 파라미터화 (6.4, 6.5)

5.1 Ex 6.4 — Volume 의 두 가지 표현

결핵균 검정 데이터(Table 6.1b)에 다음 모형을 적합.

\[ \text{site} + \text{class} + \text{volume} + \text{tuberculin} \]

선택 1 — Volume = 정량 변수 \(\{-1, 0, +1\}\) (half, single, double):

  • \(A\) (Standard double): \(\text{tuberculin} = 0\), \(\text{volume} = +1\)
  • \(B\) (Standard single): \(\text{tuberculin} = 0\), \(\text{volume} = 0\)
  • \(C\) (Weybridge single): \(\text{tuberculin} = 1\), \(\text{volume} = 0\)
  • \(D\) (Weybridge half): \(\text{tuberculin} = 1\), \(\text{volume} = -1\)

선택 2 — Volume = 2수준 factor (low/high):

  • low dose: half + single (B, D)
  • high dose: double + single (A, C)

5.2 놀라운 결과

두 파라미터화의 적합값은 완전히 동일. 그러나 tuberculin 대조의 의미가 다르다.

파라미터화 tuberculin 대조의 의미
정량 volume 같은 용량에서 Weybridge – Standard” — 두 제제의 동량 효과 차
2수준 volume “Weybridge 의 low-dose (half) – Standard 의 low-dose (single) = 서로 다른 용량 비교

선택 2 에서 tuberculin 대조가 0에 가깝게 나오는 이유: Weybridge half ≈ Standard single (상대 효능 2) 이므로 두 용량을 저용량 그룹으로 묶으면 처리 효과가 거의 상쇄된다.

5.3 교훈 — 교차 분류 해석의 함정

범주 그룹화가 효과 해석의 의미를 바꾼다. 같은 적합값·이탈도인데도 tuberculin: volume:1 계수가 완전히 다른 질문에 답한다.

실무 규칙: factor 수준의 정의와 어떤 대조(contrast) 가 연구 질문에 부합하는가를 먼저 결정한 뒤 파라미터화 선택.

5.4 Ex 6.5 — 제제별 용량 효과 동일성 검정

“용량 두 배의 효과가 Standard 와 Weybridge 에 같은가?” 가설. §6.3.1 말미의 F-검정 (volume × tuberculin 교호작용) 으로 접근.

\[ F_{1, 6} = \frac{(\text{deviance w/o interaction} - \text{deviance w/ interaction})/1}{\hat\sigma^2} \]

6 자유도의 \(F\) 로 비교 (\(\sigma^2\) 자유도가 라틴정방 잔차 7 - 1 = 6). p-value 가 크면 곱셈성 가정 유지.

직관: “두 제제가 같은 로그-반응 곡선을 같은 기울기로 공유하는가” 를 묻는 것. 이것이 relative potency 개념의 전제이다.


6 주제 4 — 이변량 로짓과 다변량 모형 대수 (6.6–6.11)

6.1 Ex 6.6 — \(\Delta\) 의 경계와 표현

§6.5.6 의 두 이항 반응 연관 척도 \(\Delta\) 에 대해:

\[ \Delta = \frac{S_3}{S_3 + \Delta_\pi^2} \]

여기서 \(S_3\)\(2 \times 2\) 확률의 대칭함수 (구체 표현은 교재), \(\Delta_\pi\) 는 적절히 정의된 확률 대조.

\(\Delta\) 의 경계:

  • \(0 \le \Delta \le 1\)
  • \(\Delta = 0\) iff \(A, B\) 독립

\(\Delta\)“0–1 정규화된 연관 측도” — 오즈비와 달리 유계. 독립성 가설 검정의 통계량으로 유용.

6.2 Ex 6.7 — 이변량 로짓 모형의 우도 방정식

이변량 반응 \((A, B)\) 에 대해:

\[ \eta_a(\mathbf{x}) = \boldsymbol{\beta}_a^\top \mathbf{x}_a, \quad \eta_b(\mathbf{x}) = \boldsymbol{\beta}_b^\top \mathbf{x}_b, \quad \eta_{ab}(\mathbf{x}) = \eta_{ab}. \]

즉 두 주변 로짓은 공변량에 회귀, 교호작용 \(\eta_{ab}\) 는 상수. \(\boldsymbol{\eta}\) 의 로그 우도 도함수 (6.21) 로부터 MLE 방정식은 매우 단순:

\[ y_{i.} = m \hat\pi_{i.}, \qquad y_{.j} = m \hat\pi_{.j}, \quad \text{for each bivariate response} \]

\[ \sum_{1}^{n} (y_{11} - m \hat\pi_{11}) = 0 \]

6.3 해석 — 무엇이 맞춰지는가

  • 행/열 주변: 각 이변량 관측에서 \(A, B\) 의 주변 빈도 정확히 맞춤
  • \((1,1)\) 셀 합: 모든 \(n\) 관측에서 \(y_{11}\) 합이 \(\hat\pi_{11}\) 합과 같음

즉 각 관측마다 2개 + 전체에서 1개의 방정식. 이는 로지스틱 주변 회귀가 “\(A \sim x\)” 와 “\(B \sim x\)” 를 독립으로 적합한 결과와 본질적으로 동일 한 이유이다 (§6.6.1 에서 본 3% 효율 차이의 근원).

6.4 Ex 6.8 — 다변량 로짓의 역변환 알고리즘

다변량 로짓 \(\boldsymbol{\eta} = \mathbf{C}\log(\mathbf{L}\boldsymbol{\pi})\) 의 역변환 \(\boldsymbol{\eta} \to \boldsymbol{\pi}\)세 단계로 분해:

  1. 지수화: \(\boldsymbol{\gamma} = \exp(\mathbf{C}^{-1}\boldsymbol{\eta})\) (로그 해제)
  2. 반복 비례 적합(IPF): \(\boldsymbol{\gamma}\) 의 주변 합 제약 만족
  3. 선형 변환 \(\mathbf{L}^{-1}\): 주변 확률 \(\boldsymbol{\gamma}\) 를 셀 확률 \(\boldsymbol{\pi}\)

Yates 알고리즘의 활용: \(\mathbf{L}\)직접 곱(direct product) 구조일 때 \(\mathbf{L}^{-1}\)순차적 factor-level 차분/합계로 계산. McCullagh (1987, p. 15) 의 책에 상세.

왜 이 알고리즘이 중요한가: 소프트웨어로 이변량 로짓 모형 적합 시 내부적 수치 계산에 정확히 이 3단계가 쓰인다. 직접 코딩하지는 않더라도 수렴 실패·수치 불안정의 원인을 이해할 때 유용.

6.5 Ex 6.10–6.11 — 다변량 로짓 변환의 중복성과 순서형 버전

6.10: (6.10) 의 \(\boldsymbol{\gamma} = \mathbf{L}\boldsymbol{\pi}\) 에서 “인덱스 중 1인 성분” 을 모두 제거하면 중복성 제거 — 완전 rank 표현.

6.11: \(A\) 명목형 3수준, \(B\) 순서형 4수준의 이변량 반응에 적합한 로짓 변환:

\[ \eta_{ai} = \log(\gamma_{i.}/\gamma_{3.}), \quad i = 1, 2 \quad (\text{명목 기준범주 로짓}) \]

\[ \eta_{bj} = \text{logit}\,\gamma_{.j}, \quad j = 1, 2, 3 \quad (\text{순서 비례오즈}) \]

\[ \eta_{abij} = \text{logit}(\gamma_{ij}/\gamma_{i.}) - \text{logit}(\gamma_{3j}/\gamma_{3.}) \]

핵심: 명목형에는 기준범주 로짓, 순서형에는 누적 로짓, 교호작용은 이 둘의 조합으로 자연스럽게 정의. 서로 다른 척도의 반응이 섞여 있을 때 각 주변 로짓이 해당 척도의 고유 형태를 취한다는 것이 규칙.


7 주제 5 — 실데이터 분석 실전

7.1 Ex 6.9 — Solomon 고교생 태도조사 (Table 6.10)

1957년 뉴저지 고교 졸업생 2982명의 네 과학 관련 명제 찬반 × I.Q. 그룹. 4 이항 반응 + 2 그룹 = \(2^4 \times 2\) 분할표.

분석 과제:

  1. 각 응답의 주변 분포가 I.Q. 그룹에 의존하는가? → 4개 독립 로지스틱 회귀
  2. 여섯 개 쌍의 오즈비가 두 그룹에서 다른가? → 이변량 로짓의 교호작용 검정
  3. 비기술적 요약 서술

핵심 모형: (Y1; Y2; Y3; Y4) : group; (Y1*Y2; ...) : group. 앞부분은 주변 로지스틱, 뒷부분은 오즈비의 그룹 차이.

기대되는 결과: 각 문항의 찬성률 자체는 I.Q. 에 약하게 의존할 수 있으나, 문항 간 연관 패턴 이 I.Q. 그룹별로 다른 것이 더 흥미로운 사회학적 발견. 예컨대 “과학자의 창의성” 과 “과학자 급여” 의 연관 강도가 고 I.Q. 에서 더 큰 경우 지능 수준에 따른 세계관의 일관성 차이로 해석 가능.

7.2 Ex 6.12–6.13 — APA 투표 데이터 (Diaconis, 1988)

1980년 미국 심리학회 회장 선거의 완전 순위 투표 5738장 (후보 5명). 각 투표가 120개 순위 중 하나.

분석 단계:

6.12: \(A, B, C, D, E\) 각각 5수준 factor (후보가 받은 순위).

  • 모형 1: intercept 만 (균일 가정)
  • 모형 \(A + B + C + D + E\): 후보별 평균 순위 효과 — rank 는? \(E\) 를 빼도 같은 이유는?

: 순위 합이 고정 (\(1+2+3+4+5 = 15\)) 이므로 한 factor 는 나머지에 의해 결정. 즉 rank \(= 1 + 5 \times 4 = 21\) 또는 더 적음. \(E\) 의 수준은 \(A,B,C,D\) 수준들로부터 결정되므로 모형에서 불필요.

선형·이차 대조: \(B_L = (-2,-1,0,1,2)\), \(B_Q = (2,-1,-2,-1,2)\). 모형 \(A_L + B_L + C_L + D_L + E_L\) 적합 후 \(A_L + B_L + C_L + D_L + E_L\) 합이 0인지 확인.

6.13: 이항 대조 정의. \(AB = 1\) iff 순위 \(\pi\) 에서 \(A\)\(B\) 보다 앞 (즉 더 높은 순위). 10쌍 (\(\binom{5}{2} = 10\)) 의 pairwise 대조.

모형 1 + AB + AC + AD + AE + BC + BD + BE + CD + CE + DE 의 rank 는?

: 각 대조는 이항이지만, 삼각 관계 \(AB \cdot BC = AC\) 등 제약이 있어 rank 는 \(1 + \binom{5}{2} - \text{dependent} = 1 + 10 - \ldots\) — 구체 계산 필요.

ABC 6수준 factor: 세 후보 상대 순위의 6 순열. Model matrix \(Z\) 에 대해

\[ \text{rank}(Z) = 1 + \binom{k}{2} + 2\binom{k}{3} \]

\(k = 5\) 에서 \(1 + 10 + 20 = 31\).

Babington-Smith / Mallows 모형: \(\text{rank}\) 가 더 높은 \(Z\) 모형이 순위 간의 트리플 교호작용 (세 후보가 어떤 순서로 배치되었는가)까지 포착. 후보 이름을 치환해도 모형은 불변(symmetry).

실무 의미: 설문·선거·평점 데이터에서 단순 “평균 순위” 이상의 정보 — 예컨대 “A 가 좋아하는 사람은 \(B\)\(C\) 보다 선호” 같은 상호 선호 패턴 을 탐지.

7.3 Ex 6.14–6.15 — 유전학: 눈색 유전과 “버틀러 효과”

6.14 — 랜덤 교배 가설: Table 4.10 에 부모 눈색(light/hazel/dark) × 자녀 눈색. 랜덤 교배 가정 = “부모 쌍이 인구 비율에 따라 무작위로 짝지어짐”.

로그선형 표현: \(\log \mu_{ij} = \alpha_i + \alpha_j\) (부모 눈색 주효과 + 상호 독립). 자녀 분포는 Mendel 유전학으로 제약.

가정:

  • 광학적 우성·열성 비율 \(1/4\) (양쪽 dark → 1/4 light 등)
  • 성별 눈색 분포 동일
  • 기록 오류 없음

이 제약 하에 인구의 light / hazel / dark 비율을 MLE 로 추정.

6.15 — 버틀러 효과: 자녀 중 일부가 표면상의 아버지와 생물학적 아버지가 다를 확률 \(\epsilon\) 를 추정.

가정 (4가지):

  1. 두 부모 모두 light면 자녀는 반드시 light
  2. 성별 간 눈색 분포 동일
  3. 버틀러 집단의 눈색 분포 = 표면상 아버지 집단 분포
  4. 기록 오류 없음

1을 이용하면 “두 부모 모두 light” 셀에서 자녀가 non-light 인 비율 → \(\epsilon\) 직접 추정.

추가 가정 (a), (b): 부모 조합 dark-dark 의 자녀가 light 일 확률 1/4, light-dark 의 자녀가 light 일 확률 1/2 → 여러 셀에서 \(\epsilon\) 정보를 결합해 정밀도 향상.

역사적 위트: 빅토리아 시대 상류층의 “버틀러 효과” 는 실제 데이터로 추정 가능한 현상이었고, 이는 현대 신원 확인 검정 (DNA paternity testing) 의 통계적 전사(前史) 로 볼 수 있다.

7.4 Ex 6.16 — Bortkewitsch 의 말발굽 사망 (1898)

데이터: 1875–1894 (20년) × 14개 프러시아 군단 = \(r \times c = 20 \times 14 = 280\) 셀. 각 셀에 군단-연도별 말발굽으로 인한 사망자 수. 총계 \(N = \sum s_i = \sum t_j\).

포아송 독립성 모형 corps + year 적합. 이 모형이 참이면 “모든 군단이 같은 시간 위험률” 과 “시간이 군단에 무관” 을 의미.

적합도 문제 — 희소 데이터: 전형적 셀 평균 \(\hat\mu_{ij}\) 가 0에 가까운 셀이 많다. \(\chi^2_{(r-1)(c-1)}\) 근사가 엄청나게 부정확 할 수 있다.

Haldane-Dawson 공식 (정확한 \(E, \text{Var}(X^2)\)):

\[ \mathrm{E}(X^2) = \frac{(r-1)(c-1)N}{N-1} \]

\[ \mathrm{Var}(X^2) = \frac{2N(\nu-\sigma)(\mu-\tau)}{N-3} + \frac{N^2 \sigma\tau}{N-1} \]

여기서

\[ \nu = \frac{(N-r)(r-1)}{N-1}, \quad \sigma = \frac{N\{\sum_i s_i^{-1} - r^2/N\}}{N-2}, \]

\[ \mu = \frac{(N-c)(c-1)}{N-1}, \quad \tau = \frac{N\{\sum_j t_j^{-1} - c^2/N\}}{N-2} \]

수치 결과: 말발굽 데이터에서 \(\mathrm{E}(X^2) = 248.27\), \(\mathrm{Var}(X^2) = 419.81\).

대비 — 표준 \(\chi^2\) 근사: \(\chi^2_{(r-1)(c-1)} = \chi^2_{247}\) 의 분산은 \(2 \times 247 = 494\). 실제는 \(419.81\) 로 약 15% 작다. 즉 표준 근사는 희소 데이터에서 분산을 과대평가 하고, 검정은 보수적 방향으로 편향.

결과 해석: 관측된 \(X^2\) 값을 올바른 분산으로 표준화하면 (Haldane-Dawson 기반 z-value), 독립성이 기각되는지 재평가 가능. 정확히 0이 되는 셀을 가진 희소 분할표에서의 정확 추론의 대표적 예.

역사적 의의: Bortkewitsch (1898) 의 데이터는 포아송 분포의 발견의 계기가 된 바로 그 데이터. “희귀 사건의 수” 가 포아송으로 설명된다는 사실을 보여주는 고전이지만, 독립성까지 엄격히 검정하면 미묘한 시점·군단 효과가 남아있다는 것이 Quine–Seneta (1987), Preece-Ross-Kirby (1988) 의 발견.


8 코드 예시

8.1 Step 1: 포아송 변환의 왜도 수렴 비교

import numpy as np

rng = np.random.default_rng(0)
mus = [1, 2, 5, 10, 50, 100]

print(f"{'mu':>5} {'skew(Y)':>10} {'skew(Y^.5)':>12} {'skew(Y^2/3)':>14}")
for mu in mus:
    Y = rng.poisson(mu, size=200_000)
    def skew(x):
        x = x.astype(float)
        m = x.mean()
        return ((x - m)**3).mean() / x.std()**3
    print(f"{mu:>5} {skew(Y):>10.3f} {skew(np.sqrt(Y)):>12.3f} {skew(Y**(2/3)):>14.3f}")

예상: \(Y\) 의 왜도 ∝ \(\mu^{-1/2}\), \(\sqrt{Y}\) 비슷, \(Y^{2/3}\) 이 훨씬 빠르게 0 접근.

8.2 Step 2: Signed Deviance tail 확률 정확도

import numpy as np
from scipy.stats import poisson, norm

def g_signed_deviance(y, mu):
    if y == 0:
        return -np.sqrt(2*mu) + mu**(-0.5) / 6
    return 3 * y**(1/6) * (y**(1/3) - mu**(1/3)) + mu**(-0.5) / 6

mu = 5.0
print(f"{'y':>3} {'exact P(Y>=y)':>14} {'signed-dev approx':>18} {'sqrt approx':>14}")
for y in range(7, 14):
    exact = poisson.sf(y - 1, mu)
    sd = 1 - norm.cdf(g_signed_deviance(y - 0.5, mu))
    sqrt_approx = 1 - norm.cdf((np.sqrt(y - 0.5) - np.sqrt(mu)) * 2)
    print(f"{y:>3} {exact:>14.4f} {sd:>18.4f} {sqrt_approx:>14.4f}")

signed-deviance 근사가 제곱근 근사보다 정확하고 \(\mu = 5\) 에서도 소수점 3자리 일치함을 확인.

8.3 Step 3: 말발굽 데이터 Haldane-Dawson 분산

import numpy as np

# 가상의 말발굽 표 (실제 데이터는 Andrews-Herzberg 1985)
rng = np.random.default_rng(1)
r, c = 20, 14
# 대략적 모방: 행 합 평균 15, 열 합 평균 21
tab = rng.poisson(lam=0.8, size=(r, c))
N = tab.sum()
s = tab.sum(axis=1)   # row totals
t = tab.sum(axis=0)   # col totals

expected = np.outer(s, t) / N
# Pearson X^2
mask = expected > 0
X2 = np.sum((tab[mask] - expected[mask])**2 / expected[mask])

# Haldane-Dawson
nu    = (N - r) * (r - 1) / (N - 1)
mu_hd = (N - c) * (c - 1) / (N - 1)
sigma = N * (np.sum(1 / s) - r**2 / N) / (N - 2)
tau   = N * (np.sum(1 / t) - c**2 / N) / (N - 2)

E_X2 = (r - 1) * (c - 1) * N / (N - 1)
V_X2 = 2 * N * (nu - sigma) * (mu_hd - tau) / (N - 3) + N**2 * sigma * tau / (N - 1)
V_chi2 = 2 * (r - 1) * (c - 1)

print(f"N = {N}")
print(f"X^2 관측            = {X2:.2f}")
print(f"E(X^2) Haldane       = {E_X2:.2f}")
print(f"Var(X^2) Haldane     = {V_X2:.2f}")
print(f"Var(chi^2) 표준근사 = {V_chi2:.2f}")
print(f"표준 근사 과대평가 비율 = {V_chi2 / V_X2:.3f}")

# 올바른 표준화로 z 근사
z = (X2 - E_X2) / np.sqrt(V_X2)
print(f"Haldane z = {z:.2f}")

9 자주 걸리는 함정

함정 증상 처방
\(\sqrt{Y}\)\(Y^{2/3}\) 의 목적 혼동 분산 안정화 대신 대칭화 쓰거나 반대 필요 목적에 맞춰 선택
음이항 \(\phi\) 와 quasi \(\sigma^2\) 혼동 수치적 차이에 과도한 의미 부여 \(\sigma^2 = 1 + 1/\phi\) 관계 기억
volume 파라미터화 차이 무시 tuberculin 대조가 예상과 다름 대조의 의미 먼저 명확화
다변량 로짓 역변환 직접 시도 수치 불안정 IPF + Yates 알고리즘 활용
APA 순위 데이터에 독립 모형만 rank 제약 놓침 대조로 재구성, Mallows/Babington-Smith 고려
버틀러 효과 추정에 가정 생략 식별 불가능 명시된 네 가정 모두 확인
희소 분할표에 표준 \(\chi^2\) 보수적 편향 Haldane-Dawson 분산 사용
Bortkewitsch 데이터 = “포아송 완전 성립” 으로 단순화 독립성 미묘한 위반 놓침 정확 공식으로 재검정

10 관련 주제

선행 지식

관련 개념

후속 주제


11 참고문헌

  • McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.7–§6.8. Chapman & Hall.
  • Anscombe, F. J. (1953). Contribution to the discussion of H. Hotelling’s paper. JRSS B, 15, 229–230.
  • Darroch, J. N., Lauritzen, S. L., & Speed, T. P. (1980). Markov fields and log-linear interaction models. Annals of Statistics, 8, 522–539.
  • Cox, D. R. (1972b). The analysis of multivariate binary data. Appl. Stat., 21, 113–120.
  • Dale, J. R. (1986). Global cross-ratio models for bivariate discrete ordered responses. Biometrics, 42, 909–917.
  • Solomon, H. (1961). Studies in Item Analysis and Prediction. Stanford UP.
  • Diaconis, P. (1988). Group Representations in Probability and Statistics. IMS Lecture Notes.
  • Mallows, C. L. (1957). Non-null ranking models, I. Biometrika, 44, 114–130.
  • Babington-Smith, B. (1950). Discussion of Professor Ross’s paper. JRSS B, 12, 153–162.
  • Haldane, J. B. S. (1939). The mean and variance of \(\chi^2\) when used as a test of homogeneity. Biometrika, 31, 346–355.
  • Dawson, R. B. (1954). A simplified expression for the variance of the \(\chi^2\)-function on a contingency table. Biometrika, 41, 280.
  • Quine, M. P. & Seneta, E. (1987). Bortkiewicz’s data and the law of small numbers. International Statistical Review, 55, 173–181.
  • Preece, D. A., Ross, G. J. S., & Kirby, S. P. J. (1988). Bortkewitsch’s horse-kicks and the generalised linear model. The Statistician, 37, 313–318.
  • McCullagh, P. (1987). Tensor Methods in Statistics. Chapman & Hall.

Subscribe

Enjoy this blog? Get notified of new posts by email: