Kwangmin Kim - Log-linear Models

1 왜 로그선형 모형인가 — 카운트의 자리

Ch.4 (이항) 와 Ch.5 (다항) 는 비율(proportion) 데이터 를 다뤘다. 표본 크기 \(m\) 이 고정된 상태에서 범주 간 분포를 모형화했다. 그러나 실무의 많은 데이터는 그런 상한이 없다.

라디오아이소토프 계수기에서 초당 검출된 입자 수
하루 동안 발생한 사고 건수
특정 기간 동안 한 선박에 일어난 손상 횟수
특정 지역에서 한 해 동안 보고된 질병 건수
한 텍스트에서 특정 단어의 출현 횟수

이런 데이터의 공통점은 “얼마나 많이 일어났는가” — 표본 크기가 사전에 정해지지 않은 카운트 \(Y \in \{0, 1, 2, \ldots\}\) 이다. 이런 데이터의 자연스러운 분포는 포아송(Poisson) 이며, 로그선형 모형은 포아송 평균 \(\mu = \mathrm{E}(Y)\) 를 공변량의 곱셈적 함수로 표현한다.

Ch.6 의 핵심 주장

모든 로그선형 모형은 단 하나의 수식을 공유한다.

\[ \log \mu_i = \boldsymbol{\beta}^\top \mathbf{x}_i \]

“다양성”은 디자인 행렬 \(\mathbf{X}\) 의 형태에서만 온다 — ANOVA, 회귀, 분할표 독립성 검정은 모두 이 식의 특수 사례이다. Ch.6 는 나아가 로그선형 모형이 다항 반응 모형 (Ch.4, 5) 의 쌍대(dual) 라는 놀라운 사실을 보인다.

2 §6.1 의 네 가지 핵심 메시지

교재의 §6.1 은 짧지만 Ch.6 전체의 설계 원칙을 담고 있다. 네 가지 메시지로 정리할 수 있다.

분포 가정은 이상화(idealization) — 실제 포아송은 드물다
평균 모형(식 6.2)이 분산 모형(식 6.1)보다 중요
모든 변이는 \(\mathbf{X}\) 에서 — ANOVA·회귀와의 통일
다항과의 동치성(§6.4) — Ch.5 와 쌍대 관계

하나씩 자세히 본다.

3 메시지 1 — 포아송은 “이상화”이지 관측 사실이 아니다

3.1 이상적 포아송 조건

다음 세 조건이 동시에 성립할 때 관측 카운트는 정확한 포아송이 된다.

독립성: 서로 다른 사건의 발생이 영향을 주지 않음
정상성(stationarity): 단위 시간당 발생률 \(\lambda\) 가 일정
배타성: 한 순간에 두 사건이 동시에 일어나지 않음

3.2 현실에서의 이탈

위 세 조건은 실제로 자주 깨진다.

라디오아이소토프 Geiger 계수기의 “dead-time”:

각 입자가 도착한 뒤 \(\tau\) 초 동안 장치가 복구되지 않아 추가 입자를 기록하지 못한다. 방사성 붕괴 속도가 높으면 관측 카운트가 실제 발생보다 체계적으로 적다. 특히 분산이 포아송 예측보다 작아지는 과소산포가 나타난다.

동물 행동 관찰의 “spurts/clusters”:

영장류·새·곤충 등이 사건을 한꺼번에 몰아서 일으킨다. “놀라서 같이 뛰는” 종류. 결과적으로 단위 시간당 관측 수의 분산이 포아송 예측보다 크다 — 전형적 과산포.

선박 손상 데이터의 “inter-ship variability”:

같은 종류의 배라도 관리 상태·항로·날씨 노출이 다르다. 각 배의 “실제 사고 발생률”이 평균 주변에 흩어져 있다 → 총합 분산이 부풀려짐.

3.3 결과 — 식 (6.1)

McCullagh 는 실무 기본 가정으로 포아송이 아닌 quasi-Poisson 을 제안한다.

\[ \mathrm{Var}(Y_i) = \sigma^2 \, \mathrm{E}(Y_i) \tag{6.1} \]

\(\sigma^2 = 1\): 순수 포아송 (특수 사례)
\(\sigma^2 > 1\): 과산포 (가장 흔함)
\(\sigma^2 < 1\): 과소산포 (dead-time 등, 드묾)

직관: “카운트가 증가하면 분산도 증가한다” 는 포아송 핵심 구조(평균 = 분산) 를 유지하되, 그 배수를 유연하게 허용. 이항의 \(\mathrm{Var}(Y) = \sigma^2 m\pi(1-\pi)\) (§4.5) 와 정확히 같은 철학.

왜 \(\mathrm{Var}(Y) = \sigma^2 \mu\) 이고 \(\sigma^2 \mu^2\) 이 아닌가: 분산이 평균에 선형 이어야 포아송의 가법성(합친 데이터의 분산도 가법적)이 유지되고, 군집이 “각 군집 내부는 포아송, 군집 간 이질성은 추가 분산” 구조로 깔끔하게 분해되기 때문. 음이항(negative binomial) 은 \(\mathrm{Var}(Y) = \mu + \alpha\mu^2\) 처럼 이차 분산인데, 이는 더 엄격한 혼합 모형이며 quasi 접근보다 분포 가정이 강하다.

4 메시지 2 — 평균 모형이 분산 모형보다 중요

4.1 식 (6.2) — 로그선형 평균

\[ \log \mu_i = \eta_i = \boldsymbol{\beta}^\top \mathbf{x}_i, \quad i = 1, \ldots, n. \tag{6.2} \]

“log-linear”이라는 이름의 의미: 평균의 로그 가 공변량의 선형 조합.

4.2 왜 로그 링크인가 — 세 가지 이유

이유 1 — 도메인 맞춤: \(\mu > 0\) 을 보장. 선형 예측자 \(\boldsymbol{\beta}^\top \mathbf{x}\) 는 실수 전체를 취할 수 있지만, \(\exp(\cdot)\) 로 감싸면 자동으로 양수.

이유 2 — 포아송의 정준 링크(canonical link):

\[ f(y; \mu) = \exp\{y \log \mu - \mu - \log y!\} \]

의 자연 모수(natural parameter) 가 \(\theta = \log \mu\). 정준 링크를 쓰면 관측 정보 = 기대 정보, IRLS 가 뉴턴-라프슨과 같아져 계산이 단순해진다.

이유 3 — 해석의 곱셈성:

\[ \mu = \exp(\boldsymbol{\beta}^\top \mathbf{x}) = e^{\beta_0} \cdot e^{\beta_1 x_1} \cdot e^{\beta_2 x_2} \cdots \]

공변량 \(x_j\) 가 한 단위 증가하면 \(\mu\) 가 \(e^{\beta_j}\) 배로 곱해진다 — 덧셈이 아니라 곱셈. 이것은 “효과가 기준 수준에 비례한다” 는 관계를 자연스럽게 표현한다.

예시 — 사고 건수: 운행 거리 두 배 → 사고 두 배가 자연 (선형이 아니라 곱셈). 선량 두 배 → 질병 위험 두 배도 곱셈적. 교통사고·질병 발생·재고 관리 등 많은 실무 모형에서 덧셈보다 곱셈이 더 “실재적”이다.

4.3 분산보다 평균이 중요한 이유

McCullagh 의 관찰: “식 (6.2) 의 선택이 식 (6.1) 의 선택보다 더 결정적”.

왜 그런가:

평균 모형이 틀리면 점추정 \(\hat{\boldsymbol{\beta}}\) 이 편향 — 답 자체가 틀림
분산 모형이 틀리면 표준오차만 편향 — 답은 맞고 불확실성만 잘못 보고됨

과산포는 quasi-likelihood 로 자동 보정 할 수 있지만 (§5.5 에서 본 것처럼), 링크 함수·공변량 누락으로 인한 평균 오지정은 모형을 다시 설계해야 한다.

실무 원칙

로그선형 모형 적합 시 점검 순서:

공변량 포함 여부 먼저 확인 (전문 지식·사전 그래프)
로그 링크 적절성 확인 (잔차 vs 적합값 플롯)
분산 구조 (과산포) 는 마지막 — 보통 scale factor 보정으로 충분

5 메시지 3 — 모든 변이는 \(\mathbf{X}\) 에서

5.1 “다양한 로그선형 모형”의 본질

Ch.6 에 나오는 모든 모형 — 이원 분할표 독립성, 조건부 독립성, 균질적 연관, 정준상관, 다변량 회귀 — 은 식 (6.2) 의 특수 사례 이다. \(\boldsymbol{\beta}\) 의 차원도 \(\mathbf{X}\) 의 열 개수도 용도에 따라 다르지만, 수학적 기계는 동일 하다.

이것은 정규 선형 모형(Ch.3) 에서 ANOVA·회귀·공분산분석이 “같은 \(\mathbf{X}\boldsymbol{\beta}\) 구조, 다른 디자인 행렬” 로 통일되는 것과 정확히 같은 상황이다.

5.2 분할표 예시

2원 분할표 \(n \times k\) 에 대해:

모형	로그선형 식	디자인 행렬 \(\mathbf{X}\)
독립성	\(\log \mu_{ij} = \alpha_i + \beta_j\)	row + column (교호작용 없음)
포화	\(\log \mu_{ij} = \alpha_i + \beta_j + \gamma_{ij}\)	row + column + interaction
점수 기반	\(\log \mu_{ij} = \alpha_i + \beta_j + \lambda r_i s_j\)	Birch linear×linear

3원 분할표 에 가면 다음과 같은 독립성 구조들이 추가로 등장한다.

완전 독립성: 세 요인 모두 교호작용 없음
결합 독립성: 두 요인이 함께 세 번째와 독립
조건부 독립성: 한 요인을 조건으로 다른 두 요인이 독립
균질적 연관(homogeneous association): 교호작용 있으나 층별로 동일

이 구조들은 전부 디자인 행렬의 선택 으로 정의된다. 독립성 검정이 곧 특정 \(\mathbf{X}\) 를 쓴 로그선형 모형의 적합도 검정이 된다.

5.3 왜 이 통일이 중요한가

Stein 의 원리의 변형: “다양한 검정들이 같은 기계의 특수 사례” 라는 관점은 해석·계산·진단을 통일한다. 전통적 통계 교재는 분할표 분석·카이제곱·회귀를 따로 가르치지만, 로그선형 관점은 이들을 단일 GLM 프레임워크 로 묶어 소프트웨어 하나 (glm(..., family=poisson)) 로 전부 적합할 수 있다.

6 메시지 4 — 다항과의 쌍대성 (§6.4 예고)

6.1 핵심 정리

\(k\) 개 독립 포아송 \(Y_j \sim \text{Poisson}(\mu_j)\) 의 총합 \(Y_\bullet = \sum_j Y_j\) 를 조건으로 고정하면, 조건부 분포가 정확히 다항이 된다.

\[ (Y_1, \ldots, Y_k) \mid Y_\bullet = m \;\sim\; \text{Mult}(m, \boldsymbol{\pi}), \qquad \pi_j = \mu_j / \mu_\bullet. \]

이 사실은 §5.3.1 에서 이미 만났지만, Ch.6 에서는 그 역방향 — 로그선형과 다항 반응 모형이 수학적으로 같은 내용을 다른 관점에서 기술 — 이 자세히 전개된다.

6.2 왜 이것이 “놀라운” 동치인가

관점	무엇이 랜덤인가	무엇이 고정인가	어떤 모형
포아송(Ch.6)	각 셀 \(Y_j\) 독립	아무것도 고정 안 함	로그선형
다항(Ch.5)	셀 간 상대 빈도	총합 \(m\) 고정	기준범주 로짓 등

두 관점은 “같은 데이터에 대한 다른 스토리”이지만, 모수 추정값과 적합도 통계량이 수치적으로 같다 (행 합을 조건화한 뒤). 즉

로그선형 Poisson(count ~ row + col + row:col) 로 적합
다항 Multinomial(cell ~ row) 로 적합

두 접근이 정확히 같은 \(\hat{\boldsymbol{\beta}}\) 과 SE를 준다.

6.3 실무적 함의

계산 편의: 다항 우도는 제약 (\(\sum_j \pi_j = 1\)) 을 다루어야 해서 IRLS 구현이 번거로움. 포아송 우도는 제약 없는 실수 전체에서 최적화 가능 → 실무 소프트웨어 대부분이 로그선형으로 구현
해석 선택: 과학적으로 “총합이 자연스러운가” 로 판단. 여론조사(표본 1000명 고정) → 다항, 사고 건수(상한 없음) → 포아송
모형 확장 용이성: 로그선형은 세 요인 이상 분할표, 희소 테이블, 균질 연관 등으로 쉽게 확장. 다항 표현에서는 이런 확장이 번거로움

6.4 이 쌍대성이 Ch.6 의 진짜 주제

“로그선형 모형은 포아송에서 시작하지만, 결국 분할표 분석의 통일 언어로 자리 잡는다.”

7 정의 — 로그선형 모형

정의: 로그선형 모형 (Log-linear Model)

독립 관측 \(Y_1, \ldots, Y_n\) 에 대해, 평균 \(\mu_i = \mathrm{E}(Y_i)\) 와 공변량 벡터 \(\mathbf{x}_i\) 사이에 다음 관계가 성립하는 모형을 로그선형 모형 이라 한다.

\[ \log \mu_i = \boldsymbol{\beta}^\top \mathbf{x}_i \]

분포 가정은 두 종류이다.

순수 포아송: \(Y_i \sim \text{Poisson}(\mu_i)\), 평균 = 분산
Quasi-Poisson: \(\mathrm{E}(Y_i) = \mu_i\), \(\mathrm{Var}(Y_i) = \sigma^2 \mu_i\)

링크는 \(\log(\cdot)\) (정준 링크). 선형 예측자 \(\eta = \boldsymbol{\beta}^\top \mathbf{x}\) 는 실수 전체를 자유롭게 움직일 수 있고, \(\mu = \exp(\eta)\) 로 양수 제약이 자동 보장된다.

이항·다항·포아송 비교:

분포	반응 유형	표본공간	상한	정준 링크
이항	성공/실패 비율	\(\{0, 1, \ldots, m\}\)	\(m\) 고정	logit
다항	\(k\) 범주 분포	\(k-1\) 차원 단체	\(m\) 고정	기준범주 로짓
포아송	카운트	\(\{0, 1, 2, \ldots\}\)	없음	log

8 포아송 분포 — 간단한 요약

8.1 확률질량함수와 모멘트

\[ \Pr(Y = y) = \frac{e^{-\mu}\mu^y}{y!}, \quad y = 0, 1, 2, \ldots \]

누적생성함수 \(K_Y(t) = \mu(e^t - 1)\). 여기서 모든 누적률을 \(t\) 로 미분해 \(t = 0\) 에서 평가하면

\[ \kappa_r = \mu \quad \text{for all } r \ge 1. \]

즉 평균·분산·왜도·첨도 모두 \(\mu\). 이것이 포아송의 가장 특징적인 성질.

8.2 왜 “분산 = 평균” 인가

직관: 작은 구간마다 사건이 일어날 확률 \(p\) 가 작고 시행 횟수 \(n\) 이 커지면서 \(np = \mu\) 를 유지하는 이항 극한이 포아송. 이때 \(np(1-p) \to np = \mu\) 로 분산이 평균과 같아진다.

결과: 실제 데이터에서 분산 > 평균 이면 포아송을 의심. 분산/평균 비율이 과산포 탐지의 첫 신호이다.

8.3 정규 근사

\(\mu \to \infty\) 일 때

\[ \frac{Y - \mu}{\sqrt{\mu}} \xrightarrow{d} N(0, 1). \]

실용적 임계값: \(\mu \ge 5\) 정도면 이산-정규 근사가 꽤 괜찮고, \(\mu \ge 20\) 이면 거의 완벽. \(\mu < 5\) 에서는 왜도가 \(1/\sqrt{\mu}\) 로 커서 정규 근사가 나쁘다.

8.4 분산 안정화·대칭화 변환

분산 안정화: \(\sqrt{Y}\) 의 분산이 \(\mu\) 에 무관하게 \(\approx 1/4\). 분산이 일정해야 하는 분석(예: 잔차 플롯의 시각 진단) 에 유용.

대칭화(Anscombe, 1953): \(Y^{2/3}\) 의 표준화 왜도가 \(O(\mu^{-3/2})\). 정규 근사가 \(Y\) 나 \(\sqrt{Y}\) 보다 훨씬 빠르게 수렴.

신호편차(signed deviance) 근사 — McCullagh 의 자체 개선:

\[ g(Y) = \begin{cases} 3Y^{1/2} - 3Y^{1/6}\mu^{1/3} + \mu^{-1/2}/6, & Y \ne 0 \\ -(2\mu)^{1/2} + \mu^{-1/2}/6, & Y = 0 \end{cases} \]

가 분산 안정화와 대칭화를 동시에 달성. \(\mu = 5\) 에서도 tail 확률을 소수점 4자리까지 정확히 재현할 정도로 근사가 좋다 (교재 Table 6.?).

실무 함의: 이 변환 하나로 포아송 tail 확률을 정규 tail 로 근사 할 수 있어, 계산이 빡빡한 경우에도 \(\Phi^{-1}\) 만으로 p-value 를 구할 수 있다.

9 Ch.6 전체 로드맵

§6.1 이후 교재는 다음 순서로 전개된다.

절	내용	핵심 주제
§6.2	Likelihood functions	포아송 우도·IRLS·과산포·점근이론
§6.3	Examples	선박 사고, Byssinosis, 구강 건강 등
§6.4	Multinomial response models	Ch.5 와의 쌍대성 상세
§6.5	Multiple responses	다반응·정준상관·다변량 회귀
§6.6	Example: a three-dimensional table	사회이동 데이터
§6.7	Bibliographic notes
§6.8	Further results and exercises

이 중 §6.4 가 Ch.5 와 연결되는 부분이며, §6.5 는 다변량 반응으로 확장된다.

10 응용 — 어디서 쓰는가

분야	반응	전형적 공변량	모형 포인트
역학	인구당 질병 발생 건수	연령·성별·환경노출	offset \(\log(\text{인구})\) 포함
보험	청구 건수	운전자·차량·지역	노출기간 offset
생태학	샘플링 구역의 동물 수	서식지·계절	과산포 보정 빈번
자연어처리	문서 내 단어 빈도	토픽·문서 길이	TF·IDF 의 확률적 기반
사회과학	분할표 셀 카운트	교육·직업·세대	독립성·균질 연관 검정
이벤트 스트림	시간 구간 내 사건 수	시간·처리효과	재발 사건 모형
스포츠 통계	골·안타·삼진 수	팀·상대·환경	quasi-Poisson 보편

offset 의 중요성: 노출 단위가 다르면 (\(\log \mu = \boldsymbol{\beta}^\top \mathbf{x} + \log(\text{노출})\)) offset 을 넣어 “rate” 모형으로 전환한다. 이것은 로그선형 모형의 가장 실무적 확장.

11 코드 예시

11.1 Step 1: 순수 Python — 포아송 우도와 정규 근사

import numpy as np
from scipy.stats import poisson, norm
from scipy.optimize import minimize

# 간단한 시뮬: y ~ Poisson(exp(0.5 + 0.3x))
rng = np.random.default_rng(0)
n = 300
x = rng.normal(size=n)
eta_true = 0.5 + 0.3 * x
y = rng.poisson(np.exp(eta_true))


def neg_loglik(beta, x, y):
    eta = beta[0] + beta[1] * x
    mu = np.exp(eta)
    # poisson log-pmf (상수 제외)
    return -np.sum(y * eta - mu)


res = minimize(neg_loglik, x0=[0.0, 0.0], args=(x, y), method="BFGS")
print(f"beta_hat = {res.x.round(3)}  (true = [0.5, 0.3])")

# 정보행렬로 SE
# I = sum(mu * x_i x_i^T)
X = np.column_stack([np.ones(n), x])
mu_hat = np.exp(X @ res.x)
I = X.T @ np.diag(mu_hat) @ X
se = np.sqrt(np.diag(np.linalg.inv(I)))
print(f"SE       = {se.round(3)}")

# 과산포 진단
pearson = np.sum((y - mu_hat)**2 / mu_hat)
sigma2_hat = pearson / (n - 2)
print(f"sigma^2_hat = {sigma2_hat:.3f}   (1에 가까우면 포아송 OK)")

11.2 Step 2: statsmodels / R — 실무 적합

import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf

df = pd.DataFrame({"x": x, "y": y})

# 포아송 GLM
fit = smf.glm("y ~ x", data=df, family=sm.families.Poisson()).fit()
print(fit.summary().tables[1])
print(f"Deviance = {fit.deviance:.2f} on {int(fit.df_resid)} df")

# Quasi-Poisson (scale 자동 추정) — scale 파라미터만 자동으로 계산
fit_q = smf.glm("y ~ x", data=df, family=sm.families.Poisson()).fit(scale="X2")
print(f"\nScale factor = {fit_q.scale:.3f}")
print(f"SE 비율 (quasi / pois) = {(fit_q.bse / fit.bse).round(3).values}")

R 대응:

# 포아송
fit <- glm(y ~ x, data = df, family = poisson())
summary(fit)

# Quasi-Poisson
fit_q <- glm(y ~ x, data = df, family = quasipoisson())
summary(fit_q)  # Dispersion parameter 자동 보고

# Offset 사용 (인구당 질병 발생)
fit_rate <- glm(cases ~ x + offset(log(pop)), data = df, family = poisson())

11.3 Step 3: 포아송 ↔︎ 다항 동치성 수치 확인

import numpy as np
import statsmodels.api as sm

# 2x3 분할표
counts = np.array([
    [30, 20, 10],  # row 1
    [15, 25, 20],  # row 2
])

# (A) 로그선형 Poisson — 각 셀을 독립 포아송으로
rows, cols = counts.shape
y_flat = counts.ravel()
row_idx = np.repeat(np.arange(rows), cols)
col_idx = np.tile(np.arange(cols), rows)

X = np.column_stack([
    np.ones(len(y_flat)),
    (row_idx == 1).astype(float),
    (col_idx == 1).astype(float),
    (col_idx == 2).astype(float),
])
fit_pois = sm.GLM(y_flat, X, family=sm.families.Poisson()).fit()
print("=== 로그선형 (독립성 가정) ===")
print(f"Deviance = {fit_pois.deviance:.3f}")
print(f"p-value = {1 - sm.stats.chi2.cdf(fit_pois.deviance, df=2):.4f}")

# (B) 같은 데이터를 다항으로 — 행별 다항(총합 고정)
# 다항 독립성 검정의 카이제곱이 (A) 의 이탈도와 수치적으로 가까워야
from scipy.stats import chi2_contingency
chi2, p, dof, exp = chi2_contingency(counts)
print(f"\n=== Pearson Chi-square (다항 관점) ===")
print(f"X^2 = {chi2:.3f}, df = {dof}, p = {p:.4f}")

# 비교: LR 이탈도 = sum(2*o*log(o/e))  (포아송 관점)
lr = 2 * np.sum(counts * np.log(counts / exp))
print(f"LR 이탈도 = {lr:.3f}  (포아송 GLM 결과와 일치)")

관찰: 포아송 GLM 의 이탈도와 다항 관점의 LR 통계량이 정확히 같은 값을 준다. 이것이 §6.4 쌍대성의 수치적 확인.

12 자주 걸리는 함정

함정	증상	처방
\(\mu = 0\) 예측에 \(\log \mu\) 적용	`RuntimeWarning: log(0)`	시작값·offset·regularization 점검
과산포 무시	p-value·CI 과신	\(X^2/\text{df}\) 로 scale 확인
노출이 다른데 offset 생략	계수에 노출 효과가 혼입	`log(exposure)` offset 필수
과산포 심해서 음이항으로 직행	모형 복잡도 증가, 적합 불안	먼저 quasi-Poisson → 필요시 NB
분할표에 naive 카이제곱만 사용	세 요인 이상에서 구조 놓침	로그선형으로 조건부 독립성 검정
희소 분할표에 이탈도 절댓값	\(\chi^2\) 근사 나쁨	\(X^2/\text{df}\) 또는 정확 검정
포아송 ↔︎ 다항 변환 후 같은 SE 기대	조건화 파라미터 차이 혼동	절대 빈도 \(\beta\) vs 비율 \(\beta\) 구분
잔차 편차(deviance residual) 와 Pearson 잔차 혼용	대칭성 차이로 혼란	Anscombe/signed deviance 변환 사용

13 관련 주제

선행 지식

후속 주제 (§6.2~§6.8 placeholder)

관련 개념

Quasi-likelihood (Ch.9)
Conditional Likelihoods (Ch.7) — 포아송 조건부 → 다항 유도
음이항 분포와 과산포
Offset 모형과 Rate 회귀
분할표 분석의 역사 — Pearson·Fisher·Yates

14 참고문헌

McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.1. Chapman & Hall.
Anscombe, F. J. (1953). Contribution to the discussion of H. Hotelling’s paper. JRSS B, 15, 229–230.
Bishop, Y. M. M., Fienberg, S. E., & Holland, P. W. (1975). Discrete Multivariate Analysis. MIT Press.
Haberman, S. J. (1978, 1979). Analysis of Qualitative Data, Vols. 1–2. Academic Press.
Fienberg, S. E. (1980). The Analysis of Cross-Classified Categorical Data (2nd ed.). MIT Press.
Cameron, A. C. & Trivedi, P. K. (2013). Regression Analysis of Count Data (2nd ed.). Cambridge.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.9–10. Wiley.