1 왜 로그선형 모형인가 — 카운트의 자리
Ch.4 (이항) 와 Ch.5 (다항) 는 비율(proportion) 데이터 를 다뤘다. 표본 크기 \(m\) 이 고정된 상태에서 범주 간 분포를 모형화했다. 그러나 실무의 많은 데이터는 그런 상한이 없다.
- 라디오아이소토프 계수기에서 초당 검출된 입자 수
- 하루 동안 발생한 사고 건수
- 특정 기간 동안 한 선박에 일어난 손상 횟수
- 특정 지역에서 한 해 동안 보고된 질병 건수
- 한 텍스트에서 특정 단어의 출현 횟수
이런 데이터의 공통점은 “얼마나 많이 일어났는가” — 표본 크기가 사전에 정해지지 않은 카운트 \(Y \in \{0, 1, 2, \ldots\}\) 이다. 이런 데이터의 자연스러운 분포는 포아송(Poisson) 이며, 로그선형 모형은 포아송 평균 \(\mu = \mathrm{E}(Y)\) 를 공변량의 곱셈적 함수로 표현한다.
모든 로그선형 모형은 단 하나의 수식을 공유한다.
\[ \log \mu_i = \boldsymbol{\beta}^\top \mathbf{x}_i \]
“다양성”은 디자인 행렬 \(\mathbf{X}\) 의 형태에서만 온다 — ANOVA, 회귀, 분할표 독립성 검정은 모두 이 식의 특수 사례이다. Ch.6 는 나아가 로그선형 모형이 다항 반응 모형 (Ch.4, 5) 의 쌍대(dual) 라는 놀라운 사실을 보인다.
2 §6.1 의 네 가지 핵심 메시지
교재의 §6.1 은 짧지만 Ch.6 전체의 설계 원칙을 담고 있다. 네 가지 메시지로 정리할 수 있다.
- 분포 가정은 이상화(idealization) — 실제 포아송은 드물다
- 평균 모형(식 6.2)이 분산 모형(식 6.1)보다 중요
- 모든 변이는 \(\mathbf{X}\) 에서 — ANOVA·회귀와의 통일
- 다항과의 동치성(§6.4) — Ch.5 와 쌍대 관계
하나씩 자세히 본다.
3 메시지 1 — 포아송은 “이상화”이지 관측 사실이 아니다
3.1 이상적 포아송 조건
다음 세 조건이 동시에 성립할 때 관측 카운트는 정확한 포아송이 된다.
- 독립성: 서로 다른 사건의 발생이 영향을 주지 않음
- 정상성(stationarity): 단위 시간당 발생률 \(\lambda\) 가 일정
- 배타성: 한 순간에 두 사건이 동시에 일어나지 않음
3.2 현실에서의 이탈
위 세 조건은 실제로 자주 깨진다.
라디오아이소토프 Geiger 계수기의 “dead-time”:
각 입자가 도착한 뒤 \(\tau\) 초 동안 장치가 복구되지 않아 추가 입자를 기록하지 못한다. 방사성 붕괴 속도가 높으면 관측 카운트가 실제 발생보다 체계적으로 적다. 특히 분산이 포아송 예측보다 작아지는 과소산포가 나타난다.
동물 행동 관찰의 “spurts/clusters”:
영장류·새·곤충 등이 사건을 한꺼번에 몰아서 일으킨다. “놀라서 같이 뛰는” 종류. 결과적으로 단위 시간당 관측 수의 분산이 포아송 예측보다 크다 — 전형적 과산포.
선박 손상 데이터의 “inter-ship variability”:
같은 종류의 배라도 관리 상태·항로·날씨 노출이 다르다. 각 배의 “실제 사고 발생률”이 평균 주변에 흩어져 있다 → 총합 분산이 부풀려짐.
3.3 결과 — 식 (6.1)
McCullagh 는 실무 기본 가정으로 포아송이 아닌 quasi-Poisson 을 제안한다.
\[ \mathrm{Var}(Y_i) = \sigma^2 \, \mathrm{E}(Y_i) \tag{6.1} \]
- \(\sigma^2 = 1\): 순수 포아송 (특수 사례)
- \(\sigma^2 > 1\): 과산포 (가장 흔함)
- \(\sigma^2 < 1\): 과소산포 (dead-time 등, 드묾)
직관: “카운트가 증가하면 분산도 증가한다” 는 포아송 핵심 구조(평균 = 분산) 를 유지하되, 그 배수를 유연하게 허용. 이항의 \(\mathrm{Var}(Y) = \sigma^2 m\pi(1-\pi)\) (§4.5) 와 정확히 같은 철학.
왜 \(\mathrm{Var}(Y) = \sigma^2 \mu\) 이고 \(\sigma^2 \mu^2\) 이 아닌가: 분산이 평균에 선형 이어야 포아송의 가법성(합친 데이터의 분산도 가법적)이 유지되고, 군집이 “각 군집 내부는 포아송, 군집 간 이질성은 추가 분산” 구조로 깔끔하게 분해되기 때문. 음이항(negative binomial) 은 \(\mathrm{Var}(Y) = \mu + \alpha\mu^2\) 처럼 이차 분산인데, 이는 더 엄격한 혼합 모형이며 quasi 접근보다 분포 가정이 강하다.
4 메시지 2 — 평균 모형이 분산 모형보다 중요
4.1 식 (6.2) — 로그선형 평균
\[ \log \mu_i = \eta_i = \boldsymbol{\beta}^\top \mathbf{x}_i, \quad i = 1, \ldots, n. \tag{6.2} \]
“log-linear”이라는 이름의 의미: 평균의 로그 가 공변량의 선형 조합.
4.2 왜 로그 링크인가 — 세 가지 이유
이유 1 — 도메인 맞춤: \(\mu > 0\) 을 보장. 선형 예측자 \(\boldsymbol{\beta}^\top \mathbf{x}\) 는 실수 전체를 취할 수 있지만, \(\exp(\cdot)\) 로 감싸면 자동으로 양수.
이유 2 — 포아송의 정준 링크(canonical link):
\[ f(y; \mu) = \exp\{y \log \mu - \mu - \log y!\} \]
의 자연 모수(natural parameter) 가 \(\theta = \log \mu\). 정준 링크를 쓰면 관측 정보 = 기대 정보, IRLS 가 뉴턴-라프슨과 같아져 계산이 단순해진다.
이유 3 — 해석의 곱셈성:
\[ \mu = \exp(\boldsymbol{\beta}^\top \mathbf{x}) = e^{\beta_0} \cdot e^{\beta_1 x_1} \cdot e^{\beta_2 x_2} \cdots \]
공변량 \(x_j\) 가 한 단위 증가하면 \(\mu\) 가 \(e^{\beta_j}\) 배로 곱해진다 — 덧셈이 아니라 곱셈. 이것은 “효과가 기준 수준에 비례한다” 는 관계를 자연스럽게 표현한다.
예시 — 사고 건수: 운행 거리 두 배 → 사고 두 배가 자연 (선형이 아니라 곱셈). 선량 두 배 → 질병 위험 두 배도 곱셈적. 교통사고·질병 발생·재고 관리 등 많은 실무 모형에서 덧셈보다 곱셈이 더 “실재적”이다.
4.3 분산보다 평균이 중요한 이유
McCullagh 의 관찰: “식 (6.2) 의 선택이 식 (6.1) 의 선택보다 더 결정적”.
왜 그런가:
- 평균 모형이 틀리면 점추정 \(\hat{\boldsymbol{\beta}}\) 이 편향 — 답 자체가 틀림
- 분산 모형이 틀리면 표준오차만 편향 — 답은 맞고 불확실성만 잘못 보고됨
과산포는 quasi-likelihood 로 자동 보정 할 수 있지만 (§5.5 에서 본 것처럼), 링크 함수·공변량 누락으로 인한 평균 오지정은 모형을 다시 설계해야 한다.
로그선형 모형 적합 시 점검 순서:
- 공변량 포함 여부 먼저 확인 (전문 지식·사전 그래프)
- 로그 링크 적절성 확인 (잔차 vs 적합값 플롯)
- 분산 구조 (과산포) 는 마지막 — 보통 scale factor 보정으로 충분
5 메시지 3 — 모든 변이는 \(\mathbf{X}\) 에서
5.1 “다양한 로그선형 모형”의 본질
Ch.6 에 나오는 모든 모형 — 이원 분할표 독립성, 조건부 독립성, 균질적 연관, 정준상관, 다변량 회귀 — 은 식 (6.2) 의 특수 사례 이다. \(\boldsymbol{\beta}\) 의 차원도 \(\mathbf{X}\) 의 열 개수도 용도에 따라 다르지만, 수학적 기계는 동일 하다.
이것은 정규 선형 모형(Ch.3) 에서 ANOVA·회귀·공분산분석이 “같은 \(\mathbf{X}\boldsymbol{\beta}\) 구조, 다른 디자인 행렬” 로 통일되는 것과 정확히 같은 상황이다.
5.2 분할표 예시
2원 분할표 \(n \times k\) 에 대해:
| 모형 | 로그선형 식 | 디자인 행렬 \(\mathbf{X}\) |
|---|---|---|
| 독립성 | \(\log \mu_{ij} = \alpha_i + \beta_j\) | row + column (교호작용 없음) |
| 포화 | \(\log \mu_{ij} = \alpha_i + \beta_j + \gamma_{ij}\) | row + column + interaction |
| 점수 기반 | \(\log \mu_{ij} = \alpha_i + \beta_j + \lambda r_i s_j\) | Birch linear×linear |
3원 분할표 에 가면 다음과 같은 독립성 구조들이 추가로 등장한다.
- 완전 독립성: 세 요인 모두 교호작용 없음
- 결합 독립성: 두 요인이 함께 세 번째와 독립
- 조건부 독립성: 한 요인을 조건으로 다른 두 요인이 독립
- 균질적 연관(homogeneous association): 교호작용 있으나 층별로 동일
이 구조들은 전부 디자인 행렬의 선택 으로 정의된다. 독립성 검정이 곧 특정 \(\mathbf{X}\) 를 쓴 로그선형 모형의 적합도 검정이 된다.
5.3 왜 이 통일이 중요한가
Stein 의 원리의 변형: “다양한 검정들이 같은 기계의 특수 사례” 라는 관점은 해석·계산·진단을 통일한다. 전통적 통계 교재는 분할표 분석·카이제곱·회귀를 따로 가르치지만, 로그선형 관점은 이들을 단일 GLM 프레임워크 로 묶어 소프트웨어 하나 (glm(..., family=poisson)) 로 전부 적합할 수 있다.
6 메시지 4 — 다항과의 쌍대성 (§6.4 예고)
6.1 핵심 정리
\(k\) 개 독립 포아송 \(Y_j \sim \text{Poisson}(\mu_j)\) 의 총합 \(Y_\bullet = \sum_j Y_j\) 를 조건으로 고정하면, 조건부 분포가 정확히 다항이 된다.
\[ (Y_1, \ldots, Y_k) \mid Y_\bullet = m \;\sim\; \text{Mult}(m, \boldsymbol{\pi}), \qquad \pi_j = \mu_j / \mu_\bullet. \]
이 사실은 §5.3.1 에서 이미 만났지만, Ch.6 에서는 그 역방향 — 로그선형과 다항 반응 모형이 수학적으로 같은 내용을 다른 관점에서 기술 — 이 자세히 전개된다.
6.2 왜 이것이 “놀라운” 동치인가
| 관점 | 무엇이 랜덤인가 | 무엇이 고정인가 | 어떤 모형 |
|---|---|---|---|
| 포아송(Ch.6) | 각 셀 \(Y_j\) 독립 | 아무것도 고정 안 함 | 로그선형 |
| 다항(Ch.5) | 셀 간 상대 빈도 | 총합 \(m\) 고정 | 기준범주 로짓 등 |
두 관점은 “같은 데이터에 대한 다른 스토리”이지만, 모수 추정값과 적합도 통계량이 수치적으로 같다 (행 합을 조건화한 뒤). 즉
- 로그선형
Poisson(count ~ row + col + row:col)로 적합 - 다항
Multinomial(cell ~ row)로 적합
두 접근이 정확히 같은 \(\hat{\boldsymbol{\beta}}\) 과 SE를 준다.
6.3 실무적 함의
- 계산 편의: 다항 우도는 제약 (\(\sum_j \pi_j = 1\)) 을 다루어야 해서 IRLS 구현이 번거로움. 포아송 우도는 제약 없는 실수 전체에서 최적화 가능 → 실무 소프트웨어 대부분이 로그선형으로 구현
- 해석 선택: 과학적으로 “총합이 자연스러운가” 로 판단. 여론조사(표본 1000명 고정) → 다항, 사고 건수(상한 없음) → 포아송
- 모형 확장 용이성: 로그선형은 세 요인 이상 분할표, 희소 테이블, 균질 연관 등으로 쉽게 확장. 다항 표현에서는 이런 확장이 번거로움
6.4 이 쌍대성이 Ch.6 의 진짜 주제
“로그선형 모형은 포아송에서 시작하지만, 결국 분할표 분석의 통일 언어로 자리 잡는다.”
7 정의 — 로그선형 모형
독립 관측 \(Y_1, \ldots, Y_n\) 에 대해, 평균 \(\mu_i = \mathrm{E}(Y_i)\) 와 공변량 벡터 \(\mathbf{x}_i\) 사이에 다음 관계가 성립하는 모형을 로그선형 모형 이라 한다.
\[ \log \mu_i = \boldsymbol{\beta}^\top \mathbf{x}_i \]
분포 가정은 두 종류이다.
- 순수 포아송: \(Y_i \sim \text{Poisson}(\mu_i)\), 평균 = 분산
- Quasi-Poisson: \(\mathrm{E}(Y_i) = \mu_i\), \(\mathrm{Var}(Y_i) = \sigma^2 \mu_i\)
링크는 \(\log(\cdot)\) (정준 링크). 선형 예측자 \(\eta = \boldsymbol{\beta}^\top \mathbf{x}\) 는 실수 전체를 자유롭게 움직일 수 있고, \(\mu = \exp(\eta)\) 로 양수 제약이 자동 보장된다.
이항·다항·포아송 비교:
| 분포 | 반응 유형 | 표본공간 | 상한 | 정준 링크 |
|---|---|---|---|---|
| 이항 | 성공/실패 비율 | \(\{0, 1, \ldots, m\}\) | \(m\) 고정 | logit |
| 다항 | \(k\) 범주 분포 | \(k-1\) 차원 단체 | \(m\) 고정 | 기준범주 로짓 |
| 포아송 | 카운트 | \(\{0, 1, 2, \ldots\}\) | 없음 | log |
8 포아송 분포 — 간단한 요약
8.1 확률질량함수와 모멘트
\[ \Pr(Y = y) = \frac{e^{-\mu}\mu^y}{y!}, \quad y = 0, 1, 2, \ldots \]
누적생성함수 \(K_Y(t) = \mu(e^t - 1)\). 여기서 모든 누적률을 \(t\) 로 미분해 \(t = 0\) 에서 평가하면
\[ \kappa_r = \mu \quad \text{for all } r \ge 1. \]
즉 평균·분산·왜도·첨도 모두 \(\mu\). 이것이 포아송의 가장 특징적인 성질.
8.2 왜 “분산 = 평균” 인가
직관: 작은 구간마다 사건이 일어날 확률 \(p\) 가 작고 시행 횟수 \(n\) 이 커지면서 \(np = \mu\) 를 유지하는 이항 극한이 포아송. 이때 \(np(1-p) \to np = \mu\) 로 분산이 평균과 같아진다.
결과: 실제 데이터에서 분산 > 평균 이면 포아송을 의심. 분산/평균 비율이 과산포 탐지의 첫 신호이다.
8.3 정규 근사
\(\mu \to \infty\) 일 때
\[ \frac{Y - \mu}{\sqrt{\mu}} \xrightarrow{d} N(0, 1). \]
실용적 임계값: \(\mu \ge 5\) 정도면 이산-정규 근사가 꽤 괜찮고, \(\mu \ge 20\) 이면 거의 완벽. \(\mu < 5\) 에서는 왜도가 \(1/\sqrt{\mu}\) 로 커서 정규 근사가 나쁘다.
8.4 분산 안정화·대칭화 변환
분산 안정화: \(\sqrt{Y}\) 의 분산이 \(\mu\) 에 무관하게 \(\approx 1/4\). 분산이 일정해야 하는 분석(예: 잔차 플롯의 시각 진단) 에 유용.
대칭화(Anscombe, 1953): \(Y^{2/3}\) 의 표준화 왜도가 \(O(\mu^{-3/2})\). 정규 근사가 \(Y\) 나 \(\sqrt{Y}\) 보다 훨씬 빠르게 수렴.
신호편차(signed deviance) 근사 — McCullagh 의 자체 개선:
\[ g(Y) = \begin{cases} 3Y^{1/2} - 3Y^{1/6}\mu^{1/3} + \mu^{-1/2}/6, & Y \ne 0 \\ -(2\mu)^{1/2} + \mu^{-1/2}/6, & Y = 0 \end{cases} \]
가 분산 안정화와 대칭화를 동시에 달성. \(\mu = 5\) 에서도 tail 확률을 소수점 4자리까지 정확히 재현할 정도로 근사가 좋다 (교재 Table 6.?).
실무 함의: 이 변환 하나로 포아송 tail 확률을 정규 tail 로 근사 할 수 있어, 계산이 빡빡한 경우에도 \(\Phi^{-1}\) 만으로 p-value 를 구할 수 있다.
9 Ch.6 전체 로드맵
§6.1 이후 교재는 다음 순서로 전개된다.
| 절 | 내용 | 핵심 주제 |
|---|---|---|
| §6.2 | Likelihood functions | 포아송 우도·IRLS·과산포·점근이론 |
| §6.3 | Examples | 선박 사고, Byssinosis, 구강 건강 등 |
| §6.4 | Multinomial response models | Ch.5 와의 쌍대성 상세 |
| §6.5 | Multiple responses | 다반응·정준상관·다변량 회귀 |
| §6.6 | Example: a three-dimensional table | 사회이동 데이터 |
| §6.7 | Bibliographic notes | |
| §6.8 | Further results and exercises |
이 중 §6.4 가 Ch.5 와 연결되는 부분이며, §6.5 는 다변량 반응으로 확장된다.
10 응용 — 어디서 쓰는가
| 분야 | 반응 | 전형적 공변량 | 모형 포인트 |
|---|---|---|---|
| 역학 | 인구당 질병 발생 건수 | 연령·성별·환경노출 | offset \(\log(\text{인구})\) 포함 |
| 보험 | 청구 건수 | 운전자·차량·지역 | 노출기간 offset |
| 생태학 | 샘플링 구역의 동물 수 | 서식지·계절 | 과산포 보정 빈번 |
| 자연어처리 | 문서 내 단어 빈도 | 토픽·문서 길이 | TF·IDF 의 확률적 기반 |
| 사회과학 | 분할표 셀 카운트 | 교육·직업·세대 | 독립성·균질 연관 검정 |
| 이벤트 스트림 | 시간 구간 내 사건 수 | 시간·처리효과 | 재발 사건 모형 |
| 스포츠 통계 | 골·안타·삼진 수 | 팀·상대·환경 | quasi-Poisson 보편 |
offset 의 중요성: 노출 단위가 다르면 (\(\log \mu = \boldsymbol{\beta}^\top \mathbf{x} + \log(\text{노출})\)) offset 을 넣어 “rate” 모형으로 전환한다. 이것은 로그선형 모형의 가장 실무적 확장.
11 코드 예시
11.1 Step 1: 순수 Python — 포아송 우도와 정규 근사
import numpy as np
from scipy.stats import poisson, norm
from scipy.optimize import minimize
# 간단한 시뮬: y ~ Poisson(exp(0.5 + 0.3x))
rng = np.random.default_rng(0)
n = 300
x = rng.normal(size=n)
eta_true = 0.5 + 0.3 * x
y = rng.poisson(np.exp(eta_true))
def neg_loglik(beta, x, y):
eta = beta[0] + beta[1] * x
mu = np.exp(eta)
# poisson log-pmf (상수 제외)
return -np.sum(y * eta - mu)
res = minimize(neg_loglik, x0=[0.0, 0.0], args=(x, y), method="BFGS")
print(f"beta_hat = {res.x.round(3)} (true = [0.5, 0.3])")
# 정보행렬로 SE
# I = sum(mu * x_i x_i^T)
X = np.column_stack([np.ones(n), x])
mu_hat = np.exp(X @ res.x)
I = X.T @ np.diag(mu_hat) @ X
se = np.sqrt(np.diag(np.linalg.inv(I)))
print(f"SE = {se.round(3)}")
# 과산포 진단
pearson = np.sum((y - mu_hat)**2 / mu_hat)
sigma2_hat = pearson / (n - 2)
print(f"sigma^2_hat = {sigma2_hat:.3f} (1에 가까우면 포아송 OK)")11.2 Step 2: statsmodels / R — 실무 적합
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
df = pd.DataFrame({"x": x, "y": y})
# 포아송 GLM
fit = smf.glm("y ~ x", data=df, family=sm.families.Poisson()).fit()
print(fit.summary().tables[1])
print(f"Deviance = {fit.deviance:.2f} on {int(fit.df_resid)} df")
# Quasi-Poisson (scale 자동 추정) — scale 파라미터만 자동으로 계산
fit_q = smf.glm("y ~ x", data=df, family=sm.families.Poisson()).fit(scale="X2")
print(f"\nScale factor = {fit_q.scale:.3f}")
print(f"SE 비율 (quasi / pois) = {(fit_q.bse / fit.bse).round(3).values}")R 대응:
11.3 Step 3: 포아송 ↔︎ 다항 동치성 수치 확인
import numpy as np
import statsmodels.api as sm
# 2x3 분할표
counts = np.array([
[30, 20, 10], # row 1
[15, 25, 20], # row 2
])
# (A) 로그선형 Poisson — 각 셀을 독립 포아송으로
rows, cols = counts.shape
y_flat = counts.ravel()
row_idx = np.repeat(np.arange(rows), cols)
col_idx = np.tile(np.arange(cols), rows)
X = np.column_stack([
np.ones(len(y_flat)),
(row_idx == 1).astype(float),
(col_idx == 1).astype(float),
(col_idx == 2).astype(float),
])
fit_pois = sm.GLM(y_flat, X, family=sm.families.Poisson()).fit()
print("=== 로그선형 (독립성 가정) ===")
print(f"Deviance = {fit_pois.deviance:.3f}")
print(f"p-value = {1 - sm.stats.chi2.cdf(fit_pois.deviance, df=2):.4f}")
# (B) 같은 데이터를 다항으로 — 행별 다항(총합 고정)
# 다항 독립성 검정의 카이제곱이 (A) 의 이탈도와 수치적으로 가까워야
from scipy.stats import chi2_contingency
chi2, p, dof, exp = chi2_contingency(counts)
print(f"\n=== Pearson Chi-square (다항 관점) ===")
print(f"X^2 = {chi2:.3f}, df = {dof}, p = {p:.4f}")
# 비교: LR 이탈도 = sum(2*o*log(o/e)) (포아송 관점)
lr = 2 * np.sum(counts * np.log(counts / exp))
print(f"LR 이탈도 = {lr:.3f} (포아송 GLM 결과와 일치)")관찰: 포아송 GLM 의 이탈도와 다항 관점의 LR 통계량이 정확히 같은 값을 준다. 이것이 §6.4 쌍대성의 수치적 확인.
12 자주 걸리는 함정
| 함정 | 증상 | 처방 |
|---|---|---|
| \(\mu = 0\) 예측에 \(\log \mu\) 적용 | RuntimeWarning: log(0) |
시작값·offset·regularization 점검 |
| 과산포 무시 | p-value·CI 과신 | \(X^2/\text{df}\) 로 scale 확인 |
| 노출이 다른데 offset 생략 | 계수에 노출 효과가 혼입 | log(exposure) offset 필수 |
| 과산포 심해서 음이항으로 직행 | 모형 복잡도 증가, 적합 불안 | 먼저 quasi-Poisson → 필요시 NB |
| 분할표에 naive 카이제곱만 사용 | 세 요인 이상에서 구조 놓침 | 로그선형으로 조건부 독립성 검정 |
| 희소 분할표에 이탈도 절댓값 | \(\chi^2\) 근사 나쁨 | \(X^2/\text{df}\) 또는 정확 검정 |
| 포아송 ↔︎ 다항 변환 후 같은 SE 기대 | 조건화 파라미터 차이 혼동 | 절대 빈도 \(\beta\) vs 비율 \(\beta\) 구분 |
| 잔차 편차(deviance residual) 와 Pearson 잔차 혼용 | 대칭성 차이로 혼란 | Anscombe/signed deviance 변환 사용 |
13 관련 주제
선행 지식
후속 주제 (§6.2~§6.8 placeholder)
- Poisson Log-likelihood 와 IRLS (§6.2)
- Log-linear 분할표 예제 — 선박 사고·Byssinosis (§6.3)
- Log-linear 과 Multinomial Response 의 쌍대성 (§6.4)
- Multiple Responses 와 정준상관 (§6.5)
- 3원 분할표 — 독립성·조건부 독립성 (§6.6)
관련 개념
- Quasi-likelihood (Ch.9)
- Conditional Likelihoods (Ch.7) — 포아송 조건부 → 다항 유도
- 음이항 분포와 과산포
- Offset 모형과 Rate 회귀
- 분할표 분석의 역사 — Pearson·Fisher·Yates
14 참고문헌
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.1. Chapman & Hall.
- Anscombe, F. J. (1953). Contribution to the discussion of H. Hotelling’s paper. JRSS B, 15, 229–230.
- Bishop, Y. M. M., Fienberg, S. E., & Holland, P. W. (1975). Discrete Multivariate Analysis. MIT Press.
- Haberman, S. J. (1978, 1979). Analysis of Qualitative Data, Vols. 1–2. Academic Press.
- Fienberg, S. E. (1980). The Analysis of Cross-Classified Categorical Data (2nd ed.). MIT Press.
- Cameron, A. C. & Trivedi, P. K. (2013). Regression Analysis of Count Data (2nd ed.). Cambridge.
- Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.9–10. Wiley.