Kwangmin Kim - Multiple Responses in Log-linear Models

1 왜 “다중 반응”이 별도 주제인가

Ch.5 (polytomous) 와 §6.4 (log-linear 다항 쌍대성) 에서는 반응이 단일 범주형 변수 라고 가정했다. 그러나 현실에서는 한 단위에 여러 범주형 반응이 동시에 기록되는 경우가 많다.

약물 임상시험: 주효과(치유) + 부작용(심각도) + 부작용(지속기간)
사회조사: 정치 성향 + 종교 + 인종에 대한 태도
마케팅: 브랜드 선택 + 구매 빈도 + 추천 여부
의료: 진단 범주 + 치료 반응 + 합병증

이런 상황에서 묻게 되는 질문은 단일 반응 때와 질적으로 다르다.

주변 의존성: 각 반응이 공변량 \(\mathbf{x}\) 에 어떻게 의존하는가?
반응 간 결합 분포: 여러 반응이 서로 어떻게 관련되어 있는가?
공변량이 결합 분포를 바꾸는가: \(\mathbf{x}\) 가 반응 간 교호작용에도 영향을 주는가?

임상적 예: “약이 병을 낫게는 하는데 부작용이 너무 심한 사람만 낫는다” 면 치료 가치가 반감된다. 이는 주효과(\(A\)) 와 부작용(\(B\)) 의 교호작용을 확인 해야 드러나는 문제.

§6.5 의 구성

§6.5 는 다중 반응의 여섯 소절로 구성된다.

§6.5.1 Introduction — 세 가지 질문, 주효과 vs 부작용 예시
§6.5.2 조건부 독립성 — 경로 모형과 분해가능성(decomposability)
§6.5.3 정준상관(canonical correlation) — 독립과 포화 사이의 중간 지대
§6.5.4 다변량 회귀 — \(\boldsymbol{\eta} = \mathbf{C} \log \boldsymbol{\gamma}\) 의 체계
§6.5.5 다변량 모형식 표기 — \(2^r - 1\) 개 모형식의 문법
§6.5.6~7 로그선형 회귀 모형과 우도방정식 (기술적 세부)

이 포스트는 1–5 를 중심으로 정리한다.

2 §6.5.1 세 가지 질문의 통합

세 반응 \(A, B, C\) 를 관측한다고 하자. McCullagh 가 제안하는 분석 순서는 다음과 같다.

2.1 1단계 — 각 반응의 주변 회귀

먼저 각 반응 개별적으로 공변량에 대한 회귀 모형을 적합한다. 순서형이면 비례 오즈(§5.2.2), 명목형이면 기준범주 로짓(§5.2.4). 이것은 \(r\) 개의 독립 단일 반응 분석.

왜 먼저 주변부터: 어느 공변량이 어느 반응에 영향을 주는가를 빨리 파악하기 위함. 상호 의존성은 나중에 본다.

2.2 2단계 — 반응 간 결합 분포

공변량을 잠시 제쳐 두고 반응 간 관계만 본다. \(A\) 와 \(B\) 가 독립인가? \(A\) 가 \(B\) 에 영향을 주는가? 이것이 §6.5.2 의 주제.

2.3 3단계 — 공변량 × 반응 교호작용

공변량 \(\mathbf{x}\) 가 반응 간 교호작용까지 바꾸는가를 본다. “처리가 공변량에 따라 주효과와 부작용의 관계를 바꾸는가” 같은 질문. §6.5.4 가 이를 다룬다.

2.4 약물 임상시험 예시 — Table 6.5

Target effect	Side-effect 심각도	Side-effect 지속기간
complete cure	none	temporary
partial cure	mild	permanent
no improvement	moderate
	severe

직관적 관찰:

심각도와 지속기간은 “부작용이 없으면 지속기간이 의미 없다” → 변동 독립 아님 (variation dependent). 통계적으로도 독립일 수 없음
그러나 “부작용이 있다는 조건 하에서” 는 둘이 독립일 수 있음 → 조건부 독립
따라서 결합 분포는 “부작용 유/무 → 있다면 심각도 × 지속기간 독립” 구조로 계층화

이것이 §6.5.2 의 조건부 독립성 모형이 자연스러운 이유.

3 §6.5.2 독립성·조건부 독립성·분해가능성

3.1 모형식 독해법 — 로그선형 분할표 표기

다중 반응 \(A, B, C\) 에 대한 로그선형 모형을 factor interaction notation 으로 쓴다.

모형식	뜻	모수 수 (범주 \(k_A, k_B, k_C\))
\(A + B + C\)	완전 독립	\(k_A + k_B + k_C - 2\)
\(A*B + C\)	\(C\) 가 \((A,B)\) 와 독립	\(k_A k_B + k_C - 1\)
\(AB + BC\)	\(A \perp C \mid B\)	(이보다 복잡)
\(AB + BC + A*C\)	세 반응 간 두 쌍씩 교호작용 (3차 교호작용 없음)
\(ABC\)	포화	\(k_A k_B k_C - 1\)

3.2 조건부 독립성의 경로 해석

\(A*B + B*C\) 모형은 “\(A\) 와 \(C\) 가 \(B\) 를 조건으로 독립” 이다. 즉

\[ \Pr(A, C \mid B) = \Pr(A \mid B) \cdot \Pr(C \mid B). \]

경로 다이어그램:

\[ A \longrightarrow B \longrightarrow C \]

왜 쉽게 시각화되는가: \(B\) 를 “고정” 하면 \(A\) 와 \(C\) 사이의 정보 흐름이 차단된다. 시계열의 마코프 성질 과 구조적으로 같다 — “현재(B)를 알면 과거(A)와 미래(C)가 독립”.

3.3 인과 방향의 모호성

\(A*B + B*C\) 는 다음 세 경로 해석을 모두 허용한다.

\[ A \to B \to C, \qquad C \to B \to A, \qquad A \leftarrow B \to C. \]

마지막 것은 “\(B\) 가 \(A, C\) 의 공통 원인” 이다. 조건부 독립성 모형식만으로는 인과 방향을 결정할 수 없다 — 방향 추론에는 시간 순서나 외부 개입(intervention) 정보가 추가로 필요하다.

3.4 조건부 독립성 검정

“경로 \(A \to B \to C\) 가 맞다” 는 “\(A\) 가 \(C\) 에 직접 영향을 주지 않는다” 를 의미. 이를 검정하려면 두 모형의 이탈도를 비교:

\[ M_0: \;\; A*B + B*C \qquad \text{vs.} \qquad M_1: \;\; A*B + B*C + C*A. \]

\(M_0 \subset M_1\) 이며, 이탈도 감소 \(D(M_0) - D(M_1) \sim \chi^2_{\text{df diff}}\) (귀무 하). 유의한 감소 = 조건부 독립성 기각.

3.5 분해가능성 (Decomposability) — Haberman (1974a)

다중 반응 로그선형 모형은 두 부류로 나뉜다.

부류	특징	MLE
분해가능(decomposable)	조건부 독립성의 중첩으로 해석 가능	닫힌 형식(closed-form)
비분해가능	순환 구조 포함	수치 반복 필요 (IPF, IRLS)

분해가능 예: \(A*B + B*C\), \(A*B*C + B*D + C*D\) (첫 인자에 완전 교호작용 포함).

비분해가능 예: \(A*B + B*C + C*A\) (세 2차 교호작용으로 순환 생성, 3차 교호작용 없음).

3.6 분해가능성의 정확한 정의 — 특이성(Singularity)

모형 \(\mathcal{M}\) 이 특이(singular) 라는 것은 다음 중 하나가 성립하는 경우.

부분집합 \(\{A, B, C, D, \ldots\}\) 가 있어 모든 하위 교호작용은 포함되지만 최고차 교호작용은 누락
닫힌 고리(closed loop) \(A - B - C - \cdots - A\) 가 있고 인접 쌍은 모두 포함하지만 해당 고리의 3차 이상 교호작용은 없음

분해가능 = 특이성 없음.

예:

\[ \mathcal{M} = A*B*C + B*C*D + A*C*D \]

\(\{A, B, D\}\) 부분집합에서 \(A*B, A*D, B*D\) 는 모두 있지만 \(A*B*D\) 가 없다 → 특이성 1. \(\{A, B, C, D\}\) 전체에 대해 \(A*B*C, A*C*D, B*C*D\) 는 있지만 \(A*B*C*D\) 가 없다 → 특이성 2. 결국 비분해가능.

3.7 왜 분해가능성이 중요한가

분해가능 모형의 MLE 는 주변 표의 직접적 함수. 예를 들어 \(A*B + B*C\) 의 MLE 는

\[ \hat{\mu}_{ijk} = \frac{y_{ij+} \cdot y_{+jk}}{y_{+j+}} \]

로 반복 없이 바로 계산. 반면 비분해가능은 IPF 또는 뉴턴-라프슨 반복이 필요.

직관 — 왜 분해가능이면 닫힌 형식이 나오는가. \(A*B + B*C\) 구조에서는 공유 변수 \(B\) 가 조건부 독립 분리자(conditional independence separator) 로 작용한다. 즉 “\(B\) 를 고정하면 \(A\) 와 \(C\) 는 독립”이라는 조건부 독립성이 성립하므로, 결합분포가 “\(A,B\) 주변분포”와 “\(B,C\) 주변분포”의 곱을 \(B\) 주변분포로 나눈 형태로 깨끗이 분해된다. MLE 제약 \(\hat\mu_{ij+} = y_{ij+}\), \(\hat\mu_{+jk} = y_{+jk}\) 이 서로 겹치지 않는 주변 표 위에 놓여 있어 한 번에 해결 가능하다. 비분해가능 모형 (\(A*B + B*C + C*A\) 등) 은 주변 제약이 닫힌 고리로 얽혀 어느 하나도 다른 것 없이 풀 수 없어, IPF 가 주변을 한 축씩 돌아가며 반복 교정해야 한다 — 이 반복성이 거대 분할표에서 수렴 속도와 안정성에 결정적 영향을 준다.

실무적 함의:

분해가능 모형을 선택하면 거대 분할표에서도 계산이 빠르다
각 조건부 독립 구조가 직접 해석 가능
복잡한 비분해가능 모형보다 커뮤니케이션이 쉽다

4 §6.5.3 정준상관(Canonical Correlation) 모형

4.1 문제의 배경 — 두 극단 사이의 공백

두 반응 \(A\) (범주 \(k_A\)) 와 \(B\) (범주 \(k_B\)) 에 대해:

독립 모형 \(A + B\): 모수 \(k_A + k_B - 1\)
포화 모형 \(A*B\): 모수 \(k_A k_B\) — 자유 모수가 갑자기 많아짐

예컨대 \(k_A = k_B = 5\) 이면 독립 = 9개, 포화 = 25개. 중간 단계가 없다. 실제 데이터에는 “\(A\) 가 \(B\) 에 영향은 주지만 한 개의 축을 따라서만” 같은 중간 구조가 흔한데, 전통적 로그선형 분류법은 이를 잡을 도구가 없다.

4.2 점수 기반 중간 모형들

반응 범주에 점수(scores) \(s_1, s_2, \ldots\) 와 \(t_1, t_2, \ldots\) 가 주어져 있다면 중간 모형 작성이 가능하다.

모형식	수식	해석
\(A + B + s.t\)	\(\alpha_i + \beta_j + \gamma\, s_i t_j\)	Birch linear×linear
\(A + B + A.t\)	\(\alpha_i + \beta_j + \gamma_i t_j\)	\(A\) 각 수준별로 \(B\) 점수 회귀
\(A + B + A.t + B.s\)	\(\alpha_i + \beta_j + \gamma_i t_j + \delta_j s_i\)	양방향 회귀

각 모형이 모수를 크게 절약하면서도 중간 구조를 표현. §5.2.3 의 구간형 척도 점수 모형과 본질이 같다.

4.3 점수가 없을 때 — Log-bilinear 모형 (식 6.9)

점수가 주어져 있지 않으면 로그선형 프레임워크 내에서 중간 모형을 만들 수 없다. 이럴 때 쓰는 것이 단일 루트 정준상관 모형:

\[ \eta_{ij} = \log \mu_{ij} = \alpha_i + \beta_j + \rho \epsilon_i \delta_j \tag{6.9} \]

여기서 \(\boldsymbol{\epsilon}, \boldsymbol{\delta}\) 는 제약 \(\sum_i \epsilon_i = \sum_j \delta_j = 0,\; \|\boldsymbol{\epsilon}\| = \|\boldsymbol{\delta}\| = 1\) 을 만족하는 데이터에서 추정할 점수 벡터이며 \(\rho \ge 0\) 는 연관 강도.

“log-bilinear” 라는 이름의 의미. 우변의 \(\rho \epsilon_i \delta_j\) 항은 행 점수 \(\boldsymbol\epsilon\) 을 고정하면 \(\boldsymbol\delta\) 에 선형이고, \(\boldsymbol\delta\) 를 고정하면 \(\boldsymbol\epsilon\) 에 선형이다 — 두 인덱스 방향 모두에 대해 선형 인 구조가 “쌍선형(bi-linear)”. 이것을 로그 스케일 (\(\log \mu\)) 에서 사용하므로 “log-bilinear”. 일반 GLM 의 선형 예측자가 한 번에 한 방향의 모수 \(\boldsymbol\beta\) 에 대해서만 선형 인 것과 달리, 여기서는 두 점수 벡터가 곱해져 있어 선형성이 한 단계 풀어진다. 이것이 GLM 프레임워크 경계 바깥에 놓이는 근본 이유이며, 표준 IRLS 가 그대로 적용되지 않는 출발점이다.

4.4 왜 “정준상관” 이라는 이름인가

MLE 방정식

\[ \sum_{ij} \hat\epsilon_i \hat\delta_j y_{ij} = \sum_{ij} \hat\epsilon_i \hat\delta_j \hat\mu_{ij} \]

좌변은 표본 공분산 \(\mathrm{E}(A_\epsilon B_\delta)\) 의 추정치, 우변은 적합 모형의 공분산. 등식이 성립한다는 것은 “적합 상관이 관측 상관과 같다” — 즉 \(\hat\rho\) 가 정준상관 (canonical correlation) 을 그대로 재현한다.

“Canonical” 의 의미. 수학에서 canonical 은 “회전·재파라미터화에 무관하게 데이터가 스스로 결정하는 표준 방향” 이라는 뜻. 여기서는 행·열 점수 \((\boldsymbol\epsilon, \boldsymbol\delta)\) 를 어떻게 잡아도 \(\rho\) 값이 같아지는 고유한 주축 (principal axis) 을 가리킨다. Hotelling (1936) 이 다변량 통계의 정준상관 분석에서 도입한 개념과 동일하다 — “두 집합의 변수 간 관계를 요약하는 유일한 최대 상관 축” 이다.

\(\rho = 0\) 이면 독립, \(\rho\) 가 커질수록 \(A, B\) 간 연관이 점수 축을 따라 강해진다.

4.5 GLM 프레임워크의 경계

식 (6.9) 는 일반화 선형 모형이 아니다. \(\rho \epsilon_i \delta_j\) 가 모수들의 곱 이므로 선형 예측자가 아니다. 결과적으로:

표준 IRLS 가 그대로 작동하지 않음 (대안 최적화 필요)
\(\rho = 0\) 은 모수 공간 경계 — 정규 점근이론의 규칙성 조건이 깨짐
LR 검정 통계량이 일반 \(\chi^2\) 이 아니라 Wishart 행렬의 최대 고유값 분포 (Haberman, 1981)

실무 주의: 소프트웨어 결과의 p-value 를 \(\chi^2\) 기준으로 믿으면 보수적 쪽으로 잘못 될 수 있다. 대개 실제보다 덜 유의하게 보고된다.

4.6 대응 분석(Correspondence Analysis) 과의 연결

\(\rho\) 가 작으면

\[ \mu_{ij} \approx \alpha_i' \beta_j' \{1 + \rho \epsilon_i \delta_j\} \]

로 전개. 이는 \(\mu_{ij}\) 표의 rank-2 근사 — 첫 특이값 성분. 대응 분석(correspondence analysis) 은 이 특이값 분해를 시각적 그래프 (행과 열을 동시에 2D 평면에 배치)로 풀어 보는 기법.

첫 특이값 \(\rho\): 두 변수 연관의 주 방향
해당 특이벡터 \(\epsilon, \delta\): 행·열 각각의 “점수”
둘째 이상 성분까지 포함하면 더 복잡한 구조 포착

Log-bilinear 모형 (Goodman, 1986) 은 대응 분석의 모형 기반 버전 — 시각화가 아니라 가설 검정·신뢰구간 구성이 가능.

4.7 언제 정준상관 모형을 쓰는가

행·열 범주에 자연 순서가 있지만 점수가 임의적 일 때
연관의 주축을 데이터로부터 찾고 싶을 때
포화 모형은 과적합이지만 독립 모형은 부적합한 중간 구조

NLP 의 단어-문맥 임베딩, 시장 조사의 브랜드-속성 연관 분석, 생태학의 종-환경 대응 등 “두 다수준 factor 의 연관 패턴” 을 찾는 상황에서 전형적.

5 §6.5.4 다변량 회귀 모형 (공변량이 있을 때)

5.1 체계적 접근의 세 단계

공변량 \(\mathbf{x}\) 가 있는 다중 반응 데이터의 모형화는 두 단계 변환으로 체계화한다.

1단계 — 확률 변환 (식 6.10):

\[ \boldsymbol{\gamma} = \mathbf{L}\boldsymbol{\pi} \]

\(\mathbf{L}\) 은 0/1 행렬. 셀 확률 \(\pi_{ijk}\) 를 해석 가능한 주변·조합 확률로 바꿔준다.

2단계 — 대조 변환 (식 6.11):

\[ \boldsymbol{\eta} = \mathbf{C} \log \boldsymbol{\gamma} \]

로그 확률을 인자별 대조(factorial contrasts) 로 정리.

5.2 \(2 \times 2 \times 2\) 의 구체적 예시

세 이항 반응 \(A, B, C\) 의 결합 분포는 8개 셀 확률 \(\pi_{ijk}\). 자유 모수는 \(2^3 - 1 = 7\) 개.

\(\boldsymbol{\gamma}\) 로는 주변·조합 확률 을 뽑는다.

타입	개수	예시
일변량 주변	6	\(\pi_{i..}, \pi_{.j.}, \pi_{..k}\)
이변량 주변	12	\(\pi_{ij.}, \pi_{i.k}, \pi_{.jk}\)
삼변량 주변	8	\(\pi_{ijk}\) 자체

합 26 = 과잉 표현. 실제 자유도는 7이지만 중복을 허용해 대칭적으로 표기.

5.3 대조 벡터 \(\boldsymbol{\eta}\)

일변량 대조 (각 반응의 로그 오즈):

\[ \eta_a = \log \pi_{1..} - \log \pi_{2..}, \quad \eta_b = \log \pi_{.1.} - \log \pi_{.2.}, \quad \eta_c = \log \pi_{..1} - \log \pi_{..2}. \]

이변량 대조 (반응 쌍의 교호작용):

\[ \eta_{ab} = \log \pi_{11.} - \log \pi_{12.} - \log \pi_{21.} + \log \pi_{22.}. \]

이것은 \(\log(\pi_{11.}\pi_{22.}) - \log(\pi_{12.}\pi_{21.})\) = 로그 오즈비. 두 반응 \(A, B\) 의 연관 측도.

삼변량 대조 \(\eta_{abc}\) — 세 반응의 3차 교호작용, 부호가 (±±±) 로 교대.

5.4 가장 단순한 다변량 모형 (식 6.12·6.13)

\[ \eta_a(\mathbf{x}) = \boldsymbol{\beta}_a^\top \mathbf{x}, \quad \eta_b(\mathbf{x}) = \boldsymbol{\beta}_b^\top \mathbf{x}, \quad \eta_c(\mathbf{x}) = \boldsymbol{\beta}_c^\top \mathbf{x} \tag{6.12} \]

\[ \eta_{ab}(\mathbf{x}) = \eta_{ac}(\mathbf{x}) = \eta_{bc}(\mathbf{x}) = \eta_{abc}(\mathbf{x}) = 0. \tag{6.13} \]

의미: (6.12) — 각 반응이 공변량에 로지스틱 회귀. (6.13) — 세 반응이 공변량을 고정한 조건 하에 서로 독립.

5.5 공변량은 있지만 반응 간 교호작용이 있는 모형 (식 6.14)

교호작용을 공변량 불변 상수 로 고정:

\[ \eta_{ab}(\mathbf{x}) = \eta_{ab} \text{ (상수)}, \quad \eta_{ac}(\mathbf{x}) = \eta_{ac}, \quad \eta_{bc}(\mathbf{x}) = \eta_{bc}, \quad \eta_{abc}(\mathbf{x}) = \eta_{abc}. \tag{6.14} \]

주장: “공변량이 각 반응의 주변 확률에는 영향을 주지만, 반응 간 연관 구조는 바꾸지 않는다”. 임상 예시에서 “처리가 치유율·부작용률을 각각 바꾸지만 치유-부작용 상관 자체는 처리에 무관” 이라는 가정.

5.6 무엇을 공변량 공통으로 두어야 하는가

McCullagh 의 원칙: \(\eta_{ab}(\mathbf{x})\) 에 들어가는 공변량은 \(\eta_a(\mathbf{x})\) 와 \(\eta_b(\mathbf{x})\) 에 모두** 들어있는 것이어야 한다**. 이유:

\(\mathbf{x}\) 가 \(A\) 에 영향을 주지 않으면(\(\eta_a\) 에 없으면), \(A\) 와 \(B\) 의 연관을 바꿀 메커니즘도 없음
마찬가지로 \(\eta_{abc}\) 는 \(\eta_{ab}, \eta_{ac}, \eta_{bc}\) 모두에 등장한 공변량만

이 규칙은 과적합 방지 와 해석의 위계를 동시에 보장한다.

5.7 순서형 이변량 반응 — 누적 로짓 버전

\(A, B\) 가 모두 순서형이면 주변 확률 대신 누적 확률

\[ \gamma_{i.} = \Pr(A \le i), \quad \gamma_{.j} = \Pr(B \le j), \quad \gamma_{ij} = \Pr(A \le i, B \le j) \]

을 쓴다. 일변량 대조는 비례 오즈 로짓

\[ \eta_{ai} = \text{logit}\,\gamma_{i.}, \quad \eta_{bj} = \text{logit}\,\gamma_{.j}. \]

이변량 대조는 누적 로그 오즈비

\[ \eta_{abij} = \log \gamma_{ij} - \log(\gamma_{i.} - \gamma_{ij}) - \log(\gamma_{.j} - \gamma_{ij}) + \log \bar\gamma_{ij} \]

(여기서 \(\bar\gamma_{ij} = \Pr(A > i, B > j)\)). 이 대조가 상수 \(\eta_{abij} = \eta_{ab}\) 로 고정되면 Pearson–Plackett 분포 족 (Plackett, 1965; Dale, 1984, 1986).

실무적 의미: 두 순서형 반응의 연관을 단일 오즈비 로 요약. 비례 오즈의 이변량 버전. 의료·사회조사에서 두 순서형 척도 간 관계를 간결히 기술할 수 있다.

6 §6.5.5 다변량 모형식 표기법

단일 반응 로그선형에서는 모형식 하나면 충분했지만, 다변량 반응에서는 \(2^r - 1\) 개의 모형식 (각 인자별 대조 클래스마다 하나)이 필요하다.

6.1 세 반응의 경우 — 7개 클래스

클래스	모수 수	표기
\(A\) 주효과	\(k_A - 1\)	`A:x`
\(B\) 주효과	\(k_B - 1\)	`B:x`
\(C\) 주효과	\(k_C - 1\)	`C:x`
\(A \cdot B\) 교호작용	\((k_A-1)(k_B-1)\)	`AB:x`
\(A \cdot C\) 교호작용	\((k_A-1)(k_C-1)\)	`AC:x`
\(B \cdot C\) 교호작용	\((k_B-1)(k_C-1)\)	`BC:x`
\(A \cdot B \cdot C\) 교호작용	\((k_A-1)(k_B-1)(k_C-1)\)	`ABC:x`

총 7개 (= \(2^3 - 1\)).

6.2 모형식 쓰기

식 (6.12)·(6.13) 은

A : x ;  B : x ;  C : x

로 각 주효과만 공변량 회귀, 나머지는 생략(= null). 축약 표기:

\[ (A; B; C) : x. \]

식 (6.12)·(6.14) 는 주효과에 공변량 + 교호작용은 공변량 무관 상수:

\[ (A; B; C) : x; \quad AB; AC; BC; ABC : 1. \]

여기서 : 1 은 “공변량 효과 없음, 상수 모수 하나씩” 을 의미.

6.3 왜 이 문법이 필요한가

반응 요인 수 \(r\) 이 증가하면 모형식 수 \(2^r - 1\) 이 지수적으로 증가
각 요인 클래스마다 독립적 공변량 선택 이 가능해야 유연함 확보
주효과 / 교호작용별로 다른 링크 함수 (로지스틱 vs 누적 로짓) 를 쓸 수도 있음

현대 R 패키지 VGAM 이나 통계 교재의 계층적 GLM 라이브러리가 이 문법의 정신을 따르고 있다.

7 전체 흐름 요약

다중 반응 데이터
    ↓
(1) 각 반응 주변 회귀 — 공변량의 개별 효과 파악
    ↓
(2) 반응 간 결합 분포 — 독립·조건부 독립·분해가능성 검토
    ↓
(3) 독립과 포화 사이 중간 구조 — 정준상관·대응 분석
    ↓
(4) 공변량 × 반응 교호작용 — 다변량 회귀 (6.10)~(6.14)
    ↓
(5) 분해가능 모형 선택 — 해석 용이성·계산 효율성
    ↓
(6) LR 검정으로 모형 단순화

8 코드 예시

8.1 Step 1: 세 이항 반응의 조건부 독립성 검정

import numpy as np
import pandas as pd
import statsmodels.api as sm

rng = np.random.default_rng(0)
n = 400

# 진짜 인과: A → B → C (조건부 독립 A ⊥ C | B)
A = rng.binomial(1, 0.4, size=n)
B = rng.binomial(1, 0.3 + 0.4 * A)
C = rng.binomial(1, 0.2 + 0.5 * B)   # A 직접 영향 없음

# 3원 분할표
df = pd.DataFrame({"A": A, "B": B, "C": C, "count": 1})
tab = df.groupby(["A", "B", "C"]).count().reset_index()

# 로그선형 모형 비교 — 조건부 독립 vs 포화
fit_ci = sm.GLM.from_formula(
    "count ~ C(A)*C(B) + C(B)*C(C)",
    data=tab, family=sm.families.Poisson()
).fit()
fit_full = sm.GLM.from_formula(
    "count ~ C(A)*C(B) + C(B)*C(C) + C(A)*C(C)",
    data=tab, family=sm.families.Poisson()
).fit()

dD = fit_ci.deviance - fit_full.deviance
df_diff = fit_ci.df_resid - fit_full.df_resid
from scipy.stats import chi2
pval = 1 - chi2.cdf(dD, df_diff)

print(f"A⊥C|B 모형 이탈도 = {fit_ci.deviance:.2f} on {int(fit_ci.df_resid)} df")
print(f"포화 이탈도       = {fit_full.deviance:.2f} on {int(fit_full.df_resid)} df")
print(f"LR 통계량 = {dD:.2f} on {df_diff} df, p = {pval:.3f}")
print(f"→ 조건부 독립성 {'기각 안 함' if pval > 0.05 else '기각'}")

데이터를 \(A \to B \to C\) 로 생성했으므로 조건부 독립이 기각되지 않아야 한다.

8.2 Step 2: 분해가능 vs 비분해가능 — 닫힌 형식 vs 반복

import numpy as np

# $A*B + B*C$ (분해가능) 닫힌 형식 MLE
# mu_ijk = y_{ij.} * y_{.jk} / y_{.j.}
def mle_decomposable(tab_ABC):
    """shape: (k_A, k_B, k_C)"""
    y_AB = tab_ABC.sum(axis=2)       # (k_A, k_B)
    y_BC = tab_ABC.sum(axis=0)       # (k_B, k_C)
    y_B  = tab_ABC.sum(axis=(0, 2))  # (k_B,)
    mu = np.einsum("ij,jk,j->ijk", y_AB, y_BC, 1 / y_B)
    return mu

# 임의의 3원 분할표
tab = np.array([[[30, 20], [15, 25]],
                [[10, 15], [20, 30]]], dtype=float)
mu_closed = mle_decomposable(tab)
print("분해가능 모형의 MLE (닫힌 형식):")
print(mu_closed)

# 비분해가능 $A*B + B*C + A*C$ 는 IPF 반복 필요
# (간단한 IPF 구현)
def ipf_three_way(tab, max_iter=50, tol=1e-8):
    y_AB = tab.sum(axis=2)
    y_AC = tab.sum(axis=1)
    y_BC = tab.sum(axis=0)
    mu = np.ones_like(tab, dtype=float)
    for _ in range(max_iter):
        mu_old = mu.copy()
        # A*B margin 적합
        cur = mu.sum(axis=2)
        mu *= (y_AB / (cur + 1e-12))[:, :, None]
        # A*C margin
        cur = mu.sum(axis=1)
        mu *= (y_AC / (cur + 1e-12))[:, None, :]
        # B*C margin
        cur = mu.sum(axis=0)
        mu *= (y_BC / (cur + 1e-12))[None, :, :]
        if np.max(np.abs(mu - mu_old)) < tol:
            break
    return mu

mu_ipf = ipf_three_way(tab)
print("\n비분해가능 모형의 MLE (IPF 반복 후):")
print(mu_ipf)

분해가능은 한 수식, 비분해가능은 반복 수렴. 이 차이가 수천만 셀 분할표에서 실행 시간의 자릿수를 바꾼다.

8.3 R 대응

library(MASS)

# 3원 분할표 로그선형 — loglm
data <- xtabs(~ A + B + C, data = df)

fit_indep <- loglm(~ A + B + C, data)
fit_AB_BC <- loglm(~ A*B + B*C, data)       # A ⊥ C | B
fit_full  <- loglm(~ A*B*C, data)

anova(fit_indep, fit_AB_BC, fit_full)

# 정준상관 (log-bilinear) — gnm 패키지
library(gnm)
fit_canon <- gnm(count ~ A + B + Mult(A, B), family = poisson, data = ...)

9 자주 걸리는 함정

함정	증상	처방
조건부 독립 모형에서 인과 방향 단정	“\(A\) 가 \(C\) 의 원인” 잘못 주장	시간 순서·개입 정보 확인
비분해가능 모형을 분해가능으로 착각	닫힌 형식 시도 후 오답	특이성 체크로 사전 판정
정준상관의 \(\chi^2\) 근사 맹신	p-value 가 보수적	Wishart 기반 분포 참조
\(\eta_{ab}\) 에 \(\eta_a, \eta_b\) 에 없는 공변량 포함	해석 위계 깨짐	공통 공변량만 교호작용에
다변량 반응을 단일 다항으로 평탄화	구조 정보 손실	factorial contrast 로 분해
\(2^r - 1\) 모형식 전부 추정 시도	과적합, 해석 불가	의미 있는 부분만 active
대응분석 결과를 검정으로 보고	시각화 도구를 유의성 주장으로	모형 기반 (log-bilinear) 검정 사용
분해가능성 조건을 범주 수와 혼동	큰 분할표 = 분해가능으로 오해	모형식 구조의 문제

10 관련 주제

선행 지식

Log-linear Models — 개관
Likelihood Functions for Log-linear Models
Log-linear Examples
Log-linear 과 Multinomial Response 의 쌍대성
Measurement Scales — 순서·명목 구분

후속 주제 (placeholder)

관련 개념

대응 분석(Correspondence Analysis) — 정준상관의 그래픽 버전
인과 다이어그램과 조건부 독립성 — 경로 모형의 현대적 후손
Iterative Proportional Fitting — 비분해가능 MLE
Markov Random Field — 조건부 독립성의 그래프 해석
Pearson–Plackett 분포족 — 이변량 오즈비 copula

11 참고문헌

McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.5. Chapman & Hall.
Haberman, S. J. (1974a). The Analysis of Frequency Data. University of Chicago Press. — 분해가능성
Goodman, L. A. (1973). The analysis of multidimensional contingency tables when some variables are posterior to others. Biometrika, 60, 179–192.
Goodman, L. A. (1986). Some useful extensions of the usual correspondence analysis approach and the usual log-linear models approach. International Statistical Review, 54, 243–309.
Haberman, S. J. (1981). Tests for independence in two-way contingency tables based on canonical correlation and on linear-by-linear interaction. Annals of Statistics, 9, 1178–1186.
Plackett, R. L. (1965). A class of bivariate distributions. JASA, 60, 516–522.
Dale, J. R. (1984, 1986). Global cross-ratio models for bivariate discrete ordered responses. Biometrics, 42, 909–917.
Palmgren, J. (1981). The Fisher information matrix for log-linear models arguing conditionally on observed explanatory variables. Biometrika, 68, 563–566.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.10. Wiley.