Multiple Responses in Log-linear Models

다중 반응·조건부 독립성·분해가능성·정준상관·다변량 회귀 (McCullagh & Nelder §6.5)

한 관측 단위에 여러 범주형 반응이 동시에 기록될 때의 로그선형 모형을 정리한다. 경로 모형과 조건부 독립성, 분해가능성(decomposability)의 정의와 의미, 독립과 포화 사이의 정준상관·log-bilinear 모형, 다변량 로지스틱 회귀의 contrast 구성, 모형식 표기법을 수식과 직관을 함께 전개한다.

Statistics
GLM
저자

Kwangmin Kim

공개

2026년 04월 15일

1 왜 “다중 반응”이 별도 주제인가

Ch.5 (polytomous) 와 §6.4 (log-linear 다항 쌍대성) 에서는 반응이 단일 범주형 변수 라고 가정했다. 그러나 현실에서는 한 단위에 여러 범주형 반응이 동시에 기록되는 경우가 많다.

  • 약물 임상시험: 주효과(치유) + 부작용(심각도) + 부작용(지속기간)
  • 사회조사: 정치 성향 + 종교 + 인종에 대한 태도
  • 마케팅: 브랜드 선택 + 구매 빈도 + 추천 여부
  • 의료: 진단 범주 + 치료 반응 + 합병증

이런 상황에서 묻게 되는 질문은 단일 반응 때와 질적으로 다르다.

  1. 주변 의존성: 각 반응이 공변량 \(\mathbf{x}\) 에 어떻게 의존하는가?
  2. 반응 간 결합 분포: 여러 반응이 서로 어떻게 관련되어 있는가?
  3. 공변량이 결합 분포를 바꾸는가: \(\mathbf{x}\) 가 반응 간 교호작용에도 영향을 주는가?

임상적 예: “약이 병을 낫게는 하는데 부작용이 너무 심한 사람만 낫는다” 면 치료 가치가 반감된다. 이는 주효과(\(A\)) 와 부작용(\(B\)) 의 교호작용을 확인 해야 드러나는 문제.

§6.5 의 구성

§6.5 는 다중 반응의 여섯 소절로 구성된다.

  1. §6.5.1 Introduction — 세 가지 질문, 주효과 vs 부작용 예시
  2. §6.5.2 조건부 독립성 — 경로 모형과 분해가능성(decomposability)
  3. §6.5.3 정준상관(canonical correlation) — 독립과 포화 사이의 중간 지대
  4. §6.5.4 다변량 회귀\(\boldsymbol{\eta} = \mathbf{C} \log \boldsymbol{\gamma}\) 의 체계
  5. §6.5.5 다변량 모형식 표기\(2^r - 1\) 개 모형식의 문법
  6. §6.5.6~7 로그선형 회귀 모형과 우도방정식 (기술적 세부)

이 포스트는 1–5 를 중심으로 정리한다.


2 §6.5.1 세 가지 질문의 통합

세 반응 \(A, B, C\) 를 관측한다고 하자. McCullagh 가 제안하는 분석 순서는 다음과 같다.

2.1 1단계 — 각 반응의 주변 회귀

먼저 각 반응 개별적으로 공변량에 대한 회귀 모형을 적합한다. 순서형이면 비례 오즈(§5.2.2), 명목형이면 기준범주 로짓(§5.2.4). 이것은 \(r\) 개의 독립 단일 반응 분석.

왜 먼저 주변부터: 어느 공변량이 어느 반응에 영향을 주는가를 빨리 파악하기 위함. 상호 의존성은 나중에 본다.

2.2 2단계 — 반응 간 결합 분포

공변량을 잠시 제쳐 두고 반응 간 관계만 본다. \(A\)\(B\) 가 독립인가? \(A\)\(B\) 에 영향을 주는가? 이것이 §6.5.2 의 주제.

2.3 3단계 — 공변량 × 반응 교호작용

공변량 \(\mathbf{x}\) 가 반응 간 교호작용까지 바꾸는가를 본다. “처리가 공변량에 따라 주효과와 부작용의 관계를 바꾸는가” 같은 질문. §6.5.4 가 이를 다룬다.

2.4 약물 임상시험 예시 — Table 6.5

Target effect Side-effect 심각도 Side-effect 지속기간
complete cure none temporary
partial cure mild permanent
no improvement moderate
severe

직관적 관찰:

  • 심각도와 지속기간은 “부작용이 없으면 지속기간이 의미 없다” → 변동 독립 아님 (variation dependent). 통계적으로도 독립일 수 없음
  • 그러나 “부작용이 있다는 조건 하에서” 는 둘이 독립일 수 있음 → 조건부 독립
  • 따라서 결합 분포는 “부작용 유/무 → 있다면 심각도 × 지속기간 독립” 구조로 계층화

이것이 §6.5.2 의 조건부 독립성 모형이 자연스러운 이유.


3 §6.5.2 독립성·조건부 독립성·분해가능성

3.1 모형식 독해법 — 로그선형 분할표 표기

다중 반응 \(A, B, C\) 에 대한 로그선형 모형을 factor interaction notation 으로 쓴다.

모형식 모수 수 (범주 \(k_A, k_B, k_C\))
\(A + B + C\) 완전 독립 \(k_A + k_B + k_C - 2\)
\(A*B + C\) \(C\)\((A,B)\) 와 독립 \(k_A k_B + k_C - 1\)
\(A*B + B*C\) \(A \perp C \mid B\) (이보다 복잡)
\(A*B + B*C + A*C\) 세 반응 간 두 쌍씩 교호작용 (3차 교호작용 없음)
\(A*B*C\) 포화 \(k_A k_B k_C - 1\)

3.2 조건부 독립성의 경로 해석

\(A*B + B*C\) 모형은 “\(A\)\(C\)\(B\) 를 조건으로 독립” 이다. 즉

\[ \Pr(A, C \mid B) = \Pr(A \mid B) \cdot \Pr(C \mid B). \]

경로 다이어그램:

\[ A \longrightarrow B \longrightarrow C \]

왜 쉽게 시각화되는가: \(B\) 를 “고정” 하면 \(A\)\(C\) 사이의 정보 흐름이 차단된다. 시계열의 마코프 성질 과 구조적으로 같다 — “현재(B)를 알면 과거(A)와 미래(C)가 독립”.

3.3 인과 방향의 모호성

\(A*B + B*C\) 는 다음 세 경로 해석을 모두 허용한다.

\[ A \to B \to C, \qquad C \to B \to A, \qquad A \leftarrow B \to C. \]

마지막 것은 “\(B\)\(A, C\)공통 원인” 이다. 조건부 독립성 모형식만으로는 인과 방향을 결정할 수 없다 — 방향 추론에는 시간 순서나 외부 개입(intervention) 정보가 추가로 필요하다.

3.4 조건부 독립성 검정

“경로 \(A \to B \to C\) 가 맞다” 는 “\(A\)\(C\) 에 직접 영향을 주지 않는다” 를 의미. 이를 검정하려면 두 모형의 이탈도를 비교:

\[ M_0: \;\; A*B + B*C \qquad \text{vs.} \qquad M_1: \;\; A*B + B*C + C*A. \]

\(M_0 \subset M_1\) 이며, 이탈도 감소 \(D(M_0) - D(M_1) \sim \chi^2_{\text{df diff}}\) (귀무 하). 유의한 감소 = 조건부 독립성 기각.

3.5 분해가능성 (Decomposability) — Haberman (1974a)

다중 반응 로그선형 모형은 두 부류로 나뉜다.

부류 특징 MLE
분해가능(decomposable) 조건부 독립성의 중첩으로 해석 가능 닫힌 형식(closed-form)
비분해가능 순환 구조 포함 수치 반복 필요 (IPF, IRLS)

분해가능 예: \(A*B + B*C\), \(A*B*C + B*D + C*D\) (첫 인자에 완전 교호작용 포함).

비분해가능 예: \(A*B + B*C + C*A\) (세 2차 교호작용으로 순환 생성, 3차 교호작용 없음).

3.6 분해가능성의 정확한 정의 — 특이성(Singularity)

모형 \(\mathcal{M}\)특이(singular) 라는 것은 다음 중 하나가 성립하는 경우.

  1. 부분집합 \(\{A, B, C, D, \ldots\}\) 가 있어 모든 하위 교호작용은 포함되지만 최고차 교호작용은 누락
  2. 닫힌 고리(closed loop) \(A - B - C - \cdots - A\) 가 있고 인접 쌍은 모두 포함하지만 해당 고리의 3차 이상 교호작용은 없음

분해가능 = 특이성 없음.

:

\[ \mathcal{M} = A*B*C + B*C*D + A*C*D \]

\(\{A, B, D\}\) 부분집합에서 \(A*B, A*D, B*D\) 는 모두 있지만 \(A*B*D\) 가 없다 → 특이성 1. \(\{A, B, C, D\}\) 전체에 대해 \(A*B*C, A*C*D, B*C*D\) 는 있지만 \(A*B*C*D\) 가 없다 → 특이성 2. 결국 비분해가능.

3.7 왜 분해가능성이 중요한가

분해가능 모형의 MLE 는 주변 표의 직접적 함수. 예를 들어 \(A*B + B*C\) 의 MLE 는

\[ \hat{\mu}_{ijk} = \frac{y_{ij+} \cdot y_{+jk}}{y_{+j+}} \]

반복 없이 바로 계산. 반면 비분해가능은 IPF 또는 뉴턴-라프슨 반복이 필요.

직관 — 왜 분해가능이면 닫힌 형식이 나오는가. \(A*B + B*C\) 구조에서는 공유 변수 \(B\)조건부 독립 분리자(conditional independence separator) 로 작용한다. 즉 “\(B\) 를 고정하면 \(A\)\(C\) 는 독립”이라는 조건부 독립성이 성립하므로, 결합분포가 “\(A,B\) 주변분포”와 “\(B,C\) 주변분포”의 곱을 \(B\) 주변분포로 나눈 형태로 깨끗이 분해된다. MLE 제약 \(\hat\mu_{ij+} = y_{ij+}\), \(\hat\mu_{+jk} = y_{+jk}\) 이 서로 겹치지 않는 주변 표 위에 놓여 있어 한 번에 해결 가능하다. 비분해가능 모형 (\(A*B + B*C + C*A\) 등) 은 주변 제약이 닫힌 고리로 얽혀 어느 하나도 다른 것 없이 풀 수 없어, IPF 가 주변을 한 축씩 돌아가며 반복 교정해야 한다 — 이 반복성이 거대 분할표에서 수렴 속도와 안정성에 결정적 영향을 준다.

실무적 함의:

  • 분해가능 모형을 선택하면 거대 분할표에서도 계산이 빠르다
  • 각 조건부 독립 구조가 직접 해석 가능
  • 복잡한 비분해가능 모형보다 커뮤니케이션이 쉽다

4 §6.5.3 정준상관(Canonical Correlation) 모형

4.1 문제의 배경 — 두 극단 사이의 공백

두 반응 \(A\) (범주 \(k_A\)) 와 \(B\) (범주 \(k_B\)) 에 대해:

  • 독립 모형 \(A + B\): 모수 \(k_A + k_B - 1\)
  • 포화 모형 \(A*B\): 모수 \(k_A k_B\) — 자유 모수가 갑자기 많아짐

예컨대 \(k_A = k_B = 5\) 이면 독립 = 9개, 포화 = 25개. 중간 단계가 없다. 실제 데이터에는 “\(A\)\(B\) 에 영향은 주지만 한 개의 축을 따라서만” 같은 중간 구조가 흔한데, 전통적 로그선형 분류법은 이를 잡을 도구가 없다.

4.2 점수 기반 중간 모형들

반응 범주에 점수(scores) \(s_1, s_2, \ldots\)\(t_1, t_2, \ldots\) 가 주어져 있다면 중간 모형 작성이 가능하다.

모형식 수식 해석
\(A + B + s.t\) \(\alpha_i + \beta_j + \gamma\, s_i t_j\) Birch linear×linear
\(A + B + A.t\) \(\alpha_i + \beta_j + \gamma_i t_j\) \(A\) 각 수준별로 \(B\) 점수 회귀
\(A + B + A.t + B.s\) \(\alpha_i + \beta_j + \gamma_i t_j + \delta_j s_i\) 양방향 회귀

각 모형이 모수를 크게 절약하면서도 중간 구조를 표현. §5.2.3 의 구간형 척도 점수 모형과 본질이 같다.

4.3 점수가 없을 때 — Log-bilinear 모형 (식 6.9)

점수가 주어져 있지 않으면 로그선형 프레임워크 내에서 중간 모형을 만들 수 없다. 이럴 때 쓰는 것이 단일 루트 정준상관 모형:

\[ \eta_{ij} = \log \mu_{ij} = \alpha_i + \beta_j + \rho \epsilon_i \delta_j \tag{6.9} \]

여기서 \(\boldsymbol{\epsilon}, \boldsymbol{\delta}\) 는 제약 \(\sum_i \epsilon_i = \sum_j \delta_j = 0,\; \|\boldsymbol{\epsilon}\| = \|\boldsymbol{\delta}\| = 1\) 을 만족하는 데이터에서 추정할 점수 벡터이며 \(\rho \ge 0\) 는 연관 강도.

“log-bilinear” 라는 이름의 의미. 우변의 \(\rho \epsilon_i \delta_j\) 항은 행 점수 \(\boldsymbol\epsilon\) 을 고정하면 \(\boldsymbol\delta\) 에 선형이고, \(\boldsymbol\delta\) 를 고정하면 \(\boldsymbol\epsilon\) 에 선형이다 — 두 인덱스 방향 모두에 대해 선형 인 구조가 “쌍선형(bi-linear)”. 이것을 로그 스케일 (\(\log \mu\)) 에서 사용하므로 “log-bilinear”. 일반 GLM 의 선형 예측자가 한 번에 한 방향의 모수 \(\boldsymbol\beta\) 에 대해서만 선형 인 것과 달리, 여기서는 두 점수 벡터가 곱해져 있어 선형성이 한 단계 풀어진다. 이것이 GLM 프레임워크 경계 바깥에 놓이는 근본 이유이며, 표준 IRLS 가 그대로 적용되지 않는 출발점이다.

4.4 왜 “정준상관” 이라는 이름인가

MLE 방정식

\[ \sum_{ij} \hat\epsilon_i \hat\delta_j y_{ij} = \sum_{ij} \hat\epsilon_i \hat\delta_j \hat\mu_{ij} \]

좌변은 표본 공분산 \(\mathrm{E}(A_\epsilon B_\delta)\) 의 추정치, 우변은 적합 모형의 공분산. 등식이 성립한다는 것은 “적합 상관이 관측 상관과 같다” — 즉 \(\hat\rho\)정준상관 (canonical correlation) 을 그대로 재현한다.

“Canonical” 의 의미. 수학에서 canonical 은 “회전·재파라미터화에 무관하게 데이터가 스스로 결정하는 표준 방향” 이라는 뜻. 여기서는 행·열 점수 \((\boldsymbol\epsilon, \boldsymbol\delta)\) 를 어떻게 잡아도 \(\rho\) 값이 같아지는 고유한 주축 (principal axis) 을 가리킨다. Hotelling (1936) 이 다변량 통계의 정준상관 분석에서 도입한 개념과 동일하다 — “두 집합의 변수 간 관계를 요약하는 유일한 최대 상관 축” 이다.

\(\rho = 0\) 이면 독립, \(\rho\) 가 커질수록 \(A, B\) 간 연관이 점수 축을 따라 강해진다.

4.5 GLM 프레임워크의 경계

식 (6.9) 는 일반화 선형 모형이 아니다. \(\rho \epsilon_i \delta_j\) 가 모수들의 이므로 선형 예측자가 아니다. 결과적으로:

  • 표준 IRLS 가 그대로 작동하지 않음 (대안 최적화 필요)
  • \(\rho = 0\)모수 공간 경계 — 정규 점근이론의 규칙성 조건이 깨짐
  • LR 검정 통계량이 일반 \(\chi^2\) 이 아니라 Wishart 행렬의 최대 고유값 분포 (Haberman, 1981)

실무 주의: 소프트웨어 결과의 p-value 를 \(\chi^2\) 기준으로 믿으면 보수적 쪽으로 잘못 될 수 있다. 대개 실제보다 덜 유의하게 보고된다.

4.6 대응 분석(Correspondence Analysis) 과의 연결

\(\rho\) 가 작으면

\[ \mu_{ij} \approx \alpha_i' \beta_j' \{1 + \rho \epsilon_i \delta_j\} \]

로 전개. 이는 \(\mu_{ij}\) 표의 rank-2 근사 — 첫 특이값 성분. 대응 분석(correspondence analysis) 은 이 특이값 분해를 시각적 그래프 (행과 열을 동시에 2D 평면에 배치)로 풀어 보는 기법.

  • 첫 특이값 \(\rho\): 두 변수 연관의 주 방향
  • 해당 특이벡터 \(\epsilon, \delta\): 행·열 각각의 “점수”
  • 둘째 이상 성분까지 포함하면 더 복잡한 구조 포착

Log-bilinear 모형 (Goodman, 1986) 은 대응 분석의 모형 기반 버전 — 시각화가 아니라 가설 검정·신뢰구간 구성이 가능.

4.7 언제 정준상관 모형을 쓰는가

  • 행·열 범주에 자연 순서가 있지만 점수가 임의적 일 때
  • 연관의 주축을 데이터로부터 찾고 싶을 때
  • 포화 모형은 과적합이지만 독립 모형은 부적합한 중간 구조

NLP 의 단어-문맥 임베딩, 시장 조사의 브랜드-속성 연관 분석, 생태학의 종-환경 대응 등 “두 다수준 factor 의 연관 패턴” 을 찾는 상황에서 전형적.


5 §6.5.4 다변량 회귀 모형 (공변량이 있을 때)

5.1 체계적 접근의 세 단계

공변량 \(\mathbf{x}\) 가 있는 다중 반응 데이터의 모형화는 두 단계 변환으로 체계화한다.

1단계 — 확률 변환 (식 6.10):

\[ \boldsymbol{\gamma} = \mathbf{L}\boldsymbol{\pi} \]

\(\mathbf{L}\) 은 0/1 행렬. 셀 확률 \(\pi_{ijk}\)해석 가능한 주변·조합 확률로 바꿔준다.

2단계 — 대조 변환 (식 6.11):

\[ \boldsymbol{\eta} = \mathbf{C} \log \boldsymbol{\gamma} \]

로그 확률을 인자별 대조(factorial contrasts) 로 정리.

5.2 \(2 \times 2 \times 2\) 의 구체적 예시

세 이항 반응 \(A, B, C\) 의 결합 분포는 8개 셀 확률 \(\pi_{ijk}\). 자유 모수는 \(2^3 - 1 = 7\) 개.

\(\boldsymbol{\gamma}\) 로는 주변·조합 확률 을 뽑는다.

타입 개수 예시
일변량 주변 6 \(\pi_{i..}, \pi_{.j.}, \pi_{..k}\)
이변량 주변 12 \(\pi_{ij.}, \pi_{i.k}, \pi_{.jk}\)
삼변량 주변 8 \(\pi_{ijk}\) 자체

합 26 = 과잉 표현. 실제 자유도는 7이지만 중복을 허용해 대칭적으로 표기.

5.3 대조 벡터 \(\boldsymbol{\eta}\)

일변량 대조 (각 반응의 로그 오즈):

\[ \eta_a = \log \pi_{1..} - \log \pi_{2..}, \quad \eta_b = \log \pi_{.1.} - \log \pi_{.2.}, \quad \eta_c = \log \pi_{..1} - \log \pi_{..2}. \]

이변량 대조 (반응 쌍의 교호작용):

\[ \eta_{ab} = \log \pi_{11.} - \log \pi_{12.} - \log \pi_{21.} + \log \pi_{22.}. \]

이것은 \(\log(\pi_{11.}\pi_{22.}) - \log(\pi_{12.}\pi_{21.})\) = 로그 오즈비. 두 반응 \(A, B\) 의 연관 측도.

삼변량 대조 \(\eta_{abc}\) — 세 반응의 3차 교호작용, 부호가 (±±±) 로 교대.

5.4 가장 단순한 다변량 모형 (식 6.12·6.13)

\[ \eta_a(\mathbf{x}) = \boldsymbol{\beta}_a^\top \mathbf{x}, \quad \eta_b(\mathbf{x}) = \boldsymbol{\beta}_b^\top \mathbf{x}, \quad \eta_c(\mathbf{x}) = \boldsymbol{\beta}_c^\top \mathbf{x} \tag{6.12} \]

\[ \eta_{ab}(\mathbf{x}) = \eta_{ac}(\mathbf{x}) = \eta_{bc}(\mathbf{x}) = \eta_{abc}(\mathbf{x}) = 0. \tag{6.13} \]

의미: (6.12) — 각 반응이 공변량에 로지스틱 회귀. (6.13) — 세 반응이 공변량을 고정한 조건 하에 서로 독립.

5.5 공변량은 있지만 반응 간 교호작용이 있는 모형 (식 6.14)

교호작용을 공변량 불변 상수 로 고정:

\[ \eta_{ab}(\mathbf{x}) = \eta_{ab} \text{ (상수)}, \quad \eta_{ac}(\mathbf{x}) = \eta_{ac}, \quad \eta_{bc}(\mathbf{x}) = \eta_{bc}, \quad \eta_{abc}(\mathbf{x}) = \eta_{abc}. \tag{6.14} \]

주장: “공변량이 각 반응의 주변 확률에는 영향을 주지만, 반응 간 연관 구조는 바꾸지 않는다”. 임상 예시에서 “처리가 치유율·부작용률을 각각 바꾸지만 치유-부작용 상관 자체는 처리에 무관” 이라는 가정.

5.6 무엇을 공변량 공통으로 두어야 하는가

McCullagh 의 원칙: \(\eta_{ab}(\mathbf{x})\) 에 들어가는 공변량은 \(\eta_a(\mathbf{x})\)\(\eta_b(\mathbf{x})\)모두** 들어있는 것이어야 한다**. 이유:

  • \(\mathbf{x}\)\(A\) 에 영향을 주지 않으면(\(\eta_a\) 에 없으면), \(A\)\(B\)연관을 바꿀 메커니즘도 없음
  • 마찬가지로 \(\eta_{abc}\)\(\eta_{ab}, \eta_{ac}, \eta_{bc}\) 모두에 등장한 공변량만

이 규칙은 과적합 방지해석의 위계를 동시에 보장한다.

5.7 순서형 이변량 반응 — 누적 로짓 버전

\(A, B\) 가 모두 순서형이면 주변 확률 대신 누적 확률

\[ \gamma_{i.} = \Pr(A \le i), \quad \gamma_{.j} = \Pr(B \le j), \quad \gamma_{ij} = \Pr(A \le i, B \le j) \]

을 쓴다. 일변량 대조는 비례 오즈 로짓

\[ \eta_{ai} = \text{logit}\,\gamma_{i.}, \quad \eta_{bj} = \text{logit}\,\gamma_{.j}. \]

이변량 대조는 누적 로그 오즈비

\[ \eta_{abij} = \log \gamma_{ij} - \log(\gamma_{i.} - \gamma_{ij}) - \log(\gamma_{.j} - \gamma_{ij}) + \log \bar\gamma_{ij} \]

(여기서 \(\bar\gamma_{ij} = \Pr(A > i, B > j)\)). 이 대조가 상수 \(\eta_{abij} = \eta_{ab}\) 로 고정되면 Pearson–Plackett 분포 족 (Plackett, 1965; Dale, 1984, 1986).

실무적 의미: 두 순서형 반응의 연관을 단일 오즈비 로 요약. 비례 오즈의 이변량 버전. 의료·사회조사에서 두 순서형 척도 간 관계를 간결히 기술할 수 있다.


6 §6.5.5 다변량 모형식 표기법

단일 반응 로그선형에서는 모형식 하나면 충분했지만, 다변량 반응에서는 \(2^r - 1\) 개의 모형식 (각 인자별 대조 클래스마다 하나)이 필요하다.

6.1 세 반응의 경우 — 7개 클래스

클래스 모수 수 표기
\(A\) 주효과 \(k_A - 1\) A:x
\(B\) 주효과 \(k_B - 1\) B:x
\(C\) 주효과 \(k_C - 1\) C:x
\(A \cdot B\) 교호작용 \((k_A-1)(k_B-1)\) AB:x
\(A \cdot C\) 교호작용 \((k_A-1)(k_C-1)\) AC:x
\(B \cdot C\) 교호작용 \((k_B-1)(k_C-1)\) BC:x
\(A \cdot B \cdot C\) 교호작용 \((k_A-1)(k_B-1)(k_C-1)\) ABC:x

총 7개 (= \(2^3 - 1\)).

6.2 모형식 쓰기

식 (6.12)·(6.13) 은

A : x ;  B : x ;  C : x

로 각 주효과만 공변량 회귀, 나머지는 생략(= null). 축약 표기:

\[ (A; B; C) : x. \]

식 (6.12)·(6.14) 는 주효과에 공변량 + 교호작용은 공변량 무관 상수:

\[ (A; B; C) : x; \quad AB; AC; BC; ABC : 1. \]

여기서 : 1 은 “공변량 효과 없음, 상수 모수 하나씩” 을 의미.

6.3 왜 이 문법이 필요한가

  • 반응 요인 수 \(r\) 이 증가하면 모형식 수 \(2^r - 1\) 이 지수적으로 증가
  • 각 요인 클래스마다 독립적 공변량 선택 이 가능해야 유연함 확보
  • 주효과 / 교호작용별로 다른 링크 함수 (로지스틱 vs 누적 로짓) 를 쓸 수도 있음

현대 R 패키지 VGAM 이나 통계 교재의 계층적 GLM 라이브러리가 이 문법의 정신을 따르고 있다.


7 전체 흐름 요약

다중 반응 데이터
    ↓
(1) 각 반응 주변 회귀 — 공변량의 개별 효과 파악
    ↓
(2) 반응 간 결합 분포 — 독립·조건부 독립·분해가능성 검토
    ↓
(3) 독립과 포화 사이 중간 구조 — 정준상관·대응 분석
    ↓
(4) 공변량 × 반응 교호작용 — 다변량 회귀 (6.10)~(6.14)
    ↓
(5) 분해가능 모형 선택 — 해석 용이성·계산 효율성
    ↓
(6) LR 검정으로 모형 단순화

8 코드 예시

8.1 Step 1: 세 이항 반응의 조건부 독립성 검정

import numpy as np
import pandas as pd
import statsmodels.api as sm

rng = np.random.default_rng(0)
n = 400

# 진짜 인과: A → B → C (조건부 독립 A ⊥ C | B)
A = rng.binomial(1, 0.4, size=n)
B = rng.binomial(1, 0.3 + 0.4 * A)
C = rng.binomial(1, 0.2 + 0.5 * B)   # A 직접 영향 없음

# 3원 분할표
df = pd.DataFrame({"A": A, "B": B, "C": C, "count": 1})
tab = df.groupby(["A", "B", "C"]).count().reset_index()

# 로그선형 모형 비교 — 조건부 독립 vs 포화
fit_ci = sm.GLM.from_formula(
    "count ~ C(A)*C(B) + C(B)*C(C)",
    data=tab, family=sm.families.Poisson()
).fit()
fit_full = sm.GLM.from_formula(
    "count ~ C(A)*C(B) + C(B)*C(C) + C(A)*C(C)",
    data=tab, family=sm.families.Poisson()
).fit()

dD = fit_ci.deviance - fit_full.deviance
df_diff = fit_ci.df_resid - fit_full.df_resid
from scipy.stats import chi2
pval = 1 - chi2.cdf(dD, df_diff)

print(f"A⊥C|B 모형 이탈도 = {fit_ci.deviance:.2f} on {int(fit_ci.df_resid)} df")
print(f"포화 이탈도       = {fit_full.deviance:.2f} on {int(fit_full.df_resid)} df")
print(f"LR 통계량 = {dD:.2f} on {df_diff} df, p = {pval:.3f}")
print(f"→ 조건부 독립성 {'기각 안 함' if pval > 0.05 else '기각'}")

데이터를 \(A \to B \to C\) 로 생성했으므로 조건부 독립이 기각되지 않아야 한다.

8.2 Step 2: 분해가능 vs 비분해가능 — 닫힌 형식 vs 반복

import numpy as np

# $A*B + B*C$ (분해가능) 닫힌 형식 MLE
# mu_ijk = y_{ij.} * y_{.jk} / y_{.j.}
def mle_decomposable(tab_ABC):
    """shape: (k_A, k_B, k_C)"""
    y_AB = tab_ABC.sum(axis=2)       # (k_A, k_B)
    y_BC = tab_ABC.sum(axis=0)       # (k_B, k_C)
    y_B  = tab_ABC.sum(axis=(0, 2))  # (k_B,)
    mu = np.einsum("ij,jk,j->ijk", y_AB, y_BC, 1 / y_B)
    return mu

# 임의의 3원 분할표
tab = np.array([[[30, 20], [15, 25]],
                [[10, 15], [20, 30]]], dtype=float)
mu_closed = mle_decomposable(tab)
print("분해가능 모형의 MLE (닫힌 형식):")
print(mu_closed)

# 비분해가능 $A*B + B*C + A*C$ 는 IPF 반복 필요
# (간단한 IPF 구현)
def ipf_three_way(tab, max_iter=50, tol=1e-8):
    y_AB = tab.sum(axis=2)
    y_AC = tab.sum(axis=1)
    y_BC = tab.sum(axis=0)
    mu = np.ones_like(tab, dtype=float)
    for _ in range(max_iter):
        mu_old = mu.copy()
        # A*B margin 적합
        cur = mu.sum(axis=2)
        mu *= (y_AB / (cur + 1e-12))[:, :, None]
        # A*C margin
        cur = mu.sum(axis=1)
        mu *= (y_AC / (cur + 1e-12))[:, None, :]
        # B*C margin
        cur = mu.sum(axis=0)
        mu *= (y_BC / (cur + 1e-12))[None, :, :]
        if np.max(np.abs(mu - mu_old)) < tol:
            break
    return mu

mu_ipf = ipf_three_way(tab)
print("\n비분해가능 모형의 MLE (IPF 반복 후):")
print(mu_ipf)

분해가능은 한 수식, 비분해가능은 반복 수렴. 이 차이가 수천만 셀 분할표에서 실행 시간의 자릿수를 바꾼다.

8.3 R 대응

library(MASS)

# 3원 분할표 로그선형 — loglm
data <- xtabs(~ A + B + C, data = df)

fit_indep <- loglm(~ A + B + C, data)
fit_AB_BC <- loglm(~ A*B + B*C, data)       # A ⊥ C | B
fit_full  <- loglm(~ A*B*C, data)

anova(fit_indep, fit_AB_BC, fit_full)

# 정준상관 (log-bilinear) — gnm 패키지
library(gnm)
fit_canon <- gnm(count ~ A + B + Mult(A, B), family = poisson, data = ...)

9 자주 걸리는 함정

함정 증상 처방
조건부 독립 모형에서 인과 방향 단정 \(A\)\(C\) 의 원인” 잘못 주장 시간 순서·개입 정보 확인
비분해가능 모형을 분해가능으로 착각 닫힌 형식 시도 후 오답 특이성 체크로 사전 판정
정준상관의 \(\chi^2\) 근사 맹신 p-value 가 보수적 Wishart 기반 분포 참조
\(\eta_{ab}\)\(\eta_a, \eta_b\) 에 없는 공변량 포함 해석 위계 깨짐 공통 공변량만 교호작용에
다변량 반응을 단일 다항으로 평탄화 구조 정보 손실 factorial contrast 로 분해
\(2^r - 1\) 모형식 전부 추정 시도 과적합, 해석 불가 의미 있는 부분만 active
대응분석 결과를 검정으로 보고 시각화 도구를 유의성 주장으로 모형 기반 (log-bilinear) 검정 사용
분해가능성 조건을 범주 수와 혼동 큰 분할표 = 분해가능으로 오해 모형식 구조의 문제

10 관련 주제

선행 지식

후속 주제 (placeholder)

관련 개념


11 참고문헌

  • McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.5. Chapman & Hall.
  • Haberman, S. J. (1974a). The Analysis of Frequency Data. University of Chicago Press. — 분해가능성
  • Goodman, L. A. (1973). The analysis of multidimensional contingency tables when some variables are posterior to others. Biometrika, 60, 179–192.
  • Goodman, L. A. (1986). Some useful extensions of the usual correspondence analysis approach and the usual log-linear models approach. International Statistical Review, 54, 243–309.
  • Haberman, S. J. (1981). Tests for independence in two-way contingency tables based on canonical correlation and on linear-by-linear interaction. Annals of Statistics, 9, 1178–1186.
  • Plackett, R. L. (1965). A class of bivariate distributions. JASA, 60, 516–522.
  • Dale, J. R. (1984, 1986). Global cross-ratio models for bivariate discrete ordered responses. Biometrics, 42, 909–917.
  • Palmgren, J. (1981). The Fisher information matrix for log-linear models arguing conditionally on observed explanatory variables. Biometrika, 68, 563–566.
  • Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.10. Wiley.

Subscribe

Enjoy this blog? Get notified of new posts by email: