1 왜 “다중 반응”이 별도 주제인가
Ch.5 (polytomous) 와 §6.4 (log-linear 다항 쌍대성) 에서는 반응이 단일 범주형 변수 라고 가정했다. 그러나 현실에서는 한 단위에 여러 범주형 반응이 동시에 기록되는 경우가 많다.
- 약물 임상시험: 주효과(치유) + 부작용(심각도) + 부작용(지속기간)
- 사회조사: 정치 성향 + 종교 + 인종에 대한 태도
- 마케팅: 브랜드 선택 + 구매 빈도 + 추천 여부
- 의료: 진단 범주 + 치료 반응 + 합병증
이런 상황에서 묻게 되는 질문은 단일 반응 때와 질적으로 다르다.
- 주변 의존성: 각 반응이 공변량 \(\mathbf{x}\) 에 어떻게 의존하는가?
- 반응 간 결합 분포: 여러 반응이 서로 어떻게 관련되어 있는가?
- 공변량이 결합 분포를 바꾸는가: \(\mathbf{x}\) 가 반응 간 교호작용에도 영향을 주는가?
임상적 예: “약이 병을 낫게는 하는데 부작용이 너무 심한 사람만 낫는다” 면 치료 가치가 반감된다. 이는 주효과(\(A\)) 와 부작용(\(B\)) 의 교호작용을 확인 해야 드러나는 문제.
§6.5 는 다중 반응의 여섯 소절로 구성된다.
- §6.5.1 Introduction — 세 가지 질문, 주효과 vs 부작용 예시
- §6.5.2 조건부 독립성 — 경로 모형과 분해가능성(decomposability)
- §6.5.3 정준상관(canonical correlation) — 독립과 포화 사이의 중간 지대
- §6.5.4 다변량 회귀 — \(\boldsymbol{\eta} = \mathbf{C} \log \boldsymbol{\gamma}\) 의 체계
- §6.5.5 다변량 모형식 표기 — \(2^r - 1\) 개 모형식의 문법
- §6.5.6~7 로그선형 회귀 모형과 우도방정식 (기술적 세부)
이 포스트는 1–5 를 중심으로 정리한다.
2 §6.5.1 세 가지 질문의 통합
세 반응 \(A, B, C\) 를 관측한다고 하자. McCullagh 가 제안하는 분석 순서는 다음과 같다.
2.1 1단계 — 각 반응의 주변 회귀
먼저 각 반응 개별적으로 공변량에 대한 회귀 모형을 적합한다. 순서형이면 비례 오즈(§5.2.2), 명목형이면 기준범주 로짓(§5.2.4). 이것은 \(r\) 개의 독립 단일 반응 분석.
왜 먼저 주변부터: 어느 공변량이 어느 반응에 영향을 주는가를 빨리 파악하기 위함. 상호 의존성은 나중에 본다.
2.2 2단계 — 반응 간 결합 분포
공변량을 잠시 제쳐 두고 반응 간 관계만 본다. \(A\) 와 \(B\) 가 독립인가? \(A\) 가 \(B\) 에 영향을 주는가? 이것이 §6.5.2 의 주제.
2.3 3단계 — 공변량 × 반응 교호작용
공변량 \(\mathbf{x}\) 가 반응 간 교호작용까지 바꾸는가를 본다. “처리가 공변량에 따라 주효과와 부작용의 관계를 바꾸는가” 같은 질문. §6.5.4 가 이를 다룬다.
2.4 약물 임상시험 예시 — Table 6.5
| Target effect | Side-effect 심각도 | Side-effect 지속기간 |
|---|---|---|
| complete cure | none | temporary |
| partial cure | mild | permanent |
| no improvement | moderate | |
| severe |
직관적 관찰:
- 심각도와 지속기간은 “부작용이 없으면 지속기간이 의미 없다” → 변동 독립 아님 (variation dependent). 통계적으로도 독립일 수 없음
- 그러나 “부작용이 있다는 조건 하에서” 는 둘이 독립일 수 있음 → 조건부 독립
- 따라서 결합 분포는 “부작용 유/무 → 있다면 심각도 × 지속기간 독립” 구조로 계층화
이것이 §6.5.2 의 조건부 독립성 모형이 자연스러운 이유.
3 §6.5.2 독립성·조건부 독립성·분해가능성
3.1 모형식 독해법 — 로그선형 분할표 표기
다중 반응 \(A, B, C\) 에 대한 로그선형 모형을 factor interaction notation 으로 쓴다.
| 모형식 | 뜻 | 모수 수 (범주 \(k_A, k_B, k_C\)) |
|---|---|---|
| \(A + B + C\) | 완전 독립 | \(k_A + k_B + k_C - 2\) |
| \(A*B + C\) | \(C\) 가 \((A,B)\) 와 독립 | \(k_A k_B + k_C - 1\) |
| \(A*B + B*C\) | \(A \perp C \mid B\) | (이보다 복잡) |
| \(A*B + B*C + A*C\) | 세 반응 간 두 쌍씩 교호작용 (3차 교호작용 없음) | |
| \(A*B*C\) | 포화 | \(k_A k_B k_C - 1\) |
3.2 조건부 독립성의 경로 해석
\(A*B + B*C\) 모형은 “\(A\) 와 \(C\) 가 \(B\) 를 조건으로 독립” 이다. 즉
\[ \Pr(A, C \mid B) = \Pr(A \mid B) \cdot \Pr(C \mid B). \]
경로 다이어그램:
\[ A \longrightarrow B \longrightarrow C \]
왜 쉽게 시각화되는가: \(B\) 를 “고정” 하면 \(A\) 와 \(C\) 사이의 정보 흐름이 차단된다. 시계열의 마코프 성질 과 구조적으로 같다 — “현재(B)를 알면 과거(A)와 미래(C)가 독립”.
3.3 인과 방향의 모호성
\(A*B + B*C\) 는 다음 세 경로 해석을 모두 허용한다.
\[ A \to B \to C, \qquad C \to B \to A, \qquad A \leftarrow B \to C. \]
마지막 것은 “\(B\) 가 \(A, C\) 의 공통 원인” 이다. 조건부 독립성 모형식만으로는 인과 방향을 결정할 수 없다 — 방향 추론에는 시간 순서나 외부 개입(intervention) 정보가 추가로 필요하다.
3.4 조건부 독립성 검정
“경로 \(A \to B \to C\) 가 맞다” 는 “\(A\) 가 \(C\) 에 직접 영향을 주지 않는다” 를 의미. 이를 검정하려면 두 모형의 이탈도를 비교:
\[ M_0: \;\; A*B + B*C \qquad \text{vs.} \qquad M_1: \;\; A*B + B*C + C*A. \]
\(M_0 \subset M_1\) 이며, 이탈도 감소 \(D(M_0) - D(M_1) \sim \chi^2_{\text{df diff}}\) (귀무 하). 유의한 감소 = 조건부 독립성 기각.
3.5 분해가능성 (Decomposability) — Haberman (1974a)
다중 반응 로그선형 모형은 두 부류로 나뉜다.
| 부류 | 특징 | MLE |
|---|---|---|
| 분해가능(decomposable) | 조건부 독립성의 중첩으로 해석 가능 | 닫힌 형식(closed-form) |
| 비분해가능 | 순환 구조 포함 | 수치 반복 필요 (IPF, IRLS) |
분해가능 예: \(A*B + B*C\), \(A*B*C + B*D + C*D\) (첫 인자에 완전 교호작용 포함).
비분해가능 예: \(A*B + B*C + C*A\) (세 2차 교호작용으로 순환 생성, 3차 교호작용 없음).
3.6 분해가능성의 정확한 정의 — 특이성(Singularity)
모형 \(\mathcal{M}\) 이 특이(singular) 라는 것은 다음 중 하나가 성립하는 경우.
- 부분집합 \(\{A, B, C, D, \ldots\}\) 가 있어 모든 하위 교호작용은 포함되지만 최고차 교호작용은 누락
- 닫힌 고리(closed loop) \(A - B - C - \cdots - A\) 가 있고 인접 쌍은 모두 포함하지만 해당 고리의 3차 이상 교호작용은 없음
분해가능 = 특이성 없음.
예:
\[ \mathcal{M} = A*B*C + B*C*D + A*C*D \]
\(\{A, B, D\}\) 부분집합에서 \(A*B, A*D, B*D\) 는 모두 있지만 \(A*B*D\) 가 없다 → 특이성 1. \(\{A, B, C, D\}\) 전체에 대해 \(A*B*C, A*C*D, B*C*D\) 는 있지만 \(A*B*C*D\) 가 없다 → 특이성 2. 결국 비분해가능.
3.7 왜 분해가능성이 중요한가
분해가능 모형의 MLE 는 주변 표의 직접적 함수. 예를 들어 \(A*B + B*C\) 의 MLE 는
\[ \hat{\mu}_{ijk} = \frac{y_{ij+} \cdot y_{+jk}}{y_{+j+}} \]
로 반복 없이 바로 계산. 반면 비분해가능은 IPF 또는 뉴턴-라프슨 반복이 필요.
직관 — 왜 분해가능이면 닫힌 형식이 나오는가. \(A*B + B*C\) 구조에서는 공유 변수 \(B\) 가 조건부 독립 분리자(conditional independence separator) 로 작용한다. 즉 “\(B\) 를 고정하면 \(A\) 와 \(C\) 는 독립”이라는 조건부 독립성이 성립하므로, 결합분포가 “\(A,B\) 주변분포”와 “\(B,C\) 주변분포”의 곱을 \(B\) 주변분포로 나눈 형태로 깨끗이 분해된다. MLE 제약 \(\hat\mu_{ij+} = y_{ij+}\), \(\hat\mu_{+jk} = y_{+jk}\) 이 서로 겹치지 않는 주변 표 위에 놓여 있어 한 번에 해결 가능하다. 비분해가능 모형 (\(A*B + B*C + C*A\) 등) 은 주변 제약이 닫힌 고리로 얽혀 어느 하나도 다른 것 없이 풀 수 없어, IPF 가 주변을 한 축씩 돌아가며 반복 교정해야 한다 — 이 반복성이 거대 분할표에서 수렴 속도와 안정성에 결정적 영향을 준다.
실무적 함의:
- 분해가능 모형을 선택하면 거대 분할표에서도 계산이 빠르다
- 각 조건부 독립 구조가 직접 해석 가능
- 복잡한 비분해가능 모형보다 커뮤니케이션이 쉽다
4 §6.5.3 정준상관(Canonical Correlation) 모형
4.1 문제의 배경 — 두 극단 사이의 공백
두 반응 \(A\) (범주 \(k_A\)) 와 \(B\) (범주 \(k_B\)) 에 대해:
- 독립 모형 \(A + B\): 모수 \(k_A + k_B - 1\)
- 포화 모형 \(A*B\): 모수 \(k_A k_B\) — 자유 모수가 갑자기 많아짐
예컨대 \(k_A = k_B = 5\) 이면 독립 = 9개, 포화 = 25개. 중간 단계가 없다. 실제 데이터에는 “\(A\) 가 \(B\) 에 영향은 주지만 한 개의 축을 따라서만” 같은 중간 구조가 흔한데, 전통적 로그선형 분류법은 이를 잡을 도구가 없다.
4.2 점수 기반 중간 모형들
반응 범주에 점수(scores) \(s_1, s_2, \ldots\) 와 \(t_1, t_2, \ldots\) 가 주어져 있다면 중간 모형 작성이 가능하다.
| 모형식 | 수식 | 해석 |
|---|---|---|
| \(A + B + s.t\) | \(\alpha_i + \beta_j + \gamma\, s_i t_j\) | Birch linear×linear |
| \(A + B + A.t\) | \(\alpha_i + \beta_j + \gamma_i t_j\) | \(A\) 각 수준별로 \(B\) 점수 회귀 |
| \(A + B + A.t + B.s\) | \(\alpha_i + \beta_j + \gamma_i t_j + \delta_j s_i\) | 양방향 회귀 |
각 모형이 모수를 크게 절약하면서도 중간 구조를 표현. §5.2.3 의 구간형 척도 점수 모형과 본질이 같다.
4.3 점수가 없을 때 — Log-bilinear 모형 (식 6.9)
점수가 주어져 있지 않으면 로그선형 프레임워크 내에서 중간 모형을 만들 수 없다. 이럴 때 쓰는 것이 단일 루트 정준상관 모형:
\[ \eta_{ij} = \log \mu_{ij} = \alpha_i + \beta_j + \rho \epsilon_i \delta_j \tag{6.9} \]
여기서 \(\boldsymbol{\epsilon}, \boldsymbol{\delta}\) 는 제약 \(\sum_i \epsilon_i = \sum_j \delta_j = 0,\; \|\boldsymbol{\epsilon}\| = \|\boldsymbol{\delta}\| = 1\) 을 만족하는 데이터에서 추정할 점수 벡터이며 \(\rho \ge 0\) 는 연관 강도.
“log-bilinear” 라는 이름의 의미. 우변의 \(\rho \epsilon_i \delta_j\) 항은 행 점수 \(\boldsymbol\epsilon\) 을 고정하면 \(\boldsymbol\delta\) 에 선형이고, \(\boldsymbol\delta\) 를 고정하면 \(\boldsymbol\epsilon\) 에 선형이다 — 두 인덱스 방향 모두에 대해 선형 인 구조가 “쌍선형(bi-linear)”. 이것을 로그 스케일 (\(\log \mu\)) 에서 사용하므로 “log-bilinear”. 일반 GLM 의 선형 예측자가 한 번에 한 방향의 모수 \(\boldsymbol\beta\) 에 대해서만 선형 인 것과 달리, 여기서는 두 점수 벡터가 곱해져 있어 선형성이 한 단계 풀어진다. 이것이 GLM 프레임워크 경계 바깥에 놓이는 근본 이유이며, 표준 IRLS 가 그대로 적용되지 않는 출발점이다.
4.4 왜 “정준상관” 이라는 이름인가
MLE 방정식
\[ \sum_{ij} \hat\epsilon_i \hat\delta_j y_{ij} = \sum_{ij} \hat\epsilon_i \hat\delta_j \hat\mu_{ij} \]
좌변은 표본 공분산 \(\mathrm{E}(A_\epsilon B_\delta)\) 의 추정치, 우변은 적합 모형의 공분산. 등식이 성립한다는 것은 “적합 상관이 관측 상관과 같다” — 즉 \(\hat\rho\) 가 정준상관 (canonical correlation) 을 그대로 재현한다.
“Canonical” 의 의미. 수학에서 canonical 은 “회전·재파라미터화에 무관하게 데이터가 스스로 결정하는 표준 방향” 이라는 뜻. 여기서는 행·열 점수 \((\boldsymbol\epsilon, \boldsymbol\delta)\) 를 어떻게 잡아도 \(\rho\) 값이 같아지는 고유한 주축 (principal axis) 을 가리킨다. Hotelling (1936) 이 다변량 통계의 정준상관 분석에서 도입한 개념과 동일하다 — “두 집합의 변수 간 관계를 요약하는 유일한 최대 상관 축” 이다.
\(\rho = 0\) 이면 독립, \(\rho\) 가 커질수록 \(A, B\) 간 연관이 점수 축을 따라 강해진다.
4.5 GLM 프레임워크의 경계
식 (6.9) 는 일반화 선형 모형이 아니다. \(\rho \epsilon_i \delta_j\) 가 모수들의 곱 이므로 선형 예측자가 아니다. 결과적으로:
- 표준 IRLS 가 그대로 작동하지 않음 (대안 최적화 필요)
- \(\rho = 0\) 은 모수 공간 경계 — 정규 점근이론의 규칙성 조건이 깨짐
- LR 검정 통계량이 일반 \(\chi^2\) 이 아니라 Wishart 행렬의 최대 고유값 분포 (Haberman, 1981)
실무 주의: 소프트웨어 결과의 p-value 를 \(\chi^2\) 기준으로 믿으면 보수적 쪽으로 잘못 될 수 있다. 대개 실제보다 덜 유의하게 보고된다.
4.6 대응 분석(Correspondence Analysis) 과의 연결
\(\rho\) 가 작으면
\[ \mu_{ij} \approx \alpha_i' \beta_j' \{1 + \rho \epsilon_i \delta_j\} \]
로 전개. 이는 \(\mu_{ij}\) 표의 rank-2 근사 — 첫 특이값 성분. 대응 분석(correspondence analysis) 은 이 특이값 분해를 시각적 그래프 (행과 열을 동시에 2D 평면에 배치)로 풀어 보는 기법.
- 첫 특이값 \(\rho\): 두 변수 연관의 주 방향
- 해당 특이벡터 \(\epsilon, \delta\): 행·열 각각의 “점수”
- 둘째 이상 성분까지 포함하면 더 복잡한 구조 포착
Log-bilinear 모형 (Goodman, 1986) 은 대응 분석의 모형 기반 버전 — 시각화가 아니라 가설 검정·신뢰구간 구성이 가능.
4.7 언제 정준상관 모형을 쓰는가
- 행·열 범주에 자연 순서가 있지만 점수가 임의적 일 때
- 연관의 주축을 데이터로부터 찾고 싶을 때
- 포화 모형은 과적합이지만 독립 모형은 부적합한 중간 구조
NLP 의 단어-문맥 임베딩, 시장 조사의 브랜드-속성 연관 분석, 생태학의 종-환경 대응 등 “두 다수준 factor 의 연관 패턴” 을 찾는 상황에서 전형적.
5 §6.5.4 다변량 회귀 모형 (공변량이 있을 때)
5.1 체계적 접근의 세 단계
공변량 \(\mathbf{x}\) 가 있는 다중 반응 데이터의 모형화는 두 단계 변환으로 체계화한다.
1단계 — 확률 변환 (식 6.10):
\[ \boldsymbol{\gamma} = \mathbf{L}\boldsymbol{\pi} \]
\(\mathbf{L}\) 은 0/1 행렬. 셀 확률 \(\pi_{ijk}\) 를 해석 가능한 주변·조합 확률로 바꿔준다.
2단계 — 대조 변환 (식 6.11):
\[ \boldsymbol{\eta} = \mathbf{C} \log \boldsymbol{\gamma} \]
로그 확률을 인자별 대조(factorial contrasts) 로 정리.
5.2 \(2 \times 2 \times 2\) 의 구체적 예시
세 이항 반응 \(A, B, C\) 의 결합 분포는 8개 셀 확률 \(\pi_{ijk}\). 자유 모수는 \(2^3 - 1 = 7\) 개.
\(\boldsymbol{\gamma}\) 로는 주변·조합 확률 을 뽑는다.
| 타입 | 개수 | 예시 |
|---|---|---|
| 일변량 주변 | 6 | \(\pi_{i..}, \pi_{.j.}, \pi_{..k}\) |
| 이변량 주변 | 12 | \(\pi_{ij.}, \pi_{i.k}, \pi_{.jk}\) |
| 삼변량 주변 | 8 | \(\pi_{ijk}\) 자체 |
합 26 = 과잉 표현. 실제 자유도는 7이지만 중복을 허용해 대칭적으로 표기.
5.3 대조 벡터 \(\boldsymbol{\eta}\)
일변량 대조 (각 반응의 로그 오즈):
\[ \eta_a = \log \pi_{1..} - \log \pi_{2..}, \quad \eta_b = \log \pi_{.1.} - \log \pi_{.2.}, \quad \eta_c = \log \pi_{..1} - \log \pi_{..2}. \]
이변량 대조 (반응 쌍의 교호작용):
\[ \eta_{ab} = \log \pi_{11.} - \log \pi_{12.} - \log \pi_{21.} + \log \pi_{22.}. \]
이것은 \(\log(\pi_{11.}\pi_{22.}) - \log(\pi_{12.}\pi_{21.})\) = 로그 오즈비. 두 반응 \(A, B\) 의 연관 측도.
삼변량 대조 \(\eta_{abc}\) — 세 반응의 3차 교호작용, 부호가 (±±±) 로 교대.
5.4 가장 단순한 다변량 모형 (식 6.12·6.13)
\[ \eta_a(\mathbf{x}) = \boldsymbol{\beta}_a^\top \mathbf{x}, \quad \eta_b(\mathbf{x}) = \boldsymbol{\beta}_b^\top \mathbf{x}, \quad \eta_c(\mathbf{x}) = \boldsymbol{\beta}_c^\top \mathbf{x} \tag{6.12} \]
\[ \eta_{ab}(\mathbf{x}) = \eta_{ac}(\mathbf{x}) = \eta_{bc}(\mathbf{x}) = \eta_{abc}(\mathbf{x}) = 0. \tag{6.13} \]
의미: (6.12) — 각 반응이 공변량에 로지스틱 회귀. (6.13) — 세 반응이 공변량을 고정한 조건 하에 서로 독립.
5.5 공변량은 있지만 반응 간 교호작용이 있는 모형 (식 6.14)
교호작용을 공변량 불변 상수 로 고정:
\[ \eta_{ab}(\mathbf{x}) = \eta_{ab} \text{ (상수)}, \quad \eta_{ac}(\mathbf{x}) = \eta_{ac}, \quad \eta_{bc}(\mathbf{x}) = \eta_{bc}, \quad \eta_{abc}(\mathbf{x}) = \eta_{abc}. \tag{6.14} \]
주장: “공변량이 각 반응의 주변 확률에는 영향을 주지만, 반응 간 연관 구조는 바꾸지 않는다”. 임상 예시에서 “처리가 치유율·부작용률을 각각 바꾸지만 치유-부작용 상관 자체는 처리에 무관” 이라는 가정.
5.6 무엇을 공변량 공통으로 두어야 하는가
McCullagh 의 원칙: \(\eta_{ab}(\mathbf{x})\) 에 들어가는 공변량은 \(\eta_a(\mathbf{x})\) 와 \(\eta_b(\mathbf{x})\) 에 모두** 들어있는 것이어야 한다**. 이유:
- \(\mathbf{x}\) 가 \(A\) 에 영향을 주지 않으면(\(\eta_a\) 에 없으면), \(A\) 와 \(B\) 의 연관을 바꿀 메커니즘도 없음
- 마찬가지로 \(\eta_{abc}\) 는 \(\eta_{ab}, \eta_{ac}, \eta_{bc}\) 모두에 등장한 공변량만
이 규칙은 과적합 방지 와 해석의 위계를 동시에 보장한다.
5.7 순서형 이변량 반응 — 누적 로짓 버전
\(A, B\) 가 모두 순서형이면 주변 확률 대신 누적 확률
\[ \gamma_{i.} = \Pr(A \le i), \quad \gamma_{.j} = \Pr(B \le j), \quad \gamma_{ij} = \Pr(A \le i, B \le j) \]
을 쓴다. 일변량 대조는 비례 오즈 로짓
\[ \eta_{ai} = \text{logit}\,\gamma_{i.}, \quad \eta_{bj} = \text{logit}\,\gamma_{.j}. \]
이변량 대조는 누적 로그 오즈비
\[ \eta_{abij} = \log \gamma_{ij} - \log(\gamma_{i.} - \gamma_{ij}) - \log(\gamma_{.j} - \gamma_{ij}) + \log \bar\gamma_{ij} \]
(여기서 \(\bar\gamma_{ij} = \Pr(A > i, B > j)\)). 이 대조가 상수 \(\eta_{abij} = \eta_{ab}\) 로 고정되면 Pearson–Plackett 분포 족 (Plackett, 1965; Dale, 1984, 1986).
실무적 의미: 두 순서형 반응의 연관을 단일 오즈비 로 요약. 비례 오즈의 이변량 버전. 의료·사회조사에서 두 순서형 척도 간 관계를 간결히 기술할 수 있다.
6 §6.5.5 다변량 모형식 표기법
단일 반응 로그선형에서는 모형식 하나면 충분했지만, 다변량 반응에서는 \(2^r - 1\) 개의 모형식 (각 인자별 대조 클래스마다 하나)이 필요하다.
6.1 세 반응의 경우 — 7개 클래스
| 클래스 | 모수 수 | 표기 |
|---|---|---|
| \(A\) 주효과 | \(k_A - 1\) | A:x |
| \(B\) 주효과 | \(k_B - 1\) | B:x |
| \(C\) 주효과 | \(k_C - 1\) | C:x |
| \(A \cdot B\) 교호작용 | \((k_A-1)(k_B-1)\) | AB:x |
| \(A \cdot C\) 교호작용 | \((k_A-1)(k_C-1)\) | AC:x |
| \(B \cdot C\) 교호작용 | \((k_B-1)(k_C-1)\) | BC:x |
| \(A \cdot B \cdot C\) 교호작용 | \((k_A-1)(k_B-1)(k_C-1)\) | ABC:x |
총 7개 (= \(2^3 - 1\)).
6.2 모형식 쓰기
식 (6.12)·(6.13) 은
A : x ; B : x ; C : x
로 각 주효과만 공변량 회귀, 나머지는 생략(= null). 축약 표기:
\[ (A; B; C) : x. \]
식 (6.12)·(6.14) 는 주효과에 공변량 + 교호작용은 공변량 무관 상수:
\[ (A; B; C) : x; \quad AB; AC; BC; ABC : 1. \]
여기서 : 1 은 “공변량 효과 없음, 상수 모수 하나씩” 을 의미.
6.3 왜 이 문법이 필요한가
- 반응 요인 수 \(r\) 이 증가하면 모형식 수 \(2^r - 1\) 이 지수적으로 증가
- 각 요인 클래스마다 독립적 공변량 선택 이 가능해야 유연함 확보
- 주효과 / 교호작용별로 다른 링크 함수 (로지스틱 vs 누적 로짓) 를 쓸 수도 있음
현대 R 패키지 VGAM 이나 통계 교재의 계층적 GLM 라이브러리가 이 문법의 정신을 따르고 있다.
7 전체 흐름 요약
다중 반응 데이터
↓
(1) 각 반응 주변 회귀 — 공변량의 개별 효과 파악
↓
(2) 반응 간 결합 분포 — 독립·조건부 독립·분해가능성 검토
↓
(3) 독립과 포화 사이 중간 구조 — 정준상관·대응 분석
↓
(4) 공변량 × 반응 교호작용 — 다변량 회귀 (6.10)~(6.14)
↓
(5) 분해가능 모형 선택 — 해석 용이성·계산 효율성
↓
(6) LR 검정으로 모형 단순화
8 코드 예시
8.1 Step 1: 세 이항 반응의 조건부 독립성 검정
import numpy as np
import pandas as pd
import statsmodels.api as sm
rng = np.random.default_rng(0)
n = 400
# 진짜 인과: A → B → C (조건부 독립 A ⊥ C | B)
A = rng.binomial(1, 0.4, size=n)
B = rng.binomial(1, 0.3 + 0.4 * A)
C = rng.binomial(1, 0.2 + 0.5 * B) # A 직접 영향 없음
# 3원 분할표
df = pd.DataFrame({"A": A, "B": B, "C": C, "count": 1})
tab = df.groupby(["A", "B", "C"]).count().reset_index()
# 로그선형 모형 비교 — 조건부 독립 vs 포화
fit_ci = sm.GLM.from_formula(
"count ~ C(A)*C(B) + C(B)*C(C)",
data=tab, family=sm.families.Poisson()
).fit()
fit_full = sm.GLM.from_formula(
"count ~ C(A)*C(B) + C(B)*C(C) + C(A)*C(C)",
data=tab, family=sm.families.Poisson()
).fit()
dD = fit_ci.deviance - fit_full.deviance
df_diff = fit_ci.df_resid - fit_full.df_resid
from scipy.stats import chi2
pval = 1 - chi2.cdf(dD, df_diff)
print(f"A⊥C|B 모형 이탈도 = {fit_ci.deviance:.2f} on {int(fit_ci.df_resid)} df")
print(f"포화 이탈도 = {fit_full.deviance:.2f} on {int(fit_full.df_resid)} df")
print(f"LR 통계량 = {dD:.2f} on {df_diff} df, p = {pval:.3f}")
print(f"→ 조건부 독립성 {'기각 안 함' if pval > 0.05 else '기각'}")데이터를 \(A \to B \to C\) 로 생성했으므로 조건부 독립이 기각되지 않아야 한다.
8.2 Step 2: 분해가능 vs 비분해가능 — 닫힌 형식 vs 반복
import numpy as np
# $A*B + B*C$ (분해가능) 닫힌 형식 MLE
# mu_ijk = y_{ij.} * y_{.jk} / y_{.j.}
def mle_decomposable(tab_ABC):
"""shape: (k_A, k_B, k_C)"""
y_AB = tab_ABC.sum(axis=2) # (k_A, k_B)
y_BC = tab_ABC.sum(axis=0) # (k_B, k_C)
y_B = tab_ABC.sum(axis=(0, 2)) # (k_B,)
mu = np.einsum("ij,jk,j->ijk", y_AB, y_BC, 1 / y_B)
return mu
# 임의의 3원 분할표
tab = np.array([[[30, 20], [15, 25]],
[[10, 15], [20, 30]]], dtype=float)
mu_closed = mle_decomposable(tab)
print("분해가능 모형의 MLE (닫힌 형식):")
print(mu_closed)
# 비분해가능 $A*B + B*C + A*C$ 는 IPF 반복 필요
# (간단한 IPF 구현)
def ipf_three_way(tab, max_iter=50, tol=1e-8):
y_AB = tab.sum(axis=2)
y_AC = tab.sum(axis=1)
y_BC = tab.sum(axis=0)
mu = np.ones_like(tab, dtype=float)
for _ in range(max_iter):
mu_old = mu.copy()
# A*B margin 적합
cur = mu.sum(axis=2)
mu *= (y_AB / (cur + 1e-12))[:, :, None]
# A*C margin
cur = mu.sum(axis=1)
mu *= (y_AC / (cur + 1e-12))[:, None, :]
# B*C margin
cur = mu.sum(axis=0)
mu *= (y_BC / (cur + 1e-12))[None, :, :]
if np.max(np.abs(mu - mu_old)) < tol:
break
return mu
mu_ipf = ipf_three_way(tab)
print("\n비분해가능 모형의 MLE (IPF 반복 후):")
print(mu_ipf)분해가능은 한 수식, 비분해가능은 반복 수렴. 이 차이가 수천만 셀 분할표에서 실행 시간의 자릿수를 바꾼다.
8.3 R 대응
library(MASS)
# 3원 분할표 로그선형 — loglm
data <- xtabs(~ A + B + C, data = df)
fit_indep <- loglm(~ A + B + C, data)
fit_AB_BC <- loglm(~ A*B + B*C, data) # A ⊥ C | B
fit_full <- loglm(~ A*B*C, data)
anova(fit_indep, fit_AB_BC, fit_full)
# 정준상관 (log-bilinear) — gnm 패키지
library(gnm)
fit_canon <- gnm(count ~ A + B + Mult(A, B), family = poisson, data = ...)9 자주 걸리는 함정
| 함정 | 증상 | 처방 |
|---|---|---|
| 조건부 독립 모형에서 인과 방향 단정 | “\(A\) 가 \(C\) 의 원인” 잘못 주장 | 시간 순서·개입 정보 확인 |
| 비분해가능 모형을 분해가능으로 착각 | 닫힌 형식 시도 후 오답 | 특이성 체크로 사전 판정 |
| 정준상관의 \(\chi^2\) 근사 맹신 | p-value 가 보수적 | Wishart 기반 분포 참조 |
| \(\eta_{ab}\) 에 \(\eta_a, \eta_b\) 에 없는 공변량 포함 | 해석 위계 깨짐 | 공통 공변량만 교호작용에 |
| 다변량 반응을 단일 다항으로 평탄화 | 구조 정보 손실 | factorial contrast 로 분해 |
| \(2^r - 1\) 모형식 전부 추정 시도 | 과적합, 해석 불가 | 의미 있는 부분만 active |
| 대응분석 결과를 검정으로 보고 | 시각화 도구를 유의성 주장으로 | 모형 기반 (log-bilinear) 검정 사용 |
| 분해가능성 조건을 범주 수와 혼동 | 큰 분할표 = 분해가능으로 오해 | 모형식 구조의 문제 |
10 관련 주제
선행 지식
- Log-linear Models — 개관
- Likelihood Functions for Log-linear Models
- Log-linear Examples
- Log-linear 과 Multinomial Response 의 쌍대성
- Measurement Scales — 순서·명목 구분
후속 주제 (placeholder)
관련 개념
- 대응 분석(Correspondence Analysis) — 정준상관의 그래픽 버전
- 인과 다이어그램과 조건부 독립성 — 경로 모형의 현대적 후손
- Iterative Proportional Fitting — 비분해가능 MLE
- Markov Random Field — 조건부 독립성의 그래프 해석
- Pearson–Plackett 분포족 — 이변량 오즈비 copula
11 참고문헌
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §6.5. Chapman & Hall.
- Haberman, S. J. (1974a). The Analysis of Frequency Data. University of Chicago Press. — 분해가능성
- Goodman, L. A. (1973). The analysis of multidimensional contingency tables when some variables are posterior to others. Biometrika, 60, 179–192.
- Goodman, L. A. (1986). Some useful extensions of the usual correspondence analysis approach and the usual log-linear models approach. International Statistical Review, 54, 243–309.
- Haberman, S. J. (1981). Tests for independence in two-way contingency tables based on canonical correlation and on linear-by-linear interaction. Annals of Statistics, 9, 1178–1186.
- Plackett, R. L. (1965). A class of bivariate distributions. JASA, 60, 516–522.
- Dale, J. R. (1984, 1986). Global cross-ratio models for bivariate discrete ordered responses. Biometrics, 42, 909–917.
- Palmgren, J. (1981). The Fisher information matrix for log-linear models arguing conditionally on observed explanatory variables. Biometrika, 68, 563–566.
- Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.10. Wiley.