조건부 우도 이론을 다범주 반응(polytomous data)에 적용한다. 명목형 매칭 쌍에서 quasi-symmetry/Bradley-Terry 모형을 유도하고, 순서형 반응에서 비례 오즈 모형의 조건부 추정을 전개한 뒤, 치즈 맛 실험으로 반복 계산 과정을 시연한다.
Statistics
GLM
저자
Kwangmin Kim
공개
2026년 04월 18일
1 이 장의 위치
§7.4에서 이항 자료(binary data)에 조건부 우도를 적용했다면, §7.5는 반응이 3개 이상의 범주를 가지는 다범주 자료(polytomous data)로 무대를 확장한다.
핵심 구조는 동일하다: 매칭 쌍(matched pairs) 설계에서 쌍별 기저 확률 \(\lambda_i\) 가 장해 모수이고, 충분통계량으로 조건부를 취해 관심 모수 \(\Delta\) 만 남긴다. 차이는 반응 척도에 따라 조건부 분포와 추정 전략이 달라진다는 점이다.
절
반응 척도
조건부 모형
핵심 결과
§7.5.1
명목(nominal)
\(k(k-1)/2\) 개 독립 이항
Quasi-symmetry = Bradley-Terry
§7.5.2
순서(ordinal)
\(k-1\) 개 비중심 초기하
가중 추정 방정식(quasi-likelihood)
§7.5.3
순서(예제)
치즈 맛 실험
조건부 vs 무조건부 MLE 비교
2 매칭 쌍: 명목형 반응 (§7.5.1)
2.1 설정
피험자를 쌍(pair)으로 매칭하고, 각 피험자에게서 \(k\) 개 범주 중 하나의 반응을 관측한다. 쌍 \(i\) 에서 대조군의 로그 반응 확률은
직관: \(\lambda_i\) 는 쌍마다 완전히 다를 수 있는 “기저 프로필”이고, \(\Delta = (\Delta_1, \ldots, \Delta_k)\) 는 처치가 각 범주의 로그 확률을 일정하게 밀어 올리거나 내리는 공통 처치 효과이다. 이항 자료(§7.4)에서 \(\lambda_i\) 가 스칼라였다면, 여기서는 \(k\) 차원 벡터로 확장된 것이다.
벡터합 \(Z_\bullet = Z_1 + Z_2\) 가 \(\lambda\) 의 충분통계량이다.
두 가지 경우:
\(Z_\bullet = (0, \ldots, 2, \ldots, 0)\): 두 피험자가 같은 범주에 응답. \(Z_\bullet\) 이 \((R_1, R_2)\) 를 완전히 결정하므로 조건부 분포가 퇴화(degenerate)한다. 이 쌍은 조건부 우도에 기여하지 않는다 — 이항 매칭 쌍에서 일치하는 쌍을 버리는 것과 같은 원리이다.
\(Z_\bullet = (0, \ldots, 1_i, \ldots, 1_j, \ldots, 0)\): 두 피험자가 범주 \(i, j\) (\(i \neq j\))에 각각 응답. 가능한 배치는 \((R_1, R_2) = (i, j)\) 또는 \((j, i)\) 뿐이다.
분자와 분모 모두 \(e^{\lambda_i + \lambda_j}\) 를 인수로 가지므로 약분된다. 이것은 이항 매칭 쌍에서 \(Y_1 | Y_\bullet\) 이 \(\lambda\) 에 무관한 것과 정확히 같은 메커니즘이다. 다범주로 확장했을 뿐, 충분통계량 조건부 소거의 원리는 동일하다.
2.3 Quasi-Symmetry 모형
모든 비일치 쌍 \((i, j)\) 에 대해 위 조건부 확률을 모으면, \(Y_{ij}\) (반응이 \((i, j)\) 인 쌍의 수)에 대해
\[
Y_{ij} \sim B(m_{ij},\, \pi_{ij}), \qquad i < j,
\]
여기서 \(m_{ij} = Y_{ij} + Y_{ji}\) 는 범주 \(i, j\) 에 응답한 쌍의 대칭 합계이다.
핵심 관찰 — 차이만 남는다. 조건부 분포의 로짓에 \(\Delta_i, \Delta_j\) 의 절대값이 아니라 차이 \(\Delta_j - \Delta_i\) 만 등장한다. 각 쌍의 기저 선호 수준 \(\lambda_{ij}\) (장해 모수) 가 조건화로 소거되고, 범주 간 상대적 선호 척도 만 남은 것이다. 그 결과 \(\{\Delta_j\}\) 에 공통 상수를 더해도 모든 \(\pi_{ij}\) 가 불변 — 이 구조적 비식별성 때문에 보통 \(\Delta_1 = 0\) 같은 정규화 제약을 덧붙인다.
직관: 조건부 우도는 \(k(k-1)/2\) 개의 독립 이항 인수의 곱이다. 각 인수는 “범주 \(i\) 와 \(j\) 에 응답한 쌍들 중에서, 대조군이 \(i\) 이고 처치군이 \(j\) 일 확률”을 로짓 모형으로 표현한다.
이 모형을 quasi-symmetry 모형이라 부르며, Caussinus (1965)가 처음 제안했다. 인구 이동(migration) 연구에서는 같은 모형이 중력 모형(gravity model) 으로 불린다.
2.4 Bradley-Terry 모형과의 동일성
모형 \(\operatorname{logit}(\pi_{ij}) = \Delta_j - \Delta_i\) 는 Bradley-Terry (1952) 모형과 형식적으로 동일하다.
\(k\) 명의 선수가 쌍별 대결을 한다
\(\pi_{ij}\) = 선수 \(i\) 가 선수 \(j\) 를 이길 확률
\(\Delta_j\) = 선수 \(j\) 의 “능력” (strength parameter)
직관: 매칭 쌍 실험에서 “처치군이 범주 \(j\) 에 응답”하는 것과 “선수 \(j\) 가 이기는 것”은 수학적으로 동일한 구조이다. 체스 Elo 레이팅, 스포츠 순위 시스템, 검색 엔진의 쌍별 비교 등 광범위한 응용이 이 모형에 기반한다.
2.5 모형 행렬의 특이한 구조
\(\Delta_j - \Delta_i\) 공식에 대응하는 모형 행렬 \(X\) 는 절편(intercept)을 포함하지 않으며, 상수 벡터가 \(X\) 의 열공간에 속하지 않는다.
이 \(3 \times 3\) 행렬은 랭크 2이고, 세 열의 합이 \(\mathbf{0}\) 이다.
직관: 각 행은 “차이”를 나타내므로 수준 상수(level constant)가 사라진다. 이는 ANOVA에서 처치 효과의 합이 0이 되도록 제약하는 것과 같은 원리이다. 따라서 \(\Delta\) 에는 항상 하나의 제약이 필요하다: \(\Delta_1 = 0\) (기준 범주) 또는 \(\sum \Delta_j = 0\) (합 제약).
2.6 모형 적합도 검정
quasi-symmetry 모형의 잔차 이탈도 또는 Pearson \(X^2\) 통계량의 자유도는
\[
\frac{(k-1)(k-2)}{2}.
\]
\(k = 3\) 이면 자유도 1, \(k = 4\) 이면 자유도 3이다. 자유도가 비교적 작으므로 모형 검정의 검정력이 높지 않을 수 있다.
3 매칭 쌍: 순서형 반응 (§7.5.2)
§7.5.1 의 명목형 반응은 범주 간 순서가 없어 각 범주의 선호 강도를 독립된 모수 \(\delta_j\) 로 따로 추정했다. 그러나 리커트 척도나 등급 평가처럼 범주가 자연 순서 (매우 싫음 < 싫음 < 좋음 < 매우 좋음) 를 가지면 이 설계는 정보를 낭비한다. \(k-1\) 개의 독립 모수 대신, 순서 구조를 반영한 단일 처치 효과 \(\Delta\) 로 압축하면 추정량의 자유도가 극적으로 증가한다. 이것이 Ch.5 의 비례 오즈 모형(proportional odds model)을 가져오는 동기이다.
수학적으로 핵심 변화는 이렇다. 명목형은 범주 지표 \(Y_{1j}\) 를 주변 합 \(s_j\) 로 따로 조건부 하면 각 절단점이 독립 이항 조건부 분포를 준다. 반면 순서형은 “\(\le j\)” 형태의 누적 확률 을 모형화하므로 누적 합 \(Z_{1j}\) 와 \(Z_{1,j+1}\) 이 구조적으로 종속이고, 이 상호 의존이 조건부 분포에도 남는다. 따라서 §7.4·§7.5.1 처럼 조건부 로그우도를 단순한 덧셈 형태로 분해할 수 없다 — 이 난점이 이후 가중 추정 방정식(quasi-likelihood) 으로 이어진다.
3.1 비례 오즈 모형의 조건부 버전
반응 범주가 순서를 가질 때 (예: 매우 싫음 < 싫음 < 좋음 < 매우 좋음), Ch.5의 비례 오즈 모형(proportional odds model)을 적용한다.
두 독립 다항 벡터 \(Y_1 \sim B(m_1, \pi_1)\), \(Y_2 \sim B(m_2, \pi_2)\) 에서 누적 확률 \(\gamma_{ij} = \Pr(\text{범주} \leq j)\) 가
직관: \(\theta_1, \ldots, \theta_{k-1}\) 은 기저 누적 로그 오즈이고, \(\Delta\) 는 모든 절단점(cut-point)에서 동일하게 작용하는 공통 처치 효과이다. “비례 오즈”라는 이름은 \(\Delta\) 가 어떤 절단점에서든 같은 오즈비 \(\psi = e^\Delta\) 를 산출하기 때문이다.
관심 모수는 \(\Delta\) 하나이고, \(k-1\) 개의 기저 모수 \(\theta_j\) 가 장해 모수이다.
이항 자료(§7.4.2)에서는 \(n\) 개 층의 조건부 분포가 독립이어서 조건부 로그우도가 단순한 합이었다. 그러나 순서형 반응에서는 \(Z_{1j} \mid S_j\) 들이 결합 조건부 분포로서 \(\theta\) 에도 의존한다. 즉, \(\{Z_{1j}\}\) 전체를 \(S = (S_1, \ldots, S_k)\) 로 조건부하면 \(\theta\) 가 완전히 소거되지 않는다.
이것이 명목형(§7.5.1)과의 본질적 차이이다. 명목형에서는 조건부 분포가 정확히 \(\Delta\) 만의 함수가 되었지만, 순서형에서는 그렇지 않다.
3.3 가중 추정 방정식 (Quasi-Likelihood 접근)
정확한 조건부 우도를 구성할 수 없으므로, 각 \(j\) 에서의 주변(marginal) 조건부 분포\(Z_{1j} \mid S_j\) 를 개별적으로 활용하는 추정 방정식을 구성한다.
왜 정확한 조건부 우도는 불가능한가.\(k-1\) 개의 비중심 초기하 분포 \(Z_{1j} \mid S_j\) (\(j = 1, \ldots, k-1\)) 들이 서로 다른 표본 공간 위에 정의되고 — 각 \(S_j\) 는 그 자신 이전 \(\{S_1, \ldots, S_{j-1}\}\) 에 조건부로 의존 — 결합 분포를 닫힌 형태(closed form)로 쓰려면 \(\{\theta_j\}\) 들이 소거되지 않고 재등장한다. 즉 “모든 \(S_j\) 로 한 번에 조건부” 를 취해도 장해 모수가 완전히 사라지지 않는다. 이것이 §7.4.2 의 독립 층(stratum) 구조와 본질적으로 다른 점이며, 주변 조건부 분포만 개별적으로 사용하는 준우도 접근이 실무적으로 유일한 타협이 되는 이유이다.
\(\chi_{1j}(\psi) = E(Z_{1j} \mid S_j;\, \psi)\) 를 비중심 초기하의 조건부 기댓값이라 하면, 각 \(j\) 에서의 잔차 \(Z_{1j} - \chi_{1j}(\psi)\) 는 \(S_j\) 에 조건부로 (따라서 무조건부로도) 기댓값 0이다.
명목형 매칭 쌍: 벡터합 \(Z_\bullet\) 으로 조건부 취하면 \(k(k-1)/2\) 개의 독립 이항이 되고, \(\operatorname{logit}(\pi_{ij}) = \Delta_j - \Delta_i\) (quasi-symmetry = Bradley-Terry). 일치 쌍은 우도에 기여하지 않는다.
순서형 매칭 쌍: 누적 합계 \(S_j\) 로 조건부 취하면 각 절단점에서 비중심 초기하가 되지만, 결합 분포는 \(\theta\) 에도 의존한다. 가중 추정 방정식(quasi-likelihood)으로 \(\hat{\Delta}_c\) 를 구하며, 효율 손실은 거의 없다.
치즈 맛 실험: 조건부 MLE \(\hat{\Delta}_c = -2.974\) (s.e. 0.452)은 무조건부 MLE \(\hat{\Delta} = -3.028\) (s.e. 0.455)과 표준오차의 12% 이내로 차이가 있으며, 결론에 실질적 영향이 없다.
Subscribe
Enjoy this blog? Get notified of new posts by email: