Kwangmin Kim - Measurement Scales for Polytomous Data

1 왜 “척도”부터 이야기하는가

다범주 반응 모형을 고를 때 가장 먼저 할 일은 분포를 고르는 것이 아니라 척도를 판별하는 것이다. 분포는 어차피 다항(multinomial)이다. 질문은 “이 \(k\) 개의 범주들이 서로 어떤 관계인가” 이다. 순서가 있는가, 거리가 있는가, 트리 구조인가, 아니면 그냥 서로 다른 이름들인가. 이 질문의 답이 링크함수와 모형식을 직접 결정한다.

§5.2 의 중심 주장

측정 척도는 네 가지 순수형(명목·순서·구간·계층)으로 나뉘며, 각 척도는 “어떤 변환이 반응의 정보를 훼손하지 않는가”에 따라 서로 다른 모형을 요구한다.

명목: 라벨을 재배열해도 동일해야 한다 → 범주 확률 \(\pi_j\) 을 직접 다룬다
순서: 인접 범주를 합쳐도 결론이 유지되어야 한다 → 누적 확률 \(\gamma_j\) 을 쓴다
구간: 범주에 수치 점수 \(s_j\) 가 붙는다 → 점수 가중 로그선형 을 쓴다
계층: 범주 집합이 트리 구조를 이룬다 → 단계별 조건부 이항 으로 분해한다

이 포스트는 McCullagh & Nelder (1989, §5.2.1–§5.2.5) 의 논리를 따라가며 각 척도의 정의·불변성·대표 모형·수식을 한 장소에서 정리한다.

2 §5.2.1 일반적 논점 — 순수 척도의 네 가지 유형

측정 척도는 여러 수준에서 분류할 수 있다. 가장 큰 구분은 순수 척도(pure scale) 와 복합 척도(compound scale) 이다. 이 장은 순수 척도를 주로 다룬다.

순수 척도의 네 유형:

유형	핵심 성질	허용되는 변환	무의미한 개념
명목(nominal)	범주는 교환 가능(exchangeable), 구조 없음	임의 순열	순서, 거리
순서(ordinal)	`첫째·둘째·…` 처럼 순서는 있으나 간격 의미 없음	순서 보존 단조변환	거리
구간(interval)	범주에 수치 점수 부여, 차이가 “분리”를 의미	아핀 변환(점수 스케일)	—
기수(cardinal)	절대영점·비율 의미 있음 (이 장에서는 다루지 않음)	스케일 변환	—

직관적 이해: 변환을 잃을 수 있는 것과 잃어서는 안 되는 것이 무엇인가를 생각하면 된다.

식품 선호 {excellent, good, fair, bad, appalling} — 순서를 뒤섞으면 의미가 깨진다 → 순서형
혈액형 {O, A, B, AB} — 순서를 뒤섞어도 아무 문제 없다 → 명목형
연령 구간 {20s, 30s, 40s, 50s} — 순서뿐 아니라 “20대와 30대의 차이 = 30대와 40대의 차이 = 10년” 이라는 거리 의미가 살아있다 → 구간형

이항(\(k = 2\))은 네 유형 모두의 특수 사례이며, 순서·거리의 구분 자체가 사라진다. 따라서 이항 GLM(Ch.4) 은 “척도 문제”를 피할 수 있었지만, \(k \ge 3\) 이 되는 순간 척도 판별이 모든 논의의 출발점이 된다.

실무에서의 판단:

애매한 경우	판단 요령
정치 성향(진보~보수)	일차원 축으로 해석하면 순서형, 진영으로만 보면 명목형 — 분석 목적에 따라 선택
머리색	회색조(light~dark)로 순서 매길 수 있으면 순서형, 아니면 명목형
신문 선호·TV 프로그램	보통 명목형으로 시작, 이후 특정 대조를 수동으로 분석

“순서가 있는가”는 데이터 그 자체가 아니라 분석 목적과 해석 의도에 의해 결정된다.

3 §5.2.2 순서형 척도 모형 — 누적 확률과 비례 오즈

순서형은 실무에서 가장 자주 마주친다. 식품 검사, 영상 판독, 정신·신체 건강 측정, 사회조사 등 “대부분 임의적·주관적 범주” 가 여기에 해당한다.

3.1 범주 통합 불변성이 모든 것의 출발점

순서형에서는 범주 경계가 연구자가 정한 임의 선택인 경우가 많다. 9점 척도를 쓸지 5점 척도를 쓸지, 어디서 자를지는 실험자 재량이다. 그렇다면 모형은

인접 범주를 합쳐도 같은 모수가 측정되어야 한다

는 성질을 가져야 한다. 이것을 범주 통합 불변성(invariance under category collapse) 이라 한다.

이 성질을 범주 확률 \(\pi_j\) 직접 모형으로는 얻기 어렵다. 반면 누적 확률

\[ \gamma_j(\mathbf{x}) = \Pr(Y \le j \mid \mathbf{x}) \]

기반 모형은 인접 범주 통합에 대해 경계 하나가 사라질 뿐이어서 나머지 경계에서의 \(\gamma_j\) 와 그에 따른 \(\beta\) 가 그대로 유지된다. 이것이 순서형에서 \(\gamma_j\) 를 주인공으로 삼는 근본 이유이다.

3.2 대표 모형: 비례 오즈 (식 5.1)

로지스틱 스케일에서 누적 확률을 선형 예측자와 평행 회귀로 연결한다.

\[ \log \frac{\gamma_j(\mathbf{x})}{1 - \gamma_j(\mathbf{x})} = \theta_j - \boldsymbol{\beta}^\top \mathbf{x}, \qquad j = 1, \ldots, k-1 \tag{5.1} \]

\(\theta_1 \le \theta_2 \le \cdots \le \theta_{k-1}\) — 확률의 단조성을 보장
\(\boldsymbol{\beta}\) 는 모든 경계 \(j\) 에 공통 — 평행 회귀(parallel regressions)
음수 부호는 관례. \(\boldsymbol{\beta}^\top \mathbf{x}\) 가 커질수록 높은 범주 확률이 증가

“비례 오즈” 이름의 유래 — 식 (5.2):

두 공변량 값 \(\mathbf{x}_1, \mathbf{x}_2\) 에서의 누적 오즈비는

\[ \frac{\gamma_j(\mathbf{x}_1) / (1 - \gamma_j(\mathbf{x}_1))}{\gamma_j(\mathbf{x}_2) / (1 - \gamma_j(\mathbf{x}_2))} = \exp\{-\boldsymbol{\beta}^\top (\mathbf{x}_1 - \mathbf{x}_2)\} \tag{5.2} \]

이며 이 값은 \(j\) 에 의존하지 않는다. 즉 범주 경계를 어디에 잡든 동일한 오즈비가 나온다.

직관: “\(x_1\) 과 \(x_2\) 가 반응을 위쪽으로 얼마나 밀어 올리는가” 를 측정하는 단일 숫자 \(\boldsymbol{\beta}\) 가 모든 경계에 공통 적용된다. 이 제약이 모형을 극도로 해석 가능하게 만드는 동시에, “진짜 그런가”를 데이터로 검정할 수 있게 한다.

3.3 대안 링크: 비례 위험 모형 (식 5.3)

보완 로그-로그(complementary log-log) 링크를 쓰면

\[ \log[-\log(1 - \gamma_j(\mathbf{x}))] = \theta_j - \boldsymbol{\beta}^\top \mathbf{x} \tag{5.3} \]

이 된다. 이것은 Cox (1972) 비례 위험 모형의 이산 버전이며, “범주 진입 시점”을 이산 생존시간처럼 해석할 때 자연스럽다. 잠재 분포가 극값(extreme-value) 분포에 대응한다.

3.4 왜 이런 형태인가 — 잠재변수 유도

식 (5.1) 은 관측되지 않는 연속변수의 구간화 로 유도된다. 잠재변수 \(Z\) 가 있어

\[ Z = \boldsymbol{\beta}^\top \mathbf{x} + \epsilon, \qquad \epsilon \sim \text{Logistic}(0, 1) \]

이고, \(Z\) 가 \(\theta_{j-1} < Z \le \theta_j\) 구간에 들면 \(Y = j\) 로 기록된다고 하자. 그러면

\[ \Pr(Y \le j \mid \mathbf{x}) = \Pr(Z \le \theta_j) = \Pr(\epsilon \le \theta_j - \boldsymbol{\beta}^\top \mathbf{x}) = \frac{\exp(\theta_j - \boldsymbol{\beta}^\top \mathbf{x})}{1 + \exp(\theta_j - \boldsymbol{\beta}^\top \mathbf{x})} \]

를 얻어 정확히 식 (5.1) 이 된다. 통증 점수, 만족도, 영상 판독 등급처럼 본질은 연속이지만 관측이 구간화된 상황과 정확히 맞물린다.

잠재변수의 존재가 “필요”한가

McCullagh 는 이렇게 주의한다: 잠재변수 \(Z\) 의 존재는 모형을 동기화 할 뿐 정당화의 필수 조건은 아니다. \(Z\) 가 실제로 있는지 보통 검증 불가능하며, 잠재변수 없이도 비례 오즈 모형은 유효하다. 유도는 “왜 하필 이 형태인가”에 대한 해석적 도움일 뿐이다.

3.5 분산이 공변량에 의존하는 일반화 — 식 (5.4)

잠재변수가 위치뿐 아니라 스케일 까지 공변량에 의존하면

\[ \frac{Z - \boldsymbol{\beta}^\top \mathbf{x}}{\exp(\boldsymbol{\tau}^\top \mathbf{x})} \sim \text{Logistic}(0,1) \]

가 되고, 누적 로짓은 비선형이 된다.

\[ \text{logit}\, \gamma_j(\mathbf{x}) = \frac{\theta_j - \boldsymbol{\beta}^\top \mathbf{x}}{\exp(\boldsymbol{\tau}^\top \mathbf{x})} \tag{5.4} \]

이 모형은 GLM 가족에 엄밀히 속하지는 않지만, 비례 오즈 가정의 검정 대안으로 유용하다. 만약 \(\boldsymbol{\tau} \ne 0\) 이면 오즈비가 \(j\) 에 따라 체계적으로 증가 또는 감소 하므로, “비례 오즈 위반”을 한 방향 으로 모형화할 수 있다.

3.6 비평행 회귀 — 유연성과 그 대가

경계마다 다른 기울기를 허용하면

\[ \theta_j + \boldsymbol{\beta}_j^\top \mathbf{x} \]

를 쓸 수 있다. 이 경우 모형식은 R + R.x(경계 factor \(R\) 과 공변량의 교호작용)이다. 장점은 유연성이고, 단점은 회귀선들이 언젠가 교차한다는 점이다. 교차가 공변량 관측 범위 밖 에서 일어나면 무시할 만하지만, 관측 범위 안에서 일어나면 “어떤 경계에서는 음의 확률”이라는 모순이 생긴다. 관측 범위가 좁을 때만 안전하게 쓸 수 있다.

3.7 비례 오즈 모형의 세 가지 단서

비례 오즈 모형을 쓰기 전 확인할 질문:

반응이 순서형인가? (명목형에 쓰면 임의 순서에 의존하는 결론이 나온다)
경계별 오즈비가 공통이라는 가정이 깨지지 않는가? (Brant 검정, 식 5.4 와의 비교)
회귀선 교차 가능성은? (비평행 회귀를 쓸 때만 걱정)

4 §5.2.3 구간형 척도 모형 — 점수와 로그선형

4.1 정의 — 구간 척도의 세 조건

구간 척도는 순서보다 한 단계 강한 구조를 요구한다.

범주 자체가 분석 관심 — 임의로 선택된 것이 아니다
인접 범주를 합치는 것이 보통 무의미 (범주 합치면 점수 계산 알고리즘이 필요해짐)
범주 \(j\) 에 기수 점수(cardinal score) \(s_j\) 가 붙어 있고, 점수 차이가 범주 간 “거리” 를 측정

현실에서의 희소성: McCullagh 는 이 세 조건을 모두 만족하는 척도는 실무에 드물다고 지적한다. 조건 1·2 는 만족해도 조건 3 (잘 정의된 기수 점수) 이 없는 경우가 많다. 반대로 그룹화된 연속 측정은 조건 3 은 자연히 만족하지만 조건 1·2 는 어긋난다. 현실적 타협으로 인공 점수 (보통 첫 \(k\) 정수)를 붙여 구간형처럼 다루기도 한다.

4.2 모형 구성의 세 옵션

구간 척도에는 세 가지 모형 선택지가 있다.

옵션 1 — 누적 확률 모형에 점수로 비례 오즈 완화 (식 5.5):

\[ \text{logit}\, \gamma_j(\mathbf{x}) = \theta_j - \{\boldsymbol{\beta}^\top \mathbf{x} + \boldsymbol{\zeta}^\top \mathbf{x}(c_j - \bar{c})\} \tag{5.5} \]

여기서 \(c_j\) 는 점수의 함수. 두 가지 대표 선택:

\[ c_j = \frac{s_j + s_{j+1}}{2}, \qquad c_j = \text{logit}\left(\frac{s_j + s_{j+1}}{2 s_\cdot}\right) \]

직관: 비례 오즈의 “공통 \(\boldsymbol{\beta}\)” 를 유지하되, 점수에 비례하는 추가 효과 \(\boldsymbol{\zeta}\) 를 허용한다. \(\boldsymbol{\zeta} = 0\) 이면 비례 오즈로 환원된다.

옵션 2 — 로그선형 점수 모형 (식 5.6·5.7):

기준 모형은 공변량 효과 없음:

\[ \eta_j(\mathbf{x}_i) = \log \pi_j(\mathbf{x}_i) = \eta_j + \alpha_i \tag{5.6} \]

여기서 \(\alpha_i\) 는 각 관측의 정규화 상수 — \(\pi_j\) 가 합 1이 되도록 만드는 역할이며, 모형 해석에 실질적 영향을 주지 않는다. 식 (5.6) 의 모형식은 column + row 이다.

공변량 효과를 넣으면

\[ \eta_j(\mathbf{x}_i) = \eta_j + (\boldsymbol{\beta}^\top \mathbf{x}_i) s_j + \alpha_i \tag{5.7} \]

이고 모형식은 column + score.x + row(식 5.8) 이다. 여기서 score.x 는 \((i, j)\) 성분이 \(x_i s_j\) 인 \(p\)-벡터 교호작용 항이다.

해석 — 왜 \(s_j\) 가 곱으로 들어가는가:

\(\boldsymbol{\beta}^\top \mathbf{x}\) 가 한 단위 증가하면 로그 확률이 \(\eta_j\) 에서 \(\eta_j + s_j\) 로 바뀐다. 두 범주 \(j, j'\) 의 상대 오즈는

\[ \frac{\pi_j}{\pi_{j'}} = \exp(\eta_j - \eta_{j'}) \]

에서

\[ \frac{\pi_j}{\pi_{j'}} \longmapsto \exp(\eta_j - \eta_{j'} + s_j - s_{j'}) \]

로 바뀌어, 공변량 한 단위당 상대 오즈가 \(\exp(s_j - s_{j'})\) 배만큼 곱해진다. 점수 차 \(s_j - s_{j'}\) 가 클수록 효과가 커지므로, 점수는 “효과 증폭기” 역할을 한다.

2원 분할표 특수형 — Birch 의 linear×linear 상호작용:

반응과 설명변수 모두 순서 있는 범주형일 때

\[ \eta_{ij} = \eta_j + \alpha_i + \beta r_i s_j \]

로 간결해진다(\(r_i\) 는 설명변수 선형 대조, \(s_j\) 는 반응 점수). 이것이 Birch (1963) 의 선형×선형 상호작용 모형 이다. 분할표 분석의 핵심 도구이다.

옵션 3 — 점수를 반응으로 돌리기 (평균 점수 회귀):

\((y_{i1}, \ldots, y_{ik})\) 의 관측 도수를 “점수 \(s_j\) 가 \(y_{ij}\) 번 나왔다” 로 해석하면

\[ \bar{S}_i = \sum_j s_j y_{ij} / m_i \]

가 관측 평균 점수가 된다. 이 평균이 공변량과 선형 관계라고 가정하면

\[ \mathrm{E}(S \mid \mathbf{x}_i) = \sum_j \pi_j(\mathbf{x}_i) s_j = \boldsymbol{\beta}^\top \mathbf{x}_i \]

이 된다. 이 모형은 개별 셀 확률을 식별하지 않고 평균만 보는 불완전 지정(incompletely specified) 모형이다. 약점은 분명하다 — \(\mathrm{E}(S)\) 는 반드시 \([s_1, s_k]\) 안에 있어야 하지만 \(\boldsymbol{\beta}^\top \mathbf{x}_i\) 는 그런 제약이 없다.

유용한 검정 — Yates–Armitage trend test:

두 처리군의 평균 점수 차를

\[ T = \frac{\bar{S}_1 - \bar{S}_2}{\sqrt{\left(\sum \tilde{\pi}_j s_j^2 - (\sum \tilde{\pi}_j s_j)^2\right)(1/m_1 + 1/m_2)}} \]

로 표준화하면, 귀무가설(처리 효과 없음) 하에서 표준 정규 근사를 따른다. 이것이 Yates (1948)–Armitage (1955) 의 추세 검정(trend test) 이다. 분할표에 순서 정보가 있을 때 단순 카이제곱보다 검정력이 높다 는 장점이 있다.

언제 점수 접근법을 쓰는가

점수가 자연스럽게 존재할 때 쓴다. 예: 학점(A=4, B=3, …), 설문 리커트 척도(1–5). 점수가 없으면 “첫 \(k\) 정수”를 쓰는 관행이 있으나, 이 경우 결과 해석에서 “점수 선택이 결론에 얼마나 영향을 주는가” 를 민감도 분석해야 한다.

5 §5.2.4 명목형 척도 모형 — 기준 범주 로짓

순서가 없으면 \(\gamma_j\) 자체가 무의미하므로 \(\pi_j\) 를 직접 다뤄야 한다. 그리고 합이 1 이라는 제약 때문에 로그 스케일이 자연스럽다.

\[ \pi_j = \frac{\exp(\eta_j)}{\sum_{\ell=1}^k \exp(\eta_\ell)}, \qquad j = 1, \ldots, k \]

식별성 주의: \(\eta\) 와 \(\eta + c\) (모든 \(\eta_j\) 에 상수 더함) 는 정확히 같은 확률을 준다. 따라서 한 범주를 기준(baseline)으로 두어 \(\eta_1 = 0\) 으로 고정하는 식별 제약이 필요하다.

5.1 가장 일반적인 로그선형 모형 — 식 (5.9)

\[ \eta_j(\mathbf{x}_i) = \eta_j(\mathbf{x}_0) + \boldsymbol{\beta}_j^\top (\mathbf{x}_i - \mathbf{x}_0) + \alpha_i \tag{5.9} \]

\(\eta_j(\mathbf{x}_0)\): 기준 공변량 \(\mathbf{x}_0\) 에서의 로그 확률 — 절편 역할
\(\boldsymbol{\beta}_j\): 범주별 기울기 벡터, \(j = 1, \ldots, k\)
\(\alpha_i\): 정규화 상수

식별성을 위해 \(\boldsymbol{\beta}_1 = \mathbf{0}\) 으로 두어 범주 1 을 기준(baseline)으로 삼는다.

5.2 해석 — 대비(contrast) 가 모수다

범주 \(j\) 대 \(j'\) 의 오즈는

\[ \frac{\pi_j(\mathbf{x})}{\pi_{j'}(\mathbf{x})} = \frac{\pi_j(\mathbf{x}_0)}{\pi_{j'}(\mathbf{x}_0)} \times \exp\{(\boldsymbol{\beta}_j - \boldsymbol{\beta}_{j'})^\top (\mathbf{x} - \mathbf{x}_0)\} \]

이다. 중요한 것은 \(\boldsymbol{\beta}_j\) 자체가 아니라 \(\boldsymbol{\beta}_j - \boldsymbol{\beta}_{j'}\) 대비이다. 어떤 범주를 기준으로 삼든 대비는 불변이므로, 기준 선택은 해석의 편의 문제이다.

5.3 왜 구간형보다 모수가 많아지는가

모형	공변량 기울기	비교
구간형 (식 5.7)	\(\boldsymbol{\beta}\) 한 벡터, \(s_j\) 가 범주 효과 조절	\(p\) 개 모수
명목형 (식 5.9)	\(\boldsymbol{\beta}_2, \ldots, \boldsymbol{\beta}_k\)	\(p(k-1)\) 개 모수

구간형은 점수 \(s_j\) 가 “범주별 효과를 한 축으로 줄여 준다”. 명목형은 그런 축이 없으므로 각 범주에 대해 독립적인 기울기를 추정해야 한다. 점수의 가치는 모수 축소에 있다 는 것이 식 (5.7) 과 식 (5.9) 의 대비에서 명확히 드러난다.

모형식 표기는 column + column.x + row 로, 구간형 (5.8) 에서 정량변수 score 를 반응 factor column 으로 바꾼 형태이다.

5.4 명목형 모형의 실무 호칭

소프트맥스 회귀(softmax regression) — 머신러닝 문헌
다항 로지스틱 회귀(multinomial logistic regression) — 통계 문헌
기준 범주 로짓(baseline-category logit) — 교재 표준

세 이름 모두 동일한 식 (5.9) 을 가리킨다.

6 §5.2.5 계층(중첩) 반응 척도 — 단계별 조건부 이항

6.1 계층 반응의 특징

계층 반응은 범주 집합이 트리 구조 를 이루어, 범주를 한 번에 다항으로 보는 것이 아니라 단계별 분기(dichotomy) 의 연쇄로 보는 것이 자연스럽다.

교재의 두 예시:

예 1 — 방사선 사망률 연구 (Fig. 5.2):

Stage 1:  생존 vs 사망
               │
Stage 2:        (사망) → 암 사망 vs 비암 사망
                            │
Stage 3:                    (암) → 백혈병 vs 기타 암

범주 4개: (1) 생존, (2) 비암 사망, (3) 비백혈병 암, (4) 백혈병. 각 단계의 반응은 과학적으로 서로 다른 변수이다 (총사망률, 암 사망률, 백혈병 사망률).

예 2 — 젖소 수정 실험 (Fig. 5.3):

80 cows → 1차 수정: 임신 y_1 / 비임신 (80 - y_1)
                        ↓
               2차 수정: 임신 y_2 / 비임신
                        ↓
               3차 수정: 임신 y_3 / …

여기서는 각 단계의 반응이 같은 변수(임신 성공률)이지만 위험집합(risk set) 이 줄어든다. 가장 가임성 높은 소가 먼저 임신하므로, 남은 집단의 평균 가임성은 각 단계마다 감소한다.

6.2 일반 구조 — 조건부 이항 분해

\(m\) 명이 시작. 각 단계에서 긍정 반응과 부정 반응으로 나뉘며, 다음 단계는 부정 반응 집단에서만 이어진다.

단계	조건부 반응	긍정 확률	오즈
1	\(Y_1 \mid m\)	\(\pi_1\)	\(\pi_1 / (1 - \gamma_1)\)
2	\(Y_2 \mid m - y_1\)	\(\pi_2 / (1 - \gamma_1)\)	\(\pi_2 / (1 - \gamma_2)\)
3	\(Y_3 \mid m - y_1 - y_2\)	\(\pi_3 / (1 - \gamma_2)\)	\(\pi_3 / (1 - \gamma_3)\)

핵심 수식은 “단계 \(j\) 에서 긍정 확률 = 그 단계에서 일어나는 사건 확률 \(\pi_j\) 를 그 시점까지 살아있는 확률 \(1 - \gamma_{j-1}\) 로 나눈 것” 이라는 점이다. 이것은 바로 이산 시간 해저드(discrete-time hazard) 의 정의와 같다.

6.3 방사선 예시의 모형 — 단계마다 다른 \(\beta\), 다른 링크

각 단계를 별개의 이항 GLM 으로 본다.

\[ g(\pi_1) = \boldsymbol{\beta}_1^\top \mathbf{x}, \quad g\!\left(\frac{\pi_2}{1 - \gamma_1}\right) = \boldsymbol{\beta}_2^\top \mathbf{x}, \quad g\!\left(\frac{\pi_3}{1 - \gamma_2}\right) = \boldsymbol{\beta}_3^\top \mathbf{x} \]

\(\boldsymbol{\beta}_1 \ne \boldsymbol{\beta}_2 \ne \boldsymbol{\beta}_3\) 이 자연스럽다 — 단계마다 반응 변수의 과학적 의미가 다르므로 동일한 노출이 다른 효과를 낼 수 있다
단계마다 다른 링크 \(g(\cdot)\) 를 써도 무방하다
만약 3단계 분기가 명목형(예: 백혈병·갑상선·기타)이면, 그 단계만 §5.2.4 방법(기준 범주 로짓)으로 모형화한다

직관: “방사선 노출이 총사망률에는 효과가 없지만, 죽는 경우 그 원인이 편향 된다” 는 상황을 잡아낼 수 있다. 합쳐진 다항 모형으로는 이런 단계별 효과 분리 가 어렵다.

6.4 젖소 예시의 모형 — 단계마다 같은 \(\beta\), 다른 절편

반응의 의미가 단계별로 같으므로 공통 \(\boldsymbol{\beta}\) 를 쓰되, 절편만 단계별로 달리한다.

\[ g(\pi_1) = \alpha_1 + \boldsymbol{\beta}^\top \mathbf{x}, \quad g\!\left(\frac{\pi_2}{1-\gamma_1}\right) = \alpha_2 + \boldsymbol{\beta}^\top \mathbf{x}, \quad g\!\left(\frac{\pi_3}{1-\gamma_2}\right) = \alpha_3 + \boldsymbol{\beta}^\top \mathbf{x} \]

로지스틱 링크를 택하면 통합된 형태로 쓸 수 있다.

\[ \log\!\left(\frac{\pi_j}{1 - \gamma_j}\right) = \alpha_j + \boldsymbol{\beta}^\top \mathbf{x} \tag{5.10} \]

\(\alpha_j\): 단계별 가임성 감소를 흡수하는 보조 모수(incidental parameter)
\(\boldsymbol{\beta}\): 공통 처리 효과. 한 단위 처리 증가 시 모든 단계에서 오즈가 \(\exp(\boldsymbol{\beta}^\top \mathbf{x})\) 배
처리·단계 상호작용 항을 추가해 “효과가 단계에 따라 다른가” 를 일반적으로 검정

중요한 제약: 식 (5.10) 을 정당화하려면 모든 단계에 같은 링크 \(g\) 를 써야 한다. 방사선 예시와 달리 여기서는 반응의 의미가 단계별로 같기 때문에 링크 통일이 자연스럽고 필요하다.

6.5 계층 모형과 연속 비율 모형의 관계

젖소 모형 (5.10) 은 연속 비율 모형(continuation-ratio model) 의 전형이다. 일반형은

\[ \log \frac{\pi_j}{\pi_{j+1} + \cdots + \pi_k} = \alpha_j + \boldsymbol{\beta}^\top \mathbf{x} \]

로, “지금까지 오지 않고 이 단계에서 멈출 조건부 확률” 을 모형화한다. 생존분석의 이산시간 해저드와 정확히 같은 수학적 형태이며, 순서형 반응에도 활용된다.

7 네 척도·네 모형의 비교표

척도	대표 확률	대표 모형	모수 구조	불변성
명목 (§5.2.4)	\(\pi_j\)	기준 범주 로짓 (식 5.9)	\(\boldsymbol{\beta}_j\) \(k-1\) 벡터	라벨 순열 불변
순서 (§5.2.2)	\(\gamma_j\)	비례 오즈 (식 5.1)	\(\boldsymbol{\beta}\) 단일 벡터	인접 범주 합치기 불변
구간 (§5.2.3)	\(\pi_j + s_j\)	점수 로그선형 (식 5.7)	\(\boldsymbol{\beta}\) 단일 + \(s_j\) 고정	점수 아핀 변환 불변
계층 (§5.2.5)	조건부 이항	단계별 GLM (식 5.10)	단계별 \(\alpha_j\) + (공통 or 단계별) \(\boldsymbol{\beta}\)	트리 구조 보존

선택 플로우:

반응 범주가 트리 구조인가?
 ├─ Yes → 계층 모형 (§5.2.5)
 └─ No
     │
     범주에 순서가 있는가?
     ├─ No  → 명목 모형 (§5.2.4)
     └─ Yes
         │
         점수 s_j 가 있는가?
         ├─ No  → 순서 모형 (§5.2.2, 비례 오즈)
         └─ Yes → 구간 모형 (§5.2.3, 점수 로그선형)

8 코드 예시 — 척도별 한 줄 적합

8.1 Step 1: 순수 Python 로 핵심만 확인 — 순서 vs 명목 차이

동일 데이터에 순서 모형과 명목 모형을 모두 적합해 보면, 명목 모형이 항상 우도는 크지만(더 유연하므로) 해석이 어렵다. 순서가 실제로 있을 때는 순서 모형이 같은 설명력을 훨씬 적은 모수로 달성한다.

import numpy as np
from scipy.special import expit
from scipy.optimize import minimize

rng = np.random.default_rng(0)
n, k = 400, 4
X = rng.normal(size=(n, 1))

# 참: 순서형 비례오즈로 생성
theta_true = np.array([-1.0, 0.0, 1.0])
beta_true = np.array([0.9])
z = X @ beta_true + rng.logistic(size=n)
y = np.digitize(z, theta_true) + 1  # 1..k


def nll_propodds(params, X, y, k):
    raw = params[:k-1]
    theta = np.concatenate([[raw[0]], raw[0] + np.cumsum(np.exp(raw[1:]))])
    beta = params[k-1:]
    eta = X @ beta
    ll = 0.0
    for i, yi in enumerate(y):
        g = expit(theta - eta[i])
        g = np.concatenate([[0.0], g, [1.0]])
        ll += np.log(max(g[yi] - g[yi-1], 1e-12))
    return -ll


def nll_baseline(params, X, y, k):
    # beta_1 = 0, beta_2..k 는 각 p 차원
    p = X.shape[1]
    betas = np.concatenate([[0.0] * p, params[:p*(k-1)]]).reshape(k, p)
    intercepts = np.concatenate([[0.0], params[p*(k-1):p*(k-1)+k-1]])
    eta = X @ betas.T + intercepts  # n x k
    # softmax
    ll = 0.0
    for i, yi in enumerate(y):
        m = eta[i].max()
        log_z = m + np.log(np.sum(np.exp(eta[i] - m)))
        ll += eta[i, yi-1] - log_z
    return -ll


init_po = np.concatenate([[-1.0, 0.0, 0.0], [0.0]])
res_po = minimize(nll_propodds, init_po, args=(X, y, k), method="BFGS")
print(f"비례오즈 적합 — loglik = {-res_po.fun:.2f}, 모수 수 = {len(init_po)}")

init_bl = np.zeros(1*(k-1) + (k-1))
res_bl = minimize(nll_baseline, init_bl, args=(X, y, k), method="BFGS")
print(f"기준범주  적합 — loglik = {-res_bl.fun:.2f}, 모수 수 = {len(init_bl)}")

실행하면 기준 범주 모형의 우도가 약간 크지만 모수는 두 배 이상 많다. 순서 정보가 실제로 존재하는 데이터에서는 순서 모형이 AIC·BIC 기준으로 더 우수 하다.

8.2 Step 2: statsmodels / R — 실무 호출

import pandas as pd
from statsmodels.miscmodels.ordinal_model import OrderedModel
from statsmodels.discrete.discrete_model import MNLogit

df = pd.DataFrame({"y": y, "x": X.ravel()})

# 순서형: 비례 오즈
po = OrderedModel(df["y"], df[["x"]], distr="logit").fit(method="bfgs", disp=False)

# 명목형: 기준 범주 로짓
mn = MNLogit(df["y"], df[["x"]].assign(const=1.0)).fit(disp=False)

print(po.summary().tables[1])
print(mn.summary().tables[1])

순서형: MASS::polr(y ~ x, method="logistic")
명목형: nnet::multinom(y ~ x)
구간형(점수): glm(cbind(y1,...,yk) ~ x + score + x:score, family=poisson) (로그선형)
계층형: 각 단계에 대해 glm(stage_j ~ x, family=binomial) 을 반복

9 자주 걸리는 함정

함정	증상	처방
순서형 데이터에 명목 모형 적용	모수 수 폭증, 해석 난해	비례 오즈로 교체
명목형 데이터에 비례 오즈 적용	임의로 붙인 순서에 따라 결론이 달라짐	기준 범주 로짓으로 교체
구간 척도에 점수 없이 순서 모형	점수 정보 낭비, 검정력 손실	Yates–Armitage 또는 식 (5.7)
계층 구조에 단일 다항 적용	단계별 효과 분리 불가	단계별 이항 GLM 분해
비평행 회귀로 무작정 일반화	회귀선 교차로 음확률 발생	식 (5.4) 로 한 방향 일반화만 허용
인공 점수(1~k) 남용	점수 선택이 결론을 좌우	민감도 분석 필수

10 관련 주제

선행 지식

후속 주제 (placeholder)

관련 개념

로그선형 모형 (Ch.6) — 구간형 점수 로그선형의 일반화
이산 시간 생존분석 — 계층 모형과 수학적 동형
분할표 분석과 Birch linear×linear 상호작용

11 참고문헌

McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), §5.2. Chapman & Hall.
McCullagh, P. (1980). Regression models for ordinal data. JRSS B, 42(2), 109–142.
Birch, M. W. (1963). Maximum likelihood in three-way contingency tables. JRSS B, 25, 220–233.
Yates, F. (1948). The analysis of contingency tables with groupings based on quantitative characters. Biometrika, 35, 176–181.
Armitage, P. (1955). Tests for linear trends in proportions and frequencies. Biometrics, 11, 375–386.
Agresti, A. (2010). Analysis of Ordinal Categorical Data (2nd ed.). Wiley.