1 들어가며 — 비례 위반의 두 메커니즘
§ 10.2.1 (Partial Proportional Odds) 가 비례 오즈 가정의 한 위반 — 절단점별 다른 회귀 계수 (\(\alpha_c\)) — 를 처리했다. § 10.2.2 는 또 하나의 위반 — 공변량이 잠재 변수의 분산을 변화시키는 경우 — 를 다룬다.
| 메커니즘 | 모수 | 절 | 효과 |
|---|---|---|---|
| Location 이동 | \(\alpha_c\) (\(c\) 별 다른 회귀 계수) | § 10.2.1 | 절단점별 OR 다름 |
| Scale 변경 | \(\tau\) (잠재 변수 SD 의 공변량 효과) | § 10.2.2 | 잠재 분포의 폭이 그룹별 다름 |
두 메커니즘이 결합되면 식 (10.8) 의 location-scale cumulative odds 모형. 같은 framework 안에 비례 가정 (\(\alpha_c = \tau = 0\)), partial proportional odds (\(\alpha_c \neq 0, \tau = 0\)), scaling-only (\(\alpha_c = 0, \tau \neq 0\)), location-scale (\(\alpha_c \neq 0, \tau \neq 0\)) 모두 포함.
“§ 10.2.2 = 공변량이 잠재 변수의 평균뿐 아니라 분산 도 바꿀 수 있다는 모형. 식 (10.8) 의 분모 \(\exp(w^\top \tau)\) 가 잠재 SD 를 그룹별로 다르게. 효과 (Figure 10.5): 분산이 큰 그룹은 극단 범주에 더 자주, 분산이 작은 그룹은 중간 범주에 더 자주 응답. 같은 회귀 계수로 보이는 효과가 사실은 분산 차이일 수 있다는 의심을 정량화. § 10.2.2.1 의 그룹별 ICC 분석 — Hedeker et al. (2006) 청소년 흡연 데이터의 HI/LO 그룹별 between-subjects 와 within-subjects 분산을 모두 다르게 모형화. Probit 형태에서는 자연스럽게 polychoric/tetrachoric correlation.”
2 § 10.2.2 — Location-Scale Cumulative Odds Model
2.1 발전사 — ROC 에서 종단까지
- Tosteson & Begg (1988) — ROC (Receiver Operating Characteristic) 분석에서 진단 검사의 평균뿐 아니라 분산의 차이가 진단 정확도에 영향을 미친다는 것을 보임. Cumulative logit 의 분모에 scale 항 추가.
- McCullagh & Nelder (1989) — 같은 발상을 일반화 “rational model” 이라 명명. GLM 의 표준 교재에서 ordinal 모형의 확장으로 정리.
- Cox (1995) — 위치-척도 cumulative odds 모형 (location-scale cumulative odds models) 으로 통합. Cross-sectional 데이터의 표준.
- Hedeker, Berbaum, Mermelstein (2006) — Mixed-effects 확장. 종단 데이터에서 between-subjects + within-subjects 분산 모두 그룹별 모형화.
같은 평균을 가진 두 그룹이라도 잠재 변수의 분산이 다르면 응답 분포가 다르다:
- 분산 작은 그룹: 잠재 값이 평균 근처에 집중 → 중간 범주 응답률 높음.
- 분산 큰 그룹: 잠재 값이 양 끝에 더 분포 → 극단 범주 (가장 낮은, 가장 높은) 응답률 높음.
임상 예시:
- 두 약물 그룹의 평균 효과는 같지만, 한 그룹의 환자 반응이 더 균질 (작은 분산), 다른 그룹은 분극화 (큰 분산).
- 두 환자군의 만족도 평균은 같지만, 한 군은 모두 “보통” 으로 응답, 다른 군은 “매우 만족” 또는 “매우 불만” 양극화.
이런 패턴이 표준 proportional odds 로는 드러나지 않음 — 평균만 모형화. Scaling term 이 분산 차이를 정량화.
ROC 맥락에서: 진단 검사가 양성/음성 환자의 분포 평균뿐 아니라 분포의 폭에도 영향을 미치면, 단순 OR 만으로는 진단 정확도를 충분히 표현 못함. Scale parameter 가 이 정보를 추가.
2.2 식 (10.8) — Location-Scale Cumulative Odds
\[ \log \left[ \frac{P_{ijc}}{1 - P_{ijc}} \right] = \frac{\gamma_c - (x_{ij}^\top \beta + u_{ij}^\top \alpha_c + z_{ij}^\top T \theta_i)}{\exp(w_{ij}^\top \tau)} \quad (c = 1, \ldots, C-1) \tag{10.8} \]
표기:
- 분자 (location, § 10.2 + § 10.2.1):
- \(x_{ij}\): 비례 오즈 가정 유지 공변량.
- \(u_{ij}\): 비례 오즈 가정 위반 (절단점 가변 효과 \(\alpha_c\)).
- \(z_{ij}\): random effects design.
- 분모 (scale, § 10.2.2 신규):
- \(w_{ij}\): \(k \times 1\) — 잠재 변수의 분산에 영향을 미치는 공변량.
- \(\tau\): \(k \times 1\) — scale 회귀 계수.
- \(\exp(\cdot)\): 양수 보장 (분산은 양수이어야 함).
\(w\) 는 \(x\) 와 같을 수도 있다 — 같은 공변량이 location 과 scale 모두에 영향.
식 (10.8) 의 분자만 보면 식 (10.7) 의 partial proportional odds 와 동일. 분모가 추가 — 잠재 변수 SD 의 그룹별 변동.
수학적 해석: 잠재 변수 모형으로 다시 쓰면
\[ y_{ij} = x_{ij}^\top \beta + u_{ij}^\top \alpha_c + z_{ij}^\top T \theta_i + \epsilon_{ij} \cdot \exp(w_{ij}^\top \tau) \]
여기서 \(\epsilon_{ij}\) 는 표준 logistic (분산 \(\pi^2/3\)). 즉 잠재 잡음이 그룹별로 \(\exp(w^\top \tau)\) 배 scale.
\(\tau > 0\): 그룹의 잠재 분산 ↑ → 응답 분포가 더 퍼짐 → 극단 범주에 더 자주. \(\tau < 0\): 그룹의 잠재 분산 ↓ → 응답 분포가 더 집중 → 중간 범주에 더 자주.
왜 \(\exp\) 인가:
- 분산은 항상 양수.
- 회귀 계수 \(\tau\) 는 실수 자유 추정.
- \(\exp(w^\top \tau)\) 가 어떤 \(\tau\) 값에서도 양수.
- \(\tau = 0\) 이면 \(\exp(0) = 1\) — 표준 분산.
→ 정수 매개의 자연스러운 표현. 정규 모형의 분산 회귀 (variance regression) 와 같은 발상.
한 가지 추가 모수만으로 비례 위반 처리: § 10.2.1 의 partial proportional odds 는 공변량 1 개에 \(C-1\) 개 모수 (\(\alpha_c\)). § 10.2.2 의 scaling 은 공변량 1 개에 1 개 모수 (\(\tau\)). 훨씬 절약적.
→ 비례 위반 데이터를 처리할 때 두 메커니즘을 비교: 어느 모형이 더 절약적이고 데이터에 더 잘 맞는가?
2.3 Figure 10.5 — Scale 변동의 시각화
3 범주 + 단일 공변량 (\(w \in \{0, 1\}\)) + scale 효과만 (\(x = 0\), \(u = 0\), \(\beta = \alpha_c = 0\), \(\tau = -0.5\)) + \(\gamma_1 = -1, \gamma_2 = 1\).
| 그룹 | 분모 \(\exp(w \tau)\) | \(\text{logit}_1 = \gamma_1 / \exp(w\tau)\) | \(\text{logit}_2 = \gamma_2 / \exp(w\tau)\) |
|---|---|---|---|
| \(w = 0\) | \(\exp(0) = 1\) | \(-1 / 1 = -1\) | \(1 / 1 = 1\) |
| \(w = 1\) | \(\exp(-0.5) \approx 0.607\) | \(-1 / 0.607 \approx -1.65\) | \(1 / 0.607 \approx 1.65\) |
\(w = 1\) 그룹의 효과:
- 첫 cumulative logit: \(-1 \to -1.65\) (더 음수).
- 둘째 cumulative logit: \(1 \to 1.65\) (더 양수).
- 두 logit 이 0 을 중심으로 멀어짐 (\(|-1.65|, |1.65| > |-1|, |1|\)).
확률 척도 결과:
| 범주 | \(w = 0\) 의 확률 | \(w = 1\) 의 확률 | 변화 |
|---|---|---|---|
| \(Y = 1\) | \(\Psi(-1) = 0.269\) | \(\Psi(-1.65) = 0.161\) | -0.108 |
| \(Y = 2\) | \(\Psi(1) - \Psi(-1) = 0.462\) | \(\Psi(1.65) - \Psi(-1.65) = 0.839 - 0.161 = 0.678\) | +0.216 |
| \(Y = 3\) | \(1 - \Psi(1) = 0.269\) | \(1 - \Psi(1.65) = 0.161\) | -0.108 |
Figure 10.5 의 메시지:
- \(w = 1\) 그룹이 양 끝 범주 (1 과 3) 응답률 모두 감소 (0.269 → 0.161, 양쪽 동일).
- 중간 범주 (2) 응답률 크게 증가 (0.462 → 0.678).
- → scale 감소 (\(\tau = -0.5\)) 의 효과 — 응답이 중심에 모임.
해석:
- \(w = 1\) 그룹의 잠재 변수 분포가 더 좁음 (SD 가 약 0.6 배 작음).
- 잠재 값이 평균 (0) 근처에 더 집중 → 중간 범주 (절단점 -1 과 1 사이) 에 더 자주 떨어짐.
- 양 끝 절단점 (-1 미만, 1 초과) 을 넘기 어려움.
\(\tau = +0.5\) 일 때: 반대 효과. \(w = 1\) 그룹이 더 분산됨 → 양 끝 범주 응답률 ↑, 중간 범주 ↓. 이를 “응답의 분극화” 라 부를 수 있다.
2.4 비례 오즈 모형 family 의 통합
| 모형 | 조건 | 위반 메커니즘 |
|---|---|---|
| Proportional Odds | \(\alpha_c = 0, \tau = 0\) | 없음 (가정 만족) |
| Partial Proportional Odds | \(\alpha_c \neq 0, \tau = 0\) | Location 이동 |
| Scaling-only | \(\alpha_c = 0, \tau \neq 0\) | Scale 변경 |
| Location-Scale | \(\alpha_c \neq 0, \tau \neq 0\) | 둘 다 |
→ 네 모형이 하나의 식 (10.8) 안에 nested. LR 검정으로 단계적 비교 가능.
- 표준 proportional odds 적합.
- 각 공변량의 비례 가정 검정 (Brant 또는 시각적, 10-1 의 Step 1 참조).
- 위반이 명백한 공변량을 두 길로 처리:
- Location 위반 (절단점별 OR 다름): § 10.2.1 partial proportional odds, \(\alpha_c \neq 0\).
- Scale 위반 (분산 차이): § 10.2.2 scaling term, \(\tau \neq 0\).
- LR test 로 두 확장 모형 비교 + 데이터 적합도 평가.
위반의 종류 식별 — 시각적 진단:
- 각 공변량 수준에서 응답 분포 비교 (그룹별 막대 그래프).
- 분포가 평행 이동 (같은 모양, 다른 위치) → location 변동 (또는 비례 위반).
- 분포가 모양 변화 (한 쪽은 극단 ↑, 다른 쪽은 중간 ↑) → scale 변동.
실무에서는 두 메커니즘이 동시에 작용 — location-scale 모형이 가장 일반적이지만 모수 폭발 위험. § 10.2.1 + § 10.2.2 검정 후 필요한 만큼만 확장.
3 § 10.2.2.1 — ICC 와 분산 분해
3.1 단일 그룹 ICC — 복습
§ 9.5.1 의 식 (9.65) 와 동일 — Logit ordinal mixed-effects 도 같은 공식:
\[ \widehat\rho = \frac{\widehat\sigma_v^2}{\widehat\sigma_v^2 + \pi^2/3} \]
분모의 \(\pi^2/3\) 은 표준 logistic 잠재 분포의 분산. Probit 형태이면 \(\pi^2/3\) → \(1\).
ICC 의 정의 — “잠재 반응 성향 분산 중 환자 간 분산의 비율” — 가 응답 형태 (이항, 순서형, 명목) 와 무관하게 동일.
이유: 잠재 변수 framework 에서 잠재 변수 \(y\) 의 분산 분해가 본질. 응답 \(Y\) 가 어떻게 잠재 \(y\) 로부터 추출되는지는 ICC 정의의 분자·분모에 영향 안 미침.
→ Ch.9 의 모든 ICC 해석이 Ch.10 에 그대로 적용. 새로 배울 게 없음.
3.2 그룹별 Between-Subjects ICC — 식 (앞 부분)
§ 9.5.3 의 쌍둥이 이질 분산 모형 (식 9.25) 와 같은 발상. 두 그룹 (HI / LO) 별 다른 between-subjects 분산:
- \(z_{ij} = [HI_i, LO_i]\) — 두 그룹 dummy 벡터.
- \(T = [\sigma_{v(HI)}, \sigma_{v(LO)}]\) — 그룹별 SD.
- \(\theta_i \sim \mathcal{N}(0, 1)\) — 단일 표준 정규 효과.
식:
\[ \log[\cdot] = \cdots - [HI_i \cdot \sigma_{v(HI)} + LO_i \cdot \sigma_{v(LO)}] \theta_i \]
각 환자가 한 그룹에만 속하므로 \(HI_i\) 와 \(LO_i\) 중 하나는 1, 하나는 0.
그룹별 ICC:
\[ ICC_{HI} = \frac{\widehat\sigma_{v(HI)}^2}{\widehat\sigma_{v(HI)}^2 + \pi^2/3}, \quad ICC_{LO} = \frac{\widehat\sigma_{v(LO)}^2}{\widehat\sigma_{v(LO)}^2 + \pi^2/3} \]
청소년 흡연자의 흡연 경험 (lifetime cigarette smoking experience) 별 차이:
- LO (적은 경험): 흡연 행동의 환자 간 변동이 클 가능성 — 다양한 형태 (occasional vs regular).
- HI (많은 경험): 환자 간 변동이 작을 가능성 — 모두 비슷하게 일관된 흡연 행동.
가설: 흡연 경험이 늘어날수록 환자 간 이질성이 줄어든다.
이를 검정: \(\sigma_{v(HI)}\) vs \(\sigma_{v(LO)}\) 의 LR 검정 또는 신뢰 구간 비교. 이질 분산이 유의하면 가설 지지.
이런 종류의 분산 비교가 흥미로운 이유 — 평균 효과 (회귀 계수) 를 넘어 변동 자체를 분석 대상으로. Mixed-effects 모형의 고유한 강점.
3.3 그룹별 Within-Subjects 분산 — Scaling Term 활용
식 (10.8) 의 \(w_{ij} = LO_i\) 인 경우 (LO 그룹만 scaling, HI 가 기준):
- HI 그룹: \(\exp(w_{ij}^\top \tau) = \exp(0) = 1\) → within-subjects 분산 = \(\pi^2/3\).
- LO 그룹: \(\exp(w_{ij}^\top \tau) = \exp(\tau)\) → within-subjects 분산 = \((\exp\tau)^2 \cdot \pi^2/3\).
그룹별 ICC (between + within 모두 그룹 가변):
\[ ICC_{HI} = \frac{\widehat\sigma_{v(HI)}^2}{\widehat\sigma_{v(HI)}^2 + \pi^2/3} \]
\[ ICC_{LO} = \frac{\widehat\sigma_{v(LO)}^2}{\widehat\sigma_{v(LO)}^2 + (\exp\widehat\tau)^2 \cdot \pi^2/3} \]
이 모형의 강점 — 두 분산 모두 그룹별 추정:
- \(\sigma_{v(HI)}^2, \sigma_{v(LO)}^2\): 그룹별 환자 간 분산 (체계적 차이).
- \(\pi^2/3, (\exp\tau)^2 \pi^2/3\): 그룹별 환자 내 잔차 분산 (반복 측정의 변동).
4 가지 가능한 패턴 (HI vs LO 의 ICC 차이):
- 같은 between, 같은 within → 두 ICC 같음. 단순 모형 충분.
- 다른 between, 같은 within → ICC 차이의 원인이 환자 간 변동.
- 같은 between, 다른 within → ICC 차이의 원인이 환자 내 변동.
- 둘 다 다름 → 복합. Hedeker et al. (2006) 에서 가장 흥미.
청소년 흡연 응용:
- LO (적은 경험): 환자 안에서도 측정 시점마다 흡연 패턴이 일관되지 않음 (within-subjects 분산 큼).
- HI (많은 경험): 측정 시점 사이 일관성 높음 (within-subjects 분산 작음).
→ HI 그룹의 ICC 가 더 높을 수도 있음 (between 동일하지만 within 작아 비율 ↑).
이 분석이 임상적 의미: 단순 OR 비교를 넘어 분산 구조의 그룹 차이까지 해석. 더 풍부한 정보 추출.
3.4 Probit 표기와 Polychoric/Tetrachoric Correlation
식 (10.8) 의 logistic cdf 를 정규 cdf 로 대체하면 probit 모형. Within-subjects 분산:
- Logistic: \(\pi^2/3\).
- Probit: \(1\).
Probit 그룹별 ICC:
\[ ICC_{HI} = \frac{\widehat\sigma_{v(HI)}^2}{\widehat\sigma_{v(HI)}^2 + 1} \]
§ 9.5.5 에서 본 probit 의 강점 — 잠재 변수의 다변량 정규 분포가 잘 정의됨.
Ordinal 응답 (3 + 범주) 의 probit ICC = Polychoric correlation — 두 ordinal 변수가 가지는 잠재 정규 변수 사이의 상관계수.
이항 응답의 probit ICC = Tetrachoric correlation — 두 이항 변수의 잠재 정규 상관.
왜 중요한가:
- 유전학·가족 연구: 형질의 유전 모형이 정규 잠재 변수를 가정. Polychoric correlation 이 직접 heritability 추정의 입력.
- 심리 측정: 척도 신뢰도 (Cronbach’s alpha 등) 가 polychoric correlation 행렬에 기반할 때 더 정확.
- 행동 유전학: § 9.5.3 의 쌍둥이 데이터의 ordinal 확장.
→ Probit ordinal mixed-effects 모형이 단순 SDR 추정보다 깊은 정보 제공.
logit 형태도 비슷한 개념적 양 (logistic 잠재 변수 사이 상관) 산출 가능하지만, 다변량 logistic 의 정의가 모호해 직접 활용 어려움.
4 응용 분야
| 분야 | Scaling term 활용 | \(w\) 변수 |
|---|---|---|
| 의료 ROC 분석 | 진단 검사의 평균 + 분산 차이 | 환자 그룹 (양성/음성) |
| 약물 임상 | 약물별 환자 반응의 평균 + 변동 | 처치 그룹 dummy |
| 청소년 흡연 (Hedeker 2006) | 흡연 경험별 행동 일관성 | LO/HI 그룹 dummy |
| 심리 측정 | 그룹별 측정 도구의 신뢰도 | 인구학적 그룹 |
| 만족도 조사 | 응답 분극화 vs 균질 (분산 차이) | 응답자 특성 |
| 교육 평가 | 학교별 학생 능력의 평균 + 분산 | 학교 그룹 |
5 코드 예시
5.1 Step 1: Location-Scale Cumulative Odds 시뮬레이션
import numpy as np
from scipy.special import expit
def simulate_location_scale_ordinal(n: int, beta: float, tau: float,
gamma: list, seed: int = 2026) -> dict:
"""식 (10.8) 의 단순화 — 단일 공변량 + scaling 효과.
잠재 변수: y = beta * w + epsilon * exp(tau * w)
epsilon ~ standard logistic.
"""
rng = np.random.default_rng(seed)
# 이항 공변량
w = rng.binomial(1, 0.5, size=n)
# 잠재 변수 (location + scale)
epsilon = rng.logistic(loc=0, scale=1, size=n)
y_latent = beta * w + epsilon * np.exp(tau * w)
# 절단점으로 범주화
y = np.zeros(n, dtype=int)
for c, g in enumerate(gamma):
y += (y_latent >= g).astype(int)
y = y + 1 # 1, 2, ..., C
return {"w": w, "y": y, "y_latent": y_latent}
# Figure 10.5 의 사례: scale 만 (beta = 0, tau = -0.5)
data_scale = simulate_location_scale_ordinal(
n=10000, beta=0.0, tau=-0.5,
gamma=[-1, 1]) # 3 범주
# 그룹별 응답 분포
for w_val in [0, 1]:
mask = data_scale["w"] == w_val
counts = np.bincount(data_scale["y"][mask], minlength=4)[1:]
proportions = counts / counts.sum()
print(f"w = {w_val}: P(Y=1) = {proportions[0]:.3f}, "
f"P(Y=2) = {proportions[1]:.3f}, P(Y=3) = {proportions[2]:.3f}")본문 분석 (위 표) 와 비교:
- \(w = 0\): P = (0.269, 0.462, 0.269).
- \(w = 1\): P = (0.161, 0.678, 0.161).
시뮬레이션 결과가 이 값과 거의 일치하면 식 (10.8) 의 scaling 효과가 정확히 작동.
핵심 패턴:
- \(w = 1\) 그룹이 양 끝 범주 (Y=1, Y=3) 응답률 모두 감소.
- 중간 범주 (Y=2) 응답률 크게 증가.
- → scale 감소 (\(\tau = -0.5\)) 의 시뮬레이션 검증.
5.2 Step 2: Location-Scale 모형 적합 (R ordinal + 수동)
# R 의 ordinal 패키지는 scaling term 직접 지원 안 함
# 대안: gnlrim 또는 SAS PROC NLMIXED, 또는 Bayesian (brms 의 sigma 모형화)
# 시뮬레이션 데이터
set.seed(2026)
n <- 5000
w <- rbinom(n, 1, 0.5)
beta_loc <- 0.5
tau_scale <- -0.4
gamma <- c(-1, 0, 1) # 4 범주
# 잠재 변수
y_latent <- beta_loc * w + rlogis(n) * exp(tau_scale * w)
# 절단점으로 범주화
y <- 1 + (y_latent >= gamma[1]) + (y_latent >= gamma[2]) + (y_latent >= gamma[3])
y <- factor(y, levels = 1:4, ordered = TRUE)
df <- data.frame(y = y, w = w)
# 표준 proportional odds (location 만)
library(ordinal)
fit_po <- clm(y ~ w, data = df, link = "logit")
summary(fit_po)
# Location-scale 모형 — clm 의 scale 인수
fit_ls <- clm(y ~ w, scale = ~w, data = df, link = "logit")
summary(fit_ls)
# LR test
anova(fit_po, fit_ls)ordinal::clm 의 scale 인수
clm 의 scale = ~w 가 식 (10.8) 의 \(\exp(w^\top \tau)\) 모형화. 출력:
Coefficients: location 회귀 계수 (\(\beta\)).log-scale coefficients: scale 회귀 계수 (\(\tau\)).- LR test: scale 가정 (\(\tau = 0\)) 의 검정.
제약: clm 은 cross-sectional 만. 종단 데이터의 mixed-effects + scaling 은 frequentist 표준 도구 빈약 → SAS PROC NLMIXED 또는 brms 우회.
5.3 Step 3: 그룹별 ICC 계산 (식 §10.2.2.1)
import numpy as np
def group_specific_icc(sigma_v_HI: float, sigma_v_LO: float,
tau: float, link: str = "logit") -> dict:
"""그룹별 between-subjects + within-subjects 분산 분해 후 ICC.
HI: w = 0 (기준), within-subjects var = pi^2/3 (logit) 또는 1 (probit)
LO: w = 1, within-subjects var = (exp tau)^2 * pi^2/3 또는 (exp tau)^2 * 1
"""
if link == "logit":
sigma_eps_HI = np.pi ** 2 / 3
elif link == "probit":
sigma_eps_HI = 1.0
else:
raise ValueError(f"Unknown link: {link}")
sigma_eps_LO = (np.exp(tau)) ** 2 * sigma_eps_HI
icc_HI = sigma_v_HI ** 2 / (sigma_v_HI ** 2 + sigma_eps_HI)
icc_LO = sigma_v_LO ** 2 / (sigma_v_LO ** 2 + sigma_eps_LO)
return {
"sigma_v_HI": sigma_v_HI, "sigma_v_LO": sigma_v_LO,
"sigma_eps_HI": sigma_eps_HI, "sigma_eps_LO": sigma_eps_LO,
"icc_HI": icc_HI, "icc_LO": icc_LO
}
# 시나리오 — Hedeker et al. (2006) 청소년 흡연 응용 가설
# HI 그룹: 환자 간 분산 작음, 환자 내 잔차 분산 작음 (일관)
# LO 그룹: 환자 간 분산 큼, 환자 내 잔차 분산 큼 (다양)
result = group_specific_icc(
sigma_v_HI=1.0, sigma_v_LO=1.5, # between-subjects 그룹별
tau=0.4, # LO 의 within-subjects 가 exp(0.4) ≈ 1.49 배 큼
link="logit"
)
print("그룹별 분산 분해:")
print(f" HI: between = {result['sigma_v_HI']**2:.3f}, "
f"within = {result['sigma_eps_HI']:.3f}")
print(f" LO: between = {result['sigma_v_LO']**2:.3f}, "
f"within = {result['sigma_eps_LO']:.3f}")
print(f"\n그룹별 ICC:")
print(f" ICC_HI = {result['icc_HI']:.3f}")
print(f" ICC_LO = {result['icc_LO']:.3f}")이 시나리오에서:
- HI: between \(\sigma^2 = 1.0\), within \(\sigma^2 = 3.29\) → ICC ≈ 0.23.
- LO: between \(\sigma^2 = 2.25\), within \(\sigma^2 \approx 7.32\) → ICC ≈ 0.24.
두 ICC 가 비슷한 이유 — between 과 within 이 모두 LO 에서 더 크지만 비율이 비슷.
다른 시나리오 (between 만 다름, within 같음, \(\tau = 0\)):
- HI: between \(\sigma^2 = 1.0\), within \(\sigma^2 = 3.29\) → ICC ≈ 0.23.
- LO: between \(\sigma^2 = 2.25\), within \(\sigma^2 = 3.29\) → ICC ≈ 0.41.
ICC 가 크게 다름 — between-subjects 변동만 그룹별 차이.
실무 메시지: ICC 비교만으로는 분산 차이의 원인 (between vs within) 을 못 찾음. 두 분산을 별도 추정해야 정확한 진단 가능. 식 (10.8) 의 scaling term 이 그 도구.
5.4 Step 4: Probit + Polychoric Correlation 산출
import numpy as np
from scipy.stats import multivariate_normal
def polychoric_from_probit(sigma_v: float, gammas: list,
n_sim: int = 100000, seed: int = 2026) -> float:
"""Probit ordinal mixed-effects 의 polychoric correlation 시뮬레이션 추정.
같은 환자의 두 시점이 잠재 변수 분산 sigma_v^2 + 1 의 다변량 정규.
Correlation = sigma_v^2 / (sigma_v^2 + 1).
"""
rng = np.random.default_rng(seed)
# 같은 환자의 두 시점 — 공통 random intercept 공유
upsilon = rng.normal(0, sigma_v, size=n_sim)
epsilon_1 = rng.normal(0, 1, size=n_sim)
epsilon_2 = rng.normal(0, 1, size=n_sim)
y_1 = upsilon + epsilon_1 # 시점 1 잠재 변수
y_2 = upsilon + epsilon_2 # 시점 2 잠재 변수
# 잠재 변수의 표본 상관계수
latent_corr = np.corrcoef(y_1, y_2)[0, 1]
# 이론값 (Polychoric correlation = ICC of latent variables)
theoretical_corr = sigma_v ** 2 / (sigma_v ** 2 + 1)
return {
"latent_correlation_sample": latent_corr,
"polychoric_theoretical": theoretical_corr,
"icc_probit": theoretical_corr # 같음
}
# 다양한 sigma_v 에서 polychoric correlation
for sv in [0.5, 1.0, 1.5, 2.0]:
result = polychoric_from_probit(sv, gammas=[-1, 0, 1])
print(f"sigma_v = {sv:.1f}: "
f"sample latent corr = {result['latent_correlation_sample']:.3f}, "
f"theoretical polychoric = {result['polychoric_theoretical']:.3f}")표본 상관계수와 이론적 polychoric correlation 이 거의 일치하면 검증 성공.
Polychoric correlation 의 의미:
- 두 ordinal 응답이 잠재 정규 변수에서 절단된 결과라 가정할 때, 잠재 변수 사이 상관계수.
- Probit ordinal 모형의 ICC 와 정확히 같은 값.
- → ICC 가 단순 통계량을 넘어 실질적 의미를 가짐 — 잠재 변수 척도의 환자 간 일관성.
가족 연구 / 행동 유전학 응용:
- 형제자매의 ordinal 형질 (예: 학업 성취 등급) → 잠재 정규 변수 (잠재 능력) 의 polychoric correlation.
- 이 값이 형제 간 유전·환경 공유의 직접 측정.
logit 형태에서는 같은 분석이 가능하지만 polychoric/tetrachoric 의 정확한 정의에서 벗어남 — probit 이 더 자연스러움.
6 관련 주제
선행 지식
- Ch.10 Overview — Cumulative logit (식 10.1) 의 큰 그림
- § 10.2 ~ 10.2.1 — Partial proportional odds (location 변동의 처리, \(\alpha_c\))
- § 9.5.1 ICC — ICC 의 정의와 잠재 분산 분해
- § 9.5.3 이질 분산 — 그룹별 분산 모형 (식 9.25)
- § 9.5.5 Response functions — Probit 의 다변량 잠재 분포
후속 주제 (Ch.10 sub-posts)
- § 10.2.3 — Survival Analysis Models (이산 시간 비례 위험 모형)
- § 10.2.4 — Estimation (Cumulative logit 의 marginal MLE 세부)
- § 10.3 — NIMH 4 범주 ordinal 분석 (Ch.9 이항 분석과 비교)
- § 10.4 — 노숙자 보건서비스 (section 8 certificate 의 비례 위반)
관련 개념
- Tosteson & Begg (1988) — ROC 분석의 scale parameter 원전
- McCullagh & Nelder (1989) — Generalized “rational” model
- Cox (1995) — Location-scale cumulative odds models
- Hedeker, Berbaum & Mermelstein (2006) — Mixed-effects 확장 + 청소년 흡연 응용
- Ishwaran & Gatsonis (2000) — Bayesian 상관 ROC 분석
- Polychoric/tetrachoric correlation — Pearson 1900s, ordinal 의 잠재 정규 상관
- Ch.11 GLMM 명목 — 모든 공변량의 범주 가변 효과 (가장 일반적)