§ 6.2.1-6.2.2 — CPM 의 두 절약 구조: CS 와 AR(1)

Compound Symmetry · First-Order Autoregressive — 동일 분산 두 모수 (\(q=2\)) 구조의 차이

Hedeker & Gibbons (2006) Ch.6 §6.2.1-6.2.2 의 자세한 풀이. 공분산 패턴 모형 (CPM) 의 가장 절약적인 두 구조 — Compound Symmetry (CS) 와 First-Order Autoregressive (AR(1)) — 의 정의·수식·직관을 비교한다. 두 구조 모두 \(q = 2\) 이지만 시간 lag 처리 방식이 정반대다. CS 는 lag 를 무시하고 모든 쌍을 동일하게 묶고, AR(1) 은 lag 가 늘수록 상관을 지수적으로 감쇠시킨다. CS 가 랜덤 절편 MRM 과 마진 등가임을 증명하고, AR(1) 의 일차 마르코프 해석을 함께 정리한다.

Statistics
저자

Kwangmin Kim

공개

2026년 04월 30일

1 들어가며 — 왜 CS 와 AR(1) 을 한 묶음으로 보는가

Ch.6 Overview 에서 공분산 패턴 모형 (CPM) 의 다섯 가지 구조 — CS · AR(1) · Toeplitz · UN · RE — 를 한 줄씩 비교했다. 다섯 중 처음 두 구조 — CS 와 AR(1) — 는 함께 다룰 이유가 있다.

  • 둘 다 모수 수가 \(q = 2\) 로 가장 작다 (UN 의 \(n(n+1)/2\), Toeplitz 의 \(n\) 과 비교).
  • 둘 다 분산이 시점에 따라 변하지 않는다 (정상성, stationarity).
  • 그러나 시간 lag 에 대한 가정이 정반대 다.
    • CS: “lag 를 무시한다” — 모든 시점 쌍이 같은 상관.
    • AR(1): “lag 가 결정한다” — 상관이 lag 의 지수 함수.

같은 모수 예산 (\(q=2\)) 으로 두 구조가 서로 다른 시간 의존성을 표현한다는 점이 학습 핵심이다. 이 둘의 차이를 이해하면 CPM 전체의 분산-공분산 모수화 철학이 잡힌다.

한 줄 비유

CS: “한 가족 안에서는 모두가 똑같이 가깝다 — 부모-자식·형제-자매 구분 없이 동일한 친밀도.” AR(1): “오늘 본 사람은 어제만큼 가깝지만, 일주일 전 만난 사람은 점점 흐릿해진다 — 시간의 거리가 친밀도를 결정한다.”

같은 두 명의 모수로도 두 직관은 완전히 다른 종단 패턴을 만든다.

2 CPM 일반 모형 — 짧은 복습

정의: 공분산 패턴 모형

피험자 \(i\)\(n_i \times 1\) 반응 벡터 \(y_i\) 는 다음과 같이 모형화된다.

\[ y_i = X_i \beta + e_i, \qquad e_i \sim \mathcal{N}_{n_i}(0, \Sigma_i) \tag{6.1} \]

  • \(X_i\): \(n_i \times p\) 디자인 행렬 (시점·그룹·공변량).
  • \(\beta\): \(p \times 1\) 고정 효과.
  • \(\Sigma_i\): 전체 시점 분산-공분산 행렬 \(\Sigma\) (\(n \times n\)) 의 부분 행렬 — 피험자 \(i\) 가 관측되지 않은 시점의 행/열을 제거한 것.
  • \(\Sigma\)\(q\) 차원 모수 \(\theta\) 의 함수로 명세된다.

이 식은 보통 다중 회귀 (\(y = X\beta + \varepsilon\), \(\varepsilon \sim \mathcal{N}(0, \sigma^2 I)\)) 와 한 가지만 다르다 — 오차 분산이 \(\sigma^2 I\) 가 아니라 일반적 \(\Sigma_i\) 다. 이 한 줄 일반화가 종단 데이터의 핵심이다.

핵심 질문: \(\Sigma_i\) 의 형태를 어떻게 모수화할 것인가?

CPM 은 이 질문에 다섯 가지 답을 제시한다. 그중 가장 단순한 두 답이 CS 와 AR(1) 이다.

CPM 의 두 가지 약속

CPM 은 다음 두 가지를 가정한다.

  1. 시점은 범주적·고정 — 모든 피험자가 같은 시점 격자 (\(t_1, \ldots, t_n\)) 위에서 측정된다고 가정. 시점이 사람마다 다르면 (불등간격) 표준 CS·AR(1) 은 성립 안 함.
  2. 결측은 자연 처리 — 같은 시점 격자 위의 일부 시점이 빠진 것은 OK. \(\Sigma_i\)\(\Sigma\) 의 부분 행렬이 됨.

이 두 약속이 MANOVA 와의 차이 다. MANOVA 는 결측 시 피험자 전체를 제외하지만, CPM 은 관측된 시점만으로 우도를 계산한다.

3 § 6.2.1 — Compound Symmetry (CS)

3.1 정의와 수식

정의: Compound Symmetry 구조

\[ \Sigma_{\text{CS}} = \begin{bmatrix} \sigma^2 + \sigma_1^2 & \sigma_1^2 & \sigma_1^2 & \cdots & \sigma_1^2 \\ \sigma_1^2 & \sigma^2 + \sigma_1^2 & \sigma_1^2 & \cdots & \sigma_1^2 \\ \sigma_1^2 & \sigma_1^2 & \sigma^2 + \sigma_1^2 & \cdots & \sigma_1^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \sigma_1^2 & \sigma_1^2 & \sigma_1^2 & \cdots & \sigma^2 + \sigma_1^2 \end{bmatrix} \tag{6.2} \]

  • 대각: \(\sigma^2 + \sigma_1^2\) (모든 시점에서 동일).
  • 비대각: \(\sigma_1^2\) (모든 시점 쌍에서 동일).
  • 모수: \(\theta = (\sigma^2, \sigma_1^2)\), 즉 \(q = 2\).

이 두 모수 (\(\sigma^2, \sigma_1^2\)) 는 분산을 두 부분으로 쪼갠 것이다.

  • \(\sigma^2\): 같은 사람 안에서 시점마다 흔들리는 부분 (시점 간 변동).
  • \(\sigma_1^2\): 같은 사람 전체를 위·아래로 평행 이동시키는 부분 (개인 수준 변동).
  • 둘이 합쳐 시점별 총 분산 \(\sigma^2 + \sigma_1^2\) 이 된다.

3.2 직관 — “급내 상관” 그 자체

CS 가 정의하는 상관 계수는 한 식으로 깔끔하다.

\[ \rho_{\text{CS}} = \frac{\sigma_1^2}{\sigma^2 + \sigma_1^2} \tag{6.2'} \]

분자 \(\sigma_1^2\) 는 두 시점이 공유하는 분산, 분모 \(\sigma^2 + \sigma_1^2\) 는 시점의 총 분산. 즉 공유 분산이 총 분산에서 차지하는 비율 — 이것이 정확히 급내 상관 계수 (Intra-class Correlation Coefficient, ICC) 의 정의다.

직관 — 가족 비유 한 번 더

같은 가족 (= 같은 피험자) 안의 두 형제 (= 두 시점) 의 키를 잰다고 하자.

  • 가족이 다른 두 사람의 키 분산: \(\sigma^2 + \sigma_1^2\) (전체 변동).
  • 같은 가족 안의 형제 키가 공유하는 부분: \(\sigma_1^2\) (가족 내 평균을 결정하는 유전·환경).
  • 두 형제 키의 상관: \(\sigma_1^2 / (\sigma^2 + \sigma_1^2) = \rho\).

CS 가 종단 데이터에 적용될 때 “가족” 자리에 “피험자” 가 들어가고 “형제” 자리에 “시점” 이 들어간다. 시점 간 거리가 무엇이든 — 하루 차이든 일주일 차이든 — 같은 ICC.

3.3 CS 와 랜덤 절편 MRM 의 동치 증명

CS 의 가장 중요한 사실은 § 4.2 랜덤 절편 MRM 의 마진 분산-공분산과 정확히 같은 형태라는 점이다. 이 동치성을 명시적으로 보이자.

랜덤 절편 MRM:

\[ y_{ij} = x_{ij}^\top \beta + \upsilon_i + \varepsilon_{ij}, \quad \upsilon_i \sim \mathcal{N}(0, \sigma_\upsilon^2), \quad \varepsilon_{ij} \sim \mathcal{N}(0, \sigma_\varepsilon^2), \]

여기서 \(\upsilon_i\)\(\varepsilon_{ij}\) 는 독립.

피험자 \(i\) 의 두 시점 \(j, j'\) (\(j \ne j'\)) 에 대해:

\[ \text{Var}(y_{ij}) = \text{Var}(\upsilon_i) + \text{Var}(\varepsilon_{ij}) = \sigma_\upsilon^2 + \sigma_\varepsilon^2, \]

\[ \text{Cov}(y_{ij}, y_{ij'}) = \text{Cov}(\upsilon_i + \varepsilon_{ij}, \upsilon_i + \varepsilon_{ij'}) = \text{Var}(\upsilon_i) = \sigma_\upsilon^2. \]

마진 분산-공분산 행렬을 적으면:

\[ V(y_i) = \sigma_\varepsilon^2 I_{n_i} + \sigma_\upsilon^2 J_{n_i}, \]

여기서 \(J_{n_i}\) 는 모든 원소가 1인 \(n_i \times n_i\) 행렬. 이를 풀어 쓰면 식 (6.2) 와 정확히 같다\(\sigma^2 \leftrightarrow \sigma_\varepsilon^2\), \(\sigma_1^2 \leftrightarrow \sigma_\upsilon^2\) 의 대응.

결과 — “랜덤 절편 MRM = CS-CPM”

두 모형은 마진 분포가 정확히 동일 하다. 이는 다음을 의미한다.

  • ML 우도가 같다 → 추정량과 표준오차도 같다.
  • 고정 효과 추정이 두 모형에서 일치한다.
  • BIC·AIC 도 일치한다.

차이는 표현 방식뿐:

모형 식 형태 모수 해석
랜덤 절편 MRM \(y_{ij} = x_{ij}^\top \beta + \upsilon_i + \varepsilon_{ij}\) \(\sigma_\upsilon^2\) = 피험자 간 변동, \(\sigma_\varepsilon^2\) = 피험자 내 변동
CS-CPM \(y_i = X_i\beta + e_i\), \(e_i \sim \mathcal{N}(0, \sigma^2 I + \sigma_1^2 J)\) \(\sigma^2, \sigma_1^2\) = CS 모수 (피험자 구분 없음)

랜덤 절편 모형이 “왜 CS 가 자연스러운가” 의 메커니즘을 제공한다 — 공통 절편을 공유하기 때문 이라는 인과적 설명. CS-CPM 은 그 결과만 받아들이고 메커니즘은 묻지 않는다.

3.4 CS 의 한계 — “시간을 무시” 하는 가정

CS 는 모든 시점 쌍을 같은 상관으로 묶는다. 종단 데이터의 자연스러운 패턴과 충돌하는 경우가 많다.

  • 우울증 치료 6주 추적: 1주차-2주차 점수 상관과 1주차-6주차 점수 상관이 정말 같을까?
  • 일반적으로 시간이 멀어질수록 상관이 약해진다 (드리프트, 반응 변화).
  • CS 는 이 패턴을 표현 자체가 불가능 — 모든 lag 를 한 모수 (\(\sigma_1^2\)) 에 묶어버리기 때문.
직관 — CS 가 적합 안 되는 신호

다음 중 하나라도 해당하면 CS 는 부족하다.

  • 데이터에서 lag-1 상관과 lag-\((n-1)\) 상관 차이가 크다.
  • 시점 후반부 분산이 초반부보다 크다 (CS 는 시점별 분산 동일 가정).
  • 반복 측정의 상관이 lag 의 함수로 매끄럽게 감소하는 패턴이 보인다.

이런 경우 AR(1) 또는 더 유연한 구조 (Toeplitz, UN) 가 필요하다.

Ch.6 Overview 의 Bock 데이터 적합 결과 에서 CS 가 가장 큰 deviance (1185.8) 로 4 구조 중 최악이었던 이유가 이것이다 — Bock WPSS 데이터에는 시점별 분산 증가와 lag 별 상관 변화가 모두 있었다.

3.5 CS 의 응용 시나리오

CS 가 합리적일 때:

상황 이유
클러스터 데이터 (학교 안 학생, 병원 안 환자) “시간” 이 없으므로 lag 자체가 정의 안 됨, 공유 절편만 의미 있음
짧은 추적 (시점 2~3 개) lag 별 차이 표현 자체가 어려움, 절약적 모형 적합
ICC 만 관심 \(\rho_{\text{CS}}\) 가 ICC 의 직접 추정값이 됨
무작위 효과 모형의 출발점 더 복잡한 구조의 baseline 으로

4 § 6.2.2 — First-Order Autoregressive (AR(1))

4.1 정의와 수식

정의: AR(1) 구조

시점 \(j, j'\) 의 (공)분산은 다음 형태를 따른다.

\[ \sigma_{jj'} = \sigma^2 \rho^{|j - j'|} \tag{6.3} \]

행렬 형태:

\[ \Sigma_{\text{AR}(1)} = \sigma^2 \begin{bmatrix} 1 & \rho & \rho^2 & \cdots & \rho^{n-1} \\ \rho & 1 & \rho & \cdots & \rho^{n-2} \\ \rho^2 & \rho & 1 & \cdots & \rho^{n-3} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \rho^{n-1} & \rho^{n-2} & \rho^{n-3} & \cdots & 1 \end{bmatrix} \tag{6.4} \]

  • 모수: \(\theta = (\sigma^2, \rho)\), 즉 \(q = 2\).
  • \(\sigma^2\): 시점별 분산 (모든 시점 동일 — 정상성).
  • \(\rho\): lag-1 자기상관 (\(-1 < \rho < 1\), 종단 데이터에서는 보통 \(0 < \rho < 1\)).
“First-Order Autoregressive” 의 분해

이름을 한 단어씩 풀면 의미가 명확해진다.

  • First-Order: 한 단계 (one lag) 만 본다.
  • Auto: 자기 자신을 회귀.
  • regressive: 선형 회귀 식.

같은 변수의 오늘 값이 어제 값에 의해 결정된다 — 한 단계만의 메모리.

수식으로:

\[ \varepsilon_{j} = \rho \, \varepsilon_{j-1} + a_j, \qquad a_j \sim \mathcal{N}(0, \sigma^2(1-\rho^2)) \text{ i.i.d.} \]

이 한 줄짜리 점화식이 lag 가 커질수록 상관이 \(\rho^k\) 로 줄어드는 패턴을 자연스럽게 만든다.

4.2 직관 — “지수적 망각”

AR(1) 의 핵심은 lag 가 1 늘어날 때마다 상관이 \(\rho\) 배로 감소한다는 것이다.

\[ \text{lag } 1 \to \rho, \quad \text{lag } 2 \to \rho^2, \quad \text{lag } 3 \to \rho^3, \quad \ldots \]

수치 예시 — \(\rho = 0.5\) 일 때
lag 상관 직관
1 0.5 “어제 본 사람은 절반 정도 친밀”
2 0.25 “이틀 전이면 1/4”
3 0.125 “삼일 전이면 1/8”
5 0.031 “닷새 전이면 거의 잊음”
10 0.001 “열흘 전이면 무관”

기억이 등비수열로 사라진다. 이것이 AR(1) 의 핵심 가정.

수학적으로 이는 마르코프 성질 의 표현이다.

마르코프 성질 한 문장

“오늘 값을 알면, 어제 값은 잊어도 된다.”

수식으로:

\[ P(y_{j+1} \mid y_j, y_{j-1}, \ldots, y_1) = P(y_{j+1} \mid y_j) \]

오늘이 미래에 대한 충분 정보 — 과거 더 깊은 정보는 추가 가치 없음. AR(1) 은 이 성질을 가진 가장 단순한 정규 과정이다.

4.3 AR(1) 의 정상성 — 왜 분산이 시점 무관인가

식 (6.4) 의 대각이 모두 \(\sigma^2\) 인 것이 자명해 보일 수 있지만, 점화식 \(\varepsilon_j = \rho \varepsilon_{j-1} + a_j\) 에서 어떻게 그게 나오는지 짚어볼 가치가 있다.

\(\text{Var}(\varepsilon_j) = \sigma_\varepsilon^2\) (정상) 라고 가정하면:

\[ \sigma_\varepsilon^2 = \text{Var}(\rho \varepsilon_{j-1} + a_j) = \rho^2 \sigma_\varepsilon^2 + \text{Var}(a_j) \]

이를 풀면 \(\text{Var}(a_j) = \sigma_\varepsilon^2 (1 - \rho^2)\). 즉 정상 분산을 유지하려면 새로 들어오는 잡음 \(a_j\) 의 분산이 \(\sigma^2(1-\rho^2)\) 여야 한다.

해석: \(\rho\) 가 클수록 (오늘이 어제에 가까울수록) 새 잡음의 폭이 작아져야 분산이 폭발하지 않고 유지된다.

\(|\rho| < 1\) 가정의 이유

\(\rho \geq 1\) 이면 분산이 시간에 따라 폭발 (단위근 또는 발산). 이 경우 정상성이 깨지고 AR(1) 의 단일 모수 표현이 더 이상 유효하지 않다. 종단 데이터의 일반적 패턴 (시점에 따라 측정값 안정) 에서는 \(0 < \rho < 1\) 가 자연스러운 범위.

4.4 \(\rho\) 의 부호 — 무엇을 의미하는가

\(\rho\) 의 값 시간 패턴 종단 응용 예
\(\rho \to 1\) 강한 양의 자기상관, 천천히 변함 만성 질환, 안정적 행동 패턴
\(\rho \approx 0.5\) 중간 양의 자기상관, 일반적 종단 우울증 추적 등
\(\rho \to 0\) 시점 간 거의 독립 잡음 위주, 시간 의존 약함
\(\rho < 0\) 음의 자기상관, 진동 보상적 행동, 회복-재발 사이클 (드물지만 가능)

종단 임상 데이터에서 \(\rho\) 가 음수로 나오면 자료 해석을 의심할 만하다 — 측정 오차의 자기상관 또는 모형 misspecification 신호.

4.5 AR(1) 과 시계열 분석의 연결

식 (6.4) 는 시계열 분석에서 가장 기본적인 정상 모형이다. 다만 시계열·계량경제학 문헌은 약간 다른 표기를 쓴다.

\[ y_t = \mu + \rho (y_{t-1} - \mu) + a_t \quad \text{(시계열 표기)} \]

\[ \sigma_{jj'} = \sigma^2 \rho^{|j-j'|} \quad \text{(LDA 표기)} \]

두 표기는 본질적으로 같은 과정 을 묘사한다. 시계열 분석은 동적 발생 메커니즘을, LDA 의 CPM 은 결과로 나타난 분산-공분산 행렬을 강조하는 차이일 뿐이다 (Hedeker & Gibbons 2006, p. 103).

4.6 AR(1) 의 한계 — “지수 감소” 의 강제

AR(1) 도 모든 종단 패턴을 표현하지 못한다.

  • 함수 형태가 고정 — 상관이 lag 의 지수 함수임을 강제. 실제 데이터의 상관 곡선이 다른 모양이면 부적합.
  • 등간격 가정 — 시점이 등간격 (\(t_1 - t_0 = t_2 - t_1 = \ldots\)) 이라야 단일 \(\rho\) 가 의미. 불등간격이면 NS-AR(1) 또는 연속 시간 AR (Ch.7) 필요.
  • lag 별 상관이 시점 위치에 무관 — Wk1-Wk2 와 Wk5-Wk6 의 lag-1 상관이 같다고 가정. 종단 임상에서 후반부에 환자 상태가 안정되어 lag-1 이 강해지는 패턴을 표현 못함.
AR(1) 이 부족한 신호
  • 같은 lag (예: lag-1) 인데 시점에 따라 상관이 0.5 → 0.9 처럼 크게 변동.
  • 분산이 시점 후반에 증가 (정상성 위반).
  • Toeplitz vs AR(1) LR 검정에서 Toeplitz 가 유의하게 더 적합.

Ch.6 Overview 의 Bock WPSS 데이터에서 AR(1) 의 deviance (996.3) 가 Toeplitz (988.9) 보다 크고 UN (945.9) 보다 훨씬 큰 이유 — 위 신호들이 모두 있었다.

4.7 AR(1) 의 응용 시나리오

AR(1) 이 합리적일 때:

상황 이유
등간격 추적 (매주, 매월) 단일 \(\rho\) 가 의미를 가짐
lag 와 함께 상관이 매끄럽게 감소하는 데이터 지수 감쇠 가정이 합리
표본 작고 시점 많음 \(q = 2\) 절약 모형 — 모수 안정 추정
종단 모형의 첫 후보 “기본값” 으로 우선 시도 후 LR 로 평가
시계열 잔차 분석 자기상관 진단 (Durbin-Watson 검정의 기초)

5 CS vs AR(1) 한 페이지 비교

같은 모수 예산 (\(q = 2\)) 으로 두 구조가 어떤 종단 패턴을 표현하는지 정리한다.

항목 CS AR(1)
모수 \(\sigma^2, \sigma_1^2\) \(\sigma^2, \rho\)
시점별 분산 \(\sigma^2 + \sigma_1^2\) (동일) \(\sigma^2\) (동일)
lag-1 상관 \(\rho_{\text{CS}} = \frac{\sigma_1^2}{\sigma^2 + \sigma_1^2}\) \(\rho\)
lag-\(k\) 상관 \(\rho_{\text{CS}}\) (lag 무관) \(\rho^k\) (지수 감소)
시간 lag 의존 없음 (모든 lag 동일) 있음 (등비수열로 감소)
마르코프 성질 없음 (모든 과거가 동등) 1차 마르코프 (어제만으로 충분)
동등 표현 랜덤 절편 MRM AR(1) 시계열
적합 우위 상황 클러스터·짧은 추적·ICC 관심 등간격 추적·지수 감쇠 패턴
직관적 한 줄 요약

CS: “시점들은 같은 가족 — 누구와 누가 친한지 따지지 않음.” AR(1): “시점들은 일렬 줄 — 옆자리만 진짜 친하고, 거리가 멀어질수록 잊혀짐.”

CS 는 “시간 평면” 에서 모든 점이 동등 거리, AR(1) 은 “시간 직선” 에서 거리가 곧 차이.

6 코드 예시

6.1 Step 1: 두 구조 직접 구성 (numpy)

import numpy as np

n = 6  # 시점 수


def cs_cov(sigma2: float, sigma1_2: float, n: int) -> np.ndarray:
    """Compound Symmetry 분산-공분산 행렬

    sigma2:    시점 내 변동 (within-subject).
    sigma1_2:  공유 분산 (피험자 절편 변동).
    """
    return sigma1_2 * np.ones((n, n)) + sigma2 * np.eye(n)


def ar1_cov(sigma2: float, rho: float, n: int) -> np.ndarray:
    """AR(1) 분산-공분산 행렬: sigma^2 * rho^|j-j'|"""
    idx = np.arange(n)
    lag = np.abs(idx[:, None] - idx[None, :])
    return sigma2 * rho ** lag


# CS 예시 — sigma2=1.0, sigma1_2=2.0
print("CS (sigma2=1.0, sigma1_2=2.0):")
print(cs_cov(1.0, 2.0, n).round(3))
# 대각: 3.0, 비대각: 2.0
# 상관: 2.0 / 3.0 = 0.667 — 모든 lag 동일

# AR(1) 예시 — sigma2=3.0, rho=0.7
print("\nAR(1) (sigma2=3.0, rho=0.7):")
print(ar1_cov(3.0, 0.7, n).round(3))
# 대각: 3.0
# lag-1 비대각: 3.0 * 0.7 = 2.1
# lag-2 비대각: 3.0 * 0.49 = 1.47
# lag-3 비대각: 3.0 * 0.343 = 1.029
검증 포인트
  • cs_cov(0.0, sigma_v2, n) 를 만들면 모든 원소가 \(\sigma_v^2\) 인 rank-1 행렬 — 양정치 아님 (분산 분해 위반). \(\sigma^2 > 0\) 이 필수.
  • ar1_cov(sigma2, 1.0, n) 은 모든 원소가 \(\sigma^2\) 인 rank-1 행렬 — 단위근 (\(\rho = 1\)) 의 비정상성 신호.
  • ar1_cov(sigma2, 0.0, n)\(\sigma^2 I\) — 시점 간 완전 독립 (시간 의존 없음).

6.2 Step 2: 상관 곡선 비교 시각화

import numpy as np
import matplotlib.pyplot as plt

n = 8
lags = np.arange(n)

# CS — 모든 lag 동일 상관 0.6
cs_rho = np.where(lags == 0, 1.0, 0.6)

# AR(1) — rho=0.6 의 지수 감쇠
ar1_rho = 0.6 ** lags

plt.figure(figsize=(7, 4))
plt.plot(lags, cs_rho, "o-", label="CS (rho_const=0.6)")
plt.plot(lags, ar1_rho, "s-", label="AR(1) (rho=0.6)")
plt.xlabel("lag |j - j'|")
plt.ylabel("correlation")
plt.title("CS vs AR(1) — same q=2, opposite lag behavior")
plt.legend()
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

CS 는 lag 0 에서 1.0 으로 떨어진 뒤 평탄한 직선, AR(1) 은 매끄러운 지수 감소. 두 구조의 차이를 가장 직관적으로 보여주는 그림이다.

6.3 Step 3: R nlme::gls 로 두 구조 적합 (실무)

statsmodels 의 MixedLM 은 CPM 자체보다 랜덤 효과 모형에 특화돼 있어 AR(1) CPM 직접 적합이 까다롭다. R 의 nlme::gls 가 더 자연스럽다.

library(nlme)

# 합성 종단 데이터 (long format)
set.seed(2026)
n_subj <- 60
n_time <- 6
df <- expand.grid(week = 1:n_time, id = 1:n_subj)
df$y  <- rnorm(nrow(df))  # 실제 분석에서는 모형 적용된 데이터

# CS 구조 — corCompSymm
m_cs <- gls(y ~ week,
            data = df,
            correlation = corCompSymm(form = ~ 1 | id),
            method = "ML")

# AR(1) 구조 — corAR1
m_ar1 <- gls(y ~ week,
             data = df,
             correlation = corAR1(form = ~ week | id),
             method = "ML")

# 두 모형 비교 (동일 모수 수 q=2 → AIC 직접 비교)
AIC(m_cs, m_ar1)
anova(m_cs, m_ar1)  # nested 가 아니므로 LR 검정 부적절, AIC/BIC 사용
모형 선택의 함정

CS 와 AR(1) 은 nested 가 아니다 (\(\rho \to 1\) 도, \(\sigma_1^2 \to 0\) 도 서로의 특수 경우가 아님). 따라서 LR 검정이 부적절. 같은 모수 수 (\(q=2\)) 일 때는 AIC, BIC, 또는 잔차 자기상관 그림으로 판단한다.

UN 을 full 모형으로 둔 LR 검정은 두 구조 각각에 대해 따로 가능 (§ 6.3 Model Selection 참조).

6.4 Step 4: 실무에서 어느 쪽을 시도할까

데이터 사이언스 종단 분석에서 첫 시도 순서 (저자 권장):

  1. EDA: 시점별 분산·lag 별 상관 그림. 시점별 분산이 변하면 CS·AR(1) 둘 다 부족 → Toeplitz, UN 으로.
  2. AR(1) 먼저: 등간격 추적이면 보통 AR(1) 이 CS 보다 적합. \(\hat\rho\) 의 점추정·SE 보고.
  3. CS 보조: 랜덤 절편 MRM 이 본 모형이라면 그 마진 표현으로 CS 가 자동 — 별도 적합 불필요.
  4. LR vs UN: AR(1) 이 UN 대비 유의하게 나쁘면 (\(p < 0.05\), p-value 2 로 나눔) Toeplitz 또는 UN 으로 확장.

7 CPM 의 한계와 다음 단계

7.1 CS·AR(1) 의 공통 한계

한계 의미 대안
시점별 분산 동일 후반부 분산 증가 표현 못함 UN, RE, varIdent
정상성 가정 \(\rho\) 가 시점 위치에 따라 변동 못함 NS-AR(1) (Ch.7)
등간격 가정 불등간격 시점 처리 어려움 continuous-time AR(1) (Ch.7)
개인별 추론 불가능 “환자 A 의 호전 속도?” 답 못함 MRM (= RE-CPM) 으로 전환

7.2 Ch.7 과의 연결 — MRM + AC 오차

CPM 의 가장 자연스러운 확장은 Ch.7 의 MRM + 자기상관 오차 다.

\[ y_i = X_i\beta + Z_i\upsilon_i + \varepsilon_i, \quad \varepsilon_i \sim \mathcal{N}(0, \sigma^2 R_i) \]

여기서 \(R_i\) 는 CPM 의 공분산 구조 중 하나 (AR(1), MA(1), ARMA(1,1), Toeplitz, NS-AR(1)). MRM 의 조건부 독립 가정 (\(R_i = I\)) 을 완화하여 가장 유연한 종단 모형이 된다.

8 핵심 정리

한 페이지 요약
  1. CPM 일반 식: \(y_i = X_i\beta + e_i\), \(e_i \sim \mathcal{N}(0, \Sigma_i)\). \(\Sigma_i\) 의 모수화가 핵심.
  2. CS 구조 (\(q=2\)): 대각 \(\sigma^2 + \sigma_1^2\), 비대각 \(\sigma_1^2\). 상관 \(\rho_{\text{CS}} = \sigma_1^2/(\sigma^2 + \sigma_1^2)\) — ICC 와 동일.
  3. CS 와 랜덤 절편 MRM 동치: 마진 분포가 정확히 같음 → ML 우도 일치, 추정량 일치.
  4. CS 한계: 모든 lag 를 한 모수에 묶음 — 시간 의존 표현 불가.
  5. AR(1) 구조 (\(q=2\)): \(\sigma_{jj'} = \sigma^2 \rho^{|j-j'|}\). lag 가 1 늘 때마다 상관이 \(\rho\) 배 감소 (지수 감쇠).
  6. AR(1) 직관: 일차 마르코프 — 오늘만으로 미래 충분 정보. 점화식 \(\varepsilon_j = \rho\varepsilon_{j-1} + a_j\).
  7. AR(1) 한계: 함수 형태 (지수) 강제, 등간격·정상성 가정.
  8. CS vs AR(1): 같은 \(q=2\) 이지만 시간 lag 처리 정반대. CS 는 lag 무시, AR(1) 은 lag 가 결정.
  9. 모형 선택: CS·AR(1) 은 nested 가 아니므로 직접 비교는 AIC/BIC. UN 대비 LR 검정으로 적합도 평가.
  10. 다음 단계: 시점별 분산 변동 → Toeplitz·UN, lag 비균질 → NS-AR(1), 개인별 추론 → MRM.

CS 와 AR(1) 은 종단 데이터의 분산-공분산을 가장 절약적으로 모형화하는 두 길이다. 둘의 차이를 이해하면 더 복잡한 구조가 어느 가정을 푸는지가 명확해진다.

9 관련 주제

선행 지식

관련

후속 주제

교재

  • Hedeker, D. & Gibbons, R. D. (2006). Longitudinal Data Analysis, Wiley, Ch.6 §6.2.1-6.2.2 (pp. 102-103)
  • Jennrich, R. I. & Schluchter, M. D. (1986). “Unbalanced repeated-measures models with structured covariance matrices”, Biometrics 42, 805-820 — CPM 원전
  • Gottman, J. M. (1981). Time-Series Analysis. Cambridge University Press — AR(1) 의 시계열 표기

Subscribe

Enjoy this blog? Get notified of new posts by email: