1 4 가지 검정 통계량
다변량 분석의 가설 검정 행렬 \(\mathbf{H}\) (between-groups 또는 within-treatment) 와 오차 행렬 \(\mathbf{E}\) (residual covariance) 를 사용.
| 통계량 | 정의 | 직관 |
|---|---|---|
| Wilks’ Λ | \(\frac{|\mathbf{E}|}{|\mathbf{H} + \mathbf{E}|}\) | residual 비율 |
| Pillai’s V | \(\text{tr}(\mathbf{H}(\mathbf{H}+\mathbf{E})^{-1})\) | “효과 비율” 의 합 |
| Hotelling-Lawley T² | \(\text{tr}(\mathbf{H}\mathbf{E}^{-1})\) | 효과 / 오차 |
| Roy’s largest root | \(\mathbf{H}\mathbf{E}^{-1}\) 의 max eigenvalue | 가장 큰 한 차원의 효과 |
각 통계량은 noncentral \(F\) 또는 \(\chi^2\) 분포로 검정된다.
2 Wilks’ Lambda
\[ \Lambda = \prod_i \frac{1}{1 + \lambda_i} \]
여기서 \(\lambda_i\) 는 \(\mathbf{H}\mathbf{E}^{-1}\) 의 eigenvalue.
- \(\Lambda = 1\): 효과 없음.
- \(\Lambda = 0\): 모든 변동이 효과.
\(F\) 근사 (Rao): \[ F = \frac{1 - \Lambda^{1/s}}{\Lambda^{1/s}} \cdot \frac{ms - 2t}{p \cdot q} \]
(공식 복잡 — 패키지 자동 계산. \(s, t, m, p, q\) 는 데이터의 차원에서 도출.)
2.1 Wilks 의 통계적 직관
generalized variance 비율: residual variance 행렬과 total variance 행렬의 결정자 비율.
\(|\mathbf{E}|\) = residual 의 generalized variance. \(|\mathbf{H} + \mathbf{E}|\) = total variance.
\(\Lambda\) = “효과를 제거한 후 남은 변동” / “전체 변동”. 작을수록 효과 강함.
3 Pillai’s Trace
\[ V = \sum_i \frac{\lambda_i}{1 + \lambda_i} \]
- 모든 차원의 “explained proportion” 의 합.
- 작을수록 효과 약, 클수록 강함.
- 범위 \([0, \min(p, q)]\) (\(p\) = response 차원, \(q\) = effect 자유도).
가장 robust — 분포 가정 위반에 강함. 큰 표본에서 권장.
3.1 Pillai 의 robustness
Pillai 는 “각 차원의 효과 ratio 의 합” — 각 차원이 독립적으로 contribute. 한 차원의 outlier 가 다른 차원에 영향 적음.
Wilks 는 결정자 (행렬 전체의 다항식) — 한 차원의 outlier 가 전체 영향.
따라서 작은 표본·outlier 가 있는 데이터에서 Pillai 가 가장 안정.
4 Hotelling-Lawley Trace
\[ T^2_{HL} = \sum_i \lambda_i \]
- 모든 효과 / 오차 비율의 합.
- 큰 표본에서 잘 작동.
Hotelling \(T^2\) (one-sample) 의 일반 행렬 형태.
5 Roy’s Largest Root
\[ \theta = \frac{\lambda_{\max}}{1 + \lambda_{\max}} \]
- 한 차원이 dominant 한 경우 (predictor 의 한 방향이 대부분의 효과 운반) 가장 강력.
- 효과가 분산된 경우 (여러 차원에 distributed) 약함.
- 검정력 매우 변동적 — 권장 X (단, 사전 가설이 단일 방향일 때).
6 비교 표
| 통계량 | 검정력 | Robustness | 권장 |
|---|---|---|---|
| Wilks Λ | 보통 | 중간 | default |
| Pillai V | 보통 | 가장 강함 | 큰 표본, 가정 의심 |
| Hotelling-Lawley | 보통 | 중간 | 중간 표본 |
| Roy’s | 변동적 | 약함 | 단일 dominant 차원 사전 가설 |
대부분 효과가 비슷. Pillai 가 안전 (작은 표본, 분포 위반에서). Wilks 가 표준. 둘 중 하나를 보고하고 다른 하나도 같이 보고 결과 안정성 확인. Roy’s 만으로는 결정 X.
자유도 1 의 within 효과 (단일 contrast) 의 경우 4 통계량 모두 동일한 \(F\) 값을 준다 — 구분 의미 없음.
7 단일 자유도의 동치성
자유도 1 (예: 두 그룹의 단일 차원 비교) 에서:
\[ \Lambda = \frac{1}{1 + T^2/(n-1)} \] \[ V = \frac{T^2/(n-1)}{1 + T^2/(n-1)} \] \[ T^2_{HL} = T^2/(n-1) \] \[ \theta = V \]
모두 \(T^2\) 의 monotonic 함수 → 같은 \(F\) 변환. 통계적으로 동치.
다차원에서만 차이.
8 가설 데이터 — Within-Subjects MANOVA
G-MAX13-1 의 데이터 (\(n=15\), \(a=3\)). \(\mathbf{D}\) 는 2 차원 (\(D_1, D_2\)).
가상 결과:
| 통계량 | 값 | \(F\) | \(df\) | \(p\) |
|---|---|---|---|---|
| Wilks Λ | 0.20 | 25.5 | (2, 13) | \(<0.0001\) |
| Pillai V | 0.80 | 25.5 | (2, 13) | \(<0.0001\) |
| Hotelling-Lawley | 4.10 | 25.5 | (2, 13) | \(<0.0001\) |
| Roy’s | 4.10 | 26.7 | (2, 13) | \(<0.0001\) |
Wilks·Pillai·Hotelling-Lawley 모두 같은 \(F\) — 자유도 작은 경우 일반적. Roy’s 약간 다른 값. 모두 매우 강한 처치 효과로 결론 동일.
9 Python 코드
import numpy as np
import pandas as pd
from statsmodels.multivariate.manova import MANOVA
np.random.seed(2026)
n = 15
# 가상 데이터: 3 시점 × 2 그룹
records = []
groups = ["Treatment", "Control"]
for grp in groups:
for subj in range(n):
pi = np.random.normal(0, 6)
if grp == "Treatment":
means = [140, 130, 120]
else:
means = [140, 138, 135]
for t in range(3):
y = means[t] + pi + np.random.normal(0, 4)
records.append({"group": grp, "subject": f"{grp}_{subj}",
"time": t, "Y": y})
data = pd.DataFrame(records)
wide = data.pivot_table(index=["subject", "group"], columns="time",
values="Y").reset_index()
wide.columns = [f"t{c}" if isinstance(c, int) else c for c in wide.columns]
# MANOVA: t0, t1, t2 as multivariate response
manova = MANOVA.from_formula("t0 + t1 + t2 ~ group", data=wide)
result = manova.mv_test()
print("=== MANOVA test ===")
print(result.summary())기대 결과 4 개 통계량 모두 보고.
10 분포 위반 시의 권장
다변량 정규성 위반: - Pillai 가 가장 robust. - Wilks 가 그 다음. - Hotelling-Lawley 도 비슷. - Roy 가 가장 약 (한 차원에 의존).
그룹 간 covariance 균등 위반 (Box’s M 유의): - 모든 통계량이 부정확. - 해결: bootstrap CI, robust covariance 추정.
작은 표본: - 모든 통계량이 보수적. - \(n > p \cdot 5\) 가 권장.
11 사후 비교 — Multivariate
MANOVA 가 유의하면 follow-up:
Univariate ANOVA per response: 각 차원의 효과.
- Bonferroni 보정 (\(\alpha / p\)).
Discriminant function analysis: 그룹을 가장 잘 구분하는 linear combination.
Linear combinations 의 신뢰 구간: Roy-Bose simultaneous CI.
12 ML 매핑
ML 의 다중 metric 모델 비교 (accuracy, precision, recall, F1):
Group: 모델 A vs 모델 B
Multivariate response: (acc, prec, rec, F1) — 4 차원
MANOVA 로 두 모델 비교. 단일 metric 의 다중 비교 부담 회피.
Pillai’s V 권장 (다중 metric 의 분포 가정 위반 흔함).
이는 ML 의 종합 평가의 통계적 형식.
13 본 시리즈
G-MAX13-0 개관
G-MAX13-1 D Variable + Hotelling T²
G-MAX13-2 Wilks Λ · Pillai · Hotelling-Lawley · Roy ← 현재 글
G-MAX13-3 Univariate vs Multivariate 결정
14 가정과 한계
- 다변량 정규성.
- 그룹 간 covariance 균등 (Box’s M test 검정).
- 충분한 표본: 일반적으로 \(n > a\) per group, 권장 \(n > 5p\).
- 각 통계량의 sensitivity: 가정 위반에 따라 다름.
15 관련 주제
선행 지식
후속 주제
- G-MAX13-3: Univariate vs Multivariate
- G-MAX14 — Higher-Order Within Multivariate
다른 카테고리 연결
- Math — Linear Algebra (placeholder) — eigenvalue, trace, determinant
16 더 읽을 거리
- Anderson, T. W. (2003). “An Introduction to Multivariate Statistical Analysis” (3rd ed). Wiley.
- Olson, C. L. (1976). “On choosing a test statistic in multivariate analysis of variance.” Psychological Bulletin 83(4): 579-586 — 4 통계량 비교.
- Stevens, J. P. (1980). “Power of the multivariate analysis of variance tests.” Psychological Bulletin 88(3): 728-737.
- Tabachnick, B. G., Fidell, L. S. (2019). “Using Multivariate Statistics” (7th ed). Pearson.
- Bray, J. H., Maxwell, S. E. (1985). “Multivariate Analysis of Variance.” Sage.