1 정의
요인의 수준이 양적 변수일 때, 처치 평균 사이의 함수적 패턴(선형·이차·삼차·…)을 직교 다항식 대비(orthogonal polynomial contrasts) 의 검정으로 분해하는 분석법이다.
- 일반화: 4 장에서 다룬 임의 대비 검정의 특수 사례 — 다만 대비 계수 \(c_j\) 를 요인의 양적 구조에 맞춰 다항식의 직교화로 선택한다.
- 회귀 분석과의 관계: 예측 변수가 이산 수준 + 각 수준에 다수 관측일 때 추세 분석이, 연속·고유 값 다수일 때 회귀가 자연스럽다 (Maxwell, 2004, Ch.6).
추세 분석은 양적 요인 실험에서 ANOVA 의 한계를 보완한다. ANOVA 의 \(F\) 검정은 “평균이 다 같지 않다”는 하나의 결론만 주지만, 실험자는 흔히 “얼마나 빠르게, 어떤 함수 형태로 다른가”를 알고 싶다. 추세 분석은 동일한 데이터에서 그 함수 형태를 분해해 답한다.
2 왜 필요한가
양적 요인을 ANOVA 로만 분석하면 손실되는 정보가 크다. 학습 시간 1·2·3·4 분 네 그룹의 회상 점수가 평균 2, 6, 8, 9 라고 하자. ANOVA 의 \(F\) 검정만 보면 “그룹 평균이 다르다” 정도만 결론낼 수 있다. 그러나 그래프를 그려 보면 “선형 증가가 강하지만 한계 효용이 체감한다(이차)”는 패턴이 보인다. 이 정보를 통계적으로 추출하려면 평균을 선형·이차· 삼차 성분으로 분해하는 절차가 필요하다.
이 정보 손실은 두 가지 실무적 비용으로 이어진다.
- 검정력 손실: \(k\) 개 수준의 ANOVA 는 자유도 \(k-1\) 의 \(F\) 검정인 반면, 선형 추세 단일 대비는 자유도 1 의 \(F\) 검정이다. 효과가 선형에 집중되어 있다면 추세 검정이 항상 더 강력하다.
- 해석 빈곤: “통계적으로 유의하다”는 결과만으로는 다음 실험의 처치 수준을 어떻게 설정할지 알 수 없다. 함수 형태가 잡혀야 외삽·내삽 의사결정이 가능하다.
양적 요인의 평균 \(\bar Y_j\) 를 수준 \(X_j\) 에 대한 함수 \(f(X_j)\) 의 표본으로 본다. 임의의 함수는 다항식의 합으로 근사할 수 있고 (Taylor 전개의 정신), 직교 다항식은 이 근사 항을 통계적으로 독립적으로 검정할 수 있게 해 준다. 즉 “선형이 이미 설명한 부분”과 “이차가 추가로 설명하는 부분”이 분리되므로 해석이 가능하다.
3 Ch.6 의 4 단계 흐름
Maxwell Ch.6 은 추세 분석을 다음 네 단계로 전개한다. 본 시리즈도 이 순서를 따른다.
3.1 1 단계 — 양적 vs 질적 요인 + 선형 추세 (L:20558~21183)
양적 요인의 정의, ANOVA 가 놓치는 정보, 회귀 모형 \(Y_{ij} = \beta_0 + \beta_1 X_{ij} + \varepsilon_{ij}\) 에서 시작해 기울기 추정량 \(\hat\beta_1\) 을 대비 형태 로 재해석한다. 등간격 4 수준의 경우 선형 대비 계수는 \((-3, -1, +1, +3)\) 이다. 이 대비의 \(F\) 검정이 곧 회귀 기울기 검정과 일치한다.
3.2 2 단계 — 비선형 검정 (전체) + 고차 개별 검정 (L:21332~22113)
선형이 설명하지 못한 잔차 변동을 모아 “비선형성 전체” 의 \(F\) 검정을 만든다 (자유도 \(k-2\)). 이어 그 변동을 이차·삼차·… 의 직교 다항식 대비로 더 쪼갠다. 등간격 4 수준의 이차 대비는 \((+1, -1, -1, +1)\), 삼차는 \((-1, +3, -3, +1)\). 직교성 덕에 SS 가 서로 가산된다.
3.3 3 단계 — 비선형 추세의 추가 검토 + 불균등 표본 크기 (L:22114~22678)
이차 추세가 잡혔을 때 “선형 + 이차” 모형을 재추정해 신뢰구간·예측을 만들고, 표본 크기가 그룹마다 다른 경우 가중 직교화로 대비 계수를 재계산하는 절차를 다룬다.
3.4 4 단계 — 회귀 분석과의 비교 + 결론
요인 수준이 연속 변수의 표본인지, 이산 처치인지에 따라 추세 분석과 회귀 분석을 선택한다. Maxwell Ch.6 결론부 (L:22679~22706) 와 §11.6 가이드의 IT 매핑 (multivariate testing, hyperparameter tuning) 을 G-MAX6-3 에서 통합한다.
4 핵심 수식 미리보기
이 시리즈 전반에서 반복되는 식을 미리 정리한다.
4.1 일반 대비
수준 \(j = 1, \ldots, k\) 의 표본 평균을 \(\bar Y_j\), 그룹당 표본 크기 \(n\) 이라 하자. 대비 \(\psi = \sum_j c_j \bar Y_j\) (\(\sum c_j = 0\)) 의 SS 는
\[ \mathrm{SS}_{\psi} = \frac{n \, \psi^2}{\sum_j c_j^2} \]
자유도 1 의 \(F\) 검정은 \(F = \mathrm{SS}_{\psi} / \mathrm{MS}_W\) 이다.
4.2 선형·이차·삼차 직교 다항식 (등간격, 등표본)
| 수준 수 \(k\) | 선형 | 이차 | 삼차 |
|---|---|---|---|
| 3 | \(-1, 0, +1\) | \(+1, -2, +1\) | — |
| 4 | \(-3, -1, +1, +3\) | \(+1, -1, -1, +1\) | \(-1, +3, -3, +1\) |
| 5 | \(-2, -1, 0, +1, +2\) | \(+2, -1, -2, -1, +2\) | \(-1, +2, 0, -2, +1\) |
직교성: 임의의 두 추세 대비 \(c, c'\) 에 대해 \(\sum_j c_j c'_j = 0\). 이 성질이 SS 분해의 가산성 (\(\mathrm{SS}_{\text{trend}} = \mathrm{SS}_{\text{lin}} + \mathrm{SS}_{\text{quad}} + \cdots\)) 을 보장한다.
5 응용 분야
| 분야 | 양적 요인 | 비교의 관심 |
|---|---|---|
| 심리학·교육 | 학습 시간, 강화 횟수 | 학습 곡선의 형태 (포화·U자) |
| 농학·생명 | 비료 농도, 약 용량 | 용량-반응 곡선의 비선형성 |
| IT · 디지털 실험 | 추천 후보 개수, 알림 빈도, 가격 | 한계 효용 체감·역치 |
| ML | hyperparameter (lr, depth, batch) | 손실 곡면의 곡률 |
A/B Test 가 두 변종의 평균을 비교한다면 multivariate testing 은 여러 처치 수준을 동시에 시험한다. 양적 처치 (가격, 알림 빈도, 추천 개수) 의 다단계 실험에서 추세 분석을 적용하면, 단순 비교에서 잡히지 않는 선형 vs 한계 효용 체감 vs 역치 효과 가 드러나 다음 실험의 수준 설계가 합리화된다. ML 의 grid search 도 동일 정신이다 — learning rate 의 1e-4, 1e-3, 1e-2, 1e-1 결과를 직교 다항식으로 분해하면 손실 곡선이 단조 감소형인지 U 자형인지 진단할 수 있다 (Phase G-12 Response Surface 와 직접 연결).
6 가정과 한계
추세 분석은 4 장의 대비 검정을 그대로 이어받으므로 동일한 가정을 요구한다.
- 정규성·등분산성·독립성 (ANOVA 표준 가정).
- 양적 변수의 측도가 의미 있어야 한다. 학습 시간의 1·2·3·4 분처럼 비율 척도일 때 선형 계수 \((-3, -1, +1, +3)\) 의 등간격 가정이 정당화된다. 명목 코드를 양적으로 취급하는 것은 금지된다.
- 연속 변수를 인위적으로 이산화하지 않는다. 어머니 IQ → 자녀 IQ 처럼 본래 연속인 변수는 회귀로 분석한다. 추세 분석을 위해 IQ 를 4 분위로 묶는 것은 정보 손실 (Maxwell, 2004, Ch.6).
7 본 시리즈의 학습 흐름
Phase A (ANOVA 기초)
│
▼
G-MAX6-0 ── overview (현재 글)
│
▼
G-MAX6-1 ── 양적 요인의 선형 추세 대비 + 회귀 기울기 동치
│
▼
G-MAX6-2 ── 직교 다항식 (이차·삼차·...) + 비선형 검정
│
▼
G-MAX6-3 ── 불균등 간격·표본 크기 + 추세 vs 회귀 선택
│
▼
Phase G 후속 (Factorial, ANCOVA, Random/Mixed)
8 관련 주제
선행 지식
- Phase A — Fisher 전통과 ANOVA 모형 비교
- A-MAX5 — 다중 비교 절차 (작성 예정, Phase A)
후속 주제
다른 카테고리 연결
- Statistics — 단순 선형 회귀 BLUE — 회귀 기울기 추정량의 통계적 기반
- Causal_Inference — 모수적 조건부 평균 추정량 — 양적 처치의 조건부 효과 추정