Kwangmin Kim - 양적 요인과 선형 추세 대비 — 회귀 기울기 = 단위 대비

1 정의

정의: 선형 추세 대비 (Linear Trend Contrast)

수준 \(X_1, \ldots, X_a\) 의 양적 요인에 대해, 평균 \(\bar Y_j\) 에 부여한 deviation 계수 \(c_j = X_j - \bar X\) 로 만든 대비

\[ \hat\psi_{\text{linear}} = \sum_{j=1}^{a} c_j \bar Y_j \]

이다. 등간격·등표본일 때 \(\hat\psi_{\text{linear}}\) 는 회귀 기울기 \(\hat\beta_1\) 의 \(\sum c_j^2\) 배이다 (Maxwell, 2004, Ch.6 Eq. 7).

2 양적 요인 vs 질적 요인

질적 요인은 levels 가 명목 척도이다. 4 가지 고혈압 치료법 (drug, biofeedback, dietary, combined) 에는 자연스러운 순서·간격이 없다. 어느 것에 1, 2, 3, 4 의 코드를 배정해도 ANOVA 결과는 같다.

양적 요인은 levels 가 비율·간격 척도이다. 학습 시간 1, 2, 3, 4 분, 약 용량 5, 10, 15, 20 mg, 추천 슬롯 개수 3, 5, 7, 9. 이 경우 levels 의 거리·순서가 의미를 가지므로 “평균이 어떤 함수 형태로 변하는가” 를 묻는 추세 분석이 성립한다.

직관: 왜 양적 요인에 선형부터 시작하는가

데이터의 함수 형태는 알 수 없으나 단조 변화 가 가장 흔하다 (한계 효용·약물 반응 대부분). 단조 변화의 1차 근사가 직선이고, 직선은 자유도 1 의 검정으로 가장 강력한 검정력을 준다. 따라서 비선형성을 검토하기 전에 먼저 “선형이 있는가?” 를 묻는 것이 표준 절차이다 (Tukey 의 ladder of re-expression 정신과 일치).

3 회귀 기울기와 대비의 동치

학습 시간-회상 데이터 (Maxwell Table 6.1) 로 유도한다. 4 그룹, 각 \(n=6\), 평균 \(\bar Y_1=2,\bar Y_2=6,\bar Y_3=8,\bar Y_4=9\), \(X_j = 1,2,3,4\), \(\bar X = 2.5\).

3.1 출발점: 회귀 모형

집단 내 모든 \(i\) 에 대해 \(X_{ij} = X_j\) 이므로 회귀 모형은

\[ Y_{ij} = \beta_0 + \beta_1 X_j + \varepsilon_{ij} \]

기울기의 최소제곱 추정량은

\[ \hat\beta_1 = \frac{\sum_j \sum_i (X_{ij}-\bar X)(Y_{ij}-\bar Y)}{\sum_j \sum_i (X_{ij}-\bar X)^2} \]

3.2 단순화: deviation 계수 \(c_j = X_j - \bar X\)

\(X_{ij} = X_j\) 와 \(c_j = X_j - \bar X\) 를 대입하면 분자는 그룹별로 정리되어

\[ \hat\beta_1 = \frac{\sum_j n_j c_j \bar Y_j}{\sum_j n_j c_j^2} \]

등표본 \(n_j = n\) 가정하에 \(n\) 이 분자·분모에서 약분되어

\[ \boxed{\hat\beta_1 = \frac{\sum_j c_j \bar Y_j}{\sum_j c_j^2} = \frac{\hat\psi_{\text{linear}}}{\sum_j c_j^2}} \] (Maxwell Eq. 5, 7)

이로써 회귀 기울기는 표본 평균의 선형 결합 인 contrast \(\hat\psi_{\text{linear}}\) 의 단순한 단위 변환임이 드러난다. 두 핵심 성질:

\(\hat\beta_1\) 은 개별 \(Y_{ij}\) 가 아닌 그룹 평균 에만 의존한다.
\(\sum c_j = \sum (X_j - \bar X) = 0\) 이 자동 만족 (등표본 가정) — 즉 contrast 의 정의를 만족한다.

3.3 수치 예시

\(\bar X = 2.5\) 이므로

\[ c_1 = -1.5,\ c_2 = -0.5,\ c_3 = +0.5,\ c_4 = +1.5 \]

\[ \hat\psi_{\text{linear}} = -1.5(2) - 0.5(6) + 0.5(8) + 1.5(9) = 11.5 \]

\[ \sum c_j^2 = 2.25 + 0.25 + 0.25 + 2.25 = 5.0 \]

\[ \hat\beta_1 = 11.5 / 5.0 = 2.3 \]

해석: 학습 시간이 1 분 늘 때마다 회상 단어 수가 평균 2.3 개 증가한다고 추정된다.

절편은 \(\hat\beta_0 = \bar Y - \hat\beta_1 \bar X = 6.25 - 2.3 \times 2.5 = 0.50\).

4 선형 추세 대비의 표준 형태

위 deviation 계수 \((-1.5, -0.5, 0.5, 1.5)\) 는 2 배 하면 \((-3, -1, +1, +3)\) 이 된다. 대비는 정수 배수 차이로 같은 가설을 검정하므로, 통계 표·교과서는 보통 정수 형태를 쓴다. 이 형태가 등간격·등표본일 때 4 수준 선형 직교 다항식의 표준 계수다.

\(a\)	선형 표준 계수
3	\(-1, 0, +1\)
4	\(-3, -1, +1, +3\)
5	\(-2, -1, 0, +1, +2\)
6	\(-5, -3, -1, +1, +3, +5\)

표준 계수로 다시 계산하면

\[ \hat\psi_{\text{linear}} = -3(2) - 1(6) + 1(8) + 3(9) = 23 \]

\(\sum c_j^2 = 9+1+1+9 = 20\). 기울기로 환산하면 \(23/20 = 1.15\) — 그러나 이는 deviation 계수가 1 단위가 아닌 0.5 단위를 가리키도록 재척도된 결과이므로, 분자·분모를 같이 2 배 하면 같은 \(\hat\beta_1 = 2.3\) 이 된다 (정수 계수의 거리는 0.5 분 단위이므로 \(1.15 \times 2 = 2.3\)).

함정: 기울기 절댓값을 정수 계수로 직접 비교하지 않는다

선형 추세의 유의성 검정 은 정수 계수와 deviation 계수가 동치이지만, 회귀 기울기의 수치 해석 은 척도에 의존한다. “1 분당 회상 +2.3 개” 의 해석을 원하면 deviation 계수 \(c_j = X_j - \bar X\) 를 직접 사용하거나, 정수 계수의 결과를 척도 변환해야 한다.

5 가설 검정: \(E_R - E_F = SS_{\psi_{\text{linear}}}\)

귀무가설 \(\beta_1 = 0\) 을 모형 비교로 검정한다.

전체 모형 (Full): \(Y_{ij} = \beta_0 + \beta_1 X_j + \varepsilon_{ij}\)

제한 모형 (Restricted): \(Y_{ij} = \beta_0 + \varepsilon_{ij}\)

각 모형의 잔차제곱합을 \(E_F, E_R\) 이라 하면

\[ E_R - E_F = \hat\beta_1^2 \sum_j \sum_i (X_{ij}-\bar X)^2 = n \hat\beta_1^2 \sum_j c_j^2 \]

\(\hat\beta_1 = \hat\psi_{\text{linear}} / \sum c_j^2\) 를 대입하면

\[ \boxed{E_R - E_F = \frac{n\, \hat\psi_{\text{linear}}^2}{\sum_j c_j^2} = SS_{\psi_{\text{linear}}}} \] (Maxwell Eq. 11)

즉, 회귀 기울기의 모형 비교 SS 가 4 장 contrast 의 SS 공식과 정확히 일치한다. \(F\) 검정은

\[ F = \frac{SS_{\psi_{\text{linear}}}}{MS_W},\quad df = (1,\, N-a) \]

데이터 적용:

\[ SS_{\psi_{\text{linear}}} = \frac{6 \times 11.5^2}{5.0} = \frac{6 \times 132.25}{5.0} = 158.7 \]

(Maxwell Ch.3 의 ANOVA 결과로 \(MS_W \approx 4.1\) 이라 가정하면) \(F = 158.7/4.1 \approx 38.7\) (\(df = 1, 20\)). \(\alpha=0.05\) 임계값 4.35 를 크게 넘으므로 선형 추세는 통계적으로 유의하다.

6 신뢰구간과 효과 크기

기울기 \(\hat\beta_1\) 의 95 % 신뢰구간 (Maxwell Eq. 12):

\[ \hat\beta_1 \pm \sqrt{F_{\alpha;\, 1, N-a}} \cdot \frac{\sqrt{MS_W \sum_j (c_j^2 / n_j)}}{\sum_j c_j^2} \]

표준화 효과 크기 (회귀 결정계수 형태):

\[ R^2_{\text{linear}} = \frac{SS_{\psi_{\text{linear}}}}{SS_{\text{total}}} \]

선형 추세가 데이터 변동의 몇 % 를 설명하는지 보여 준다. 회상 데이터는 \(R^2_{\text{linear}} \approx 0.66\) (전체 변동의 66 % 가 선형으로 설명) 으로 매우 강한 선형 신호이다.

7 Python 코드

import numpy as np
from scipy import stats

# Maxwell Table 6.1 — 4 그룹, 각 n=6
data = {
    1: [2, 3, 1, 2, 0, 4],
    2: [6, 8, 5, 3, 7, 7],
    3: [6, 8, 10, 5, 10, 9],
    4: [11, 10, 7, 9, 8, 9],
}
X = np.array([1, 2, 3, 4])
Y_means = np.array([np.mean(data[k]) for k in [1, 2, 3, 4]])
n = 6
N = n * len(X)
a = len(X)

# 1) deviation contrast coefficients
c = X - X.mean()  # (-1.5, -0.5, 0.5, 1.5)
psi_hat = np.sum(c * Y_means)
ss_c = np.sum(c**2)
beta1_hat = psi_hat / ss_c
beta0_hat = Y_means.mean() - beta1_hat * X.mean()

print(f"contrast coeffs c_j = {c}")
print(f"psi_hat (linear)  = {psi_hat:.3f}")
print(f"sum c_j^2         = {ss_c:.3f}")
print(f"beta1_hat (slope) = {beta1_hat:.3f}")
print(f"beta0_hat (intcp) = {beta0_hat:.3f}")

# 2) SS_psi_linear and F test
all_Y = np.concatenate([data[k] for k in [1, 2, 3, 4]])
ss_total = np.sum((all_Y - all_Y.mean())**2)
ss_within = sum(np.sum((np.array(data[k]) - np.mean(data[k]))**2) for k in data)
ms_within = ss_within / (N - a)
ss_psi = n * psi_hat**2 / ss_c
F_stat = ss_psi / ms_within
p_val = 1 - stats.f.cdf(F_stat, 1, N - a)

print(f"\nSS_psi_linear = {ss_psi:.3f}")
print(f"MS_within     = {ms_within:.3f}")
print(f"F (1, {N-a})    = {F_stat:.3f}, p = {p_val:.4f}")

# 3) cross-check: ordinary regression on full data
X_full = np.repeat(X, n)
slope, intercept, r, p_reg, se = stats.linregress(X_full, all_Y)
print(f"\n[regression cross-check] slope={slope:.3f}, intercept={intercept:.3f}, "
      f"R^2={r**2:.3f}")

기대 출력:

contrast coeffs c_j = [-1.5 -0.5  0.5  1.5]
psi_hat (linear)  = 11.500
sum c_j^2         = 5.000
beta1_hat (slope) = 2.300
beta0_hat (intcp) = 0.500
...
F (1, 20)         = 38.7..., p < 0.0001
[regression cross-check] slope=2.300, intercept=0.500, R^2=0.66...

회귀 분석의 기울기·절편이 contrast 기반 계산과 정확히 일치한다.

8 IT 매핑

Maxwell 사례	IT 사례
학습 시간 1·2·3·4 분 → 회상 단어 수	추천 슬롯 3·5·7·9 개 → 클릭률
약 용량 → 혈압 강하량	알림 빈도 → 리텐션
식사 박탈 시간 → 학습 동기	가격 인하율 → 전환율

직관: A/B Test 와의 차이

A/B Test 는 두 변종의 평균을 비교 (\(t\) 또는 contrast 1 개). 다단계 양적 처치의 실험 (3 수준 이상의 multivariate testing) 에서 선형 추세 검정을 적용하면, 어느 두 수준이 다른지가 아니라 “수준이 증가할수록 일관되게 효과가 커지는가” 를 묻게 된다. 이는 다음 실험의 처치 수준 설계 에 직접 활용된다 — 선형이 강하면 외삽으로 극단 수준을 시도, 비선형이면 이차 검정 (G-MAX6-2) 으로 진행.

9 가정과 위반

양적 요인의 측도가 비율·간격 척도: 정수 계수 \((-3,-1,+1,+3)\) 는 levels 가 등간격일 때만 직교 다항식 표준 형태이다. 비등간격이면 G-MAX6-3 의 절차로 계수를 재계산한다.
등표본: \(n_j = n\) 일 때 \(\hat\beta_1\) 의 단순 형태가 성립. 불균등 표본은 G-MAX6-3.
정규성·등분산성: ANOVA 표준 가정. 이 가정이 깨지면 nonparametric trend (Jonckheere 검정) 로 대체.

10 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

Statistics — SLR 예측 — 회귀 기울기로 예측치 계산
Phase A — Fisher 전통과 ANOVA 대비