1 정의
| 구분 | 고정 효과 (fixed) | 임의 효과 (random) |
|---|---|---|
| levels 의 성격 | 연구자가 의도적으로 선택 | 큰 모집단에서 무작위 표본 |
| 추론 대상 | 그 levels 의 평균 차이 | levels 의 분산 (variance component) |
| 모수 | \(\alpha_j\) (특정 levels 의 효과) | \(\alpha_j \sim N(0, \sigma^2_\alpha)\) |
| 일반화 범위 | 그 levels 에 한정 | 모집단 전체 |
| 예시 | 약 종류 A, B, C (관심 약 모두) | 학교 1, 2, 3 (전국 학교의 random sample) |
핵심: 임의 효과는 levels 의 변동량 이 모수이지, 특정 levels 의 효과가 아니다.
2 왜 이 구분이 중요한가
2.1 추론 대상의 차이
고정 효과는 “특정 약 A 의 효과는 얼마인가?” 에 답한다. 결론은 그 3 약에 한정.
임의 효과는 “약마다 효과가 얼마나 다른가? 그 분산은?” 에 답한다. 결론은 모집단 일반화.
2.2 검정 분모의 차이
고정 요인의 \(F\) 검정 분모는 \(MS_W\). 임의 요인이 섞이면 분모가 다른 항으로 바뀐다. 이를 결정하는 도구가 Expected Mean Squares (EMS).
고정 효과: “이 3 가지 약이 평균적으로 다른가?” — 결론은 그 3 약에만 적용.
임의 효과: “약마다 다르긴 한데, 모든 약 모집단에서 그 다양성은?” — 결론은 모집단 일반화.
연구 목적에 따라 선택: - RCT 임상시험 → 보통 fixed (특정 약 비교). - 다단계 표집 분산 분해 (학생 within 학급 within 학교) → random. - 다센터 연구 (random sample of 센터) → 처치는 fixed, 센터는 random.
이 분류가 결과 해석에 직접 영향. “어디까지 일반화할 것인가” 의 통계적 형식화.
2.3 추정 분산의 차이
각 효과의 분산 추정량:
- Fixed effect \(\alpha_j\): \(\hat\alpha_j = \bar Y_j - \bar Y\). 분산 \(\sigma^2/n\).
- Random effect \(\sigma^2_\alpha\): ANOVA 식 또는 REML 로 추정.
random 효과는 그 자체가 모수가 아니라 분포의 모수.
3 Ch.10 의 4 단계 흐름
G-MAX10-0 Random/Nested 개관 (현재 글)
│
▼
G-MAX10-1 Fixed vs Random + EMS — 검정 분모 결정의 원리
│
▼
G-MAX10-2 Two-way Mixed Model + Error Term Selection
│
▼
G-MAX10-3 Nested Design + Variance Components
│
▼
G-MAX11~14 (Within-Subjects), G-MAX15 (Multilevel — 통합)
4 응용 — Random Effects
| 분야 | 고정 요인 | 임의 요인 |
|---|---|---|
| 임상 다센터 | 처치 (약 A, B, 위약) | 임상센터 (10 개 무작위 추출) |
| 교육 | 교수법 (전통/탐구) | 학교 (50 개 무작위 추출) |
| 농학 | 비료 (3 종류) | 농장 (전국 표본) |
| 산업 | 공정 (개선/표준) | 작업조 (무작위 추출) |
| IT | UI 변종 (A/B) | 사용자 세그먼트 (무작위) |
| 메타분석 | 연구 종류 | 연구 (random sample) |
5 핵심 모형 — Two-Way Mixed
요인 \(A\) 가 고정 (\(a\) levels), \(B\) 가 임의 (\(b\) levels, \(\beta_k \sim N(0, \sigma^2_\beta)\)):
\[ Y_{ijk} = \mu + \alpha_j + \beta_k + (\alpha\beta)_{jk} + \varepsilon_{ijk} \]
- \(\alpha_j\): fixed.
- \(\beta_k \sim N(0, \sigma^2_\beta)\): random.
- \((\alpha\beta)_{jk} \sim N(0, \sigma^2_{\alpha\beta})\): random (mixed model 에서는 자동 random).
- \(\varepsilon_{ijk} \sim N(0, \sigma^2_\varepsilon)\): residual.
5.1 EMS (Expected Mean Squares)
| Source | EMS |
|---|---|
| \(A\) (fixed) | \(\sigma^2_\varepsilon + n \sigma^2_{\alpha\beta} + nb \sum \alpha_j^2 / (a-1)\) |
| \(B\) (random) | \(\sigma^2_\varepsilon + na \sigma^2_\beta\) |
| \(A \times B\) (random) | \(\sigma^2_\varepsilon + n \sigma^2_{\alpha\beta}\) |
| Error | \(\sigma^2_\varepsilon\) |
\(F\) 검정 분모: 그 effect 의 EMS 에서 관심 항을 뺀 EMS 와 가장 가까운 다른 source 의 MS 를 분모로 한다.
| 검정 | 분모 |
|---|---|
| \(A\): \(H_0: \alpha_j = 0\) | \(MS_{A \times B}\) |
| \(B\): \(H_0: \sigma^2_\beta = 0\) | \(MS_E\) |
| \(A \times B\): \(H_0: \sigma^2_{\alpha\beta} = 0\) | \(MS_E\) |
6 Nested Design
요인 \(B\) 의 levels 가 요인 \(A\) 의 각 level 마다 다르게 정의되는 설계. \(B\) 의 levels 는 \(A\) 안에 nested.
각 학교에 다른 학급 (학교 1 의 학급 1A, 1B, 1C; 학교 2 의 학급 2A, 2B, 2C; …).
Cross-classified 와의 차이: \(B\) 의 같은 label 이 다른 \(A\) levels 에서 같은 모집단 단위가 아니다.
6.1 모형
\[ Y_{ijk} = \mu + \alpha_j + \beta_{k(j)} + \varepsilon_{ijk} \]
\(\beta_{k(j)}\) 는 “학급 \(k\) in 학교 \(j\)”. 보통 random (학급도 표본).
6.2 EMS (둘 다 random, \(a\) 학교 × \(b\) 학급/학교 × \(n\) 학생/학급)
| Source | EMS |
|---|---|
| \(A\) | \(\sigma^2_\varepsilon + n \sigma^2_{B(A)} + nb \sigma^2_A\) |
| \(B(A)\) | \(\sigma^2_\varepsilon + n \sigma^2_{B(A)}\) |
| Error | \(\sigma^2_\varepsilon\) |
검정 분모: - \(A\) 검정 → \(B(A)\) 의 MS 분모. - \(B(A)\) 검정 → Error MS.
이는 multilevel model 의 직접적 ANOVA 표현이다 (G-MAX15).
7 분산 성분 추정
각 분산 성분은 EMS 식의 차이로 추정:
\[ \hat\sigma^2_\varepsilon = MS_E \] \[ \hat\sigma^2_{B(A)} = (MS_{B(A)} - MS_E) / n \] \[ \hat\sigma^2_A = (MS_A - MS_{B(A)}) / (n b) \quad (A \text{ random 인 경우}) \]
음수가 나오면 0 으로 truncate. variance component 의 음수 추정은 작은 표본의 통계적 이상이지 실제 음의 분산이 아님.
분산 성분은 ICC (intraclass correlation coefficient) 의 직접 계산을 가능하게 한다.
\[ \text{ICC}_{\text{학급}} = \frac{\sigma^2_{B(A)}}{\sigma^2_A + \sigma^2_{B(A)} + \sigma^2} \]
같은 학급의 두 학생 점수의 상관. 다단계 데이터의 비독립성을 정량화. ICC 가 크면 multilevel model 이 필수 (단일 OLS 의 표준오차가 underestimate).
ICC = 0: cluster 효과 없음 (OLS OK). ICC = 0.1~0.2: 중간. multilevel 권장. ICC = 0.3+: 큼. multilevel 필수.
ICC 가 큰 데이터 분석에 OLS 사용 시 design effect (DEFF = \(1 + (m-1) \cdot ICC\), \(m\) = cluster 크기) 만큼 표준오차 underestimate → 가짜 양성.
8 ANOVA 와 Multilevel 의 관계
균등 데이터에서:
- ANOVA + EMS approach (전통, Maxwell, Cochran-Cox).
- Multilevel REML approach (현대, Pinheiro-Bates, lme4).
가 같은 결과 (분산 성분 추정 + 효과 검정).
차이:
| 측면 | ANOVA | Multilevel |
|---|---|---|
| 균등 데이터 | 정확 | 정확 |
| 비균등 | 부정확 | 정확 (REML) |
| 결측 | 어려움 | 자동 (MAR 가정) |
| 공변량 | ad hoc | 자연스러움 |
| 음의 분산 | 가능 | 가능 (rare) |
| 계산 | 단순 (식) | 수렴 가능성 점검 |
→ 본 시리즈는 두 시각 모두 다룸. ANOVA 는 정통 lens, multilevel 은 실무 표준.
9 IT 매핑
A/B test 에서 사용자 세그먼트 가 무작위 표본이면 random effect:
처치 (fixed): A, B 변종
사용자 그룹 (random): 무작위 추출 사용자 세그먼트
이 경우 처치 효과의 검정 분모가 사용자 그룹 × 처치 상호작용. 이는 multilevel A/B test 의 정수 (Kohavi Phase F 의 일부 토픽).
또는 사용자 nested in 그룹 구조:
그룹 (level 2, random)
│
└─ 사용자 (level 1, random within 그룹)
│
└─ 측정 (level 0, residual)
multilevel ANOVA 또는 mixed model 적용.
이는 cluster-randomized trial (Hedeker-Gibbons), geo-experiments (Kohavi) 의 정수.
10 가설 사례 — 임상 다센터 시험
10.1 데이터
3 약 (placebo, drug A, drug B) × 5 임상센터 × 4 환자/센터/약. 각 센터에서 무작위 12 환자 모집, 각 약에 4 명 배정.
10.2 모형
\(A\) = 약 (fixed, 3 levels), \(B\) = 센터 (random, 5 levels), \(n = 4\).
Two-way mixed model (G-MAX10-2).
10.3 가설 ANOVA
| Source | \(SS\) | \(df\) | \(MS\) | EMS | \(F\) | \(p\) |
|---|---|---|---|---|---|---|
| \(A\) (약) | 600 | 2 | 300 | \(\sigma^2 + 4\sigma^2_{AB} + 20\theta_\alpha\) | \(300/40 = 7.5\) (\(MS_{AB}\)) | 0.015 |
| \(B\) (센터) | 200 | 4 | 50 | \(\sigma^2 + 12\sigma^2_\beta\) | \(50/15 = 3.3\) (\(MS_E\)) | 0.018 |
| \(A \times B\) | 320 | 8 | 40 | \(\sigma^2 + 4\sigma^2_{AB}\) | \(40/15 = 2.7\) (\(MS_E\)) | 0.020 |
| Error | 675 | 45 | 15 | \(\sigma^2\) | — | — |
10.4 분산 성분
\[ \hat\sigma^2 = 15 \] \[ \hat\sigma^2_{AB} = (40 - 15) / 4 = 6.25 \] \[ \hat\sigma^2_\beta = (50 - 15) / 12 = 2.92 \]
10.5 해석
- 약 효과 (\(A\)) 매우 유의 — 평균적으로 약마다 효과 다름.
- 센터 효과 (\(B\)) 유의 — 센터마다 baseline 다름.
- 약 × 센터 interaction 유의 — 약 효과가 센터마다 약간 다름 (HTE).
중요: 약의 검정 분모가 \(MS_{AB} = 40\), \(MS_E = 15\) 가 아님. 만약 fixed 모형으로 잘못 분석하면 \(F = 300/15 = 20\) 으로 과대 추정. 잘못된 결론 가능.
11 Random Effect 의 정규성
random effect 가 정규 분포라는 가정. 큰 cluster 수 (예: 센터 50+) 에서 robust.
작은 cluster 수 (5~10) 에서: - 분산 성분 추정 부정확 (큰 표본 오차). - random effect BLUP 의 신뢰구간 약. - 일반화 위험 (소수 sample 이 모집단 대표성 부족).
권장: cluster 수 \(\ge 20\sim30\) 이 robust 한 random effect 추정의 일반 기준.
12 Python 코드 — Two-Way Mixed (다센터)
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import mixedlm
from statsmodels.formula.api import ols
np.random.seed(2026)
n = 4
A_levels = ["Placebo", "DrugA", "DrugB"]
B_levels = list(range(5)) # 5 centers, random
records = []
mu = 100
A_eff = {"Placebo": 0, "DrugA": -10, "DrugB": -5}
B_eff = np.random.normal(0, np.sqrt(2.92), len(B_levels))
AB_eff = np.random.normal(0, np.sqrt(6.25), (len(A_levels), len(B_levels)))
for ai, a in enumerate(A_levels):
for bi, b in enumerate(B_levels):
for _ in range(n):
y = (mu + A_eff[a] + B_eff[bi] + AB_eff[ai, bi]
+ np.random.normal(0, np.sqrt(15)))
records.append({"A": a, "B": b, "Y": y})
data = pd.DataFrame(records)
# Method 1: Mixed model via mixedlm
md = mixedlm("Y ~ C(A)", data=data, groups=data["B"]).fit()
print("=== Mixed Model (A fixed, B random) ===")
print(md.summary())
print(f"\nVariance of B (random intercept): {md.cov_re.iloc[0, 0]:.3f}")
print(f"Residual variance: {md.scale:.3f}")
# Method 2: ANOVA-based with manual error term selection
fix_model = ols("Y ~ C(A) + C(B) + C(A):C(B)", data=data).fit()
anova = sm.stats.anova_lm(fix_model, typ=2)
print("\n=== Standard ANOVA (assumes all fixed — INCORRECT for B random) ===")
print(anova.round(3))
# 분모 변경 — A 검정 분모를 A:B 로 재계산
ms_a = anova.loc["C(A)", "mean_sq"]
ms_ab = anova.loc["C(A):C(B)", "mean_sq"]
F_correct_A = ms_a / ms_ab
df_a = anova.loc["C(A)", "df"]
df_ab = anova.loc["C(A):C(B)", "df"]
from scipy import stats
p_correct_A = 1 - stats.f.cdf(F_correct_A, df_a, df_ab)
print(f"\nCorrected F for A (mixed): {F_correct_A:.2f}, df=({df_a}, {df_ab}), p={p_correct_A:.4f}")13 본 시리즈의 학습 흐름
Phase A (ANOVA 기초, fixed 만)
│
▼
G-MAX7~9 (Factorial, ANCOVA — 모두 fixed)
│
▼
G-MAX10 ── Random/Nested 개관 (현재 글)
│
▼
G-MAX10-1~3 ── EMS, Mixed, Nested 절차
│
▼
G-MAX11~14 (Within-Subjects — random subject)
│
▼
G-MAX15~16 (Multilevel — 통합 framework)
14 가정과 한계
- 고정 vs 임의 분류는 도메인적: 통계적 분석 자체는 어느 쪽이든 가능. “어떤 추론을 하고 싶은가” 가 결정.
- Random effect 의 정규성: \(\beta_k \sim N(0, \sigma^2)\). 위반 시 robust 추정 (REML).
- Nested 의 식별: 진짜 nested 인지 cross-classified 인지 도메인 확인. 잘못 분류하면 EMS 와 검정이 모두 어긋남.
- 균등 표본: 비균등은 REML 또는 multilevel 모형으로 대체.
- Cluster 수의 충분: random effect 의 robust 추정은 \(\ge 20\sim30\) cluster.
15 관련 주제
선행 지식
후속 주제
- G-MAX10-1: Fixed vs Random + EMS
- G-MAX10-2: Two-way Mixed Model
- G-MAX10-3: Nested Design
- G-MAX15 — Multilevel Models (통합)
다른 카테고리 연결
- Statistics — LDA Random Intercept
- Statistics — LDA Mixed Effects 개관
- Statistics — LDA Three-Level NIMH
- AB Test — 다중 비교 실험 — multilevel A/B
- Causal Inference — 효과 수정 — HTE 의 random 시각
16 더 읽을 거리
- Searle, S. R., Casella, G., McCulloch, C. E. (2006). “Variance Components.” Wiley — random effects 의 표준 reference.
- Pinheiro, J. C., Bates, D. M. (2000). “Mixed-Effects Models in S and S-PLUS.” Springer — R 의 nlme 의 표준 reference.
- Bates, D., Mächler, M., Bolker, B., Walker, S. (2015). “Fitting linear mixed-effects models using lme4.” Journal of Statistical Software 67(1).
- Maxwell, S. E., Delaney, H. D. (2004). “Designing Experiments and Analyzing Data: A Model Comparison Perspective” (2nd ed). Lawrence Erlbaum — 본 시리즈 source.
- Hocking, R. R. (1973). “A discussion of the two-way mixed model.” American Statistician 27(4): 148-152 — restricted vs unrestricted parameterization.
- Snijders, T. A. B., Bosker, R. J. (2012). “Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling” (2nd ed). Sage.