Kwangmin Kim - 라틴 방격 역균형화와 검정력 — within-subjects 의 순서 통제

1 정의

정의: Latin Square Design

\(a\) 처치 × \(a\) 시점 × \(a\) 피험자 그룹의 정사각 배열로, 각 처치가 각 시점·각 그룹에 정확히 한 번씩 등장하는 설계.

       Period 1   Period 2   Period 3   Period 4
Group 1:   A         B         C         D
Group 2:   B         C         D         A
Group 3:   C         D         A         B
Group 4:   D         A         B         C

직교성: 처치 효과 (\(\alpha\)), 시점 효과 (\(\beta\)), 그룹 효과 (\(\gamma\)) 가 직교 분리.

2 왜 Latin Square 인가

2.1 단순 counterbalancing 의 한계

\(a\) 개 처치를 무작위 순서로 배정하면 가능한 순서가 \(a!\) 가지. 작은 \(a\) 에서도 큰 수 (\(4! = 24\)).

실제로는 일부 순서만 사용. 이 결과 순서 효과가 처치 효과와 부분적으로 혼동 될 수 있다.

2.2 Latin Square 의 해결

각 처치가 각 시점에 균등하게 등장하도록 보장. \(a\) 가지 순서만 사용 (피험자 그룹 \(a\) 개) 하지만 직교성을 유지.

직관: 그라스 라인 위에 사각형

각 행 (피험자 그룹) = 시점에 따른 처치 배정 순서. 각 열 (시점) = 그 시점에 받은 처치 분포 — 정확히 1 번씩 모든 처치.

→ 처치 효과를 검정할 때 시점이 평균되어 빠지고 (각 열에 모든 처치가 있어 row 평균을 시점 평균으로 통제), 시점 효과를 검정할 때 처치가 평균되어 빠진다.

이는 직교 분리 의 통계적 정수.

3 \(4 \times 4\) Latin Square

       P1  P2  P3  P4
Grp1:   A   B   C   D
Grp2:   B   C   D   A
Grp3:   C   D   A   B
Grp4:   D   A   B   C

각 처치가 각 시점에 정확히 1 번. 총 4 그룹 × 4 시점 = 16 셀. 각 셀에 \(n\) 명 피험자.

총 \(N = 4n\) 피험자.

4 분석 모형

\[ Y_{ijkl} = \mu + \tau_l + \beta_i + \gamma_j + \pi_{i(l)} + \varepsilon_{ijkl} \]

\(\tau_l\): 처치 효과 (fixed).
\(\beta_i\): 그룹 효과 (fixed, 순서 패턴).
\(\gamma_j\): 시점 효과 (fixed).
\(\pi_{i(l)}\): 그룹 \(l\) 안의 피험자 random.
\(\varepsilon\): residual.

4.1 ANOVA 표

Source	\(df\)
Treatment (\(\tau\))	\(a-1\)
Period (\(\gamma\))	\(a-1\)
Group (\(\beta\))	\(a-1\)
Subject within group (\(\pi\))	\(a(n-1)\)
Error	\((a-1)(an - 3)\)
Total	\(a^2 n - 1\)

처치 효과 검정 분모: \(MS_E\) (residual).

5 한계 — 첫 번째 차수의 Carryover 만 통제

Latin Square 는 첫 번째 차수의 carryover 만 제거. 처치 → 다음 처치의 carryover 가 모든 처치에 대해 같다고 가정.

비대칭 carryover (예: 약 A → 약 B 의 잔여 효과는 +5, 약 B → 약 A 는 -3) 는 단순 Latin Square 로 통제 안 됨.

해결: Williams Square.

6 Williams Square

정의: Williams Square

각 처치 쌍이 인접 위치에 정확히 한 번씩 등장하는 Latin Square. 비대칭 carryover 통제에 사용.

6.1 \(4 \times 4\) Williams Square

       P1  P2  P3  P4
Grp1:   A   B   D   C
Grp2:   B   C   A   D
Grp3:   C   D   B   A
Grp4:   D   A   C   B

검증: A→B, B→D, D→C 등 처치 쌍의 인접 빈도가 균등.

각 직접 cycle (A→B, B→C, C→D, D→A) 와 reverse (B→A, C→B, …) 가 같은 횟수.

6.2 짝수 vs 홀수 처치 수

짝수 \(a\): 한 Williams Square 로 충분 (\(a\) 그룹).
홀수 \(a\): 두 Williams Squares 필요 (\(2a\) 그룹).

7 검정력 분석 — Within-Subjects

7.1 Cohen’s \(f\) 와 \(\eta^2\)

\[ f = \sqrt{\frac{\eta^2}{1 - \eta^2}},\quad \text{partial } \eta^2 = \frac{SS_{\text{treat}}}{SS_{\text{treat}} + SS_E} \]

7.2 표본 크기 산출

within-subjects 의 검정력은 between-subjects 보다 훨씬 강력 (개인 간 분산 통제로 \(\sigma^2\) 가 작아짐). 같은 \(f\) 라도 표본 절약.

효과 (\(f\))	between \(a=4\)	within \(a=4\), \(\rho=0.5\)	within, \(\rho=0.7\)
0.10 (작음)	280	145	60
0.25 (중간)	45	25	12
0.40 (큼)	18	10	5

(검정력 0.80, \(\alpha = 0.05\), 가상 수치)

여기서 \(\rho\) 는 시점 간 상관 — 클수록 within-subjects 의 이득이 큼.

직관: 시점 간 상관이 검정력 이득의 핵심

\(\rho = 0\) 이면 within-subjects 는 between-subjects 와 같은 검정력 (개인 간 분산 통제 효과 없음).

\(\rho \to 1\) 이면 거의 무한 표본 절약 가능.

실무 데이터에서 \(\rho\) 는 보통 0.4~0.7. 따라서 within-subjects 는 between-subjects 의 2~5 배 검정력. 이것이 within-subjects 가 임상시험·심리실험에서 표준인 이유.

7.3 표본 크기 산출 공식

\[ n = \frac{(z_{\alpha/2} + z_\beta)^2 (1 - \rho)}{f^2 (a - 1)} \]

(근사 — 정확한 산출은 noncentral \(F\) 분포.)

\(\rho\) 가 클수록 \(1 - \rho\) 작아져 \(n\) 작아짐.

8 Python 코드 — Latin Square 분석

import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols, mixedlm

np.random.seed(2026)

# 4x4 Latin Square
ls_pattern = [
    ["A", "B", "C", "D"],
    ["B", "C", "D", "A"],
    ["C", "D", "A", "B"],
    ["D", "A", "B", "C"],
]
n_per_group = 5

records = []
treat_eff = {"A": 0, "B": 5, "C": 10, "D": 8}

for g_idx, grp in enumerate(ls_pattern):
    for subj in range(n_per_group):
        pi_subj = np.random.normal(0, 8)
        for p_idx, treat in enumerate(grp):
            y = (100 + treat_eff[treat] + pi_subj
                 - 1 * p_idx  # period effect
                 + np.random.normal(0, 3))
            records.append({
                "subject": f"g{g_idx}_s{subj}",
                "group": g_idx,
                "period": p_idx,
                "treatment": treat,
                "Y": y
            })

data = pd.DataFrame(records)

# Latin Square ANOVA
model = ols("Y ~ C(treatment) + C(period) + C(group)", data=data).fit()
anova = sm.stats.anova_lm(model, typ=2)
print("=== Latin Square ANOVA ===")
print(anova.round(3))

# Mixed model with subject random effect
md = mixedlm("Y ~ C(treatment) + C(period) + C(group)",
             data=data, groups=data["subject"]).fit()
print("\n=== Mixed Model (subject random) ===")
print(md.summary().tables[1])

9 표본 크기 산출 — Python

import numpy as np
from scipy import stats

def power_within_subjects(n, a, f, rho, alpha=0.05):
    """Within-subjects ANOVA 의 검정력 산출."""
    sigma2_within = 1 - rho  # 표준화된 within 분산
    df_T = a - 1
    df_E = (a - 1) * (n - 1)
    F_crit = stats.f.ppf(1 - alpha, df_T, df_E)
    ncp = n * a * f**2 / sigma2_within
    return 1 - stats.ncf.cdf(F_crit, df_T, df_E, ncp)

def required_n(a, f, rho, power=0.80, alpha=0.05):
    """원하는 검정력에 필요한 n 산출."""
    for n in range(2, 200):
        if power_within_subjects(n, a, f, rho, alpha) >= power:
            return n
    return None

print("=== Required n (within-subjects, power=0.80) ===")
for f_val in [0.10, 0.25, 0.40]:
    print(f"\nf = {f_val}:")
    for rho_val in [0.0, 0.3, 0.5, 0.7]:
        n_req = required_n(4, f_val, rho_val)
        print(f"  ρ = {rho_val}: n = {n_req}")

10 Latin Square 의 변형

10.1 Replicated Latin Square

각 cell 에 여러 피험자 (replicate). 표준 사용.

10.2 Crossover Latin Square (clinical)

같은 피험자가 모든 처치 받음. 그룹 = 순서 패턴.

환자 그룹 1 (4명): A → B → C → D
환자 그룹 2 (4명): B → C → D → A
...

10.3 Greco-Latin Square

두 Latin Squares 의 직교 결합. 4 차원 직교 통제 (G-MON6).

11 가정과 한계

첫 번째 차수 carryover 만 통제: 비대칭 carryover 는 Williams Square.
균등 표본 가정: 그룹별 표본이 같다는 전제. 비균등은 unbalanced Latin Square.
충분한 washout: carryover 자체가 작아야 통제 효과적.
그룹 효과 = 순서 패턴 효과: 그룹은 순서 외의 의미 없음.
표본 크기 제약: \(a\) 처치 = \(a\) 그룹 = \(a\) 시점.

12 검정력 분석의 실무 절차

Step 1: 효과 크기 추정
  - 도메인 지식 또는 pilot data 에서 $f$.
  - 임상: 작은 $f \approx 0.1$, 보수적.

Step 2: 시점 간 상관 추정
  - 도메인: $\rho \approx 0.5$ 일반.
  - 자기 데이터로 추정 가능.

Step 3: 표본 크기 산출
  - $\alpha = 0.05$, 검정력 0.80.
  - Cohen's $f$ + $\rho$ + $a$ → $n$.

Step 4: 자원 점검
  - 산출된 $n$ 이 가능한지?
  - 부족하면 효과 크기 또는 검정력 재조정.

Step 5: Pilot study
  - 작은 데이터로 가정 점검.
  - 본 실험 전 calibration.

13 응용 — Crossover Trial 의 Latin Square

13.1 임상 사례

4 약 (placebo, drug A, B, C) 의 crossover. 16 환자, 4 그룹 × 4 환자.

각 환자가 4 약 모두 (washout 사이). 순서는 Williams Square 로 비대칭 carryover 통제.

13.2 Williams Square 적용

         P1   P2   P3   P4
Grp1:    Pl   A    C    B
Grp2:    A    B    Pl   C
Grp3:    B    C    Pl   A
Grp4:    C    Pl   A    B

(각 처치 쌍의 인접 빈도 균등 검증 필요.)

13.3 분석

Treatment 검정 (자유도 3).
Period 검정 (자유도 3) — 시간 효과 또는 fatigue.
Group 검정 (자유도 3) — 순서 패턴 효과.
Subject (group) random.
Error.

14 ML 매핑

매핑: ML hyperparameter 의 Latin Square

ML 의 hyperparameter 검색에 Latin Square 활용:

요인: - \(A\) = optimizer (Adam, SGD, RMSprop, AdamW): 4 levels. - 4 시점에 4 model 평가.

각 model 평가는 다른 hyperparameter 와 결합 — Latin Square 로 직교 통제.

장점: - 모든 optimizer 가 모든 시점 (epoch) 에 등장. - 시간 (epoch) 효과 분리. - 작은 표본으로 효율적 검색.

단점: - 비대칭 carryover (예: Adam 다음 SGD 가 잘 작동) 가능 — Williams Square 권장.

15 본 챕터의 마무리

G-MAX11-0  Within-Subjects 개관
G-MAX11-1  Three Situations
G-MAX11-2  Mixed Model + Sphericity
G-MAX11-3  GG/HF + Order Effects
G-MAX11-4  Latin Square + Power  ← 현재 글 (Ch.11 마지막)
    ↓
G-MAX12 (Higher-Order Within: 2×3, Split-Plot)
G-MAX13 (Within Multivariate)

16 관련 주제

선행 지식

후속 주제

G-MAX12 — Higher-Order Within Univariate
G-MAX13 — Multivariate Within
G-MON6 — MOLS

다른 카테고리 연결

17 더 읽을 거리

Williams, E. J. (1949). “Experimental designs balanced for the estimation of residual effects of treatments.” Australian Journal of Scientific Research 2(2): 149-168 — Williams Square 원조.
Cochran, W. G., Cox, G. M. (1957). “Experimental Designs” (2nd ed). Wiley — Latin Square 표준 reference.
Senn, S. (2002). “Cross-over Trials in Clinical Research” (2nd ed). Wiley.
Maxwell, S. E., Delaney, H. D. (2004). “Designing Experiments and Analyzing Data: A Model Comparison Perspective” (2nd ed). Lawrence Erlbaum.
Cohen, J. (1988). “Statistical Power Analysis for the Behavioral Sciences” (2nd ed). Lawrence Erlbaum — within-subjects 검정력의 표준.