Kwangmin Kim - 교락 (Confounding) — 블록과 효과의 의도적 동일시

1 정의

정의: Confounding (Aliasing)

한 효과를 다른 효과 (또는 block 변수) 와 통계적으로 분리할 수 없게 만드는 의도적 설계.

전통적 사용: \(2^k\) 의 셀 수가 너무 커서 한 block 에 다 들어갈 수 없을 때, 일부 효과 (보통 고차 상호작용) 를 block 과 confound 하여 block 수 ↓.

용어: “\(ABC\) confounded with blocks” → \(ABC\) 효과와 block 효과가 분리 불가능.

2 동기

\(2^4 = 16\) 셀이 한 batch 에 다 들어가지 못하면 (실험 환경 제약), 8 셀씩 두 block 으로 나누어야 함. 어떤 방식으로?

가장 손실 적은 분할: 고차 상호작용 (\(ABCD\)) 를 block 과 confound. 4 원 상호작용은 실무적 의미 거의 없음 → 정보 손실 ↓.

3 분할 절차

\(2^4\) 의 16 셀을 \(ABCD\) contrast 의 부호 (+1 / -1) 에 따라 분할:

Block 1: ABCD = +1 인 셀 (8 cells)
Block 2: ABCD = -1 인 셀 (8 cells)

각 block 내에서 무작위 배정.

3.1 구체적 cell 분할

\(ABCD = a \cdot b \cdot c \cdot d\) (\(\pm 1\)):

Block 1 (ABCD=+1): (++++), (++--), (+-+-), (+--+), (-+-+), (-++-), (--+-+), (----)
                  → 짝수 개의 +1
Block 2 (ABCD=-1): 홀수 개의 +1 인 cells

(주의: 8 cells 씩 두 block.)

4 ANOVA

Source	\(df\)
Block (= ABCD 와 confounded)	1
주효과 + 이원·삼원 상호작용	14
Error	\(n \cdot 16 - 16\)

\(ABCD\) 효과는 추정 불가능 (block 과 같이). 나머지 14 효과는 모두 추정 가능.

5 더 많은 block 에 confounding

8 cells 마저도 한 block 에 안 들어가면 4 cells × 4 blocks 로:

\(ABC\) 와 \(ABD\) 를 block 과 confound.
그 곱 \(ABC \cdot ABD = A^2 B^2 CD = CD\) 도 자동 confounded (\(GF(2)\) 산술).

따라서 \(ABC\), \(ABD\), \(CD\) 세 효과가 block 과 confound. 이를 defining contrasts 라 한다.

함정: Defining Contrasts 의 자동 곱

defining contrasts 를 두 개 선택하면 그 곱이 자동으로 추가 confound:

선택: \(ABC\), \(ABD\).
자동: \(ABC \cdot ABD = CD\) (GF(2) 산술, \(A^2 = 1\), \(B^2 = 1\)).

3 개 effect 가 block 과 confound. 이를 모르고 분석하면 \(CD\) 를 마치 추정 가능한 듯 처리해 잘못된 결론.

→ Defining contrasts 선택 후 모든 곱 (subgroup) 을 명시.

6 Defining Contrast 선택

3 개의 confounded 효과 중 하나는 다른 둘의 곱. 두 개를 자유 선택, 세 번째는 자동 결정.

권장: 고차 상호작용 만 confound (ABC, ABD 같은). 주효과·이원 상호작용 보존.

6.1 가능한 분할 — \(2^4\) 의 4 block

defining contrasts: \(ABC\), \(ABD\), \(CD\) (세 번째 자동).

각 셀에 대해 \((ABC, ABD)\) 의 부호 패턴으로 4 block 분류:

ABC	ABD	Block
+	+	1
+	-	2
-	+	3
-	-	4

각 block 4 cells. 16 cells 총. 하지만 block × treatment 가 2 자유도 이상 confound 되어 analysis 시 주의.

7 의도적 Confounding 의 가치

직관: 의도적 confounding 의 가치

ANOVA 의 일반 가르침: “confounding 을 피하라”. 그런데 정통 DOE 는 의도적 confounding 을 도구로 활용. 차이는 “무엇을 confound 하는가” 이다.

나쁜 confounding: 처치 효과와 block 효과가 같이 묶여서 처치 효과 추정 불가.

좋은 confounding: 4 원 상호작용처럼 무의미한 효과를 block 과 묶음 → block 수 ↓ → 실험 가능.

이는 자원 제약 하의 정보 trade-off 의 예술. 통계적 sparsity 가정 (“고차 상호작용 ≈ 0”) 에 의존.

8 Partial Confounding

여러 replicate 사이에 다른 효과를 confound 하여 각 효과를 일부 replicate 에서 추정 가능.

8.1 \(2^3\) 의 partial confounding 사례

3 replicate, 각 replicate 가 다른 high-order interaction 을 block 과 confound:

Replicate 1: ABC confounded
Replicate 2: AB confounded (단순화 예시)
Replicate 3: AC confounded

각 효과는 자기가 confounded 된 replicate 만 빼고 다른 replicate 에서 추정 가능.

분석: - \(A, B, C\): 모든 replicate 에서 추정 (confounded 안 됨). - \(AB\): replicate 1, 3 에서만 (replicate 2 에서 block 과 confound). - \(AC\): replicate 1, 2 에서만. - \(BC\): 모든 replicate 에서. - \(ABC\): replicate 2, 3 에서만.

자유도 정확 계산: 각 효과의 자유도 = (그 효과가 confounded 되지 않은 replicate 수) × (효과 자유도). 나머지는 손실.

이 균형 설계는 Yates (1937) 의 balanced confounded design. 산업 실험에서 보편적.

9 \(2^4\) 의 4 block 분할 사례 — Python

import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
from itertools import product

np.random.seed(2026)
# 2^4 design with ABCD confounded with blocks
factors_levels = list(range(2))  # 0, 1
records = []
for a in factors_levels:
    for b in factors_levels:
        for c in factors_levels:
            for d in factors_levels:
                # ABCD contrast: ±1
                abcd = (-1)**(a + b + c + d)
                block = "Block1" if abcd > 0 else "Block2"
                # 가상의 응답
                y = (10 + 3*(2*a-1) + 2*(2*b-1) + 1*(2*c-1)
                     + 2*((2*a-1)*(2*b-1))  # AB interaction
                     + np.random.normal(0, 1))
                records.append({"A": a, "B": b, "C": c, "D": d,
                              "block": block, "Y": y})
data = pd.DataFrame(records)

print("Block size and ABCD assignment:")
print(data.groupby("block").size())

# ANOVA — block + 주효과·이원 상호작용 (3원도 포함)
model = ols(
    "Y ~ C(block) + A*B + A*C + A*D + B*C + B*D + C*D + A:B:C + A:B:D + A:C:D + B:C:D",
    data=data
).fit()
anova = sm.stats.anova_lm(model, typ=2)
print("\n=== Confounded design ANOVA ===")
print(anova.round(3))
print("\nNote: ABCD effect cannot be estimated (confounded with block)")

10 응용 — 산업 사례

10.1 화학 반응 — Block 제약

화학 반응 실험에서 한 batch 에 16 cells 의 반응 안 됨. machine 한정.

해결: - 8 cells × 2 batch (block). - 4 cells × 4 batch.

\(ABCD\) 또는 그 이상의 고차 상호작용을 block 과 confound.

10.2 농학 — Field 분할

큰 field 가 균질하지 않음. 작은 sub-field 로 나눠야 함.

각 sub-field (block) 에 일부 cells. 고차 상호작용을 block 과 confound.

11 가정과 한계

무엇을 confound 하는가의 결정: 도메인 지식 필요.
기본 가정: confounded 효과 = 0 (sparsity).
블록 무작위화: 각 block 내 무작위 배정 필수.
Partial 의 균형: 모든 효과가 replicate 사이에 균형되어야.

12 ML 매핑

매핑: ML 의 confounded experiment

ML 모델 비교에서 자원 제약:

2^4 = 16 hyperparameter 조합. 그러나 한 GPU batch 에 8 모델만 학습 가능.

해결: - 8 cells × 2 batch. - \(ABCD\) 효과를 batch 효과와 confound (4 원 상호작용 무시).

ML 의 hyperparameter screening 에서 confounding 은 흔한 trade-off.

13 본 시리즈

G-MON3-0  Factorial 개관
G-MON3-1  2^k Factorial
G-MON3-2  Finite Fields + Grouping
G-MON3-3  Confounding  ← 현재 글
G-MON3-4  3^k Factorial
G-MON3-5  General Construction
G-MON3-6  Fractional Factorial

14 관련 주제

선행 지식

G-MON3-0~2 시리즈

후속 주제

다른 카테고리 연결

Causal Inference — 교란 — 다른 의미의 confounding (관찰 연구의 lurking variable).

15 더 읽을 거리

Yates, F. (1937). “The Design and Analysis of Factorial Experiments.”
Cochran, W. G., Cox, G. M. (1957). “Experimental Designs” (2nd ed). Wiley.
Box, G. E. P., Hunter, W. G., Hunter, J. S. (2005). “Statistics for Experimenters.”
Wu, C. F. J., Hamada, M. S. (2009). “Experiments.” Wiley — confounding 정통.
Mukerjee, R., Wu, C. F. J. (2006). “A Modern Theory of Factorial Designs.” Springer.