Kwangmin Kim - BIB 분석과 블록 간 정보 복구

1 Intra-Block Analysis

정의: Intra-Block Analysis

같은 블록 내 처치 차이만으로 처치 효과 추정. 블록 효과는 nuisance 로 제거.

처치 추정량 (\(v, b, r, k, \lambda\) BIB):

\[ \hat\tau_j = \frac{k Q_j}{\lambda v} \]

여기서 \(Q_j\) = 처치 \(j\) 의 “intra-block 합” (각 블록의 처치 \(j\) 응답 - 그 블록 평균 합).

1.1 \(Q_j\) 계산

\[ Q_j = T_j - \frac{1}{k} \sum_{i: j \in B_i} B_i \]

\(T_j\) = 처치 \(j\) 의 합 (모든 블록 across). \(B_i\) = 블록 \(i\) 의 합.

블록 효과를 차감 후의 처치 정보.

2 ANOVA 표

Source	\(SS\)	\(df\)
Block (unadjusted)	\(\sum_i (T_i - \bar Y) k\)	\(b - 1\)
Treatment (adjusted)	\(\sum_j Q_j \hat\tau_j\)	\(v - 1\)
Error	\(SS_T - SS_B - SS_T^*\)	\(bk - b - v + 1\)
Total	\(\sum (Y - \bar Y)^2\)	\(bk - 1\)

(Adjusted treatment SS 사용 — 블록 효과를 통제 후 처치 효과.)

직관: Adjusted vs Unadjusted

처치 SS 는 두 가지로 계산 가능:

Unadjusted: 단순 처치 평균의 분산. 블록 효과 무시.
Adjusted: 블록 효과 통제 후. BIB 분석의 표준.

비대칭 BIB (\(\lambda\) < \(r\)) 에서 두 결과 다름. Adjusted 가 정확.

3 Inter-Block Information

직관: 블록 평균에도 처치 정보가 있다

각 블록의 평균은 그 블록에 들어간 처치들의 평균. BIB 에서 처치 분배가 균형이라 블록 평균 자체에 처치 효과의 추가 정보 가 있다. Intra-block 만 사용하면 이 정보를 버리는 것.

Inter-block 분석은 블록 평균을 응답으로 보고 다시 처치 효과 추정. 두 추정량을 가중 결합 (intra + inter) → 더 정밀한 추정.

4 Recovery of Inter-Block Information

가중 결합:

\[ \hat\tau_j^{\text{combined}} = w_1 \hat\tau_j^{\text{intra}} + w_2 \hat\tau_j^{\text{inter}} \]

가중치는 두 추정량의 분산의 역수: \[ w_1 = \frac{1}{\text{Var}(\hat\tau_j^{\text{intra}})}, \quad w_2 = \frac{1}{\text{Var}(\hat\tau_j^{\text{inter}})} \]

조건: 블록 효과가 random.

4.1 Intra-block 분산

\[ \text{Var}(\hat\tau_j^{\text{intra}}) = \frac{k \sigma_e^2}{\lambda v} \]

4.2 Inter-block 분산

\[ \text{Var}(\hat\tau_j^{\text{inter}}) = \frac{(\sigma_e^2 + k \sigma_b^2) (v - k)}{(r - \lambda) v} \]

(블록 random effect \(\sigma_b^2\) 포함.)

\(\sigma_b^2 \to 0\) 면 inter-block 분산이 매우 큼 → \(w_2 \to 0\) → intra-block 만 사용.

5 가설 적용

\((7, 7, 3, 3, 1)\) BIB, 7 약물 비교, 7 환자 (블록).

ANOVA:

Source	\(SS\)	\(df\)
Patient (block)	50	6
Drug (adjusted)	80	6
Error	30	8

처치 효과 매우 유의. Inter-block 결합 시 정밀도 ↑.

6 Mixed Model 의 자동 처리

직관: Mixed Model = Intra + Inter Recovery

mixed model 의 REML 추정은 자동으로 intra + inter 결합:

md = mixedlm("Y ~ C(treatment)", data, groups=data["block"]).fit()

블록을 random 으로 두면 likelihood 가 두 source 의 정보를 자동 결합. 별도 계산 불필요.

이는 정통 BIB 분석의 현대적 표준.

7 Python 코드

import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols, mixedlm

# (7, 7, 3, 3, 1) BIB
np.random.seed(2026)
blocks = [
    [1, 2, 4], [2, 3, 5], [3, 4, 6], [4, 5, 7],
    [5, 6, 1], [6, 7, 2], [7, 1, 3]
]

records = []
treat_eff = {1: 5, 2: 8, 3: 3, 4: 10, 5: 6, 6: 4, 7: 7}
for b_idx, block in enumerate(blocks):
    block_eff = np.random.normal(0, 4)
    for t in block:
        y = 50 + treat_eff[t] + block_eff + np.random.normal(0, 2)
        records.append({"block": b_idx, "treatment": t, "Y": y})

data = pd.DataFrame(records)

# Intra-block analysis
model_intra = ols("Y ~ C(block) + C(treatment)", data=data).fit()
print("=== Intra-block ANOVA (Type II SS) ===")
print(sm.stats.anova_lm(model_intra, typ=2).round(3))

# Mixed model — inter-block recovery 자동 처리
md = mixedlm("Y ~ C(treatment)", data=data, groups=data["block"]).fit()
print("\n=== Mixed Model (auto inter-block recovery) ===")
print(md.summary().tables[1])

# 처치 효과 추정값 비교
print("\n=== Treatment effect comparison ===")
intra_treat_ses = model_intra.params.filter(like="C(treatment)")
mixed_treat_ses = md.params.filter(like="C(treatment)")
print("Intra-block estimates:")
for k, v in intra_treat_ses.items():
    print(f"  {k}: {v:+.3f}")
print("\nMixed model (combined) estimates:")
for k, v in mixed_treat_ses.items():
    print(f"  {k}: {v:+.3f}")

8 검정력 — BIB vs RBD vs CRD

같은 자원으로 BIB 와 다른 design 비교:

Design	사용 가능	자유도	검정력
CRD	모든 환자	큼	낮음 (블록 무시)
RBD (만약 가능)	모든 처치 → 환자	중간	높음
BIB	일부 처치만 환자	적음	중간

자원 제약 때문에 BIB 가 자주 선택. RBD 가 가능하면 RBD 가 가장 효율.

9 가정과 한계

블록 random vs fixed: inter-block recovery 는 random 가정.
균형 BIB: 비균형 PBIB 는 다른 분석 (G-MON5-5).
Mixed model 권장: 자동 결합.
Block × Treatment interaction: 일반 BIB 는 가정 X.

10 응용

10.1 1. 임상 — Crossover

각 환자가 일부 약 (washout). BIB 로 균형 비교.

10.2 2. 농학 — 큰 plot

각 농장에 일부 품종만. resolvable BIB 로 분석.

10.3 3. 식품 평가

각 패널이 일부 레시피만 시식 (피로 방지). BIB.

10.4 4. ML 모델 비교

각 GPU batch 에 일부 모델만 평가. BIB.

11 ML 매핑

매핑: ML BIB 평가

ML 의 BIB 모델 비교:

# 7 모델, 7 GPU batches, 각 batch 에 3 모델
# (7, 7, 3, 3, 1) BIB

md = mixedlm("accuracy ~ C(model)", data, groups="batch").fit()

batch 효과 (random) 자동 처리. 각 모델의 accuracy 추정.

이는 ML 의 systematic 모델 비교의 정수.

12 본 시리즈

G-MON5-0  개관
G-MON5-1  BIB 도입
G-MON5-2  BIB Construction
G-MON5-3  BIB Analysis  ← 현재 글
G-MON5-4  Youden + Lattice
G-MON5-5  PBIB
G-MON5-6  Recovery + Optimality

13 관련 주제

선행 지식

G-MON5-0~2 시리즈

후속 주제

다른 카테고리 연결

Statistics — LDA Mixed Effects

14 더 읽을 거리

Yates, F. (1936). “Incomplete randomized blocks.” Annals of Eugenics 7: 121-140 — BIB analysis 원조.
Cochran, W. G., Cox, G. M. (1957). “Experimental Designs” (2nd ed). Wiley.
Pearce, S. C. (1983). “The Agricultural Field Experiment.” Wiley.
Searle, S. R., Casella, G., McCulloch, C. E. (2006). “Variance Components.” Wiley.