Kwangmin Kim - 블록 간 정보 복구와 설계의 최적성

1 Inter-Block Recovery (PBIB)

PBIB 도 BIB 처럼 블록 평균에 처치 정보가 있다. 가중 결합:

\[ \hat\tau_j^{\text{combined}} = \frac{w_1 \hat\tau_j^{\text{intra}} + w_2 \hat\tau_j^{\text{inter}}}{w_1 + w_2} \]

\(w_i\) = 분산 역수.

조건: 블록 random.

1.1 Mixed Model 의 자동 처리

lme4::lmer(Y ~ treatment + (1 | block)) 또는 statsmodels.mixedlm 가 자동으로 best linear unbiased estimate (BLUE) 추정 — intra + inter 결합 자동.

2 설계의 최적성

정의: 최적성 기준

처치 효과 추정의 분산 행렬 \(\boldsymbol{\Sigma}_{\hat\tau}\) 의 함수:

기준	정의	의미
A-optimal	\(\text{tr}(\boldsymbol{\Sigma})\) 최소화	평균 분산 최소
D-optimal	\(\|\boldsymbol{\Sigma}\|\) 최소화	volume 최소
E-optimal	가장 큰 eigenvalue 최소화	최악의 분산 최소
G-optimal	예측 분산의 최댓값 최소	응답 surface 정밀도

각 기준이 다른 측면 강조:

직관: A vs D vs E

A-optimal: 평균 분산 최소 — “모든 처치 비교의 평균 정밀도”. D-optimal: 결정자 (volume) 최소 — “전체 추정의 effective volume”. E-optimal: 최대 eigenvalue 최소 — “가장 부정확한 비교의 분산 최소”.

각각 유용: - A: 일반 권장 (average performance). - D: 다중 추정의 결합 정확도. - E: 최악의 처치 비교에 강함.

대부분의 BIB 가 A·D·E 모두에서 우수.

3 BIB 의 최적성

Theorem (Kiefer, 1959)

BIB 는 일반적으로 \(A\)- 와 \(D\)-optimal. 모든 처치 쌍 비교가 같은 분산 → 균형이 최적.

3.1 증명 sketch

BIB 의 information matrix \(\mathbf{C}\) 의 eigenvalue:

\[ \lambda_C = \frac{r(k-1)}{k} \quad \text{with multiplicity } v - 1 \]

Spectral structure 가 균등 → A·D·E 모두 최적.

4 PBIB 의 최적성

PBIB 는 일반적으로 BIB 보다 약간 inferior. 그러나 BIB 가 존재하지 않는 모수에서는 PBIB 가 가능한 최적.

4.1 Group Divisible PBIB 의 효율

GDP (Group Divisible PBIB) 의 효율:

\[ \text{efficiency} = \frac{\text{within group } \lambda_1}{\text{combined average}} \]

within-group 비교가 between-group 비교보다 정밀.

5 컴퓨터 보조 설계

정의: D-Optimal Algorithm

큰 \(v, b\) 에서 최적성 검색은 컴퓨터 알고리즘.

Coordinate Exchange: 시작 design 에서 cell swap 으로 D 최대화.
Simulated Annealing: stochastic 검색.
Genetic Algorithm: 비표준 design.
Branch and Bound: exhaustive 검색 (작은 모수).

R 패키지: AlgDesign, optFederov, dsigndoe. Python: pyDOE2, dexpy, custom code.

6 응용 — 산업 D-Optimal

6.1 사례

비대칭 design space + 자원 제약. BIB 가 존재하지 않거나 부적합.

D-optimal algorithm 으로 이상 design 검색: - 사전 design space 명시. - 제약 (cells, budget) 입력. - 알고리즘이 D 최대화.

R optFederov 가 표준.

7 Robust Optimality

직관: Single 최적성의 한계

D-optimal design 이 D 기준에서 최적이지만 A·E 에서는 약할 수 있음.

해결: robust optimality — 여러 기준에서 균형. Pareto-optimal.

연구자가 한 기준에 비중을 두고 싶으면 weighted optimality: \[ \text{Robust} = w_A \cdot A + w_D \cdot D + w_E \cdot E \]

가중치는 도메인 우선순위.

8 가정과 한계

최적성은 모형 의존: linear model 가정 하의 최적.
균형 vs 최적: BIB 가 항상 가장 균형이지만 항상 가장 최적은 아님.
컴퓨터 검색의 한계: local optima.
잡음 분포: 정규성 가정.

9 응용

9.1 1. 임상시험

작은 환자 수에서 최대 정보: - BIB 가 가장 균형. - D-optimal 이 결합 정확도. - A-optimal 이 평균 정확도.

9.2 2. 산업

자원 제약 + 비대칭 design space: - D-optimal 알고리즘. - 실용적 robust optimality.

9.3 3. 농학

큰 \(v\) + replicate 자원: - Resolvable BIB. - Efficiency ratio 평가.

9.4 4. ML

모델 비교의 자원 제약: - D-optimal subset 선택. - robust evaluation.

10 ML 매핑

매핑: ML 의 D-optimal model selection

ML 모델 평가에서:

v = 50 모델, k = 5 GPU, b = 50 evaluation rounds.

BIB 가 존재하지 않을 수 있음 (50, 5, 1) 의 BIB.

D-optimal algorithm 으로: - 50 × 5 = 250 cells 의 design 검색. - Information matrix 의 결정자 최대화. - 모든 모델 쌍이 자주 같이 평가되도록.

이는 ML 모델 selection 의 systematic 통계 framework.

11 MON Ch.5 시리즈 정리

G-MON5-0  Incomplete Block 개관
G-MON5-1  BIB 도입
G-MON5-2  BIB Construction
G-MON5-3  BIB Analysis
G-MON5-4  Youden + Lattice
G-MON5-5  PBIB
G-MON5-6  Recovery + Optimality  ← 현재 글
    ↓
G-MON6 (Orthogonal Latin Squares)

12 관련 주제

선행 지식

G-MON5-0~5 시리즈

후속 주제

G-MON6 — Orthogonal Latin Squares
G-MON7 — Response Surface (D-optimal)
G-MON9 — Weighing (information efficiency)

다른 카테고리 연결

Statistics — LDA Mixed Effects

13 더 읽을 거리

Kiefer, J. (1959). “Optimum experimental designs.” Journal of the Royal Statistical Society. Series B 21(2): 272-319 — A·D·E optimality 원조.
Pukelsheim, F. (1993). “Optimal Design of Experiments.” Wiley — 표준 reference.
Atkinson, A. C., Donev, A. N., Tobias, R. D. (2007). “Optimum Experimental Designs, with SAS.” Oxford.
Cochran, W. G., Cox, G. M. (1957). “Experimental Designs” (2nd ed). Wiley.
Fedorov, V. V. (1972). “Theory of Optimal Experiments.” Academic Press.