Kwangmin Kim - Weighing Design 의 정의·구성·추정 방법

1 정의

정의: Weighing Problem

$p$ 개 물건의 무게 $w_1, w_2, \ldots, w_p$ 를 한 저울로 측정. $N$ 회 측정 ($N \ge p$).

각 측정 $i = 1, \ldots, N$ 에서 일부 물건을 함께 올림. design matrix $\mathbf{X}$ ($N \times p$) 의 $(i, j)$ 항은:

$x_{ij} = 1$: 물건 $j$ 를 측정 $i$ 의 한쪽 (왼쪽) 접시에.
$x_{ij} = -1$: 다른 쪽 (오른쪽) 접시에 (chemical balance 만).
$x_{ij} = 0$: 측정에서 제외.

저울이 측정한 값 (왼쪽 - 오른쪽) : \[ y_i = \sum_j x_{ij} w_j + \varepsilon_i \]

또는 행렬 형태: \[ \mathbf{y} = \mathbf{X} \mathbf{w} + \boldsymbol{\varepsilon} \]

각 측정의 잡음 $\varepsilon_i \sim N(0, \sigma^2)$ iid.

2 두 종류의 저울

2.1 Chemical Balance (양접시 저울)

물건을 두 접시에 분배. design entry $\in \{-1, 0, +1\}$.

저울 측정값 = 왼쪽 합 - 오른쪽 합 ($+ \varepsilon$).

가장 강력한 weighing — 직교 design 이 가능 ($\mathbf{X}^T \mathbf{X} = N \mathbf{I}$).

2.2 Spring Balance (한접시 저울)

물건이 한 접시 (또는 제외). design entry $\in \{0, 1\}$.

저울 측정값 = 포함된 물건의 총 무게 ($+ \varepsilon$).

이는 BIB design 의 동치 — 처치를 “포함/제외” 로 표현.

직관: Chemical 의 정보 우위

Chemical balance 의 entry $\in \{-1, 0, +1\}$ 의 3 값. Spring balance 는 $\{0, 1\}$ 의 2 값.

3 값 entry 가 더 풍부한 직교 구조 → 정보 효율 ↑.

예: 3 물건의 chemical balance 직교 (3 측정):

  w1 w2 w3
1: +1 +1 -1   →  y1 = w1 + w2 - w3
2: +1 -1 +1   →  y2 = w1 - w2 + w3
3: -1 +1 +1   →  y3 = -w1 + w2 + w3

추정: - $\hat w_1 = (y_1 + y_2 - y_3)/2$, 분산 $\sigma^2/2$ (3 값의 합/차). - 잠시… 더 정확히 분석 필요.

Sylvester $H_4$ 사용 시 4 물건 4 측정 → 분산 $\sigma^2/4$ 각.

Spring balance 같은 경우 BIB design 활용 — 정보 효율은 chemical 의 절반 정도.

3 최소제곱 추정량

표준 회귀 결과:

\[ \hat{\mathbf{w}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} \]

추정량의 covariance:

\[ \text{Cov}(\hat{\mathbf{w}}) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \]

각 무게의 분산은 $(\mathbf{X}^T \mathbf{X})^{-1}$ 의 대각 원소 × $\sigma^2$.

4 정보 행렬과 효율

정의: Information Matrix

\[ \mathbf{I}(\mathbf{w}) = \frac{1}{\sigma^2} \mathbf{X}^T \mathbf{X} \]

Fisher information matrix. 클수록 추정 정밀도 ↑.

추정 분산: \[ \text{Cov}(\hat{\mathbf{w}}) = \mathbf{I}^{-1} = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \]

4.1 효율 측도

측도	정의	의미
A-efficiency	$1 / \text{tr}((\mathbf{X}^T\mathbf{X})^{-1})$	평균 분산
D-efficiency	$\|\mathbf{X}^T\mathbf{X}\|^{1/p}$	결정자 (volume)
E-efficiency	$\lambda_{\min}(\mathbf{X}^T\mathbf{X})$	최소 eigenvalue

상대 효율 = 그 design 의 정보 / 최적 design 의 정보. 최적이 100%.

4.2 최적 효율

$\mathbf{X}^T \mathbf{X} = N \mathbf{I}$ 면 모든 효율 측도 최대: - A-efficiency: $N / p$. - D-efficiency: $N$. - E-efficiency: $N$.

이는 Hadamard matrix design 으로 달성. 다른 design 은 효율 ↓.

5 Hadamard Matrix 의 최적성 증명

Theorem (Hotelling, 1944; Mood, 1946)

Chemical balance design ($x_{ij} \in \{-1, +1\}$) 의 최소 추정 분산은 $\sigma^2 / N$.

이 분산은 $\mathbf{X}$ 가 Hadamard matrix 일 때 달성.

5.1 증명 sketch

각 무게의 분산은 $\sigma^2 \cdot [(\mathbf{X}^T\mathbf{X})^{-1}]_{jj}$.

$\mathbf{X}$ 의 entry 가 $\pm 1$ 이면 대각 원소 $(\mathbf{X}^T\mathbf{X})_{jj} = N$.

$\mathbf{X}$ 의 dimension 이 $N \times p$ ($p \le N$) 이면 $(\mathbf{X}^T\mathbf{X})$ 는 $p \times p$ symmetric.

Cauchy-Schwarz 부등식과 trace 부등식으로:

\[ \text{tr}((\mathbf{X}^T\mathbf{X})^{-1}) \ge p / N \]

평균 분산이 $\sigma^2 / N$ 이상. 등호는 $\mathbf{X}^T\mathbf{X} = N \mathbf{I}$ (직교) 일 때.

이는 Hadamard matrix 가 정확히 달성.

6 $H_4$ 의 4 물건 측정

Sylvester $H_4$:

\[ H_4 = \begin{pmatrix} +1 & +1 & +1 & +1 \\ +1 & -1 & +1 & -1 \\ +1 & +1 & -1 & -1 \\ +1 & -1 & -1 & +1 \end{pmatrix} \]

직교성 검증: $H_4^T H_4 = 4 I$.

6.1 측정 절차

각 측정 $i$ 의 첫 column 이 $+1$ (모든 측정에 어떤 reference 가 함께) — 이는 표준 form. 다른 column 이 $\pm 1$ 로 물건 1, 2, 3 의 배치.

(주의: 일반 Hadamard 는 첫 row 가 모두 $+1$ 도 만족하는 normalized form. 4 물건 측정 시 reference 무게는 trivial — 또는 $H_4$ 의 첫 column 을 빼고 3 물건만 추정.)

6.2 추정량

\[ \hat{\mathbf{w}} = \frac{1}{N} H_4^T \mathbf{y} = \frac{1}{4} H_4^T \mathbf{y} \]

각 추정량의 분산: $\sigma^2 / 4$. 표준오차 $\sigma / 2$.

개별 측정 (1 회/물건) 의 분산 $\sigma^2$ 에 비해 1/4 = 4 배 정밀.

7 Spring Balance 와 BIB 의 동치

7.1 Spring Balance 의 design

$x_{ij} \in \{0, 1\}$. design matrix 가 BIB 의 incidence matrix:

N = 7 측정, p = 7 물건, k = 3 (각 측정에 3 물건):

  w1 w2 w3 w4 w5 w6 w7
1:  1  1  0  1  0  0  0  → y1 = w1 + w2 + w4
2:  0  1  1  0  1  0  0  → y2 = w2 + w3 + w5
3:  0  0  1  1  0  1  0  → y3 = w3 + w4 + w6
4:  0  0  0  1  1  0  1  → y4 = w4 + w5 + w7
5:  1  0  0  0  1  1  0  → y5 = w1 + w5 + w6
6:  0  1  0  0  0  1  1  → y6 = w2 + w6 + w7
7:  1  0  1  0  0  0  1  → y7 = w1 + w3 + w7

이는 (7, 7, 3, 3, 1) BIB 의 incidence matrix.

7.2 효율

BIB 기반 spring balance 의 효율:

\[ e_{\text{spring}} = \frac{(\text{최적 spring eff})}{(\text{Hadamard chemical eff})} \]

일반적으로 spring 이 chemical 의 절반 정도.

8 산업 사례 — 8 부품 무게 측정

8.1 가상 실험

8 개 전자부품의 정확한 무게 측정. 각 부품 무게가 매우 작아 (1g 이하) 단일 측정의 잡음 $\sigma^2 = 0.01g^2$.

8.2 방식 A — 개별 측정 (8 회)

각 부품 1 회씩 측정. 각 부품의 분산 $\sigma^2 = 0.01$. 표준오차 $\sigma = 0.1g$.

8.3 방식 B — Hadamard $H_8$ (8 회)

$H_8$ design (Sylvester construction):

[ + + + + + + + +
  + - + - + - + -
  + + - - + + - -
  + - - + + - - +
  + + + + - - - -
  + - + - - + - +
  + + - - - - + +
  + - - + - + + - ]

각 측정에서 일부 부품 (+1 이면 왼쪽 접시), 일부는 다른 접시 (-1).

추정 분산: $\sigma^2 / 8 = 0.00125$. 표준오차 $\sigma' = 0.0354g$.

→ Hadamard design 으로 정밀도 약 3 배 향상 (표준오차 1/3).

같은 8 회 측정으로 정밀도 ↑ — 측정 비용 동일.

8.4 방식 C — Spring Balance BIB (7 측정, 7 부품)

(7, 7, 3, 3, 1) BIB 사용. 각 측정에 3 부품. 효율 chemical 보다 낮음.

각 부품 분산: $\sigma^2 \times (k / \lambda)$ 형태. 약 $\sigma^2 / 2$.

Spring 은 chemical 의 절반 효율이지만 음수 (-1) 사용 안 함 → 저울 단순.

9 Python 코드 — Weighing Design 시뮬레이션

import numpy as np
from scipy.linalg import hadamard

# Sylvester Hadamard matrix H_4, H_8
H4 = hadamard(4)
H8 = hadamard(8)

print("=== H_4 ===")
print(H4)
print(f"H_4.T @ H_4 = {H4.T @ H4}")
print(f"= 4 I?  {np.allclose(H4.T @ H4, 4 * np.eye(4))}")

print("\n=== H_8 ===")
print(H8)

# 가상 실험 — 8 부품
np.random.seed(2026)
true_w = np.array([0.5, 0.7, 0.3, 0.9, 0.4, 0.6, 0.8, 0.2])
sigma = 0.1

# Method A: 개별 측정
y_individual = true_w + np.random.normal(0, sigma, 8)
w_hat_A = y_individual

# Method B: Hadamard H_8
y_hadamard = H8 @ true_w + np.random.normal(0, sigma, 8)
w_hat_B = (1/8) * H8.T @ y_hadamard

print(f"\n=== Estimation ===")
print(f"True weights: {true_w}")
print(f"Method A (individual):  {w_hat_A.round(4)}")
print(f"  Errors: {(w_hat_A - true_w).round(4)}")
print(f"  RMSE: {np.sqrt(np.mean((w_hat_A - true_w)**2)):.4f}")
print(f"Method B (Hadamard):    {w_hat_B.round(4)}")
print(f"  Errors: {(w_hat_B - true_w).round(4)}")
print(f"  RMSE: {np.sqrt(np.mean((w_hat_B - true_w)**2)):.4f}")

# 이론적 분산
print(f"\nTheoretical variance per weight:")
print(f"  Method A: {sigma**2:.5f} (SE = {sigma:.4f})")
print(f"  Method B: {sigma**2 / 8:.5f} (SE = {sigma / np.sqrt(8):.4f})")
print(f"  Efficiency ratio: 8x  (Hadamard 가 {np.sqrt(8):.2f}배 정밀)")

# 1000 회 시뮬레이션으로 효율 검증
n_sim = 10000
errs_A = []
errs_B = []
for _ in range(n_sim):
    y_A = true_w + np.random.normal(0, sigma, 8)
    y_B = H8 @ true_w + np.random.normal(0, sigma, 8)
    w_A = y_A
    w_B = (1/8) * H8.T @ y_B
    errs_A.append(w_A - true_w)
    errs_B.append(w_B - true_w)

errs_A = np.array(errs_A)
errs_B = np.array(errs_B)
print(f"\nMonte Carlo (N={n_sim}):")
print(f"  Method A var: {errs_A.var(axis=0).mean():.5f}")
print(f"  Method B var: {errs_B.var(axis=0).mean():.5f}")

10 효율과 측정 횟수의 trade-off

직관: 같은 정밀도를 적은 측정으로

같은 정밀도를 얻는 데 필요한 측정 횟수:

개별 측정: $p$ 측정.
Hadamard: $N \ge p$ ($N = p$ 또는 $N = $ 4 의 배수 $\ge p$).

같은 $N = p$ 회 측정에서 Hadamard 의 분산이 $1/N$ → 같은 정밀도를 얻으려면 개별 측정은 $N$ 배 더 측정 필요.

또는 Hadamard 가 같은 정밀도에 측정 횟수 $N$ 배 절약. 산업 실험에서 큰 효율.

11 일반 weighing 효율 공식

design $\mathbf{X}$ ($N \times p$) 의 한 무게 추정 분산:

\[ \text{Var}(\hat w_j) = \sigma^2 \cdot (\mathbf{X}^T \mathbf{X})^{-1}_{jj} \]

11.1 효율 ratio

상대 효율 (Hadamard 대비):

\[ e_j = \frac{1/N}{(\mathbf{X}^T \mathbf{X})^{-1}_{jj}} \]

$e_j = 1$: 최적. $e_j < 1$: 비효율.

각 무게의 효율이 다를 수 있음 — A-efficiency 는 평균.

12 가정과 한계

12.1 표준 가정

잡음 등분산: 각 측정의 $\sigma^2$ 가 같음.
잡음 독립성: 측정 간 독립.
선형 모형: $y = \mathbf{x}^T \mathbf{w}$ 가 정확.
저울 calibration: 무편향.

12.2 실용 한계

Hadamard 의 존재: $N$ 이 4 의 배수일 때만 표준. 다른 $N$ 은 truncated weighing.
2-pan 저울 필요: chemical balance 정수형. spring 은 1-pan 가능.
물건 수 = $p$ 의 제약: $p \le N$ 필수. $p > N$ 은 fractional weighing 필요.
측정 시간 vs 정확도: 한 측정의 $\sigma^2$ 가 측정 시간에 의존이면 더 적은 측정이 더 정확할 수 있음 (실용 trade-off).

13 천문학 응용 — 다중 별 광도

여러 별 (예: 8 개) 의 광도를 photometer 로 측정. 대기 변화로 측정 간 시간 짧게 유지.

기존 방식: 한 별씩 측정 (8 회). Hadamard 방식: 일부 별을 동시 측정, 다른 별과 비교 (8 측정).

광도는 합산 가능 (linear) → weighing design 적합.

대기 변화의 영향이 모든 측정에 동등 → 직교 design 으로 분리.

14 메타분석 응용

Inverse-Variance Weighting

여러 연구의 효과 크기 결합 시:

\[ \hat\theta_{\text{combined}} = \frac{\sum_i w_i \hat\theta_i}{\sum_i w_i}, \quad w_i = 1/\hat\sigma_i^2 \]

각 연구의 가중치 $w_i$ 가 그 연구의 정밀도. 정밀한 연구가 큰 가중치.

이는 weighing 의 정수 — “정밀도가 높은 측정에 큰 가중치”. 단지 명시적 design 이 아니라 사후 가중치이지만 통계적 원리는 같다.

Random-effects 메타분석은 더 복잡한 가중치 (between-study variance 추가 고려).

15 본 시리즈

G-MON9-0  개관
G-MON9-1  Definition + Method of Estimation  ← 현재 글
G-MON9-2  IB as Weighing (One Pan from BIB)
G-MON9-3  Two Pan Weighing (Reinforced)
G-MON9-4  Two Associate PBIB + Truncated IB + Efficiency

16 관련 주제

선행 지식

G-MON9-0: Weighing Designs 개관
G-MON5: Incomplete Block — BIB 와의 동치
Math — 선형대수 (placeholder) — Hadamard, eigenvalue

후속 주제

다른 카테고리 연결

17 더 읽을 거리

Hotelling, H. (1944). “Some improvements in weighing and other experimental techniques.” Annals of Mathematical Statistics 15: 297-306.
Mood, A. M. (1946). “On Hotelling’s weighing problem.” Annals of Mathematical Statistics 17: 432-446.
Banerjee, K. S. (1975). “Weighing Designs.” Marcel Dekker.
Raghavarao, D. (1971). “Constructions and Combinatorial Problems in Design of Experiments.” Wiley.

Weighing Design 의 정의·구성·추정 방법