Kwangmin Kim - 생물 검정과 반응표면 설계 개관

1 정의

정의: Bio-assay (생물 검정)

미지의 약물·자극물의 effective dose (또는 활성도) 를 표준 약물과의 비교를 통해 상대적으로 추정하는 통계 절차.

핵심 목적: 두 약물 (또는 처치) 의 상대적 강도 $\rho$ 를 추정한다. $\rho$ 는 표준 약물 대비 검정 약물의 효과 비율이다.

예: 표준 인슐린 1 단위와 동일한 혈당 강하 효과를 내는 검정 인슐린의 양이 0.85 단위면 $\rho = 1/0.85 \approx 1.18$.

정의: Response Surface Methodology (RSM)

여러 양적 요인 $x_1, x_2, \ldots, x_k$ 가 응답 변수 $Y$ 에 미치는 효과를 곡면 $\eta(x_1, \ldots, x_k) = E[Y]$ 로 모형화하는 통계·실험 framework.

핵심 목적: 1. $\eta$ 의 형태 를 다항식 (보통 1 차 또는 2 차) 으로 근사. 2. 최적 작동점 $\mathbf{x}^*$ 를 산출 (최대화 또는 목표값 도달). 3. 이 작동점 주변의 민감도 평가.

전형적 모형 (2 차): \[ \eta(\mathbf{x}) = \beta_0 + \sum_i \beta_i x_i + \sum_{i \le j} \beta_{ij} x_i x_j + \varepsilon \]

2 두 영역의 공통점과 차이

직관: Bio-assay 와 RSM 의 자매성

두 영역 모두 양적 자극 → 양적 응답 의 곡선·곡면을 fit 하는 도구. 차이는:

Bio-assay: 자극 변수가 단일 (또는 1~2 개), 관심은 두 약물의 상대 강도. 의약· 약리학·생화학에서 발달.
RSM: 자극 변수가 여러 개 (보통 3~6 개), 관심은 다차원 곡면의 최적점. 산업 공정 최적화·화학 공학에서 발달.

수학적 도구 (회귀, 직교 다항식, 곡선 적합) 가 같지만 목적과 응용 분야가 다르다. 이 챕터에서 두 영역을 함께 다루는 이유는 정통 DOE 의 통합적 lens 를 제공하기 위해서다.

3 왜 정통 DOE 의 마무리인가

이 시리즈 (Phase G) 의 흐름:

G-MAX2~5 / Phase A: ANOVA 기초 — 명목 요인의 평균 비교.
G-MAX6: Trend Analysis — 단일 양적 요인의 곡선 분해.
G-MAX7~8: Factorial — 여러 명목 요인의 상호작용.
G-MAX9: ANCOVA — 공변량 통제.
G-MAX10~16: Random/Within/Multilevel — random 효과와 nested 구조.
G-MON2~6: 정통 DOE — CRD, BIB, 직교 Latin Squares.
G-MON7 (이 챕터): Bio-assay + RSM — 최적화 로의 전환.
G-MON8~9: ANCOVA·변환·Weighing — 마무리 도구.

7 단계의 의미: 그동안 “처치 효과가 있는가” 를 검정하는 도구를 쌓았다면, 7 단계는 “최적 작동점이 어디인가” 를 묻는 도구다. 이는 산업·ML 의 hyperparameter 최적화· 화학 공정 설계의 정수.

4 Ch.7 의 5 단계 흐름

본 시리즈는 Montgomery 의 Bio-assay 부분 (7.1~7.6) + Response Surface 부분 (7.7) 을 다음 5 글로 분해한다.

4.1 1 단계 — Bio-assay 의 직접·간접 검정 (L:6612~6815)

생물 검정의 기본 분류와 직접·간접 비교 절차. Quantal vs Quantitative response 의 차이.

→ G-MON7-1: 생물 검정 (직접·간접)

4.2 2 단계 — Parallel Line · Slope Ratio · IB for Bio-assay (L:6816~7506)

선형 용량-반응 곡선 가정 하의 두 표준 검정 — Parallel Line Assay (선들이 평행) 와 Slope Ratio Assay (선들이 동일한 절편). 그리고 Incomplete Block 설계의 bio-assay 적용.

→ G-MON7-2: 평행선·기울기비 검정

4.3 3 단계 — Response Surface 의 1 차·2 차 모형 (L:7507~7734)

RSM 의 1 차 모형 (linear plane) 과 2 차 모형 (quadratic surface), 각각의 분산 구조, path of steepest ascent 의 도입.

→ G-MON7-3: 반응표면의 1 차·2 차 모형

4.4 4 단계 — Rotatable, Central Composite, ANOVA (L:7735~8156)

Rotatable design 의 의미, Central Composite Design (CCD) 의 구성과 분석, RSM 의 ANOVA 표.

→ G-MON7-4: 회전 가능·중심합성 설계

4.5 5 단계 — Overview (현재 글)

이 글이 다루는 통합적 관점.

5 Bio-assay 의 핵심 개념 — 미리보기

5.1 Quantal vs Quantitative Response

Quantal (이산 반응): 죽음/생존, 효과 있음/없음 같은 binary response. ED50 (50% 반응을 일으키는 dose) 추정에 사용. Probit·Logit 모형.
Quantitative (연속 반응): 혈당 농도, 근수축력 같은 연속 반응. 회귀 분석 기반.

5.2 Direct vs Indirect Assay

Direct: 검정 약물과 표준 약물 모두에 동일한 quantal threshold (효과 발현점) 를 관찰. 직접 dose 비교.
Indirect: dose 와 응답의 함수 관계 (dose-response curve) 를 fit 후 두 곡선의 parameter 비교.

대부분의 임상·약리학 검정은 indirect.

5.3 Relative Potency

표준 약물 ($S$) 의 dose $d_S$ 와 같은 응답을 내는 검정 약물 ($T$) 의 dose $d_T$ 의 비:

\[ \rho = \frac{d_S}{d_T} \]

$\rho > 1$: 검정 약물이 표준보다 강력. $\rho < 1$: 검정 약물이 약함. $\rho = 1$: 동일 강도.

5.4 Parallel Line Assay 의 가정

용량-반응이 로그 dose 에 대해 선형 이고, 두 약물의 회귀선이 평행:

\[ Y_S = \alpha_S + \beta \log d_S + \varepsilon \] \[ Y_T = \alpha_T + \beta \log d_T + \varepsilon \]

(같은 $\beta$.)

상대 강도는 두 절편의 차이로:

\[ \log \rho = (\alpha_S - \alpha_T) / \beta \]

직관: 평행 가정의 의미

두 약물이 같은 작용 메커니즘 으로 작동하면 dose-response 곡선의 기울기가 같다 (둘 다 같은 receptor 에 작용). 이 가정 하에 두 곡선의 수평 거리만 계산하면 상대 강도가 나온다 (그래프적으로 한 곡선을 좌·우 평행 이동해 다른 곡선과 겹치게 하는 거리).

기울기가 다르면 (slope ratio assay) 두 약물이 다른 메커니즘 → 상대 강도가 dose 수준에 따라 달라짐. 평행 가정 위반은 약리학적으로 중요한 정보.

6 RSM 의 핵심 개념 — 미리보기

6.1 1 차 모형 (First-Order Model)

\[ \eta(\mathbf{x}) = \beta_0 + \sum_{i=1}^{k} \beta_i x_i \]

선형 plane. 작동 영역의 가장자리에서 사용 — “어느 방향으로 가면 응답이 증가하는가?”.

6.2 Path of Steepest Ascent

응답을 가장 빠르게 증가시키는 방향: $(\beta_1, \beta_2, \ldots, \beta_k)$. 이 방향으로 실험을 옮겨가며 최적 영역에 접근.

6.3 2 차 모형 (Second-Order Model)

\[ \eta(\mathbf{x}) = \beta_0 + \sum_i \beta_i x_i + \sum_i \beta_{ii} x_i^2 + \sum_{i < j} \beta_{ij} x_i x_j \]

곡면. 작동 영역의 정점 (최적값) 근처에서 사용 — “최적점이 어디 있고 형태는?”.

6.4 정상점 (Stationary Point) 의 분류

2 차 모형의 정상점 $\mathbf{x}^*$:

\[ \nabla \eta(\mathbf{x}^*) = 0 \Rightarrow \mathbf{x}^* = -\frac{1}{2} \mathbf{B}^{-1} \mathbf{b} \]

$\mathbf{b} = (\beta_1, \ldots, \beta_k)^T$, $ = $ Hessian 행렬.

$\mathbf{B}$ 의 eigenvalue 부호로 분류:

모두 음 → maximum (응답 곡면의 정점).
모두 양 → minimum.
부호 혼재 → saddle point (어느 방향은 최대, 다른 방향은 최소).

6.5 Central Composite Design (CCD)

$2^k$ factorial + $2k$ axial points + center points 의 결합. 2 차 모형 적합에 가장 자주 쓰이는 설계.

2 차원 (k=2) CCD:
   axial:   (-α, 0), (+α, 0), (0, -α), (0, +α)
   factorial: (-1, -1), (+1, -1), (-1, +1), (+1, +1)
   center:  (0, 0) × 여러 회 (분산 추정용)

$\alpha$ 의 선택으로 rotatability 또는 orthogonality 보장.

6.6 Rotatability

직관: 회전 가능성의 의미

설계가 rotatable 이면 응답 예측의 분산 $\text{Var}(\hat Y(\mathbf{x}))$ 가 design 중심으로 부터의 거리 에만 의존하고 방향에는 무관하다.

→ 설계 공간의 모든 방향이 통계적으로 평등. 어느 방향으로 응답이 증가할지 모를 때 (사전 정보 없을 때) 가장 robust 한 선택.

CCD 가 rotatable 이려면 $\alpha = (n_F)^{1/4}$ ($n_F$ = factorial 부분의 점 수). $k = 2$ 면 $\alpha = 4^{1/4} = \sqrt 2$.

7 응용 — Bio-assay

분야	자극 변수	응답
약리학	인슐린 dose	혈당 강하
독성학	독성 농도	사망률 (probit)
비타민 검정	비타민 양	라트의 성장률
효소학	기질 농도	반응 속도
항생제	항생제 농도	박테리아 zone

8 응용 — RSM

분야	변수	응답
화학 공정	온도, 압력, 시간	수율, 순도
식품 가공	농도, pH, 시간	풍미, 보존성
제약 공정	교반, 입자 크기	용해도
반도체	도핑, 어닐링	저항, 항복 전압
머신러닝	learning rate, depth, dropout	val accuracy

ML 매핑: Hyperparameter 최적화의 RSM lens

ML 의 grid search 는 사실 RSM 의 단순 형태다. learning rate, weight decay, dropout 의 3 차원 grid 에서 val accuracy 를 측정한 뒤:

1 차 fit: 어느 방향으로 가야 accuracy 가 좋아지는가? → path of steepest ascent.
2 차 fit: 최적점 근처에서 곡면의 정점은? → optimal hyperparameters.
CCD: factorial + axial + center 로 효율적 design.

Bayesian optimization 이 발전된 알고리즘 (Gaussian Process + acquisition function) 이지만, RSM 의 정신이 그대로다 — “응답 곡면을 통계적으로 모형화하고 최적점을 찾자”.

9 핵심 수식 미리보기

9.1 Bio-assay — Parallel Line Estimation

$\hat\rho$ 의 추정량 (Fieller’s theorem 활용):

\[ \hat\rho = \exp\left( \frac{\bar Y_S - \bar Y_T - \hat\beta (\overline{\log d_S} - \overline{\log d_T})}{\hat\beta} \right) \]

신뢰구간: Fieller’s theorem (비율의 신뢰구간).

9.2 RSM — Steepest Ascent

각 변수 변화량의 비율:

\[ \frac{\Delta x_1}{\beta_1} = \frac{\Delta x_2}{\beta_2} = \ldots = \frac{\Delta x_k}{\beta_k} \]

가장 큰 $|\beta_i|$ 변수의 한 단위 변화에 비례해 다른 변수 변화.

9.3 RSM — 정상점

\[ \mathbf{x}^* = -\frac{1}{2} \mathbf{B}^{-1} \mathbf{b} \]

응답 정점에서의 응답값:

\[ \hat\eta(\mathbf{x}^*) = \hat\beta_0 + \frac{1}{2} \mathbf{x}^{*T} \mathbf{b} \]

10 가정과 한계 — 종합

10.1 Bio-assay

Dose-response 의 선형성 (로그 변환 후): 위반 시 비선형 회귀 또는 Probit/Logit.
두 약물의 평행 가정: 위반 시 slope ratio assay 또는 비교 자체 부적합.
반응의 정규성·등분산성: 위반 시 변환 (log, square root) 또는 GLM.

10.2 RSM

2 차 다항식의 적합성: 더 복잡한 곡면이면 high-order 다항식 또는 Gaussian Process.
변수 영역의 경계: 추정된 정상점이 design 영역 밖이면 외삽 위험.
잡음 모형: 분산이 응답값에 의존 (heteroscedastic) 이면 가중 회귀.
Curse of dimensionality: $k = 6$ 이상에서 CCD 의 점 수 폭증 → fractional CCD.

11 본 시리즈의 학습 흐름

Phase A (ANOVA)
    │
    ▼
G-MAX6 (단일 양적 요인의 추세)
    │
    ▼
G-MON3 (Factorial — 명목 다변량)
    │
    ▼
G-MON7-0  ── 개관 (현재 글)
    │
    ▼
G-MON7-1  ── Bio-assay (직접·간접)
    │
    ▼
G-MON7-2  ── Parallel Line · Slope Ratio
    │
    ▼
G-MON7-3  ── RSM 1 차·2 차 모형 + Steepest Ascent
    │
    ▼
G-MON7-4  ── Rotatable + CCD + ANOVA
    │
    ▼
ML hyperparameter 최적화 · Bayesian optimization

12 관련 주제

선행 지식

후속 주제

다른 카테고리 연결

Statistics — SLR BLUE — 회귀 기울기의 BLUE
Statistics — SLR 예측 — 회귀 예측 분산
Causal Inference — 모수적 추정 — 양적 처치의 인과 효과

13 더 읽을 거리

Finney, D. J. (1971). “Probit Analysis” (3rd ed). Cambridge — bio-assay 의 표준 reference.
Box, G. E. P., Hunter, W. G., Hunter, J. S. (2005). “Statistics for Experimenters.” Wiley — RSM 의 산업적 활용 표준.
Myers, R. H., Montgomery, D. C., Anderson-Cook, C. M. (2016). “Response Surface Methodology” (4th ed). Wiley — RSM 의 현대적 종합.
Box, G. E. P., Wilson, K. B. (1951). “On the experimental attainment of optimum conditions.” JRSS Series B — RSM 의 원조 논문.