1 왜 이 페이지가 필요한가
머신러닝·최적화에서는 “스칼라 함수를 벡터로 미분”, “벡터 함수를 벡터로 미분” 같은 연산이 반복된다. 매번 성분별로 전개하면 느리고 실수가 잦다. 핵심 공식 몇 개를 표기 규약과 함께 정리하면 경사하강법·역전파·정규방정식 유도가 한 줄로 끝난다.
Strang 18.06 본편은 구체 예시에서 \(\partial E/\partial C\) 를 손으로 전개한다. 이 페이지는 그 작업을 행렬 형태로 압축한 참조표이다.
2 표기 규약 — 분자 vs 분모 레이아웃
같은 대상을 어떻게 배열하느냐에 두 관행이 있다. 하나를 골라 일관되게 쓰는 것이 중요하다.
스칼라 \(f\) 를 열벡터 \(\mathbf{x} \in \mathbb{R}^n\) 으로 미분한 결과는 열벡터(그래디언트)이다.
\[\frac{\partial f}{\partial \mathbf{x}} = \nabla_\mathbf{x} f = \begin{bmatrix} \partial f / \partial x_1 \\ \vdots \\ \partial f / \partial x_n \end{bmatrix}\]
벡터 \(\mathbf{f} \in \mathbb{R}^m\) 를 벡터 \(\mathbf{x} \in \mathbb{R}^n\) 로 미분한 결과는 \(n \times m\) 행렬(전치 야코비안)이다.
\[\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = \begin{bmatrix} \partial f_1 / \partial x_1 & \cdots & \partial f_m / \partial x_1 \\ \vdots & \ddots & \vdots \\ \partial f_1 / \partial x_n & \cdots & \partial f_m / \partial x_n \end{bmatrix}\]
분자(출력)의 모양을 따라 배열한다. \(\partial \mathbf{f}/\partial \mathbf{x}\) 는 \(m \times n\) 야코비안 \(J_{ij} = \partial f_i/\partial x_j\).
두 규약은 단순히 전치 관계다. 이 페이지는 분모 레이아웃을 쓴다 (머신러닝 관행).
3 핵심 공식표
모든 공식은 분모 레이아웃 기준. \(\mathbf{x} \in \mathbb{R}^n\), \(\mathbf{a} \in \mathbb{R}^n\), \(A \in \mathbb{R}^{n \times n}\), \(B \in \mathbb{R}^{m \times n}\).
| 함수 \(f\) | \(\partial f / \partial \mathbf{x}\) | 비고 |
|---|---|---|
| \(\mathbf{a}^\top \mathbf{x}\) | \(\mathbf{a}\) | 스칼라 → 벡터 |
| \(\mathbf{x}^\top \mathbf{a}\) | \(\mathbf{a}\) | 내적은 교환 법칙 |
| \(B\mathbf{x}\) | \(B^\top\) | 벡터 → 벡터 (전치 야코비안) |
| \(\mathbf{x}^\top A \mathbf{x}\) | \((A + A^\top)\mathbf{x}\) | 이차형식 그래디언트 |
| \(\mathbf{x}^\top A \mathbf{x}\), \(A\) 대칭 | \(2A\mathbf{x}\) | \(A = A^\top\) 일 때 |
| \(\|\mathbf{x}\|^2 = \mathbf{x}^\top \mathbf{x}\) | \(2\mathbf{x}\) | 위 공식의 특수 (\(A = I\)) |
| \(\|B\mathbf{x} - \mathbf{b}\|^2\) | \(2B^\top(B\mathbf{x} - \mathbf{b})\) | OLS에 직접 사용 |
핵심 두 공식만 외우면 나머지는 도출된다: \(\partial(\mathbf{a}^\top \mathbf{x})/\partial\mathbf{x} = \mathbf{a}\) 와 \(\partial(\mathbf{x}^\top A \mathbf{x})/\partial\mathbf{x} = (A + A^\top)\mathbf{x}\).
4 이차형식 그래디언트의 성분별 유도
임의 행렬 \(A \in \mathbb{R}^{n \times n}\) 에 대해:
\[\frac{\partial}{\partial \mathbf{x}}(\mathbf{x}^\top A \mathbf{x}) = (A + A^\top)\mathbf{x}\]
\(A\) 가 대칭이면 \(2A\mathbf{x}\) 로 간단해진다.
유도: \(\mathbf{x}^\top A \mathbf{x}\) 를 성분으로 전개한다.
\[\mathbf{x}^\top A \mathbf{x} = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij} x_i x_j\]
\(x_k\) 에 대한 편미분:
\[\frac{\partial}{\partial x_k}\!\!\left(\sum_{i,j} a_{ij} x_i x_j\right) = \sum_{j} a_{kj} x_j + \sum_{i} a_{ik} x_i = (A\mathbf{x})_k + (A^\top \mathbf{x})_k\]
첫 항은 \(x_i = x_k\) 인 경우(즉 \(i = k\)), 두 번째 항은 \(x_j = x_k\) 인 경우(즉 \(j = k\)). 이를 \(k = 1, \ldots, n\) 에 대해 벡터로 묶으면:
\[\frac{\partial}{\partial \mathbf{x}}(\mathbf{x}^\top A \mathbf{x}) = A\mathbf{x} + A^\top\mathbf{x} = (A + A^\top)\mathbf{x} \quad \square\]
4.1 왜 \((A + A^\top)\) 이고 \(2A\) 가 아닌가
\(A\) 가 대칭이 아닐 때 \(A \neq A^\top\) 이므로 단순히 \(2A\mathbf{x}\) 라 쓸 수 없다. 하지만 \(A + A^\top\) 은 항상 대칭이다 — \((A + A^\top)^\top = A^\top + A\). 즉 그래디언트는 항상 대칭 행렬과 \(\mathbf{x}\) 의 곱으로 표현된다. 이것이 이차형식의 “대칭화된 부분”만이 그래디언트에 기여한다는 사실의 수식 버전이다.
4.2 예시: 비대칭 \(A\)
\[A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}, \quad \mathbf{x}^\top A \mathbf{x} = x_1^2 + 5x_1 x_2 + 4x_2^2\]
직접 편미분:
\[\frac{\partial}{\partial x_1}(x_1^2 + 5x_1 x_2 + 4x_2^2) = 2x_1 + 5x_2\] \[\frac{\partial}{\partial x_2}(x_1^2 + 5x_1 x_2 + 4x_2^2) = 5x_1 + 8x_2\]
공식으로 검증:
\[(A + A^\top)\mathbf{x} = \begin{bmatrix} 2 & 5 \\ 5 & 8 \end{bmatrix}\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 2x_1 + 5x_2 \\ 5x_1 + 8x_2 \end{bmatrix} \checkmark\]
4.3 예시: 대칭 \(A\)
\[A = \begin{bmatrix} 1 & 1 \\ 1 & 3 \end{bmatrix}, \quad \mathbf{x}^\top A \mathbf{x} = x_1^2 + 2x_1 x_2 + 3x_2^2\]
\(A\) 대칭이므로 그래디언트는 \(2A\mathbf{x}\):
\[2A\mathbf{x} = \begin{bmatrix} 2 & 2 \\ 2 & 6 \end{bmatrix}\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 2x_1 + 2x_2 \\ 2x_1 + 6x_2 \end{bmatrix}\]
5 OLS 정규방정식의 일반 유도
Strang mit-04-4는 구체 예시로 정규방정식을 도출한다. 여기서는 행렬 미적분 공식만으로 한 줄 유도를 보인다.
5.1 문제 설정
\(n \times 1\) 관측값 벡터 \(\mathbf{y}\), \(n \times k\) 설계행렬 \(X\), \(k \times 1\) 파라미터 \(\boldsymbol{\beta}\) 에 대해 잔차제곱합을 최소화한다.
\[L(\boldsymbol{\beta}) = \|\mathbf{y} - X\boldsymbol{\beta}\|^2 = (\mathbf{y} - X\boldsymbol{\beta})^\top(\mathbf{y} - X\boldsymbol{\beta})\]
5.2 전개
\[L = \mathbf{y}^\top \mathbf{y} - \mathbf{y}^\top X\boldsymbol{\beta} - \boldsymbol{\beta}^\top X^\top \mathbf{y} + \boldsymbol{\beta}^\top X^\top X \boldsymbol{\beta}\]
가운데 두 항은 스칼라이므로 전치해도 같다: \(\mathbf{y}^\top X \boldsymbol{\beta} = \boldsymbol{\beta}^\top X^\top \mathbf{y}\). 따라서:
\[L = \mathbf{y}^\top \mathbf{y} - 2 \boldsymbol{\beta}^\top X^\top \mathbf{y} + \boldsymbol{\beta}^\top (X^\top X) \boldsymbol{\beta}\]
5.3 그래디언트
공식표 2·3·4행을 차례로 적용한다. 상수항 \(\mathbf{y}^\top \mathbf{y}\) 는 사라진다.
- \(\partial(\boldsymbol{\beta}^\top X^\top \mathbf{y})/\partial \boldsymbol{\beta} = X^\top \mathbf{y}\) (공식: \(\partial(\mathbf{a}^\top \mathbf{x})/\partial\mathbf{x} = \mathbf{a}\), 여기서 \(\mathbf{a} = X^\top\mathbf{y}\))
- \(\partial(\boldsymbol{\beta}^\top (X^\top X) \boldsymbol{\beta})/\partial \boldsymbol{\beta} = 2 X^\top X \boldsymbol{\beta}\) (\(X^\top X\) 는 대칭이므로)
따라서:
\[\frac{\partial L}{\partial \boldsymbol{\beta}} = -2 X^\top \mathbf{y} + 2 X^\top X \boldsymbol{\beta}\]
5.4 정규방정식
일계 조건 \(\partial L / \partial \boldsymbol{\beta} = \mathbf{0}\) 에서:
\[\boxed{X^\top X \hat{\boldsymbol{\beta}} = X^\top \mathbf{y}}\]
\(X^\top X\) 가 가역이면:
\[\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y}\]
세 단계로 끝났다. 성분별 전개 없이 행렬 미적분 공식만 사용했다.
연결: \(X^\top X\) 가 비가역인 경우는 다중공선성 문제이며, 이때 Moore–Penrose 의사역행렬 \(X^+\) 을 써서 \(\hat{\boldsymbol{\beta}} = X^+ \mathbf{y}\) 로 일반화된다 (mit-07-3 참조).
6 응용 — 역전파와의 연결
신경망 역전파는 이 공식표의 반복 적용이다.
| 연산 | 순전파 | 역전파 (그래디언트) |
|---|---|---|
| 선형 레이어 | \(\mathbf{z} = W\mathbf{x} + \mathbf{b}\) | \(\partial L/\partial \mathbf{x} = W^\top \partial L/\partial \mathbf{z}\) |
| 이차 손실 | \(L = \|\hat{\mathbf{y}} - \mathbf{y}\|^2\) | \(\partial L/\partial \hat{\mathbf{y}} = 2(\hat{\mathbf{y}} - \mathbf{y})\) |
| 이차형식 (정규화) | \(L_{\text{reg}} = \lambda \mathbf{w}^\top \mathbf{w}\) | \(\partial L_{\text{reg}}/\partial \mathbf{w} = 2\lambda \mathbf{w}\) |
공식표 3·6행이 그대로 재등장한다.
7 관련 주제
- Ch.4 §4.3 — 투영과 최소제곱법 — 같은 정규방정식을 기하·대수·미적분 세 관점으로
- Ch.6 §6.5 — 양정치 행렬 — \(\mathbf{x}^\top A \mathbf{x}\) 의 기하학
- Ch.7 §7.3 — 대각화와 의사역행렬 — \(X^+\) 를 통한 일반화 정규방정식
- \(X^\top X\) 가 왜 분산인가 — 자기내적의 통계적 의미