向量求导记号简记（Jacobian, gradient, Hessian）

约定

本文采用分子布局（numerator layout）。

设

\mathbf x=(x_1,\dots,x_n)^T\in\mathbb R^n, \qquad \mathbf y(\mathbf x)=(y_1(\mathbf x),\dots,y_m(\mathbf x))^T\in\mathbb R^m, \qquad f(\mathbf x)\in\mathbb R.

默认向量都是列向量（column vector）。

向量值函数 $\mathbf y:\mathbb R^n\to\mathbb R^m$ 的导数定义为

\frac{\partial \mathbf y}{\partial \mathbf x^T} := \left[ \frac{\partial y_i}{\partial x_j} \right]_{1\le i\le m,\ 1\le j\le n}.

这是雅可比矩阵（Jacobian matrix），其维度为

\frac{\partial \mathbf y}{\partial \mathbf x^T}\in\mathbb R^{m\times n}.

因此：

微分写成

d\mathbf y = \frac{\partial \mathbf y}{\partial \mathbf x^T}\,d\mathbf x.

若 $f:\mathbb R^n\to\mathbb R$ ，则

\frac{\partial f}{\partial \mathbf x^T} := \begin{bmatrix} \dfrac{\partial f}{\partial x_1} & \dfrac{\partial f}{\partial x_2} & \cdots & \dfrac{\partial f}{\partial x_n} \end{bmatrix}.

故

\frac{\partial f}{\partial \mathbf x^T}\in\mathbb R^{1\times n}.

也就是说，在本文约定下，标量对向量的导数是行向量（row vector）。

对应微分为

df = \frac{\partial f}{\partial \mathbf x^T}\,d\mathbf x.

若定义梯度（gradient）

\nabla f:= \left( \frac{\partial f}{\partial \mathbf x^T} \right)^T,

则 $\nabla f\in\mathbb R^{n\times 1}$ 是列向量。

标量函数 $f$ 的二阶导数定义为

\frac{\partial^2 f}{\partial \mathbf x\,\partial \mathbf x^T} := \frac{\partial}{\partial \mathbf x} \left( \frac{\partial f}{\partial \mathbf x^T} \right).

这就是 Hessian matrix：

\frac{\partial^2 f}{\partial \mathbf x\,\partial \mathbf x^T} = \left[ \frac{\partial^2 f}{\partial x_i\partial x_j} \right]_{1\le i,j\le n} \in\mathbb R^{n\times n}.

这里分母的顺序不能随意改写：

先对 $\mathbf x^T$ 求导，得到 $1\times n$ 的行向量 $\frac{\partial f}{\partial \mathbf x^T}.$
再对 $\mathbf x$ 求导，得到 $n\times n$ 的矩阵 $\frac{\partial^2 f}{\partial \mathbf x\,\partial \mathbf x^T}.$

若 $f\in C^2$ ，则 Hessian 对称，即

\frac{\partial^2 f}{\partial x_i\partial x_j} = \frac{\partial^2 f}{\partial x_j\partial x_i}.

在本文约定下，

\frac{\partial \mathbf y}{\partial \mathbf x^T}\in\mathbb R^{m\times n}, \qquad \frac{\partial f}{\partial \mathbf x^T}\in\mathbb R^{1\times n}, \qquad \frac{\partial^2 f}{\partial \mathbf x\,\partial \mathbf x^T}\in\mathbb R^{n\times n}.

所以：

若教材把 $\partial f/\partial \mathbf x$ 直接写成列向量，那么它采用的是另一套布局；那时 Jacobian 与 Hessian 的排列也要一起改变。真正重要的是全文记号前后一致。