机器算法验证 - 神经网络反向传播中的高阶向量化 - 吾爱随笔录

神经网络反向传播中的高阶向量化

机器算法验证机器学习神经网络梯度下降反向传播雅可比

2022-03-31 07:51:02

我有一个关于反向传播期间雅可比行列式的问题。网络看起来像：

前向传播可以定义为：

其中 g 是激活函数。

每个变量的维度也可以如下给出：

现在，对于反向传播，通过使用链式法则，我们可以得到：

为了匹配尺寸，我们有：

我知道应用链式法则后，通常的方法是计算广义雅可比矩阵并进行矩阵乘法。然而，上面链式法则中每个部分的维度与广义雅可比矩阵给出的不匹配。例如，对于链式法则中的最后一项，广义雅可比矩阵的维数应为 (2 X 1) X (2 X 3)。但是，课程笔记说的是1 X 3。

为什么是真的？

任何意见表示赞赏！

2个回答

你是对的，这作为雅可比行列式是没有意义的。此外，如果乘以 jacobians 真的是 autodiff 的工作方式，那么任何点函数都应用于长度向量 $n$ 会导致巨大的 $n \times n$ 正在创建雅可比行列式。在任何有竞争力的 autodiff 实现中都不会发生这种情况。

实际上，没有必要为了执行反向传播而计算雅可比。所需要的只是“矢量雅可比积”或 VJP。

如果你有一个功能 $f : \mathbb{R}^n \rightarrow \mathbb{R}^m$ ，然后 $\text{VJP} : \mathbb{R}^m \times \mathbb{R}^n \rightarrow \mathbb{R}^n$ 是一个计算函数 $\text{VJP}(g,x) = J_f(x)^T g$ ，在哪里 $g$ 是传入的梯度向量 $\frac{\partial \mathcal{L}}{\partial f}$ 和 $J_f(x)$ 是雅可比的 $f$ . 从技术上讲，这是一个 JVP 而不是 VJP，但这只是一个惯例问题。

关键是，尽管实现 VJP 的一种方法是显式计算雅可比，然后执行此向量矩阵乘积，但如果您能够在不这样做的情况下计算 VJP，那也很好。

例如，VJP 为 $\sin(x)$ 只是 $\text{VJP}(g,x) = g \circ \cos(x)$ . 的VJP $f(W, x) = Wx$ 关于 $x$ 简直就是 $\text{VJP}(g, W, x) = W^Tg$ 和 VJP 关于 $W$ 是 $\text{VJP}(g, W, x) = gx^T$

回到你的问题：3.30 中的表达式实际上只是计算 $\text{VJP}(g, W, x) = gx^T$ , RHS 上的所有项，除了最右边的项是 $g$ ，最后一项是 $x^T$ .

$\frac{\partial \mathcal{L}}{\partial W^{[2]}}$ 必须是 2x3 就像尺寸一样 $W^{[2]}$ .

我建议您使用 Nielsen书中给出的反向传播公式（和符号）。当网络变得更大时，很容易遵循

据此

\begin{aligned} δ^{3} & = a^{[3]} - y \\ δ^{2} & = ((W^{[3]^{T}} (a^{[3]} - y)) ⊙ g^{'} (z^{[2]})) \\ \frac{\partial L}{\partial w_{j k}^{[2]}} & = a_{k}^{[1]} \cdot δ_{j}^{2} \end{aligned}

$\begin{align*} \delta^3 &=a^{[3]}-y \\ \delta^2 &= ((W^{[3]^{T}} (a^{[3]}-y)) \odot g'(z^{[2]})) \\ \frac{\partial \mathcal{L}}{\partial w^{[2]}_{jk}} &= a^{[1]}_k \cdot \delta_j^2 \end{align*}$

再走一步：

\begin{aligned} δ^{1} & = ((W^{[2]^{T}} δ^{2}) ⊙ g^{'} (z^{[1]})) \\ \frac{\partial L}{\partial w_{j k}^{[1]}} & = x_{k}^{(i)} \cdot δ_{j}^{1} \end{aligned}

$\begin{align*} \delta^1 &= ((W^{[2]^{T}} \delta^2 ) \odot g'(z^{[1]})) \\ \frac{\partial \mathcal{L}}{\partial w^{[1]}_{jk}} &= x^{(i)}_k \cdot \delta_j^1 \end{align*}$

在哪里 $\delta^1 \in \mathbb{R}^{3\times 1}$

我希望至少对其他人有用

其它你可能感兴趣的问题

上一篇为什么将风险函数定义为损失函数的期望？下一篇L1 与 L2 稳定性？