数据挖掘 - 梯度下降公式 - 吾爱随笔录

梯度下降公式

数据挖掘神经网络梯度下降

2022-02-23 03:05:35

我遇到了一本关于神经网络基础知识的有趣书，第一章中的梯度下降公式说：

梯度下降：对于每一层，根据规则更新权重

$w^l \rightarrow w^l-\frac{\eta}{m} \sum_x \delta^{x,l} (a^{x,l-1})^T$

在哪里 $w^l$ 是层中的权重矩阵 $l$ ，和 $x$ 是特定训练样例的索引。

我不想重写本章中的所有公式，但重要的部分是 BP4 - 成本相对于网络中任何权重的变化率的方程：

$\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_j$

我是否遗漏了什么或第一个公式不正确？我们不应该像这样使用 Hadamard 产品吗？

$w^l \rightarrow w^l-\frac{\eta}{m} \sum_x \delta^{x,l} \odot a^{x,l-1}$

感谢帮助。

1个回答

您可以通过写下在这两种情况下明确获得的结果来查看结果。在更新规则中求和后你想要得到的是：

$\sum_x \delta^{x,l} (a^{x,l-1})^T = \delta^{1,l} a^{1,l-1}+\delta^{2,l} a^{2,l-1}+...$

这是通过文本中给出的形式获得的。

请记住，Hadamard 乘积只能对相同维度的向量进行，并导致另一个相同维度的向量。我想你可以治疗 $\delta$ 作为一个 $m$ 具有向量分量的维向量（m 是训练示例的数量），并对其进行 Hadamard 乘积 $a$ ，但你最终会得到另一个 $m$ 维向量。在那一点上，总结 $x$ 变得毫无意义。您可以说“做一个 Hadamard 产品，然后对行求和”，这将给出上述结果。

编辑：

我将尝试进一步阐明给定对象的尺寸。假设第 l 层有 j 个神经元，第 l-1 层有 k 个神经元。这使得 $w^l$ 一个 $(j x k)$ 维矩阵。更新方程必须保持维数，所以右手边也必须是相同大小的矩阵。

现在， $a^{(l-1)}$ 是一个具有 k 个分量的向量，对应于来自第 l-1 层的神经元的激活。同样，第 l 层的误差有 j 个分量，每个神经元一个。

得到一个 $(j x k)$ 矩阵，我们取这两个向量的外积，这就是方程中有转置的原因。最后，我们对所有训练样本求和以完成计算。

其它你可能感兴趣的问题

上一篇什么回归模型可以处理少量数据？下一篇使用机器学习计算未来 GDP %