计算成本函数导数的比率因子总和背后的原因

数据挖掘 神经网络 反向传播 成本函数
2022-02-15 19:30:31

假设我们有一个神经元网络,如下所示:

在此处输入图像描述

我们对网络的权重做了一点改变w[l][j][k],它可以从许多路径中改变我们的成本函数,
现在我们只需从我们的第一个选择的权重中选择一个路径 -> 它是激活的神经元到 -> 它的一个权重下一层到 -> 它是激活等等......
我们可以想象一个方程(使用链式法则),如下所示,只有一条路径,我们称之为速率因子:

在此处输入图像描述
但它只是在我们改变权重时改变成本的一种路径,所以我们需要通过迈克尔尼尔森的着名书中所有可能的相关路径(所有速率因子)计算成本变化率,我们计算了速率通过对所有费率因素求和来改变成本,如下所示:

在此处输入图像描述

但我真的不明白我们如何通过将所有比率因素相加来计算成本相对于该权重的斜率如何将该总和与我们的等式联系起来

稍后在那本书上,我们证明了“l”层中的错误与下一层中的错误有关的方程,因为我们有:

在此处输入图像描述

在这里,我们也对所有相关的神经元错误进行了求和。
有人可以给我一个证明或解释该总和
的成本变化率如何与所有相关费率因素的总和相关,为什么我们使用总和?

当然,通过使用权重和偏差计算最后一层中所有神经元的总和,神经元的激活是相互关联的
在此处输入图像描述

但是使用它来计算导数对我来说并不是那么清晰和有形,但是任何关于导数总和的解释对我来说都非常有帮助。

谢谢你。

1个回答

首先,免责声明:您提出了相当多毛的计算,阅读您的问题有点困难。尽管如此,我会尝试回答。

我不明白我们如何通过求和 [...] 来计算相对于该重量的成本斜率

如果我正确解释了总和,那么您问题中的总和似乎处理了在多个维度中应用链式法则时使用的雅可比矩阵

直观地说,重量wj,kl将被源自神经元的所有路径引用wj,kl,然后将由“最终”表达式中的节点表示C通过多个线性组合(总和)。我相当肯定,如果你真的遵循渐变Cwj,kl从总和开始C=a1Lw2,kL+a2Lw2,kL这将是你显示的总和。我相信,这也适用于您提出的第二笔款项。