了解 softmax 的反向传播

数据挖掘 神经网络 深度学习 反向传播 cs231n
2022-03-08 23:58:21

我正在寻找cs231n 课程第一个作业的给定解决方案。

在损失函数的片段下方。我不太懂行140-143你能解释一下为什么dscores(的导数scores)是这样计算的吗?

在此处输入图像描述

1个回答

请注意,在图像中发布代码对于复制/粘贴非常烦人,并且不利于网络参考。

这是由于softmax的导数,但对我来说这似乎很可疑。

如果S是 softmax 向量,然后是 JacobianDS由组成Sj(δijSi). 这可以解释-=1零件,但不能解释 ,也不能解释/=N形状。