ReLU 神经网络中的梯度下降

数据挖掘 神经网络 梯度下降 激活函数
2021-09-18 23:25:58

我是机器学习的新手,最近遇到了使用 ReLU 激活函数训练神经网络的反向传播问题,如图所示。我的问题是更新隐藏层和输出层中的权重矩阵。

成本函数如下:

J(Θ)=i=1212(ai(3)yi)2

在哪里yi是个i- 输出层的输出。

在此处输入图像描述

使用梯度下降算法,权重矩阵可以通过以下方式更新:

Θjk(2):=Θjk(2)αJ(Θ)Θjk(2)

Θij(3):=Θij(3)αJ(Θ)Θij(3)

我了解如何在输出层更新权重矩阵Θij(3),但是我不知道如何将其从输入层更新到隐藏层Θjk(2)涉及ReLU激活单元,即不了解如何获取J(Θ)Θjk(2).

谁能帮我理解如何推导成本函数的梯度......?

2个回答

看看这个帖子。在开始使用神经网络时,我发现它非常有用。

http://neuralnetworksanddeeplearning.com/chap2.html

ReLU 的导数是:

ReLU(x)x={0if x<01if x>0

所以它的值被设置为 0 或 1。它没有被定义为 0,在这种情况下必须有一个约定将它设置为 0 或 1。

据我了解,这意味着错误要么完全传播到前一层(1),要么完全停止(0)。