数据挖掘 - ReLU 神经网络中的梯度下降 - 吾爱随笔录

我是机器学习的新手，最近遇到了使用 ReLU 激活函数训练神经网络的反向传播问题，如图所示。我的问题是更新隐藏层和输出层中的权重矩阵。

成本函数如下：

$J(\Theta) = \sum\limits_{i=1}^2 \frac{1}{2} \left(a_i^{(3)} - y_i\right)^2$

在哪里 $y_i$ 是个 $i$ - 输出层的输出。

使用梯度下降算法，权重矩阵可以通过以下方式更新：

$\Theta_{jk}^{(2)} := \Theta_{jk}^{(2)} - \alpha\frac{\partial J(\Theta)}{\partial \Theta_{jk}^{(2)}}$

$\Theta_{ij}^{(3)} := \Theta_{ij}^{(3)} - \alpha\frac{\partial J(\Theta)}{\partial \Theta_{ij}^{(3)}}$

我了解如何在输出层更新权重矩阵 $\Theta_{ij}^{(3)}$ ，但是我不知道如何将其从输入层更新到隐藏层 $\Theta_{jk}^{(2)}$ 涉及ReLU激活单元，即不了解如何获取 $\frac{\partial J(\Theta)}{\partial \Theta_{jk}^{(2)}}$ .

谁能帮我理解如何推导成本函数的梯度......？