每个神经元和层的不同学习率会减轻或解决梯度消失问题吗?

人工智能 深度学习 反向传播 激活函数 学习率 梯度消失问题
2021-11-12 00:17:50

我对使用 sigmoid(或 tanh)激活函数而不是 RELU 很感兴趣。我知道RELU在计算速度更快且没有梯度消失问题方面的优势。但是关于梯度消失,主要问题是如果使用 sigmoid 或 tanh,反向传播算法会很快变为零。所以我想尝试补偿这种影响深层的效果,每层都有一个变量learning rate,每次你深入一层时增加系数以补偿消失的梯度。

我已经阅读了自适应学习率,但它似乎是指一种改变每个时期学习率的技术,我正在为每一层寻找不同的学习率,进入任何时期。

  1. 根据您的经验,您认为这是一个很好的尝试吗?

  2. 你知道我可以使用的一些库已经让你将学习率定义为一个函数而不是一个常数吗?

  3. 如果存在这样的函数,最好定义一个简单的函数lr=(a*n)*0.001,其中n层数是层数,并且a是基于经验的乘数,我们需要激活函数的逆来补偿足够的梯度消失吗?

0个回答
没有发现任何回复~