梯度消失和爆炸的原因

数据挖掘 机器学习 神经网络 深度学习
2022-02-26 18:17:46

我知道消失梯度和爆炸梯度之间的概念。我想知道这些现象的可能原因。我想我在互联网上的某个地方读到了关于激活功能的信息。有人可以澄清一下吗?任何帮助将不胜感激。

1个回答

梯度消失和爆炸主要取决于以下几点:太多的乘法结合太小的值(梯度消失)或太大的值(梯度爆炸)。

在进行反向传播时,激活函数只是乘法中的一步。如果你有一个好的激活函数,它可以帮助减少这些不良影响。一种这样的激活函数是 ReLu。请参阅教程。

其他来源: