根据这篇文章:
https://towardsdatascience.com/the-vanishing-gradient-problem-69bf08b15484
使用
sigmoid激活函数时会出现梯度消失问题,因为sigmoid将大输入空间映射到小空间,因此大值的梯度将接近于零。文章建议使用批量标准化层。
我不明白它是如何工作的?
使用规范化时,大值仍然会在另一个范围内获得大值(而不是 [-inf, inf] 他们将获得 [0..1] 或 [-1..1]),因此在相同的情况下值(之前或归一化后)将被放置在边缘附近,梯度将接近于零,对吗?