我正在努力理解 CNN 的基本机制,因此不胜感激。我有一个带有 ReLU 激活函数的网络,它的性能明显优于带有 sigmoid 的网络。这是预期的,因为ReLU 解决了梯度消失问题。然而,我的理解是我们实现非线性的原因是为了分离无法线性分离的数据。但是,如果 ReLU 对于我们关心的所有值都是线性的,那它根本就不应该工作吗?
当然,除非神经元被定义为负值,但我的问题变成了“为什么 ReLU 完全解决了梯度消失问题?”,因为对于 x<0 = 0,ReLU 的导数
我正在努力理解 CNN 的基本机制,因此不胜感激。我有一个带有 ReLU 激活函数的网络,它的性能明显优于带有 sigmoid 的网络。这是预期的,因为ReLU 解决了梯度消失问题。然而,我的理解是我们实现非线性的原因是为了分离无法线性分离的数据。但是,如果 ReLU 对于我们关心的所有值都是线性的,那它根本就不应该工作吗?
当然,除非神经元被定义为负值,但我的问题变成了“为什么 ReLU 完全解决了梯度消失问题?”,因为对于 x<0 = 0,ReLU 的导数
你说得对,我们对不能用直线分隔的类使用非线性。如果您考虑曲线,正如我们从微积分中知道的那样,您可以用直线逼近非线性函数。如果你有无限数量的线条,你可以模仿完全相同的功能。当您增加或减少某些神经元的重量时,您实际上会增加或减少它所代表的线的长度。ReLU 解决了梯度消失问题,因此在我看来它们也优于 sigmoid。