为什么带有 ReLU 的 CNN 学得那么好?

数据挖掘 神经网络 卷积神经网络 梯度下降
2021-09-29 15:15:08

卷积神经网络 (CNN) 几乎总是使用校正线性激活函数 (ReLU):

F(X)=一个X(0,X)

然而,这个函数的导数是

F'(X)={0如果 X01否则

(忽略在 0,因为我认为这是在实践中完成的)。对于输入 > 0,这很好,但为什么梯度在每个点 < 0 处为 0 并不重要?还是有关系?(有关于这个问题的出版物吗?)

如果一个神经元对训练数据的每个样本输出 0,它基本上就丢失了,对吗?它的重量永远不会再调整?

1个回答

忽略在 00 处不可微分,因为我认为这是在实践中完成的

是的,请参见ReLU 在零处不可微

如果一个神经元对训练数据的每个样本输出 0,它基本上就丢失了,对吗?它的重量永远不会再调整?

是的,请参阅神经网络中的“垂死的 ReLU”问题是什么?