卷积神经网络 (CNN) 几乎总是使用校正线性激活函数 (ReLU):
然而,这个函数的导数是
(忽略在 ,因为我认为这是在实践中完成的)。对于输入 > 0,这很好,但为什么梯度在每个点 < 0 处为 0 并不重要?还是有关系?(有关于这个问题的出版物吗?)
如果一个神经元对训练数据的每个样本输出 0,它基本上就丢失了,对吗?它的重量永远不会再调整?
卷积神经网络 (CNN) 几乎总是使用校正线性激活函数 (ReLU):
然而,这个函数的导数是
(忽略在 ,因为我认为这是在实践中完成的)。对于输入 > 0,这很好,但为什么梯度在每个点 < 0 处为 0 并不重要?还是有关系?(有关于这个问题的出版物吗?)
如果一个神经元对训练数据的每个样本输出 0,它基本上就丢失了,对吗?它的重量永远不会再调整?
忽略在 00 处不可微分,因为我认为这是在实践中完成的
是的,请参见ReLU 在零处不可微
如果一个神经元对训练数据的每个样本输出 0,它基本上就丢失了,对吗?它的重量永远不会再调整?
是的,请参阅神经网络中的“垂死的 ReLU”问题是什么?