数据挖掘 - 为什么带有 ReLU 的 CNN 学得那么好？ - 吾爱随笔录

卷积神经网络 (CNN) 几乎总是使用校正线性激活函数 (ReLU)：

F (X) = 米 一个 X (0, X)

$f(x) = max(0, x)$

然而，这个函数的导数是

F^{'} (X) = {\begin{cases} 0 & 如果 X \leq 0 \\ 1 & 否则 \end{cases}

$f'(x) = \begin{cases} 0 &\text{if } x \leq 0\\ 1&\text{otherwise}\end{cases}$

（忽略在 $0$ ，因为我认为这是在实践中完成的）。对于输入 > 0，这很好，但为什么梯度在每个点 < 0 处为 0 并不重要？还是有关系？（有关于这个问题的出版物吗？）

如果一个神经元对训练数据的每个样本输出 0，它基本上就丢失了，对吗？它的重量永远不会再调整？