数据挖掘 - 为什么 sigmoid 激活函数会导致次优梯度下降？ - 吾爱随笔录

我需要一些帮助来理解 sigmoid 激活函数的第二个缺点，如斯坦福视频中所述。她说，因为 sigmoid 的输出总是正的，所以任何从跟随 sigmoid 的神经元回流的梯度都将与流入该神经元的上游梯度共享相同的符号。然后她说，这些权重更新共享相同符号的结果是次优的锯齿形梯度下降路径。

当放大单个神经元时，我理解这种现象。但是，由于流入层的上游梯度可能具有不同的符号，因此仍然可以在层中获得正负权重更新的健康混合。因此，我很难理解使用 sigmoid 如何导致这种锯齿形下降路径，除非上游梯度都是相同的符号（这在直觉上似乎不常见）。在我看来，如果这种次优下降足够重要，可以在讲座中强调，那么它一定比这更常见。

我想知道问题是否是权重更新中的“减少熵”，而不是网络中共享相同符号的所有权重更新。也就是说，在维度的子集中曲折。例如，假设使用 sigmoid 的网络在具有两个神经元的层中有四个权重：w ₁、w ₂、w ₃和 w ₄。w ₁和 w ₂的更新可能是正的，而如果两个上游梯度的符号不同，w ₃和 w ₄的更新可能是负的。但是，w ₁和 w ₃不可能是正数，w ₂和 w _{4不可能是正数}为负。假设权重更新的第二种组合是最佳组合，这是斯坦福讲座所指的 sigmoid 的限制吗？