激活函数应该以零为中心(参考),这就是为什么 tanh 优于 sigmoid。但是 ReLU 不是以零为中心的,仍然经常是首选。我知道它解决了 sigmoid 和 tanh 中的梯度饱和问题。
我的问题是为什么 ReLU 不是以零为中心的问题?
激活函数应该以零为中心(参考),这就是为什么 tanh 优于 sigmoid。但是 ReLU 不是以零为中心的,仍然经常是首选。我知道它解决了 sigmoid 和 tanh 中的梯度饱和问题。
我的问题是为什么 ReLU 不是以零为中心的问题?
ReLU 的非零居中是一个问题。ReLU 很受欢迎,因为它简单快速。另一方面,如果你发现 ReLU的唯一问题是优化很慢,那么训练网络更长的时间是一个合理的解决方案。
然而,最先进的论文更常见的是使用更复杂的激活。一个通用的策略是想出一个函数,它近似地保留正值的恒等函数,但也控制均值和方差。例如,mish 激活最近取得了最先进的结果。
但也许你面临时间或成本限制,或者 ReLU 的其他问题(例如死单元)。在这些情况下,您可能对这些替代激活之一感兴趣。
Andrew L. Maas、Awni Y. Hannun、Andrew Y. Ng “整流器非线性改进神经网络声学模型”
DNN 中使用的整流器函数的选择对于逐帧和 WER 指标似乎都不重要。泄漏和标准 ReL 网络的性能相似,这表明泄漏整流器的非零梯度不会显着影响训练优化。在训练过程中,我们观察到泄漏整流器 DNN 收敛速度稍快,这可能是由于两个整流器之间的梯度不同。
我们引入了“指数线性单元”(ELU),它可以加速深度神经网络的学习并带来更高的分类精度。与整流线性单元 (ReLU)、泄漏 ReLU (LReLU) 和参数化 ReLU (PReLU) 一样,ELU 通过正值的恒等式缓解梯度消失问题。然而,与具有其他激活功能的单元相比,ELU 具有改进的学习特性。与 ReLU 相比,ELU 具有负值,这使得它们可以像批量归一化一样将平均单元激活推向接近零,但计算复杂度较低. 由于减少了偏差偏移效应,均值向零偏移通过使正常梯度更接近单位自然梯度来加速学习。虽然 LReLUs 和 PReLUs 也有负值,但它们并不能确保噪声鲁棒的去激活状态。ELU 在输入较小时饱和至负值,从而减少前向传播的变化和信息。因此,ELU 对输入中特定现象的存在程度进行编码,而不是对它们不存在的程度进行定量建模。在实验中,ELU 不仅可以加快学习速度,而且在超过 5 层的网络上,其泛化性能也明显优于 ReLU 和 LReLU。在 CIFAR-100 上,ELU 网络在批量归一化方面明显优于 ReLU 网络,而批量归一化并不能改善 ELU 网络。ELU 网络是 CIFAR-10 报告的前 10 个结果之一,并且在 CIFAR-100 上产生了最好的发布结果,而无需借助多视图评估或模型平均。在 ImageNet 上,与具有相同架构的 ReLU 网络相比,ELU 网络显着加快了学习速度,对于单一作物、单一模型网络,获得的分类误差不到 10%。
深度学习通过卷积神经网络 (CNN) 和通过循环神经网络 (RNN) 的自然语言处理彻底改变了视觉。然而,使用标准前馈神经网络 (FNN) 进行深度学习的成功案例却很少见。表现良好的 FNN 通常很浅,因此无法利用许多级别的抽象表示。我们引入了自归一化神经网络 (SNN) 以实现高级抽象表示。虽然批量归一化需要显式归一化,但 SNN 的神经元激活会自动收敛到零均值和单位方差。SNN 的激活函数是“缩放的指数线性单位”(SELU),它诱导自归一化特性。使用 Banach 不动点定理,我们证明通过许多网络层传播的接近零均值和单位方差的激活将收敛于零均值和单位方差——即使在存在噪声和扰动的情况下也是如此。SNN 的这种收敛特性允许 (1) 训练具有多层的深度网络,(2) 采用强正则化,以及 (3) 使学习高度稳健。此外,对于不接近单位方差的激活,我们证明了方差的上限和下限,因此,梯度消失和爆炸是不可能的。我们将(a)来自 UCI 机器学习存储库的 121 个任务、(b)药物发现基准和(c)天文学任务上的 SNN 与标准 FNN 和其他机器学习方法(如随机森林和支持向量机)进行了比较。SNN 在 121 个 UCI 任务中明显优于所有竞争性 FNN 方法,在 Tox21 数据集上优于所有竞争性方法,并在天文学数据集上创造了新记录。获胜的 SNN 架构通常非常深。实现可在:此 http URL。