ReLu、ELU、SELU 的损失函数

数据挖掘 神经网络 损失函数
2022-03-10 07:28:56

问题

每个不同激活函数的损失函数是多少?

背景

神经网络损失函数的选择取决于激活函数。对于 sigmoid 激活,交叉熵对数损失导致权重更新的简单梯度形式,z(z - label) * x其中 z 是神经元的输出。

在我的理解中,这种对数损失的简单性是可能的,因为 sigmoid 的导数使其成为可能。sigmoid 以外的激活函数不具有 sigmoid 的这种性质,不会与 log loss 很好地结合。那么 ReLu、ELU、SELU 的损失函数是什么?

在此处输入图像描述

参考

1个回答

这个问题需要一些初步的澄清恕我直言。激活函数和损失函数的选择都取决于您的任务,取决于您要解决的问题类型。这里有些例子:

  • 如果您正在训练二元分类器,则可以通过 sigmoid 激活 + 二元交叉熵损失来解决问题。
  • 如果您正在训练具有多个类的多类分类器,那么您需要 softmax 激活 + 交叉熵损失。
  • 如果您正在训练回归器,通常需要具有 MSE 或 MAE 损失的适当激活函数。“正确”是指线性,以防您的输出无界,或 ReLU,以防您的输出仅采用正值。这些例子不胜枚举。

这里的激活函数是指输出层的激活。执行最终预测分数的激活不必(通常也不)与隐藏层中使用的激活相同。

ELU 和 SELU 通常用于神经网络的隐藏层,我个人从未听说过将 ELU 或 SELU 用于最终输出。

最终激活和损失函数的选择都取决于任务,这是实现良好神经网络的唯一标准。