问题
每个不同激活函数的损失函数是多少?
背景
神经网络损失函数的选择取决于激活函数。对于 sigmoid 激活,交叉熵对数损失导致权重更新的简单梯度形式,z(z - label) * x
其中 z 是神经元的输出。
在我的理解中,这种对数损失的简单性是可能的,因为 sigmoid 的导数使其成为可能。sigmoid 以外的激活函数不具有 sigmoid 的这种性质,不会与 log loss 很好地结合。那么 ReLu、ELU、SELU 的损失函数是什么?
每个不同激活函数的损失函数是多少?
神经网络损失函数的选择取决于激活函数。对于 sigmoid 激活,交叉熵对数损失导致权重更新的简单梯度形式,z(z - label) * x
其中 z 是神经元的输出。
在我的理解中,这种对数损失的简单性是可能的,因为 sigmoid 的导数使其成为可能。sigmoid 以外的激活函数不具有 sigmoid 的这种性质,不会与 log loss 很好地结合。那么 ReLu、ELU、SELU 的损失函数是什么?
这个问题需要一些初步的澄清恕我直言。激活函数和损失函数的选择都取决于您的任务,取决于您要解决的问题类型。这里有些例子:
这里的激活函数是指输出层的激活。执行最终预测分数的激活不必(通常也不)与隐藏层中使用的激活相同。
ELU 和 SELU 通常用于神经网络的隐藏层,我个人从未听说过将 ELU 或 SELU 用于最终输出。
最终激活和损失函数的选择都取决于任务,这是实现良好神经网络的唯一标准。