softmax函数,为什么?

数据挖掘 机器学习 深度学习 数据科学模型
2022-03-07 00:08:49

我们知道 Softmax 通常应用于具有以下功能的多类标签eaea.

我的问题是像a2a2大部分时间也工作?如果不是,为什么?

这是上次激活的标准输出。

1个回答

与您建议的替代方案相比,softmax 的优点是幂运算可以很好地处理对数损失,如第 6.2.2 节所述。深度学习书

目的是定义一个输出值的激活函数

[...] 介于 0 和 1 之间,以及 [...] 对数似然的基于梯度的优化表现良好的数字的对数

和,

与逻辑 sigmoid 一样,exp 函数的使用在训练 softmax 以使用最大对数似然输出目标值 y 时效果很好。在这种情况下,我们希望最大化logP(y=i;z)=logsoftmax(z)i. 用 exp 定义 softmax 是很自然的,因为登录对数似然可以撤销 softmax [...]

一个缺点是

除了对数似然之外,许多目标函数都不能很好地与 softmax 函数一起工作。具体来说,当 exp 的参数变得非常负时,不使用 log 来撤销 softmax 的 exp 的目标函数无法学习,从而导致梯度消失。特别是,平方误差对于 softmax 单元来说是一个很差的损失函数,并且可能无法训练模型来改变其输出,即使模型做出高度自信的不正确预测 [...]

有关更多详细信息,我建议阅读本书的链接部分。