我们知道 Softmax 通常应用于具有以下功能的多类标签.
我的问题是像大部分时间也工作?如果不是,为什么?
这是上次激活的标准输出。
我们知道 Softmax 通常应用于具有以下功能的多类标签.
我的问题是像大部分时间也工作?如果不是,为什么?
这是上次激活的标准输出。
与您建议的替代方案相比,softmax 的优点是幂运算可以很好地处理对数损失,如第 6.2.2 节所述。深度学习书:
目的是定义一个输出值的激活函数
[...] 介于 0 和 1 之间,以及 [...] 对数似然的基于梯度的优化表现良好的数字的对数
和,
与逻辑 sigmoid 一样,exp 函数的使用在训练 softmax 以使用最大对数似然输出目标值 y 时效果很好。在这种情况下,我们希望最大化. 用 exp 定义 softmax 是很自然的,因为登录对数似然可以撤销 softmax [...]
一个缺点是
除了对数似然之外,许多目标函数都不能很好地与 softmax 函数一起工作。具体来说,当 exp 的参数变得非常负时,不使用 log 来撤销 softmax 的 exp 的目标函数无法学习,从而导致梯度消失。特别是,平方误差对于 softmax 单元来说是一个很差的损失函数,并且可能无法训练模型来改变其输出,即使模型做出高度自信的不正确预测 [...]
有关更多详细信息,我建议阅读本书的链接部分。