数据挖掘 - softmax函数，为什么？ - 吾爱随笔录

softmax函数，为什么？

数据挖掘机器学习深度学习数据科学模型

2022-03-07 00:08:49

我们知道 Softmax 通常应用于具有以下功能的多类标签 $e^{a}\over \sum e^{a}$ .

我的问题是像 $a^{2} \over \sum a^{2}$ 大部分时间也工作？如果不是，为什么？

这是上次激活的标准输出。

1个回答

与您建议的替代方案相比，softmax 的优点是幂运算可以很好地处理对数损失，如第 6.2.2 节所述。深度学习书：

目的是定义一个输出值的激活函数

[...] 介于 0 和 1 之间，以及 [...] 对数似然的基于梯度的优化表现良好的数字的对数

和，

与逻辑 sigmoid 一样，exp 函数的使用在训练 softmax 以使用最大对数似然输出目标值 y 时效果很好。在这种情况下，我们希望最大化 $\log P(y=i;z) =\log softmax(z)_i$ . 用 exp 定义 softmax 是很自然的，因为登录对数似然可以撤销 softmax [...]

一个缺点是

除了对数似然之外，许多目标函数都不能很好地与 softmax 函数一起工作。具体来说，当 exp 的参数变得非常负时，不使用 log 来撤销 softmax 的 exp 的目标函数无法学习，从而导致梯度消失。特别是，平方误差对于 softmax 单元来说是一个很差的损失函数，并且可能无法训练模型来改变其输出，即使模型做出高度自信的不正确预测 [...]

有关更多详细信息，我建议阅读本书的链接部分。

其它你可能感兴趣的问题

上一篇如何正确呈现包含分类、数字和时间序列数据的数据集？下一篇训练 - 测试拆分如何适用于图神经网络