在《深度学习》一书中,它说 softmax 函数实际上是一个软 argmax 函数,最大函数的对应软版本是
后者如何理解?
在《深度学习》一书中,它说 softmax 函数实际上是一个软 argmax 函数,最大函数的对应软版本是
后者如何理解?
考虑函数
对于
其中 hardmax 是 softmax 的硬版本,它为最大分量返回 1,为所有其他分量返回 0。
然后我们会有
。
另一方面,的 softmax将为
所以。
如您所见,softmax 会在较大组件的权重更大的组件上产生加权平均值。
softmax是argmax函数的平滑近似,* 取一个向量并返回一个向量:
这将向量作为输入并返回向量作为输出(最大值索引的单热编码,而不是序数位置)。
为了获得max函数的平滑逼近,它返回向量中的最大值(不是它的索引),可以将softmax与原始向量的点积:
* 请注意softmax,在多个相同的最大值的情况下,将返回一个在最大值的参数位置中的向量,而不是多个s。1
* 在softmax,,当它接近无穷大时,函数接近。argmax