为什么要在最后一层使用 softmax 来解决多类分类问题?例如向量 [1, .5] 的 softmax
是 [.621, .379]
我的意思是,如果我们只采用直接比率,它会给我 [.667, .333]
这真的有区别吗?
是不是因为向量可以有负数,我们 softmax 的东西?以一种更奇怪的方式为某些数字提供比率/概率,而不是仅仅取数字的比率,我们能得到什么好处?
为什么要在最后一层使用 softmax 来解决多类分类问题?例如向量 [1, .5] 的 softmax
是 [.621, .379]
我的意思是,如果我们只采用直接比率,它会给我 [.667, .333]
这真的有区别吗?
是不是因为向量可以有负数,我们 softmax 的东西?以一种更奇怪的方式为某些数字提供比率/概率,而不是仅仅取数字的比率,我们能得到什么好处?
该比率没有考虑到最后一层可能有负面结果的事实,在这种情况下,该比率不起作用,而softmax
确实如此。另一个极端情况是比率的分母是否为零。
此外,softmax 有两个有趣的特性:
max
而不是 a softmax
(请注意,这max
是不可微的,因此不能使用)。softmax
层的分类问题中,损失函数是交叉熵,其形式为- y * log(y_hat)
。原来log
的softmax
很容易计算,因为log(a/b)
islog(a) - log(b)
和log(exp(x))
is simple x
。这让人softmax
更加渴望。