这是 Ian Goodfellow 的深度学习书(第 236 页)的引述:
使用 softmax 分类器和硬目标的最大似然学习实际上可能永远不会收敛——softmax 永远无法准确预测 0 或 1 的概率......
我已经构建了许多 DNN 模型,并使用 Softmax 层作为分类层,但实际上我从未注意到这是可能的。实际上,我认为这确实有道理,但我们为什么不在实践中面对呢?框架会提前“终止”梯度下降算法并在内部处理这个问题吗?我研究了很多关于 DNN 的书籍和文章,但这是我第一次读到这方面的东西。或者,这仅在某些情况下有效吗?