我从神经网络和深度学习 dot com 教程开始学习神经网络。特别是在第3 章中有一节关于交叉熵函数,并将交叉熵损失定义为:
然而,阅读Tensorflow 的介绍,交叉熵损失被定义为:
(使用与上述相同的符号时)
然后四处寻找发生了什么,我发现了另一组注释:(https://cs231n.github.io/linear-classify/#softmax-classifier)它使用了完全不同的交叉熵损失定义,尽管这是softmax 分类器而不是神经网络的时间。
有人可以向我解释这里发生了什么吗?顺便说一句,为什么会有差异。人们将交叉熵损失定义为什么?是否有一些总体原则?