分类交叉熵损失通常用于目标单热编码的设置。假设我有一个问题,其中有 300 个可能的结果,因此我的最终全连接层将有 300 个神经元,并且输出(在 softmax 之后)预计是每个类的概率,使得它们的总和等于 1。
我的问题是:如何解释分类交叉熵损失的值?分类交叉熵损失为 5 或 0.9 或 0.1 是什么意思?
损失的解释是否会受到可能类别数量的影响?
分类交叉熵损失通常用于目标单热编码的设置。假设我有一个问题,其中有 300 个可能的结果,因此我的最终全连接层将有 300 个神经元,并且输出(在 softmax 之后)预计是每个类的概率,使得它们的总和等于 1。
我的问题是:如何解释分类交叉熵损失的值?分类交叉熵损失为 5 或 0.9 或 0.1 是什么意思?
损失的解释是否会受到可能类别数量的影响?
在给定任务的上下文中,交叉熵的含义通常没有直接的解释。在实践中,更重要的是在训练过程中跟随交叉熵如何发展的趋势。
该度量来自信息论。它表示当模型对输出(分布)有一些信念并且您向它提供基本事实输出时,它是多么惊讶。一个很好(但不是很有用)的解释是熵意味着与观察rolling和的输出相同的惊喜面骰子。
交叉熵的值确实取决于类别的数量,只是因为类别越多,输出分布就必须涵盖更多选项,并且更难为真实类别分配更多概率。