口语化的交叉熵损失

数据挖掘 分类
2022-03-05 06:27:24

我刚刚从教程中制作了一个 MNIST 分类器。它有 1 层,没有隐藏层。它使用 PyTorchnn.CrossEntropyLoss作为损失函数。在训练后绘制我的损失,它从 2.25 左右开始下降到 0.5。这个数字在通俗意义上是什么意思?损失 0.5 是否意味着 50% 的时间是正确的?

1个回答

交叉熵等价于(直到一个常数)Kullback Leibler Divergence ,它具有基于信息论的解释:(非常粗略地)它是通过预测值的分布表示真实标签而“丢失”的信息量(以“nats”(e)或“bits”(2)为单位,取决于对数的底数)。我认为它作为“口语”解释或以比特为单位思考并不是很有用。

通常,您会计算更多可解释的指标,例如准确性,并检查它们以及损失以了解性能。

但是,您可以使用损失并将其与简单的基线进行比较(例如,模型仅预测标签的平均值或仅预测多数类),从而获得相对性能估计。