数据挖掘 - 口语化的交叉熵损失 - 吾爱随笔录

口语化的交叉熵损失

数据挖掘分类

2022-03-05 06:27:24

我刚刚从教程中制作了一个 MNIST 分类器。它有 1 层，没有隐藏层。它使用 PyTorchnn.CrossEntropyLoss作为损失函数。在训练后绘制我的损失，它从 2.25 左右开始下降到 0.5。这个数字在通俗意义上是什么意思？损失 0.5 是否意味着 50% 的时间是正确的？

1个回答

交叉熵等价于（直到一个常数）Kullback Leibler Divergence ，它具有基于信息论的解释：（非常粗略地）它是通过预测值的分布表示真实标签而“丢失”的信息量（以“nats”（e）或“bits”（2）为单位，取决于对数的底数）。我认为它作为“口语”解释或以比特为单位思考并不是很有用。

通常，您会计算更多可解释的指标，例如准确性，并检查它们以及损失以了解性能。

但是，您可以使用损失并将其与简单的基线进行比较（例如，模型仅预测标签的平均值或仅预测多数类），从而获得相对性能估计。

其它你可能感兴趣的问题

上一篇了解这些概率，并阅读 pdf 和 cdf 下一篇在使用 LSTM 之前我需要转换字符串吗？