我正在查看学习曲线(用于文本分类的 CNN,基于本文)并尝试使用正则化来防止过度拟合。该模型使用 L2 正则化和 dropout。
有趣的是,通过查看准确度图,我无法真正判断哪个模型是最好的。另一方面,损失图显示了一些差异。请参阅下面的图片。
这是我的问题:
- 我们是否应该始终查看损失曲线以检查过度拟合?
- 精度图不是很精确,因为精度是离散的,当我们计算它时会丢失很多信息?
我正在查看学习曲线(用于文本分类的 CNN,基于本文)并尝试使用正则化来防止过度拟合。该模型使用 L2 正则化和 dropout。
有趣的是,通过查看准确度图,我无法真正判断哪个模型是最好的。另一方面,损失图显示了一些差异。请参阅下面的图片。
这是我的问题:
准确性不是报告机器学习结果的好方法。(我从来没有发现需要报告准确性,除非向非技术人员解释我的结果。)准确性仅将预测分数与某个截止值进行比较,这不是正确的评分规则,并且隐藏了有关模型的重要信息健康。
我假设您在“损失”图中使用了某种适当的损失函数,例如交叉熵损失。交叉熵损失比准确率更有用,因为它对结果的“错误程度”很敏感:如果标签为但,则交叉熵低于标签为但时的交叉熵。
您在比较这两个图时看到的现象——准确度持平,但损失在增加——发生是因为,但预测的分数与其标签的对齐很差。
这与 AUC 的类似问题密切相关:为什么一个不太准确的分类器的 AUC 比一个更准确的分类器更高?