分类器的评估:学习曲线与 ROC 曲线

机器算法验证 机器学习 分类 准确性
2022-03-01 21:19:11

我想针对使用大型训练数据集的多类文本分类问题比较 2 个不同的分类器。我怀疑是否应该使用 ROC 曲线或学习曲线来比较 2 个分类器。

一方面,学习曲线对于确定训练数据集的大小很有用,因为您可以找到分类器停止学习(并且可能退化)的数据集的大小。因此,在这种情况下,最好的分类器可能是以最小的数据集大小达到最高准确度的分类器。

另一方面,ROC 曲线可让您找到在灵敏度/特异性之间进行正确权衡的点。在这种情况下,最好的分类器只是靠近左上部分的分类器,对于任何 FPR,TPR 最高。

我应该同时使用这两种评估方法吗?具有更好学习曲线的方法是否有可能具有更差的 ROC 曲线,反之亦然?

1个回答

学习曲线只是一种诊断工具,它告诉您模型的学习速度以及您的整个分析是否没有陷入太小集合/太小的集合(如果适用)的古怪区域。该图的唯一对模型评估感兴趣的部分是它的结尾,即最终性能——但这不需要报告图。
根据您在问题中勾画的学习曲线选择模型是一个糟糕的主意,因为您可能会选择一个最适合在太小的样本集上过拟合的模型。

关于 ROCs... ROC曲线是一种评估二元模型的方法,它产生一个对象属于一个类别的置信度分数;也可能找到它们的最佳阈值以将它们转换为实际的分类器。您所描述的是将分类器的性能绘制为 ROC空间
中 TPR/FPR 散点图的想法,并使用最接近左上角的标准来选择在生成误报和未命中之间达到最佳平衡的标准 - - 通过简单地选择具有最佳F 分数(精度和召回率的调和平均值)的模型,可以更优雅地实现这一特定目标。