数据挖掘 - 评估具有类不平衡数据集的多类问题的估计器的最佳指标是什么？ - 吾爱随笔录

数据挖掘机器学习深度学习公制

2022-02-24 06:01:04

准确率、精度、f1、ROC 对二元单类问题都有好处。

但是对于更复杂的问题（不平衡多类问题），我应该使用什么？

你有什么建议吗？

1个回答

一个标准指标是前 1 或前 5 的测试错误率。例如，对于 top-5，您的模型预测 5 个最有可能的标签，如果 5 个标签都不是真实标签，则将此实例标记为错误。当人们使用 ImageNet 数据时，这通常是一个标准指标。请参阅此处的示例用法。该指标没有明确计算类不平衡。

另一个强大的指标是平均平均精度 (mAP)，您可以在其中计算每个类的平均精度(AP)，然后在所有类中取平均值。在这个指标中，与大类相比，小类获得相同的权重。这个想法来自信息检索社区。该指标也适用于多标签分类。请参阅此处的示例用法。

其它你可能感兴趣的问题