准确率、精度、f1、ROC 对二元单类问题都有好处。
但是对于更复杂的问题(不平衡多类问题),我应该使用什么?
你有什么建议吗?
一个标准指标是前 1 或前 5 的测试错误率。例如,对于 top-5,您的模型预测 5 个最有可能的标签,如果 5 个标签都不是真实标签,则将此实例标记为错误。当人们使用 ImageNet 数据时,这通常是一个标准指标。请参阅此处的示例用法。该指标没有明确计算类不平衡。
另一个强大的指标是平均平均精度 (mAP),您可以在其中计算每个类的平均精度(AP),然后在所有类中取平均值。在这个指标中,与大类相比,小类获得相同的权重。这个想法来自信息检索社区。该指标也适用于多标签分类。请参阅此处的示例用法。