不平衡数据集上的多类分类:精度或微 F1 或宏 F1

数据挖掘 多类分类 准确性
2021-10-15 05:55:08

我有一个多类分类问题。此外,可以将一个实例分配给一个类。我的数据集高度不平衡。我知道在这种情况下准确率不是一个很好的指标,因为人们可以简单地预测高频率类并获得好分数。我知道对于多类分类问题,微 F1 比宏 F1 更好,但事实证明,微 F1 分数与准确度分数相同因此,研究替代指标(即微型 F1)而不是准确性的整个想法已经绕了一圈。

我应该改用宏 F1 吗?

1个回答

在数据科学界,有两个不太广为人知的指标非常适用于不平衡数据并且可用于多类数据:Cohen 的 kappa 和 Matthews 相关系数 (MCC)。

Cohen 的 kappa 是一种旨在衡量注释者间一致性的统计量,但它可用于衡量基本事实与预测之间的一致性。网上有很多解释,例如在Wikipedia这里,它是在scikit-learn中实现的。

MMC 最初是为二进制分类而设计的,但后来被推广用于多类数据。MCC 也有多个在线资源,例如 Wikipediahere,它在scikit-learn中实现。

希望这可以帮助。