在高度不平衡的数据集上评估多类分类问题的性能时,为此目的最稳健的指标是什么?
我读了一篇论文,上面写着:
“平均精度是存在类别不平衡的可靠指标,因为它排除了特异性中的‘真阴性’成分,而是关注精度或阳性预测值。”
对我来说,令人困惑的部分是本文中应用的方法论。他们使用平衡技术(SMOTE、class_weigh、随机抽样)对少数类进行过采样,但他们仍然关心评估指标和“真阴性”。
在高度不平衡的数据集上评估多类分类问题的性能时,为此目的最稳健的指标是什么?
我读了一篇论文,上面写着:
“平均精度是存在类别不平衡的可靠指标,因为它排除了特异性中的‘真阴性’成分,而是关注精度或阳性预测值。”
对我来说,令人困惑的部分是本文中应用的方法论。他们使用平衡技术(SMOTE、class_weigh、随机抽样)对少数类进行过采样,但他们仍然关心评估指标和“真阴性”。
为了评估高度不平衡的分类,您可以考虑多种措施。请记住,在这样的问题中,我们更喜欢一种不偏向其中一个类但对两个类具有相似重要性的度量。
评估分类器的方法可以分为两种类型:单一评估措施,其中评估针对特定阈值(即权衡)和曲线下面积(AUC)分析,其中考虑一系列阈值。
F-measure结合了精度和召回率。精度对数据分布很敏感,因为它结合了混淆矩阵的两行的值,因此,随着负实例和正实例数量之间的差异变大,正类(少数)的影响变小. 另一方面,Recall 对数据分布不敏感,因为它根本不涉及负类。受精度影响,F-measure 也必须对类分布敏感。F-measure 对正例的正确分类具有更高的重要性,TNR 值的变化对 F-measure 值的影响小于 TPR 的变化。这可以通过召回的影响来解释,召回只考虑正类实例的正确分类。
几何平均值(G-measure,GM)结合了 TPR 和 TNR,分别表示在这两个类别上测量的准确率。GM与类大小无关,表示每个类中正确分类实例的相对部分,无论不平衡程度如何。也就是说,GM 不受类之间不平衡的影响,GM 与具有相同重要性的两个类的性能有关,因为它是 TPR 和 TNR 的调和平均值,并且它们的效果是对称的。当两个类别的准确度都很高且相似时,GM 值就会更高。例如,当两个类的准确度等于 0.5 时,比一个为 0.6 另一个为 0.4 时实现更高的 GM 值。
ROC-AUC基于TPR 和 FPR,即 1-TNR,因此与 GM 等问题具有相同的适用性。
PR-AUC,精确召回曲线,对于高度不平衡的数据也很有用,并且对于类平衡的变化(添加样本)也很稳健。我发现这篇文章对于理解 AUC 度量以及每一个度量的好处非常有用。
然而,AUC 分析提供了更通用的评估,但在大多数情况下,当需要考虑特定的权衡时,它不会给出最佳解决方案。仅当您的分类器输出不是离散的而是继续时,AUC 才相关。
如需更多阅读和比较,您可以使用何海波教授的讲座,非常全面和有用。
对于不平衡的数据集,F1-score 或 G-measure 应该没问题。
要将模型评估为负预测,请考虑负预测值或特异性。
资料来源: https ://en.wikipedia.org/wiki/Sensitivity_and_specificity