分类器性能评估

数据挖掘 分类 准确性 评估
2022-03-10 16:25:03

我有一个不平衡的数据集,总共有 920 个样本,689 个属于第一类,222 个属于第二类。这两门课对我来说都很重要。因此在构建分类器模型(例如 SVM 或 KNN)时。我应该考虑什么测量来评估分类器的性能?通常人们使用准确性。但在我的情况下,有时我会得到高精度但零特异性,这清楚地表明该类偏向于多数类(在我的情况下为第一类)。有人建议我使用结合了特异性和敏感性的 F 分数。此外,还有 AUC。所以你有什么建议?

2个回答

在这种情况下有用的指标是:

  • F1 分数(和准确率/召回率)
  • ROC 曲线 (度量为:ROC 曲线下的面积 (AUC))

关于如何为特定项目选择指标的几篇文章是:

在数据不平衡问题的情况下,有许多方法可以衡量性能。我喜欢每类的平均准确率。您计算每个类别的准确度,然后找到这些类别准确度的平均值。