我有一个不平衡的数据集,总共有 920 个样本,689 个属于第一类,222 个属于第二类。这两门课对我来说都很重要。因此在构建分类器模型(例如 SVM 或 KNN)时。我应该考虑什么测量来评估分类器的性能?通常人们使用准确性。但在我的情况下,有时我会得到高精度但零特异性,这清楚地表明该类偏向于多数类(在我的情况下为第一类)。有人建议我使用结合了特异性和敏感性的 F 分数。此外,还有 AUC。所以你有什么建议?
分类器性能评估
数据挖掘
分类
准确性
评估
2022-03-10 16:25:03
2个回答
在这种情况下有用的指标是:
关于如何为特定项目选择指标的几篇文章是:
David S. Batista的评估指标、ROC 曲线和不平衡数据集,
应该使用哪些指标来评估不平衡数据集上的模型?希尔·梅尔·拉多尔,
为评估机器学习模型选择正确的指标 — 第 2 部分,作者:Alvira Swalin。
在数据不平衡问题的情况下,有许多方法可以衡量性能。我喜欢每类的平均准确率。您计算每个类别的准确度,然后找到这些类别准确度的平均值。