数据挖掘 - 分类器性能评估 - 吾爱随笔录

分类器性能评估

数据挖掘分类准确性评估

2022-03-10 16:25:03

我有一个不平衡的数据集，总共有 920 个样本，689 个属于第一类，222 个属于第二类。这两门课对我来说都很重要。因此在构建分类器模型（例如 SVM 或 KNN）时。我应该考虑什么测量来评估分类器的性能？通常人们使用准确性。但在我的情况下，有时我会得到高精度但零特异性，这清楚地表明该类偏向于多数类（在我的情况下为第一类）。有人建议我使用结合了特异性和敏感性的 F 分数。此外，还有 AUC。所以你有什么建议？

2个回答

在这种情况下有用的指标是：

F1 分数（和准确率/召回率）
ROC 曲线（度量为：ROC 曲线下的面积 (AUC)）

关于如何为特定项目选择指标的几篇文章是：

David S. Batista的评估指标、ROC 曲线和不平衡数据集，
应该使用哪些指标来评估不平衡数据集上的模型？希尔·梅尔·拉多尔，
为评估机器学习模型选择正确的指标 — 第 2 部分，作者：Alvira Swalin。

在数据不平衡问题的情况下，有许多方法可以衡量性能。我喜欢每类的平均准确率。您计算每个类别的准确度，然后找到这些类别准确度的平均值。

其它你可能感兴趣的问题

上一篇时间序列分析的训练和测试拆分下一篇为什么在异常检测中使用变分自动编码器 VAE 而不是自动编码器 AE？