数据挖掘 - 当多类数据集不平衡时，GridSearchCV 的哪个评分最好？ - 吾爱随笔录

数据挖掘支持向量机阶级失衡计分网格搜索

2022-03-10 17:06:16

我有一个不平衡的多类数据集 (GTSRB)，想通过 GridSearchCV 优化 SVM 的超参数。我知道在这种情况下准确性不适合评分。在这种情况下，哪种评分评估方法最合适？

目前我倾向于以下几点： - f1_score (average='macro') - cohen_kappa_score

在这种情况下你有什么经验？

2个回答

有很多指标可以衡量分类器的性能。基本的基于以下思想：

从我在白皮书中看到的内容来看，F1 分数是在不平衡分类场景中考虑的最常用的指标。但我也将 ROC-AUC 视为一种常用的指标。正如我所提到的，有很多指标，但我强烈建议您保留这些最常用的指标，以便为其他指标提供一些标准的性能感觉。

对于类别不平衡的情况，Precission-Recall AUC 比通常的 ROC AUC 提供了更好的洞察力，因为它专注于仅处理少数类别的指标（假设我们将少数类别标记为阳性，感兴趣的事件，像往常一样）。解释得很清楚：https ://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/

我认为提供 AUC 而不是单个 F 分数（也意味着单个精度和召回）更好，因为 AUC 意味着多个决策阈值的度量......

其它你可能感兴趣的问题