我有一个不平衡的多类数据集 (GTSRB),想通过 GridSearchCV 优化 SVM 的超参数。我知道在这种情况下准确性不适合评分。在这种情况下,哪种评分评估方法最合适?
目前我倾向于以下几点: - f1_score (average='macro') - cohen_kappa_score
在这种情况下你有什么经验?
我有一个不平衡的多类数据集 (GTSRB),想通过 GridSearchCV 优化 SVM 的超参数。我知道在这种情况下准确性不适合评分。在这种情况下,哪种评分评估方法最合适?
目前我倾向于以下几点: - f1_score (average='macro') - cohen_kappa_score
在这种情况下你有什么经验?
有很多指标可以衡量分类器的性能。基本的基于以下思想:
从我在白皮书中看到的内容来看,F1 分数是在不平衡分类场景中考虑的最常用的指标。但我也将 ROC-AUC 视为一种常用的指标。正如我所提到的,有很多指标,但我强烈建议您保留这些最常用的指标,以便为其他指标提供一些标准的性能感觉。
对于类别不平衡的情况,Precission-Recall AUC 比通常的 ROC AUC 提供了更好的洞察力,因为它专注于仅处理少数类别的指标(假设我们将少数类别标记为阳性,感兴趣的事件,像往常一样)。解释得很清楚:https ://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/
我认为提供 AUC 而不是单个 F 分数(也意味着单个精度和召回)更好,因为 AUC 意味着多个决策阈值的度量......