我有 2 类标记的数据,我正在使用多个分类器对其进行分类。并且数据集很平衡。在评估分类器的性能时,我需要考虑分类器在确定真阳性和真阴性方面的准确性。因此,如果我使用准确率,并且如果分类器偏向于正面并将所有内容分类为正面,我将获得大约 50% 的准确率,即使它无法对任何真正的负面进行分类。这个属性扩展到精确度和召回率,因为它们只关注一个类,然后是 F1 分数。(这就是我从这篇论文中所理解的,例如“ Beyond Accuracy, F-score and ROC: a Family of Discriminant measure for Performance Evaluation ”)。
因此,我可以使用敏感性和特异性(TPR 和 TNR)来查看分类器对每个类的执行情况,我的目标是最大化这些值。
我的问题是,我正在寻找一种将这两个值组合成一个有意义的度量的度量。我研究了那篇论文中提供的措施,但我发现它并非微不足道。根据我的理解,我想知道为什么我们不能应用像 F 分数这样的东西,而是使用灵敏度和特异性而不是使用精度和召回率?所以公式是