结合敏感性和特异性的分类器性能度量?

机器算法验证 分类 模型评估 敏感性-特异性
2022-03-10 02:10:52

我有 2 类标记的数据,我正在使用多个分类器对其进行分类。并且数据集很平衡。在评估分类器的性能时,我需要考虑分类器在确定真阳性和真阴性方面的准确性。因此,如果我使用准确率,并且如果分类器偏向于正面并将所有内容分类为正面,我将获得大约 50% 的准确率,即使它无法对任何真正的负面进行分类。这个属性扩展到精确度和召回率,因为它们只关注一个类,然后是 F1 分数。(这就是我从这篇论文中所理解的,例如“ Beyond Accuracy, F-score and ROC: a Family of Discriminant measure for Performance Evaluation ”)。

因此,我可以使用敏感性和特异性(TPR 和 TNR)来查看分类器对每个类的执行情况,我的目标是最大化这些值。

我的问题是,我正在寻找一种将这两个值组合成一个有意义的度量的度量我研究了那篇论文中提供的措施,但我发现它并非微不足道。根据我的理解,我想知道为什么我们不能应用像 F 分数这样的东西,而是使用灵敏度和特异性而不是使用精度和召回率?所以公式是

my Performance Measure=2sensitivityspecificitysensitivity+specificity
我的目标是最大化这一措施。我觉得很有代表性。已经有类似的公式了吗?这是否有意义,或者在数学上是否合理?

3个回答

分类准确性、敏感性、特异性以及它们的任何简单组合都是不正确的评分规则。也就是说,它们是由虚假模型优化的。使用它们会让你选择错误的特征,给出错误的权重,并做出次优的决定。决策次优的众多方式之一是,当预测概率接近使用这些度量所暗示的阈值时,您会得到错误的置信度。简而言之,这些措施确实会出错。即使用它们来比较两个非常合适的模型也会误导你。

我想说,您可能不应该考虑任何特定的或只有一种措施。

上次我进行概率分类时,我有一个 R 包 ROCR 和 False Positives 和 False Negatives 的显式成本值。

我考虑了从 0 到 1 的所有截止点,并在选择此截止点时使用了许多措施,例如预期成本。当然,我已经对分类准确性的一般测量进行了 AUC 测量。但对我来说,这不是唯一的可能性。

FP 和 FN 案例的值必须超出您的特定模型,也许这些是由某些主题专家提供的?

例如,在客户流失分析中,错误地推断出客户没有流失可能会更昂贵,而且如果没有准确地将这些服务定位到正确的群体,那么对服务价格进行普遍降低将是昂贵的。

-分析师

编辑:哎呀不知道这有多老了,希望这对偶然发现它的人有用

您有很多选择,这取决于适合您的确切上下文的选项:

  • 平衡准确度只是灵敏度和特异性的平均值,但通常仍优于准确度
  • F1是灵敏度和PPV的调和平均值,正如你所说,当你关心正类而不是负类时你想要什么
  • MCC 比 F1 更平衡,可能是您所追求的:https ://www.ncbi.nlm.nih.gov/pmc/articles/PMC7863449/

就一般建议而言 - 也许询问您的上下文要求更多一点。什么更有害 - FN 或 FP?您可以定制哪些指标更适合您的需求,并且对它们所代表的内容(甚至在文字上)采用整体方法比依赖单个值更明智。