在多类分类任务中寻找最优阈值

数据挖掘 分类
2022-02-18 21:51:45

在二元分类问题中,通过设置不同的阈值、评估它们并选择具有最高 F1 的阈值,很容易找到最佳阈值 (F1)。同样,是否有一种适当的方法可以为多类设置中的所有类找到最佳阈值。

  1. 如果我们以蛮力方式进行,这将是一个网格搜索问题。有什么有效的方法来做到这一点?
  2. 是否有任何 ppl 使用或我可以使用的软件包?
  3. 在多类设置中找到最佳阈值也是一种常见的做法,我没有任何例子吗?
2个回答

一种解决方案是探索 One-Vs-Rest 分类器,它为每个类创建单独的二元分类器。

在二元分类设置中,您通常只有一个概率,因此您需要一个阈值来定义决策规则。

但是,在标签互斥的多类分类问题中,您有一个多项概率分布,即输入属于个概率加起来为 1。在这种情况下,决策规则通常只是简单地选择概率最高的类别。NN

在标签不互斥的情况下,每个标签的阈值可以单独选择,就像在二元分类的情况下一样。