什么时候应该使用确定性分类而不是概率分类

数据挖掘 分类
2021-10-16 05:12:02

概率分类器看起来非常好,因为它们比确定性分类器提供更多信息,即估计类成员的概率,而不仅仅是模型认为单个数据应该属于哪个类。

那么在什么情况下你会选择确定性分类器而不是概率分类器呢?

1个回答

如果满足以下所有条件,则值得考虑使用“确定性”分类器:

  1. 假阳性和假阴性错误分类成本是预先知道的,并且要么是固定的,要么您不介意在更改时重新训练您的模型;
  2. 操作中的相对类频率是预先知道的并且是固定的,或者您不介意在模型发生变化时重新训练它们;
  3. 您不需要“拒绝”选项(尽管有解决方法)。

在这些情况下,您可能希望使用像支持向量机这样专注于直接解决分类问题的分类器。这样做的原因是概率分类器试图在任何地方准确地预测概率,并且会为此花费建模资源。另一方面,离散/确定性分类器仅将资源集中在估计一个特定概率轮廓的位置上,因为这给出了最佳决策边界,因此原则上它可以更好地利用可用数据。

概率分类器的好处在于,您可以根据错误分类成本的变化或相对类频率的变化进行调整,或者轻松实现“拒绝”选项,而无需重新训练模型。缺点是他们对数据的利用稍差一些,因为他们考虑与最佳分类无关的数据分布特征,请参阅我的示例:https ://stats.stackexchange.com/questions/312780/为什么准确度不是评估分类模型的最佳测量方法/538524#538524因此,如果您不需要/不想要概率分类器的任何这些好的属性,您可能使用离散分类器获得更好的结果(并且 SVM 的成功提供了在各种实际应用中都是正确的证据)。

简而言之,在您的数据科学工具箱中拥有这两组工具,因为它们都很有用。