识别错误建议或异常值的数学方法

数据挖掘 离群值
2022-02-27 21:40:54

我有一个假设的场景,我有 100 个分类器,如果一个人的名字作为输入,它会为这个人返回一个类。

例如。 Input1 -Donald Trump
30/100 分类器politician作为类
返回 20/100 分类器business man作为类
返回 10/100 分类器leader作为类
返回 10/100 分类器american作为类
返回 10/100 分类器作为类返回10/100 分类器作为republican
返回 3/100 分类器作为类返回 3/100 分类器作为类 返回 2/100 分类器作为类 返回 1/100 分类器作为类返回 1/100 分类器作为类 返回sportsman
priest
doctor
engineer
indian
sportsman

在上述情况下,我以 10 票作为阈值,我可以在某种程度上正确定义唐纳德特朗普,尽管定义sportsman可能是错误的。然而 10 似乎是一个不错的阈值

Input2 -Christiano Ronaldo
20/100 分类器sportsman作为类
返回 20/100 分类器foot ball player作为类
返回 13/100 分类器real madrid作为类返回
13/100 分类器manchesterunited作为类
返回 12/100 分类器juventus作为类返回 12/100 分类器作为类
返回 2/100 分类器作为类 返回 2/100 分类器作为类 返回 2/100 分类器作为类返回 2/100 分类器作为类返回2/100 分类器作为 返回european
portugese
cricketer
american
chinese
korean

在上面的示例中,如果我将 12 票作为阈值,它正确定义了克里斯蒂亚诺·罗纳尔多,尽管我们可能会丢失portugese标签,因为它的票数只有 2。但是我想我们在这里做得很好。

我的问题是,如果我有一个 API 以这种方式返回名人的选票和类别,那么动态找到可能的最佳阈值的最佳数学方法是什么看看类是否正确

2个回答

动态找到可能的最佳阈值的最佳数学方法是什么

首先,很明显,没有办法确定答案是正确还是不正确:例如,如果由于某种原因所有分类器都返回相同的错误答案,则满足阈值条件但答案是错误的。

现在,找到最佳阈值来决定答案是否可接受的唯一方法是使用一组标记示例来评估分类器的答案。为什么?因为答案的正确性无法通过任何数学公式来确定。

所以游戏的目标是评估这组分类器在多大程度上可以被信任以给出正确的答案,这取决于阈值。所以阈值是预测系统的一个参数,这个参数可以根据一些验证数据来估计(调整)。基本方法包括尝试参数的所有可能值,评估每种情况下的性能并选择获得最高性能的值。请注意,对于这种情况有许多可能的评估措施:应根据系统的目标仔细选择措施(例如,有一个假阳性答案还是假阴性更好?)。

如果您发现这些类别有些相关(例如,政治家和商人极有可能成为领导者),那么您可以利用这些统计规则来绕过或后期修改投票。

否则,我认为您能做的最好的事情就是设置一个静态阈值,为您提供最佳精度和召回率组合。