数据挖掘 - 识别错误建议或异常值的数学方法 - 吾爱随笔录

我有一个假设的场景，我有 100 个分类器，如果一个人的名字作为输入，它会为这个人返回一个类。

例如。 Input1 -Donald Trump
30/100 分类器politician作为类
返回 20/100 分类器business man作为类
返回 10/100 分类器leader作为类
返回 10/100 分类器american作为类
返回 10/100 分类器作为类返回10/100 分类器作为republican类
返回 3/100 分类器作为类返回 3/100 分类器作为类返回 2/100 分类器作为类返回 1/100 分类器作为类返回 1/100 分类器作为类返回sportsman
priest
doctor
engineer
indian
sportsman

在上述情况下，我以 10 票作为阈值，我可以在某种程度上正确定义唐纳德特朗普，尽管定义sportsman可能是错误的。然而 10 似乎是一个不错的阈值

Input2 -Christiano Ronaldo
20/100 分类器sportsman作为类
返回 20/100 分类器foot ball player作为类
返回 13/100 分类器real madrid作为类返回
13/100 分类器manchesterunited作为类
返回 12/100 分类器juventus作为类返回 12/100 分类器作为类
返回 2/100 分类器作为类返回 2/100 分类器作为类返回 2/100 分类器作为类返回 2/100 分类器作为类返回2/100 分类器作为类返回european
portugese
cricketer
american
chinese
korean

在上面的示例中，如果我将 12 票作为阈值，它正确定义了克里斯蒂亚诺·罗纳尔多，尽管我们可能会丢失portugese标签，因为它的票数只有 2。但是我想我们在这里做得很好。

我的问题是，如果我有一个 API 以这种方式返回名人的选票和类别，那么动态找到可能的最佳阈值的最佳数学方法是什么看看类是否正确