分类器是否混乱?

数据挖掘 分类 多类分类
2022-02-26 01:50:47

二元分类器:

假设我已经建立了一个二元分类器并确定了一个操作点。并让分类器在生产数据上运行。此分类器返回两个类中的每一个的概率分数。

可以肯定地说,对于分类器返回接近操作点的概率分数的生产/样本外实例,分类器对这些实例感到困惑吗?

此外,如果我收集分类器分数接近操作点的那些实例。并将其与我的训练数据进行比较。可能有两种情况:

  1. 与训练数据相比,“令人困惑”的实例具有显着不同的分布。在这种情况下,我的分类器没有故障。如果可能的话,我应该手动标记这些实例并重新安装分类器。

  2. “令人困惑”的实例与我的训练数据具有相似的分布。在这种情况下,我的分类器有问题。这个案子可能会产生什么影响?但我相信这个案例会在训练时被捕获。这样的例子在基数上会非常少。

如果上述思维过程是正确的。我们如何将其扩展到多类分类器?

1个回答

更准确的术语是“不确定”,但您的思路是正确的。您的分类器(基于学习或设计的特征分布)无法确定将哪个类分配给这个边缘案例。它们不一定具有完全不同的分布,更有可能它们是同一分布的一部分,但位于靠近第二类分布尾部的尾部(想想在某些区域的 2 个高斯共享相似的密度值)。

根据此类案例的数量,您应该检查它们并尝试追踪混淆的根源。也许一些聪明的预处理可以帮助或不同的功能(也许这些只是异常值)。

在多类情况下,您可能会得到类似的行为,但每次都是在所有类的子集上。IE模型确定样本是2-3个类别之一(例如总共10个类别),但不能确定来自哪个特定类别。因此,您将获得这些类的相似值的概率,而其余类的概率非常小。