测量不同样本大小的不同分类器的性能

数据挖掘 分类 表现
2021-10-09 03:33:25

我目前正在对从文本中提取的各种实体使用几种不同的分类器,并使用精度/召回率来总结每个单独的分类器在给定数据集上的执行情况。

我想知道是否有一种有意义的方法可以以类似的方式比较这些分类器的性能,但它也考虑到了被分类的测试数据中每个实体的总数?

目前,我使用精确度/召回率作为衡量性能的指标,因此可能有以下内容:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

然而,我运行这些的数据集可能包含 10 万人、5000 家公司、500 个奶酪和 1 个鸡蛋。

那么是否有一个汇总统计数据可以添加到上表中,它还考虑了每个项目的总数?或者是否有某种方法可以衡量这样一个事实,例如 Egg 分类器上的 100% prec/rec 可能仅对 1 个数据项没有意义?

假设我们有数百个这样的分类器,我想我正在寻找一种好方法来回答诸如“哪些分类器表现不佳?哪些分类器缺乏足够的测试数据来判断它们是否表现不佳?”之类的问题。

3个回答

您需要查看统计数据的置信区间。这有助于衡量统计数据中有多少不确定性,这在很大程度上是样本量的函数。

类中的数据数量有时称为support分类器的数量。它告诉您可以在多大程度上信任您的结果,就像 p 值可以让您信任或不信任某些测试。

您可以使用的一种方法是计算多个分类器性能指标,不仅包括精度和召回率,还包括真阳性率、假阳性率、特异性、敏感性、阳性似然、阴性似然等,并查看它们是否相互一致. 如果其中一个指标达到最大值(100%)而另一个没有达到最大值,根据我的经验,这通常表明出现了问题(例如,支持不足、分类器琐碎、有偏见的分类器等)。有关分类器性能度量的列表,请参见this

在我看来,当尺寸差异如此之大时,很难比较性能。在此链接上(请在 Wikipedia 中查看),您可能会看到不同的策略。

我建议的一个与方差有关。例如,考虑分类器 (100%) 和人员分类器 (65%) 的性能。您使用前一个分类器犯下的最小错误是 100%。但是,使用后一个分类器可以犯的最小错误是 10e-5。

因此,比较分类器的一种方法是牢记这条三法则,您可以在其中比较性能及其可变性。

另一种可能性是F-measure,它是 Precision 和 Recall 的组合,它在某种程度上独立于效果大小。