我目前正在对从文本中提取的各种实体使用几种不同的分类器,并使用精度/召回率来总结每个单独的分类器在给定数据集上的执行情况。
我想知道是否有一种有意义的方法可以以类似的方式比较这些分类器的性能,但它也考虑到了被分类的测试数据中每个实体的总数?
目前,我使用精确度/召回率作为衡量性能的指标,因此可能有以下内容:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
然而,我运行这些的数据集可能包含 10 万人、5000 家公司、500 个奶酪和 1 个鸡蛋。
那么是否有一个汇总统计数据可以添加到上表中,它还考虑了每个项目的总数?或者是否有某种方法可以衡量这样一个事实,例如 Egg 分类器上的 100% prec/rec 可能仅对 1 个数据项没有意义?
假设我们有数百个这样的分类器,我想我正在寻找一种好方法来回答诸如“哪些分类器表现不佳?哪些分类器缺乏足够的测试数据来判断它们是否表现不佳?”之类的问题。