基于precision/recall/F1的显着性检验

机器算法验证 统计学意义 精确召回
2022-02-14 23:56:55

是否可以仅根据精度/召回/F1 分数进行显着性测试?

例如,如果您在一篇论文中遇到 2 个系统只报告了 P/R/F1(在同一数据集上等),那么您可以执行统计显着性检验吗?如果是,那是怎么做的?

1个回答

直观地说,在小数据集或非常均匀/可预测的数据集上获得高 P/R/F1 可能比在更大或更混乱的数据集上获得高 P/R/F1 更容易。因此,在更大、更混乱的数据集上 P/R/F1 的改进更为显着。

按照这种直觉,您可能需要访问“黑盒”方法的输出,以测量结果分布的差异,同时考虑该集合的大小和种类。单独的 P/R/F1 可能信息太少。

此设置中的显着性检验通常通过形成零假设(两种算法始终产生相同的输出)然后计算观察到您正在观察的输出差异(如果算法确实相同)的概率来完成。例如,如果概率小于 0.05,则拒绝原假设并得出改进显着的结论。

本文有相关讨论: http ://www.aclweb.org/anthology/C00-2137