是否可以仅根据精度/召回/F1 分数进行显着性测试?
例如,如果您在一篇论文中遇到 2 个系统只报告了 P/R/F1(在同一数据集上等),那么您可以执行统计显着性检验吗?如果是,那是怎么做的?
是否可以仅根据精度/召回/F1 分数进行显着性测试?
例如,如果您在一篇论文中遇到 2 个系统只报告了 P/R/F1(在同一数据集上等),那么您可以执行统计显着性检验吗?如果是,那是怎么做的?
直观地说,在小数据集或非常均匀/可预测的数据集上获得高 P/R/F1 可能比在更大或更混乱的数据集上获得高 P/R/F1 更容易。因此,在更大、更混乱的数据集上 P/R/F1 的改进更为显着。
按照这种直觉,您可能需要访问“黑盒”方法的输出,以测量结果分布的差异,同时考虑该集合的大小和种类。单独的 P/R/F1 可能信息太少。
此设置中的显着性检验通常通过形成零假设(两种算法始终产生相同的输出)然后计算观察到您正在观察的输出差异(如果算法确实相同)的概率来完成。例如,如果概率小于 0.05,则拒绝原假设并得出改进显着的结论。