机器算法验证 - 基于precision/recall/F1的显着性检验 - 吾爱随笔录

机器算法验证统计学意义精确召回

2022-02-14 23:56:55

是否可以仅根据精度/召回/F1 分数进行显着性测试？

例如，如果您在一篇论文中遇到 2 个系统只报告了 P/R/F1（在同一数据集上等），那么您可以执行统计显着性检验吗？如果是，那是怎么做的？

1个回答

直观地说，在小数据集或非常均匀/可预测的数据集上获得高 P/R/F1 可能比在更大或更混乱的数据集上获得高 P/R/F1 更容易。因此，在更大、更混乱的数据集上 P/R/F1 的改进更为显着。

按照这种直觉，您可能需要访问“黑盒”方法的输出，以测量结果分布的差异，同时考虑该集合的大小和种类。单独的 P/R/F1 可能信息太少。

此设置中的显着性检验通常通过形成零假设（两种算法始终产生相同的输出）然后计算观察到您正在观察的输出差异（如果算法确实相同）的概率来完成。例如，如果概率小于 0.05，则拒绝原假设并得出改进显着的结论。

其它你可能感兴趣的问题