黄金标准数据集的评估者间协议 - 算法可靠评估的上限?

机器算法验证 斯皮尔曼罗 协议统计 心理测量学
2022-04-06 18:18:01

在我的领域中,使用过时的黄金标准数据集来跟踪算法开发的进度。现在,当最先进的算法获得比数据集的评分者间一致性更高的相关性时,人们担心数据集是否仍然可以使用。你有什么意见?

更多细节:

假设有一个通过平均 13 个注释者的评级创建的黄金标准数据集 D1。评分范围为 0 到 10。注释者间一致性为 0.6,计算为所有评分者评分之间的成对 Spearman 相关性的平均值。

假设最先进的算法与黄金标准获得了 0.8 的 Spearman 相关性。由于这超过了 0.6 的 interannotator 一致性,因此该算法优于人类。黄金标准是否仍可用于跟踪给定领域的算法开发进度,或者是否需要具有更高注释者间一致性的新数据集?

我将特别感谢任何涉及该主题的文献参考。

0个回答
没有发现任何回复~