机器算法验证 - 黄金标准数据集的评估者间协议 - 算法可靠评估的上限？ - 吾爱随笔录

在我的领域中，使用过时的黄金标准数据集来跟踪算法开发的进度。现在，当最先进的算法获得比数据集的评分者间一致性更高的相关性时，人们担心数据集是否仍然可以使用。你有什么意见？

更多细节：

假设有一个通过平均 13 个注释者的评级创建的黄金标准数据集 D1。评分范围为 0 到 10。注释者间一致性为 0.6，计算为所有评分者评分之间的成对 Spearman 相关性的平均值。

假设最先进的算法与黄金标准获得了 0.8 的 Spearman 相关性。由于这超过了 0.6 的 interannotator 一致性，因此该算法优于人类。黄金标准是否仍可用于跟踪给定领域的算法开发进度，或者是否需要具有更高注释者间一致性的新数据集？

我将特别感谢任何涉及该主题的文献参考。