我有一个包含 11,000 多个不同项目的数据集,每个项目都由 Amazon 的Mechanical Turk上的至少 3 个不同的评估者按名义规模分类。
88 位不同的评分者为该任务提供了判断,没有一位评分者完成了超过 800 个判断。大多数提供的远远少于此。
我的问题是这样的:
我想计算一些评分者间可靠性的衡量标准,这比简单地查看共识要好。然而,我相信 Fleiss Kappa 是我最了解的衡量标准,它需要一组一致的评估者对整个项目集进行评估,因此我不能使用 Fleiss Kappa 来检查 IRR 与我的数据。它是否正确?我可以使用另一种方法吗?
任何建议将不胜感激!