机器算法验证 - 许多非重叠评估者的评估者间信度 - 吾爱随笔录

许多非重叠评估者的评估者间信度

机器算法验证可靠性协议统计科恩斯-卡帕

2022-03-21 03:23:17

我有一个包含 11,000 多个不同项目的数据集，每个项目都由 Amazon 的Mechanical Turk上的至少 3 个不同的评估者按名义规模分类。

88 位不同的评分者为该任务提供了判断，没有一位评分者完成了超过 800 个判断。大多数提供的远远少于此。

我的问题是这样的：

我想计算一些评分者间可靠性的衡量标准，这比简单地查看共识要好。然而，我相信 Fleiss Kappa 是我最了解的衡量标准，它需要一组一致的评估者对整个项目集进行评估，因此我不能使用 Fleiss Kappa 来检查 IRR 与我的数据。它是否正确？我可以使用另一种方法吗？

任何建议将不胜感激！

2个回答

查看 Krippendorff 的 alpha。与 Cohen 的 Kappa、Fleiss 的 Kappa、Cronbach 的 alpha 等其他一些度量相比，它有几个优点：它对缺失数据具有鲁棒性（我认为这是您主要关心的问题）；它能够处理2个以上的评估者；它可以处理不同类型的尺度（名义、有序等），并且它还比 Cohen 的 Kappa 等其他一些度量更好地解释了机会协议。

Krippendorff's alpha 的计算得到了几个统计软件包的支持，包括 R（通过 irr 包）、SPSS 等。

以下是一些相关论文，讨论了 Krippendorff 的 alpha，包括其属性和实现，并将其与其他度量进行了比较：

Hayes, AF 和 Krippendorff, K. (2007)。响应对编码数据的标准可靠性测量的要求。沟通方法和措施，1（1），77-89。
Krippendorff, K. (2004)。内容分析的可靠性：一些常见的误解和建议。人类传播研究，30（3），411-433。doi: 10.1111/j.1468-2958.2004.tb00738.x
第 3 章，Krippendorff, K. (2013)。内容分析：方法论简介（第 3 版）：Sage。

Krippendorff 的网站上有一些额外的技术论文

如果您只需要说服自己（而不是为另一方报告一个数字），您可以拟合一个交叉分类的分层/混合模型，其中项目和评分者是两个随机效应。那么评分者的组内相关性是[评分者随机效应的方差]/[评分者随机效应的方差+项目随机效应的方差+（逻辑分布的方差=）] . 具体实现取决于您使用的计算平台；CV 的默认值是 R，所以你会使用它，但你可能有一些不同的东西，比如 SPSS 或 Stata。 $\pi^2/3$ nlme

其它你可能感兴趣的问题

上一篇如何定义什么是“样本”？下一篇如何计算三对角近似协方差矩阵以实现快速去相关？