许多非重叠评估者的评估者间信度

机器算法验证 可靠性 协议统计 科恩斯-卡帕
2022-03-21 03:23:17

我有一个包含 11,000 多个不同项目的数据集,每个项目都由 Amazon 的Mechanical Turk上的至少 3 个不同的评估者按名义规模分类

88 位不同的评分者为该任务提供了判断,没有一位评分者完成了超过 800 个判断。大多数提供的远远少于此。

我的问题是这样的:

我想计算一些评分者间可靠性的衡量标准,这比简单地查看共识要好。然而,我相信 Fleiss Kappa 是我最了解的衡量标准,它需要一组一致的评估者对整个项目集进行评估,因此我不能使用 Fleiss Kappa 来检查 IRR 与我的数据。它是否正确?我可以使用另一种方法吗?

任何建议将不胜感激!

2个回答

查看 Krippendorff 的 alpha。与 Cohen 的 Kappa、Fleiss 的 Kappa、Cronbach 的 alpha 等其他一些度量相比,它有几个优点:它对缺失数据具有鲁棒性(我认为这是您主要关心的问题);它能够处理2个以上的评估者;它可以处理不同类型的尺度(名义、有序等),并且它还比 Cohen 的 Kappa 等其他一些度量更好地解释了机会协议。

Krippendorff's alpha 的计算得到了几个统计软件包的支持,包括 R(通过 irr 包)、SPSS 等。

以下是一些相关论文,讨论了 Krippendorff 的 alpha,包括其属性和实现,并将其与其他度量进行了比较:

  1. Hayes, AF 和 Krippendorff, K. (2007)。响应对编码数据的标准可靠性测量的要求。沟通方法和措施,1(1),77-89。

  2. Krippendorff, K. (2004)。内容分析的可靠性:一些常见的误解和建议。人类传播研究,30(3),411-433。doi: 10.1111/j.1468-2958.2004.tb00738.x

  3. 第 3 章,Krippendorff, K. (2013)。内容分析:方法论简介(第 3 版):Sage。

Krippendorff 的网站上有一些额外的技术论文

如果您只需要说服自己(而不是为另一方报告一个数字),您可以拟合一个交叉分类的分层/混合模型,其中项目和评分者是两个随机效应。那么评分者的组内相关性是[评分者随机效应的方差]/[评分者随机效应的方差+项目随机效应的方差+(逻辑分布的方差=)] . 具体实现取决于您使用的计算平台;CV 的默认值是 R,所以你会使用它,但你可能有一些不同的东西,比如 SPSS 或 Stata。π2/3nlme