比较评估者类别之间的评估者间一致性

机器算法验证 协议统计
2022-04-17 10:40:26

我有兴趣比较来自 2 个不同组/类别(专家和半专家)的评分者对相同对象的评分,因此我可以决定半专家是否可以在我的环境中取代专家。虽然我认为我很容易在文献中找到推荐的方法,但经过长时间的搜索,我不确定这个问题是否得到解决。

下图说明了数据结构:

数据结构:来自两个评估者组(类)的多个已识别评估者的评级

(*请参阅底部有关数据结构的附加说明)

为了进行比较,我相信我需要:

一个。看看专家和半专家评级在多大程度上相互一致(简单的部分,但请耐心等待。那里也有一个问题);

湾。检查每个组内的评分者间一致性,并说出它们是否可以相互区分。

我查了文献。使用 Krippendorf 的 alpha 执行 (a) 似乎很简单。我的数据集(来自真实数据,而不是设计的实验)包括来自每个评估者组(专家、半专家)的每个对象的多个评级 (0-3)。

我想平均每个对象、每个组的评分,从而创建一个包含 2 行的数据集,模拟两个“评分者”(典型专家和典型半专家)。然后使用 Krippendorf 的 alpha。这是一个插图:

精简数据:对每组的评分进行平均,以显示来自(专家/半专家)的“原型”评分

然而,我不清楚这个平均过程是否是一个好主意。我在 Krippendorf 的内容分析书或论文中找不到明确的答案。

(我选择了 Krippendorf 的 alpha,因为在某些情况下我有超过 2 个评估者;而且它对缺失数据和其他问题更加稳健。但 Krippendorf 设计了他的 alpha 来检查一致性的一致性,而不是比较来自不同组的评估者;看起来其他常见措施也是如此。所以我很犹豫)。

至于(b),假设我得到 K-alpha(专家)= x,K-alpha(半专家)= y。有没有办法测试差异的重要性?

我花了好几天试图找到答案,所以这不是一个简单的案例。请仅在您真正深入了解这些内容时才回答。非常感谢您的考虑!

数据结构注意事项

我相信这两条评论不应该基于 Krippendorf 的 alpha 的分析产生影响。但我把这里带到这里是为了完整:

  1. 并非所有对象都有来自所有评分者的评分。大多数情况下,每个对象都由每组的几个评分者评分)
  2. 每组的评分者人数不同(一组 30 人,另一组 60 人)。
1个回答

这是您可以采取的一种方法。我将首先假设您需要协议,而不是一致性,但我将向您展示之后如何使用一致性。有关差异的详细评论,请参阅本文

协议。这侧重于评分者之间的绝对一致性 - 如果我给它一个 2,你会给它一个 2。这是我将采取的步骤:1)Krippendorff'sα跨越两组。这将是一个整体基准。2) 克里彭多夫α分别为每个组。比较两个系数,看看哪个组的可靠性更高。您可以计算两者的置信区间并查看它们是否交叉,请参阅Hayes 和 Krippendorff (2007)对于 R 中的实现,请查看irr包,kripp.alpha然后kripp.boot. 一般的方法是使用引导,尽管我自己没有实现它。如果半专家的可靠性在统计上相当或足够接近您的目的,那么您可以继续考虑它。如果它显着降低,您需要通过 a) 显着降低使用半专家的成本来证明它的合理性;b) 确定改进方法。3) 对于半专家来说,足够的评估者间可靠性是不够的,当然,如果他们与专家的意见不一致。在这里,您可以对两组分布和集中趋势进行统计比较 - 如果您愿意比较序数数据的均值,您有足够的观察结果,并且数据看起来很正常,请使用 t 检验或 ANOVA 等标准检验。否则交叉表和χ2测试可能更合适(请记住对这些测试的样本大小敏感性)。如果组之间存在统计和实质性差异,并且它们的可靠性存在实质性差异,那么半专家可能不会给您与专家相同的“质量”。

一致性这着眼于两组是否一致,尽管不一定一致。如果我评价很高,你也会,即使我们对它的评价不同。一种常见的方法是使用类内相关系数,经典参考文献是:Shrout, P. 和 Fleiss, JL (1979) “类内相关性:用于评估评估者可靠性”,在《心理学公报》中。卷。86,第 2 期,第 420-428 页。R中的psych包有这个公式。这基本上依赖于嵌套的 ANOVA 模型 - 您可以将审阅者视为嵌套在两个组中,并查看相对于总体方差有多少方差归因于分组。如果您熟悉 ANOVA 模型,那么操作起来应该相当简单(您可能希望lmerlme4包来运行混合效应回归,从那里提取方差分量(这就是我以前做过的)。