我有 400 多个开放式回复。总数由一位评估者编码,总数中 10% 的相同样本由 2 位评估者编码。有 14 个标称代码可供选择,评估者可以在每个案例中使用任何数字,尽管大多数案例有 1-4 个代码。哪种统计测试最适合确定我是否对 10% 的样本有评估者间的一致性?
我是否还假设我需要将每个代码视为一个变量并寻找每个变量的一致性水平?
我正在使用 SPSS 21。
非常感谢,凯莉
我有 400 多个开放式回复。总数由一位评估者编码,总数中 10% 的相同样本由 2 位评估者编码。有 14 个标称代码可供选择,评估者可以在每个案例中使用任何数字,尽管大多数案例有 1-4 个代码。哪种统计测试最适合确定我是否对 10% 的样本有评估者间的一致性?
我是否还假设我需要将每个代码视为一个变量并寻找每个变量的一致性水平?
我正在使用 SPSS 21。
非常感谢,凯莉
您可以为每个类别分别使用机会调整的一致性指数(例如,Cohen 的 kappa 或 Scott 的 pi)。或者,您可以使用以下方法:
Kramer (1980) 提出了一种评估评估者间可靠性的方法,其中评估者可以为每个测量对象选择多个类别。这种方法背后的直觉是将问题从分类之一重新构建为等级排序之一。因此,所有选定的类别均获得第一名,所有未选择的类别均获得第二名。然后可以使用等级相关系数或等级方差分析来计算机会调整的一致性。自然地,这种方法还允许由评分者对多个类别进行排名。
一个聪明的解决方案,但不是我在文章中见过的。
参考
克莱默,HC(1980)。kappa 系数的扩展。生物识别,36 (2), 207–16。