机器算法验证 - 序数或区间数据的评分者间信度 - 吾爱随笔录

序数或区间数据的评分者间信度

机器算法验证可靠性心理测量学协议统计科恩斯-卡帕

2022-01-21 05:15:44

哪种评估者间信度方法最适合序数或区间数据？

我相信“协议的联合概率”或“Kappa”是为名义数据设计的。虽然可以使用“Pearson”和“Spearman”，但它们主要用于两个评估者（尽管它们可以用于两个以上的评估者）。

还有哪些其他措施适用于序数或区间数据，即两个以上的评分者？

2个回答

Kappa ( ) 统计量是一个质量指数，它比较 2 名评分者在名义或有序量表上观察到的一致性与仅凭偶然性预期的一致性（好像评分者在折腾）。存在多个评估者情况的扩展（2，第 284-291 页）。在序数数据的情况下，您可以使用加权，它基本上像往常一样读取 kappa ，其中非对角元素有助于一致性度量。Fleiss (3) 提供了解释值的指南，但这些只是经验法则。 $\kappa$ $\kappa$ $\kappa$ $\kappa$

统计量渐近等效于从双向随机效应方差分析估计的 ICC，但是来自通常的方差分析框架的显着性检验和 SE 对于二进制数据不再有效。最好使用 bootstrap 来获得置信区间 (CI)。Fleiss (8) 讨论了加权 kappa 和类内相关性 (ICC) 之间的联系。 $\kappa$

应该注意的是，一些心理测量学家不太喜欢，因为它受测量对象的流行程度的影响，就像预测值受所考虑疾病的流行程度的影响一样，这可能导致矛盾的结果。 $\kappa$

个评分者的评分者间信度可以用 Kendall 的一致性系数来估计。当被评分的项目或单位的数量时，。（2，第 269-270 页）。这种渐近近似适用于和的中等值(6)，但少于 20 个项目或置换测试更合适 (7)。和 Kendall 的统计量之间存在密切关系可以直接从成对的 Spearman 相关性的平均值计算（仅适用于未绑定的观察）。 $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ $W$

多变量（序数数据）相关性也可用作评估者间一致性的度量。事实上，它们允许

估计如果以连续规模进行评级，相关性是什么，
检验评分者之间的边际同质性。

事实上，可以证明它是潜在特征建模的一个特例，它允许放宽分布假设 (4)。

关于连续（或假设的）测量，量化归因于受试者间差异的方差比例的 ICC 很好。同样，建议使用自举 CI。正如@ars所说，基本上有两个版本——协议和一致性——适用于协议研究（5）的情况，主要区别在于平方和的计算方式；“一致性”ICC 通常在不考虑项目×评分者交互作用的情况下进行估计。ANOVA 框架对于希望最小化评级数量 ( BIBD ) 的特定块设计很有用——事实上，这是 Fleiss 工作的最初动机之一。这也是多个评估者的最佳方式. 这种方法的自然扩展称为泛化理论。评估模型：简介中给出了简要概述，否则标准参考是布伦南的书，在Psychometrika 2006 71(3)中进行了评论。

至于一般参考资料，我推荐Graham Dunn (Hodder Arnold, 2000)的Statistics in Psychiatry的第 3 章。为了更完整地处理可靠性研究，迄今为止的最佳参考是

邓恩，G（2004 年）。可靠性研究的设计和分析。阿诺德。见国际流行病学杂志的评论。

在 John Uebersax 的网站 Intraclass Correlation and Related Methods上有一个很好的在线介绍；它包括对 ICC 方法的优缺点的讨论，特别是在序数尺度方面。

用于双向评估（顺序或连续测量）的相关 R 包可在心理测量任务视图中找到；我通常使用psy、psych或irr包。还有concord包，但我没用过。对于处理两个以上的评估者，lme4包是一种允许轻松合并随机效应的方法，但大多数可靠性设计可以使用分析，aov()因为我们只需要估计方差分量。

参考

J科恩。加权 kappa：名义比例协议，规定部分信用的比例不一致。心理公报，70，213-220，1968。
S Siegel 和 Jr N John Castellan。行为科学的非参数统计。麦格劳-希尔，第二版，1988 年。
JL弗莱斯。比率和比例的统计方法。纽约：威利，第二版，1981 年。
JS尤伯萨克斯。tetrachoric 和 polychoric 相关系数。评分者协议统计方法网站，2006 年。可在以下网址获取：http: //john-uebersax.com/stat/tetra.htm。于 2010 年 2 月 24 日访问。
PE Shout 和 JL Fleiss。组内相关性：用于评估评估者的可靠性。心理公报，86，420-428，1979。
MG肯德尔和B巴宾顿史密斯。m 排名问题。数理统计年鉴，10，275–287，1939。
P勒让德。一致性系数。在 NJ Salkind，编辑，研究设计百科全书。SAGE 出版物，2010 年。
JL弗莱斯。加权 kappa 的等价性和类内相关系数作为可靠性的衡量标准。教育和心理测量，33，613-619，1973。

类内相关可用于序数数据。但是有一些警告，主要是无法区分评估者。有关这方面的更多信息以及如何在不同版本的 ICC 中进行选择，请参阅：

类内相关性：用于评估评估者的可靠性（Shrout, Fleiss, 1979）

其它你可能感兴趣的问题

上一篇最大似然估计和梯度下降有什么区别？下一篇如何知道数据是否线性可分？