如果评估者间信度 (ICC) 低怎么办?

机器算法验证 可靠性 协议统计
2022-03-16 20:57:10

背景:八位医生分别对相同的 54 名患者进行了说服力测量(1-7 李克特量表)。说服力测量的平均分数最终将成为我实验的结果测量。

使用具有一致性的双向随机效应模型将评估者间可靠性量化为组内相关系数(ICC)。不幸的是,八位医生的评分者间信度很低(ICC = .350,单一测量)。我还应该对这些不可靠的数据进行进一步的计划分析吗?或者是否可以证明我只包括具有最高评估者间可靠性的医生(即评估者)?我发现有两名医生具有更可接受的评估者间信度(ICC = .718,N = 2),但我认为这不足以将其他医生排除在分析之外。我真的很感激任何参考文献来处理这个问题。

2个回答

我宁愿根据方法本身来回答,而不是如何“解决”这种情况。在另一种情况下,我协助开发了一个评级和分类系统,发现评级者之间的一致性低得令人失望。考虑了两条路径

  1. 改变评级协议的定义方式并确定那些似乎“理解”任务的人,或
  2. 完善所使用的定义,以及为评估者提供的指南和示例,以便他们更容易理解如何对事物进行评估。

在第一个场景中,仅仅因为评估者间的可靠性低,整个方法和结果可能会被浪费掉。它表明要么最初的定义不好,要么给评估者的指导很差。如果我沿着这条路前进,我肯定会遇到问题。

在第二种情况下,评估者之间的一致性非常好。由于他们对很多项目进行了评分,因此当他们认为原始定义和指导不充分时,他们也可以提供反馈。最后,该方法是非常可重复的。

基于此,我不会修改您的评分者集,而是返回原始定义和指导。评级后的任何修补都是一个问题,尽管它可以用作质量检查。有时,无论给出什么指导,评估者都会做他们想做的事。使用良好的统计方法,很容易识别它们并适当地加权它们的贡献。

现在,如果我弄错了并且您不打算进行进一步收集,即您的数据已经收集并完成,您可能会做 PCA 或类似的事情,看看您是否可以了解不同之处医生(或患者)集群。

患者是同时接触所有医生(例如通过视频录制)还是顺序接触,并且每次互动都有机会修改他们的表现?如果是后者,那么可能是患者有问题,而不是医生。

从 28 对可能的配对中挑选最佳的 ICC 值绝对不是一个好主意,因为对 ICC 的估计肯定是乐观的。

Neuendorf 的内容分析手册对处理编码可靠性差的选项进行了很好的讨论。引文是:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

有一个附带的网站