我宁愿根据方法本身来回答,而不是如何“解决”这种情况。在另一种情况下,我协助开发了一个评级和分类系统,发现评级者之间的一致性低得令人失望。考虑了两条路径
- 改变评级协议的定义方式并确定那些似乎“理解”任务的人,或
- 完善所使用的定义,以及为评估者提供的指南和示例,以便他们更容易理解如何对事物进行评估。
在第一个场景中,仅仅因为评估者间的可靠性低,整个方法和结果可能会被浪费掉。它表明要么最初的定义不好,要么给评估者的指导很差。如果我沿着这条路前进,我肯定会遇到问题。
在第二种情况下,评估者之间的一致性非常好。由于他们对很多项目进行了评分,因此当他们认为原始定义和指导不充分时,他们也可以提供反馈。最后,该方法是非常可重复的。
基于此,我不会修改您的评分者集,而是返回原始定义和指导。评级后的任何修补都是一个问题,尽管它可以用作质量检查。有时,无论给出什么指导,评估者都会做他们想做的事。使用良好的统计方法,很容易识别它们并适当地加权它们的贡献。
现在,如果我弄错了并且您不打算进行进一步收集,即您的数据已经收集并完成,您可能会做 PCA 或类似的事情,看看您是否可以了解不同之处医生(或患者)集群。
患者是同时接触所有医生(例如通过视频录制)还是顺序接触,并且每次互动都有机会修改他们的表现?如果是后者,那么可能是患者有问题,而不是医生。