如何通过多个评估者、每个参与者不同的评估者以及随时间可能发生的变化来执行评估者间的可靠性?

机器算法验证 可靠性 心理测量学 协议统计 类内相关
2022-03-20 08:07:14

参与者被评分两次,两次评分相隔 3 年。对于大多数参与者来说,评分是由不同的评分者完成的,但对于一些(< 10%),相同的评分者进行了两种评分。共有 8 名评分者,其中 2 名在两个时间点进行评分。

现在,由于评分是具有假设“正确”值的能力方面,因此评分者之间的绝对一致性是令人感兴趣的,而不是一致性。然而,由于评级是相隔 3 年进行的,因此能力可能已经(并且可能是)一些真正的变化。

  • 在这种情况下,最好的可靠性测试是什么?
  • 我倾向于类内相关性,但 ICC1 是我能用这些数据做的最好的吗?
1个回答

您打算如何解释某些评分是由同一评分者完成的事实?在我的脑海中,我想不出任何措施可以在没有始终如一的情况下考虑到这一点。毕竟,如果你将同一个评分者比较两次,你就会看到一致性。如果你比较两个评分者,你看到的是一致性。因此,当您说要评估“可靠性”时,您要评估的内容并不完全清楚。

如果您认为科目的能力水平可能发生了变化,那么考虑如何解释这一事实也很重要。你有一些黄金标准衡量标准来比较评估者吗?

因此,总而言之,在评估评估者的可靠性之前,您需要回答两个关键问题:

  • 您如何量化和纠正归因于能力合法变化的时间点之间的变化,而不是评级的一致性差?
  • 您的主要兴趣是评分者彼此达成一致的频率,还是他们应用评分的一致性?