机器算法验证 - 如何通过多个评估者、每个参与者不同的评估者以及随时间可能发生的变化来执行评估者间的可靠性？ - 吾爱随笔录

机器算法验证可靠性心理测量学协议统计类内相关

2022-03-20 08:07:14

参与者被评分两次，两次评分相隔 3 年。对于大多数参与者来说，评分是由不同的评分者完成的，但对于一些（< 10%），相同的评分者进行了两种评分。共有 8 名评分者，其中 2 名在两个时间点进行评分。

现在，由于评分是具有假设“正确”值的能力方面，因此评分者之间的绝对一致性是令人感兴趣的，而不是一致性。然而，由于评级是相隔 3 年进行的，因此能力可能已经（并且可能是）一些真正的变化。

1个回答

您打算如何解释某些评分是由同一评分者完成的事实？在我的脑海中，我想不出任何措施可以在没有始终如一的情况下考虑到这一点。毕竟，如果你将同一个评分者比较两次，你就会看到一致性。如果你比较两个评分者，你看到的是一致性。因此，当您说要评估“可靠性”时，您要评估的内容并不完全清楚。

如果您认为科目的能力水平可能发生了变化，那么考虑如何解释这一事实也很重要。你有一些黄金标准衡量标准来比较评估者吗？

因此，总而言之，在评估评估者的可靠性之前，您需要回答两个关键问题：

其它你可能感兴趣的问题