参与者被评分两次,两次评分相隔 3 年。对于大多数参与者来说,评分是由不同的评分者完成的,但对于一些(< 10%),相同的评分者进行了两种评分。共有 8 名评分者,其中 2 名在两个时间点进行评分。
现在,由于评分是具有假设“正确”值的能力方面,因此评分者之间的绝对一致性是令人感兴趣的,而不是一致性。然而,由于评级是相隔 3 年进行的,因此能力可能已经(并且可能是)一些真正的变化。
- 在这种情况下,最好的可靠性测试是什么?
- 我倾向于类内相关性,但 ICC1 是我能用这些数据做的最好的吗?
参与者被评分两次,两次评分相隔 3 年。对于大多数参与者来说,评分是由不同的评分者完成的,但对于一些(< 10%),相同的评分者进行了两种评分。共有 8 名评分者,其中 2 名在两个时间点进行评分。
现在,由于评分是具有假设“正确”值的能力方面,因此评分者之间的绝对一致性是令人感兴趣的,而不是一致性。然而,由于评级是相隔 3 年进行的,因此能力可能已经(并且可能是)一些真正的变化。
您打算如何解释某些评分是由同一评分者完成的事实?在我的脑海中,我想不出任何措施可以在没有始终如一的情况下考虑到这一点。毕竟,如果你将同一个评分者比较两次,你就会看到一致性。如果你比较两个评分者,你看到的是一致性。因此,当您说要评估“可靠性”时,您要评估的内容并不完全清楚。
如果您认为科目的能力水平可能发生了变化,那么考虑如何解释这一事实也很重要。你有一些黄金标准衡量标准来比较评估者吗?
因此,总而言之,在评估评估者的可靠性之前,您需要回答两个关键问题: