也许我误解了这个问题,但你所描述的听起来像是对你的 Q 分数的重测可靠性研究。您有一系列专家,每个专家将在两次(大概是固定的时间)评估多个项目或问题。因此,基本上您可以通过计算组内相关系数(ICC)来评估判断的时间稳定性,这将使您了解可归因于受试者在观察分数的可变性中的方差(或者,换句话说,对同一主题的观察相对于对不同主题的观察的接近度)。
ICC 可以很容易地从描述测量的混合效应模型中获得yij主题的i不定期的j作为
yij=μ+ui+εij,ε∼N(0,σ2)
在哪里ui是总体均值和主题之间的差异i的平均测量值,和εij是对象的测量误差i不定期的j. 在这里,这是一个随机效应模型。与以受试者为因素的标准 ANOVA 不同,我们认为ui作为随机(iid)效应,ui∼N(0,τ2),独立于误差项。每次测量都不同于总体平均值μ由两个误差项之和,其中ui在同一主题的场合之间共享。那么总方差为τ2+σ2被试占总方差的比例为
ρ=τ2τ2+σ2
这是ICC,或从心理测量学的角度来看的可靠性指数。请注意,这种可靠性取决于样本(因为它取决于受试者之间的差异)。除了混合效应模型,我们可以从双向 ANOVA(受试者 + 时间,作为因素)和相应的均方得出相同的结果。您将在这些相关问题中找到其他参考资料:观察者之间和观察者之间的重复性和测量误差,以及序数或区间数据的评分者间可靠性。
在 R 中,您可以使用psy包中的icc()函数;上述随机截距模型对应于“协议”ICC,而将时间效应作为固定因素会产生“一致性”ICC。您还可以使用lme4包中的函数或nlme包中的函数。后者的优点是您可以轻松获得方差分量的 95% CI(使用函数)。Dave Garson 在可靠性分析和使用 SPSS、Stata、SAS 和 R 估计多级模型中提供了一个很好的概述(带有 SPSS 插图)lmer()lme()intervals()构成一个有用的教程,在教育评估中的应用。但最终参考文献是 Shrout 和 Fleiss (1979), Intraclass Correlations: Uses in Assessing Rater Reliability , Psychological Bulletin , 86(2), 420-428。
我还在 Githhub 上添加了一个示例 R 脚本,其中包括 ANOVA 和混合效应方法。
此外,如果您在第二次获取的所有值中添加一个常数值,则 Pearson 相关性将保持相同(因为它基于第一次和第二次测量值与其各自平均值的偏差),而通过计算得出的可靠性随机截距模型(或协议 ICC)会减少。
顺便说一句,Cronbach 的 alpha 在这种情况下并不是很有帮助,因为它只是衡量一维量表的内部一致性(然而,另一种形式的“可靠性”);如果它是基于不同构造的项目计算的,它将没有任何意义。即使您的问题调查的是单个域,也很难想象将这两个测量系列混合在一起,并且应该分别对每个集合计算 Cronbach 的 alpha。其相关的 95% 置信区间(由 bootstrap 计算)应该可以指示两个测试场合之间内部结构的稳定性。
作为 ICC 应用工作的一个例子,我建议
Johnson, SR, Tomlinson, GA, Hawker, GA, Granton, JT, Grosbein, HA 和 Feldman, BM (2010)。一种有效且可靠的贝叶斯先验信念引出方法。临床流行病学杂志,63(4),370-383。