启发练习的可靠性

机器算法验证 心理测量学 可靠性 引出
2022-03-22 08:25:35

我试图通过分析一些给专家的重测问题来计算启发练习中的可靠性。专家们得出了一系列概率分布,然后通过计算标准化的二次分数与真实值(稍后发现)进行比较。这些分数是我用来计算重测结果之间可靠性的值。

哪种可靠性方法在这里合适?我主要关注的是 Pearson 的相关性和 Chronbach 的 alpha(并使用这两种方法得到了一些负值),但我不确定这是正确的方法。


更新: 背景信息

这些数据是从一些学生那里收集的,他们被要求通过给出分数的概率分布来预测他们在四个选定模块中的实际考试分数。然后在以后重复一个模块(因此是重测练习)。

一旦参加考试并获得实际结果,就会计算出标准化的二次分数。这些分数是适当的评分规则,用于将评估的概率分布与可能在稍后阶段知道的观察数据进行比较。

概率得分Q定义为:

二次分数 http://img717.imageshack.us/img717/9424/chart2j.png

其中k是引发概率的总数,j是真实结果。

我的问题是,在评估重复模块分数之间的可靠性时,哪种可靠性方法更合适?我计算了 Pearson 的相关性和 Chronbach 的 alpha(并使用这两种方法得到了一些负值),但可能有更好的方法。

2个回答

也许我误解了这个问题,但你所描述的听起来像是对你的 Q 分数的重测可靠性研究。您有一系列专家,每个专家将在两次(大概是固定的时间)评估多个项目或问题。因此,基本上您可以通过计算组内相关系数(ICC)来评估判断的时间稳定性,这将使您了解可归因于受试者在观察分数的可变性中的方差(或者,换句话说,对同一主题的观察相对于对不同主题的观察的接近度)。

ICC 可以很容易地从描述测量的混合效应模型中获得yij主题的i不定期的j作为

yij=μ+ui+εij,εN(0,σ2)

在哪里ui是总体均值和主题之间的差异i的平均测量值,和εij是对象的测量误差i不定期的j. 在这里,这是一个随机效应模型。与以受试者为因素的标准 ANOVA 不同,我们认为ui作为随机(iid)效应,uiN(0,τ2),独立于误差项。每次测量都不同于总体平均值μ由两个误差项之和,其中ui在同一主题的场合之间共享。那么总方差为τ2+σ2被试占总方差的比例为

ρ=τ2τ2+σ2

这是ICC,或从心理测量学的角度来看的可靠性指数。请注意,这种可靠性取决于样本(因为它取决于受试者之间的差异)。除了混合效应模型,我们可以从双向 ANOVA(受试者 + 时间,作为因素)和相应的均方得出相同的结果。您将在这些相关问题中找到其他参考资料:观察者之间和观察者之间的重复性和测量误差,以及序数或区间数据的评分者间可靠性

在 R 中,您可以使用psy包中的icc()函数;上述随机截距模型对应于“协议”ICC,而将时间效应作为固定因素会产生“一致性”ICC。您还可以使用lme4包中的函数或nlme中的函数后者的优点是您可以轻松获得方差分量的 95% CI(使用函数)。Dave Garson 在可靠性分析使用 SPSS、Stata、SAS 和 R 估计多级模型中提供了一个很好的概述(带有 SPSS 插图)lmer()lme()intervals()构成一个有用的教程,在教育评估中的应用。但最终参考文献是 Shrout 和 Fleiss (1979), Intraclass Correlations: Uses in Assessing Rater Reliability , Psychological Bulletin , 86(2), 420-428。

我还在 Githhub 上添加了一个示例 R 脚本,其中包括 ANOVA 和混合效应方法。

此外,如果您在第二次获取的所有值中添加一个常数值,则 Pearson 相关性将保持相同(因为它基于第一次和第二次测量值与其各自平均值的偏差),而通过计算得出的可靠性随机截距模型(或协议 ICC)会减少。

顺便说一句,Cronbach 的 alpha 在这种情况下并不是很有帮助,因为它只是衡量一维量表的内部一致性(然而,另一种形式的“可靠性”);如果它是基于不同构造的项目计算的,它将没有任何意义。即使您的问题调查的是单个域,也很难想象将这两个测量系列混合在一起,并且应该分别对每个集合计算 Cronbach 的 alpha。其相关的 95% 置信区间(由 bootstrap 计算)应该可以指示两个测试场合之间内部结构的稳定性。

作为 ICC 应用工作的一个例子,我建议

Johnson, SR, Tomlinson, GA, Hawker, GA, Granton, JT, Grosbein, HA 和 Feldman, BM (2010)。一种有效且可靠的贝叶斯先验信念引出方法临床流行病学杂志,63(4),370-383。

如果你不知道真实值,你会使用 Cronbach alpha,但如果你知道真实值,那么使用 Cronbach alpha 似乎有点毫无意义。Pearson 相关性的使用似乎也有点奇怪,因为您实际上并没有成对的值集。我建议使用类似Mean Squared Error (MSE)的东西。假设您有 N 个专家,并且专家 i 的预期估计由下式给出θi^你的真正价值是θ. 然后,

MSE=i(θi^θ)2N