在新人群中验证问卷

机器算法验证 民意调查 验证 心理测量学 规模建设
2022-03-19 16:12:53

我有 400 份对 20 项问卷的回复,该问卷旨在衡量医学生的态度构成。该仪器在美国经过一年的医学生验证,公布的数据非常“干净”——所有 ritc 值 >0.3,alpha 0.84,具有稳定四因子结构的 PCA 等。在我的样本中,我发现了 5 个20 项 ritc<0.2 且在文化亚群 (n=70) 中,这些 ritc 值为零/负。如果我保留所有项目,那些 ritc 较差的项目要么不加载任何因素,要么分类为 2 项目因素(因素 4)。我假设(并且想调查)这是由于(i)一个小的文化亚群,其结构可能未被很好地捕获,或 (ii) 因为我在项目的所有阶段都收到了学生的反馈,并且量表项目未能很好地捕捉到该结构的发展方面。是否有统计测试可以让我对此进行调查?

是否应该从量表中删除带有 ritc 的项目?如果是,我应该从最低的开始按顺序执行此操作,我应该在什么时候停止删除项目/我是否从问卷中丢失了一些东西?如果我想比较主要和次要亚群之间的量表因子结构,我该如何尝试,或者次要子样本太小而无法得出结论?任何参考将不胜感激。

最后,验证量表的目的是使用它来使用干预前后的分数来确定干预的有效性——如果一个项目的 ritc 较低,我认为它可能会影响实验环境中量表的可靠性,还是我不正确?是否有任何统计方法来确定设计用于测量具有发展方面的结构的量表的效用 - 即所有项目是否在学生发展“更多”态度结构时适当地发挥作用?

1个回答

@suzi Rasch 分析所基于的属性之一是度量对子组是不变的。此属性支持计算机自适应测试和测试等化的开发。如果测量的这种不变性在总体中成立,则不存在差异项目功能(DIF)。为了帮助您处理样本,您可以对每个子组运行 Rasch 分析,并比较每个子组的每个项目的项目功能。如果项目测量的差异超过 0.50 logits(或大于测量的 95% 置信区间),则存在 DIF 并且项目不是不变的。只要你的小组有不少于 70 个科目,你应该没问题。

一篇关于应用这一原则的优秀论文是“Rasch Fit Statistics as a Test of the Invariance of Item Parameter Estimates”,Smith, Richard M. 和 Suh, Kyunghee,Journal of Applied Measurement 4(2) 153-163。

如评论中所述,这是一个很大的领域,您可能需要帮助。如果可以发表论文,您可以通过Rasch SIG寻求帮助。软件将包括 Winsteps、Facets、RUMM、eRm 和 R 中的其他程序。

希望这可以帮助。