项目可靠性或适合基于 IRT 的自适应测试?

机器算法验证 可靠性 心理测量学 项目反应理论
2022-03-16 13:33:12

我的背景是机器学习和统计学,但我对心理测量学和测试比较陌生。我发现的几乎所有关于项目可靠性的文献都提到了 Chronbach 的 alpha 或假设所有项目都适用于所有受试者的方法(我所看到的自适应或 IRT 模型的内容要么令人困惑,要么似乎并不适用根据我的情况)。

情况:我有一个基于 IRT 的自适应测试,包含数万个自动生成并放置在 IRT 量表上的项目(项目池也在不断变化)。考虑到成千上万的测试管理,我正在寻找一种方法来衡量这些项目的内部一致性。特别是,我有兴趣找到一种方法来识别“问题项目”或“异常值”,以便我可以将它们从项目池中删除,因为其中一些必然会弹出这么多自动生成的项目。

我使用的是 2PL IRT 模型,但您可以将其视为 1PL 模型,因为斜率参数不是特定于项目的(没有足够的数据可靠地适合所有项目),而是特定于格式(有几种不同的项目问题格式,并且有更多的数据)。

给定一组测试管理日志,是否有合理的方法来识别此类“问题项”?我能想到的最好的方法是根据 IRT 模型(作为模型最终测试分数的函数)按负对数似然对项目进行排名......但我希望找到该领域更成熟/更受欢迎的东西(如果有这样的事情)...

编辑:鉴于@philchalmers 在下面的评论,似乎衡量“项目适合/不适合”可能更符​​合我的要求。也欢迎任何关于如何确定在这种情况下不适合的项目的建议。

1个回答

项目拟合是 IRT 文献中一个非常活跃的研究领域。有一些特定的模型(即 Rasch 模型)有自己的特定项目拟合统计信息,例如infit装备(可能与您的情况有关,在每个同样区分的项目包中),以及更一般的没有依赖于严格的 Rasch 模型格式。我更喜欢后者,因为它们同样适用于 Rasch 物品。

查看 S-X2 统计数据,因为我认为它是总体上更好的测试之一,并且计算每个项目的成本相当便宜(与基于信息矩阵的测试不同)。也可以对每个项目使用 M2 统计量的变体,尽管这对于较大的测试会失控,或者使用一些较旧的两阶段方法,这需要计算人员估计并手动创建期望值箱以形成近似值χ2测试(我不推荐这种方法,尽管它在过去很受欢迎)。希望有帮助。

参考

Kang, T. & Chen, Troy, T. (2007)。对多分支 IRT 模型的广义 S-X2 项目拟合指数性能的调查。行为

Maydeu-Olivares, A. & Joe, H. 多维列联表中的有限信息拟合优度测试。心理测量学, 2006, 71, 713-732

Ranger, J. & 库恩, J.-T. 使用信息矩阵测试评估项目响应模型的拟合。教育测量学报, 2012, 49, 247-268

赖斯,SP(1990 年)。在 IRT 中评估模型数据拟合的项目拟合方法和个人拟合方法的比较。应用心理测量,14, 127-137。

Wright BD & Masters,GN 评级量表分析。台面出版社,1982