我的背景是机器学习和统计学,但我对心理测量学和测试比较陌生。我发现的几乎所有关于项目可靠性的文献都提到了 Chronbach 的 alpha 或假设所有项目都适用于所有受试者的方法(我所看到的自适应或 IRT 模型的内容要么令人困惑,要么似乎并不适用根据我的情况)。
情况:我有一个基于 IRT 的自适应测试,包含数万个自动生成并放置在 IRT 量表上的项目(项目池也在不断变化)。考虑到成千上万的测试管理,我正在寻找一种方法来衡量这些项目的内部一致性。特别是,我有兴趣找到一种方法来识别“问题项目”或“异常值”,以便我可以将它们从项目池中删除,因为其中一些必然会弹出这么多自动生成的项目。
我使用的是 2PL IRT 模型,但您可以将其视为 1PL 模型,因为斜率参数不是特定于项目的(没有足够的数据可靠地适合所有项目),而是特定于格式(有几种不同的项目问题格式,并且有更多的数据)。
给定一组测试管理日志,是否有合理的方法来识别此类“问题项”?我能想到的最好的方法是根据 IRT 模型(作为模型最终测试分数的函数)按负对数似然对项目进行排名......但我希望找到该领域更成熟/更受欢迎的东西(如果有这样的事情)...
编辑:鉴于@philchalmers 在下面的评论,似乎衡量“项目适合/不适合”可能更符合我的要求。也欢迎任何关于如何确定在这种情况下不适合的项目的建议。