机器算法验证 - 项目可靠性或适合基于 IRT 的自适应测试？ - 吾爱随笔录

项目可靠性或适合基于 IRT 的自适应测试？

机器算法验证可靠性心理测量学项目反应理论

2022-03-16 13:33:12

我的背景是机器学习和统计学，但我对心理测量学和测试比较陌生。我发现的几乎所有关于项目可靠性的文献都提到了 Chronbach 的 alpha 或假设所有项目都适用于所有受试者的方法（我所看到的自适应或 IRT 模型的内容要么令人困惑，要么似乎并不适用根据我的情况）。

情况：我有一个基于 IRT 的自适应测试，包含数万个自动生成并放置在 IRT 量表上的项目（项目池也在不断变化）。考虑到成千上万的测试管理，我正在寻找一种方法来衡量这些项目的内部一致性。特别是，我有兴趣找到一种方法来识别“问题项目”或“异常值”，以便我可以将它们从项目池中删除，因为其中一些必然会弹出这么多自动生成的项目。

我使用的是 2PL IRT 模型，但您可以将其视为 1PL 模型，因为斜率参数不是特定于项目的（没有足够的数据可靠地适合所有项目），而是特定于格式（有几种不同的项目问题格式，并且有更多的数据）。

给定一组测试管理日志，是否有合理的方法来识别此类“问题项”？我能想到的最好的方法是根据 IRT 模型（作为模型最终测试分数的函数）按负对数似然对项目进行排名......但我希望找到该领域更成熟/更受欢迎的东西（如果有这样的事情）...

编辑：鉴于@philchalmers 在下面的评论，似乎衡量“项目适合/不适合”可能更符合我的要求。也欢迎任何关于如何确定在这种情况下不适合的项目的建议。

1个回答

项目拟合是 IRT 文献中一个非常活跃的研究领域。有一些特定的模型（即 Rasch 模型）有自己的特定项目拟合统计信息，例如infit和装备（可能与您的情况有关，在每个同样区分的项目包中），以及更一般的没有依赖于严格的 Rasch 模型格式。我更喜欢后者，因为它们同样适用于 Rasch 物品。

查看 S-X2 统计数据，因为我认为它是总体上更好的测试之一，并且计算每个项目的成本相当便宜（与基于信息矩阵的测试不同）。也可以对每个项目使用 M2 统计量的变体，尽管这对于较大的测试会失控，或者使用一些较旧的两阶段方法，这需要计算人员估计并手动创建期望值箱以形成近似值 $\chi^2$ 测试（我不推荐这种方法，尽管它在过去很受欢迎）。希望有帮助。

参考

Kang, T. & Chen, Troy, T. (2007)。对多分支 IRT 模型的广义 S-X2 项目拟合指数性能的调查。行为

Maydeu-Olivares, A. & Joe, H. 多维列联表中的有限信息拟合优度测试。心理测量学, 2006, 71, 713-732

Ranger, J. & 库恩, J.-T. 使用信息矩阵测试评估项目响应模型的拟合。教育测量学报, 2012, 49, 247-268

赖斯，SP（1990 年）。在 IRT 中评估模型数据拟合的项目拟合方法和个人拟合方法的比较。应用心理测量，14, 127-137。

Wright BD & Masters，GN 评级量表分析。台面出版社，1982

其它你可能感兴趣的问题

上一篇使用二项式数据与连续数据时的功率下一篇零售环境中实验设计和分析的指南/教程