机器算法验证 - 为什么不是所有测试都通过项目分析/响应理论进行评分？ - 吾爱随笔录

机器算法验证教学心理测量学潜变量

2022-03-04 14:49:32

为什么项目分析/响应理论没有得到更广泛的应用，是否有统计上的原因？例如，如果老师进行 25 个问题的多项选择测试，发现每个人都正确回答了 10 个问题，那么 10 个问题的回答率非常低（比如 10%），其余 5 个问题的回答率大约为 50% . 重新加权分数以使难题得到更多权重难道没有意义吗？

然而，在现实世界的测试中，几乎所有问题的权重都是一样的。为什么？

以下链接讨论了选择最佳问题的歧视指数和其他困难衡量标准：http: //fcit.usf.edu/assessment/selected/responsec.html

看来，计算问题区分指数的方法只是用于前瞻性的方式（例如，如果一个问题没有很好的区分，就扔掉它）。为什么不对当前人群重新加权测试？

4个回答

（你问是否有统计原因：我怀疑，但我猜测其他原因。）会不会有“移动球门柱”的呼声？学生通常喜欢在参加考试时知道每个项目的价值。例如，当他们看到一些辛勤工作的答案并没有得到太多的结果时，他们可能有理由抱怨。

许多教师和教授使用不系统的、主观的标准来评分测试。但是那些确实使用系统的人可能对将这些系统开放给特定的批评持谨慎态度——如果隐藏在更主观的方法后面，他们可以在很大程度上避免这种情况。这或许可以解释为什么项目分析和 IRT 没有得到更广泛的使用。

第一个论点与透明度有关。@rolando2已经说明了这一点。学生们想事先知道每件物品的价值。

第二个论点是，权重不仅反映了问题的难易程度，还反映了教师对问题的重视程度。事实上，考试的目的是测试和证明知识和能力。因此，教师必须事先设定不同问题和项目的权重。你不应该忘记“所有的模型都是错误的，只有一些是有用的”。在这种情况下，人们可能会对有用性产生一些怀疑。

话虽如此，我认为（或多或少花哨的）统计分析可以在事后进行，以分析结果。在那里它可以产生一些有趣的见解。现在，如果做到这一点以及做到什么程度，当然取决于教师的统计技能。

我想澄清一下原来的问题。在项目反应理论中，区分（即项目斜率或因子加载）并不表示困难。使用允许对每个项目进行不同区分的模型有效地根据它们与潜在变量的估计相关性而不是它们的难度来加权它们。

换句话说，如果估计与感兴趣的维度相当不相关，则更难的项目可能会被加权，反之亦然，如果估计高度相关，则更容易的项目可能会被加权。

我同意之前的回答，即（a）从业者缺乏对项目响应方法的认识，（b）使用这些模型需要一些技术专业知识，即使人们知道它们的优势（特别是评估项目的能力）测量模型的拟合），（c）@rolando2 指出的学生的期望，最后但并非最不重要的（d）教师可能对不同项目加权的理论考虑。但是，我确实想提一下：

并非所有项目响应理论模型都允许歧视参数的变化，其中Rasch 模型可能是最知名的模型示例，其中跨项目的歧视保持不变。在 Rasch 系列模型下，总分对于项目响应分数来说是一个足够的统计量，因此，受访者的顺序不会有差异，如果分数之间的“距离”，唯一的实际差异将被理解组被考虑。
出于理论和经验原因，有些研究人员为经典测试理论的使用（它依赖于传统使用总分或平均正确率）辩护。也许最常用的论点是，在项目反应理论下产生的分数实际上与在经典测试理论下产生的分数非常相似。例如，参见 Xu & Stone (2011) 的工作，在预测结果、教育和心理测量中使用 IRT 特征估计与总分，他们报告了在各种条件下超过 0.97 的相关性。

学生的分数不应该基于他们在考试中的知识和答案，而不是班上其他人的成绩吗？

如果您在 2 个不同年份进行了相同的测试，并且您有 2 名学生（每人 1 名）正确回答了完全相同的问题（没有作弊），那么根据其他学生的分数，他们会获得不同的分数真的有意义吗？他们班上学了吗？

就个人而言，我不想让任何学生有动力去破坏他们的同学，而不是自己学习材料。

IRT 可以对测试提供一些见解，但我不会使用它来积极衡量分数。

当我想到权重时，我认为有人应该因为答对一个难题而获得更多分数，但他们应该因为答错一个简单的问题而失去更多分。将这些结合起来，你仍然会得到相同的权重。或者我实际上尝试根据回答问题所需的时间或精力来衡量，这样以不同顺序回答问题的人在计时测试中没有优势。

其它你可能感兴趣的问题