机器算法验证 - 在给学生论文评分时，我如何才能最好地处理具有不同慷慨程度的标记的影响？ - 吾爱随笔录

在给学生论文评分时，我如何才能最好地处理具有不同慷慨程度的标记的影响？

机器算法验证协议统计

2022-03-10 07:53:31

大约 600 名学生在一项广泛的评估中获得分数，可以假定其具有良好的信度/效度。考核满分100分，为计算机评分的多项选择题。

这 600 名学生在第二次、次要的评估中也有分数。在第二次评估中，他们被分成 11 个小组，有 11 名不同的评分者，评分者之间在评分方面的“慷慨”或缺乏程度方面存在很大程度的差异，这是不受欢迎的。这第二次评估也是满分 100 分。

学生没有被随机分配到队列中，并且有充分的理由预期队列之间的技能水平存在差异。

我的任务是确保第二个作业中的队列标记之间的差异不会对个别学生产生实质性的优势/劣势。

我的想法是让第二次评估的队列分数与第一次评估的队列分数保持一致，同时保持队列内的个体差异。我们应该假设我有充分的理由相信这两项任务的表现将是高度相关的，但这些标记的慷慨程度却有很大差异。

这是最好的方法吗？如果不是，那是什么？

如果回答者可以提供一些关于如何实施良好解决方案的实用技巧，例如在 R 或 SPSS 或 Excel 中，将不胜感激。

4个回答

知道评分者的不同是很好的，但仍然不能告诉你用什么来补偿评分。为简单起见，想象一下只有两个分级员。即使我们得出结论，1 年级学生始终比 2 年级学生慷慨 5 分，但这并不能告诉你如何处理两名分别为 70 分的学生，一名被 1 年级学生评分，一名被 2 年级学生评分。我们是否说 2 年级学生是一个苛刻的标记，并将 70 提高到 75，同时保持 1 级学生标记的 70 不变？或者我们是否假设一年级学生过于宽容，将他的学生降低到 65 分，并保持 2 年级学生的 70 分不变？基于 11 年级学生的平均水平，我们是否会在中间妥协 - 扩展到您的案例？重要的是绝对成绩，所以知道相对慷慨是不够的。

你的结论可能取决于你觉得最终的绝对分数应该有多“客观”。一种心智模型是建议每个学生都有一个“正确”的成绩——如果他们有时间单独标记每篇论文，则由首席评估员授予该成绩——观察到的成绩是近似值。在此模型中，观察到的成绩需要对其评分者进行补偿，以使他们尽可能接近未观察到的“真实”成绩。另一个模型可能是所有评分都是主观的，我们试图将每个观察到的评分转化为我们预测的分数，如果所有评分者都考虑过同一篇论文并为此达成某种妥协或平均分数，那么它会被授予。我发现第二种模型作为一种解决方案不太令人信服，即使承认主观性更现实。在教育环境中，通常有人对评估负有最终责任，以确保学生获得“他们应得的成绩”，但这个领导角色基本上免除了我们已经知道明显不同意的评分者的责任。从这里我假设那里是我们旨在估计的一个“正确”等级，但这是一个有争议的命题，可能不适合您的情况。

假设学生 A、B、C 和 D，都在同一个队列中，“应该”分别被评为 75、80、85 和 90，但他们慷慨的评分者始终将 5 分打得太高。我们观察到 80、85、90 和 95，应该减去 5，但是找到要减去的数字是有问题的。这不能通过比较群组之间的结果来完成，因为我们预计群组的平均能力会有所不同。一种可能性是使用多项选择测试结果来预测第二个作业的正确分数，然后使用它来评估每个评分者和正确分数之间的差异。但做出这个预测并非易事——如果您预计两次评估之间存在不同的均值和标准差，您不能只假设第二次评估的成绩应该与第一次相匹配。

此外，学生在多项选择和书面评估中的相对能力也不同。您可以将其视为某种随机效应，形成学生“观察到的”和“真实”成绩的一个组成部分，但不会被他们的“预测”成绩捕获。如果队列系统地不同并且队列中的学生往往相似，那么我们不应该期望这种效应在每个队列中平均为零。如果一个队列的观察成绩与他们的预测成绩相比平均+5，这是不可能的以确定这是否是由于一个慷慨的评分者，一个比多项选择更适合书面评估的队列，还是两者的某种组合。在极端情况下，该队列甚至可能在第二次评估中具有较低的能力，但由一个非常慷慨的评分者弥补了这一点 - 反之亦然。你不能把它分开。它很困惑。

我也怀疑这种简单的加法模型是否适合您的数据。评分者可能与首席评估者的不同之处不仅在于位置的变化，还在于分布 - 尽管由于同类群组的同质性可能不同，您不能仅检查每个群组中观察到的成绩的分布来检测这一点。此外，大部分分布都有很高的分数，相当接近理论最大值 100。我预计这会由于接近最大值的压缩而引入非线性 - 一个非常慷慨的评分者可能会给出 A、B、C 和 D 标记，例如85、90、94、97。这比仅仅减去一个常数更难逆转。更糟糕的是，您可能会看到“剪裁”——一个非常慷慨的评分者可能会将它们评分为 90、95、100、100。这是不可能的反转，有关 C 和 D 的相对性能的信息将不可恢复地丢失。

你的评分者的行为非常不同。您确定他们的区别仅在于整体的慷慨程度，而不是在评估的各个组成部分的慷慨程度？这可能值得检查，因为它可能会引入各种复杂情况 - 例如，尽管 B 为 5 分“更好”，但观察到的 B 成绩可能比 A 差，即使评分者为每个组件分配的分数是单调递增函数首席评估员的！假设评估分为 Q1（A 应该得分 30/50，B 45/50）和 Q2（A 应该得分 45/50，B 35/50）。想象一下评分者在 Q1 上非常宽松（观察到的成绩：A 40/50，B 50/50）但对 Q2 很苛刻（观察到：A 42/50，30/50），那么我们观察到 A 和 80 的总分B. 如果你必须考虑组件分数，

可以说这是一个扩展的评论而不是一个答案，因为它没有在你的问题的原始范围内提出一个特定的解决方案。但是，如果您的评分员每人已经处理了大约 55 份试卷，那么为了校准目的而不得不再看 5 份或 10 份试卷对他们来说是不是很糟糕？您已经对学生的能力有了很好的了解，因此可以从各个年级的试卷中挑选一份样本。然后，您可以评估是否需要在整个测试或每个组件中补偿评分者的慷慨，以及是否仅通过添加/减去常数或更复杂的方法（例如插值）来这样做（例如，如果您担心非线性度接近 100）。但请注意插值：假设首席评估员将五篇样本论文标记为 70、75、80、85 和 90，评分者将它们标记为 80、88、84、93 和 96，因此对于顺序存在一些分歧。您可能希望将 96 到 100 的观察成绩映射到 90 到 100 的区间，并将 93 到 96 的观察成绩映射到 85 到 90 的区间。但低于此的分数需要考虑一下。也许从 84 到 93 的观察成绩应该映射到 75 到 85 的区间？另一种方法是（可能是多项式）回归，以从“观察到的成绩”中获得“预测的真实成绩”的公式。也许从 84 到 93 的观察成绩应该映射到 75 到 85 的区间？另一种方法是（可能是多项式）回归，以从“观察到的成绩”中获得“预测的真实成绩”的公式。也许从 84 到 93 的观察成绩应该映射到 75 到 85 的区间？另一种方法是（可能是多项式）回归，以从“观察到的成绩”中获得“预测的真实成绩”的公式。

一个非常简单的模型：

让 $s_{1,i}$ 成为学生的分数 $i$ 在测试 1 中，和 $s_{2,i}$ 他在测试 2 中的分数。让 $A_1, \ldots, A_p$ 是学生在原始队列中的划分。

每个队列都因其学生的实力和评分者的容易程度而有所偏差。假设这是一个加法效应，我们通过以下方式退出它：我们将减去第一次测试中同类群组的平均分数，并添加第二次测试中同类群组的平均分数。

我们计算调整后的分数 $s'_1$ 如下

\forall j \leq p, \forall i \in A_{j}, s_{1, i}^{'} = s_{1, i} - \frac{1}{| A_{j} |} \sum_{i \in A_{j}} (s_{1, i} - s_{2, i})

$\forall j \leq p, \forall i \in A_j, s'_{1,i} = s_{1,i} - \frac{1}{|A_j|} \sum_{i \in A_j} ( s_{1,i} - s_{2,i} )$

最后，形成最终分数 $s$ 使用您认为合适的权重

\forall i, s_{i} = α s_{1, i}^{'} + (1 - α) s_{2, i}

$\forall i, s_i = \alpha s'_{1,i} + (1-\alpha) s_{2,i}$

不利的一面是，如果同组中的人碰巧在第二次考试中不走运，个别学生可能会受到处罚。但任何统计技术都会带来这种潜在的不公平缺点。

你不能。至少，在不收集额外数据的情况下并非如此。要了解原因，请阅读@whuber 在此线程中的众多好评评论。

重新表述问题：如何最好地设置考试的两部分分数，条件是由于委托标记的定性评估范围，第二部分暴露在更大的不确定性中。

其中： Master Tester = 考试负责人 Delegated Tester = 被分配到考试中标杆 2 的人（11 人中的 1 人）学生 = 获得参加考试乐趣的人

目标包括： A) 学生获得反映他们工作的分数 B) 管理第二部分的不确定性以符合主测试员的意图

建议的方法（答案）： 1. Master Tester 随机选择一组具有代表性的考试样本，标记第 2 部分并与第 1 部分建立相关性 2. 利用相关性评估所有委托标记的数据（第 1 部分vs #2 分数） 3. 如果相关性与主测试者显着不同 - 对主测试者来说是可接受的重要性 - 以主测试者的身份检查考试以重新分配结果。

这种方法可确保主测试人员对相关性和可接受的重要性负责。相关性可以很简单，就像第 1 部分与第 2 部分的分数或第 1 与第 2 部分测试问题的相对分数一样简单。

主测试人员还将能够根据相关性的“橡胶性”为第 2 部分设置结果质量。

其它你可能感兴趣的问题

上一篇混沌理论在数据挖掘中的已知实际应用有哪些？下一篇将泊松分布转换为正态分布