在给学生论文评分时,如何使用这些数据来校准具有不同慷慨程度的标记?

机器算法验证 教学 协议统计
2022-03-06 17:33:42

12名教师教600名学生。这些教师教授的 12 个队列的学生人数从 40 到 90 人不等,我们预计队列之间存在系统性差异,因为研究生被不成比例地分配到特定队列,而以往的经验表明,研究生的平均分数远高于本科生。

老师们对他们队列中的所有论文进行了评分,并给他们打了满分100分。

每位老师还查看了从其他三位老师中随机选择的一篇论文,并给它打了满分 100 分。每位老师都有他/她的三篇论文由另一位老师评分。因此,36 份不同的论文以这种方式被交叉标记,我称之为我的校准数据。

我还可以看到每个队列中有多少研究生。

我的问题是:

A) 我如何使用这些校准数据来调整原始标记以使它们更公平?特别是,我想尽可能地消除过度慷慨/不慷慨的制造商的影响。

B) 我的校准数据有多合适?我在本课程中获得的相当有限的 36 个校准数据数据点中没有选择,并且在本学期也没有任何选择来收集更多数据。但是,如果这种情况再次发生,我可能能够收集更多的校准数据,或者收集不同类型的校准数据。

这个问题与我提出的一个热门问题相关: 如何最好地处理具有不同慷慨程度的标记对学生论文评分的影响?. 但是,这是一门不同的课程,我不确定阅读该问题作为当前问题的背景会有多大用处,因为主要问题是我没有校准数据。

2个回答

这听起来像是使用矩阵分解推荐系统的绝佳机会简而言之,它的工作原理如下:

  • 将您的观察结果放入一个部分观察到的矩阵中,其中给学生的分数MMijij

  • 假设这个矩阵是一些潜在特征向量的外积, - 即tsMij=tisj

  • 求解最小化平方重建误差的所有观察到的单元格)。i,j(tisjMij)2M

  • 您可以通过修正的猜测并通过最小二乘法求解 \vec s,然后修正 \vec s 的猜测 vec并迭代直到收敛,来实现这种期望最大化风格。tsst

请注意,这对教师偏见的形式做出了相当强的假设——特别是,如果您将学生的潜在特征视为他们的“真实分数”,那么教师的偏见会将每个真实分数乘以一个常数(到使其相加,而不是对插入矩阵的分数求幂,然后学习“真实分数”的指数)。由于校准数据如此之少,如果不对这种形式做出强有力的假设,您可能无法走得太远,但是如果您有更多数据,则可以添加潜在特征的第二维等(即假设并再次尝试最小化平方重建误差)。Mij=k=1nsiktkj


编辑:为了有一个明确定义的问题,你需要有比潜在参数更多的矩阵运算(或者你可以使用某种正则化)。您在这里几乎没有(您有 636 个观察值和 612 个潜在参数),因此矩阵分解可能无法很好地工作——我没有在这么小的样本上使用它们,所以我真的不知道。

如果校准结果不足以使用良好的推荐模型,您可以尝试对Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(忽略校准数据)进行多级回归以提取对附加教师偏差的估计,然后检查此偏差是否与您的校准数据一致拿。(如果可能,您应该允许老师的异方差性。)这更加临时,但可能会给您带来不太严重的数据收集问题。

这是一些相关的方法。

拿一组由不止一位老师评分的论文,因为这些论文包含关于教师效应的最多信息,并且在这些论文之外,教师和队列效应是混淆的(如果有某种方法可以得到队列效应——也许是通过 GPA或其他一些预测器,例如,那么您可以使用所有数据,但这会使模型变得相当复杂)。

标记学生和标记设标记集为i=1,2,...nj=1,2,...,myij,i=1,2,...m

您首先必须考虑您的模型如何应用标记效果。是添加剂吗?是乘法吗?您是否需要担心边界效应(例如,logit 尺度上的加法或乘法效应会更好)?

想象两张纸上有两个给定的标记,并想象第二个标记更慷慨。假设第一个记号笔会给试卷 30 分和 60 分。第二个记号笔会倾向于给这两个记号加固定数量的分数(比如 6 分)吗?他们会倾向于增加恒定的百分比(比如两个都加 10%,或者 3 分对 6 分)?如果第一个标记给出 99 怎么办?——那会发生什么?那么0呢?如果第二个标记不那么慷慨怎么办?99 或 0 会发生什么?(这就是我提到 logit 模型的原因——人们可能会将标记视为可能标记的一部分(),然后标记效果可能是添加一个常数(比如说)到的 logit - 即 )。pij=mij/100plog(pij/(1pij)

(这里没有足够的数据来估计慷慨的形式及其大小。您必须根据对情况的理解来选择模型。您还需要忽略任何交互的可能性;您不需要有它的数据)

可能性 1 - 普通的加法模型。如果没有标记真的接近 0 或 100,这可能是合适的:

考虑像E(yij)=μi+τj

这本质上是一个双向方差分析。您需要对此进行约束,因此您可以设置偏差编码/设置模型,以便标记效果为 0,或者您可以设置一个模型,其中一个标记是基线(其效果为 0,您的标记为将尝试调整每个其他标记)。

然后取值并调整更广泛的标记群体τ^jykjadj=ykjτ^j

可能性 2:实际上,类似的想法,但在这里,您可能适合非线性最小二乘模型,或带有对数链接的 GLM(我可能倾向于这两个模型中的第二个)。同样,您需要对进行约束。E(yij)=μiτjτ

然后一个合适的调整是除以τj^

可能性 3:在 logit 标度上加法。如果一些分数接近 0 或 100,这可能更合适。对于非常小的分数,它看起来大致为乘法,对于中等分数,它看起来大致为乘法,而对于非常高的分数,它在中大致为乘法。您可以使用 beta 回归或带有 logit 链接的准二项式 GLM 来拟合此模型。1p=(100m)/100