机器算法验证 - 如何公平地确定区域科学博览会的获奖者？ - 吾爱随笔录

如何公平地确定区域科学博览会的获奖者？

机器算法验证数据转换标准差评分

2022-03-10 06:58:31

我需要帮助找出计算科学博览会获胜者的正确方法。我不希望我对统计和数学的无知妨碍孩子获胜的机会。（许多奖学金和晋升福利受到威胁）。在此先感谢您的帮助。

首先是我们如何设置的一些背景：

我们的展会通常有大约 600 个学生项目。这些项目由个别学生或学生团队完成和展示。一个团队可以由 2 或 3 个孩子组成。

学生分为两个部门：小学（6-8 年级）和中学（9-12 年级）。每个部门都有不同的类别：小学项目有 9 个类别，中学项目项目有 17 个类别。

每个部门的每个类别都授予一、二、三等奖。荣誉奖也颁发给超过第三名的展示位置。

对于每个项目，我们分配 4 到 6 名评委。我们根据评委的资格、他们的类别偏好和他们过去的评判经验来分配我们的任务。（更有经验的被分配到高级部门项目）。

评委如何为项目评分：

对于每个项目，有 5 个标准分配了分数。每个标准可以在 1 到 20 分之间授予。一般标准是：

总体目标+假设+资源使用（1..20）
设计+程序（1..20）
数据收集+结果（1..20）
讨论+结论（1..20）
面试（1..20）

对于团队项目，第六个标准被称为“团队扣分”，裁判可以为没有参与或没有出现的队友扣分（最多 15分）。

团队扣除（0..-15）

因此，法官可以为每个项目评分 5 到 100 分。如果项目是团队项目，分数可以减少 15 分。

原始数据：

在几个小时的过程中，我们从评委那里收集了多达 3,600 个分数。这些分数被输入到数据库中，我可以在其中进行各种排序、平均、标准差计算等。我只是不知道我应该如何处理这些原始分数。现在，我正在为每个项目做一个简单的平均，但我担心我没有调整法官的偏见、团队扣除或任何其他我没有考虑的事情。

期望的结果：

最后，我想对分数进行处理，以便我可以为每个类别颁发一、二、三等奖的项目，然后为后面的地方颁发荣誉奖。我想确信这些位置是正确计算的，获胜的孩子应该得到认可（和奖品）。

非常感谢您阅读我的长问题并帮助您解决这个问题。我很乐意回答您可能提出的任何后续问题。

1个回答

我认为“答案”对于我在这里的想法来说可能过于慷慨了。我喜欢探索性数据分析，而且我是箱线图的忠实粉丝，所以这将反映在我的评论中。

你好，分数很高。:) 听起来，在 600 个项目中，您至少有 78 个项目进入前 3 ( [9+17]x3) 名以及荣誉奖。通常我会说从每个类别的顶部和中间进行抽样以进行评分审计，但由于你拥有的数字，这对你来说将是非常繁重的——而且只是你最终确定了评分。:)

我希望您可以使用统计数据包，因为我有一些您可以在下面使用的建议。

您是否查看过每个类别中分数的分布？前 3、5 或 8 个项目的分数是否非常接近？这表明项目的质量非常相似，无论您做什么，都可能至少会感觉到最终分数的任意性。

我不确定每个评委评分多少项目。假设他们得分一个合理的数字（比如 >10，虽然这里越高越好），对于每个评委，您可以计算他们评估的每个项目的总分的中位数和四分位数范围（您有这么多属性，可能不是值得单独查看它们中的每一个）。是否有任何评委似乎给出了特别高的分数，或者特别低的分数？是否有任何评委似乎一直在中间评分，所以他们可能给 10 分，这可以通过一个相对较小的四分位数范围和可能值范围中间的总分中位数来显示。

对于团队项目，您可以将他们基于总分的排名与应用团队扣除后的排名进行比较。团队扣除是否会影响原本排在前 3 名的团队？

这些只是帮助您入门的建议。我认为将这些数据可视化可以为您提供一些关于排名是否公平的良好指标。

更新：这是您遇到的一个有趣的难题。听起来每个评委都没有评估足够多的项目让我们能够为每个评委提出一个加权因子（考虑到评委的偏见），因为我们没有足够的数据来衡量- 评委之间的评分者可靠性，没有足够的重叠让评委在相同项目上评分来做到这一点。您是否查看了前几个项目的得分范围 - 它们与得分较低的项目（自然边界？）之间是否存在明显差异，得分最高的项目有多接近？

出于好奇，评委们是否给出了评分标准，因此他们在如何给每个标准打分方面几乎没有灵活性（例如，提供零假设给 1 分，提供一个或多个替代假设给 1 分......）或他们是否只知道他们可以奖励的总积分数，而其余的则由他们自己决定？如果他们有评分指南，我会更有信心分数是相当准确的。

其它你可能感兴趣的问题

上一篇使用一个主要预测变量进行分类下一篇裂裂区设计和 lme