如何处理我的数据?

机器算法验证 时间序列 采样 数据挖掘 参考 意思是
2022-03-31 07:57:06

我在这里很新,所以如果这不是一个合适的问题,请原谅。

我正在为学生开发一个网站,允许他们将他们的虚拟成绩单(成绩报告)上传到我们的网站,并允许我们进行各种操作(添加即将到来的作业、删除作业等),所以我们有大量的我们学校的学生信息(数千兆字节的数据)。我想知道我可以对这些信息进行什么样的统计分析。有没有更流行的统计应用程序可以用于我可以查看的此类问题?(股票?等等...)

以下是我手头有哪些信息的快速概览:

  • 分配获得的积分/分配可能的积分
  • 每个作业的类别
  • 每个类别的权重。
  • 作业名称、班级、教师
  • 班级中当前的字母和数字等级。

然后,我们计算类别总数,并根据他们的作业历史和班级权重设置创建成绩历史。

我们希望做一些简单的事情,比如获取作业分数的平均值和标准差。然后我们将显示数据的用户平均值和百分位数(根据平均值/标准偏差计算,我们假设正态分布,但这是一个糟糕的假设......)。(但我认为置信区间而不是平均值会更合适,但我们将在以后完成该实现)。我们目前的最小截止值为 5,以确保用户不仅可以估计其他特定用户正在获得什么,而且还确保数据在统计上是有效的。有没有更好的方法来确定数据的截止点?我们可以用这些数据做哪些其他巧妙的事情?我觉得我们几乎没有触及表面,希望有些事情我们可以做到

另一个问题:数据并不总是新鲜的,我们只在他们上传数据时才获得数据,并且一些用户比其他用户更频繁地更新。但是,我们希望创建一个历史图表来描述班级的平均成绩历史。每次用户更新他们在更新时每个班级的成绩时,我们都会存储数据。但是,鉴于过时和不完整的数据,很难确定什么是班级平均水平。我正在考虑使用加权平均,我们将学生更新到 X 点的最后一个成绩计算出来,然后根据该分数中计入的分数在平均值中加权该点。因此,如果在成绩簿中只有 100 分时更新的学生将不如最近在成绩簿中更新为 1500 分的学生重要。有更好的方法吗?

我对统计学有初步的了解(AP 统计学应该相当于大学统计学课程的第一年)。但是我已经忘记了大部分内容,所以如果你们也可以为我简化一些事情会有所帮助。哦,我正在通过 PHP 进行编程。我正在使用 MySQL stddev() 和 avg() 函数来计算标准差和平均值。对于 1-200 df 和逆正态函数,我有一个 T-Score 列表@ 90% 的置信度。我也有一个用 PHP 编写的 2 次标准差和均值函数。

编辑 1:我将此网站定位为高中生。

编辑 2:这是我们目前所拥有的: 模拟我们迄今为止所拥有的

2个回答

如果我可以提出一些建议:

  • 我不会实施置信区间,因为大多数学生并不真正理解它是什么。取而代之的是四分位数范围更合适

  • 大多数(?)教授将他们的成绩烹饪成正态分布,所以正态分布的存在不应该让你感到惊讶

  • 其他可能对使用该系统的学生有用的东西是一个计算器,它会告诉他们在剩余的作业和测试中他们需要什么成绩才能获得所需的最终成绩

  • 在成绩历史方面,您可能希望包括对班级人数的参考以及他们的专业、他们的先决条件成绩等基本参考点。(我在这里假设您要创建一个每次参加课程的成绩历史,而不仅仅是作业 x 与作业 y 的成绩历史。)

  • 原始分数与曲线分数也应该很有趣,但是您似乎无法访问该信息。

编辑添加评论显示数据与少数报告的公平性:

如果您不提前知道班级人数,您可以(我假设)向用户提及百分位数基于 x 个学生的报告,并且在所有学生报告之前答案不会是最终的。

不过,您所描述的系统机制对我来说似乎很奇怪。根据我作为学生的经验,教授会公布成绩分布,作为学生的你可以大致了解自己的落差。建立一个由学生完全自愿报告成绩的系统存在滥用风险。如果它是自愿的,你不能让人们参与,而且你不能让他们说出他们得到的实际成绩的真相。不过,这更像是学校政策的事情,这不是你的问题。

我看过学生的各种分数。分布通常表现出一个或多个阈值,反映了他们可能想要或必须实现的目标。即使分数不高且连续,分布也不正常,而是倾向于更高的分数。您应该测试正态性假设。至于百分位数,我会使用经验,关于上述。