我在这里很新,所以如果这不是一个合适的问题,请原谅。
我正在为学生开发一个网站,允许他们将他们的虚拟成绩单(成绩报告)上传到我们的网站,并允许我们进行各种操作(添加即将到来的作业、删除作业等),所以我们有大量的我们学校的学生信息(数千兆字节的数据)。我想知道我可以对这些信息进行什么样的统计分析。有没有更流行的统计应用程序可以用于我可以查看的此类问题?(股票?等等...)
以下是我手头有哪些信息的快速概览:
- 分配获得的积分/分配可能的积分
- 每个作业的类别
- 每个类别的权重。
- 作业名称、班级、教师
- 班级中当前的字母和数字等级。
然后,我们计算类别总数,并根据他们的作业历史和班级权重设置创建成绩历史。
我们希望做一些简单的事情,比如获取作业分数的平均值和标准差。然后我们将显示数据的用户平均值和百分位数(根据平均值/标准偏差计算,我们假设正态分布,但这是一个糟糕的假设......)。(但我认为置信区间而不是平均值会更合适,但我们将在以后完成该实现)。我们目前的最小截止值为 5,以确保用户不仅可以估计其他特定用户正在获得什么,而且还确保数据在统计上是有效的。有没有更好的方法来确定数据的截止点?我们可以用这些数据做哪些其他巧妙的事情?我觉得我们几乎没有触及表面,希望有些事情我们可以做到
另一个问题:数据并不总是新鲜的,我们只在他们上传数据时才获得数据,并且一些用户比其他用户更频繁地更新。但是,我们希望创建一个历史图表来描述班级的平均成绩历史。每次用户更新他们在更新时每个班级的成绩时,我们都会存储数据。但是,鉴于过时和不完整的数据,很难确定什么是班级平均水平。我正在考虑使用加权平均,我们将学生更新到 X 点的最后一个成绩计算出来,然后根据该分数中计入的分数在平均值中加权该点。因此,如果在成绩簿中只有 100 分时更新的学生将不如最近在成绩簿中更新为 1500 分的学生重要。有更好的方法吗?
我对统计学有初步的了解(AP 统计学应该相当于大学统计学课程的第一年)。但是我已经忘记了大部分内容,所以如果你们也可以为我简化一些事情会有所帮助。哦,我正在通过 PHP 进行编程。我正在使用 MySQL stddev() 和 avg() 函数来计算标准差和平均值。对于 1-200 df 和逆正态函数,我有一个 T-Score 列表@ 90% 的置信度。我也有一个用 PHP 编写的 2 次标准差和均值函数。
编辑 1:我将此网站定位为高中生。
编辑 2:这是我们目前所拥有的:
