当班级人数不等时寻找均值

机器算法验证 自习 意思是
2022-03-16 02:23:49

一位班主任的学生缺勤记录如下:

No. of days         0-6    6-10  10-14   14-20   20-28   28-30  38- 40    
No. of students      11     10      7      4        4      3      1

没有什么意思。学生缺席的天数?由于班级人数不同,我无法理解。

更新

在前 2 个答案中,作者在课堂上都假设了对称性,因此他们正在采用均值并找到最终的“加权均值”(如果该术语错误,请纠正我)。但是,假设这个假设不成立,那么解决这个问题的最佳方法是什么?

4个回答

学生人数:

11+10+7+4+4+3+1 = 21+11+8 = 40

所有学生缺勤天数:

 (0+6)/2*11+(6+10)/2*10+(10+14)/2*7+(14+20)/2*4+
 (20+28)/2*4+(28+30)/2*3+(38+40)/2*1 = 487

每名学生的平均缺勤天数:

(Total number of absent days) / ( Number of students) = 487 / 40 = 12.175

因此,每个学生的平均缺勤天数约为 12。

但正如亨利所指出的:你们的组是重叠的,即:不清楚学生属于哪个组,谁有 6 天缺勤或 10 天缺勤。正如 Max 所说,我们假设每个班级缺勤天数的分布关于班级的中点是对称的。这意味着,例如,在课堂上

6-10

在有 10 名学生的情况下,预计每个学生都有

(6+10)/2 = 8 

缺席天数

这个问题的重点是表明并非所有均值都需要均匀加权才能相加。它可能会在最终答案中失去一些粒度,但估计仍然成立。在某些方面,您可以将其视为手段的一种手段。

所以理论是:

class mean = sum(mean(range_of_days_absent) * number_of_students_for_that_day_range) ) / 
             total_number_of_students

开始示例:

mean of group 1 = mean(0-6) = 3
mean of group 2 = mean(6-10) = 8
etc...

number of students in group 1 = 11
number of students in group 2 = 10
etc...

所以要解决你的问题:

answer = (3) * (11) + (8) * (10) ...  / the_total_number_of_students

变成:

(3*11 + 8*10 + 12*7 + 17*4 + 24*4 + 29*3 + 39*1) / 40 = 487 / 40 = 12.175 days

更新

虽然从技术上讲,平均值只是一个“加权”中位数 - 这是另一种方法 - 每个学生都属于一个类别,而您正在寻找最佳类别。

e.g. day range 0-6 is Labeled Group A, day range 6-10 is Labeled Group B... 

Using this approach, you essentially find the median student
11*A + 10*B + 7*C + 4*D + 4*E + 3*F + 1*G

The median group is group B, which is 6-10 days and the mean/median number of days in group B, is 8 days.

请注意,在这种方法中,包含 F 组和 G 组的长尾是如何被忽略的,预期平均值从 ~12 天变为 8 天。

使用的方法与用于等间隔的连续分组数据的方法相同。首先,我们将找到每个区间的等级标记等于下限+上限除以2。然后我们将频率乘以它们各自的等级标记。Will 将添加所有这些产品并将它们除以总频率。我们明白了。

您的示例中类的重叠有点令人困惑,所以我将使用一些稍微修改的值

No. of days         0-5    6-9  10-13   14-19   20-27   28-30  38- 40    
No. of students      11     10      7       4       4       3       1

该问题的近似值,不假设您所说的类内对称,将是缺席的天数遵循几何分布

P(X=k)=(1p)kp

作为第一个近似值,我们假设一个类中的每个值都以相同的概率出现。例如,观察到 0 个缺席天数次。116

的最大似然估计p

p^=nn+i=1nki=4040+0116+1116++3913+4013=0.0786
使用这个值,我们现在可以返回并更正因为我们假设一个类中的每个值都以相同的概率出现。对于类,我们有 由于该类中的观察总数为 11,我们得到的预期观察次数为p05
P(X=0)=(1p)0p=0.0786P(X=1)=(1p)1p=0.0724P(X=2)=0.0667P(X=3)=0.0615P(X=4)=0.0566P(X)=5)=0.0522
k=0

110.07860.0786+0.0724+0.0667+0.0615+0.0566+0.0522=2.228

对于,发现预期均值是其余课程类似。如果我们随后更新 p 的最大似然估计我们得到这可以重复直到收敛。的收敛值,我们就可以得到几何分布的平均值k={1,2,3,4,5}{2.053,1.891,1.743,1.606,1.48}pp^=0.0797p

1p1