一组平均值的平均值是否总是与从整个原始数据集获得的平均值相同?

机器算法验证 数理统计 加权平均数 意思是
2022-01-18 14:18:32

如果我已经计算了 4 个数据集(确实有不同的样本量)的平均值,那么我可以通过计算“平均值的平均值”来获得“整体平均值”吗?如果是,这个“平均值”是否与我将所有 4 组的数据合并然后计算平均值一样?

4个回答

不,子集的平均值与整个集合的平均值不同。只有当子集的样本量相同时,它才会是相同的值。如果您想要总体的平均值,请将每个平均值乘以它来自的样本大小以获得总体总数,然后除以数据点的总数(总体大小)。

请参阅辛普森悖论的击球平均值示例,以很好地说明为什么平均平均值通常不起作用。

让我们尝试一下,看看我们是否能解决这个问题。以下示例是在 中编码的R,它是免费的,可以让您重现该示例,但希望代码是不言自明的:

group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
#  2
mean(group2)
#  6.5
mean(c(group1, group2))
#  5
mean(c(mean(group1), mean(group2)))
#  4.25

所以我们看到的是,你当然可以计算均值,但是均值的均值和所有原始数据的均值不匹配。我们还可以使用@BilltheLizard 的建议尝试加权平均,以使用每个组的样本量作为权重(权重由参数指示w):

weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
#  5

这现在给了我们同样的答案。

一般来说,如果你有一组m具有各自大小的组n1,...,nm和手段x¯1,...,x¯m那么所有数据的总体样本平均值为:

x¯=k=1mnknx¯kn=i=1mnk.

因此,总体平均值始终是各组样本平均值的加权平均值在所有组大小相同的特殊情况下(n1==nm),所有的权重都是相同的,因此,整体样本均值将是组样本均值的均值。

只想举一个(极端的)例子:如果一个样本的命中率为(1/10000),另一个例子的命中率为(1/2),那么hititotalihititotali. 在第一种情况(均值)中,我们的“平均”命中率为 0.5001/2,而在第二种情况(总均值)中,我们有 3/10003,这两个数字不相同。哪个更合适或更正确取决于您的用例。