平均绝对偏差与标准偏差

机器算法验证 分布 标准差 频率 变化性
2022-01-19 06:01:31

在Greer (1983)的教科书“O Level 的新综合数学”中,我看到平均偏差是这样计算的:

总结单个值和平均值之间的绝对差异。然后得到它的平均值。整章都使用了术语平均偏差

但我最近看到几个使用术语标准偏差的参考资料,这就是他们所做的:

计算单个值与平均值之间差异的平方。然后得到他们的平均值,最后得到答案的根源。

我在一组共同的数据上尝试了这两种方法,但它们的答案不同。我不是统计学家。我在试图教我的孩子偏差时感到困惑。

简而言之,术语标准差平均差是相同的还是我的旧教科书错了?

4个回答

两者都回答了您的值在观察平均值周围的分布范围。

低于平均值 1 的观测值与高于平均值 1 的值同样“远离”平均值。因此,您应该忽略偏差的符号。这可以通过两种方式完成:

  • 计算偏差的绝对值并将它们相加。

  • 将偏差平方并将这些平方相加。由于平方,您对高偏差给予更多的权重,因此这些平方的总和将不同于均值的总和。

在计算“绝对偏差之和”或“平方偏差之和的平方根”后,将它们平均得到“平均偏差”和“标准偏差”。

平均偏差很少使用。

今天,统计值主要由计算机程序(Excel,...)计算,不再由手持计算器计算。因此,我认为计算“平均偏差”并不比计算“标准偏差”更麻烦。尽管标准差可能具有“......使其在统计中更有用的数学特性”,但实际上它是对均值方差概念的扭曲,因为它为远离均值的数据点提供了额外的权重。这可能需要一些时间,但我希望统计学家在讨论数据点之间的分布时更频繁地使用“平均偏差”——它更准确地代表了我们对分布的实际看法。

它们都测量相同的概念,但并不相等。

你在比较1n|X一世-X¯|1n(X一世-X¯)2. 它们不相等有两个原因:

首先,平方根算子不是线性的,或者一种+b一种+b. 因此,绝对偏差之和不等于偏差平方和的平方根,即使绝对函数可以表示为平方函数后跟一个平方根:
|X一世-X¯|=(X一世-X¯)2(X一世-X¯)2
因为平方根是在计算总和后取的。

其次n现在也在标准差计算的平方根下。

尝试计算1n(X一世-X¯)2- 它应该产生与平均偏差相同的答案并帮助您理解。

首选标准差的原因是因为在以后计算变得更加复杂时,它在数学上更容易使用。

两者都通过计算数据与其平均值的距离来衡量数据的分散性。

  1. 平均绝对偏差使用范数 L1(也称为曼哈顿距离或直线距离
  2. 标准差使用范数 L2(也称为欧几里得距离

两个范数之间的区别在于,标准偏差是计算差异的平方,而平均绝对偏差只看绝对差异。因此,当使用标准偏差而不是其他方法时,较大的异常值会产生更高的离散度。欧几里得距离确实也更常用。主要原因是标准差当数据呈正态分布时具有很好的属性。所以在这个假设下,推荐使用它。然而,人们经常对实际上不是正态分布的数据进行这种假设,这会产生问题。如果你的数据不是正态分布的,你仍然可以使用标准差,但你应该小心结果的解释。

最后,您应该知道,对于 p=1 和 p=2 ,两种离散度测量都是Minkowski 距离的特例。您可以增加 p 以获得数据分散的其他度量。