为什么使用差异^2而不是差异^4来定义标准差?

机器算法验证 数理统计 标准差 定义
2022-04-02 22:55:28

我读过一些关于为什么要接受标准的帖子。偏差及其好处,这里是其中之一:为什么要平方差而不是取标准差的绝对值?,另一个是itsols(如果我没记错的话),它在谈论为什么要平方而不是保持绝对值。标准差定义为σ=1Ni=1N(xiμ)2,  where  μ=1Ni=1Nxi. 也就是说,它是所有方差的平方,所以为什么不使用四阶甚至更高。所以定义了新的偏差:

σ=1Ni=1N(xiμ)44

它仍然会强调相对较大的偏差,并且对于连续函数在任何点都是可微的。您是否有任何其他证据表明标准差定义优于其他任何证据?

2个回答

它与矩生成函数有关。具体来说,方差定义为关于均值的二阶矩,三阶矩生成函数称为偏度。所有这些都称为形状参数,因为它们描述了分布的形状。第 4 时刻,Kurtosis (松散地)描述了分布的高度,但这并不是你正在做的。

更新- 感谢@amoeba 指出我的平均公式是错误的,它们应该是预期值而不是总和。

E[(X)]- 意思是

E[(Xμ)2]- 差异

E[(Xμ)3]- 第三时刻,导致偏斜

E[(Xμ)4]- 第四时刻,导致峰态

等等...

更新- 同样对于 @amobea 的观点,偏度和峰度需要进行额外的计算。但是,(现在)正确列出了第 3 和第 4 矩生成函数。亨利的回答更简洁,可能会提供更好的洞察力。

所以你可以做你想做的事,但你需要为它起另一个名字,因为标准偏差已经定义了。

需要明确的是,人们开始称第二个时刻为“变异”,这个名字就被卡住了。然后其他人取了它的平方根,并开始称它为标准差,然后这个名字就被卡住了。其他人说,“这是我尝试使用的一个很好的衡量标准”,所以他们写了文章/论文/等。关于标准差。

就您而言,还有其他方法可以描述分布的“传播”。标准差对许多人都熟悉的属性有直接的解释,尤其是在处理正态分布时。在我看来,说一种措施在所有情况下都优于其他所有措施,这是不恰当的。

与世界上其他所有事物一样,使用正确的工具取决于您尝试做的工作,或者在这种情况下,使用正确的方法取决于您要回答的问题。

例如,在我的工作中,人们倾向于使用 MAPE,它根本不描述分布,并且有许多自身的问题,使其不适合他们正在尝试做的事情,但每个人都有这样做已经有一段时间了,所以在可预见的未来,这可能会继续发生。这与人性有关,而不是统计数据,但也适用于您的问题(也许是最佳答案)。

最后一点:如果要求和,则需要将每个 x 乘以 x 的概率

E[(Xμ)4]=xD(xμ)4p(x)

您的 1/N 仅在 x 的每个值均等可能(即分布均匀)时才有效。

平均值在某种意义上是标准差的自然伙伴:如果你想最小化1Ni=1N(xim)2那么这是实现的m=1Ni=1Nxi. 例如,如果您有x1=1,x2=6,x3=2,那么最小值出现在m=3.

当您有其他偏离中心估计的度量时,情况并非如此。表达方式 1Ni=1N|xim|被中位数最小化,在这个例子中,当m=2.

发现m尽量减少 1Ni=1N(xim)44更难,因为它涉及求解三次方程。在这个例子中,当m3.423.

因此,如果您希望您的中心估计最小化您选择的偏差度量,并且您希望您的中心估计是平均值,那么自然偏差度量将是标准偏差或它的一些单调函数,例如方差。