为什么在标准偏差公式中对样本计数“N”取平方根?

机器算法验证 标准差
2022-03-14 13:51:00

我试图理解标准偏差的一个非常基本的概念。

从公式σ=i=1n(xiμ)2N

我不明白为什么我们应该将人口“N”减半,即为什么我们要在没有做 } ?这不会扭曲我们正在考虑的人口吗?NN2

公式不应该是σ=i=1n(xiμ)2N

4个回答

您试图找到与平均值的“典型”偏差。

方差是“与平均值的平均平方距离”。

标准差是它的平方根。

这使它成为与平均值的均方根偏差。

  1. 为什么我们要使用平均平方偏差?是什么让方差变得有趣?除其他外,由于 关于方差的基本事实- 不相关变量之和的方差是各个方差的总和。(这在许多问题中都有涉及,例如 在 CrossValidated 上。这个方便的功能不共享,例如,平均绝对偏差。
  2. 为什么要取平方根?因为那时它与原始观测值的单位相同。它从平均值测量一种特定的“典型距离”(如前所述,RMS 距离) - 但由于上述方差特性 - 具有一些不错的特征。

标准差是方差平方根

方差是数据与平均值的平均平方距离。由于平均值是总和除以总和的项目数,因此方差的公式为: 既然标准偏差只是它的平方根,标准偏差的公式是: 没有添加或更改任何内容这里的假设或方差,我们只是取方差的平方根,因为这就是标准

Var(X)=E[(Xμ)2]=i=1N(xiμ)2N

S.D.(X)=Var(X)=i=1N(xiμ)2N

首先要了解的是标准偏差(std)与平均绝对偏差不同。这两者定义了关于数据的不同数学属性。

与平均绝对偏差不同,标准偏差 (std) 对远离均值的值的权重更大,这是通过对差值进行平方来完成的。

例如,对于以下四个数据点:

Data(x)|xmean|(xmean)222422466366636x=0(|xmean|)=16(xmean)2=80

平均绝对偏差 (aad)=16/4=4.0

标准差 (std) =80/4=20=4.47

在数据中,有两个点距离均值 6 距离,两个点距离均值 2 距离。因此,4.47 的偏差比 4 更有意义。

由于总观察值总是,为了计算标准,我们不是用潜水,而是将总方差除以,并取其平方根,使其与原始数据具有相同的单位。NNN

我同意您对标准偏差的定义可以用来衡量人口。然而,这是一个更难提出的概念。(而且我认为它也更难用于证明其他理论。)σ=i=1n(xiμ)2N

我不知道方差和标准差发明背后的确切历史,但它应该大致类似于:

  1. 我们需要一个正数来衡量价差;让我们定义方差 =i=1n(xiμ)2N

  2. 由于平方,这个方差看起来比原始值大得多;让我们取它的平方根来“撤销”平方的效果:σ=i=1n(xiμ)2N

所以现在我们有一个非常简单的关系,因此在平方根之下。std=varianceN