什么是标准差?

机器算法验证 标准差
2022-01-18 19:24:26

什么是标准差,它是如何计算的以及它在统计学中的用途是什么?

4个回答

标准差是一个数字,表示一组数据的“传播”或“分散”。还有其他用于传播的度量,例如范围和方差。

以下是一些示例数据集及其标准偏差:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

上述数据集的均值相同。

偏差意味着“与平均值的距离”。

“标准”在这里的意思是“标准化”,意思是标准差和均值在同一个单位,不像方差。

例如,如果平均高度为 2,则标准差可能为 0.3,而方差为 0.09米的平方

很容易知道,至少 75%的数据点始终位于平均值的 2 个标准差范围内(如果分布是正态分布,则大约为 95% )。

例如,如果平均值为 100,标准差为 15,则至少 75% 的值介于 70 和 130 之间。

如果分布恰好是正态分布,则 95% 的值在 70 到 130 之间。

一般来说,智商测试分数是正态分布的,平均为100。“非常聪明”的人比平均值高两个标准差,意味着智商测试分数为130。

来自维基百科的引述。

它显示了与“平均值”(平均值,或预期/预算值)相比有多少变化。低标准差表示数据点往往非常接近平均值,而高标准差表示数据分布在大范围的值上。

在描述变量时,我们通常使用两种度量来总结它:中心度量和散布度量。中心的常用度量包括平均值、中位数和众数。传播的常用度量包括方差和四分位距。

报告平均值时,通常使用方差(由希腊小写 sigma 的二次幂表示)。方差是变量的均方差。通过从每个观察中减去平均值来计算偏差。这是平方的,因为否则总和将为零,平方消除了这个问题,同时保持了偏差的相对大小。使用变异作为传播量度的问题在于它是以平方为单位的。例如,如果我们感兴趣的变量是以英寸为单位测量的高度,那么方差将以平方英寸为单位报告,这几乎没有意义。标准差(由希腊小写的 sigma 表示)是方差的平方根,并将散布度量返回到原始单位。

使用标准差时,必须小心异常值,因为它们会扭曲标准差(和平均值),因为它们不是传播的阻力度量。一个简单的例子将说明这个属性。我糟糕的板球击球得分 13、14、16、23、26、28、33、39 和 61 的平均值是 28.11。如果我们将 61 视为异常值并将其删除,则平均值将为 24。

以下是我如何使用图表来回答这个问题。

假设我们称重 30 只猫并计算平均重量。然后我们生成一个散点图,y 轴为权重,x 轴为猫的身份。平均重量可以画成一条水平线。然后我们可以画出将每个数据点连接到平均线的垂直线——这些是每个数据点与平均值的偏差,我们称之为残差。现在,这些残差可能很有用,因为它们可以告诉我们有关数据传播的一些信息:如果有很多大残差,那么猫的质量变化很大。相反,如果残差主要很小,则猫在平均体重附近相当紧密地聚集在一起。因此,如果我们可以有一些指标来告诉我们平均值这个数据集中残差的长度,这将是一种方便的方式来表示数据中有多少分布。实际上,标准偏差是平均残差的长度。

接下来我会给出 sd 的计算,解释为什么我们先平方然后平方根(我喜欢 Vaibhav 的简短而甜蜜的解释)。然后我会提到异常值的问题,就像格雷厄姆在他的最后一段中所做的那样。