在这种情况下,标准差是什么意思?

机器算法验证 解释 标准差
2022-03-17 03:34:26

假设有人正在收集样本,他试图估计人们购买快餐的平均金额。计算的平均值为 50 美元,标准差为 7 美元。我想从以下答案中了解标准差的正确含义,因为我了解定义,但我不知道如何应用或有什么好处现实生活中的标清。

  • SD 是否表明人们平均在餐费上花费 43 美元到 57 美元?
  • 或者,他们平均每次购买花费 50 美元,但他们的购买金额有 7 美元的较大标准差?
  • 或者,平均而言,他们每次购买花费 50 美元,但我的估计标准差相对较大,为 7 美元?
4个回答

均值的解释

当我们说吃饭的平均花费是 50 美元时——这意味着如果我们将花费在快餐上的总金额平均分配给所有购买的人——每个人将得到 50 美元。

但是,这个数字隐藏了很多信息。在很多不同的情况下,我们平均可以获得 50 美元。一个极端是当每个人都花费 50 美元时。另一个极端是一半人花费 0 美元,另一半人花费 100 美元。中间有无数种情况,我们的平均值为 50。

平均偏差

因此,我们对这些金额的可变性感兴趣。量化有多少可变性的一种直观方法是计算与该平均值的平均偏差。因此,当我们知道平均值时,对于每个人,我们可以计算他们花费的金额与平均值之间的差值,并得到平均值:

MAD=i|xix¯|n

这是“平均绝对偏差”(MAD)。它回答了这个问题:在客户中 - 他们的购买与平均水平之间的平均差异是多少?

我们可以检查在两种极端情况下这个分数是多少。如果每次购买等于 50 美元,则平均值为 50,MAD 为 0。如果一半购买为 0,另一半为 100,则平均值为 50,MAD 为 50。

标准差

标准差是 MAD 的一种变体,但更难解释。请注意,当我们在 MAD 计算中寻找平均值与平均值的差异时 - 我们取绝对值。我们想去掉这个符号,否则大约一半的偏差是负的,一半是正的,所以它们会被抵消。标准差不是取绝对值,而是使用平方,就像绝对值一样,将负数转换为正数。然后通过取平方根进行转换:

SD=i(xix¯)2n

这个想法是一样的。它更难解释,但它有一些很好的特性。这里讨论了更频繁地使用标准差的原因:为什么要平方差而不是在标准差中取绝对值?


问题

SD 是否表明人们平均在餐费上花费 43 美元到 57 美元?

不。“平均而言,人们在 X 和 Y 之间的消费”到底是什么意思?平均值是一个点估计,而不是一个范围。如果花费的金额遵循正态分布,我们可以得出大约 68% 的客户花费在 43 到 57 美元之间。然而,美元金额肯定不服从正态分布(即它们没有负值)。

或者,他们平均每次购买花费 50 美元,但他们的购买金额有 7 美元的较大标准差?

这是对的。但这能回答你的问题吗?它重申平均值为50,SD为7。并且仅添加了一些外部解释,即7相对较大。

或者,平均而言,他们每次购买花费 50 美元,但我的估计标准差相对较大,为 7 美元?

不,有一个单独的衡量标准,称为标准误差。

标准偏差是指数据的分布(或从中提取数据的分布)。

标准误差是指估计一个参数。

说人们倾向于在 43 到 57 之间花费并不完全正确,但这更接近正确的解释。一些混淆来自于术语具有相似名称的事实,并且初学者只看到平均值的标准误差,其计算涉及标准偏差。但是,您估计的任何参数都可以有标准误差,并且计算可能不涉及分布的标准差(例如相关系数)。

我很惊讶没有人回答关于正态分布数据的标准偏差的经验法则:68-95-99.7 规则。(参见维基百科文章

如果您有正态分布的数据,则大约 68% 的观测值落在平均值 ± 标准差的范围内。大约 95% 的观察结果在平均值 ± 两个标准差范围内。

据我所知,对于均匀分布,大约 58% 的观测值落在 μ ± σ 范围内,100% 的观测值落在 μ ± 2σ 范围内。

似乎对于偏态分布,更多的数据将落在 μ ± σ 内,因此对于常见的对数正态分布,可能 75% 的观测值落在 μ ± σ 内。

数据也可能具有双峰分布对于一个非常明显的双峰分布,可能超过 50% 的观测值落在 μ ± σ 内。

编辑: 为了使这些观察更明确地与问题相关:这取决于数据的分布,以及“平均”的意思,但可能超过 50% 的观察结果在 μ ± σ 范围内,所以“关于平均而言,人们在饭菜上的花费在 43 美元到 57 美元之间”对所提供的统计数据的解释并不差。

编辑 2:我将上述分布加粗,以使我的答案的逻辑更加明显。

假设有人正在收集样本,他试图估计人们购买快餐的平均金额。计算的平均值为 50 美元,标准差为 7 美元。

这并没有告诉我们足够的信息。但没关系,我们可以梳理出可能的答案。

那么,我们的问题是解码50 美元的计算平均值是一些人在快餐上花钱的样本吗?或者,是购买的每一顿快餐吗?

在第一种情况下,50 美元是样本均值他们检查了 10 个人,平均花费为 50 美元。

在第二种情况下,50 美元是总体平均值他们检查了每个人,平均花费为 50 美元。

现在,SD 可能意味着平均点的标准偏差。但在第一种情况下,统计学家有时会很想,并尝试根据收集到的抽样数据来计算实际总体均值的分布。那些统计学家,试图产生有用的信息。

这里,50 美元是总体均值估计值的平均值,7 美元是给定样本数据的总体均值的标准差。

  • SD 是否表明人们平均在餐费上花费 43 美元到 57 美元?

如果 50 是人口平均数,SD 是 7,那么我们可以肯定,很大一部分人口在膳食上的花费在 43 美元到 57 美元之间;即与平均值相差 1 SD。由于几乎可以肯定膳食购买的分配会有些正常,因此这是一个安全的赌注。

  • 或者,他们平均每次购买花费 50 美元,但他们的购买金额有 7 美元的较大标准差?

这又是 50 美元的人口平均值。这是上一点的另一种说法,更精确,假设更少。

  • 或者,平均而言,他们每次购买花费 50 美元,但我的估计标准差相对较大,为 7 美元?

在这种情况下,我们将 50 美元解读为总体均值的估计值。

问题实际上并没有很好地描述其中哪些在起作用。

但基于应试策略(前两个答案彼此不同)以及第一段谈到估计平均值的事实、实际获取整个人口数据的难度以及统计学家进行此操作的事实很多,我会选择这个。

现在,统计学家试图根据样本数据估计实际平均值;但是在这样做的过程中,他们对潜在的分布做出了假设(非常合理的假设)。作为如何执行此操作的示例,您可以使用Student 的 T 分布,它先验地假设所进行的购买是正常的,但具有未知的均值和标准差。

然后从一组样本中,您可以生成总体均值的估计值和估计值中误差的标准差。

我猜这就是所描述的情况。