如何解释低于计数变量平均值的两个标准偏差小于零?

机器算法验证 标准差 计数数据
2022-03-28 14:49:16

我问人们在“正常”的一周里他们去过当地的酒吧多少次。

结果可以是零、一、二、三、四、五甚至更多。

  • 平均值为 2,标准差为 1.3。
  • 所以高于平均值的两个标准差是 4.6。
  • 但是,低于平均值的两个标准差为 -0.6。

这个负数是错误的吗?我如何解释它?

1个回答

简短的回答是否定的,这不是错误

正如@whuber 指出的那样,低于计数变量平均值的两个标准差可能是负值这一事实并不令人惊讶(至少对统计学家而言)。因此,要回答您的问题,思考为什么您会发现结果令人惊讶可能会更有用。

为什么你可能会感到惊讶

  • 许多介绍性统计教科书展示了如何使用平均值、标准差和正态分布来做出声明,例如,预计大约 2.5% 的样本的得分低于平均值两个标准差。您可能已经将此想法推广到一个变量,其中此类过程的假设是无效的。
  • 如果你这样做了,你会对自己说:“这很奇怪,2.5% 的数据怎么可能低于 -0.6”。

估计计数的百分位数

  • 您的变量不是正态分布的,它是一个计数变量。它是离散的;它是一个非负整数。因此,为了估计大于或等于给定值的百分比,您需要一种适合计数的方法。一种基本方法将涉及使用样本数据来估计这些百分位数。更复杂的方法可能涉及开发适合计数的分布模型,由数据和现象知识证明,并使用样本数据进行估计。