当数据有偏差时应该使用平均值吗?

机器算法验证 意思是 偏度 中位数 增删改查 集中趋势
2022-02-13 01:19:01

通常介绍性应用统计文本通过解释平均值对样本数据中的异常值和/或偏斜的人口分布,这被用作断言当数据不对称时首选中位数的理由。

例如:

给定数据集的集中趋势的最佳度量通常取决于值的分布方式……当数据不对称时,中位数通常是集中趋势的最佳度量。因为平均值对极端观察很敏感,所以它会被拉向边缘数据值的方向,结果可能会过度膨胀或过度收缩。”
——Pagano 和 Gauvreau,(2000 年)《生物统计学原理》,第 2 版。 (宝洁就在手边,顺便说一句,并没有把它们单独挑出来

作者因此定义了“集中趋势”:“一组数据最常研究的特征是它的中心,或者观察倾向于聚集的点。”

这让我觉得这是一种不太直截了当的说法,即仅使用中位数 period,因为仅在数据/分布对称时使用均值与仅在等于中位数时使用均值是一回事。编辑: whuber 正确地指出,我将集中趋势的稳健度量与中位数混为一谈。因此,重要的是要记住,我正在讨论介绍性应用统计中算术平均值与中位数的具体框架(除了模式之外,其他集中趋势的测量没有动机)。

与其根据均值偏离中位数行为的程度来判断均值的效用,我们不应该简单地将它们理解为两种不同的中心性度量吗?换句话说,对偏度敏感是均值的一个特征。人们可以同样有效地争论“中位数不好,因为它在很大程度上对偏度不敏感,所以只有在它等于平均值​​时才使用它。”

(该模式非常明智地不涉及这个问题。)

4个回答

我不同意这个建议作为一个明确的规则。(并非所有书籍都通用。)

问题更加微妙。

如果您真的有兴趣推断总体均值,那么样本均值至少是它的无偏估计量,并且具有许多其他优势。事实上,请参阅高斯-马尔可夫定理- 它是最好的线性无偏。

如果您的变量严重偏斜,则问题与“线性”有关-在某些情况下,所有线性估计器都可能不好,因此其中最好的估计器可能仍然没有吸引力,因此非线性均值估计器可能会更好,但它需要了解一些(甚至很多)关于分布的知识。我们并不总是那么奢侈。

如果您不一定对与人口平均值相关的推断感兴趣(“典型年龄是多少? ”,比如说,或者是否存在从一个人口到另一个人口的更一般的位置转移,这可以用任何位置来表述,甚至一个变量随机大于另一个变量的测试),然后根据总体均值进行转换是不必要的或可能适得其反(在最后一种情况下)。

所以我认为它归结为思考:

  • 你的实际问题是什么?在这种情况下,人口是否意味着一件好事?

  • 鉴于这种情况(在这种情况下是偏度),回答问题的最佳方法是什么?使用样本是回答我们感兴趣的问题的最佳方法吗?

您可能对总体均值有疑问,但样本均值是查看这些问题的好方法(估计您假设分布为 ab 指数随机变量的等待时间的总体中位数,例如更好地估计为样本均值的特定部分)...反之亦然-问题可能与总体均值有关,但样本均值可能不是回答该问题的最佳方法。

在现实生活中,我们应该根据我们试图找出的内容来选择一个集中趋势的度量;是的,有时该模式是正确的使用方式。有时它是 Winsorized 或修剪的平均值。有时是几何或调和平均值。有时没有很好的衡量集中趋势的方法。

介绍书写得不好,他们教导有适用的食谱规则。

拿收入。这通常是非常倾斜的,有时会出现异常值;果然,我们平时看到的“收入中位数”报道。但有时异常值和偏度很重要。这取决于上下文并需要思考。

我写了更多关于这个

即使数据有偏差(例如,与临床试验一起计算的医疗保健费用,其中很少有患者在入组后立即死亡,因此总成本为零,并且由于正在调查的给定医疗保健计划的副作用,很少有患者累积成吨的成本),至少出于一个实际原因,均值可能优于中值:将患者数量的平均成本相乘,可以使医疗保健决策者了解所研究的医疗保健技术对预算的影响。

我认为这个问题以及迄今为止的两个答案都缺少的是,介绍性统计书籍中对均值与中位数的讨论通常发生在关于如何以数字方式总结分布的一章的早期。与推论统计相反,这通常是关于产生描述性统计,这将是一种有用的方式来传达有关数据分布的信息,而不是图形。出现这种情况的上下文是报告或期刊文章的描述性统计部分,其中通常没有空间对数据集中的所有变量进行图形摘要。如果分布是倾斜的,在这种情况下选择中位数而不是平均值似乎是明智的。如果分布是对称的,没有异常值,