通常介绍性应用统计文本通过解释平均值对样本数据中的异常值和/或偏斜的人口分布,这被用作断言当数据不对称时首选中位数的理由。
例如:
给定数据集的集中趋势的最佳度量通常取决于值的分布方式……当数据不对称时,中位数通常是集中趋势的最佳度量。因为平均值对极端观察很敏感,所以它会被拉向边缘数据值的方向,结果可能会过度膨胀或过度收缩。”
——Pagano 和 Gauvreau,(2000 年)《生物统计学原理》,第 2 版。 (宝洁就在手边,顺便说一句,并没有把它们单独挑出来。)
作者因此定义了“集中趋势”:“一组数据最常研究的特征是它的中心,或者观察倾向于聚集的点。”
这让我觉得这是一种不太直截了当的说法,即仅使用中位数 period,因为仅在数据/分布对称时使用均值与仅在等于中位数时使用均值是一回事。编辑: whuber 正确地指出,我将集中趋势的稳健度量与中位数混为一谈。因此,重要的是要记住,我正在讨论介绍性应用统计中算术平均值与中位数的具体框架(除了模式之外,其他集中趋势的测量没有动机)。
与其根据均值偏离中位数行为的程度来判断均值的效用,我们不应该简单地将它们理解为两种不同的中心性度量吗?换句话说,对偏度敏感是均值的一个特征。人们可以同样有效地争论“中位数不好,因为它在很大程度上对偏度不敏感,所以只有在它等于平均值时才使用它。”
(该模式非常明智地不涉及这个问题。)