为什么非对称分布的均值和中位数不相等?

机器算法验证 可能性 意思是 中位数 对称
2022-03-15 13:07:56

我的推理如下:pdf除以平均值(期望值)分为两部分,pdf曲线下的面积相等,因此随机变量取值小于或等于平均值​​的概率为0.5 ,这意味着该值也是中位数(根据中位数的定义)。

但是教科书说,只有当 pdf 是对称的时,均值和中值才相等。我的错误在哪里?

1个回答

这里有一个相关的问题:

均值 = 中位数是否意味着单峰分布是对称的?

你也应该阅读,但你的标题问题为什么不对称可以使均值和中位数不相等应该详细解决(这就是为什么我不认为这个问题与那个问题重复),我正在采取有机会对这里提出的一些问题进行更直观、基于图片的讨论。在处理了问题中的错误前提和您参考的未命名教科书中的错误之后,最后讨论了为什么问题的讨论。


我将翻转您的帖子并处理教科书首先说的内容:

但是教科书说,只有当 pdf 是对称的时,均值和中值才相等。

有些教科书确实这样说,但他们错了不对称分布的均值和中值可以相等。

从某种意义上说,反过来说几乎是正确的——即“如果 pdf 是对称的,则均值和中值相等”,但一般来说也不完全正确,因为对于某些对称分布,总体均值是不明确的。

实际上,有一种基于均值和中值之差的​​偏度度量(有时称为第二 Pearson 偏度中值偏度),但是具有零秒 Pearson 偏度并不意味着对称。

通常当分布不对称时,均值和中位数不相等,但我们可以找到尽可能多的例外。让我们看一个。

在我对这个问题的回答中:mean=mode 是否意味着对称分布?

我展示了以下示例:

具有均值、中值和模式 0 和零矩偏度的不对称密度

这是一个分布明显不对称的示例(一方面,主峰的每一侧都有不同数量的模式),但平均值和中位数却完全相等。

构建离散示例非常容易,但我认为人们倾向于发现连续示例更有趣。

我的推理如下:pdf除以平均值(期望值)分为两部分,pdf曲线下的面积相等,

不,中位数将 pdf 分成两个相等的区域。手段一般不。

因此,随机变量取小于或等于平均值​​的值的概率为 0.5,

让我们看一个例子。考虑一个标准的指数分布(适度向右倾斜)。它的中位数 - 将 pdf 下的区域分成两个相等部分的值出现在ln20.69而平均值在1, 并且只有1/e37%其右侧的区域。

指数密度显示平均值 > 中位数,右侧 od 平均值的 37% 面积

[您可能的意思是,对于对称分布(假设平均值是有限的),平均值将处于中位数。这是真的,但并不能证明均值=中值意味着对称,而且正如我们所看到的,这个想法有反例。]


但是让我回到你的标题问题......为什么

为什么非对称分布的均值和中位数不相等?

让我们看一下样本均值和中位数的比较[直接转换为离散分布上的总体均值和中位数的比较]。

 sample:  1    2    3    4    6    9   16   95

 median = 5 

 mean = 17

 proportion of observations > median = 1/2
 proportion of observations > mean = 1/8

那么,平均值是如何高于几乎所有数据的呢?对于中位数,它只看有多少观测值高于或低于,但平均值也看它们有多远数字越高或越低,它就越“拉”平均值。结果,一个非常偏斜的分布,一个在一侧有重尾但另一侧没有,将平均值从中值拉向长尾,在它们之间留下一个间隙。这就是为什么上述指数分布中的平均值相对较高,远高于 50% 点的原因。

通过采用一系列较重的右尾,您实际上可以将有限均值移动到您喜欢的分布的任何比例之上(只要它小于 100%)。

那为什么不总是这样呢?如果它是不对称的,为什么平均值不远离中位数——为什么有些不对称会使平均值等于中位数?

想象一下,您在距离中位数一侧一定距离的地方有一点概率。你有两个因素来决定它“拉”的难度——一个是它有多远,一个是它有多少(概率有多大)。两倍远的拉力是两倍,但概率也是两倍。因此,如果您在中位数的两侧放置概率凸起,您可以一起使用这两个组件来“平衡”(例如在一侧使用中等距离的较大概率凸起和两个较小的凸起,一个更近和一个在另一边更远),因此将平均值留在中位数,同时概率分布不对称。在我的示例的尖峰分布的情况下,