在左偏数据中,均值和中位数之间的关系是什么?

机器算法验证 分布 自习 意思是 偏度 中位数
2022-03-06 17:26:11

我认为中位数的意思。

是这样吗?

2个回答

这是一个不平凡的问题(肯定不像提出这个问题的人认为的那样微不足道)。

困难最终是由于我们并不真正知道“偏度”是什么意思——很多时候它是显而易见的,但有时它真的不是。鉴于在不平凡的情况下很难确定我们所说的“位置”和“分布”的含义(例如,当我们谈论位置时,平均值并不总是我们的意思),更微妙的像偏度这样的概念至少是一样滑的。因此,这导致我们尝试各种代数定义来解释我们的意思,但它们并不总是相互一致。

  1. 如果您通过第二个 Pearson 偏度系数来测量偏度,则平均值()将小于中位数( - 即在这种情况下您将其倒数)。μμ

(总体)第二个 Pearson 偏度是

3(μμ)σ,
μ<μ

这些统计数据的样本版本的工作方式类似。

在这种情况下,平均值和中位数之间存在必要关系的原因是因为这就是定义偏度度量的方式。

这是一个左偏密度(通过第二个 Pearson 度量和下面 (2) 中更常见的度量):

在此处输入图像描述

中位数以绿色标记在下边缘,平均值以红色标记。

所以我希望他们希望你给出的答案是平均值小于中位数。对于我们倾向于命名的各种分布,通常就是这种情况。

(但请继续阅读,看看为什么作为一般性陈述实际上并不正确。)


  1. 如果您通过更常见的标准化三次矩来测量它,那么通常但并非总是如此,平均值将小于中位数。

也就是说,可以构建相反的情况,或者一个偏度度量为零而另一个不为零的示例。

也就是说,均值、中位数和矩偏度的位置之间没有必然的关系。

例如,考虑以下示例(相同的示例可以构造为离散概率分布):

  2.7 15.0 15.0 15.0 30.0 30.0

mean: 17.95
median: 15

均值大于中值,但三阶矩偏度系数为负(即,根据它的灯光,我们有左偏数据),因为与均值的偏差的立方和为负。

所以从这个意义上说,左偏,但均值>中值。

(另一方面,如果将上面示例中的 2.7 更改为 3,那么您有一个矩偏度为零的示例,但平均值超过中位数。如果您将其设为 3.3,则矩偏度为正, 并且平均值超过中位数 - 即最终处于“预期”方向。)

如果您使用第一个 Pearson 偏度而不是上述任何一个定义,您会遇到与这种情况类似的问题 - 偏度的方向通常不会确定平均值和中位数之间的关系。


编辑:回答评论中的问题 - 平均值和中位数相等但矩偏度为负的示例。考虑以下数据(如前所述,它也算作离散总体的示例;考虑将数字写在骰子的表面上)。

 1  5  6  6  8 10

均值和中位数均为 6,但偏离均值的立方和为负,因此三阶矩偏度为负。

不会。左偏数据在左侧(低端)有一条长尾,因此平均值通常小于中位数。(但请参阅@Glen_b 的例外答案)。随便,我认为“看起来”左偏的数据的平均值将低于中位数。

右偏数据更常见;比如收入。那里的平均值大于中位数。

R代码

set.seed(123)  #set random seed
normdata <- rnorm(1000) #Normal data, skew = 0
extleft <- c(rep(-10, 5), rep(-20, 5)) #Some data to make skew left
alldata <- c(normdata,extleft)

library(moments)
skewness(alldata) #-6.77
mean(alldata) #-0.13
median(alldata) #-0.001