如果所有数字都是非负数,均值可以小于中位数的一半吗?

机器算法验证 意思是 中位数
2022-02-01 10:53:26

我觉得我可能遗漏了一些愚蠢的东西,但是在一组非负数中,平均值是否有可能小于中位数的一半?

示例:有 999 个数字,我们被告知中位数是 10。这意味着这些数字的总和不能小于 5,000。实现该总和的配置是:500 个数字等于 10,499 等于 0。这使得平均值 5,000 / 999 =(略大于)5。由于 5,000 是可能的最低总和,(略大于)5是可能的最低平均值。因此,可能的最低平均值超过中位数的一半。

我错了吗?

2个回答

你是对的。这是称为马尔科夫不等式的一般结果的一个示例,它表示对于非负随机变量和数字 如果你插入在位数你得到 所以 Xa

P(Xa)E[X]a
Xa
P(Xmedian)E[X]median
0.5E[X]median
0.5×medianmean

您的论点也大致是如何证明马尔可夫不等式。

在一组非负数中,平均值是否可能小于中位数的一半?

不。事实上,平均值甚至不能等于中位数的一半(除非集合中的每个值都是)。0

最低可能平均值超过中位数的一半

这是正确的(再次假设并非所有值都是)。0

这是两个简单(但严格)的证明。(这些证明忽略了集合中每个值都是的情况。)0

证明1

为值的数量。n

如果是偶数,则上面的值必须都至少是中位数。如果它们都等于中位数,则中点下方的值也必须等于中位数。nn/2

如果是奇数,则中位数以上的值以及中位数本身都必须至少是中位数;此类值的数量为: n

n12+1=n+12>n2.

无论哪种方式,至少有值至少是中位数;这些值的总和,因此所有值的总和,至少是: n/2

n2×median.

事实上,要么有超过值,要么至少有一些值大于中位数(或两者都有),所以总和大于这个表达式的值。n/2

将其除以,我们发现均值大于: n

12×median.

证明2

我们将选择一个任意的,然后构造一个具有中位数和最小可能均值的集合。mm

我们首先执行以下操作之一:

  1. (集合有奇数个值)将添加到集合中。m
  2. (集合有偶数个值)将两个均值的值添加到集合中。任何两个均值为的值对集合的均值做出相同的贡献,但是为了在稍后添加其他值时获得最大的灵活性,我们应该将两个值都设置为mmm

然后我们选择一个任意的并且:n

  1. 添加到集合中。为了最小化平均值,我们应该将所有这些值设置为nm0
  2. 将至少为值添加到集合中。为了最小化平均值,我们应该将所有这些值设置为nmm

请注意,这些步骤可以构建任意大小、任意中值的集合,并且构建的集合在这些约束内具有最小可能均值。

如果集合具有奇数个值,则集合的平均值为:

m+nm1+2n=1+n1+2nm>12m.

如果集合有偶数个值,则集合的平均值为:

2m+nm2+2n=2+n2+2nm>12m.

这个证明旨在强调的作用,建立在Carl Witthoft对另一个答案的评论(强调添加)的基础上:0

有趣的是,因为我天真地认为将数据集均匀地移动一个值不会影响中位数与平均值。这里隐藏的(如果我没看错的话)是非负数据集是不对称的,仅在一端有界X