平均值加一个标准差会超过最大值吗?

机器算法验证 标准差 意思是 参考 界限 极值
2022-02-10 15:54:01

对于具有最小值 0 和最大值 94.33 的样本,我的平均值为 74.10 和标准偏差 33.44。

我的教授问我,平均值加上一个标准差怎么会超过最大值。

我给她看了很多这方面的例子,但她不明白。我需要一些参考资料给她看。它可以是统计书中专门讨论这一点的任何章节或段落。

4个回答

当然,平均值加 1 sd 可以超过最大观测值。

考虑样本 1、5、5、5 -

它的平均值为 4,标准差为 2,因此平均值 + sd 为 6,比样本最大值大 1。这是R中的计算:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

这是一个常见的现象。当有一堆高值和左边的尾巴时(即当有很强的左偏度和接近最大值的峰值时)往往会发生这种情况。

--

同样的可能性适用于概率分布,而不仅仅是样本 - 总体平均值加上总体 sd 很容易超过最大可能值。

下面是一个密度的例子,它的最大可能值为 1:beta(10,12)

在此处输入图像描述

在这种情况下,我们可以查看 Wikipedia 页面的 beta 分布,其中指出平均值为:

E[X]=αα+β

方差为:

var[X]=αβ(α+β)2(α+β+1)

(虽然我们不需要依赖维基百科,因为它们很容易推导出来。)

所以对于我们的平均值和 sd,所以 mean+sd,超过可能的最大值 1。α=10β=120.95230.06281.0152

也就是说,很容易使 mean+sd 的值足够大,以至于无法将其作为数据值来观察

--

对于模式处于最大值的任何情况,Pearson 模式偏度只需要 以使均值+sd 超过最大值,这是一个容易满足的条件。<1

--

一个密切相关的问题经常出现在二项式比例的置信区间中,其中一个常用的区间,正态近似区间可以产生之外的限制。[0,1]

例如,考虑伯努利试验中成功的总体比例的 95.4% 正态近似区间(结果分别为 1 或 0 代表成功和失败事件),其中 4 个观察值中有 3 个是“ ”,一个观察值是“ ”。10

那么区间的上限是p^+2×14p^(1p^)=p^+p^(1p^)=0.75+0.433=1.183

这只是样本均值 + 二项式 sd 的通常估计值......并产生一个不可能的值。

0,1,1,1 的通常样本 sd 是 0.5 而不是 0.433(它们不同,因为标准偏差的二项式 ML 估计对应于将方差除以而不是 )。但这没有区别——在任何一种情况下,均值 + sd 都超过了可能的最大比例。p^(1p^)nn1

这个事实 - 二项式的正常近似间隔可以产生“不可能的值”,这在书籍和论文中经常被注意到。但是,您不是在处理二项式数据。尽管如此,问题 - 即意味着 + 一些标准偏差不是可能的值 - 是类似的。

--

在您的情况下,您的样本中不寻常的“0”值使 sd 比它拉低的平均值更大,这就是为什么 mean+sd 很高。

在此处输入图像描述

--

(相反,问题是——凭什么推理是不可能的? ——因为不知道为什么有人会认为有问题,我们要解决什么问题?)

当然,从逻辑上讲,可以通过举一个发生的例子来证明它是可能的。你已经这样做了。如果没有说明为什么应该是其他原因,你该怎么办?

如果一个例子还不够,什么证据可以接受?

仅仅指着书中的一个陈述真的没有意义,因为任何一本书都可能做出错误的陈述——我一直看到它们。必须依靠直接证明这是可能的,要么是代数证明(可以从上面的 beta 示例构建*),要么通过数值示例(您已经给出),任何人都可以自己检验其真实性.

* whuber 在评论中给出了 beta 案例的精确条件。

根据切比雪夫不等式,小于k -2个点的距离可能超过k个标准差。因此,对于k =1,这意味着少于 100% 的样本可能超过一个标准偏差。

查看下限更有趣。您的教授应该更惊讶的是,有些点低于平均值约 2.5 个标准差。但是我们现在知道只有大约 1/6 的样本可以为 0。

一般来说,对于伯努利随机变量,取值为的概率,值为的概率,我们有X10<p<101p

E(X)=p,SE(X)=p(1p)

我们想要

E(X)+SE(X)>1p+p(1p)>1

p(1p)>(1p)

两边平方得到

p(1p)>(1p)2p>1pp>12

换句话说,对于任何的伯努利随机变量,理论表达式成立。p>1/2E(X)+SE(X)>maxX

因此,例如,对于从 Bernoulli 抽取的任何 iid 样本,例如,在大多数情况下,样本均值加上样本标准偏差将超过值,这将是观察到的最大值(除了全零样本!)。p=0.71

对于其他分布,我们总是在不等式中具有相反的方向,例如对于 Uniform,总是的情况。 因此,不存在一般规则。U(a,b)E(U)+SE(U)<maxU=b

问题的本质可能是您的分布不是标准偏差假设的正态分布您的分布可能偏斜,因此您需要首先通过选择合适的变换函数将您的集合转换为正态分布,这个过程称为转换为正态分布在您的情况下,一个这样的候选函数可能是镜像日志转换。一旦您的集合满足正态性检验,您就可以采用标准偏差。然后使用你的 1或 2σσ您必须使用转换函数的逆函数将它们转换回原始数据空间。我想这就是你的教授所暗示的。