对于具有最小值 0 和最大值 94.33 的样本,我的平均值为 74.10 和标准偏差 33.44。
我的教授问我,平均值加上一个标准差怎么会超过最大值。
我给她看了很多这方面的例子,但她不明白。我需要一些参考资料给她看。它可以是统计书中专门讨论这一点的任何章节或段落。
对于具有最小值 0 和最大值 94.33 的样本,我的平均值为 74.10 和标准偏差 33.44。
我的教授问我,平均值加上一个标准差怎么会超过最大值。
我给她看了很多这方面的例子,但她不明白。我需要一些参考资料给她看。它可以是统计书中专门讨论这一点的任何章节或段落。
当然,平均值加 1 sd 可以超过最大观测值。
考虑样本 1、5、5、5 -
它的平均值为 4,标准差为 2,因此平均值 + sd 为 6,比样本最大值大 1。这是R中的计算:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
这是一个常见的现象。当有一堆高值和左边的尾巴时(即当有很强的左偏度和接近最大值的峰值时)往往会发生这种情况。
--
同样的可能性适用于概率分布,而不仅仅是样本 - 总体平均值加上总体 sd 很容易超过最大可能值。
下面是一个密度的例子,它的最大可能值为 1:
在这种情况下,我们可以查看 Wikipedia 页面的 beta 分布,其中指出平均值为:
方差为:
(虽然我们不需要依赖维基百科,因为它们很容易推导出来。)
所以对于和我们的平均值和 sd,所以 mean+sd,超过可能的最大值 1。
也就是说,很容易使 mean+sd 的值足够大,以至于无法将其作为数据值来观察。
--
对于模式处于最大值的任何情况,Pearson 模式偏度只需要 以使均值+sd 超过最大值,这是一个容易满足的条件。
--
一个密切相关的问题经常出现在二项式比例的置信区间中,其中一个常用的区间,正态近似区间可以产生之外的限制。
例如,考虑伯努利试验中成功的总体比例的 95.4% 正态近似区间(结果分别为 1 或 0 代表成功和失败事件),其中 4 个观察值中有 3 个是“ ”,一个观察值是“ ”。
那么区间的上限是
这只是样本均值 + 二项式 sd 的通常估计值......并产生一个不可能的值。
0,1,1,1 的通常样本 sd 是 0.5 而不是 0.433(它们不同,因为标准偏差的二项式 ML 估计对应于将方差除以而不是 )。但这没有区别——在任何一种情况下,均值 + sd 都超过了可能的最大比例。
这个事实 - 二项式的正常近似间隔可以产生“不可能的值”,这在书籍和论文中经常被注意到。但是,您不是在处理二项式数据。尽管如此,问题 - 即意味着 + 一些标准偏差不是可能的值 - 是类似的。
--
在您的情况下,您的样本中不寻常的“0”值使 sd 比它拉低的平均值更大,这就是为什么 mean+sd 很高。
--
(相反,问题是——凭什么推理是不可能的? ——因为不知道为什么有人会认为有问题,我们要解决什么问题?)
当然,从逻辑上讲,可以通过举一个发生的例子来证明它是可能的。你已经这样做了。如果没有说明为什么应该是其他原因,你该怎么办?
如果一个例子还不够,什么证据可以接受?
仅仅指着书中的一个陈述真的没有意义,因为任何一本书都可能做出错误的陈述——我一直看到它们。必须依靠直接证明这是可能的,要么是代数证明(可以从上面的 beta 示例构建*),要么通过数值示例(您已经给出),任何人都可以自己检验其真实性.
* whuber 在评论中给出了 beta 案例的精确条件。
根据切比雪夫不等式,小于k -2个点的距离可能超过k个标准差。因此,对于k =1,这意味着少于 100% 的样本可能超过一个标准偏差。
查看下限更有趣。您的教授应该更惊讶的是,有些点低于平均值约 2.5 个标准差。但是我们现在知道只有大约 1/6 的样本可以为 0。
一般来说,对于伯努利随机变量,取值为的概率,值为的概率,我们有
我们想要
两边平方得到
换句话说,对于任何的伯努利随机变量,理论表达式成立。
因此,例如,对于从 Bernoulli 抽取的任何 iid 样本,例如,在大多数情况下,样本均值加上样本标准偏差将超过值,这将是观察到的最大值(除了全零样本!)。
对于其他分布,我们总是在不等式中具有相反的方向,例如对于 Uniform,总是的情况。
因此,不存在一般规则。