当我们知道样本量时,对于给定的数据范围,平均值的标准误差何时不可能大?

机器算法验证 标准差 标准错误
2022-04-17 11:33:49

在阅读一篇研究人脑中不同组织类型比例的文章(已发表并经过同行评议,见下文)时,我发现了一张表格,其中展示了研究中不同亚组的数据。数据显示为平均值 +/- SE(我认为这是标准误差,尽管我无法在文本中看到它)和范围。

一个例子是其中一个亚组的年龄: n= 23 平均年龄 = 66 SE = 2.9 年龄范围 60-69

这让我很困惑。如果 SE 为 2.9,那么给定 23 的样本量,该年龄的 SD 应为:

SD = sqrt(23) * 2.9 = 13.9

这将导致标准偏差比指定的年龄范围大很多,这是不可能的。

我是统计学领域的初学者,所以我的问题很简单,是否可以由此得出结论,给出的一个或几个值一定是不正确的,或者我是否遗漏了一些可以使这些数据生成的东西感觉。

谢谢!

参考:Guttmann CR、Jolesz FA、Kikinis R 等。白质随着正常衰老而变化。神经病学 1998;50:972-978。

1个回答

我现在正在看论文(数字在最后)。

我可能遗漏了一些东西,但到目前为止,我在论文中没有看到任何内容表明 2.9 旨在成为标准错误(例如,我在论文中找不到“SE”或“标准错误”)。

编辑:Mattias 在评论中指出(与我链接的 html 版本不同),pdf 版本肯定会说“SE”,这会使后面的内容无效。意思是文章写错了。

您可能已经从表 1 中显示信息的方式推断出这是一个标准误差,例如, 60-69岁年龄组的平均“年龄”为 66.0 2.9。±

但是,以不同的方式使用并不罕见,例如表示标准偏差或标准误差的某个倍数(如果我们要确定它是什么,我们总是要求它被拼写出来)方法)。±


限定标准偏差和平均值的标准误差

无论如何,这是一个很好的问题,对论文中信息的这种调查很重要。

上的有界连续变量的总体标准差的最大可能值为(当一半的观测值处于下限而一半处于上限时,就会发生这种情况。[a,b](ba)/2

因此,例如,如果我们知道年龄组是岁(假设年龄仅记录在整年中),可能的最大标准差是 .60694.54.5/n

在此处输入图像描述

当然,如果样本方差基于分母,则标准差可以稍微超过范围的一半(以易于计算的方式)。n1

简单的经验法则 -标准偏差不应超过范围的一半- 值得记住,只要我们记住它确实是它适用于小样本。sn

但是,我们可以进一步绑定它。首先请注意,是奇数,因此我们实际上不能在每一端放置一半,并且可以计算允许的(略小)标准偏差。更重要的是,我们被告知平均值,这可能会产生更大的影响,将最大标准偏差降低到大约 4.15 ( ) 或 4.24 ( )。nsnsn1

请注意,如果年龄是均匀分布的,它将给出正确的标准差:

在此处输入图像描述

(它实际上并不统一——我们可以看出这一点,因为平均值高于中心值,但它让我们了解了我们所拥有的分布类型。)

“sd < range”的经验法则可能仍然是最有用的,除非您正在做一些非常详细的调查。12