如果样本的标准差报告为 0.0,所有 20 名受试者的身高是否相同?

机器算法验证 标准差 报告
2022-03-13 12:17:48

我正在审查的研究报告 20 名受试者的平均身高为 1.70 米,标准偏差为 0.0。这是否意味着所有 20 个都是 1.70 米?或者这是一个报告错误?

2个回答

根据这个生物学SE线程,男性成年身高的标准差约为0.07米,女性大约0.06米。

将这些四舍五入到小数点后一位将给出0.1米。标准差报告为0.0米表示低于标准偏差0.05米......但是标准偏差,比如说,0.048米仍将与报告的数字一致,因为它会四舍五入0.0,但表明样本中的高度变化仅略小于我们在一般人群中每天观察到的变化。

这个数字是否被充分报告?好吧,如果标准偏差被报告到小数点后两位,就像平均值一样,那将更加有用。也可能是简单的数值或舍入误差;例如0.07可能被截断0.0而不是四舍五入但是这个数字有可能是指标准误差吗?我经常看到数字的书写方式使得引用标准偏差或标准误差的方式变得模棱两可——例如,“样本均值是1.62(±0.06)”。


正确的标准差四舍五入的合理性有多大0.0到小数点后一位?以下 R 代码模拟了一百万个大小为 20 的样本,这些样本取自标准差总体0.06(正如在其他地方报道的女性身高),找到每个样本的标准偏差,绘制结果的直方图,并计算观察到的标准偏差低于的样本比例0.05

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

样本标准差的直方图

因此,标准偏差四舍五入0.0并非不可信,如果高度正态分布且具有真实标准偏差,则发生率约为 17%0.06.

根据这些假设,我们还可以计算而不是模拟大约 17% 的概率,如下所示:

P(S2<0.052)=P(19S20.062<19×0.0520.062)=P(19S20.062<13.194)=0.1715

我们使用的事实是(n1)S2/σ2=19S2/0.062遵循卡方分布n1=19自由程度。您可以使用 R 计算概率pchisq(q = 19*0.05^2/0.06^2, df = 19)如果你更换0.06经过0.07根据公布的男性标准偏差数据,概率降低到大约 4%。正如@whuber 在下面的评论中指出的那样,如果抽样的群体比一般人群更同质,则更有可能发生这种小的“四舍五入”SD。如果总体标准差约为0.06米,那么如果样本量更大,获得如此小的样本标准偏差的概率也会下降。

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

如果总体 SD 增加,低样本 SD 的概率会下降

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

如果样本量增加,低样本 SD 的概率会下降

这几乎可以肯定是一个报告错误,除非这些人被选为那个高度。