机器算法验证 - 如果样本的标准差报告为 0.0，所有 20 名受试者的身高是否相同？ - 吾爱随笔录

如果样本的标准差报告为 0.0，所有 20 名受试者的身高是否相同？

机器算法验证标准差报告

2022-03-13 12:17:48

我正在审查的研究报告 20 名受试者的平均身高为 1.70 米，标准偏差为 0.0。这是否意味着所有 20 个都是 1.70 米？或者这是一个报告错误？

2个回答

根据这个生物学SE线程，男性成年身高的标准差约为 $0.07$ 米，女性大约 $0.06$ 米。

将这些四舍五入到小数点后一位将给出 $0.1$ 米。标准差报告为 $0.0$ 米表示低于标准偏差 $0.05$ 米......但是标准偏差，比如说， $0.048$ 米仍将与报告的数字一致，因为它会四舍五入 $0.0$ ，但表明样本中的高度变化仅略小于我们在一般人群中每天观察到的变化。

这个数字是否被充分报告？好吧，如果标准偏差被报告到小数点后两位，就像平均值一样，那将更加有用。也可能是简单的数值或舍入误差；例如 $0.07$ 可能被截断为 $0.0$ 而不是四舍五入。但是这个数字有可能是指标准误差吗？我经常看到数字的书写方式使得引用标准偏差或标准误差的方式变得模棱两可——例如，“样本均值是 $1.62 (\pm 0.06)$ ”。

正确的标准差四舍五入的合理性有多大 $0.0$ 到小数点后一位？以下 R 代码模拟了一百万个大小为 20 的样本，这些样本取自标准差总体 $0.06$ （正如在其他地方报道的女性身高），找到每个样本的标准偏差，绘制结果的直方图，并计算观察到的标准偏差低于的样本比例 $0.05$ ：

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

因此，标准偏差四舍五入 $0.0$ 并非不可信，如果高度正态分布且具有真实标准偏差，则发生率约为 17% $0.06$ .

根据这些假设，我们还可以计算而不是模拟大约 17% 的概率，如下所示：

P (S^{2} < {0.05}^{2}) = P (\frac{19 S^{2}}{{0.06}^{2}} < \frac{19 \times {0.05}^{2}}{{0.06}^{2}}) = P (\frac{19 S^{2}}{{0.06}^{2}} < 13.194) = 0.1715

$P(S^2 < 0.05^2) = P\left(\frac{19 S^2}{0.06^2} < \frac{19 \times 0.05^2}{0.06^2}\right) = P\left(\frac{19 S^2}{0.06^2} < 13.194\right) = 0.1715$

我们使用的事实是 ${(n-1) S^2}/{\sigma^2} = {19 S^2}/{0.06^2}$ 遵循卡方分布 $n-1 = 19$ 自由程度。您可以使用 R 计算概率pchisq(q = 19*0.05^2/0.06^2, df = 19)；如果你更换 $0.06$ 经过 $0.07$ 根据公布的男性标准偏差数据，概率降低到大约 4%。正如@whuber 在下面的评论中指出的那样，如果抽样的群体比一般人群更同质，则更有可能发生这种小的“四舍五入”SD。如果总体标准差约为 $0.06$ 米，那么如果样本量更大，获得如此小的样本标准偏差的概率也会下降。

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

这几乎可以肯定是一个报告错误，除非这些人被选为那个高度。

其它你可能感兴趣的问题

上一篇多变量与多时间序列下一篇逻辑回归：课程之间的不同公式？