均值标准误与标准差的关系

机器算法验证 r 标准差 标准错误
2022-03-25 02:55:03

考虑以下问题。

特定人群的呼吸障碍指数 (RDI) 是衡量睡眠障碍的指标,其平均值为 15(每小时的睡眠事件),标准差为 10。它们不是正态分布的。给出您对 100 人的样本平均 RDI 在每小时 14 到 16 个事件之间的概率的最佳估计?

我得到的答案让我感到困惑如下。

均值的标准误差为 10/√100 = 1。因此 14 到 16 之间是样本均值分布均值的一个标准差。因此它应该是大约 68%。

让我感到困惑的是 mean 的标准误差这个术语。为了使答案正确,以下 R 代码中的术语是标准偏差

pnorm(16, mean = 15, sd = 1) - pnorm(14, mean = 15, sd = 1) 
## [1] 0.6827

1)为什么标准偏差不是原始问题中描述的 10?

2)答案给出平均值的标准误差为 1,但该值在 R 代码中称为标准差(sd=1)。这是为什么 ?

3) 样本“不正常分布”。他们不必使用 pnorm 吗?

谢谢

1个回答

样本“不正常分布”。他们不是必须使用 pnorm 吗?

问题是询问样本均值的分布,而不是原始变量的分布。

在温和条件下,样本均值往往比原始变量更接近正态分布。看看当我们从总体平均值为 15 和标准差为 10 的计数分布(表示干扰的数量)中采样时会发生什么:

样本大小 100 的分布直方图和均值直方图

(许多基础书籍将这种趋势归因于中心极限定理,尽管中心极限定理并没有告诉我们小样本会发生什么;尽管如此,这是一个真实的效果——我认为它更好地归因于 Berry-Esseen不等式)

让我感到困惑的是均值的标准误这个术语。

该术语的意思是“样本均值分布的标准差”。请参见右上方的直方图——它的标准偏差与 1 一致(对于这个大样本——来自样本均值分布的 30000 个值——我们得到的标准偏差略低于 1.01)。

我们看到样本均值的分布——虽然实际上不是正态的——在这种情况下非常接近正态;在这种情况下,使用平均值为 15 且标准差为 1 的正态分布作为平均值分布的近似值(来自原始偏斜分布的 100 个观测值的样本)将非常有效。

虽然足够大,可以将样本均值视为近似正态分布,但并非对每个分布都是如此——在某些情况下,即使样本均值的分布仍然可以很好地近似于正态分布在大样本中——你可能需要远大于 100 才能正常工作;我们不知道这里的人口分布,所以我们不确定是否足够(这是我使用的示例分布,你可以看到它至少适度倾斜);在这种情况下,n=100 大到足以近似正常是一个假设。n=100nn=100

1)为什么标准偏差不是原始问题中描述的 10?

因为样本均值的分布具有比您取均值的原始变量更小的标准差。这就是为什么你将原始标准差除以的样本的均值分布的标准差nn

2)答案给出平均值的标准误差为 1,但该值在 R 代码中称为标准差(sd=1)。这是为什么 ?

它是均值分布的标准偏差(调用pnorm是因为我们使用正态分布来近似样本均值的分布)。