我正在重新学习统计数据,并且对从 1 个样本的数据中获取标准误差的想法感到困惑(样本的标准偏差除以样本大小的平方根,即)。据我了解,标准误差是许多样本均值的分布,以试图衡量我们对总体均值的估计有多精确(不准确),但是如果只有一个样本呢?通常实验不能或只是不重复,并且只有一个总体样本,不是吗?那么,我怎么能假装知道我只是假设性地从总体样本中知道许多均值的分布呢?
如果这是频率论者与贝叶斯统计方法的一个例子,我只想了解论点的频率论者方面(只是为了理解它是什么),拜托。提前致谢!
我正在重新学习统计数据,并且对从 1 个样本的数据中获取标准误差的想法感到困惑(样本的标准偏差除以样本大小的平方根,即)。据我了解,标准误差是许多样本均值的分布,以试图衡量我们对总体均值的估计有多精确(不准确),但是如果只有一个样本呢?通常实验不能或只是不重复,并且只有一个总体样本,不是吗?那么,我怎么能假装知道我只是假设性地从总体样本中知道许多均值的分布呢?
如果这是频率论者与贝叶斯统计方法的一个例子,我只想了解论点的频率论者方面(只是为了理解它是什么),拜托。提前致谢!
据我了解,标准误差是许多样本均值的分布,以试图衡量我们对总体均值的估计有多精确(不准确),但是如果只有一个样本呢?
样本不仅仅是一个样本,而是包含许多单独的观察结果。每个观察值都可以视为一个样本('大小为 1 的样本和 '1 大小的样本'?)。因此,您实际上有多个样本可以帮助估计样本均值的标准误差。
为了估计样本均值的方差,您宁愿拥有一百万个大小的样本还是多个(比如一百个)十个样本?
一个样本几乎永远不会被挑选出来,以至于它与总体完全匹配。有时样本可能会选择相对较低的值,有时样本可能会选择相对较高的值。
由于挑选样本时的这些随机变化,样本均值的变化与抽样总体的变化有关。如果总体在高值和低值上分布广泛,则具有相对高/低值的随机样本中的偏差将对应于这种广泛分布并且它们会很大。
样本均值的误差/变化与总体的方差有关。所以我们可以借助对后者的估计来估计前者。我们可以通过总体的方差来估计 sample.means 的方差。对于总体方差的估计,一个样本就足够了。
样本均值的方差样本的大小与总体的方差有关
所以估计,单个样本就足够了,也可以用来估计.
我建议为您的问题提供一些视觉/直觉......使用经验方法(引导)使其更加具体,特别是参考以下内容:
通常实验不能或只是不重复,并且只有一个总体样本
正如您强调的那样,我们正在谈论统计数据的标准误差(在我们的例子中是平均值)。因此,让我们假设您有来自给定国家/地区的 20 人身高的随机样本:
## [1] 192.3214 144.4797 151.3796 155.2519 147.5844 147.9056 171.1867 159.3074
## [9] 163.0097 190.9857 165.8155 198.2192 192.2418 165.3628 186.9498 167.3355
## [17] 148.6400 156.6933 160.8472 174.4827
从这个样本中,您得到 167 的平均值和 17 的标准差。
你只有一个随机样本,但你可以想象,如果你可以再拿一个,你可能会得到相似的值,有时是重复的,有时是更极端的值......但是看起来像你的初始随机样本。
因此,从这些初始样本值并且没有发明新的值(仅重新采样并替换),您可以想象许多其他样本。例如,我们可以想象三个如下:
## [1] 165.8155 159.3074 148.6400 165.3628 155.2519 151.3796 192.2418 163.0097
## [9] 159.3074 192.2418 186.9498 163.0097 144.4797 198.2192 159.3074 190.9857
## [17] 165.3628 159.3074 167.3355 156.6933
## [1] 147.5844 147.9056 151.3796 163.0097 167.3355 159.3074 167.3355 156.6933
## [9] 156.6933 159.3074 147.9056 190.9857 192.2418 171.1867 198.2192 147.9056
## [17] 155.2519 167.3355 148.6400 165.8155
## [1] 192.2418 198.2192 156.6933 192.3214 148.6400 192.3214 198.2192 165.8155
## [9] 167.3355 144.4797 163.0097 148.6400 159.3074 163.0097 163.0097 174.4827
## [17] 165.3628 165.8155 174.4827 159.3074
它们各自的平均值将与最初的不同......但有趣的是,如果我们重复这个重新采样练习 10,000 次,例如,我们计算每个生成的样本的平均值,我们会得到类似的东西(将 R 代码留在这里,只是为了说明),以初始样本均值为中心的均值分布:
set.seed(007)
spl <- 167+17*scale(rnorm(20))[,1] #Forcing to have same mean and sd for all samples
library(boot)
myFunc <- function(data, i){
return(mean(data[i]))
}
bootMean <- boot(spl , statistic=myFunc, R=10000)
hist(bootMean$t, xlim=c(150,185), main="Sample size n=20")
abline(v=mean(spl), col="blue")
因此,上面的直方图代表了 10,000 个样本的均值分布……我们从初始样本构建。根据经验,我们可以确定这个(采样)分布的标准偏差(这是我们的均值标准误差):
sd(bootMean$t)
## [1] 3.74095
有趣的是,如果我们计算标准误差的公式,我们得到非常相似的东西:
sd(spl)/sqrt(20)
## [1] 3.801316
均值的标准误差告诉我们数据在均值周围的分布情况。
为了完成这个直观的概述,让我们看看如果我们增加初始样本量会发生什么(以了解这)。
因此,如果我们增加样本量,标准误差会变得更小……我们会减少估计总体均值的误差。同样,我们可以凭经验看到该公式仍然成立:
sd(bootMean$t)
## [1] 0.7740625
sd(spl)/sqrt(500)
## [1] 0.7602631
频率论方法有一个称为置信度程序的概念。置信区间就是这样的一个例子。这是我们有信心的过程,而不是特定的区间或点估计。
如果您要在样本空间上多次执行实验,您会得到许多不同的估计值。估计量可用于形成估计分布。这称为估计量的抽样分布。该分布与人口具有可预测的关系。
标准误差以及样本均值、样本标准差等都是最优程序。它引出了最优的问题是什么?
这些估计量中的大多数是总体参数的最佳无偏估计量。通常,最佳的定义是最小化某种形式的损失函数。它回答了“什么是总体中真实值的最佳估计量,在我的估计量将无偏并最小化损失的限制下”的问题。
如果您将反复从总体中抽取样本,那么您会发现每个样本的样本估计值将近似地平均为总体参数。但是,在没有看到任何其他样本的情况下,这是最好的估计。如果您有很多样本,那么如果您认为有必要对当时收集的估计值进行荟萃分析。
标准误差是从提供的数据中对感兴趣的估计量的抽样分布的标准差进行的最佳估计。
考虑这一点的一种方法是每个样本都有信号和噪声。每个过程的目标是根据优化过程中的任何约束和规则来捕获尽可能多的信号,并尽可能多地丢弃噪声。均值的样本标准误差,或样本均值,或样本中位数,或某事物的样本估计量是给定样本的总体参数的最佳估计。
没有贝叶斯等效估计器,因为如果统计学家使用贝叶斯程序,那么它只是从新样本更新后验,而不创建感兴趣参数的两个估计。
抽样分布实际上是过程的产物,例如试图找到总体中位数。它与其说是人口的属性,不如说是试图找到人口参数的属性。它是样本估计范围的点估计,而不是总体范围的估计。因为抽样分布取决于人口的广泛程度,所以人口的描述性统计与抽样过程本身的描述性统计之间存在联系。
从精度的角度考虑有点危险。想象一所学校的学生人数是偶数,而且学校很大。您掷一枚公平的硬币,将学生分为 A 组或 B 组。您注意到 SE(A)>SE(B)。
抛硬币的哪个方面使 B 组的估计更准确?当然没有。它不是更精确,它只是不同。两者都是对抽样误差的估计,一个恰好比另一个大。
标准误的有用性问题是另一回事。如果您观察来自世界各地的五个随机选择的人的左大脚趾,那么您的估计精度将低于您从 3000 万人的样本量中估计的精度。标准误差会告诉你,你的精度要低 2449 倍。那有用吗?