为什么增加样本量会降低(抽样)方差?

机器算法验证 方差 采样 统计能力
2022-02-02 12:32:41

大图:

我试图了解增加样本量如何增加实验的力量。我的讲师的幻灯片用 2 个正态分布的图片解释了这一点,一个用于零假设,一个用于替代假设,以及它们之间的决策阈值 c。他们认为,增加样本量会降低方差,从而导致更高的峰度,减少曲线下的共享区域,从而降低 II 型错误的概率。

小图:

我不明白更大的样本量如何降低方差。
我假设您只是计算样本方差并将其用作正态分布中的参数。

我试过:

  • 谷歌搜索,但大多数接受的答案有 0 票或仅仅是示例
  • 思考:根据大数定律,根据我们假设的正态分布,每个值最终都应稳定在其可能值附近。因此,方差应该收敛到我们假设的正态分布的方差。但是该正态分布的方差是多少?它是最小值吗?即我们能否确定我们的样本方差会减小到该值?
4个回答

平均值的标准偏差小于单个观测值的标准偏差。[在这里,我将假设具有有限总体方差的独立同分布观察;如果您放宽前两个条件,则可以说类似的事情。]

这是一个简单事实的结果,即两个随机变量之和的标准偏差小于标准偏差之和(只有当两个变量完全相关时它才能相等)。

事实上,当你处理不相关的随机变量时,我们可以说一些更具体的东西:变量之和的方差是它们的方差之和。

这意味着对于具有独立(甚至只是不相关)变量,均值的方差是个体的方差除以样本大小n

对应于独立(甚至只是不相关)变量,它们的均值的标准差是个体的标准差除以样本量的平方根:n

σX¯=σ/n

因此,当您添加更多数据时,您会获得越来越精确的组均值估计。类似的效果适用于回归问题。

由于我们可以通过增加样本量来获得更精确的平均值估计,因此我们更容易区分靠近的均值——即使分布重叠很多,通过采用大样本量,我们仍然可以估计它们人口意味着足够准确地告诉他们不一样。

N 增加时缩小的变异性是样本均值的变异性,通常表示为标准误差。或者,换句话说,样本均值准确性的确定性正在增加。

想象一下,您进行一个实验,收集 3 名男性和 3 名女性并测量他们的身高。你有多确定每组的平均身高是不同男性和女性人群的真实平均值?我应该认为你根本不会很确定。您可以轻松地收集 3 个新样本并找到距离第一个样本几英寸的新平均值。很多这样的重复实验甚至可能导致女性比男性高,因为平均值差异很大。使用低 N 时,您无法确定样本的平均值,并且样本之间的平均值差异很大。

现在想象每组有 10,000 个观察值。很难找到 10,000 个新样本,这些样本的平均值相差很大。它们的可变性要小得多,您会更加确定它们的准确性。

如果您可以接受这种思路,那么我们可以将其作为标准误差插入到您的统计计算中。从它的方程可以看出,它是一个参数的估计,(随着 n 的增加应该变得更准确)除以一个总是随着 n 增加的值该标准误差表示计算中的手段或效果的可变性。它越小,您的统计测试就越强大。σn

这是 R 中的一个小模拟,以演示标准误差与初始实验的许多次重复的平均值的标准差之间的关系。在这种情况下,我们将从总体平均值 100 和标准差 15 开始。

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

请注意最终标准偏差如何接近理论标准误差。通过在此处使用 n 变量,您可以看到随着 n 的增加,可变性度量将变得更小。

[顺便说一句,图中的峰度并没有真正改变(假设它们是正态分布)。降低方差不会改变峰度,但分布看起来会更窄。目视检查峰态变化的唯一方法是将分布置于相同的尺度上。]

如果你想知道美国公民的平均体重是多少,那么在理想情况下,你会立即让每个公民都踩到秤上,收集数据。你会得到一个准确的答案。这是非常困难的,所以也许你可以让一些公民踏上规模,计算平均值并了解人口的平均值是多少。你会期望样本平均值完全等于总体平均值吗?我希望不是。

现在,你同意如果你有越来越多的人,在某个时候我们会越来越接近人口平均值吗?我们应该,对吧?最后,我们能得到的最多的人是整个人口,它的平均值就是我们正在寻找的。这就是直觉。

这是一个理想化的思想实验。实际上,有一些并发症。我给你两个。

  • 假设数据来自柯西分布您可以无限增加样本,但方差不会减少。该分布没有总体方差。事实上,严格来说,它也没有样本均值。这是可悲的。令人惊讶的是,这种分布是非常真实的,它在物理学中到处出现。
  • 想象一下,您决定继续确定美国公民的平均体重。所以,你拿着你的体重秤,从一个家到另一个家。这将花费你很多年。当您收集数百万个观察值时,您的数据集中的一些公民的体重会发生很大变化,有些人已经死亡等。关键是在这种情况下增加样本量对您没有帮助。

我相信大数定律解释了为什么当样本量增加时方差(标准误差)会下降。维基百科关于此的文章说:

根据规律,大量试验得到的结果的平均值应该接近预期值,并且随着试验次数的增加而趋于接近。

根据中心极限定理:

抽取单个随机样本时,样本越大,样本均值越接近总体均值(在上面的引用中,将“试验次数”视为“样本量”,因此每个“试验”都是一个观察值)。因此,在抽取无限个随机样本时,每个样本的大小越大,样本分布的方差越小。

换句话说,当每个样本大而不是小时,钟形会变窄,因为这样每个样本均值将更接近钟形的中心。