随着样本量的增加,为什么结果的标准差会变小?有人可以提供一个外行的例子并解释为什么

机器算法验证 可能性 标准差 直觉
2022-03-16 06:45:28

随着样本量的增加(例如,具有 80% 优势的交易策略),为什么结果的标准差会变小?有人可以解释为什么标准偏差变小并且结果更接近真实平均值......也许提供一个简单,直观,外行的数学示例。

2个回答

随着样本量的增加(例如,具有 80% 优势的交易策略),为什么结果的标准差会变小?

这里的关键概念是“结果”。这些结果是什么?结果总体参数(例如均值)的估计量的方差μ.

例如,如果您正在测量样本方差sj2价值观xij在您的样本中j, 它不会随着样本量的增加而变小nj

sj2=1nj1ij(xijx¯j)2
在哪里x¯j=1njijxij是样本均值。

然而,方差的估计sμ2样本均值x¯j将随着样本量的增加而减少:

1njsj2

外行的解释是这样的。假设整个人口规模是n. 如果我们查看每个值xj=1n,我们的样本均值将等于真实均值:x¯j=μ. 换句话说,不确定性为零,估计量的方差也为零:sj2=0

但是,当您只查看大小样本时nj. 您计算样本均值估计量x¯j带着不确定性sj2>0. 所以,介于样本量之间njn样本均值的不确定性(方差)x¯j从非零下降到零。这是我能想到的最简单的解释。

也许最简单的思考方法是考虑总体和样本之间的差异。如果我问你样本中变量的平均值是多少,你不会给我一个估计值,是吗?您只需计算它并告诉我,因为根据定义,您拥有构成样本的所有数据,因此可以直接观察感兴趣的统计数据。相关系数在这个意义上没有什么不同:如果我问你样本中X 和 Y 之间的相关性是什么,我显然不关心样本之外和更大的群体(真实或形而上学)中的相关性是什么它是绘制的,然后你只需计算数字并告诉我,不涉及概率论。

现在,如果我们确实关心样本之外的这两个变量之间的相关性,即在某些未观察到的总体中,或者在不可观察的且在某种意义上恒定的现实因果动态中,该怎么办?(如果我们将其视为后者,则人口是“超级人口”;例如参见https://www.jstor.org/stable/2529429。)当然我们会进行显着性检验,否则使用我们的知道,在样本中,估计我们在总体中不知道的东西,包括开始解决您问题的总体标准偏差。

但首先让我们从另一个极端考虑它,我们收集的样本如此之大,然后它就变成了总体。想象一下人口普查数据,如果研究问题是关于这个国家的全部真实人口,或者它可能是一个普遍的科学理论并且我们有一个无限的“样本”:那么,再次,如果我想知道世界是如何运作的,我会利用我的无所不能和只是计算,而不是仅仅估计,我感兴趣的统计数据。如果我有一个脑屁并且不再是无所不能的,但仍然接近它,所以我错过了一个观察结果,而我的样本现在是一个观察结果,没有捕捉到整个人群怎么办?现在我需要再次进行估计,使用一系列值,它可能会以不同的概率取值——我无法再精确定位它——但我的事情是 实际上,我的估计仍然是一个数字——数字线上的一个点,而不是一个范围——而且我仍然有大量的数据,所以我可以有 95% 的信心说,真正感兴趣的统计数据位于某个非常范围很小。当然,这一切都取决于最后一次观察的值是什么,但这只是一个观察,所以它需要非常不同寻常才能改变我感兴趣的统计数据,其中,当然,不太可能并反映在我狭窄的置信区间中。

这枚硬币的另一面讲述了同样的故事:我确实拥有的大量数据可能会引导我计算样本统计数据,这些统计数据与我计算的样本统计数据非常不同,如果我可以用观察我错过了,但是纯粹偶然地抽取这样一个具有误导性、有偏见的样本的可能性非常非常低。当我报告我对感兴趣的人口统计数据真正所在位置的非常狭窄的置信区间时,这基本上就是我要考虑和交流的内容。

现在,如果我们从那里往回走,当然,置信度开始下降,因此合理的总体值的区间——无论该区间位于数字线上的哪个位置——开始扩大。我的样本仍然像往常一样是确定性的,我可以计算样本均值和相关性,我可以将这些统计数据视为关于如果我有完整的总体数据我将计算的内容的声明,但是样本越小,我需要对这些说法持怀疑态度,并且我需要更加相信我在人口数据中真正看到的与我在这个样本中看到的相去甚远的可能性。所以这一切都是为了反过来回答你的问题:我们对任何样本外统计数据的估计变得更加自信并收敛于一个点,

同样重要的是要了解统计数据的标准差专门指并量化从同一总体随机抽取的不同样本中获得不同样本统计数据的概率,同样,它本身对于感兴趣的统计数据只有一个真实值. 总体本身根本没有该统计数据的标准偏差-它是一个常数并且不会变化。另一方面,一个变量在总体和任何给定样本中都有自己的标准差,然后估计在给定大小的给定样本中,给定该变量的已知标准偏差,您可以得出的总体标准偏差。因此,当您可以根据样本中该变量的标准差得出总体变量标准差的点估计值周围的标准差(或者更确切地说是标准差)时,保持所有参考文献的正确性很重要。没有更简单的方式来谈论它。

最后,请注意,是的,样本肯定有可能为您提供总体方差的有偏表示,因此,虽然相对不太可能,但较小的样本总是可能不会只是对您撒谎感兴趣的总体统计数据,但也会对您撒谎,即您应该期望感兴趣的统计数据因样本而异。没有办法解决这个问题。想象一下,如果有人提出索赔,然后你问他们是否在撒谎。也许他们说是的,在这种情况下,您可以确定他们没有告诉您任何值得考虑的事情。但如果他们说不,你就有点回到第一方了。他们要么在撒谎,要么没有,如果你没有其他人可以问,你只需要选择是否相信他们。