为什么随机抽样好?

机器算法验证 贝叶斯 采样
2022-04-10 17:59:17

首先,是否有任何理论认为随机抽样是最优的?

其次,考虑下面的例子。假设一个瓮中有两个球。它们的颜色可以是白色或红色。所以有三种状态:两种红,一种白底红,两种白。

在随机抽样中,一个人随机抽取一个球,将其放回原处,然后再抽一次。在这种情况下,她无法完美地学习状态。

在非随机抽样中,随机抽取一个球并抽取剩余的球。在这种情况下,她可以完美地学习状态。所以看起来非随机抽样更好。

编辑:也许我混淆了“随机”和“独立”。在无放回抽样中,第一次抽签的结果(有条件地)与第二次抽签相关。从这个意义上说,我的问题可以改写为(有条件的)独立抽样是否以及为什么是好的。

3个回答

您似乎将随机抽样的想法是否对对象进行抽样的单独问题混为一谈您描述的第一种方法是带替换的简单随机样本,第二种方法是不带替换的简单随机样本。在第二种情况下,样本是整个总体,因此您确实可以完美地了解状态 --- 只要您采用与总体大小相同的简单随机样本而不进行替换,就会发生这种情况。

至于您最初的问题,有大量关于随机抽样属性的统计文献,以及为什么需要从样本中推断出更大的人口。简单的随机抽样不会偏爱总体中的任何对象而不是任何其他对象,这使得对更大的感兴趣总体进行无偏推断变得容易。抽样方法是否“最优”需要更详细地说明问题和最优标准。无论如何,可以合理地说简单随机抽样在广泛的抽样问题中表现良好。

中心极限定理可能是您正在寻找的理论。它表明随机样本均值服从正态分布(即使总体不是正态分布),这允许我们使用许多流行的统计数据,如标准差、p 值等。

当然,如果您感兴趣的整个人群是两个人,那么您将进行人口普查,而不是样本。当人口(个人、事件等)太大而您无法收集每个个案的数据时,或者在其他情况下不可能这样做(例如,某些情况是未来事件)时,使用抽样。

非随机样本可能对特定目的有益,也可能有害。对于许多目的,随机样本很有可能被证明是“好”的。

特别是,在统计学中,我们的目的是了解总体的一般属性。我们可以抽取一些非随机样本来帮助我们很好地做到这一点,但也有一些会误导我们。如果没有事先了解什么样的样本有用,就很容易搞砸。

另一方面,当我们抽取一个随机样本时,我们可以证明我们很有可能会得到一个对我们的目的来说“好”的样本。当然,也可能有确定性的方法来获得一个好的样本,但这些可能需要大量的知识和计划。随机抽样要容易得多。

在您的示例中,样本量太小,我们无法证明我上面提到的好东西。但如果瓮中有 100 或 1000 个球,随机抽样会得到很好的结果。