如果非随机样本与随机样本相同怎么办?

机器算法验证 数理统计 采样
2022-02-04 15:45:39

有时,在政治民意调查中,民意调查人员从给定人口中抽取非随机样本,但随后他们将随机抽样理论的结果应用于他们的非随机样本。我听说有人(不是统计学家)认为这仍然是有效的程序,因为获得的非随机样本是可能的随机样本之一。

事实上,假设发生以下情况: 研究员 1 通过某种非随机抽样方法,选择个体 A、B、C。研究员 2 利用随机抽样,得到相同的样本 A、B、C。两者都应用随机抽样理论来分析他们的样本。有什么不同?是什么让研究员 1 错了?

想法

至少到目前为止,我对此的唯一想法是,使随机样本在理论上有效的是随机抽样规定的程序,而不是获得的特定样本。

如果不是这种情况,您基本上可以修复任何您想要的样本(例如,3000 名白人、24 岁、受过大学教育的女性的样本),然后声称这个样本可以使用,因为它是一个您的人口中 3000 人的可能随机样本。

4个回答

和你的朋友一起玩扑克,下很多钱,然后作弊给自己一个皇家同花顺(它打败了其他手牌)。

“那是作弊!”

“不,这是可能的手之一。付清。”

是的,这是关于程序的。

(实际上不要玩扑克技巧,但我认为这很重要。)

如果您随机抽样,则不太可能出现特别有偏见/不具代表性的样本。

在理想的世界中,您将拥有一个非随机样本,该样本完美地准确地代表了总体,使得样本中每个人口统计的比例与整个人口中的比例相同。

这是一个在现实世界中很难解决的问题(至少可以这么说),因为您需要了解每个人口统计数据以及它如何影响您的结果。您可能会说“24 岁、受过大学教育的白人女性”已经足够具体了,您只需要确保您的样本中有正确比例的此类人(对于所有其他类似的人口统计也是如此),但他们可能是根据他们的居住地、学习地、成长地、宗教信仰和许多其他因素,他们或多或少地可能以某种方式行事。所以你也需要考虑到所有这些。这将是一大堆工作,在这个过程中,你可能会在不使用的情况下回答你的原始查询您生成的样本。基本上这样做并没有多大意义。

在现实世界中,随机样本是获得人口准确表示的“足够好”的尝试。

现在确实有可能得到一个随机样本,它不能很好地反映整个人口的样子(即“有偏见的”样本)。

但是,当随机抽样时,获得任何给定样本的概率会显着降低,因为样本变得更加有偏差,并且总体上对总体的表示不太准确。当您有较大的样本时,这尤其适用。

这是可以接受的,因为统计数据通常是关于对正确性的高度信心,而不是绝对确定性。

可以这样想:如果您的人口中有 70% 是女性,而您随机选择一个人,那么您有 70% 的机会选择女性。因此,您预计随机样本中大约 70% 是女性。在所有情况下,数学可能不会精确到70%,但这是一般的想法。所以样本比例应该大致对应于总体的比例。如果您的样本以某种方式以 0% 的女性告终,您应该会感到相当惊讶。


根据您获取随机样本的方式,也可能存在问题如果您想从居住在一个国家/地区的每个人中抽取样本,例如,您可以获取注册选民或持有驾驶执照的人的随机子集。但是,您的样本将严重偏向已登记投票或拥有驾驶执照的人。

这也可能导致部分随机样本,您将来自不同来源的不同大小的随机样本组合在一起,以便最终结果更能代表整个人口。虽然我不确定这在实践中是否以及多久进行一次。为整个人群找到一个单一的数据源会更好。

但这是另一个问题。

尚未明确解决的核心问题是,当正确执行抽样时(随机性是一个标准),得到的样本是被抽样总体的基本分布的忠实代表。这使我们能够从样本中对总体做出有意义的推断。

当一个样本不是随机选择时,取决于它是如何选择的,任何由此产生的推论都会被扭曲,因为样本不再一定代表所观察到的结果的可能性。

以这种方式表达它很重要,因为非随机抽样并不意味着罕见或不太可能的结果被过度代表。例如,您可以始终选择二项式随机变量的众数——这显然不是随机的。它仍然违反了样本代表总体的概念。

这说明了条件概率的单向性。给定一个特定的样本和一个具有明确概率的假设,我们可以自信地说,在给定假设的情况下,看到样本的概率是多少。但是在频率统计中,我们不能说给定样本的假设概率是多少。

样本是随机抽取的,通常不会明确表示为原假设的一部分,但它总是隐含的一部分。当我们拒绝空值时,我们拒绝所有的空值。请记住,用“and”否定的语句会变成带有“or”的语句。因此,如果空值是“样本是从正态分布中抽取的,均值是,标准差是,并且样本彼此独立,并且......”那么拒绝空值意味着我们相信“”样本不是从正态分布中抽取的,或者平均值不是或标准偏差不是μσμσ或者样本不是相互独立的,或者......”只有消除样本是樱桃采摘的可能性,我们才能明确得出其他可能性之一成立的结论。

从贝叶斯的角度来看,这表明不仅更新你的知识而且更新你的元知识的重要性。也就是说,不仅你知道什么,还有你是怎么知道的。围绕蒙蒂霍尔问题的许多争议来自元知识的模棱两可性质。如果主持人总是从两个未选择的门中随机挑选并显示其背后的内容,那么切换对您的赔率没有帮助。但如果主人总是选择一扇有山羊的门并打开它,那么切换确实有助于你的几率。

另一个谜题是“假设你知道一个特定的女人有两个孩子,并且你知道她的一个孩子是男孩。她有两个男孩的概率是多少?” 答案取决于您如何知道她的一个孩子是男孩。如果你问她大孩子是不是男孩,她说是,那么概率是 1/2。但如果你问她是否有孩子是男孩,她说是,那么概率是 1/3。