如果您随机抽样,则不太可能出现特别有偏见/不具代表性的样本。
在理想的世界中,您将拥有一个非随机样本,该样本完美地准确地代表了总体,使得样本中每个人口统计的比例与整个人口中的比例相同。
这是一个在现实世界中很难解决的问题(至少可以这么说),因为您需要了解每个人口统计数据以及它如何影响您的结果。您可能会说“24 岁、受过大学教育的白人女性”已经足够具体了,您只需要确保您的样本中有正确比例的此类人(对于所有其他类似的人口统计也是如此),但他们可能是根据他们的居住地、学习地、成长地、宗教信仰和许多其他因素,他们或多或少地可能以某种方式行事。所以你也需要考虑到所有这些。这将是一大堆工作,在这个过程中,你可能会在不使用的情况下回答你的原始查询您生成的样本。基本上这样做并没有多大意义。
在现实世界中,随机样本是获得人口准确表示的“足够好”的尝试。
现在确实有可能得到一个随机样本,它不能很好地反映整个人口的样子(即“有偏见的”样本)。
但是,当随机抽样时,获得任何给定样本的概率会显着降低,因为样本变得更加有偏差,并且总体上对总体的表示不太准确。当您有较大的样本时,这尤其适用。
这是可以接受的,因为统计数据通常是关于对正确性的高度信心,而不是绝对确定性。
可以这样想:如果您的人口中有 70% 是女性,而您随机选择一个人,那么您有 70% 的机会选择女性。因此,您预计随机样本中大约 70% 是女性。在所有情况下,数学可能不会精确到70%,但这是一般的想法。所以样本比例应该大致对应于总体的比例。如果您的样本以某种方式以 0% 的女性告终,您应该会感到相当惊讶。
根据您获取随机样本的方式,也可能存在问题。如果您想从居住在一个国家/地区的每个人中抽取样本,例如,您可以获取注册选民或持有驾驶执照的人的随机子集。但是,您的样本将严重偏向已登记投票或拥有驾驶执照的人。
这也可能导致部分随机样本,您将来自不同来源的不同大小的随机样本组合在一起,以便最终结果更能代表整个人口。虽然我不确定这在实践中是否以及多久进行一次。为整个人群找到一个单一的数据源会更好。
但这是另一个问题。