不知道分布时如何采样

机器算法验证 分布 估计 采样 样本量 算法
2022-03-30 03:19:05

我对统计学相当陌生(一些初学者级别的 Uni 课程),并且想知道如何从未知分布中抽样。具体来说,如果您不了解基础分布,是否有任何方法可以“保证”您获得具有代表性的样本?

举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以通过某种方式找出他们的确切财富;但你不能“采样”地球上的每一个人。因此,假设您随机抽样 n = 1000 人。

  1. 如果您的样本不包括比尔盖茨,您可能会认为不存在亿万富翁。

  2. 如果您的样本确实包括比尔盖茨,您可能会认为亿万富翁比实际情况更普遍。

无论哪种情况,您都无法真正说出亿万富翁的普遍程度或稀有程度。您甚至可能根本无法判断是否存在。

对于这种情况,是否存在更好的采样机制?

您将如何先验地判断使用何种采样程序(以及需要多少样本)?

在我看来,您可能必须对很大一部分人口进行“抽样”才能知道,任何接近合理确定性的东西,亿万富翁在地球上的普遍程度或稀有程度,这是由于潜在的分布有点困难跟...共事。

4个回答

我对您的说法提出异议,即“无论哪种情况,您都无法真正说出亿万富翁的普遍或稀有程度”。是人口中亿万富翁的未知比例。在 f 具有统一先验次抽奖后最终有 0 个亿万富翁的后验分布是 Beta(1,1001) 分布,如下所示: fff1000p(f|b=0)

次抽奖后结果证明有 1 个亿万富翁的后验分布是 Beta(2,1000) 分布,如下所示: f1000p(f|b=1)

在这两种情况下,您都可以确定你可能认为这不够精确。但实际上,对于大小为 1000 的样本,0.01 是相当精确的。您可能估计的大多数其他数量都没有这个精确。例如,男性的比例只能在 0.1 的范围内估计。 f<0.01

您可以做两件事(单独或组合)

为尾巴建模

一种是使用参数分布对分布的尾部进行建模。众所周知,幂律非常适合财富分配,因此您可以尝试帕累托分布。您可以通过最大似然拟合该分布,即通过找到最能代表您的样本的参数。或者更好的是,您可以在参数上放置贝叶斯先验,并计算完整的后验。

不幸的是,幂律对参数非常敏感,并且样本中没有很多大数据点,指数会有很多不确定性。估计亿万富翁的数量会对这个参数很敏感,但远低于亿万富翁的平均财富,所以情况还不算太糟糕。

重要性抽样

另一个是改变你收集样本的方式。假设你怀疑(正如你应该怀疑的那样)摩纳哥或苏黎世的人均亿万富翁人数比摩加迪修的多。如果你知道每个城市的人口,你可以在你期望看到更多亿万富翁的城市收集更大的样本,而在其他城市收集更小的样本。

所以说苏黎世有 400,000 人,摩加迪沙有 1,400,000 人,我们要对 9,000 人进行民意调查。我们感兴趣的是百万富翁的数量,而不是亿万富翁。

一个公正的样本将选择苏黎世的 2,000 人和摩加迪沙的 7,000 人。但是,我们将通过从苏黎世多七倍地抽样来对样本进行偏差。所以我们会“假装”苏黎世有 2,800,000 人,然后再进行调整。这意味着我们将在苏黎世调查 6,000 人,而不是在摩加迪沙调查 2,000 和 4,000 人。

假设我们在苏黎世样本中统计了 21 位百万富翁,而在摩加迪沙样本中只有 1 位。由于我们对苏黎世进行了 7 倍的抽样调查,因此我们只会将其视为 3 位百万富翁。

此过程将减少估计量的方差。它也可以与第一种方法结合使用,在这种情况下,您将在拟合参数分布时调整重要性采样。

我认为一个好的抽样方法是基于对系统的先前知识。在您的领域中,您了解可能影响抽样的潜在偏差。如果你没有这些知识,你可以从文学中获得它。

在您的示例中,您知道有亿万富翁,他们可能会偏向您的抽样。因此,您可以决定按教育水平、国家、工作类型等对抽样进行分层。有多种选择。

让我们尝试另一个例子。你的目标是确定公园中老鼠种类的丰度。在这个公园里,有森林和草地。根据文献,你知道森林里的老鼠比草地上的多。因此,您按此特征对抽样进行分层。还有其他可能的抽样程序,但我认为您的最佳信息将来自现有文献。

如果没有关于你的领域的文献?不太可能,但在这种情况下,我会做一个预先研究,看看抽样需要考虑哪些因素。

样品是否具有代表性与观察到的样品测量值无关。如果每组观察单位具有与任何其他相同大小的组相同的被选择概率,则样本具有代表性。当然,这很难做到,除非您可以完整地枚举您的样本空间。假设您可以得到(例如从人口普查数据中),一个简单的随机样本将具有代表性。

无论您如何获取样本,总会有至少三个不同的错误来源需要考虑:

抽样错误:您碰巧将比尔盖茨包括在您的代表性样本中。统计方法,尤其是置信区间的宽度等,旨在解决这个问题,前提是您对手头的分布有一些粗略的了解(例如,财富分布绝对不具备的正态性)。

抽样偏差:样本不具有代表性。示例:比尔盖茨有一个未列出的号码,因此您的电话调查永远无法联系到他(除非您使用“随机数字拨号”之类的方法)。这是一个极端的例子,但抽样偏差非常普遍。一种常见的情况是现场或便利样品:您在餐厅对餐厅顾客进行抽样,以了解他们是否喜欢这个地方、他们去那里的频率以及他们是否打算回来。回头客比一次性客户更有可能被抽样,而且这类样本的态度可能会严重偏颇。

反应偏差:测量本身是不准确的。这可能是由于从仪表故障到有意识的撒谎到量子效应(例如海森堡的不确定性原理)的任何原因。