从大型数据集中进行抽样会导致正确的推断吗?

机器算法验证 回归 推理 数据集 大数据 二次抽样
2022-03-25 11:31:29

假设我们有一些人口,我们获得该人口的“代表性”随机样本( y_i,其中非常大(数百万)并且是响应的多元预测器。(yi,xi)i=1nnxi=(xi1,xi2,...xip)yi

在处理大型现代数据集时,这种情况相当普遍,但仍然假设我们想使用(比如说)回归对数据进行一些有意义的推断。

假设我们的计算能力有限,一种方法是从较大的数据中抽取随机样本。也就是说,我们可以,其中(yj,xj)j=1k(yi,xi)i=1nk<<n

假设这个子样本代表了更大的样本,我们可以使用子样本来推断更大的原始总体吗?

我的想法是,是的,这是可行的,我们从子样本得出的回归系数应该反映较大样本的系数,这样我们就可以对总体进行推断,尽管方差略高。但是如果子样本足够大(比如一百万?),那么这个方差应该不会有那么大的问题,因为大多数形式的回归都是一致的,而且我们正在处理大量数据点。想法?β

编辑:在我使用“代表”这个词时,我发现了这个线程:

“代表性样本”究竟指的是什么?

也许作为一个工作定义,我们可以说样本是在没有偏见的情况下从总体中抽取的。或者也许:如果我们可以对整个数据进行回归拟合,我们将得到β的无偏估计。如果样本没有“代表性”,那么估计自然会有一些偏差,不是吗?

第二个问题:这个问题的可能答案将如何根据我们所说的代表的含义而改变?

关于“随机”这个词:如果我们非常大的数据集由通过随机样本获得的数据点组成,那么我认为二次抽样没有问题,但当然,我想听听其他人对此的看法。如果抽样机制不完全清楚怎么办?我们还能取一个简单的随机子样本吗?

更一般地说,在什么条件下子样本会导致对总体的正确推断?

4个回答

如果您拥有整个人口,那么您实际上并没有对变量进行任何推断,这只发生在您抽取样本时。假设您正在使用一个根据身高预测体重的模型,所以它是

w=ah+ϵ

其中是一些错误。不知何故,你收集了地球上所有人口的数据。或者更好的是,任何曾经生活过的人。但是,人是什么?您已经在这里提出了一些有趣的问题。ϵ

但是,让我们坚持这个计划。对于整个人口,您估计为“a”。然后我们抽样到 100 万人。如果它是一个随机样本,您可以限制您对该样本的推断与真实值的差距。在频率统计中,您假设 a 的“真实”值推断,并且也将非常接近对较小人口的推断。在对误差的假设下,对于样本,估计量的方差将与 1 与 1 与 100 万的平方成正比,而 1 与该原始推断的总体规模的平方成正比。这是从中心极限定理得出的。所以两者都接近“真实”a

我提到了常客,所以现在我也不得不提一些其他观点,但是贝叶斯统计中的推断也将几乎相同,尽管您可能并没有真正假设 a 的“真实”值而是更新在衡量所有这些人之后你的信念。但是数学仍然非常有效,如果您使用样本进行计算,它将非常接近对整个人口的推断。a

不管估计量方差如何,这里更有趣的一点是该模型显然不是事实。没有真正的价值,它只是您可以信任用于您的用例的简化。这适用于任何模型,无论它看起来多么复杂。a

另一个想法是,如果你有大数据,通常情况下你有很多与你估计的变量数量相关的数据。在那个尺度上,使用中心极限定理来推导估计量方差有时会遗漏更大的一点,就像在上一段中一样,你的模型是错误的,你已经知道了。例如,如果您使用如上所述的简单线性回归,人口为 100 万人,您的估计方差约为 1 比 100 万的平方根,即 0.001。因此,您的报告将是,“包含在区间a[1.234,1.235]. 意义是巨大的。”。但在这一点上,一个更好的问题可能是,这个模型实际上从身高预测体重的效果如何?你应用交叉验证和类似的东西,它看起来就像机器学习更多的。

是的,这行得通。所有数据都是样本总体。如果您有足够的能力在某些指标上达到某种程度的性能,那么您就已经实现了目标。数据大小通常会有一个收益递减点。因此,更多的数据将没有什么不同。只要您有足够的能力对测试数据进行适当的概括,那么您就很好。此外,您可以使用较大数据集中的非抽样实例进行测试。

我想这取决于你试图对人口做出什么样的推论。一般来说,您可以进行任何类型的推断,包括关于用于学习总体参数的估计器的推断。这个问题立即让我想到了 bootstrap 和 jackknife 重采样技术,它们通常用于推断估计量的方差。

这些方法至少在某些情况下会失败:折刀法无法估计样本中位数的方差。因此,尽管它可能在某些情况下有效,但它不适用于所有子采样技术,适用于所有类别的推理。

在无限人口环境中肯定是这种情况,但至少就大数据而言,IRL 很少出现这种情况。

例如,如果我经营一家保险公司并管理索赔,我可以对所有索赔进行统计分析,甚至只是对一个很大的子集进行统计分析。这里有一个挑战。如果我对我的声明进行 n/N > 0.3(30% 或更多)的简单随机样本 (SRS),则计算 CI 和 p 值的正常方法将无法复制。因为如果再次进行研究,我很可能会在第一次迭代和第二次迭代中抽取相同的 n 中的一个,以此类推,这意味着我对 SE 的估计将太大(如果数据是真正独立的)或可能太小(如果存在依赖性)。

在独立数据假设下可以使用有限样本校正。正确识别相关结构是估计统计数据的校正抽样分布的要求。