采样在“大数据”时代是否相关?

机器算法验证 采样 数据挖掘 大数据
2022-01-30 07:01:42

或者更“会”?大数据使统计和相关知识变得更加重要,但似乎低估了抽样理论。

我看到了围绕“大数据”的炒作,不禁想知道“为什么”我要分析所有内容难道没有理由设计/实施/发明/发现“抽样理论”吗?我不明白分析数据集的整个“人口”的意义。仅仅因为你能做到并不意味着你应该(愚蠢是一种特权,但你不应该滥用它:)

所以我的问题是:分析整个数据集在统计上是否相关?如果您进行采样,您能做的最好的事情就是尽量减少错误。但是,最小化该错误的成本真的值得吗?“信息的价值”真的值得在大规模并行计算机上分析大数据所付出的努力、时间成本等吗?

即使分析整个人群,结果充其量也只是一个正确概率较高的猜测。可能比抽样高一点(或者会更多?)从分析总体与分析样本中获得的洞察力是否会有很大差异?

还是我们应该接受它作为“时代变了”?考虑到足够的计算能力,采样作为一项活动可能变得不那么重要:)

注意:我不是想开始辩论,而是寻找答案来理解为什么大数据会做它所做的事情(即分析一切)并无视抽样理论(或者它没有?)

4个回答

总之,的。我相信在“大数据”世界之内和之外,仍然存在适合采样的明确情况,但大数据的性质肯定会改变我们的采样方法,我们将使用更多的数据集,这些数据集几乎完整地代表了底层数据。人口。

关于抽样:根据具体情况,抽样是否适合做几乎总是很清楚的。抽样并非天生有益的活动;这正是我们所做的,因为我们需要权衡实施数据收集的成本。我们正在尝试对人群进行表征,并且需要选择适当的方法来收集和分析有关人群的数据。当数据收集或数据处理方法的边际成本很高时,抽样是有意义的。在这种情况下,试图覆盖 100% 的人口并不是对资源的一种很好的利用,因为你通常最好解决诸如无响应偏差之类的问题,而不是对随机抽样误差进行微小的改进。

大数据有何不同?“大数据”解决了我们多年来遇到的许多相同问题,但“新”是数据收集发生在现有的计算机中介过程中,因此收集数据的边际成本基本上为零。这大大减少了我们对采样的需求。

我们什么时候还会使用采样?如果您的“大数据”人群是解决问题的正确人群,那么您只会在少数情况下使用抽样:需要运行单独的实验组,或者如果数据量太大而无法捕获和处理(许多我们现在可以轻松处理数百万行数据,因此这里的边界越来越远)。如果我似乎在忽略您的问题,那可能是因为我很少遇到数据量在收集或处理阶段成为问题的情况,尽管我知道很多人有

对我来说似乎很难的情况是,当您的“大数据”人群不能完美地代表您的目标人群时,因此需要权衡取舍。假设您是区域交通规划师,Google 提供了访问其 Android GPS 导航日志的权限以帮助您。虽然使用该数据集无疑会很有趣,但人口可能会系统地偏向低收入、公共交通用户和老年人。在这种情况下,发送给随机家庭样本的传统​​旅行日记虽然成本更高且数量更少,但仍可能是更好的数据收集方法。但是,这不仅仅是“采样与大数据”的问题,它'

虽然移动设备等可能会产生大量的大数据,但其中几乎没有可用的数据。如果您想使用foursquare 预测城市出行模式,您的估计流量可能会相差一个数量级。更糟糕的是,您不知道您是高估还是低估了这些流量。您可以获得疯狂的foursquare用户的城市旅行模式的精确图片,但除非每个人都需要(1)保持智能手机正常工作,(2)一直运行foursquare应用程序,以及(3)注册任何他们停留超过 10 分钟的地方(即,进行电子人口普查;让自由主义者抱怨 Google 和 Facebook 知道您的一切),您的数据将包含未知的偏见,您的电子杜威将继续击败真实世界杜鲁门(可点击):


(来源:whatisasurvey.info

如果有的话,我希望这段历史会重演,从大数据产生的一些大的“啤酒+尿布”预测会被研究人员使用更严格的抽样方法推翻。令人惊讶的是,即使响应率下降,基于概率的调查仍然准确。

每当应用统计推断技术时,重要的是要清楚其旨在得出结论的人群。即使收集到的数据很大,也可能只涉及到一小部分人口,可能不能很好地代表整体。

例如,假设一家从事某个行业的公司收集了某个国家/地区客户的“大数据”。如果它想使用该数据得出关于其在该国家/地区的现有客户的结论,那么抽样可能不是很相关。但是,如果它想对更大的人口(潜在客户和现有客户,或另一个国家/地区的客户)得出结论,那么必须考虑所收集数据的客户在多大程度上具有代表性(可能在收入、年龄方面) ,性别,教育等 - 更大的人口。

时间维度也需要考虑。如果目标是使用统计推断来支持预测,那么必须将总体理解为延伸到未来。如果是这样,那么再次考虑是否在代表未来可能获得的情况下获得的数据集(无论多么大)变得至关重要。

从我所看到的大数据/ML 热潮来看,考虑抽样和抽取样本的总体与以往一样重要——但考虑得更少。

我正在“审核”斯坦福 ML 课程,到目前为止,我们已经涵盖了回归和神经网络,但几乎没有提到人口推断。由于这门课已经有 6 位数的人参加,所以现在有很多人知道如何非常愿意地拟合数据,而没有任何样本概念的概念。