大数据与多假设检验?

机器算法验证 假设检验 相关性 多重比较 因果关系 大数据
2022-03-26 13:54:28

Nate Silver 在他出色的“噪音与信号”中警告说,我们非常敬畏大数据。但是,许多领域的大数据预测都是灾难性的(金融市场和经济学仅举几例)。使用更多数据,您会得到更多虚假相关性、更多误报和错误答案。在这样说时,他还依赖于 Ioannidis 的出色工作,他指出超过 2/3 的科学发现是错误的,因为它们无法复制(基于对工作论文的广泛审查)。换句话说,请注意多重假设检验的许多陷阱,尤其是当您甚至没有从一开始就提出假设时。“相关不必然导致因果”仍然盛行。

现在,在 Viktor Mayer-Schonberger 和 Kenneth Cukier 撰写的新书(称为大数据)中,大数据看起来更有前途。鉴于样本的大小通常等于整个人口,您可以检测到以前无法检测到的数据子集之间的细粒度关系。而且,在这个大数据时代,相关性似乎远比因果关系重要。弄清楚哪些变量是可预测的,比弄清楚哪些变量是真正的因果关系(这通常会变成一个难以捉摸的追逐),可以获得更好和丰富的结果。作者提到了几个旨在提取和分析大数据集的新工具,包括神经网络、人工智能、机器学习、敏感性分析等。由于不熟悉其中任何一个(尤其是对传统统计和假设检验非常熟悉),我无法判断作者的陈述是否准确(他不是量化专家)。这些技术是否真正避免了虚假相关性、多重假设检验、模型过度拟合和假阳性结果的陷阱?

你能调和这两种观点吗:Nate Silver vs Viktor Mayer?

3个回答

这不是全部答案,但一个重要的考虑因素是数据的哪一部分很大。

考虑以下示例。我正在对人类的物理测量进行一些分析。对于每个志愿者,我会测量眼睛之间的距离,然后是每个手指的长度、胫骨的长度等。然后我将所有内容记录在一张大表中以进行一些探索性分析。

如果我决定让我的数据更大,我可以做两件事,我可以为每个人做更多的测量(即更多的特征)。这是危险的,因为它增加了虚假相关的可能性。

然而,如果我决定增加实例的数量,它实际上应该会减少虚假相关的概率,虽然发现的相关可能并不意味着因果关系,但它们会更显着。

这与维度灾难密切相关,它告诉您添加特征(即维度)会导致从数据中可靠地推断事物所需的实例数量呈指数增长(除非您的数据具有较低的内在维度,即。高度相关的特征)。

就个人而言,我将大数据视为实例数量而非特征数量的增加,但这是造成混淆的原因。

要考虑的另一件事是人们如何使用大数据(而不是“小”数据)。大数据在输入分析之前通常需要多个预处理步骤。有时不清楚在这些数据集中究竟要测试什么。当涉及到最终分析时,这两个事实相结合允许相当大的回旋余地。经常发生的情况是,人们进行多项分析,然后选择(或倾向于选择)证实他们的先入之见或返回“积极”结果而不是难以发布的空结果的分析。换句话说,落入“虚假相关、多重假设检验和假阳性结果的陷阱”的不是分析技术,而是人类。

“大数据”通常是指具有数以百万计的受试者的数据集,并且每个受试者的测量值相对较少(也称为“高”数据)。对于宽而不是高的数据,已经完成了很多工作,一个很好的来源是 Efron 最近的书“大规模推理:用于估计、测试和预测的经验贝叶斯方法”,它处理(除其他外)多重假设检验。对于真正高大的数据,我没有看到太多理论,尽管有大量与算法相关的工作(请参阅“海量数据集的挖掘”谷歌它,你会找到合法免费的 pdf)。还有一些关于开发高数据统计方法的工作,例如 Kleiner、Talwalkar、Sarkar 和 Jordan 的“The Big Data bootstrap”。