Nate Silver 在他出色的“噪音与信号”中警告说,我们非常敬畏大数据。但是,许多领域的大数据预测都是灾难性的(金融市场和经济学仅举几例)。使用更多数据,您会得到更多虚假相关性、更多误报和错误答案。在这样说时,他还依赖于 Ioannidis 的出色工作,他指出超过 2/3 的科学发现是错误的,因为它们无法复制(基于对工作论文的广泛审查)。换句话说,请注意多重假设检验的许多陷阱,尤其是当您甚至没有从一开始就提出假设时。“相关不必然导致因果”仍然盛行。
现在,在 Viktor Mayer-Schonberger 和 Kenneth Cukier 撰写的新书(称为大数据)中,大数据看起来更有前途。鉴于样本的大小通常等于整个人口,您可以检测到以前无法检测到的数据子集之间的细粒度关系。而且,在这个大数据时代,相关性似乎远比因果关系重要。弄清楚哪些变量是可预测的,比弄清楚哪些变量是真正的因果关系(这通常会变成一个难以捉摸的追逐),可以获得更好和丰富的结果。作者提到了几个旨在提取和分析大数据集的新工具,包括神经网络、人工智能、机器学习、敏感性分析等。由于不熟悉其中任何一个(尤其是对传统统计和假设检验非常熟悉),我无法判断作者的陈述是否准确(他不是量化专家)。这些技术是否真正避免了虚假相关性、多重假设检验、模型过度拟合和假阳性结果的陷阱?
你能调和这两种观点吗:Nate Silver vs Viktor Mayer?