预测模型:统计不可能击败机器学习?

机器算法验证 机器学习 预测 预测模型 预言 样本外
2022-02-11 08:12:00

我目前正在学习一个专注于统计/计量经济学的硕士课程。在我的硕士课程中,所有学生都必须进行 3 个月的研究。上周,所有小组都必须向其他硕士生展示他们的研究成果。

几乎每个小组都为他们的研究主题做了一些统计建模和一些机器学习建模,而且每次样本外预测都来谈论简单的机器学习模型击败了非常复杂的统计模型,这些模型在过去 3 年中每个人都非常努力地工作个月。无论每个人的统计模型有多好,一个简单的随机森林几乎总是会降低样本外错误。

我想知道这是否是普遍接受的观察?如果涉及到样本外预测,根本没有办法击败简单的随机森林或极端梯度提升模型?这两种方法使用 R 包实现起来超级简单,而每个人想出的所有统计模型都需要相当多的技能、知识和精力来估计。

您对此有何看法?您获得解释的统计/计量经济学模型的唯一好处是什么?还是我们的模型不够好以至于未能显着超越简单的随机森林预测?有没有解决这个问题的论文?

4个回答

统计建模不同于机器学习。例如,线性回归既是统计模型又是机器学习模型。因此,如果您将线性回归与随机森林进行比较,您只是将更简单的机器学习模型与更复杂的模型进行比较。不是在将统计模型与机器学习模型进行比较。

统计建模提供的不仅仅是解释;它实际上给出了一些人口参数的模型。它依赖于一个庞大的数学和理论框架,允许使用公式来处理系数方差、预测方差和假设检验等问题。统计建模的潜在收益远大于机器学习,因为您可以对总体参数做出强有力的陈述,而不仅仅是测量保留时的误差,但使用统计模型解决问题要困难得多。

用你措辞的方式陈述问题是错误的。例如,很大一部分机器学习可以称为统计学习所以,你的比较就像苹果和水果馅饼。

但是,我将采用您构建它的方式,并声明以下内容:当涉及到预测时,如果没有某种形式的统计数据就无法完成,因为预测本身就具有随机性(不确定性)。考虑一下这一点:尽管机器学习在某些应用程序中取得了巨大成功,但它在资产价格预测方面绝对没有什么可炫耀的。什么都没有。为什么?因为在大多数发达的流动性市场中,资产价格本质上是随机的。

你可以整天运行机器学习来观察和了解原子的放射性衰变,它永远无法预测下一个原子的衰变时间,仅仅因为它是随机的。

作为一个有抱负的统计学家,不掌握机器学习是愚蠢的,因为它是统计学最热门的应用之一,当然,除非你确定你要去学术界。任何可能在该行业工作的人都需要掌握 ML。统计数据和 ML 人群之间根本没有敌意或竞争。事实上,如果你喜欢编程,你会在 ML 领域感到宾至如归

一般不会,但在指定错误的情况下可能会。您正在寻找的问题称为可受理性。如果没有风险较低的计算方法,则该决定是可以接受的。

所有贝叶斯解决方案都是可接受的,非贝叶斯解决方案是可接受的,只要它们与每个样本中的贝叶斯解决方案匹配或在极限处匹配。一个可接受的频率或贝叶斯解决方案总是会优于 ML 解决方案,除非它也是可接受的。话虽如此,有一些实际的评论使这种说法真实但空洞。

首先,贝叶斯选项的先验必须是您真正的先验,而不是用于使期刊编辑满意的某种先验分布。其次,许多Frequentist解决方案是不可接受的,应该使用收缩估计器而不是标准解决方案。很多人不知道 Stein 引理及其对样本外错误的影响。最后,在许多情况下,ML 可以更稳健地处理错误指定错误。

当您进入决策树及其表亲森林时,您不会使用类似的方法,除非您还使用类似于贝叶斯网络的东西。图解决方案中包含大量隐含信息,尤其是有向图。每当您将信息添加到概率或统计过程中时,您都会减少结果的可变性并改变被认为是可接受的内容。

如果您从函数组合的角度来看机器学习,它只是成为一种统计解决方案,但使用近似值使解决方案易于处理。对于贝叶斯解决方案,MCMC 与许多 ML 问题的梯度下降一样,节省了难以置信的时间。如果你要么必须构建一个精确的后验来整合,要么在许多 ML 问题上使用蛮力,那么在你得到答案之前,太阳系就会死于热死。

我的猜测是,对于那些使用统计数据或不适当统计数据的人来说,你有一个错误指定的模型。我教了一个讲座,我证明如果包裹不当,新生儿会飘出窗外,并且贝叶斯方法在多项选择上的表现如此彻底地优于频率方法,以至于频率方法在预期中收支平衡,而贝叶斯方法使参与者的钱翻了一番. 现在我在前者中滥用了统计数据,并在后者中利用了频率估计量的不可接受性,但是一个天真的统计用户可以轻松地做我所做的事情。我只是将它们极端化以使示例显而易见,但我使用了绝对真实的数据。

随机森林是一致的估计量,它们似乎类似于某些贝叶斯过程。由于与内核估计器的联系,它们可能非常接近。如果您发现解决方案类型之间的性能存在重大差异,那么您误解了潜在问题中的某些内容,并且如果该问题具有任何重要性,那么您确实需要寻找差异的根源,因为它也可能是所有模型都被错误指定的情况。

至少在某些方面,许多机器学习可能与 p-hacking 没有什么不同。

如果您根据历史数据测试每个可能的模型以找到具有最高预测准确度(历史预测或组外预测)的模型,这并不一定意味着结果将有助于了解正在发生的事情。但是,它可能会找到可能为假设提供依据的关系。

激发特定假设然后使用统计方法对其进行测试当然也可以类似地被 p-hack(或类似)。

但关键是,如果标准是“基于历史数据的最高预测准确度”,那么在人们不理解的某些模型中存在过度自信的高风险,实际上不知道是什么推动了这些历史结果和/或者它们是否可以为未来提供信息。