机器学习的定义是什么(相对于经典统计),MCMC 和 bootstrapping 等方法是否可以被视为 ML?

机器算法验证 机器学习 数理统计 引导程序 马尔可夫链蒙特卡罗
2022-03-15 19:09:38

我正在写关于机器学习和经典统计之间差异的文章。我一直在寻找一些权威的资源,可以给出一个好的、清晰的、简单的英语定义,但我很难找到我喜欢的任何东西。

就我个人而言,我自己对经典统计的最简单定义如下:

“使用正式的数学证明和假设来模拟过程基础数据并将其用于推理和/或预测”

根据我的经验,ML 和统计学之间唯一的根本区别在于,ML 通过依赖迭代绕过了更复杂的数学——让计算机一遍又一遍地重复做某事。

一个经常被引用的区别是,经典统计侧重于推理,而 ML 侧重于预测,但这不是本质区别,据我所知,随着时间的推移,它越来越不真实。特别是最近,该领域的许多大人物(Friedman、Hastie、Tibshirani)一直在推广统计学习,它综合了经典统计和机器学习,并使用任一领域的方法进行推理和预测。

我认为它特别纠结的地方是重采样方法。例如,引导和置换测试用于经典统计和机器学习。根据我自己的定义,我称之为引导机器学习,因为我们可以使用它来避免通过迭代一个简单的算法(反复绘制原始数据的随机重采样)来进行复杂的数学运算。类似地,贝叶斯统计中使用的 MCMC 和 HMC 方法依赖于迭代来避免计算多重积分,所以我也将它们本质上称为“机器学习”。

那么,您是否知道经典统计与机器学习之间的根本区别是什么?特别是如果有关于引导/排列/MCMC作为机器学习的讨论?

4个回答

在我看来,MCMC/bootstrapping/permutation 方法都属于计算技术的范畴。它们不依赖于特定的方法或思考问题的方式,而是针对一类问题的算法方法。涉及重采样和迭代的技术不是来自机器学习框架,而是来自数学理论;它们最近在解决更经典的统计问题方面受欢迎的主要因素仅仅是计算能力,而不是从机器学习中借来的东西。机器学习中很少有不能以某种方式从经典统计学和相关数学中得到启发的东西。

我认为识别某些“纯”机器学习的方法总是很容易的,尤其是深度学习方法,以及更普遍地只关注预测的“黑盒”机器学习方法。总会有经典的统计方法与机器学习无关。然而,试图在灰色区域中绘制它们之间的任何明显边界就像试图区分它们相交的物理和化学一样令人担忧。

就个人而言,我发现两者之间很难划清界限,因为显然有一些重叠。机器学习是一个基于经典统计并大量使用统计模型的领域。此外,机器学习背后的数学可能会变得非常复杂,所以我真的不会用数学论证作为判别式。

至少在我看来,一个重要的区别是“建模与数据驱动”的区别之一。统计学通常要求统计学家对数据的结构和/或分布做出假设,试图猜测变量之间的关系以编写适当的模型。另一方面,机器学习方法将尝试将假设限制在最低限度,并让数据“自己说话”。

我将尝试举一个属于统计和机器学习文献的算法的例子:线性回归。
一种统计方法是查看手头的变量,并根据对其含义的了解,尝试了解哪些变量可能相互作用,哪些可能具有非线性依赖性,从而建立相应的模型。
相反,完全 ML 方法将使用从包含每个交互和每个多项式扩展到一定程度的模型开始的特征的反向消除过程,让数据决定哪些是相关的。

当然,这两种方法大部分时间都在中间相遇——统计学家也使用前向和后向过程来构建他们的模型,而 ML 实践者经常从事特征工程以赋予它们更好的含义。

但这也回到了您之前提出的观点:统计学更多地是试图以可理解的方式理解数据背后的结构,可解释性是一个重要因素;另一方面,机器学习通常更多地关注预测,这使得它可以避免制造会“过度简化”关系以使其易于理解的模型,而是使用数据来推断可能最有效的结构来预测新值。

最后——关于引导、MCMC 等:正如 Bryan 在我之前提到的,这些是计算技术,它们在两种方法中都有使用。此外,交叉验证是一种用于统计的计算技术,它依赖于迭代这一事实并不能使其成为 ML。

我不会给每一个算法都贴上标签,因为统计和机器学习是紧密交织在一起的,并且使用许多常用工具,例如您提到的计算技术或许多模型,所以最终当您处于灰色区域时在两者之间,“做统计”或“做机器学习”的事实往往取决于你在处理问题时使用的心态。

只是为了争论,我把我的两分钱放在这里。到目前为止,我发现上面/下面的答案非常具有解释性。我认为,David DN 很好地解决了您的问题。这个主题是非常新的,因此,拿走你得到的东西并用它来运行。

我从事统计工作,从事研究工作。我还从事预测研究。即使是市场上的大人物,如 YouTube、LinkedIn 或任何其他使用算法的社交媒体,也并非完美无缺,因为机器学习,虽然统计数据在计算背后,但所有预测性事物都是基于人类行为,因此与人类研究息息相关第一的。然后是数学。然后是学习和文化的影响。一旦学会,就有下一步。此外,在地理上,并不是地球上的每个人都在同一个平台上,这意味着,从统计学上来说,所学的人类行为结果是不同的。然而,机器学习与数学、计算、心理学、语言学、文化密切相关。如果没有背后的故事,统计数据意味着什么。

我将建议这种方法,而不是将“差异”视为一种或另一种,而是将差异视为每个领域如何相互补充以及可以做些什么。

我不想给出完整的答复,而是想在两者之间的区别中添加一个因素。让我们以用于分类的神经网络为例,大多数情况下,当人们得到他们想要的结果时,他们并不确切知道为什么会得到这些结果。虽然统计数据更加严格,并且总是带有在 ML 中不一定发生的置信度度量。您写道,ML 通过迭代绕过了更复杂的数学,但它也可能依赖于不同算法的组合,因此很难估计每个算法的贡献,这将更难以证明在统计学中,而在 ML 中,主要关注的是结果。