我正在写关于机器学习和经典统计之间差异的文章。我一直在寻找一些权威的资源,可以给出一个好的、清晰的、简单的英语定义,但我很难找到我喜欢的任何东西。
就我个人而言,我自己对经典统计的最简单定义如下:
“使用正式的数学证明和假设来模拟过程基础数据并将其用于推理和/或预测”
根据我的经验,ML 和统计学之间唯一的根本区别在于,ML 通过依赖迭代绕过了更复杂的数学——让计算机一遍又一遍地重复做某事。
一个经常被引用的区别是,经典统计侧重于推理,而 ML 侧重于预测,但这不是本质区别,据我所知,随着时间的推移,它越来越不真实。特别是最近,该领域的许多大人物(Friedman、Hastie、Tibshirani)一直在推广统计学习,它综合了经典统计和机器学习,并使用任一领域的方法进行推理和预测。
我认为它特别纠结的地方是重采样方法。例如,引导和置换测试用于经典统计和机器学习。根据我自己的定义,我称之为引导机器学习,因为我们可以使用它来避免通过迭代一个简单的算法(反复绘制原始数据的随机重采样)来进行复杂的数学运算。类似地,贝叶斯统计中使用的 MCMC 和 HMC 方法依赖于迭代来避免计算多重积分,所以我也将它们本质上称为“机器学习”。
那么,您是否知道经典统计与机器学习之间的根本区别是什么?特别是如果有关于引导/排列/MCMC作为机器学习的讨论?