概率机器学习的重要性是什么?
当代机器学习作为一个领域,需要比传统统计学甚至定量社会科学更熟悉贝叶斯方法和概率数学,后者仍然占主导地位。那些来自物理学的人不太可能对概率在 ML 中的重要性感到惊讶,因为量子物理学是如此彻底地概率化(事实上,许多关键的概率算法都是以物理学家的名字命名的)。事实上,三本领先的 ML 教科书(尽管它们的覆盖面都足够广泛,可以被认为是对 ML 的公平概述)是由明确支持概率方法的作者编写的(McKay 和 Bishop 都接受过物理学培训):
- 凯文墨菲的机器学习:概率视角(一部百科全书,几乎全面的参考风格作品)
- Christopher Bishop 的模式识别和机器学习(严格的介绍,假设背景知识少得多)
- David McKay's Information Theory, Inference, and Learning Algorithms(前景化信息论,但欢迎贝叶斯方法)
我的观点:最广泛使用的 ML 教科书反映了您在 Intro to ML 课程中描述的相同概率焦点。
就您的具体问题而言,概率 ML 的另一位有影响力的支持者 Zoubin Ghahramani 认为,ML 的主要常客版本 - 深度学习 - 受到明确的概率贝叶斯方法经常避免的六个限制:
- 非常渴望数据
- 训练和部署的计算密集型
- 不善于表达不确定性,不知道他们不知道什么
- 很容易被对抗性的例子愚弄
- 优化的挑剔(非凸,架构和超参数的选择)
- 无法解释的黑匣子,缺乏透明度,难以信任
Ghahramani 在许多伟大的教程和这篇来自Nature(2015)关于概率机器学习和人工智能的非专业概述文章中详细阐述了这些观点。
Ghahramani 的文章强调,当您没有足够的数据时,概率方法至关重要。他解释说(第 7 节),非参数贝叶斯模型可以扩展以匹配具有潜在无限数量参数的任何大小的数据集。他指出,许多看似庞大的数据集(数百万个训练示例)实际上是小型数据集的大型集合,其中概率方法对于处理因数据不足而产生的不确定性仍然至关重要。类似的论文以著名著作《深度学习》的第三部分为基础,其中 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 认为,“深度学习研究”必须变得概率化,才能提高数据效率。
因为概率模型有效地“知道他们不知道什么”,所以它们可以帮助防止基于数据不足的毫无根据的推断做出的糟糕决策。随着我们提出的问题和我们构建的模型变得越来越复杂,数据不足的风险也在增加。随着我们基于 ML 模型的决策变得越来越高风险,与确信错误的模型相关的危险(无法退缩并说“嘿,等等,我以前从未真正见过这样的输入”)增加也是。由于这两种趋势似乎都不可逆转——ML 的受欢迎程度和重要性都在增长——我预计概率方法会随着时间的推移变得越来越普遍。只要我们的数据集相对于我们问题的复杂性和给出错误答案的风险来说仍然很小,我们应该使用知道自身局限性的概率模型。最好的概率模型具有类似于我们人类识别混乱和迷失方向的能力(记录巨大或复杂的不确定性)的能力。当它们进入未知领域时,它们可以有效地警告我们,从而防止我们在它们接近或超过极限时做出潜在的灾难性决定。