一般来说,推理比预测更难吗?

机器算法验证 机器学习 自习 推理
2022-03-24 09:36:20

我的问题来自以下事实。我一直在阅读有关机器学习的文章、博客、讲座以及书籍。我的印象是机器学习从业者似乎对统计学家/计量经济学关心的许多事情漠不关心。特别是,机器学习从业者强调预测准确性而不是推理。

一个这样的例子发生在我在 Coursera 上学习 Andrew Ng 的机器学习时。当他讨论简单线性模型时,他没有提到估计量的 BLUE 属性,或者异方差性如何“使”置信区间“无效”。相反,他专注于梯度下降的实现和交叉验证/ROC 曲线的概念。我的计量经济学/统计学课程没有涵盖这些主题。

另一个例子发生在我参加 Kaggle 比赛时。我正在阅读其他人的代码和想法。很大一部分参与者只是把所有东西都扔进了 SVM/随机森林/XGBoost。

还有一个例子是关于逐步模型选择。这种技术被广泛使用,至少在网上和 Kaggle 上是这样。许多经典的机器学习教科书也涵盖了它,例如《统计学习导论》。但是,根据这个答案(非常有说服力),逐步模型选择面临很多问题,尤其是在“发现真正的模型”时。似乎只有两种可能:机器学习从业者不知道逐步的问题,或者他们知道但他们不关心。

所以这是我的问题:

  1. (一般而言)机器学习从业者是否专注于预测,因此不关心统计学家/经济学家关心的很多事情?
  2. 如果是真的,那么背后的原因是什么?是因为推理在某种意义上更困难吗?
  3. 网上有大量关于机器学习(或预测)的资料。但是,如果我有兴趣学习推理,我可以参考哪些在线资源?

更新:我刚刚意识到“推理”这个词可能意味着很多东西。我所说的“推理”是指诸如

  1. 做过X原因或者引起X? 或者更一般地说,它们之间的因果关系是什么X1,X2,,Xn?

  2. 既然“所有模型都是错误的”,那么我们的模型与真实模型的“错误”程度有多大?

  3. 给定一个样本的信息,我们能对总体说些什么,我们能说多少有信心?

由于我的统计知识非常有限,我什至不确定这些问题是否属于统计领域。但这些是机器学习从业者似乎并不关心的问题类型。也许统计学家也不在乎?我不知道。

1个回答

首先,我对机器学习有不同的看法。你提到的,Andrew Ng 的 Coursera 讲座和 Kaggle 比赛并不是 100% 的机器学习,而是一些针对实际应用的分支。真正的机器学习研究应该是发明随机森林/SVM/梯度提升模型的工作,这与统计学/数学相当接近。

与统计学家/经济学家相比,我同意机器学习从业者更关注准确性。人们有兴趣获得更好的准确性,而不是“推断真实分布”是有原因的。主要原因是我们收集数据和使用数据的方式在过去几十年中发生了变化。

统计学已经建立了百年,但在过去,没有人会想到你有数十亿的数据用于训练,还有数十亿的数据用于测试。(例如,互联网上的图像数量)。因此,在数据量相对较少的情况下,需要来自领域知识的假设来完成这项工作。或者您可以考虑“规范化”模型。一旦做出假设,就会出现关于“真实”分布的推论问题。

但是,如果我们仔细想想,我们能确定这些假设是正确的,并且推论是有效的吗?我想引用 George Box:

所有模型都是错误的,但有些是有用的

现在,让我们回过头来考虑一下更强调准确性而不是假设/推理的实际方法。当我们拥有大量数据时,这是一个很好的方法。

假设我们正在为所有包含像素级别人脸的图像构建模型。首先,很难为数十亿张图像提出像素级别的假设:没有人拥有该领域的知识。其次,我们可以考虑所有可能的方法来拟合数据,并且由于数据量很大,我们拥有的所有模型可能都不够用(几乎不可能过度拟合)。

这也是为什么“深度学习/神经网络”再次流行起来的原因。在大数据的条件下,我们可以选择一个非常复杂的模型,尽可能地拟合它,我们可能还可以,因为我们的计算资源是有限的,与世界上所有的真实数据相比。

最后,如果我们建立的模型在庞大的测试数据集中表现良好,那么它们就是好的和有价值的,尽管我们可能不知道下划线假设或真实分布。


我想指出“推理”这个词在不同的社区有不同的含义。

  • 在统计学界,它通常意味着以参数或非参数的方式获取真实分布的信息。
  • 在机器学习社区中,这通常意味着从给定分布中计算某些概率。有关示例,请参阅Murphy 的图形模型教程
  • 在机器学习中,人们用“学习”这个词来表示“得到真实分布的参数”,类似于统计学界的“推理”。

所以,你可以看到,本质上,机器学习中有很多人也在做“推理”。

此外,您可能还会想到学术界的人喜欢“给他们的作品重新命名并重新销售”:提出新术语可能有助于展示研究的新颖性。事实上,人工智能、数据挖掘和机器学习之间有很多重叠之处。它们与统计和算法设计密切相关。同样,是否进行“推理”也没有明确的界限。