机器和深度学习方法的数学/统计假设

机器算法验证 机器学习 神经网络 数理统计 假设
2022-03-31 00:21:40

我最近阅读了数学家/统计学家关于机器和深度学习的讨论,以及非数学家/统计学家如何应用它们。争论是这些方法经常被错误地应用,因为经常使用这些方法的人没有适当的数学/统计背景来理解它们。例如,一些机器学习方法,当然还有深度学习方法,需要大量数据才能产生好的结果;但是,不了解这些方法的人经常在没有足够数据的情况下应用它们。然后有人提到,如果您有大量数据,这种无知有时会起作用,从某种意义上说拥有大量数据可以减少您理解这些方法的假设的需要,并且无论如何都会产生良好的结果然而,后来有人说,如果希望在不太好的条件下(例如,在没有大量数据的情况下)使用这些方法,那么仍然有可能得到好的结果,但是统计假设这些方法变得很重要,因为您没有大量数据来保存/保护您

作为一个新手,我想进一步研究这个。这里提到了哪些假设?换句话说,为了真正理解这些方法并能够在不太好的条件下应用它们,必须理解这些方法背后的这些数学/统计假设是什么?当我读到这篇文章时,我首先想到的是大数定律以及随着数据量的增加,数据分布接近正态分布的想法。另一个不太具体的想法是,这里可能有一些假设与概率论中教授的所有不等式(边界概率)有关,例如 Cauchy-Schwarz、Jensen 等。一个新手,这就是我能想到的。

请参考任何讨论此问题的研究论文!那将不胜感激。

编辑:

我的理解是机器学习和深度学习是不同的(类别)方法,所以我已经分别描述了它们,以防它们之间的基本假设不同。

编辑2:

如果假设依赖于特定的方法并且太多而无法列出,那么所有方法中是否存在任何一般假设(例如我提到的大数定律和正态性)?一些重要方法、它们的假设和相关研究论文的样本将是一个很好的答案。深度学习尤其是一个有趣的领域,因为据说它需要大量数据(如果我想对有限数据使用深度学习怎么办?我需要注意哪些假设?)。

3个回答

没有通用统计或机器学习假设之类的东西。有许多不同的统计/机器学习方法,其中有不同的假设。您可能会询问特定方法的基础是什么假设,或者如果您违反某种方法的假设会出现什么问题,但没有像通用统计/机器学习假设这样的想法。有时,一种方法的假设与另一种方法的假设相互排斥!该领域包含广泛的工具和方法,它们可能适用于不同的情况。这是一个特性,而不是缺陷,因为我们想要解决不同的问题。

  • 朴素贝叶斯假设一个特征对结果的影响独立于其他特征的值。但是基于树的模型(仅举一个例子)明确地尝试通过将特征空间细分为矩形来对结果进行建模,并为每个矩形预测不同的结果。哪一个是正确的?反映现实的模型——朴素贝叶斯模型在独立性假设有效时表现良好,在独立性假设不成立时表现不佳。

  • 有些数据是非独立的,因此使用假设每个数据之间独立的模型是不合适的。典型的例子是股票价格:股票明天价格的一个很好的预测指标是它今天的价格,这意味着一个仅仅滞后价格 24 小时的幼稚模型将有很小的误差,即使这个模型没有产生任何信息你还没有。使用方法。

  • 卷积神经网络假设附近的数据(例如相邻像素)很重要,而全连接网络则不重要。CNN 的稀疏连接以及应用于相邻像素的局部过滤器的概念被证明是确定图像包含什么的好方法。

一些你称之为“假设”的东西(大数定律、中心极限定理、Jensen 不等式、Cauchy-Schwarz 不等式)是定理。定理是应用来自其他真实陈述的推理链来表明新陈述也是真实的陈述。有时一个定理不适用于某种情况;例如,如果样本是从具有非有限方差的分布中抽取的,则不会遵循 CLT 的结果。很难理解您对诸如 CLT 之类的东西对深度学习的适用性的意思是什么,因为 CLT 在满足其假设的所有环境中都是正确的。换句话说,CLT 不关心你是否使用神经网络,它只关心它的假设。

如果我想在数据有限的情况下使用深度学习怎么办?

您将面临的主要问题与模型泛化有关:“我怎么知道这个模型在样本外数据上表现良好?” 这是哪里变得很重要。我们有一个专门讨论这个问题的线程:当我的神经网络不能很好地泛化时我该怎么办?


您已经要求提供有关神经网络的论文,所以这是一个很好的起点。AlexNet 论文(Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton,“ ImageNet Classification with Deep Convolutional Neural Networks ”)在 2012 年将 CNN 用于 ImageNet 任务,并大大超过了他们的竞争对手. 作者在 ImageNet 中的成功基本上开启了当前使用 CNN 处理图像数据的狂热。AlexNet 论文的这一段解释了为什么 CNN 适合图像数据:CNN 的结构编码了关于图像如何表示语义数据(即对象)的先验知识(“假设”)。具体来说,CNN 假设统计数据的平稳性和像素依赖性的局部性。他们还认为 CNN 比全连接网络更容易训练,因为它们具有稀疏性(更新的权重和偏差更少)。

要从数百万张图像中了解数千个对象,我们需要一个具有大学习能力的模型。然而,物体识别任务的巨大复杂性意味着即使像 ImageNet 这样大的数据集也无法指定这个问题,因此我们的模型还应该有大量的先验知识来弥补我们没有的所有数据。卷积神经网络 (CNN) 构成了这样一类模型 [16、11、13、18、15、22、26]。它们的容量可以通过改变它们的深度和广度来控制,它们还对图像的性质做出了强有力的、大部分正确的假设(即统计数据的平稳性和像素依赖性的局部性)。因此,与具有相似层数的标准前馈神经网络相比,CNN 的连接和参数要少得多,因此它们更容易训练,

作者包括对这些论文的引用。这些论文更详细地阐述了为什么 CNN 能够有效地完成成像任务。

我略微不同意 Sycorax 出色而详细的回答“没有通用统计或机器学习假设之类的东西”的开场白 - 在监督机器学习中,一般来说,假设您的数据是从概率分布中提取的IID ,并且训练后呈现给模型的任何测试/新数据都将从相同的分布中采样。这也适用于“泛化”一词——你的模型泛化的程度是指它泛化到从与训练数据相同的基础分布中采样的新数据的程度。

这里的第一个问题是,当部署在“现实世界”中时,通常不会从与原始训练和测试数据相同的分布中生成新数据(更不用说没有抽样 IID)。所以模型性能自然会变差。

此外,您的数据维度越高、越复杂,您拥有充分代表基础分布的数据集的可能性就越小,部分原因是分布的复杂性,部分原因是采样困难(看看“tench " 在 ImageNet 中查看非常明显的严重采样偏差示例,一旦您移出 ImageNet 验证集以获取真实生活中的 Tenches 图像,就会导致性能下降...)。

我认为这可能就是您所说的对话所指的内容-这有意义吗..?

假设本质上是增加信息。如果您的数据较少,此添加的信息会更有用。例如,对比两个 OLS 回归关系

  1. YX+Z
  2. YX+X2+X3+Z+Z2+Z3+XZ+(XZ)2+(XZ)3

第一个有更多的假设,因为它是第二个的特例。这是一种特殊情况,因为如果所有额外交互作用和多项式效应的系数都为零,则它会简化为第一个模型。如果你有“足够”的数据(足够取决于情况)并且第一个关系是真实的数据生成过程,那么第二个模型最终会找出系数为零并简化为第一个模型。如果您有足够的数据,您可以拟合一个非常通用的模型,该模型最终会简化为一个更简单的模型。

但是,如果您没有足够的数据,事情可能会出错,并且您会进入过度拟合的世界。对于较小的数据,了解数据并对数据做出合理假设更为重要。简单地拟合一个非常通用的模型并让模型弄清楚是行不通的。

像深度神经网络这样的模型往往是非常通用的模型。有了足够的数据,如果这是真正的关系,这些模型可以简化为更简单的模型。