为什么拥有机器学习的原理和数学理论如此重要?

机器算法验证 机器学习 神经网络 卷积神经网络 数理统计
2022-01-29 13:34:52

我一直在想,为什么拥有原则/理论机器学习如此重要?从作为人类的个人角度来看,我可以理解为什么有原则的机器学习很重要:

  • 人类喜欢理解他们在做什么,我们发现理解的美和满足。
  • 从理论的角度来看,数学很有趣
  • 当有指导事物设计的原则时,花在随机猜测和奇怪的试错上的时间就会减少。例如,如果我们了解神经网络的真正工作原理,也许我们可以花更好的时间来设计它们,而不是现在投入大量的试验和错误。
  • 最近,如果原则清晰,理论也清晰,那么系统应该(希望)更加透明。这很好,因为如果我们了解系统的工作原理,那么很多人大肆宣传的人工智能风险就会立即消失。
  • 原则似乎是总结世界可能拥有的重要结构以及何时使用工具而不是其他工具的简明方式。

然而,这些理由真的足以证明对机器学习进行深入的理论研究是正确的吗?对理论的最大批评之一是,由于它很难做到,他们通常最终会研究一些非常有限的案例,或者必须提出的假设基本上会使结果毫无用处。我想我曾经在 Tor 的创建者在麻省理工学院的一次演讲中听到过这句话。他听到的一些对 Tor 的批评是理论上的论点,但从本质上讲,人们永远无法证明现实生活中的真实场景,因为它们太复杂了。

在这个拥有如此多计算能力和数据的新时代,我们可以用真实的数据集和测试集来测试我们的模型。我们可以通过使用经验主义来判断事情是否有效。如果我们能够实现 AGI 或与工程和经验主义一起工作的系统,是否仍然值得为机器学习寻求原则和理论证明,特别是当量化界限如此难以实现时,但直觉和定性答案却容易得多用数据驱动的方法来实现?这种方法在古典统计学中是不可用的,这就是为什么我认为理论在那个时代如此重要,因为数学是我们可以确定事情是正确的或者它们实际上以我们认为的方式工作的唯一方法。

我个人一直喜欢并认为理论和有原则的方法很重要。但是,凭借能够使用真实数据和计算能力进行尝试的能力,我想知道理论追求的高努力(以及潜在的低回报)是否仍然值得。

机器学习的理论和原则追求真的那么重要吗?

4个回答

对此没有正确的答案,但也许,“一切都要适度”。虽然最近机器学习的许多改进,即丢失、残差连接、密集连接、批量归一化,并没有植根于特别深入的理论(大多数可以在几段中证明),但我认为最终有多少是瓶颈这样的结果可以产生巨大的影响。在某些时候,您必须坐下来制定一些额外的理论,以实现下一个重大飞跃。同样,理论可以指导直觉,因为它可以在合理的怀疑范围内证明模型的质量或局限性。这对于确定 SGD 是否比 Momentum 更好地解决特定问题特别重要。这就是理论的好处:它迫使你抽象你正在解决的问题,

想到的一个大例子是支持向量机。它们最初是由 Vapnik 和 Chervoenkis 在 60 年代初设计的,但在 90 年代初当 Vapnik 和其他人意识到您可以使用 Kernel Trick 进行非线性 SVM 时才真正起飞。Vapnik 和 Chervonenkis 还提出了VC 维度背后的理论,这是为机器学习提出复杂性度量的尝试。我想不出 VC 维度的任何实际应用,但我认为 SVM 的想法很可能受到他们在这方面的工作的影响。内核技巧本身来自关于希尔伯特空间的抽象无意义数学。说有必要知道这些抽象的废话才能提出支持向量机可能有点牵强,但是,我认为它可能会有所帮助,尤其是因为它让很多数学家对机器学习感到兴奋。

在 ResNet 的主题上,最近有一些非常巧妙的工作表明 Residual 架构真的不需要有 100 层深。事实上,一些工作表明残差连接与 RNN 非常相似,例如Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex ”,Liao 等人。我认为这绝对值得深入研究,因为它表明从理论上讲,多层的 ResNet 实际上是非常低效和臃肿的。

RNN 的梯度裁剪的想法在现在著名的论文“关于训练循环神经网络的难度”中得到了很好的证明——Pascanu 等。人。虽然你可能会在没有所有理论的情况下提出梯度裁剪,但我认为它对于理解为什么不做一些花哨的事情就很难训练 RNN 有很长的路要走,尤其是通过对动态系统图进行类比(正如上面的论文所做的那样) )。

熵随机梯度下降有很多令人兴奋的地方。这些源自朗之万动力学,并且大部分理论结果都牢牢植根于经典理论 PDE 理论和统计物理学。结果很有希望,因为他们对 SGD 提出了新的看法,即它如何陷入损失函数的局部波动,以及如何局部平滑损失函数以使 SGD 更有效。它对于理解 SGD 何时有用以及何时表现不佳大有帮助。这不是您可以通过在不同类型的模型上尝试 SGD 来凭经验得出的。

在论文Intriguing properties of neural networks中,作者总结说,由于层间的 Lipchitz 常数较高,神经网络对对抗性示例(定义为图像的计算的、狡猾的扰动)敏感。这仍然是一个活跃的研究领域,只有通过更多的理论推导才能更好地理解。

还有拓扑数据分析的例子,至少有一家公司(Ayasdi)围绕它成立。这是一个特别有趣的例子,因为它所使用的技术是如此具体和抽象,以至于即使从今天开始,仍然需要很多时间才能看到这个理论的想法最终会在哪里结束。我的理解是,所涉及的算法的计算复杂度往往相当高(但即使在 20 年前,神经网络也同样高)。

这个问题的答案其实很简单。有了机器学习模型背后的理论依据,我们至少可以证明,当满足一些或多或少的现实条件时,可以保证解决方案的最优性。没有它,我们没有任何保证。当然,您可以说“让我们检查一下哪些方法有效并将其用于特定问题”,但这是不可行的,因为有无数种方法可以解决任何机器学习问题。

假设你想预测一些,给定一些你怎么知道不是解决它的最佳方法?或者,也许只是返回作为您的预测?或者如果是奇数,使用否则返回当然,所有这些建议听起来都很荒谬,但是如果没有任何理论,你怎么能确定其中一个不是最佳的呢?有无数可能的解决方案,即使是最简单的问题也变得无法解决。对于某些类别的问题,理论限制了您对可行模型的“搜索空间”(您知道哪些模型值得考虑,哪些不值得考虑)。YXX+42X+42.5X4242XX+420

只看问题:机器学习的理论和原则追求真的那么重要吗?

定义“重要”的含义。从哲学的角度来看,如果你想描述某事或理解某事,这是一个根本的区别。在一个有点粗略的答案中,这是科学或其他事物之间的区别。它的实际部分与基本问题无关。如果某件事太难证明,甚至不可能证明,这本身就是一个重要的发现。(进入 Goedel 等人。)但这并不意味着它是无关紧要的。至少从实用的角度来看,这似乎无关紧要。但它至少应该被认为是最重要和有价值的东西。

考虑一个类比:医学作为一个整体(以及它的过去)是不科学的。在某些方面,它实际上永远不可能。这是一门完全受其结果支配的学科。在大多数情况下,没有什么比得上“真相”。但事实证明,有些部分实际上是科学的——这就是大部分计划中的进展发生的地方。

另一个非常简短的描述可能是:没有理论你可以赚很多钱。如果它真的对“更大的利益”有用,那么你甚至可能因此获得诺贝尔奖。但是你永远不会得到菲尔兹奖牌。

这是我自己工作中的一个简单示例。

我将很多神经网络拟合到连续的结果中。通过反向传播确定权重。最终,它会收敛。

现在,顶层激活函数是恒等式,我的损失是平方误差。由于理论,我知道使平方误差损失最小化的顶级权重向量很老

(ATA)1ATy
在哪里A是顶层的激活和y是结果。当我通过对顶层权重使用封闭形式的解决方案来短路反向传播时,我只需要反向传播来优化较低级别的权重。

我的网收敛得更快

谢谢,理论。