在不久的将来有哪些模型有可能取代神经网络?

人工智能 神经网络 卷积神经网络 循环神经网络
2021-11-10 22:11:51

是否有可能在不久的将来有可能取代神经网络的模型?

我们甚至需要那个吗?就效率而言,使用神经网络最糟糕的是什么?

4个回答

这是倒退的,但它有点遵循论点的逻辑。

在效率方面,我可以看到经典神经网络的几个主要问题。

数据收集和预处理开销

大型神经网络需要大量数据来训练。数量可能会根据网络的大小和任务的复杂性而有所不同,但根据经验,它通常与权重的数量成正比。对于一些监督学习任务,根本没有足够的高质量标记数据。收集大量的专业训练数据可能需要数月甚至数年的时间,而且标记可能很麻烦且不可靠。这可以通过数据增强来部分缓解,这意味着从您已有的示例中“合成”更多示例,但这不是万能药。

训练时间与能量权衡

学习率通常很小,因此训练进度很慢。一个大型模型可能需要数周时间才能在台式机 CPU 上进行训练,例如,使用消耗数千瓦功率的 GPU 集群可以在两个小时内完成训练。由于训练过程的性​​质,这是一个基本的权衡。也就是说,GPU 的效率越来越高——例如,新的nVidia Volta GPU 架构允许 15.7 TFLOPs,同时消耗不到 300 W。

不可转让性

目前,几乎每个不同的问题都需要设计、训练和部署自定义神经网络。虽然解决方案通常有效,但它有点被锁定在这个问题上。例如,AlphaGo在围棋方面表现出色,但在驾驶汽车或提供音乐推荐方面就没有希望了——它只是不是为这些任务而设计的。在我看来,这种压倒性的冗余是神经网络的一个主要缺点,也是总体上阻碍神经网络研究进展的主要障碍。有一个完整的研究领域叫做迁移学习它涉及寻找将在一项任务上训练的网络应用于不同任务的方法。这通常与以下事实有关:可能没有足够的数据来从头开始训练第二个任务的网络,因此能够使用预先训练的模型并进行一些额外的调整是非常有吸引力的。


问题的第一部分比较棘手。撇开纯粹的统计模型不谈,我还没有看到任何与神经网络完全不同的机器学习方法。但是,有一些有趣的发展值得一提,因为它们解决了上述一些低效率问题。

神经形态芯片

先说一点背景。

尖峰神经网络在计算能力方面具有巨大的潜力。事实上,已经证明它们比具有 sigmoid 激活的经典神经网络更强大。

除此之外,尖峰神经网络对时间有着内在的把握——这是经典网络自诞生以来的主要障碍。不仅如此,尖峰网络是事件驱动的,这意味着神经元只有在有输入信号时才会运行。这与经典网络形成对比,在经典网络中,每个神经元都被评估而不考虑其输入(同样,这只是评估过程通常被实现为两个密集矩阵的乘法的结果)。因此尖峰网络采用稀疏编码方案,这意味着在任何给定时间只有一小部分神经元处于活动状态。

现在,基于稀疏脉冲的编码和事件驱动操作适用于基于硬件的脉冲网络实现,称为神经形态芯片例如,IBM 的TrueNorth芯片可以模拟100 万个神经元2.56 亿个连接,而平均仅消耗约100 mW的功率。比当前的 nVidia GPU 效率高出几个数量级。神经形态芯片可能是我上面提到的训练时间/能量权衡的解决方案。

此外,忆阻器是一个相对较新但非常有前途的发展。基本上,忆阻器是一种与电阻器非常相似的基本电路元件,但其可变电阻与在其整个生命周期内通过它的电流总量成正比。从本质上讲,这意味着它保留了通过它的电流量的“记忆”。忆阻器令人兴奋的潜在应用之一是非常有效地对硬件中的突触进行建模。

强化学习和进化

我认为这些值得一提,因为它们是解决不可转让性问题的有希望的候选者。这些不仅限于神经网络——作为奖励驱动的,RL 和进化在理论上适用于任何可以定义奖励或目标的任务的通用设置。这不一定是微不足道的,但它比通常的错误驱动方法更通用,学习代理试图最小化其输出和基本事实之间的差异。这里的重点是关于迁移学习:理想情况下,将训练有素的代理应用于不同的任务应该像改变目标或奖励一样简单(尽管它们还没有达到那个水平......)。

我们确实在这方面潜伏着一些希望。到目前为止,我们有J.Hinton 的胶囊网络,它使用了一种不同的非线性激活,称为“壁球”函数。

  1. Hinton 将 CNN 中的最大池化称为“大错误”,因为 CNN 只寻找图像中的存在对象而不是它们之间的相对方向。所以他们在试图实现平移不变性的同时丢失了空间信息。
  2. 神经网络具有固定的连接,而胶囊网络中的胶囊“决定”在每个时期它必须将其激活传递给哪个其他胶囊。这称为“路由”。
  3. 神经网络中每个神经元的激活都是一个标量。而胶囊的激活是一个向量,用于捕获图像中物体的姿势和方向。
  4. CNN 被认为是人类视觉系统的不良表征。人类视觉系统是指眼睛和大脑/认知一起。我们可以从任何姿势中识别出自由女神像,即使我们从一个姿势中观察过它。在大多数情况下,CNN 无法检测到不同姿势和方向的相同对象。

胶囊网络本身也有一些缺点。因此,在超越神经网络的方向上已经开展了一些工作。在阅读 J.Hinton 的论文之前,您可以阅读此博客以获得更好的理解。

替换神经网络

可能存在有可能取代神经网络的新算法。然而,神经网络的特点之一是它们使用简单的元素,每个元素对几何图案的计算资源的要求较低。

通过将计算映射到 DSP 设备或其他并行计算硬件,人工神经元可以并行运行(无需 CPU 时间共享或循环)。因此,许多神经元本质上是相似的,这是一个强大的优势。

我们将取代什么?

当我们考虑用算法替代神经网络时,我们暗示神经网络设计是一种算法。它不是。

神经网络是一种在实时电路上收敛的方法,以基于某种最优公式来执行输入到输出的非线性变换。这样的公式可能是最小化误差或与某些定义理想的差异的度量。它可能是必须最大化的健康衡量标准。

任何给定网络行为的适应度确定的来源可能是内部的。我们称之为无监督学习。它可能是外部的,当外部适应度信息与所需输出值形式的输入向量(我们称之为标签)耦合时,我们称之为监督。

适应度也可能作为标量或向量从外部起源,不与输入数据耦合,而是实时耦合,我们称之为强化。这需要重入学习算法。在堆叠网络或其他配置(例如拉普拉斯层次结构)的情况下,网络行为适应度也可以由系统内的其他网络进行评估。

一旦选择了数学和过程设计,算法的选择与比较智能几乎没有关系。算法设计与最小化计算资源需求和减少时间需求更直接相关。这种最小化也取决于硬件和操作系统。

是否指示更换?

当然。如果网络更像哺乳动物神经元会更好。

  • 激活的复杂性
  • 连接模式的异质性
  • 设计的可塑性,支持元适应
  • 受区域信号的多个维度控制

区域信号是指超出突触信号传输的许多化学信号。

我们甚至可以考虑超越哺乳动物神经学。

  • 结合参数和基于假设的学习
  • 学习微生物通过 DNA 时采用的形式

神经网络效率

效率不能以某种通用尺度来量化,因为温度可以用开尔文来量化。效率只能量化为某个测量值与某个理论理想值的商。请注意,它是分母中的理想值,而不是最大值。在热力发动机中,理想的是能量输入速率,它永远不能完全转移到输出端。

同样,神经网络永远无法在零时间内学习。神经网络也不能在任意长时间的生产中实现零错误。因此,信息在某些方面就像能量一样,这是贝尔实验室的克劳德·香农在数字自动化初期研究的一个概念,信息熵和热力学熵之间的关系现在是理论物理学的重要组成部分。

没有学习效率差或学习效率好的问题。如果我们希望从逻辑和科学的角度来思考,那么既没有糟糕的性能也没有好的性能——只有针对一组非常特定的性能场景,一些系统配置相对于其他一些系统配置的相对改进。

因此,如果没有对两种硬件、操作系统和软件配置的明确规范以及用于相对评估的完全定义的测试套件,效率就毫无意义。

神经网络需要大量数据和训练。对于大多数表格格式的数据集,使用基于决策树的模型要好得多。大多数时候,简单的模型就足以提供良好的准确性。然而,神经网络经受了时间的考验。深度学习革命才开始五六年,我们还不知道深度学习的真正威力。