什么*是*人工神经网络?

机器算法验证 机器学习 神经网络 深度学习 无监督学习 监督学习
2022-02-13 17:10:20

当我们深入研究神经网络文献时,我们会发现其他具有神经形态拓扑的方法(“神经网络”类架构)。而且我不是在谈论通用逼近定理下面给出例子。

然后,这让我想知道:人工神经网络的定义是什么?它的拓扑似乎涵盖了一切。


例子:

我们所做的第一个识别是在 PCA 和线性自动编码器之间,在编码器和解码器中具有绑定权重,在瓶颈层中具有阈值激活。

此外,在线性模型(特别是逻辑回归)和没有隐藏层和单个输出层的神经网络之间进行了共同识别。这种识别打开了几扇门。

傅里叶级数和泰勒级数?人工神经网络支持向量机安。高斯过程?ANN(具有无限隐藏单元的单个隐藏层)。

因此,同样容易,我们可以将具有这些算法的专门损失函数的任意正则化版本合并到神经网络框架中。

但我们挖掘得越多,出现的相似之处就越多。我刚刚偶然发现了Deep Neural Decision Trees,它使用决策树来识别特定的 ANN 架构,从而允许通过 ANN 方法(例如梯度下降反向传播)来学习这些架构。由此,我们可以仅从神经网络拓扑构造随机森林和梯度提升决策树。

如果一切都可以表示为人工神经网络,那么人工神经网络的定义是什么?

4个回答

Jürgen Schmidhuber,“神经网络中的深度学习:概述”追溯了神经网络和深度学习中关键概念的历史。在他看来,神经网络似乎基本上包含任何可以表征为有向图的模型,其中每个节点代表一些计算单元。Schmidhuber 是一位著名的神经网络研究员,他与 Sepp Hochreiter 一起撰写了关于 LSTM 网络的原始论文。

学习系统的哪些可修改组件对其成功或失败负责?对它们进行哪些更改可以提高性能?这被称为基本学分分配问题(Minsky,1963)。通用问题解决者的一般学分分配方法在各种理论意义上是时间最优的(第 6.8 节)。然而,目前的调查将集中在人工神经网络 (NNs) 中深度学习 (DL) 的较窄但现在具有商业重要性的子领域。

标准神经网络 (NN) 由许多称为神经元的简单连接处理器组成,每个处理器产生一系列实值激活。输入神经元通过感知环境的传感器被激活,其他神经元通过来自先前活跃神经元的加权连接被激活(详见第 2 节)。一些神经元可能通过触发动作来影响环境。学习或学分分配是关于找到使 NN 表现出所需行为的权重,例如驾驶汽车。根据问题和神经元的连接方式,这种行为可能需要计算阶段的长因果链(第 3 节),其中每个阶段都转换(通常以非线性方式)网络的聚合激活。深度学习是关于在许多这样的阶段准确地分配功劳。

几乎没有这样的阶段的浅 NN 模型已经存在了几十年,如果不是几个世纪的话(第 5.1 节)。具有多个连续非线性神经元层的模型至少可以追溯到 1960 年代(第 5.3 节)和 1970 年代(第 5.5 节)。1960 年代和 1970 年代开发了一种有效的梯度下降方法,用于在任意深度的离散、可微分网络中进行基于教师的监督学习 (SL),称为反向传播 (BP),并于 1981 年应用于 NN(第 5.5 节)。然而,在 1980 年代后期(第 5.6 节)发现具有多层深度神经网络的基于 BP 的训练在实践中很困难,并且在 1990 年代初期(第 5.9 节)已成为一个明确的研究主题。在无监督学习(UL)的帮助下,DL 在某种程度上变得切实可行,例如 Sec。5.10(1991),秒。5.15(2006 年)。1990 年代和 2000 年代也看到了纯监督 DL 的许多改进(第 5 节)。在新千年,深度神经网络终于引起了广泛的关注,主要是通过在许多重要应用中优于其他机器学习方法,如内核机器 (Vapnik, 1995; Scholkopf et al., 1998)。事实上,自 2009 年以来,有监督的深度神经网络已经赢得了许多官方的国际模式识别比赛(例如 Sec. 5.17、5.19、5.21、5.22),在有限领域取得了第一个超人的视觉模式识别结果(Sec. 5.19, 2011)。深度神经网络也与没有监督教师的更一般的强化学习(RL)领域相关(第 6 节)。主要是通过在许多重要应用中优于其他机器学习方法,例如内核机器 (Vapnik, 1995; Scholkopf et al., 1998)。事实上,自 2009 年以来,有监督的深度神经网络已经赢得了许多官方的国际模式识别比赛(例如 Sec. 5.17、5.19、5.21、5.22),在有限领域取得了第一个超人的视觉模式识别结果(Sec. 5.19, 2011)。深度神经网络也与没有监督教师的更一般的强化学习(RL)领域相关(第 6 节)。主要是通过在许多重要应用中优于其他机器学习方法,例如内核机器 (Vapnik, 1995; Scholkopf et al., 1998)。事实上,自 2009 年以来,有监督的深度神经网络已经赢得了许多官方的国际模式识别比赛(例如 Sec. 5.17、5.19、5.21、5.22),在有限领域取得了第一个超人的视觉模式识别结果(Sec. 5.19, 2011)。深度神经网络也与没有监督教师的更一般的强化学习(RL)领域相关(第 6 节)。在有限的领域实现第一个超人类视觉模式识别结果(2011 年第 5.19 节)。深度神经网络也与没有监督教师的更一般的强化学习(RL)领域相关(第 6 节)。在有限的领域实现第一个超人类视觉模式识别结果(2011 年第 5.19 节)。深度神经网络也与没有监督教师的更一般的强化学习(RL)领域相关(第 6 节)。

另一方面,我不确定尝试为机器学习策略构建互斥存储桶分类法是否一定是有利可图的。我认为我们可以说,从某些角度来看,模型可以被视为神经网络。我不认为这种观点在所有情况下都一定是最好的或有用的。例如,我仍然打算将随机森林和梯度提升树称为“树集合”,而不是抽象出它们的区别并称它们为“神经网络树”。此外,Schmidhuber 将 NN 与内核机器区分开来——尽管内核机器与 NN 有一些联系——当他写道:“在新千年,深度 NN 终于引起了广泛的关注,主要是通过在许多重要应用中优于其他机器学习方法(例如内核机器)。"

如果你想要一个 ANN 的基本定义,你可能会说它是一个有向图形模型,其中输入和输出在每个节点通过激活函数进行处理,并且大部分时间梯度下降用于训练它。所以问题真的变成了:有哪些模型可以表示为图形模型?

我不是专家,但我相信理论上可以证明某些 ANN 是图灵完备的,这意味着它们应该能够进行任何可能的计算集(请注意,可能有无限数量的资源)。

我还将按以下方式解释您的问题:

对于任何给定的模型,我可以在合理的时间内将 ANN 模型拼凑起来以模拟该模型吗?

普通神经网络可以通过使用重质步进激活来模拟决策树。问题是这样的单元激活梯度为零,所以正常的梯度下降不起作用。你可能会说,“没问题,只需使用梯度下降的修改形式。” 然而,这还不够。举个更好的例子,比如 XGBOOST,它不仅仅是梯度增强的森林。在选择分割点、修剪、优化速度等方面有很多额外的工作。也许经过足够的修改后,您可以制作一个外观相似的 ANN,但目前还不清楚这样的 ANN 至少会像好吧,也不是为了完成这项工作而对其进行了优化。

我认为这是很重要的一点,因为虽然从理论上得出 ANN 可以做任何事情的结论可能令人满意,但实际上这可能完全没用。例如,您可以尝试使用 ReLu 激活来制作 ANN 来近似f(x)=ex,但这只是愚蠢的,因为您可以使用更有效和更准确的方法。

也许,人工神经网络更准确的名称是“可微网络”,即可以使用梯度下降或其变体优化的复杂参数化函数。这是一个非常笼统的定义,强调可微性,但没有说明主要思想、适用的任务、基础数学框架等。

请注意,可微性是一种特征,而不是主要特征。例如,SVM 可以使用梯度下降进行训练,因此表现出神经/可微网络的特性,但主要思想是使用超平面进行数据分离。变分自编码器使用 MLP 进行编码器和解码器,但您优化的函数来自贝叶斯统计等。

还有一些模型通常被称为神经网络,但不使用 GD 进行学习。一个很好的例子是 RBM。我的猜测是,贴上“神经网络”这个标签主要是出于历史原因——最终,RBM ​​的创造者是 Geoffrey Hinton,而 Hinton 是神经网络专家,对吧?但是,如果您分析模型,您会发现 RBM 的结构是马尔可夫网,基于能量的成本函数来自 20 世纪初的统计物理学,并且 MCMC/Gibbs 采样一直在并行发展,完全独立于神经网络.

我可能会尝试假设一些有助于定义神经网络的东西。

  • 具有可调参数的计算图。
  • 可以调整所述参数以符合数据(真实的或模拟的)。
  • 隐含或显式涉及要优化的目标函数。它可以是全局的或局部的参数。

我很确定这涵盖了当今常用的所有神经网络以及一些深奥的神经网络。

它与优化无关(如果我们实施基于梯度的优化,那么进化网络就不是神经网络)。

它没有提到神经元/节点或层(今天的一些神经网络很难用这些术语来描述),但我想我们可以将其纳入并更具限制性。