人工智能 - 任意/一般拓扑的神经网络？ - 吾爱随笔录

任意/一般拓扑的神经网络？

人工智能神经网络拓扑

2021-10-21 12:35:50

通常神经网络由层组成，但是否有研究工作试图研究神经元之间连接的更一般拓扑，例如任意有向无环图（DAG）。

我想我的问题可以有3个答案：

每个可以想象的 DAG 拓扑都可以简化为已经被积极研究的分层 DAG，因此，寻求更一般的拓扑是没有意义的；
通用拓扑存在，但没有使用它们有基本的限制，例如，也许学习没有在其中收敛，也许它们会产生混乱的振荡，也许它们会产生分叉并且不提供稳定性；
通用拓扑存在并且很有希望，但科学家们还没有准备好与它们一起工作，例如，也许他们没有动力，标准分层拓扑就足够了。

但我不知道，哪个答案是正确的。在https://stackoverflow.com/questions/46569998/calculating-neural-network-with-arbitrary-topology上阅读答案我开始认为答案 1 是正确的，但没有提供参考。

如果答案 3 是正确的，那么可以期待大的革命。例如，在许多情况下，分层拓扑会减少对矩阵求幂的学习，并为此创建了很好的工具——TensorFlow 软件和专用处理器。但是似乎没有通用拓扑的软件或工具，它们确实有一定的意义。

1个回答

简单化的神经网络在被证明在现场使用中不够用后被免费赠送，仅由两个正交维度组成。

层宽——表示通过任何给定层的信号路径的序数或浮点数的数量，由层元素数组组成
网络深度——主要信号路径中的层数，即激活函数阵列或卷积核或任何其他元素的数量通常神经网络由层组成

然而，在拥有 AI 管道的大公司中，情况并非如此。我们开始在开源中看到更多有趣的拓扑。我们在图像、文本和语音的生成系统中看到了这一点。我们在机器人的机器人控制中看到了这一点。事实是，这些更复杂的拓扑结构已经使用了多年，但只是没有出现在开源社区中，因为它们是公司机密。足够的学术工作，部分企业IP的发布，以及独立OSS工作的积累，开始在GIT repos中看到这些拓扑。

循环非非循环

人工网络拓扑在因果关系或信号路径方面通常是循环的，而不是非循环的，这取决于您在理论上如何描述它们。这些是来自文献和开源存储库中的数十个基本示例。

反向传播表示在基本多层感知器中的信号路径中引入一个故意循环，使该拓扑成为由顶点表示的层序列，由一组表示前向传播的有向边顺序连接，以及一组有向边在根据梯度下降原理，反向分配在网络输出处确定的校正误差。为了提高效率，校正信号通过层递归地向后分布到 $N - 1$ 衰减信号的参数矩阵 $N$ 层。反向传播需要形成这些 $N - 1$ 发生收敛的循环。
在生成对抗网络 (GAN) 中，我们将两个网络中的每一个的信号路径都提供给另一个网络的训练标准。这种拓扑安排就像稳定控制系统中的负反馈，在生成网络和判别网络之间形成平衡。两个有向边，（a）用 Ds 结果对 G 产生因果影响的边，以及（b）用 Gs 结果对 D 产生因果影响的边，在 G 和 D 中的每个循环之上创建一个循环。
在被吹捧为理论上优于 LSMT（一直在 CNN 上占主导地位）的基于注意力的网络中，与 GAN 相比，其拓扑结构复杂得多，并且比监督层中的那些循环更多。

三选一的分析

确实，每个有向图都可以在任意大的 RNN 中实现，因为它们是图灵完备的，但这并不意味着它们是所有有限算法的理想拓扑。

图灵意识到他的穿孔磁带模型并不是最好的通用高速计算架构。他并不打算证明任何关于计算速度的事情，而是要证明什么是可以计算的。他的图灵机故意有一个微不足道的拓扑结构。他想向别人说明他的完备性定理，并在哥德尔用他的两个不完备性定理扰乱理性主义之后重新开始理性主义的向前运动。

类似地，John von Neumann 提出了他的计算架构，具有中央处理器（CPU）和统一的数据和指令总线，以减少继电器或真空管的数量，而不是最大化并行算法执行。作为有向图的拓扑结构在中心有指令控制器和算术单元，其他一切都从它们引出的数据和地址总线分支出来。

一个拓扑可以完成一项任务不再是坚持使用该拓扑的理由，这就是英特尔收购 Nirvana 的原因，它背离了传统的冯诺依曼架构、DSP 架构以及 NVidia GPU 使用的当前 CUDA 核心架构和通过可通过集成 Java 和 Python 适配器调用的 C 库提供人工网络实现。

寻求更通用的拓扑结构肯定是有意义的，如果它们适合目的，就像图灵或冯诺依曼的那样。

三分之二的分析

存在通用拓扑，其中最经济可行的是 NVidia 开始的 CUDA 内核，可配置用于 MLP、CNN、RNN 以及通用 2D 和 3D 视频处理。根据所需的并行特性，它们可以配置有或没有周期。

与人工网络中激活函数的笛卡尔排列或卷积引擎中的内核单元不同，拓扑的实现确实存在使用障碍，但它们不是基本限制。主要障碍不是硬件或软件之一。它是语言学之一。我们不以拓扑方式思考，因为我们不以拓扑方式交谈。这就是这个问题的挑战的伟大之处。

当通用编程开始在许多公司中出现时，FORTRAN 开始主导 LISP。这并不奇怪，因为人类以正交方式进行交流。这是文化。当孩子涂鸦时，老师会被灌输说好话，但会通过画一个形状来回应。如果孩子画一个正方形，老师就会微笑。给孩子积木。书是长方形的。文本对齐为矩形。

我们可以在可以追溯到巨石阵的建筑中看到这一点。九十度角显然在人造事物中占主导地位，而大自然似乎没有这种偏见。

尽管有向图在递归结构中易于实现和遍历，并且在 LISP 社区中很常见。FORTRAN 分别实现了一维和二维数组中的向量和矩阵，对于数据结构理论背景较少的人来说更容易掌握。

结果是，即使学习 EMMASCRIPT (JavaScript)，它的种子来自 LISP 社区并且不偏向于正交数据结构，人们还是倾向于从 HelloWorld.js 继续到其中包含基本循环的东西，通过底层数组循环迭代。

三分之二的答案中有三个非常好奇和有见地的短语。

也许学习并没有在其中收敛——有趣的是，算法没有循环就无法学习。直接应用公式或使用已知的收敛项系列进行收敛不符合学习条件。梯度下降完全依赖于每个样本处理或批次结束时纠正措施的周期性。
也许它们会产生混沌[振荡]——这涉及混沌理论和控制理论的稳定性概念。他们可以这样做，但如果学习率设置为高，基本的多层感知器也可以。
也许它们会产生分歧——现在我们已经完全进入了混乱的领域，这可以说与创造力密切相关。Mendelbrot 提出了新形式的秩序和明显的混沌行为之间的关系，这种行为是由系统中的适当反馈水平引起的，该系统具有无法用一阶方程建模的信号路径分量。从那时起，我们发现自然界中的大多数现象实际上都是奇怪的吸引子。从相空间中连续分布的数据的连续馈送中训练网络的情节将揭示......你猜对了......一个奇怪的吸引子。当从伪随机数生成器故意将 purtibations 注入训练时期时，具体目的是分叉，

三分之三的答案分析

通用拓扑存在并且很有前景，研究人员已准备好与它们合作。狂热者可以有不屑一顾的态度。他们还不了解他们已经下载并精心调整以在他们的计算机上运行的演示，他们即将在所有媒体炒作的需求不断增长的情况下推出他们的 AI 载体，现在有人正在介绍一些有趣的东西，但还没有在代码中实现。动机方向通常是驳回或拒绝创造性的建议。

在这种情况下，谷歌、加州理工学院、IBM、麻省理工学院、多伦多大学、英特尔、特斯拉、日本和其他一千个政府、机构、公司和开源贡献者将解决这个问题，前提是人们不断谈论拓扑结构和固有的限制在纯粹的笛卡尔思维中。

将拓扑误解为意味着维度或拓扑

术语出现了一些混乱。问题中的 SO 参考是一个认为更改数组维度正在更改拓扑的示例。如果是这样，那么就不会对非拓扑的 AI 系统的几何形状做出任何改变。只有存在非拓扑的特征时，拓扑才有意义。绘制图层时，如果激活次数（图层的宽度）从 100 更改为 120，则无需增加表示该图层的矩形的高度。

我还看到将误差表面的纹理或粗糙度称为拓扑的学术论文。这完全破坏了拓扑的概念。他们打算使用术语地形。不幸的是，出版商和编辑都没有注意到这个错误。

软件或工具

大多数编程语言都支持递归哈希图中的有向图。LISP 及其衍生产品在更高效的机器指令水平上支持它们，现在仍然如此。存在并正在使用面向对象的数据库和图形库。谷歌在网络索引和查找中广泛使用它们。FaceBook 的 API 称为 Graph API，因为它是一个查询并将 API 插入到作为 FaceBook 用户数据存储的图形中。

全球软件巨头的爆炸式增长。它有开源。缺少的革命发生在那些尚未了解拓扑的含义、层次结构和网络之间的差异或反馈在任何学习系统中的作用的人之间。

关于 Java 和 Python，思想革命存在许多障碍，主要是这些。

现在在 Java 或 Python 中都有关键字可以直接处理有向图，而不是引用其他类的实例的类的想法，这是非常有限的。这些语言都不能通过一个简单的语言结构添加边缘类型。
目前还没有到硬件的映射，尽管据称 Nirvana 开发了一个，并且英特尔收购了 Nirvana，因此这个障碍可能很快就会消失。
这种偏见在学前班、幼儿园和一年级仍然存在
希尔伯特空间通常不会在微积分中教授

Graphviz 和其他从无约束的有向或双向图形表示中自动生成图表的图形软件在克服障碍方面做了很多工作，因为生成的图像在网络上是可见的。可能是通过图形的视觉表示，语言表示、思想、硬件和软件开始出现，代表问题所研究的范式转变。

并不是说约束没有用。只有一些模式和范式产生结果，但由于来自人脑的结果需要关注，而人脑是

完全不是正交的，
未使用笛卡尔神经模式实现，并且
不是拓扑盒子，

几乎可以得出结论，这些不是特别精心选择的约束。非循环标准也不是。自然是循环的，智能可能在许多方面和许多层面上都需要它。

其它你可能感兴趣的问题

上一篇L2 正则化如何使权重更小？下一篇Keras中六边形网格上的卷积层