神经网络架构是偶然发现的吗?

人工智能 神经网络 人工智能设计 研究 建筑学
2021-11-04 09:50:56

最近,我一直在学习新的神经网络,这些神经网络用于特定目的,如语音识别、图像识别等。我发现的越多,我就越惊讶于 RNN 和 CNN 等模型背后的聪明之处。在这个社区里,关于工作、直觉、数学的问题被问了很多,所有的答案都含糊不清和明显的理解。

所以,我的问题是:研究人员是否偶然提出了这些专门的模型,或者他们是否遵循特定的步骤来获得模型(如在数学框架中)?他们如何看待特定类别的问题并认为“是的,可能存在更好的解决方案”?

由于对 NN 的理解如此模糊,这些都是“高风险、高回报”的场景,因为您可能只是在追逐解决方案的海市蜃楼(幻觉)。

2个回答

尽管有一个强大的“尝试和观察”元素推动了成功的架构,但尝试什么的驱动因素通常受到来自其他学科的基础理论或知识的启发。

特别是对于导致 AlexNet 和许多最佳图像处理的基本 CNN,在层中使用局部感受野的概念受到猫视觉系统中神经元研究的启发。

现代 RNN 也不是凭空出现的,长期以来,人们一直对前馈网络和循环连接网络之间的差异以及可能的不同应用有所了解。对 LSTM 的逐步改变是对训练最简单形式 RNN 的问题分析的刻意回应

像许多科学一样,这些事情也是由研究后在现实世界中取得的成功所驱动的。许多有前途的想法已经被尝试和拒绝。有些已经使用了一段时间然后被取代,例如在发现 ReLU 和 Xavier 初始化之前使用 RBM 或堆叠自动编码器来预训练深度网络 - 尽管 RBM 和自动编码器仍然有它们的利基。

作为研究的一部分,甚至可以故意搜索和评估对架构的调整,例如 LSTM/GRU 的变体。这是在明确知道找到一个好的设计的这一部分最好作为对可能性的搜索的情况下完成的。

尽管取得了类似进化的进步,但将所有这些进步呈现为完全随机或纯 GA 类搜索,却忽略了导致设计的有意识的努力和研究。如果您搜索有关任何主要成功设计的文献(例如首先存在 RNN 或 CNN)并阅读论文,您通常会发现现代神经网络架构深深植根于较早的研究,并且具有数学和/或做出选择的科学依据。

研究人员可能会遵循特定的数学框架和技术来创造出惊人的作品,就像在任何领域一样,但我相信达尔文自然选择是人类发现以及进化神经网络架构的基础理论。

“[特征]的每一个微小变化,如果有用,都会被保存下来的原则”。