您如何看待神经网络和设计新模型的方法?

数据挖掘 机器学习 神经网络 lstm
2022-03-12 17:01:21

我目前正在学习神经网络,在我看来,对于某些架构为何有效,通常没有给出好的理论解释;大多数时候,对于某些架构为何有效,并没有正式的争论。教授给出的解释似乎更多的是我们根据我们认为可行的方式设计架构;不是基于某种形式化的概念。举个例子,我们认为 GRU 之所以有效,是因为它们让我们能够记住过去的信息,并让我们按照我们的选择忘记和记住。那么,谁说简单的跳过级连接不允许呢?基本上,人工神经网络是否仍将是黑盒,而新技术基本上是来自直觉的架构,即什么可能有效?

1个回答

你猜对了,没有可靠的理论方法来设计神经模型。这部分符合免费午餐定理,即没有通用算法可以有效地解决所有问题。

神经模型的性能不仅取决于想法,还取决于数据。Batchnorm 有正当理由对神经网络中每个隐藏层的输入进行归一化,但它并不总能提高模型的性能。人们可以发现当前神经架构对给定数据的局限性,并可以提出可能提高性能的修复方案,但这并不总是意味着它会被证明会更好。

到目前为止,在设计新的神经架构时,该领域或多或少是由经验方法而非理论方法驱动的。