当试图将人工神经元模型映射到生物学事实时,不可能找到关于随机初始化权重的生物学理由的答案。
也许从我们目前对生物神经元的理解中还不知道这一点?
当试图将人工神经元模型映射到生物学事实时,不可能找到关于随机初始化权重的生物学理由的答案。
也许从我们目前对生物神经元的理解中还不知道这一点?
简而言之
我在另一篇文章中提到,人工神经网络(ANN)权重是大脑中神经元之间连接的相对粗略的抽象。同样,人工神经网络中的随机权重初始化步骤是一个简单的过程,它抽象了中枢神经系统发育和突触发生的复杂性。
更多细节(最相关的部分在下面用斜体表示)
新皮质(更具体地说是它的一个列)是大脑的一个区域,有点类似于人工神经网络。它具有层状结构,具有从其他大脑区域接收和发送轴突的层。这些层可以被视为 ANN 的“输入”和“输出”层(轴突“发送”信号,树突“接收”)。其他层是中间处理层,可以看作是人工神经网络“隐藏”层。
在构建人工神经网络时,程序员可以设置层数和每层的单元数。在新皮质中,层数和层细胞计数主要由基因决定(但是,请参阅:人类回声定位,以了解出生后大脑可塑性的示例)。化学线索引导细胞体的位置并创建层状结构。它们似乎还可以引导远距离大脑区域之间的长期轴突连接。然后细胞以某些特征性的“树状”模式发芽树突(参见:NeuroMorpho.org示例)。然后,树突将与沿途遇到的轴突或其他细胞体形成突触,通常基于遇到的细胞类型。
最后一个阶段可能最类似于 ANN 中随机权重初始化的想法。根据细胞的位置和类型,遇到的其他神经元会有些随机,与它们的连接也是如此。这些连接最初可能不会很强大,但在学习期间会有变得更强的空间(可能类似于 0 到 ~0.1 之间的初始随机权重,其中 1 是可能的最强连接)。此外,大多数细胞要么是抑制性的,要么是兴奋性的(类似于负和正权重)。
请记住,这种随机化过程在真实大脑中具有很大的空间成分。神经元很小,因此它们会与 10-200 微米外的附近神经元建立这些连接。大脑区域之间的长距离连接大多是通过基因“编程”的。在大多数人工神经网络中,连接权重的初始化通常没有基于距离的方面(尽管卷积人工神经网络通过使用滑动窗口隐式地执行类似基于距离的布线)。
还有突触修剪现象,这可能类似于最初(出生)在 ANN 中创建许多低权重连接,训练它一些时期(青春期),然后删除大多数低权重连接(成年期巩固) .
我不是深度学习专家,但这些是我的简短想法:
我认为这是因为它被认为(从信息论的角度来看)是避免网络从一开始就陷入某种有线状态的好方法。请记住:DNN 是连续函数的非线性逼近器。所以他们有一些存储容量来学习从输入映射到输出的大量 n 函数。当您查看诸如数据泄漏之类的主题时,您会发现 NN 如果可以的话,会很快尝试欺骗您:D。训练期间应用的优化将受到初始化状态的严重影响。所以从随机初始化开始至少可以避免你的神经元在开始时做同样的事情等等。
生物学推理: 从神经生物学家的角度来看,我建议您阅读赫布规则以及神经系统的工作原理(例如,谷歌神经元如何找到目标),然后将其与大脑中树突细胞如何发育的已知信息进行比较他们在出生后的前 3 年的相互联系。总之,自然界中存在一些看起来相似、鼓舞人心甚至合理的行为模式。但是,我会说这个随机初始化的原因。推荐是由数学和信息理论假设支持的,而不是纯粹的生物学论点。