我想知道初始化自动编码器的权重是否仍然很困难,以及最近的策略是什么。
我一直在阅读不同的文章。在Hinton 的一篇论文(2006 年)中,它说:
对于较大的初始权重,自动编码器通常会发现较差的局部最小值;由于初始权重较小,早期层的梯度很小,因此无法训练具有许多隐藏层的自动编码器。如果初始权重接近一个好的解决方案,梯度下降效果很好,但找到这样的初始权重需要一种非常不同类型的算法,一次学习一层特征。我们为二进制数据引入了这种“预训练”过程,将其推广到实值数据,并表明它适用于各种数据集。
我想知道初始化自动编码器的权重是否仍然很困难,以及最近的策略是什么。
我一直在阅读不同的文章。在Hinton 的一篇论文(2006 年)中,它说:
对于较大的初始权重,自动编码器通常会发现较差的局部最小值;由于初始权重较小,早期层的梯度很小,因此无法训练具有许多隐藏层的自动编码器。如果初始权重接近一个好的解决方案,梯度下降效果很好,但找到这样的初始权重需要一种非常不同类型的算法,一次学习一层特征。我们为二进制数据引入了这种“预训练”过程,将其推广到实值数据,并表明它适用于各种数据集。
这些分层预训练程序大多不再需要,原因如下:
仍然偶尔会看到人们出于某种原因进行分层训练,但绝大多数情况下,不再需要了。