深度网络的贪婪层级训练是成功训练所必需的还是随机梯度下降就足够了?

机器算法验证 深度学习 自动编码器 深度信念网络 预训练
2022-03-20 13:54:54

是否可以仅通过使用反向传播(无需预训练)来获得最先进的结果

还是所有破纪录的方法都使用某种形式的预训练?

仅反向传播就足够了吗?

1个回答

不再需要预训练其目的是为网络权重找到一个好的初始化,以便在使用大量层时促进收敛。如今,我们有ReLUdropoutbatch normalization,所有这些都有助于解决训练深度神经网络的问题。引用上面链接的 reddit 帖子(由 Galaxy Zoo Kaggle 挑战获胜者):

我想说的是,从 2006 年左右开始的“预训练时代”在 20 世纪 10 年代初结束,当时人们开始使用整流线性单元 (ReLU),后来退出,并发现预训练不再对此有益网络类型。

来自 ReLU 论文(上面链接):

深度整流器网络无需任何无监督预训练即可达到最佳性能

话虽如此,它不再是必要的,但在某些无监督(未标记)样本过多的情况下仍然可以提高性能,如本文所示。