我正在研究使用贪婪的逐层预训练来初始化我的网络的权重。
只是为了清楚起见:我指的是使用逐渐更深的自动编码器来逐渐教网络在当时的一层输入的更抽象的表示。
但是,阅读这里,我读到:
尽管如此,使用现代方法(例如更好的激活函数、权重初始化、梯度下降的变体和正则化方法)可能会获得更好的性能。
和
今天,我们现在知道,训练完全连接的深度架构不需要贪婪的逐层预训练,但无监督预训练方法是第一个成功的方法。
那么我的问题是:如果我正在构建一个已经使用“现代”技术的网络,例如 ReLU 激活、批量标准化、亚当优化器等,那么好用的贪婪的逐层预训练是否无用?或者它仍然可以在网络初始化中提供优势吗?