训练具有 1 个隐藏层的模型

数据挖掘 神经网络
2022-03-02 16:49:35

对于多层神经网络,随机梯度下降(SGD)是否保证达到全局最优?

2个回答

根据论文“神经网络训练中的全局最优性” [Haeffele, BD 和 Vidal, R., 2017] ( https://openaccess.thecvf.com/content_cvpr_2017/papers/Haeffele_Global_Optimality_in_CVPR_2017_paper.pdf ) 神经网络的全局最优保证有 1 个隐藏层,但仅在某些条件下。该层必须足够大,并且激活/正则化函数必须是某种类型。例如,ReLU 激活满足条件,但 sigmoid 激活不满足。

这取决于数据的复杂性。如果数据表示对于一个隐藏层来说是足够的,那么是的,这是可能的,或者至少它能够找到可能的最佳解决方案。

如果数据集是高维的,那么神经网络不太可能很好地概括问题。因此,局部最优可能是网络能够找到的唯一结论。