梯度下降或粒子群等优化算法可以找到函数中的最小值。
另一方面,反向传播等学习方法将学习定义为优化问题,并用于学习深度神经网络中的权重等。
我们知道 DL 模型基本上可以学习/记忆训练数据 [2] 中的任何内容,甚至是随机噪声,这给我们带来了如何实现泛化的问题(如 [5] 中所定义)* 。
在 [7, 1, 3] 中,作者试图展示泛化与损失情况(锐化最小值/平坦最小值)之间的联系,以及它对批量大小的影响。
[4] 中研究的训练数据对泛化的影响表明,受更多数据点影响的模型比依赖/影响较少数据点的模型具有更好的泛化能力。
另一方面,[6] 从神经科学的角度阐明了模型参数在神经元泛化效应方面的作用(泛化更好的网络更难因神经元删除而中断。)。
尽管所有这些论文都在一定程度上研究了泛化,但学习算法中使用的优化对泛化的影响尚不清楚。
有没有这方面的研究?这方面可能的相关工作是什么?或者你有这个问题的答案吗?
*:让我指出,尽管许多人认为显式正则化对于泛化至关重要,但 [2] 已经解释了显式正则化(l1/l2/dropout)在泛化中没有发挥重要作用。许多被称为泛化器的技巧被证明是一个神话。他们还表明,有趣的是,SGD 可以作为隐式正则化器,这可能与优化算法的效果有关。到泛化。
[1]:李浩,等。“可视化神经网络的损失情况。” arXiv 预印本 arXiv:1712.09913 (2017)。
[2]:张志远,等。“理解深度学习需要重新思考泛化。” arXiv 预印本 arXiv:1611.03530 (2016)。
[3]:Keskar、Nitish Shirish 等人。“关于深度学习的大批量训练:泛化差距和尖锐的最小值。” arXiv 预印本 arXiv:1609.04836 (2016)。
[4]:Koh、Pang Wei 和 Percy Liang。“通过影响函数理解黑盒预测。” arXiv 预印本 arXiv:1703.04730 (2017)。
[5]:川口、健二、Leslie Pack Kaelbling 和 Yoshua Bengio。“深度学习中的泛化”。arXiv 预印本 arXiv:1710.05468 (2017)。
[6]:Ari S. Morcos、David GT Barrett、Neil C. Rabinowitz、Matthew Botvinick,“论单一方向对于泛化的重要性。” arXiv 预印本 arXiv:1803.06959 (2018)。https://deepmind.com/blog/understanding-deep-learning-through-neuron-deletion/
[7]:丁、洛朗等人。“尖锐的最小值可以推广到深度网络。” arXiv 预印本 arXiv:1703.04933 (2017)。