数据挖掘 - 如何解释训练误差与迭代的突然改进？ - 吾爱随笔录

数据挖掘神经网络梯度下降卷积神经网络反向传播

2022-03-07 06:50:45

在 He 等人的残差学习论文中，有许多训练/测试误差与反向传播迭代的图。我只在这些图上看到过“平滑”曲线，而在本文的应用程序中，出现了突然的改进。在此图中（上面链接的论文中的图 4a），它们的迭代次数约为 15e4 和 30e4：

这里发生了什么？我的直觉会说反向传播到达一个梯度接近零的平台，然后突然发现一条陡峭向下的路径——但对于成本函数来说，这是一个现实的形状吗？

2个回答

出现高原后急剧下降的原因可能有很多。一个可能的原因是误差面上的鞍点。

鞍座中的误差可能相对恒定，然后优化器“逃逸”到误差表面的更优化部分。

我会研究他们正在使用什么学习率调度程序。这似乎是lr基于余弦或ReduceOnPlateau策略的减少效果。参见Loshchilov 等人的图。

其它你可能感兴趣的问题