在 He 等人的残差学习论文中,有许多训练/测试误差与反向传播迭代的图。我只在这些图上看到过“平滑”曲线,而在本文的应用程序中,出现了突然的改进。在此图中(上面链接的论文中的图 4a),它们的迭代次数约为 15e4 和 30e4:
这里发生了什么?我的直觉会说反向传播到达一个梯度接近零的平台,然后突然发现一条陡峭向下的路径——但对于成本函数来说,这是一个现实的形状吗?
在 He 等人的残差学习论文中,有许多训练/测试误差与反向传播迭代的图。我只在这些图上看到过“平滑”曲线,而在本文的应用程序中,出现了突然的改进。在此图中(上面链接的论文中的图 4a),它们的迭代次数约为 15e4 和 30e4:
这里发生了什么?我的直觉会说反向传播到达一个梯度接近零的平台,然后突然发现一条陡峭向下的路径——但对于成本函数来说,这是一个现实的形状吗?
出现高原后急剧下降的原因可能有很多。一个可能的原因是误差面上的鞍点。
鞍座中的误差可能相对恒定,然后优化器“逃逸”到误差表面的更优化部分。
我会研究他们正在使用什么学习率调度程序。这似乎是lr基于余弦或ReduceOnPlateau策略的减少效果。参见Loshchilov 等人的图。