我只是在 Pytorch 上查看不同可用调度程序的文档,我发现一个在这里我很难理解。
其他的似乎有道理:随着训练的进行,学习率逐渐降低。但到目前为止,在我的研究中,我还没有遇到需要这种“kickstart”机制的模型。
有人可以帮我弄清楚为什么我们需要这个吗?
我只是在 Pytorch 上查看不同可用调度程序的文档,我发现一个在这里我很难理解。
其他的似乎有道理:随着训练的进行,学习率逐渐降低。但到目前为止,在我的研究中,我还没有遇到需要这种“kickstart”机制的模型。
有人可以帮我弄清楚为什么我们需要这个吗?
这种在训练的早期阶段逐渐线性增加学习率的技术称为学习率预热。
这通常是为了防止在训练的初始阶段过度拟合,其中某些观察子集可能会使您的模型显着偏向某些特征,并将您推向一个糟糕的局部最优值。
修正后的亚当论文表明,这种预热启发式可作为一种方差减少技术。
由于早期缺乏样本,自适应学习率具有不希望的大方差,这导致了可疑/不良的局部最优
他们进行了一些实验来验证他们的假设。