我的疑问是这样的:
假设我们有一个 MLP。在 MLP 中,根据反向传播算法(反向传播算法),应用于每个权重的校正为:
(=学习率,= 输出错误,=神经元在行或层)
现在,如果我们在校正中加入一个额外的因素:
(表示校正时的迭代次数)
该因素对网络学习的影响有多大?它会影响网络的收敛性,从而需要时间来适应数据吗?
注意:我只是提出疑问。我最近没有尝试过任何 ML 项目,所以这与我正在做的任何事情都没有关系。
我的疑问是这样的:
假设我们有一个 MLP。在 MLP 中,根据反向传播算法(反向传播算法),应用于每个权重的校正为:
(=学习率,= 输出错误,=神经元在行或层)
现在,如果我们在校正中加入一个额外的因素:
(表示校正时的迭代次数)
该因素对网络学习的影响有多大?它会影响网络的收敛性,从而需要时间来适应数据吗?
注意:我只是提出疑问。我最近没有尝试过任何 ML 项目,所以这与我正在做的任何事情都没有关系。
如果有的话,您希望学习率随着迭代次数的增加而降低。
当您正在寻找一个好地方并且您一无所知时,请大步走。当你找到一个不错的地方时,迈出一小步,这样你就不会走得太远。
在机器学习的其他领域,有关于学习率应该如何扩展的研究。例如,在传统的强化学习方法中,如果是步长的学习率,那么我们希望有以下两个标准,以确保我们收敛到最优策略:
这里的一个典型选择是,这符合这两个标准。
我不知道 MLP 的类似标准,但如果你要修改步长,我会采用类似的方法。使步长减小,但不要太快。