包含迭代次数对 MLP 的训练有多大影响?

人工智能 神经网络 反向传播 收敛
2021-11-04 06:36:36

我的疑问是这样的:


假设我们有一个 MLP。在 MLP 中,根据反向传播算法(反向传播算法),应用于每个权重的校正为:

wij:=ηEwij
(η=学习率,E= 输出错误,wij=ith神经元在jth行或层)

现在,如果我们在校正中加入一个额外的因素:

wij:=kηEwij
(k表示校正时的迭代次数)

该因素对网络学习的影响有多大?它会影响网络的收敛性,从而需要时间来适应数据吗?

注意:我只是提出疑问。我最近没有尝试过任何 ML 项目,所以这与我正在做的任何事情都没有关系。

1个回答

如果有的话,您希望学习率随着迭代次数的增加而降低。

当您正在寻找一个好地方并且您一无所知时,请大步走。当你找到一个不错的地方时,迈出一小步,这样你就不会走得太远。

在机器学习的其他领域,有关于学习率应该如何扩展的研究。例如,在传统的强化学习方法中,如果αi是步长的学习率i,那么我们希望有以下两个标准,以确保我们收敛到最优策略:

  1. i=0αi=. 这确保了无论我们最初的体验有多糟糕,我们最终都可以忘记它并用更好的信息取而代之。
  2. i=0αi2<. 这保证了最终的收敛。

这里的一个典型选择是αi=11+i,这符合这两个标准。

我不知道 MLP 的类似标准,但如果你要修改步长,我会采用类似的方法。使步长减小,但不要太快。