如果我们使用相同的训练示例进行多次训练,它不会对所需的 theta 值带来任何变化。有人可以提供背后的直觉或一些理论解释来支持这一点吗?
对我来说,看起来在训练中使用相同的训练示例可能会有所帮助。给定一个训练样例,权重试图收敛,但由于学习率小等原因,它们并没有收敛到最佳水平。因此,当模型再次看到训练样例时,它可能有助于权重向最小值收敛。想法/直觉?
如果我们使用相同的训练示例进行多次训练,它不会对所需的 theta 值带来任何变化。有人可以提供背后的直觉或一些理论解释来支持这一点吗?
对我来说,看起来在训练中使用相同的训练示例可能会有所帮助。给定一个训练样例,权重试图收敛,但由于学习率小等原因,它们并没有收敛到最佳水平。因此,当模型再次看到训练样例时,它可能有助于权重向最小值收敛。想法/直觉?
这实际上取决于您使用的算法类型。使用像随机梯度下降这样的迭代方法,这正是发生的事情。使用基于树的方法,除了通过人为地创建更大的数据集来改变围绕正则化的超参数的解释之外,这无关紧要。