我正在阅读共轭梯度方法以了解它们的工作原理。我知道如果,一对向量和相对于是共轭的。我还读到是对称的正定矩阵。
我试图通过使用 CG 方法最小化均方误差函数来找出与神经网络训练的关系。矩阵将是什么?矩阵如何到神经网络的权重。它仍然是对称的和正定的吗?我读了什么是共轭梯度下降?该线程和资源链接在那里,但我仍然无法弄清楚。
我确定我遗漏了一些简单的东西,但你能给我一些解释吗?
谢谢,
最大限度
我正在阅读共轭梯度方法以了解它们的工作原理。我知道如果,一对向量和相对于是共轭的。我还读到是对称的正定矩阵。
我试图通过使用 CG 方法最小化均方误差函数来找出与神经网络训练的关系。矩阵将是什么?矩阵如何到神经网络的权重。它仍然是对称的和正定的吗?我读了什么是共轭梯度下降?该线程和资源链接在那里,但我仍然无法弄清楚。
我确定我遗漏了一些简单的东西,但你能给我一些解释吗?
谢谢,
最大限度
传统的共轭梯度下降是梯度下降的增量,它只采用与前一个下降方向完全正交的方向。在这种情况下没有矩阵。
有不同的规则(您可以在https://github.com/mbrucher/scikit-optimization/blob/master/scikits/optimization/step/conjugate_gradient_step.py我的旧优化工具箱中查看一些规则)。如果我没记错的话,FR 结合强大的 Wolfe-Powell 线搜索规则给出了最好的答案之一。问题在于它需要更多的计算,这就是为什么线搜索从未用于神经网络优化的原因。