SGD 能够跳出会陷入 BGD 的局部最小值
我真的不明白上面的说法。有人可以提供一个数学解释,解释为什么 SGD(随机梯度下降)能够逃脱局部最小值,而 BGD(批量梯度下降)不能?
附言
在网上搜索时,我读到它与“振荡”有关,同时朝着全球最小值迈进。那是什么?
SGD 能够跳出会陷入 BGD 的局部最小值
我真的不明白上面的说法。有人可以提供一个数学解释,解释为什么 SGD(随机梯度下降)能够逃脱局部最小值,而 BGD(批量梯度下降)不能?
附言
在网上搜索时,我读到它与“振荡”有关,同时朝着全球最小值迈进。那是什么?