给定最佳学习率,以下哪项是正确的?
(i) 对于凸损失函数(即碗形),批量梯度下降保证最终收敛到全局最优值,而随机梯度下降则不然。
(ii) 对于凸损失函数(即碗形),随机梯度下降保证最终收敛到全局最优值,而批量梯度
血统不是。
(iii) 对于凸损失函数(即碗形),随机梯度下降和批量梯度下降最终都会收敛到全局最优值。
(iv) 对于凸损失函数(即碗形),随机梯度下降和批量梯度下降都不能保证收敛到全局最优
哪个选项是正确的,为什么?
给定最佳学习率,以下哪项是正确的?
(i) 对于凸损失函数(即碗形),批量梯度下降保证最终收敛到全局最优值,而随机梯度下降则不然。
(ii) 对于凸损失函数(即碗形),随机梯度下降保证最终收敛到全局最优值,而批量梯度
血统不是。
(iii) 对于凸损失函数(即碗形),随机梯度下降和批量梯度下降最终都会收敛到全局最优值。
(iv) 对于凸损失函数(即碗形),随机梯度下降和批量梯度下降都不能保证收敛到全局最优
哪个选项是正确的,为什么?
(iii),如果您添加此条款
提供最佳或小于最佳学习率,并且训练数据集被打乱
为什么
当我们得到全批次的梯度时,它是朝向全局最小值的。因此,使用受控的 LR,您将到达那里。
使用随机 GD时,各个梯度不会朝向全局最小值,而是会出现在每组少数记录中。显然,它看起来有点曲折。出于同样的原因,它可能会错过确切的最小点并在它周围反弹。
在理论上更糟糕的情况下,如果数据集按类排序,那么它将朝一个类的方向移动,然后是另一个类,并且很可能会错过全局最小值。
Hands-On Machine Learning 参考摘录
另一方面,由于其随机性(即随机性),该算法的规律性远不如批量梯度下降法:成本函数不会平缓下降直至达到最小值,而是会上下反弹,仅平均下降. 随着时间的推移,它最终会非常接近最小值,但一旦到达那里,它将继续反弹,永远不会稳定下来(见图 4-9)。所以一旦算法停止,最终的参数值是好的,但不是最优的。"
使用随机梯度下降时,训练实例必须是独立同分布 (IID) 以确保参数平均拉向全局最优。确保这一点的一种简单方法是在训练期间对实例进行混洗(例如,随机选择每个实例,或在每个时期开始时对训练集进行混洗)。如果您不打乱实例(例如,如果实例按标签排序),则 SGD 将首先针对一个标签进行优化,然后是下一个,依此类推,并且它不会接近全局最小值。
如果你知道随机梯度下降是批量梯度下降的一个特例,那么你知道它们要么是要么不是。由于他们都没有选择,所以只能有(iii)。在不知道为什么他们实际上必须收敛的情况下。