我目前对小批量梯度下降如何被困在鞍点感到有些困惑。
解决方案可能太琐碎了,我不明白。
每个时期你都会得到一个新样本,它会根据新批次计算一个新误差,因此每个批次的成本函数只是静态的,这意味着每个小批次的梯度也应该改变..但根据这个应该香草实现有鞍点问题?
最小化神经网络常见的高度非凸误差函数的另一个关键挑战是避免陷入其众多次优局部最小值中。多芬等人。[19] 认为,困难实际上不是来自局部最小值,而是来自鞍点,即一个维度向上倾斜而另一个维度向下倾斜的点。这些鞍点通常被具有相同误差的平台包围,这使得 SGD 难以逃脱,因为梯度在所有维度上都接近于零。
我的意思是,特别是 SGD 对鞍点有明显的优势,因为它会朝着收敛的方向波动……波动和随机抽样,以及每个时期不同的成本函数应该是不陷入困境的充分理由。
对于全批梯度体面,它可以被困在鞍点中是否有意义,因为误差函数是恒定的。
我对其他两个部分有点困惑。