神经网络如何摆脱局部最小值?
数据挖掘
机器学习
神经网络
深度学习
2022-02-18 06:58:11
1个回答
以各种方式,例如
- 动量:将动量视为抑制振荡和加速迭代的一种手段,从而导致更快的收敛。这意味着用过去梯度的泄漏平均值替换梯度。
- 稀疏特征和预处理(Adagrad):在每个坐标的基础上动态降低学习率。这意味着,使用梯度的大小作为调整进展速度的手段 - 具有大梯度的坐标用较小的学习率进行补偿。
- RMSProp:momentul 和 adagrad 的组合,结合了泄漏平均值和系数预调节器
- Adadelta:学习率不能参数化,而是根据模型参数的变化率自行调整
- Adam:一个很棒的算法,总结了以上所有的特征
- 调度:在训练期间降低学习率
来源:https ://distill.pub/2017/momentum/,https : //d2l.ai/chapter_optimization
