机器学习中的坏局部最小值是什么?

人工智能 机器学习 深度学习 术语 文件 结石
2个回答

形容词bad在数学上不是描述性的。更好的术语是次优的,这意味着学习状态可能基于当前信息看起来是最优的,但尚未找到所有可能性中的最优解。

考虑一个表示损失函数的图,损失函数是衡量当前学习状态和最佳状态之间差异的名称之一。一些论文使用术语错误在所有学习和自适应控制案例中,它是对当前状态和最佳状态之间差异的量化。这是一个 3D 图,因此它仅将损失可视化为两个实数参数的函数。可能有数千个,但两者足以可视化局部最小值与全局最小值的含义。有些人可能会从微积分或解析几何中回忆起这种现象。

如果纯梯度下降与最左边的初始值一起使用,则损失表面中的局部最小值将首先定位。通常不会发生爬上斜率以进一步向右测试全局最小值处的损失值。在大多数情况下,梯度会导致学习算法的下一次迭代走下坡路,因此称为梯度下降

这是一个简单的案例,不仅仅是两个参数的可视化,因为损失表面中可能有数千个局部最小值。

显示如何错过全局最优值的误差面

有许多战略方法可以提高寻找全局最小损失的速度和可靠性。这些才一点点。

  • 使用梯度下降,或者更准确地说,雅可比下降
  • 可能是多维泰勒级数的进一步术语,下一个与曲率有关,Hessian
  • 在直观(并且有些过于简单)的水平上注入噪声就像摇动图形一样,表示当前学习状态的球可能会在山脊或峰值上反弹并降落(基本上通过反复试验)全局最小值 - 模拟退火是一种材料科学类比,涉及模拟布朗(热)运动的注入
  • 从多个起始位置搜索
  • 并行性,有或没有智能控制策略,尝试多种初始学习状态和超参数设置
  • 基于过去学习或理论上已知原理的表面模型,以便在使用试验来调整模型参数时可以投影全局最小值

有趣的是,证明找到最优状态的唯一方法是通过检查每一种可能性来尝试每一种可能性,这在大多数情况下几乎是不可行的,或者依赖于可以确定全局最优的模型。大多数理论框架将特定的准确性、可靠性、速度和最小输入信息量作为 AI 项目的一部分,因此不需要如此详尽的搜索或模型完善。

实际上,例如,当单元测试、alpha 功能测试和最终的 beta 功能测试都表明伤害和财产损失的发生率低于人类驾驶时,自动车辆控制系统就足够了。与大多数服务和制造企业一样,这是一种统计质量保证。

上图是为另一个答案开发的,它为感兴趣的人提供了额外的信息。

正如这些论文的摘要中提到的,坏局部最小值是次优的局部最小值,这意味着接近全局最小值的局部最小值。