在线性模型中使用时,凸损失函数保证参数的唯一全局最小值,可以通过局部优化方法找到。
然而,当模型是非线性的(例如 MLPs)时,局部最小值可能会导致凸损失。
当模型是非线性的时,凸损失函数有什么好处吗?在非线性情况下可以完全忽略凸性吗?
在线性模型中使用时,凸损失函数保证参数的唯一全局最小值,可以通过局部优化方法找到。
然而,当模型是非线性的(例如 MLPs)时,局部最小值可能会导致凸损失。
当模型是非线性的时,凸损失函数有什么好处吗?在非线性情况下可以完全忽略凸性吗?
凸损失函数的另一个好处是它将对所有模型(包括线性和非线性)具有更快的收敛速度。如果将动量项添加到梯度下降中,凸损失函数的收敛速度会更快。
然而,在现实世界的场景和许多模型类型中,损失函数通常不能保证是凸的。目前尚不清楚“完全忽略凸性”是什么意思。机器学习系统应设计为对非凸损失函数具有鲁棒性,以便在一系列问题中找到有用的参数。