用于简单线性回归的梯度下降方法优于规范方法(用于 OLS/MLE)的动机?

机器算法验证 最大似然 最小二乘 梯度下降
2022-03-25 09:04:44

我是机器学习的初学者,目前正在尝试寻找梯度下降法的动机。我很困惑为什么我们要使用梯度下降法进行线性回归?我看到成本函数与 OLS 函数相同,这里的梯度下降法实际上比简单地使导数为零要花费更多的精力。那为什么我们总是在这里尝试使用梯度下降呢?我是当模型变得更复杂时,也是当我们对 theta(参数)的先验分布做出更多假设时。优化问题将变得更加复杂。那么梯度下降法在这方面还能存活吗?而OLS/MLE方法将无法预测参数?我认为 OLS 最小化成本,而 MLE 方法最大化概率,本质上是相同的。(参考http://www.cs.ubc.ca/~nando/540-2013/lectures/l3.pdf)我是否应该认为梯度下降法是对 OLS 方法的改进,而 EM 方法(最大化预期似然)作为MLE 方法的改进。提前致谢!

1个回答

对于普通的线性回归,最大似然和最小二乘是相同的,即给出相同的答案(最大似然解最小二乘解,如果你推导出所谓的“正规方程”,你也会看到这一点请参阅讨论这一点的《统计学习的要素》一书)。

但这与您如何找到该解决方案是分开的。梯度下降只是找到解决方案的一种方法,实际上它是一种非常糟糕的方法(收敛缓慢)。例如,牛顿法对于 OLS 来说要好得多(使用各种数值算法来避免直接反转 Hessian 矩阵)。

但是你是对的,对于非常大的问题,梯度下降变得更有用,因为像牛顿法这样的二阶方法在计算上可能非常昂贵(同样,也有近似值)。

我认为 EM 与 OLS 无关,它可用于优化非凸问题(OLS 是凸问题)。