机器算法验证 - 用于简单线性回归的梯度下降方法优于规范方法（用于 OLS/MLE）的动机？ - 吾爱随笔录

我是机器学习的初学者，目前正在尝试寻找梯度下降法的动机。我很困惑为什么我们要使用梯度下降法进行线性回归？我看到成本函数与 OLS 函数相同，这里的梯度下降法实际上比简单地使导数为零要花费更多的精力。那为什么我们总是在这里尝试使用梯度下降呢？我是当模型变得更复杂时，也是当我们对 theta（参数）的先验分布做出更多假设时。优化问题将变得更加复杂。那么梯度下降法在这方面还能存活吗？而OLS/MLE方法将无法预测参数？我认为 OLS 最小化成本，而 MLE 方法最大化概率，本质上是相同的。（参考http://www.cs.ubc.ca/~nando/540-2013/lectures/l3.pdf）我是否应该认为梯度下降法是对 OLS 方法的改进，而 EM 方法（最大化预期似然）作为MLE 方法的改进。提前致谢！