机器算法验证 - 梯度下降能否找到比最小二乘回归更好的解决方案？ - 吾爱随笔录

假设我想从 N 维空间回归到一维变量。我知道我们可以计算回归矩阵 $\beta = (\mathbf{X}^{\rm T}\mathbf{X})^{-1} \mathbf{X}^{\rm T}\mathbf{y}$ ，另一种选择是优化 $\beta$ 在 N 维参数空间中使用网格搜索或梯度下降法。

我的问题是，（对于线性情况），最小二乘法解决了最好的问题 $\beta$ 分析，所以梯度下降找不到“更好”的解决方案，对吧？

PS：“更好”将使用相同的性能度量来定义，即误差平方和。

此外，对于非线性回归（如二次、多项式或在另一个核空间中，如高斯），我们总是可以表示数据矩阵 $X$ 有了相关的特征，所以我们可以再次在这个内核空间中计算线性回归，对吧？

因此，鉴于我们没有非常大的数据集（即矩阵求逆在计算成本方面不是问题），梯度下降在准确性方面是否比最小二乘解决方案有任何优势？

我能想到的一个细节是找到一种错误较少但表明过度拟合的解决方案。目前我不在乎这个。因此，即使是过度拟合，梯度下降也能找到比最小二乘法“更好”（见上文）的解决方案吗？