梯度下降能否找到比最小二乘回归更好的解决方案?

机器算法验证 回归 最小二乘 梯度下降 准确性
2022-03-23 10:59:02

假设我想从 N 维空间回归到一维变量。我知道我们可以计算回归矩阵β=(XTX)1XTy,另一种选择是优化β在 N 维参数空间中使用网格搜索或梯度下降法。

我的问题是,(对于线性情况),最小二乘法解决了最好的问题 β分析,所以梯度下降找不到“更好”的解决方案,对吧?

PS:“更好”将使用相同的性能度量来定义,即误差平方和。

此外,对于非线性回归(如二次、多项式或在另一个核空间中,如高斯),我们总是可以表示数据矩阵X有了相关的特征,所以我们可以再次在这个内核空间中计算线性回归,对吧?

因此,鉴于我们没有非常大的数据集(即矩阵求逆在计算成本方面不是问题),梯度下降在准确性方面是否比最小二乘解决方案有任何优势?

我能想到的一个细节是找到一种错误较少但表明过度拟合的解决方案。目前我不在乎这个。因此,即使是过度拟合,梯度下降也能找到比最小二乘法“更好”(见上文)的解决方案吗?

2个回答

不。

这两种方法都解决了同一个问题:最小化平方和误差。一种方法比另一种方法快得多,但它们都得出了相同的答案。

这类似于问“哪个对 10/4 给出更好的答案:长除法还是计算器?”

仅当满足所有高斯-马尔可夫假设时,OLS 才会求解 BLUE(最佳线性无偏估计量)。您需要一个线性模型、独立性、相同分布、外生性和同方差性。在没有线性的场景中,我们仍然可以使用梯度下降来求解局部最小值。优选地,具有动量的随机梯度下降。在寻找比 OLS 更好的解决方案方面,答案是你想找到 OLS 吗?如果不满足 OLS 假设,则可能需要执行加权 OLS、GLS、Lasso 回归或岭回归。您选择的模型取决于您违反了哪些假设以及如何违反。