估计使用梯度下降拟合的线性模型参数的标准误差

机器算法验证 回归 最小二乘 标准错误 梯度下降
2022-04-07 01:26:21

给定一个线性模型

y=Xβ+ϵ

我们可以估计参数β^使用两种不同的方法——普通最小二乘法(OLS)和梯度下降法(GD)。它们都归结为通过找到其全局最小值来最小化均方误差 (MSE)。不同之处在于,当 OLS 找到精确解时,GD 迭代地接近它,但可能永远找不到精确答案。

对于 OLS,我们通常有一组参数估计,最显着的是标准误差 SE(β^). 但在某些情况下 OLS 不是一个选项(例如数据矩阵太大),所以我们必须使用 GD。

我试图弄清楚:

  1. 将 SE应用于使用梯度下降学习的参数是否有意义
  2. 如果是这样,我们如何计算它其他相关的东西,如 t 统计量和显着性检验是否采用通常的形式?
  3. 那么随机梯度下降(SGD)呢?有没有希望评估它的参数?

供大家参考:

1个回答

我发现bootstrap给出的估计值与 OLS 的估计值非常接近,但实际上适用于任何训练算法。

Bootstrap 是一种蒙特卡洛方法,大致归结为重复抽样,从原始数据集中替换并收集目标统计量的值拥有一组统计值,计算它们的平均值和标准误差变得微不足道。G.詹姆斯等人。提供 OLS 和 bootstrap 结果的接近性的实验证据。在没有进一步解释的情况下,我给出了他们出色工作的链接(参见第 187-190 页的引导解释和第 195-197 页的实验):