给定一个线性模型
我们可以估计参数使用两种不同的方法——普通最小二乘法(OLS)和梯度下降法(GD)。它们都归结为通过找到其全局最小值来最小化均方误差 (MSE)。不同之处在于,当 OLS 找到精确解时,GD 迭代地接近它,但可能永远找不到精确答案。
对于 OLS,我们通常有一组参数估计,最显着的是标准误差 . 但在某些情况下 OLS 不是一个选项(例如数据矩阵太大),所以我们必须使用 GD。
我试图弄清楚:
- 将 SE应用于使用梯度下降学习的参数是否有意义?
- 如果是这样,我们如何计算它?其他相关的东西,如 t 统计量和显着性检验是否采用通常的形式?
- 那么随机梯度下降(SGD)呢?有没有希望评估它的参数?
供大家参考:
- 如何在回归中计算系数的标准误差?[OLS]