最小二乘背后的线性回归直觉

机器算法验证 回归 机器学习 最小二乘
2022-04-10 17:30:12

我尝试按照Cristopher M. Bishop的教科书模式识别和机器学习来填补线性回归的空白

已知线性回归的误差函数为

E(w)=12n=1N(y(xn,w)tn)2(在第 5 页定义)

在哪里y(xn,w)是一个假设,一个关于的线性函数w.

我的问题是为什么这是一个最小化的正确函数,直觉在第 28 页给出,但我发现它非常模糊。

...我们将假设,给定的值x, 对应的值t具有均值等于值的高斯分布y(x,w) 由(1.1)给出的多项式曲线。因此我们有 p(t|x,w,β)=N(t|y(x,w),β1)在哪里β是分布的逆方差。

进一步的解释很简单。

问题是为什么这个假设y(x,w)我们取平均值,对我来说,为什么我们可以做出这样的假设并不直观。如果有人可以在基本层面上解释它,那将非常有帮助。

在我看来,理解的重点是下图,附在说明中,可惜我还是不明白它所描绘的内容。 在此处输入图像描述

1个回答

解决方案β=(xTx)1xTy 可以通过以下三个论点来证明:

  1. 它是一种矩估计方法,可以解决某些种群矩条件
  2. 最小化 L2 范数
  3. 当残差服从高斯分布时,它是最大似然估计量

第二个论点是关于数学优化的,它不依赖于这个估计器的统计特性。

有一个 Gauss-Markov-Aitken 定理指出,在线性无偏估计量(广义)中,最小二乘法具有最小方差,因此它是 BLUE(最佳线性无偏估计量)。对此的唯一限制是残差必须是球形的。