线性回归中的假设需要什么?

机器算法验证 回归 假设
2022-02-14 19:05:57

在线性回归中,我们做出以下假设

  • 响应的平均值, E(Yi),在预测变量的每组值处,(x1i,x2i,), 是预测变量的线性函数。
  • 错误,εi, 是独立的。
  • 错误,εi,在预测变量的每组值处,(x1i,x2i,), 是正态分布的。
  • 错误,εi,在预测变量的每组值处, (x1i,x2i,),有相等的方差(表示σ2)。
  • 我们可以解决线性回归的方法之一是通过正规方程,我们可以写成

    θ=(XTX)1XTY

    从数学的角度来看,上式只需要XTX是可逆的。那么,为什么我们需要这些假设呢?我问了几个同事,他们提到这是为了获得好的结果,而正规方程是实现这一目标的算法。但在那种情况下,这些假设有什么帮助呢?坚持它们如何有助于获得更好的模型?

    4个回答

    你是对的 - 你不需要满足这些假设来拟合点的最小二乘线。您需要这些假设来解释结果。例如,假设输入之间没有关系X1Y, 得到一个系数的概率是多少β1至少和我们从回归中看到的一样好?

    当其中一些假设明显错误时,尝试使用来自维基百科的Anscombe 四重奏的图像来了解解释线性回归的一些潜在问题:大多数基本描述性统计数据在所有四个中都是相同的(并且个人xi除了右下角之外的所有值都相同)

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png

    您不需要这些假设来拟合线性模型。但是,您的参数估计可能有偏差或没有最小方差。违反假设将使您在解释回归结果时更加困难,例如,构建置信区间。

    好的,到目前为止的答案是这样的:如果我们违反假设,那么可能会发生坏事。我认为有趣的方向是:当我们需要的所有假设(实际上与上面的假设有点不同)都得到满足时,我们为什么以及如何确定线性回归是最好的模型?

    我认为这个问题的答案是这样的:如果我们按照这个问题的答案做出假设,那么我们可以计算条件密度p(yi|xi). 由此我们可以计算E[Yi|Xi=xi](条件期望的因式分解xi) 并看到它确实是线性回归函数。然后我们使用来查看这是关于真实风险的最佳函数。