当输出和预测变量之间没有实质性相关性时,如何获得良好的线性回归模型?

机器算法验证 回归 机器学习 相关性 多重回归 线性模型
2022-01-17 19:31:54

我已经使用一组变量/特征训练了一个线性回归模型。并且该模型具有良好的性能。但是,我意识到没有与预测变量具有良好相关性的变量。这怎么可能?

3个回答

一对变量可能表现出较高的偏相关性(考虑其他变量影响的相关性),但边际相关性较低(甚至为零)(成对相关性)。

这意味着响应 y 和某个预测变量 x 之间的成对相关性在识别其他变量集合中具有(线性)“预测”值的合适变量方面可能没有什么价值。

考虑以下数据:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

y 和 x 之间的相关性为0. 如果我画最小二乘线,它是完全水平的,并且R2自然会是0.

但是,当您添加一个新变量 g(表示观察来自两组中的哪一组)时,x 变得非常有用:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

R2包含 x 和 g 变量的线性回归模型的系数将为 1。

y 与 x 的图显示缺乏成对线性关系,但颜色表示组; 在每个小组中,关系都是完美的

模型中的每个变量都可能发生这种事情——它们都与响应具有很小的成对相关性,但是包含它们的模型非常擅长预测响应。

补充阅读:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

我假设您正在训练一个多元回归模型,其中您有多个自变量X1,X2, ..., 在 Y 上回归。这里的简单答案是成对相关性就像运行一个未指定的回归模型。因此,您省略了重要的变量。

更具体地说,当您说“没有与预测变量具有良好相关性的变量”时,听起来您正在检查每个自变量与因变量 Y 之间的成对相关性。当X2带来重要的新信息,并有助于消除两者之间的混淆X1和 Y。尽管如此,我们可能看不到两者之间的线性成对相关性X1和 Y。您可能还想检查偏相关之间的关系ρx1,y|x2和多元回归y=β1X1+β2X2+ϵ. 多元回归与偏相关的关系比成对相关的关系更密切,ρx1,y.

在向量方面,如果你有一组向量X和另一个向量y,那么如果y与中的每个向量正交(零相关)X,那么它也将与来自的向量的任何线性组合正交X. 但是,如果向量在X有大的不相关分量和小的相关分量,并且不相关的分量是线性相关的,那么y可以关联到一个线性组合X. 也就是说,如果X=x1,x2...我们采取oi= x_i 与y正交的分量,pi= x_i 的分量平行于y,那么如果存在ci这样cioi=0, 然后 cixi将平行于y(即,一个完美的预测器)。如果 cioi=0很小,那么cixi将是一个很好的预测器。所以假设我们有X1X2~ N(0,1) 和E〜N(0,100)。现在我们创建新列 X1X2. 对于每一行,我们从E, 将该数字添加到X1要得到X1, 并从中减去X2要得到X2. 由于每一行都有相同的样本E被加减,则X1X2列将是完美的预测器Y,即使每个都与Y分别。