机器算法验证 - 如果系数从相关表中的负值变为 OLS 中的正值，模型是否错误？ - 吾爱随笔录

如果系数从相关表中的负值变为 OLS 中的正值，模型是否错误？

机器算法验证相关性最小二乘自相关回归系数

2022-04-01 02:00:51

也许是一个非常基本的问题，但让我感到困惑。A比如说，在相关表中，和 DV ( B)之间的关系是.351，但是-.150在 OLS 模型中（您添加了C和D变量E），这意味着什么？换句话说：如果CtoE变量不仅改变了的系数，A甚至使它从负变为正，这是否表明 OLS 中使用的变量之间存在不良的交互作用？我一直在检查 VIF 分数，但基于低 VIF，我没有理由担心多重共线性。什么（如果有的话）是错的？

我试图围绕这个构建一个简单的例子让我自己理解。SayA是一个人的身高，B是这个人跳跃的距离。可能存在正相关（越高意味着腿越长，跳跃距离越远）。什么变量C会E抵消这个人的身高，甚至到这个人的身高在跳跃时对他不利（使OLS 中的A和 DV之间的系数为负）？B

2个回答

不，这至少并不意味着“模型是错误的”。它告诉您，当存在其他重要变量时，您应该警惕解释原始相关性。

这是我刚刚生成的一组数据（在 R 中）。y 和 x1 之间的样本相关性为负：

 print(cor(cbind(y,x1,x2)),d=3)
         y      x1     x2
y   1.0000 -0.0772 -0.830
x1 -0.0772  1.0000  0.196
x2 -0.8299  0.1961  1.000

然而回归中的系数是正的：

 summary(lm(y~x1+x2))

... [剪辑]

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  11.8231     2.6183   4.516 9.73e-05 ***
x1            0.1203     0.1412   0.852    0.401    
x2           -5.8462     0.7201  -8.119 5.94e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.466 on 29 degrees of freedom
Multiple R-squared:  0.6963,    Adjusted R-squared:  0.6753 
F-statistic: 33.24 on 2 and 29 DF,  p-value: 3.132e-08

“模型”错了吗？不，我拟合了用于创建数据的相同模型，一个满足所有回归假设的模型，

$y = 9 + 0.2 x_1 - 5 x_2 + e$ ，其中， $e_i \sim N(0,4^2)$

或在 R 中：y= 9 + 0.2*x1 -5*x2 + rnorm(length(x2),0,4)

那么这是怎么发生的呢？

看两件事。首先，查看与的图： $y$ $x_1$

y 与 x1

我们看到（在这种情况下非常轻微）负相关。

( )的特定值用红色标记： $x_2$ $x_2=4$

y vs x1, x2=4 标记为红色

...在给定值下，与的关系正在增加，而不是减少。的其他值也是如此。对于和之间的关系是正的。那么为什么相关性是负的呢？因为和是相关的。 $x_2$ $x_1$ $x_2$ $x_2$ $y$ $x_1$ $x_1$ $x_2$

如果我们要查看相关性并使其与回归相对应，则偏相关性而不是原始相关性是相关量；这是偏相关表（使用 package ppcor）：

 print(pcor(cbind(y,x1,x2))$estimate,d=3)
        y    x1     x2
y   1.000 0.156 -0.833
x1  0.156 1.000  0.237
x2 -0.833 0.237  1.000

我们看到之间的偏相关 $y$ 和 $x_1$ 控制 $x_2$ 是积极的。

人们必须提防的不是回归结果，而是查看原始相关性时产生的误导性印象。

顺便说一句，它也很有可能使相关系数和回归系数都与零和相反的符号显着不同......并且模型仍然没有任何问题。

除了查看系数之外，您还应该查看它们的置信区间。如果间隔很宽，则从 $0.351$ 至 $-0.150$ 可以用随机的机会来解释。即使间隔很窄（并且显示出显着差异），符号的变化也并不少见。

请记住，单个斜率的解释是在保持所有其他变量不变的情况下更改该变量的效果。即使具有中等相关性（远低于使 VIF 有趣的水平），这也可能是一个不合理的假设，无助于解释，并可能导致逆转。想想在保持体重不变的同时增加身高意味着什么。

另一个例子。 $Y$ 是一个人口袋里所有硬币的价值， $X_1$ 是硬币的总数， $X_2$ 是口袋中不是四分之一硬币的硬币数量（或该地区硬币的最高通用面额）。我们预计所有 3 个变量之间存在正相关，但如果我们持有 $X_1$ 恒定和增加 $X_2$ 然后 $Y$ 会减少。

其它你可能感兴趣的问题

上一篇更新数据集的方差下一篇医学试验中基线特征的同质性测试