为什么测试H0: β= 0H0:β=0和H0: c o r ( X, Y) = 0H0:cor(X,Y)=0的结果不一致?

机器算法验证 相关性 多重回归 回归系数 皮尔逊-r
2022-04-17 18:17:22

我的模型中有 4 个直接影响 DV 的 IV。相关性和回归分析的结果表明:

IV1&DV:

皮尔逊相关系数:无关紧要

回归 Beta&t 值:显着

IV2&DV:

皮尔逊相关系数:显着

回归 Beta&t 值:不显着

IV3&DV:

皮尔逊相关系数:显着

回归 Beta&t 值:显着

IV4&DV:

皮尔逊相关系数:显着

回归 Beta&t 值:显着

没有检测到多重共线性问题,并且所有回归假设都得到了完美满足!

为什么回归分析的结果与IV1IV2的相关性分析完全相反?!他们为什么会矛盾?!这有什么意义吗?可以接受吗?TQ。

1个回答

原因是您正在测试两个不同的假设:

  • Pearson 相关性检验是测试给定预测变量和响应变量之间是否存在非零相关性,而不考虑其他预测变量提供的上下文。

  • 回归系数的检验是测试当其他预测变量在模型中时该预测变量是否具有非零效应t

当给定预测器的某些预测能力被包含在另一个预测器(或多个预测器)中时,两者不需要达成一致。当存在共线性时,通常会发生这种情况。例如,假设您有两个预测变量,它们彼此高度相关,并且与响应也高度相关。那么很可能两者都会从 Pearson 相关检验中产生显着的结果,但是当您同时将它们输入到模型中时,很可能只有两个预测变量中的一个(或两个都不显着)是显着的。这是(删除了不必要的输出行)中的示例:X1,X2YR

x1 = rnorm(200) 
x2 = .9*x1 + sqrt(1-.9^2)*rnorm(200) 
y = 1 + 2*x1 + rnorm(200,sd=5)

# Pearson correlation test. 
cor.test(x1,y)$p.value
[1] 6.002424e-07
cor.test(x2,y)$p.value
[1] 3.473047e-07

# linear regression
summary(lm(y~x1+x2))
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.3835     0.3445   4.016  8.4e-05 ***
x1            0.8621     0.8069   1.068    0.287    
x2            1.1716     0.7893   1.484    0.139 

您可能会想到的是,当您拟合一个简单的线性回归模型时,即只有一个预测变量的回归时,Pearson 相关检验与回归系数 检验一致:t

summary( lm(y~x1) )
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   1.3369     0.3441   3.886 0.000139 ***
x1            1.9249     0.3731   5.159    6e-07 ***

在那种情况下,他们实际上是在检验相同的假设——即“线性相关?” - 事实证明,假设检验实际上完全相同,因此值将相同。X1Yp