我有八个自变量和一个因变量。我运行了一个相关矩阵,其中 5 个与 DV 的相关性较低。然后,我运行了逐步多元回归,以查看是否任何/所有 IV 都可以预测 DV。回归表明只有两个 IV 可以预测 DV(尽管只能解释大约 20% 的方差),而 SPSS 从模型中删除了其余部分。我的主管认为我没有正确运行回归,因为由于相关性的强度,我应该在回归模型中找到更多的预测变量。但是相关性很小,所以我的问题是:如果 IV 和 DV 几乎不相关,IV 仍然可以很好地预测 DV 吗?
与因变量相关性低的自变量能否成为重要的预测变量?
机器算法验证
回归
相关性
统计学意义
特征选择
预测器
2022-03-20 15:13:30
3个回答
使用相关矩阵,您正在检查变量之间的无条件(粗略)关联。使用回归模型,您正在检查您的 IV 与您的 DV 的联合关联,从而查看条件关联(对于每个 IV,它与 DV 的关联取决于其他 IV)。根据您的数据结构,这两者可能会产生非常不同甚至相反的结果。
巧合的是,我只是在看一个我之前创建的示例,以展示类似的概念(实际上是为了展示逐步回归的问题之一)。这是创建和分析模拟数据集的 R 代码:
set.seed(1)
x1 <- rnorm(25)
x2 <- rnorm(25, x1)
y <- x1-x2 + rnorm(25)
pairs( cbind(y,x1,x2) ) # Relevant results of each following line appear below...
cor( cbind(y,x1,x2) ) # rx1y = .08 rx2y = -.26 rx1x2 = .79
summary(lm(y~x1)) # t(23) = .39 p = .70
summary(lm(y~x2)) # t(23) = -1.28 p = .21
summary(lm(y~x1+x2)) # t(22) = 2.54, -2.88 p = .02, .01 (for x1 & x2, respectively)
相关性和简单的线性回归表明两者之间的关系较低(无统计学意义)和每一个变量。但被定义为两者的函数s,并且多元回归显示两者都是显着的预测因子。
如果我们能从您的软件输出中看到定量细节,并且理想情况下也能看到数据,您的问题会更容易回答。
特别是什么是“低相关性”?您使用什么显着性水平?预测变量之间是否存在导致 SPSS 丢弃一些的内置关系?
请注意,我们无法判断您是否为您的目的使用了最佳或最合适的语法,因为您没有准确说明您做了什么。
从广义上讲,预测变量和结果之间的低相关性意味着回归可能会令人失望,就像您需要巧克力来制作巧克力蛋糕一样。给我们更多细节,你应该得到更好的答案。
同样从广义上讲,你的主管的失望并不意味着你做错了事。如果您的主管了解的统计数据比您少,您需要向您所在机构的其他人寻求建议和支持。
其它你可能感兴趣的问题