先进行相关性然后进行回归是否合适?

机器算法验证 相关性
2022-04-10 18:27:09

在我的研究中,我有几个预测变量以及因变量/结果。我没有太大的理论压力来选择任何变量而不是另一个变量,使有关回归的决定令人沮丧。所以我运行了所有变量之间的相关性,IVs 和 DVs 看看哪些有关系。这是不被接受的吗?我可以使用此信息来告知在哪里可以进一步查看吗?

相关性是否容易受到家庭错误的影响?

1个回答

在我看来,可以先检查相关性。事实上,这种探索性数据分析很重要,一方面是为了让您提前了解多重共线性可能出现的任何问题。

首先,选择协变量的最佳方法是借助对协变量与结果之间的因果关系的先验理解。一个很好的方法是绘制因果路径图或有向无环图。这样做的优点是允许识别也应控制的潜在混杂变量,但也识别最小足够的协变量集,以避免过度调整(这可能导致反转悖论)。可以在此处找到对这些陷阱的出色描述。

如果您确实没有先验知识来帮助选择候选协变量,那么您将面临基于虚假相关性选择协变量的风险。在这种情况下,您可以使用逐步过程来选择协变量,但这会导致类型 1 错误(即族错误)的膨胀,并且您还需要非常小心多重共线性。