使用多元回归在我的数据中查找“因果”关系时应该注意什么?

机器算法验证 多元分析 多重回归
2022-03-14 18:55:51

首先,我意识到多元回归并没有真正给出关于数据的“因果”推论。让我解释一下我目前的情况:

我有四个自变量,我希望(但不确定)参与驱动我正在测量的事物。我想使用多元回归来查看这些变量中的每一个对我的因变量有多少贡献,并且这样做了。据说,变量“第四号”对我的结果测量有很大的影响(β 权重接近 0.7)。

然而,有人告诉我这还不够,因为我的一些“独立”变量实际上可能相互关联。在那种情况下,我可以认为“变量四”正在驱动我的因变量,而实际上三和四的贡献是相等的。这似乎是正确的,但由于我是新手,所以我不确定。

以后如何系统地避免这个问题?在使用多元回归以确保您的“独立”数据不包含隐藏的相关性时,您会推荐哪些具体程序?

编辑:数据本身是特定神经状态的一系列网络(图)模型。我正在测量描述每个网络作为一个整体的拓扑结构的“聚类系数”(此处为因变量),然后查看较大的 100+ 网络中四个节点的单个连接是否正在驱动全局聚类值(四个独立的变量)。然而,这些节点是网络的一部分,所以从定义上看,它们可能在某种程度上是相关的。

4个回答

你不能“在未来系统地避免这个问题”,因为它不应该被称为“问题”。如果物质世界的现实具有很强的协变量,那么我们应该接受它为事实,并相应地调整我们的理论和模型。我非常喜欢这个问题,希望接下来的内容不会太令人失望。

以下是一些可能对您有用的调整。在继续之前,您需要查看回归手册。

  • 使用方差膨胀因子 (VIF) 等相关性或后估计技术来诊断问题。如果您使用的是 SAS 或 R,请使用 Peter Flom 提到的工具。在 Stata 中,用于pwcorr构建相关矩阵、gr matrix构建散点图矩阵以及vif检测 1/VIF < 0.1 的有问题的容差水平。

  • 例如,通过添加var3*var4到模型来测量交互效果。该系数将帮助您了解 和 之间var3的影响var4这只会让您部分测量交互,但它不会使您的模型摆脱其限制。

  • 最重要的是,如果您检测到强多重共线性或其他问题(如异方差),您应该放弃您的模型并重新开始。模型错误指定是回归分析(以及一般的常客方法)的瘟疫。Paul Schrodt 有几篇关于这个问题的优秀论文,包括他最近的“七大罪”,我非常喜欢。

这回答了您关于多重共线性的观点,其中很多内容可以从 UCLA Stat Computing 的回归手册中学到。它没有回答你关于因果关系的问题。简而言之,回归从来都不是因果关系。任何统计模型都不是:因果信息和统计信息是不同的物种。从 Judea Pearl(示例)中选择性地阅读以了解有关此事的更多信息。

总而言之,这个答案并没有抵消回归分析的价值,甚至是常客统计的价值(我碰巧都教过)。然而,它确实减少了它们的适用范围,也强调了你最初的解释理论的关键作用,它真正决定了你的模型具有因果属性的可能性。

如果您想查看自变量是否相关,这很容易 - 只需测试相关性,例如使用 SAS 中的 PROC CORR 或 R 中的 cor 或您使用的任何包中的任何内容。

但是,您可能希望改为或另外测试共线性。

但这只是因果关系问题的一部分。更大的问题是涉及到一些不在您的数据中的变量。经典例子:

聘请导师的学生比不聘请导师的学生成绩差。

火灾造成的损失程度与出现的消防员人数密切相关。

和(我最喜欢的)

如果您将 5 至 12 岁儿童的星座和年龄的 IQ 回归,则星座对 IQ 存在显着的交互作用和显着影响,但仅限于幼儿。


理由: 1. 是的。因为成绩非常好的学生往往一开始就不会聘请导师

  1. 是的,因为更大的火灾造成更大的破坏并带来更多的消防员

  2. 孩子上学的时间(以月为单位)取决于出生月份。学校系统有年龄限制。因此,一个 6 岁的孩子可能比另一个 6 岁的孩子多上 11 个月的学校。

而这一切都没有进入哲学!

因果关系和关联关系基本上是在回答以下问题:

除了假设的因果关系之外,还有什么可能导致XY相互关联?

只要这个问题的答案不是“无”,那么你就只能明确地谈论关联。总有可能存在一个提出的“因果”关系实际上是“正确”因果关系的一个特例——我认为这就是牛顿和爱因斯坦的引力理论之间发生的事情。牛顿的因果关系是爱因斯坦理论的一个特例。他的理论很可能是其他一些理论的特例。

此外,数据中的任何错误都会消除任何确定因果关系的机会。这是因为“A 导致 B”这个短语在某种程度上是 A 和 B 之间的演绎联系。要反驳这个假设,你所要做的就是找到 B 不存在但 A 存在的 1 个案例(因为那时 A 为真, 但这应该意味着 B 也是真的 - 但我们观察到 B 是假的)。

在回归设置中,在查看因果关系时考虑预测比解释系数更具建设性。因此,如果您确实有充分的理由认为变量四是变量的“主要原因”Y(你的因变量),那么你应该能够预测Y几乎可以肯定地使用变量四。如果你不能做到这一点,那么得出变量四原因的结论是不恰当的Y. 但是,如果您可以使用所有四个变量几乎可以确定地进行此预测-那么这表明特定组合正在“导致”Y. 每当你提出因果关系时,你几乎肯定必须通过用新数据重现你的结果来“证明”它——你需要能够预测会看到哪些数据,并且是正确的。

你还需要某种关于“因果机制”的物理理论(当我按下那个按钮时,灯亮,当我按下这个按钮时,灯会改变颜色,等等)。如果您所拥有的只是“回归系数为 0.7”,那么这对于建立一个起作用的因果机制几乎没有作用。

我不确定您的工作属于哪个领域,所以这可能有帮助,也可能没有帮助 - 但我最熟悉将 SPSS 与心理构造结合使用。根据我的经验,如果我有一些变量预测回归中的结果变量(或因变量),并且我有一个或多个自变量显示为重要的预测变量,那么下一步是查看哪些变量比其他。解决此问题的一种方法是使用分层回归。这基本上回答了这个问题“如果我已经有'变量四'来预测我的结果变量,那么其他任何变量是否提供了预测能力的统计学显着增加?” SPSS 有一种非常清晰的分析方法,我相信 R 和 SAS 也是如此。所以,我认为分层回归可能是您确定“变量四”是否真的是您预测结果因素的最佳选择的下一步。其他回复的人对相关因果关系的问题进行了很好的讨论,所以我就不说了……祝你好运!