在多重共线性下滥用线性模型:模拟预测变量的“真实”运动

机器算法验证 r 广义线性模型 多重回归 解释 多重共线性
2022-03-21 14:25:50

我对为什么多重共线性是一个问题是回归模型有一个合理的理解,就像这篇优秀的帖子一样。

总结一下我的理解,对于一个回归模型y=α+β1x+β2z(在哪里xz是相关的),β系数估计(以及不稳定)很难解释,因为您可能会增加z不增加x不太可能发生,也没有数据支持。

我理解多重共线性对纯粹预测的危害比解释性或描述性模型的危害要小。

我对另一种解释感兴趣:

如果我决定增加z, 然后让x随反应而变化,我会看到什么y, 考虑到这样一个事实x很可能会随着z,还有它自己的效果吗?

换句话说,接受因果解释xz两者都导致y,并且它们本身在一定程度上相关(例如 0.7),如果所有三个变量将如何移动z是否(线性)增加了一些量?

我以前尝试过模拟这种东西,适合y=α+β1x+β2z(模型 1),和x=α+β1z(模型 2)。假设增加z值产生,并产生x使用模型 2 预测值。假设xz值用于预测y使用模型 1。然而这感觉非常不令人满意,需要复杂的模拟来捕捉不确定性(我在 中使用simarm)。此外,我的直觉告诉我,除了令人痛苦的不雅之外,由于其他我无法指出的原因,这是一个坏主意。

  • 这种“观察性”/有条件的“当我感觉像它”的解释是否可能?
  • 有谁知道这种解释的更好方法?
  • R任何人都可以按照这些思路推荐纸张或包装吗?
  • 上述多模型混乱是否有效?

我知道一个模型沿着y=α+β1z会对上面的两阶段混乱产生类似的答案,但会丢失信息x.

我知道这些想法类似于结构方程建模,但除了对 SEM 知之甚少之外,我还没有找到一个R包,它允许灵活地扩展这些模型,为比例赔率模型等提供不同的链接函数。

1个回答

试试熔岩。它是一个 R 包,应该也是为了处理链接功能而构建的。

你的问题的问题是缺乏目的。在处理变量和抽象假设时,统计建模非常难以翻译和解释。

X 和 Z 是相关的。如果其中任何一个都有很大的变化,那么当存在多重共线性时,您的模型肯定会很差。来自一个的信息被另一个混淆,因为它们“一起移动”。

另一方面,如果您正在处理测量中相对可靠的变量,并且您有充足的样本,则值得保留两者,因为相关性不如 0.85-0.95 高。

最后,如果目标是准确的预测,请同时保留它们。如果目标是统计有效性,请使用您的拟合统计数据并使用 Wald 测试、LR 测试、AIC、BIC 等。我还建议您从头开始编写代码,以确保您真正了解自己在做什么。套餐适用于非学术人员。如果您想要有效的答案,您需要牢牢把握“幕后”发生的一切。

这通常是正确的:目的证明手段是正确的。