多重回归还是单独的简单回归?

机器算法验证 回归
2022-03-26 11:27:17

我想了解两个量 X 和 Z 如何影响 Y。

我应该使用包含 X 和 Z 对 Y 的影响的单个多元回归模型,而不是使用单独的回归模型来查看 X 对 Y 和 Z 对 Y 的影响?

我认为多元回归更好,但我无法解释原因(减少错误除外)。如果不是,为什么?

3个回答

这是一个有点令人困惑的辩论,因为我不确定二次回归方法将如何实现您的目标。

具有两个连续自变量的回归模型可以可视化为 3-D 空间:

在此处输入图像描述

蓝线代表之间的关联xy在每个值z. 没有z在模型中,蓝线的斜率可能不再与上图相同,因为不知何故z可能与x同时也是一个因果成分y. 在这种情况下,失踪z在模型中会混淆之间的关联xy. 阿卡,β1, 的回归系数xy=β0+β1x可以有偏见。

这种 3 变量动态不能仅通过检查来辨别xyzy分别地。我可能会将它们视为理解变量之间关系的一种中间方法……但是如果看到“给定 X 的数量和 Z 的数量影响 Y ”是您的目标,它们将无法完成工作。

为了使答案稍微复杂化,您提出的执行多元线性回归的方法xz因为自变量也可能不足。有时,一个自变量的关联可能取决于另一个自变量的值,导致回归平面“扭曲”。这是众多可能性之一:

在此处输入图像描述

在这种情况下,之间的关联xy(蓝线的斜率)在不同的值变化z. 如果发生这种情况,您可能需要通过在xz.

还有共线性也会影响您的多元回归模型的结果。

思考为什么最小二乘回归(和其他方法,但我假设这是您要问的)有用的一种方法是考虑区分不同效果的问题。换句话说,回归允许我们确定X 对 Y 的独特影响以及 Z 对 Y 的独特影响。如果 X 和 Z 在统计上相关,那么简单地回归 Y 对 X 将给出错误的影响估计X 对 Y 的影响,因为 Z 的一些影响将在回归中被赶上。如果你只在 Z 上回归 Y,同样的事情也会发生。回归的酷之处在于,它让我们能够看到每个预测变量对响应变量的独特影响,即使我们的预测变量本身是相关的。

话虽如此,您似乎需要阅读或回顾回归本身的基础知识。如果您使用回归方法在论文中提出论点,则尤其如此。

这个对另一个问题的回答以及其他讨论可能有助于您的理解。

其中很大一部分是 x 和 z 可能相互关联,您需要考虑这种关系以充分理解它们与 y 的关系。即使 x 和 z 完全正交,在查看 x 和 y 之间的关系时考虑 z 解释的方差也可以减少变化并给出更精确的估计。

也就是说,有时查看个体关系以及多元回归是有好处的。您需要考虑您要尝试回答哪些问题以及哪些模型会回答这些问题。