多元回归中解释变量之间的线性关系

机器算法验证 多重回归 多重共线性
2022-03-15 14:19:50

我正在阅读Data Analysis and Graphics Using R: An Example-Based Approach的多元回归章节,有点困惑地发现它建议检查解释变量之间的线性关系(使用散点图),如果没有没有,改变它们,使它们变得更加线性相关。以下是其中的一些摘录:

6.3 拟合多元回归模型的策略

(...)

检查涉及所有解释变量的散点图矩阵。(在这一点上,包括因变量是可选的。)首先在解释变量的图中寻找非线性的证据。

(...)

这一点确定了一种模型搜索策略——寻找解释变量之间的回归关系遵循“简单”线性形式的模型。因此,如果某些成对图显示非线性的证据,请考虑使用变换来提供更接近线性的关系虽然不一定证明有可能遵循此策略来充分建模回归关系,但由于以下原因,这是一个很好的策略,可以在开始搜索时遵循。

(...)

如果解释变量之间的关系是近似线性的,也许在转换之后,就可以自信地解释预测变量与响应变量的关系图。

(...)

可能无法找到一个或多个解释变量的转换,以确保面板中显示的(成对)关系呈现线性。对于任何拟合回归方程的诊断图的解释和拟合方程中系数的解释都会产生问题参见 Cook 和 Weisberg (1999)。

我不应该担心因变量之间的线性关系(因为存在多重共线性的风险)而不是积极追求它们吗?具有近似线性相关变量的优点是什么?

作者确实在本章后面讨论了多重共线性问题,但这些建议似乎与避免多重共线性不一致。

3个回答

这里有两点:

  1. 该文章建议仅在有非线性证据时才将 IV 转换为线性。IV 之间的非线性关系也可能导致共线性,并且更集中地,可能会使其他关系复杂化。我不确定我是否同意书中的建议,但这并不愚蠢。

  2. 当然,非常强的线性关系可能是共线性的原因,但高相关性既没有必要也不足以导致有问题的共线性。诊断共线性的一个好方法是条件指数。

编辑回应评论

条件索引在这里被简单地描述为“最大特征值的平方根除以最小特征值”。这里有很多关于 CV 的帖子讨论它们及其优点。关于它们的开创性文本是 David Belsley 的两本书:条件诊断回归诊断(也有新版本,2005 年)。

每个解释变量和因变量之间的线性关系也将确保解释变量之间的线性关系。反过来当然不是真的。

确实,旨在提供近似线性的变换会增加共线性。然而,在没有这种转换的情况下,共线性是隐藏的。坚持隐藏这样的共线性可能会导致一个复杂且无法解释的回归方程,其中有一个简单的方程形式可用。

假设它y接近于 的线性函数log(x1),在x范围超过 10 倍或更多的值的情况下。然后 ifx用作回归量,如果可能的话,将调用其他解释变量来解释与 x1 关系中的非线性。结果可能是一个非常复杂的回归关系,具有无法解释的系数,而不是一个简单形式的回归方程,它可以捕获所有可用的解释能力。

最近的一篇论文很好地说明了未能找到和处理线性相关变量可能导致的奇怪后果,该论文声称在 1950-2012 年登陆美国的 94 次大西洋飓风造成的死亡数据中存在飓风名称效应的女性特征。http://www.pnas.org/content/111/24/8782.abstract这些数据作为补充信息的一部分提供。请注意,log(deaths)使用正态理论线性模型(R 函数lm())大致相当于 Jung 等人使用负二项式回归模型。

如果回归log(E[deaths])log(NDAM)则没有什么可以解释最小压力变量、女性变量和相互作用。变量log(NDAM), not NDAM,在散点图矩阵中显示为与最小压力变量线性相关。它的分布也更少偏斜,更接近对称。

Jung 等人log(E[deaths])NDAM(标准化损伤)以及其他变量和相互作用进行了回归。然后出现的方程式被用来讲述一个故事,其中名字的女性性有很大的影响。

要了解在结果变量为plotagainstNDAM的回归中用作解释变量是多么奇怪然后用代替重复情节如果将 Jung 等人作为异常值省略的卡特里娜飓风和奥黛丽纳入情节中,则对比会更加显着。通过坚持使用而不是作为解释变量,Jung 等人放弃了寻找一种非常简单的回归关系形式的机会。log(E[deaths])log(deaths+0.5)log(deaths+1)NDAMlog(NDAM)NDAMNDAMlog(NDAM)

NB 即E[deaths]模型预测的死亡人数。

在 Jung 等人的数据中,可以从所有变量的散点图矩阵中确定所需的转换。尝试spm()使用最新版本的 R 的 car 包中的 R 函数,使用transform=TRUEand (with deathsas a variable) family="yjPower"或者尝试初始散点图矩阵建议的转换。一般来说,首选的建议可能是首先寻找满足线性预测变量要求的解释变量,然后关注结果变量,可能使用 car 函数invTranPlot()

除了提问者引用的“使用 R 的数据分析和图形”之外,请参阅:

  • Weisberg:应用线性回归。第 4 版,Wiley 2014,第 185-203 页。
  • Fox 和 Weisberg:应用回归的 R 伴侣。第 2 版,Sage,2011 年,第 127-148 页。

如果不是完全值得怀疑的话,我觉得这整段经文相当神秘。理想情况下,您希望自变量彼此之间尽可能不相关,以便在估计因变量时为模型提供增量和附加信息。你通过自变量之间的高度相关性提出了多重共线性问题,在这种情况下提出这个问题是完全正确的。

更关键的是检查每个自变量和因变量之间的散点图和相关的线性关系,而不是自变量之间的关系。在此时查看此类散点图(独立于 X 轴并依赖于 Y 轴)时,可能有机会转换自变量以观察更好的拟合,无论它是通过对数、指数还是多项式形式。