如何防止共线性?

机器算法验证 回归 采样 造型 实验设计 多重共线性
2022-04-02 10:58:30

Ieno & Zuur 2015描述了输入线性回归的解释变量之间共线性的一些原因。其中一个原因就是他们所说的“数据收集”原因。

他们说共线性的数据收集原因可能发生在以下场景:

你走进田野,沿着一条轨道走,沿着你数数的轨道,例如猴子和各种解释变量。如果赛道上坡,解释变量坡度会发生变化,树木类型、植被类型、树木体积等也会发生变化。

他们接着说:

解决方案是选择避免此类问题的抽样设计。

什么样的抽样设计可以避免共线性问题?

4个回答

据我了解,数据分析过程中无法防止/避免共线性多重共线性(以下简称为共线性) ,因为共线性是数据的内置“特征”。因此,特定的数据集具有一定程度的共线性(或缺乏共线性)。然而,在数据分析之前,即在研究设计规划或可能的探索性数据分析 (EDA)阶段,可以在一定程度上防止/避免共线性。这可能是 Ieno 和 Zuur (2015) 所说的意思,您在上面的问题中引用了该短语。

预防/避免/处理共线性的潜在解决方案包括使用适当的研究设计,以减少共线性。然而,虽然我多次提到这种方法,但我不清楚哪些设计在这方面确实有帮助以及为什么(虽然 StatsStudent 提到了一种这样的方法 -分层抽样,但未提供相关来源)。在提及其他解决方案之前,值得一提的是,有时推荐的丢弃预测变量的选项被认为是相当糟糕的选项 - 请参阅此博客文章或博客作者的书(Baguley,2012)。他还提到什么都不做也应被视为处理共线性的有效方法之一。

处理(主要是减少)共线性的其他方法包括:增加样本量转换预测变量(Baguley,2012);使用主成分分析(PCA),使用高度相关变量之间的简单回归(顺序回归)并计算相关变量的比率(Balling,nd);先验建模岭回归(Graham,2003)。虽然许多文献都集中在处理多重回归设置中的共线性,但应该注意的是,使用结构方程模型 (SEM)的研究人员在他们的研究中,面临着类似的共线性问题(Grewal, Cote & Baumgartner, 2004)。尽管潜变量建模 (LVM)也被认为是减少共线性的一种方法(见下文),但这是事实。

最后,我强烈推荐Dormann、Elith、Bacher、Buchmann、Carl、Carré 等人撰写的关于该主题的非常全面的论文。(2013),其中包含处理共线性的方法的出色概述以及它们通过模拟进行的比较这些方法包括:PCA和其他变量聚类方法;已经提到顺序回归主成分回归 (PCR)偏最小二乘法 (PLS)和其他一些 LVM 方法;宽容/惩罚回归技术,包括上述岭回归

参考

Baguley, T. (2012)。严肃的统计:行为科学高级统计指南。纽约,纽约:帕尔格雷夫麦克米伦。

打球 LW (nd)。最近转换的回归设计和混合效应建模的简要介绍。取自http://pure.au.dk/portal/files/14325917/balling_csl.pdf

Dormann, CF, Elith, J., Bacher, S., Buchmann, C., Carl, G., Carré, G., ..., & Lautenbach, S. (2013)。共线性:回顾处理它的方法和评估其性能的模拟研究。生态学,36(1),27-46。doi:10.1111/j.1600-0587.2012.07348.x 检索自http://onlinelibrary.wiley.com/doi/10.1111/j.1600-0587.2012.07348.x/pdf

格雷厄姆,MH(2003 年)。面对生态多元回归中的多重共线性,生态学, 84 (11), 2809-2815。取自http://www.auburn.edu/~tds0009/Articles/Graham%202003.pdf

Grewal, R., Cote JA, & Baumgartner, H. (2004)。结构方程模型中的多重共线性和测量误差:对理论检验的影响。营销科学,23 (4), 519-529。doi:10.1287/mksc.1040.0070 检索自http://www.personal.psu.edu/rug2/Grewal,%20Cote,%20%26%20Baumgartner%20MKS%202004.pdf

有几种抽样技术可以用来减少共线性,所以我只提其中一种:分层随机抽样计划可以消除一些问题。这是使用上述场景的示例:如果您发现某些树木与轨道的高度或坡度共线,您可以根据高度或陡度的类别(区域)对人口区域进行分层(例如,根据以下箱:0-5 坡度、5-10 坡度、10-15 坡度......)。通过创建坡度层,可以避免一些坡度多重共线性问题。

显然,我不能代表 Leno 或 Zuur。我也不是生态学家。但是,从描述中,我认为它们只是意味着走多条路从本质上讲,多重共线性只是意味着您的变量彼此相关。

如果你只走一条上山的路,你在每一点测量的每一个变量都至少有一定的相关性,因为它们是在相同的高度测量的。另一方面,如果你从南边上山,再往北边走,你可能会发现即使在相同的高度,变量也不同。例如,(取决于您在地球上的位置)一侧会比另一侧获得更多的阳光。一侧可能会下更多雨。等等。通过走更多、更不同的路径,您可以最大限度地减少本来会出现的共线性。

类似于@StatsStudent,

您需要在相同斜率的值内复制其他变量。例如,也可以从不同的海拔/坡度开始绕山(侧身)进行横断面。

如果在带有坡度的树锥中确实没有变异,那么您将永远无法使用自然变异将两者分开,因为它不存在。除非您在不同的斜率范围内对数据进行分类(但这不是必要的采样,因为您可以在之后数据分析期间执行此操作。)在这种情况下,您将需要一个实验 :)