我可以简单地删除两个高度线性相关的预测变量之一吗?

机器算法验证 回归 相关性 造型
2022-02-11 05:01:15

使用 Pearson 的相关系数,我有几个高度相关的变量(对于我的模型中的 2 对变量,ρ=0.978ρ=0.989

一些变量高度相关的原因是因为在计算另一个变量时使用一个变量

例子:

B=V/3000E=VD

BEρ=0.989

我有可能只是“丢弃”其中一个变量吗?

4个回答

B 和 E 都是从 V 派生的。B 和 E 显然不是彼此真正“独立”的变量。这里真正重要的基础变量是 V。在这种情况下,您可能应该同时忽略 B 和 E,只保留 V。

在更一般的情况下,当您有两个高度相关的自变量时,您绝对应该删除其中一个,因为您遇到了多重共线性难题,并且与两个高度相关的变量相关的回归模型的回归系数将是不可靠的。此外,用简单的英语来说,如果两个变量高度相关,它们显然会向您的回归模型传递几乎完全相同的信息。但是,通过将两者都包含在内,您实际上正在削弱模型。您没有添加增量信息。相反,您正在为模型注入噪音。不是什么好事。

在模型中保留高度相关变量的一种方法是使用主成分分析 (PCA) 模型代替回归。制作 PCA 模型是为了消除多重共线性。权衡是您最终会在模型中得到两个或三个主要组件,这些主要组件通常只是数学构造,并且在逻辑上几乎难以理解。因此,每当您必须向管理层、监管机构等外部受众展示您的结果时,PCA 经常被放弃作为一种方法。PCA 模型创建了难以解释的神秘黑匣子。

这是从机器学习者的角度来看的答案,尽管我担心我会为此被真正的统计学家打败。

我有可能只是“丢弃”其中一个变量吗?

好吧,问题是您要使用哪种类型的模型进行预测。它取决于例如...

  • 具有相关预测变量的模型可以吗?例如,尽管 NaiveBayes 理论上存在相关变量的问题,但实验表明它仍然可以表现良好。
  • 模型如何处理预测变量?例如,B 和 V 之间的差异将在概率密度估计中被归一化,对于 E 和 V 可能相同,具体取决于 D 的方差(正如兴奋已经说过的那样)
  • B 和 E(一个,无,两者)的哪种使用组合提供了最好的结果,通过有意识的交叉验证 + 对保留集的测试来估计?

有时我们的机器学习者甚至会执行遗传优化来找到一组预测变量的最佳算术组合。

B 是 V 的线性变换。E 表示 V 和 D 之间的交互作用。您是否考虑过指定 Y = Intercept + V + D + V:D 的模型?正如@euphoria83 所暗示的那样,D 的变化似乎很小,因此它可能无法解决您的问题;然而,它至少应该明确 V 和 D 的独立贡献。确保事先将 V 和 D 居中。

如果 D 不是常数,则由于 D 的变化,B 和 E 实际上是两个不同的变量。高相关性表明 D 在整个训练数据中实际上是恒定的。如果是这种情况,那么您可以丢弃 B 或 E。