如果两个特征彼此高度相关并且在这种情况下对目标变量产生相同的影响,我们需要选择哪个特征?

数据挖掘 Python 相关性 数据分析
2022-03-08 00:29:28

在我的数据集中,我有很多特征,并且两个特征彼此高度相关并且对目标变量产生相同的影响,在这种情况下,我们需要选择哪个特征来构建模型以及我们必须使用什么策略来选择任何一项功能

1个回答

首先让我回答您的具体问题:如果您想确定两个高度相关、影响大的特征中的哪个特征,我会查看您的特征的以下附加属性:

  • 数据质量或数据量如何?一个比另一个更好还是更高?选择这个。
  • 删除其中一项功能是否有害?如果是,请保留带有酒糟危害的那个(例如精度下降,其他计算变得复杂,或者您可能需要输出功能之一)

但是,我想请您在删除任何这些功能之前考虑以下事项:

  1. 拥有这两个功能是否会以任何方式损害您的准确性?例如,如果您的功能相互关联,但每个功能也与您的目标相关,那么两者都可以使用。此外,根据您的算法,使用两者都没有害处。一些算法比其他算法对多重共线性更敏感。
  2. 如果您删除您的一项功能,您在训练时是否可以节省大量时间?如果是这样,请继续通过查看我上面列出的示例属性来删除它
  3. 什么对你很重要?系数/p 值或预测准确度?多重共线性可能对系数和模型的可解释性有害,但仍会产生良好的预测准确性。特征之间的多重共线性并不一定意味着您有错误的预测。
  4. 你有高维的问题吗?如果是这样,删除高相关特征会减少您的维度数量,因此对您的算法有益