数据挖掘 - 可以使用与目标负相关的特征吗？ - 吾爱随笔录

数据挖掘特征选择相关性

2022-02-24 05:44:21

在特征选择中（对于回归问题），是否可以选择与目标变量负相关的特征来预测目标？
我不认为负相关意味着预测器不提供有关目标的任何信息。

一些特征选择方法（如Filter 方法）基于仅使用与目标变量具有高相关性的那些预测变量，并丢弃那些低相关性的预测变量。

我的问题是——不应该考虑负相关特征吗？我认为特征选择的问题应该是一个特征是否与目标“简单相关”，而不是它是否是正/负相关。我对吗？有人可以解决我的困惑吗？

2个回答

负相关不等于低相关。
如果变量 $x$ 和 $y$ 具有相关值 $c$ ，然后 $-x$ 和 $y$ 会有相关性 $-c$ .
当人们谈论“低相关性”时，他们通常指的是接近于 0 的相关性。

在机器学习的背景下，负相关与正相关一样好；根据相关性的绝对值进行过滤。

你是对的，不要把低相关（绝对值接近0）误认为是负相关。

大的负相关与大的正相关一样有用。唯一的区别是，对于正相关，随着特征的增加，目标也会增加。对于负相关，随着特征的减少，目标会增加。

您选择的任何模型都应该能够处理相关符号 (+/-)。

如果您正在研究特征缩减，请选择相关性接近 0 的特征。这意味着该特征与目标没有有用的关系，并且对任何预测都没有帮助。

其它你可能感兴趣的问题