如何处理数据集中的相关变量?

数据挖掘 回归 线性回归 相关性
2022-02-20 16:27:28

我想知道如何处理数据集中的相关字段。

有些人建议删除这些相关字段,因为他们不提供任何内部信息,其他人声称很多信息正在丢失。我不确定是否应该保留这些相关字段。


  1. 如何处理相关数据。放弃它,保留它,还是取决于其他参数?如果是,是哪个?有我可以遵守的规则吗?
  2. 如果字段稀疏怎么办?(因为数据集不完整)
  3. 1) 是否取决于使用什么样的模型?回归、分类、NN?


举一个具体的例子,来自Kaggle 上Zillow 比赛的相关值。

在此处输入图像描述 在此处输入图像描述

1个回答

如果您的模型有因变量,那么以后就很难解释这些系数。

例如,假设您的模型有 3 个变量profitscostsrevenue你训练了你的线性回归模型来预测revenue(我知道这很傻)。

您可以获得以下系数:ccost=1,cprofits=1,crevenue=0

看到这些结果的人可能会得出结论,这revenue不能预测revenue.

这是一个微不足道的例子,因为线性相关性非常明确(revenue=profits-costs)。

但将其视为不向模型添加因变量的动机。

相关性是成对线性相关性的度量。

这更多的是你的变量是什么类型的问题。

如果你的变量是连续的,降维算法PCA应该考虑相关性。