数据挖掘 - 如何处理数据集中的相关变量？ - 吾爱随笔录

数据挖掘回归线性回归相关性

2022-02-20 16:27:28

我想知道如何处理数据集中的相关字段。

有些人建议删除这些相关字段，因为他们不提供任何内部信息，其他人声称很多信息正在丢失。我不确定是否应该保留这些相关字段。

举一个具体的例子，来自Kaggle 上Zillow 比赛的相关值。

1个回答

如果您的模型有因变量，那么以后就很难解释这些系数。

例如，假设您的模型有 3 个变量profits：costs和revenue。你训练了你的线性回归模型来预测revenue（我知道这很傻）。

您可以获得以下系数： $c_{cost}=-1,c_{profits}=1,c_{revenue}=0$

看到这些结果的人可能会得出结论，这revenue不能预测revenue.

这是一个微不足道的例子，因为线性相关性非常明确（revenue=profits-costs）。

但将其视为不向模型添加因变量的动机。

相关性是成对线性相关性的度量。

这更多的是你的变量是什么类型的问题。

如果你的变量是连续的，降维算法PCA应该考虑相关性。

其它你可能感兴趣的问题