我想知道如何处理数据集中的相关字段。
有些人建议删除这些相关字段,因为他们不提供任何内部信息,其他人声称很多信息正在丢失。我不确定是否应该保留这些相关字段。
- 如何处理相关数据。放弃它,保留它,还是取决于其他参数?如果是,是哪个?有我可以遵守的规则吗?
- 如果字段稀疏怎么办?(因为数据集不完整)
- 1) 是否取决于使用什么样的模型?回归、分类、NN?
举一个具体的例子,来自Kaggle 上Zillow 比赛的相关值。
我想知道如何处理数据集中的相关字段。
有些人建议删除这些相关字段,因为他们不提供任何内部信息,其他人声称很多信息正在丢失。我不确定是否应该保留这些相关字段。
举一个具体的例子,来自Kaggle 上Zillow 比赛的相关值。
如果您的模型有因变量,那么以后就很难解释这些系数。
例如,假设您的模型有 3 个变量profits:costs和revenue。你训练了你的线性回归模型来预测revenue(我知道这很傻)。
您可以获得以下系数:
看到这些结果的人可能会得出结论,这revenue不能预测revenue.
这是一个微不足道的例子,因为线性相关性非常明确(revenue=profits-costs)。
但将其视为不向模型添加因变量的动机。
相关性是成对线性相关性的度量。
这更多的是你的变量是什么类型的问题。
如果你的变量是连续的,降维算法PCA应该考虑相关性。