我想知道在机器学习中使用关联图。例如,如果有 2 个具有高相关性的特征,应该在应用算法之前删除其中一个特征还是取决于每个数据集。任何解释都会非常有帮助。提前致谢。
在机器学习中使用相关图
数据挖掘
机器学习
数据挖掘
可视化
2022-03-11 13:44:36
1个回答
这取决于。两个特征之间的高度相关性表明它们代表了几乎相同的信息。对于像聚类这样的一些问题,删除冗余特征总是有用的,而像 xgboost 中的 Gradient Boosting 这样的算法完全不受这些特征的影响。因此,这完全取决于您想对数据集做什么。
根据我的观点,如果您的数据集具有太多特征,那么我建议检查这些特征之间的相关性并应用 PCA 来降低数据集的维数,尤其是在您执行聚类或回归等任务时。
其它你可能感兴趣的问题