在机器学习中使用相关图

数据挖掘 机器学习 数据挖掘 可视化
2022-03-11 13:44:36

我想知道在机器学习中使用关联图。例如,如果有 2 个具有高相关性的特征,应该在应用算法之前删除其中一个特征还是取决于每个数据集。任何解释都会非常有帮助。提前致谢。

1个回答

这取决于。两个特征之间的高度相关性表明它们代表了几乎相同的信息。对于像聚类这样的一些问题,删除冗余特征总是有用的,而像 xgboost 中的 Gradient Boosting 这样的算法完全不受这些特征的影响。因此,这完全取决于您想对数据集做什么。

根据我的观点,如果您的数据集具有太多特征,那么我建议检查这些特征之间的相关性并应用 PCA 来降低数据集的维数,尤其是在您执行聚类或回归等任务时。