高度相关的变量可以做什么(>.95 和 <-.95)

数据挖掘 特征选择 特征工程 相关性
2021-09-19 01:12:59

我希望我们可以根据特征重要性去除高度相关的变量,可能是 PCA 等。

我们可以对高度相关的变量做些什么/

提前致谢 !

3个回答

@Kasra 提供的替代方案是降这是解决多重共线性问题的另一种方法,同时避免或多或少任意删除变量。

您可以使用更简单的线性技术,例如PCA,或更复杂的非线性技术,例如Autoencoderst-SNE是一种非线性技术,通常用于可视化,我不建议将其用于训练集。

您需要删除它们。冗余特征只会增加计算时间,增加模型复杂性(没有好处),这意味着使模型/分析的解释更加复杂,如果它们很多,删除它们会通过提高向量空间维度中的信息密度来修剪向量空间(它有助于例如寻找最近的邻居)。

我认为合并这些相关的特征并创建一个新的,也是一个好主意。这样我们就不会丢失任何信息。

例如,将不同相关特征的值相加并取平均值,将是非常基本的选项。