我希望我们可以根据特征重要性去除高度相关的变量,可能是 PCA 等。
我们可以对高度相关的变量做些什么/
提前致谢 !
我希望我们可以根据特征重要性去除高度相关的变量,可能是 PCA 等。
我们可以对高度相关的变量做些什么/
提前致谢 !
@Kasra 提供的替代方案是降维。这是解决多重共线性问题的另一种方法,同时避免或多或少任意删除变量。
您可以使用更简单的线性技术,例如PCA,或更复杂的非线性技术,例如Autoencoders。t-SNE是一种非线性技术,通常用于可视化,我不建议将其用于训练集。
您需要删除它们。冗余特征只会增加计算时间,增加模型复杂性(没有好处),这意味着使模型/分析的解释更加复杂,如果它们很多,删除它们会通过提高向量空间维度中的信息密度来修剪向量空间(它有助于例如寻找最近的邻居)。
我认为合并这些相关的特征并创建一个新的,也是一个好主意。这样我们就不会丢失任何信息。
例如,将不同相关特征的值相加并取平均值,将是非常基本的选项。