我应该如何处理高度相关的特征?

机器算法验证 机器学习 相关性 主成分分析 特征选择 特征工程
2022-03-31 03:57:27

我正在对鲍鱼数据集进行多类分类,方法是将鲍鱼分为年轻、成年和老年年龄组。

这样做时,我发现鲍鱼大小和重量的列高度相关。我还通过 one-hot 编码使用性别类别。

在此处输入图像描述

数据集信息还提到“数据集样本高度重叠。使用仿射组合完全分离需要更多信息。”

这种高相关性的含义是什么,知道这一点我如何执行我的特征工程?

1个回答

从理论上讲,这不应该影响您做出预测的能力——毕竟,唯一真正无用的数据是重述的列(或者其值可以直接从其他列导出的列——例如,在两列中具有半径和周长)。仅仅因为您的特征是相关的并不意味着它们没有用,事实上,如果您的数据集实际上代表了“野外”的内容,那么这种相关性可能很有价值。

但是,如果您的数据集有限,那么您可能会遇到麻烦,因为高度相关的数据将提供有关该主题的宝贵额外信息。正如上面的评论中提到的,PCA是一个很好的候选者。随机森林也很有前途,因为它们可以告诉您哪些列在数据分类中发挥最大作用。Gradient Boosting 分类器还可以帮助处理无法通过更基本的方法进行分类的数据。

无论如何,我很想知道您的基本分类器的基线是什么!