机器算法验证 - 我应该如何处理高度相关的特征？ - 吾爱随笔录

我应该如何处理高度相关的特征？

机器算法验证机器学习相关性主成分分析特征选择特征工程

2022-03-31 03:57:27

我正在对鲍鱼数据集进行多类分类，方法是将鲍鱼分为年轻、成年和老年年龄组。

这样做时，我发现鲍鱼大小和重量的列高度相关。我还通过 one-hot 编码使用性别类别。

数据集信息还提到“数据集样本高度重叠。使用仿射组合完全分离需要更多信息。”

这种高相关性的含义是什么，知道这一点我如何执行我的特征工程？

1个回答

从理论上讲，这不应该影响您做出预测的能力——毕竟，唯一真正无用的数据是重述的列（或者其值可以直接从其他列导出的列——例如，在两列中具有半径和周长）。仅仅因为您的特征是相关的并不意味着它们没有用，事实上，如果您的数据集实际上代表了“野外”的内容，那么这种相关性可能很有价值。

但是，如果您的数据集有限，那么您可能会遇到麻烦，因为高度相关的数据将提供有关该主题的宝贵额外信息。正如上面的评论中提到的，PCA是一个很好的候选者。随机森林也很有前途，因为它们可以告诉您哪些列在数据分类中发挥最大作用。Gradient Boosting 分类器还可以帮助处理无法通过更基本的方法进行分类的数据。

无论如何，我很想知道您的基本分类器的基线是什么！

其它你可能感兴趣的问题

上一篇scipy.stats.ttest_ind 究竟测试了什么？下一篇你如何解释精确召回曲线下的区域？