我正在对鲍鱼数据集进行多类分类,方法是将鲍鱼分为年轻、成年和老年年龄组。
这样做时,我发现鲍鱼大小和重量的列高度相关。我还通过 one-hot 编码使用性别类别。
数据集信息还提到“数据集样本高度重叠。使用仿射组合完全分离需要更多信息。”
这种高相关性的含义是什么,知道这一点我如何执行我的特征工程?
我正在对鲍鱼数据集进行多类分类,方法是将鲍鱼分为年轻、成年和老年年龄组。
这样做时,我发现鲍鱼大小和重量的列高度相关。我还通过 one-hot 编码使用性别类别。
数据集信息还提到“数据集样本高度重叠。使用仿射组合完全分离需要更多信息。”
这种高相关性的含义是什么,知道这一点我如何执行我的特征工程?
从理论上讲,这不应该影响您做出预测的能力——毕竟,唯一真正无用的数据是重述的列(或者其值可以直接从其他列导出的列——例如,在两列中具有半径和周长)。仅仅因为您的特征是相关的并不意味着它们没有用,事实上,如果您的数据集实际上代表了“野外”的内容,那么这种相关性可能很有价值。
但是,如果您的数据集有限,那么您可能会遇到麻烦,因为高度相关的数据将提供有关该主题的宝贵额外信息。正如上面的评论中提到的,PCA是一个很好的候选者。随机森林也很有前途,因为它们可以告诉您哪些列在数据分类中发挥最大作用。Gradient Boosting 分类器还可以帮助处理无法通过更基本的方法进行分类的数据。
无论如何,我很想知道您的基本分类器的基线是什么!