如何从 11,000 多种可能性中找到相关功能?

数据挖掘 神经网络 深度学习 喀拉斯 数据清理
2021-09-27 04:55:05

在从事Kaggle Competition工作时,我最终得到了 11,726 列,这些列大多是“傻瓜”(一种热编码)。这是不是太多了?

我知道我们需要找出哪些功能是相关的,但不知道该怎么做。

1个回答

您的解决方案将取决于几个因素。一个是您使用的是什么类型的模型。如果您使用的是自动计算特征重要性的东西,那么您可以简单地查看这些(或使用排列重要性进行更平衡的查看)。

虽然您可以查看特征重要性,但有大约 11,000 种可能性,这将非常困难。主要关注点应该是把这些特性简化为更易于管理的东西,你真的需要一种热编码吗?在不了解数据集的情况下,我无法提供更多建议。