在从事Kaggle Competition工作时,我最终得到了 11,726 列,这些列大多是“傻瓜”(一种热编码)。这是不是太多了?
我知道我们需要找出哪些功能是相关的,但不知道该怎么做。
在从事Kaggle Competition工作时,我最终得到了 11,726 列,这些列大多是“傻瓜”(一种热编码)。这是不是太多了?
我知道我们需要找出哪些功能是相关的,但不知道该怎么做。
您的解决方案将取决于几个因素。一个是您使用的是什么类型的模型。如果您使用的是自动计算特征重要性的东西,那么您可以简单地查看这些(或使用排列重要性进行更平衡的查看)。
虽然您可以查看特征重要性,但有大约 11,000 种可能性,这将非常困难。主要关注点应该是把这些特性简化为更易于管理的东西,你真的需要一种热编码吗?在不了解数据集的情况下,我无法提供更多建议。