在包含具有非常高基数的分类列的数据集中使用二进制编码是否可以?关于我的数据集的一些事实:
- 我的数据集有 ~170,000 行
- 类别变量之一具有 1,700 个唯一值。
- 另一个有 3,000 个唯一值。
- 请注意,实际上不可能将这些变量的值分组到更多的聚合级别。
作为一名领域专家,我确信那些具有高基数的分类列是强有力的预测指标。另一方面,二进制编码肯定会降低模型的可解释性。除了可解释性,在二进制编码之后,是否可以在新形成的数据集上构建决策树/随机森林模型,新变量仅指示位?
单击以获取有关编码分类特征的好帖子