“决策树”/“随机森林”算法中的“二进制编码”

数据挖掘 随机森林 决策树 分类数据 编码
2022-01-30 14:15:21

在包含具有非常高基数的分类列的数据集中使用二进制编码是否可以?关于我的数据集的一些事实:

  • 我的数据集有 ~170,000 行
  • 类别变量之一具有 1,700 个唯一值。
  • 另一个有 3,000 个唯一值。
  • 请注意,实际上不可能将这些变量的值分组到更多的聚合级别。

作为一名领域专家,我确​​信那些具有高基数的分类列是强有力的预测指标。另一方面,二进制编码肯定会降低模型的可解释性。除了可解释性,在二进制编码之后,是否可以在新形成的数据集上构建决策树/随机森林模型,新变量仅指示位?

单击以获取有关编码分类特征的好帖子

1个回答

一般来说,它“可以”应用于二进制编码高基数数据集。从某种意义上说,它将创建机器学习模型可以学习的数字特征。

然而,通常有更好的选择,例如标签编码、频率编码、目标编码或嵌入。

哪种编码方案最适合您的特定数据和模型是一个经验问题。最好的经验编码方案可以通过交叉验证找到。