决策树和分类特征标签

数据挖掘 分类 决策树 分类编码
2022-02-21 11:36:57

我正在研究决策树模型,并试图决定如何最好地处理分类特征。我的数据集中的特征通常具有很高的基数,我发现序数标记比虚拟编码做得更好。我想知道我是否可以更进一步,是否可以根据它们与目标变量的相关性来分配它们,而不是分配随机数字代码。

例如,假设我的一个特点是sales_rep_name,我试图预测是否有大笔或小笔销售。我可以按大额销售额的比例对销售代表进行排名,并将该排名用作序号标签。这样,当决策树分裂时,它会在树的一侧保持低销售代表,在树的另一侧保持高销售代表。这个逻辑有缺陷吗?这会导致过度拟合吗?

2个回答

这完全有道理。您还可以使用计数编码。因此,稀有值往往具有相似的计数(具有 1 或 2 之类的值),因此您可以在预测时将稀有值分类在一起。具有大计数的常见值不太可能与其他值具有相同的精确计数。因此,共同的价值观通过这些方式得到了自己的分组。对于过度拟合,我相信可以通过这种对类似销售代表进行分组的方式来处理过度拟合。树的深度会更小,对于过度拟合可能会更好。

在特征中编码目标变量信息对于泛化没有用。这就是数据泄漏,为模型提供了预测时不可用的附加信息。