我正在研究决策树模型,并试图决定如何最好地处理分类特征。我的数据集中的特征通常具有很高的基数,我发现序数标记比虚拟编码做得更好。我想知道我是否可以更进一步,是否可以根据它们与目标变量的相关性来分配它们,而不是分配随机数字代码。
例如,假设我的一个特点是sales_rep_name
,我试图预测是否有大笔或小笔销售。我可以按大额销售额的比例对销售代表进行排名,并将该排名用作序号标签。这样,当决策树分裂时,它会在树的一侧保持低销售代表,在树的另一侧保持高销售代表。这个逻辑有缺陷吗?这会导致过度拟合吗?