我有一个数据集,它具有高基数(> 8000)和低基数(4 或 5)的分类特征。用一个编码器(例如目标编码器)对高基数的编码器(例如目标编码器)编码,用另一个编码器(一个热编码器)对低基数的编码器进行编码,然后将所有东西放在一起训练模型是否可以?这是错误的吗?无论其基数如何,都应该将相同的编码器应用于所有功能?
非常感谢您的投入!
我有一个数据集,它具有高基数(> 8000)和低基数(4 或 5)的分类特征。用一个编码器(例如目标编码器)对高基数的编码器(例如目标编码器)编码,用另一个编码器(一个热编码器)对低基数的编码器进行编码,然后将所有东西放在一起训练模型是否可以?这是错误的吗?无论其基数如何,都应该将相同的编码器应用于所有功能?
非常感谢您的投入!
很好。编码时,您希望尽可能多地提取信息。您可以对每个功能应用一种编码,甚至两种。
您也可以对数值变量进行编码或将它们装箱,然后再编码。
对于不同的编码技术,我推荐Category Encoders。
请注意,某些编码会使您的模型降低其性能,因此您应该以某种方式选择特征,而不是通过添加更多编码,您的模型会表现得更好。