我有一些手工编码的特征,它是一个具有“高”、“低”和“正常”值的类别。
我自己创建了这个功能,当使用它并通过虚拟变量扩展这些功能时,我的问题性能(分类)显着提高。
现在因为我正在尝试随机森林,所以我想我将“高、低、正常”改为 1、-1、0。
现在同样的模型根本不学习。
我认为实际上它应该更容易分裂。这与我将正常设置为0有关吗?
感谢您的任何解释帮助我理解这一点。
我有一些手工编码的特征,它是一个具有“高”、“低”和“正常”值的类别。
我自己创建了这个功能,当使用它并通过虚拟变量扩展这些功能时,我的问题性能(分类)显着提高。
现在因为我正在尝试随机森林,所以我想我将“高、低、正常”改为 1、-1、0。
现在同样的模型根本不学习。
我认为实际上它应该更容易分裂。这与我将正常设置为0有关吗?
感谢您的任何解释帮助我理解这一点。
它应该起作用:变量是序数,因此使用数值是有意义的。
所以某处有一个错误,这里有一些建议: