如何预处理有序分类变量以提供机器学习算法?

数据挖掘 机器学习 数据集 预处理 数据争吵
2022-02-26 15:37:00

我有一个衡量家庭收入的分类变量:

A: no income
B: Up to $500
C: $500-$700
…
P: $5000-$6000
Q: More than \\\$6000

对我来说,我必须为这个变量获取假人似乎很奇怪,因为它是有序的。我想知道映射这些值是否更好:{'A': 0, 'B': 1, …, 'Q': 17}所以我可以将它作为整数输入到算法中。

预处理此变量以提供诸如随机森林或简单神经网络之类的算法的正确方法是什么?

1个回答

一种方法是使用目标编码:

(有百万资源可以学习目标编码)

这样,您的类别不仅会按数字排序,还会按目标值排序(最后是您想要的,以提供更好的预测)