许多机器学习算法,例如神经网络,都希望处理数字。因此,当您拥有分类数据时,您需要对其进行转换。我的意思是分类,例如:
汽车品牌:奥迪、宝马、雪佛兰... 用户 ID:1、25、26、28...
尽管用户 ID 是数字,但它们只是标签,并不意味着任何连续性,例如年龄或金额。
因此,基本方法似乎使用二进制向量来编码类别:
奥迪:1、0、0……宝马:0、1、0……雪佛兰:0、0、1……
类别很少的时候还可以,但除此之外它看起来有点低效。例如,当您有 10 000 个用户 ID 进行编码时,它就是 10 000 个特征。
问题是,有没有更好的方法?也许一个涉及概率?