我有一个包含多个特征的数据集,这些特征具有类值(例如 DBF4、JUL23、...)。在分类问题和使用决策树时,最好将这些值转换为新的二元特征:因此 DBF4 将成为一个特征,其值为 0 或 1,还是保持原样更好。知道有很多值(实际上比数字或行多)。如果是这种情况,是否有更好的理由?
具有二元特征而不是类特征是否更好
数据挖掘
机器学习
决策树
2022-02-26 14:55:04
1个回答
一般来说,如果您使用的决策树算法支持分类特征,最好不要对它们进行二值化,因为具有较少级别的变量不太可能在拆分中使用。但是请注意,并非所有软件中的所有实现都能够在没有 one-hot 编码的情况下使用分类特征——例如,决策树和树集成的大多数 R 实现本身都支持分类特征,而 scikit-learn 和 spark 则不支持。
这是一篇博客文章,其中比较了针对随机森林的分类原样与单热编码: https ://roamanalytics.com/2016/10/28/are-categorical-variables-getting-lost-in-your-随机森林/
其它你可能感兴趣的问题