数据挖掘 - 具有二元特征而不是类特征是否更好 - 吾爱随笔录

具有二元特征而不是类特征是否更好

数据挖掘机器学习决策树

2022-02-26 14:55:04

我有一个包含多个特征的数据集，这些特征具有类值（例如 DBF4、JUL23、...）。在分类问题和使用决策树时，最好将这些值转换为新的二元特征：因此 DBF4 将成为一个特征，其值为 0 或 1，还是保持原样更好。知道有很多值（实际上比数字或行多）。如果是这种情况，是否有更好的理由？

1个回答

一般来说，如果您使用的决策树算法支持分类特征，最好不要对它们进行二值化，因为具有较少级别的变量不太可能在拆分中使用。但是请注意，并非所有软件中的所有实现都能够在没有 one-hot 编码的情况下使用分类特征——例如，决策树和树集成的大多数 R 实现本身都支持分类特征，而 scikit-learn 和 spark 则不支持。

这是一篇博客文章，其中比较了针对随机森林的分类原样与单热编码： https ://roamanalytics.com/2016/10/28/are-categorical-variables-getting-lost-in-your-随机森林/

其它你可能感兴趣的问题

上一篇你知道这条S曲线的名字吗？下一篇文本文档的动态聚类