我已经问过这个问题了;但是,我意识到这可能是解决此类问题的更好地方。
我很清楚,当将分类特征与基于树的模型(例如随机森林和梯度提升)一起使用时,无需从 N 级分类特征中删除一级。例如,下面的具有三个级别的颜色特征可以做成三个二值特征。
Color|| Color_R | Color_B | Color_G
____ ||_________|_________|________
R || 1 | 0 | 0
B || 0 | 1 | 0
G || 0 | 0 | 1
但是,二元特征(例如,TRUE/FALSE、MALE/FEMALE)呢?是否应该将其保留为单个二进制特征(下面的选项 I),还是应该将其一次性编码为两个二进制特征(下面的选项 II)
选项一
Gender || Gender |
____ ||_________|
M || 1 |
F || 0 |
M || 1 |
选项二
Gender || Gender_M | Gender_F
____ || _________|_________
M || 1 | 0
F || 0 | 1
M || 1 | 0