在使用可以处理缺失值的 DT 方法(例如 XGBoost)时,输入数值或分类特征有什么好处?这个问题主要是针对值不是随机丢失的情况。
一个不随机丢失分类特征的例子
- 第 1 类:用户有一辆红色汽车
- 第 2 类:用户有一辆蓝色汽车
- 第 3 类:用户没有车(缺失值)
在这种情况下,最好将此特征视为具有 NaN 缺失值的二进制 0/1,还是将其视为多标签特征:0,1 和 -999 表示缺失?
同样的问题适用于指示用户汽车年龄的数字特征。这里,缺失值表示用户没有车。将缺失值保留为 NaN 还是估算这些值更好?如果插补更好,我是否应该使用中值进行插补,并在缺少值时添加交互功能?