XGBoost 可以处理预测阶段的缺失数据

机器算法验证 机器学习 缺失数据 数据插补 助推
2022-01-26 02:48:14

最近我回顾了 XGBoost 算法,我注意到这个算法可以在训练阶段处理丢失的数据(不需要插补)。我想知道当 XGboost 用于预测新观察或有必要对丢失的数据进行插补时,它是否可以处理丢失的数据(无需插补)。

提前致谢。

1个回答

xgboost 在训练时决定缺失值是进入右节点还是左节点。它选择哪个来最小化损失。如果在训练时没有缺失值,则默认将任何新的缺失值发送到正确的节点。

如果您的缺失分布中有信号,那么这基本上符合模型。

如果您的评分数据的缺失值分布与您的训练数据不同,请务必小心。xgboost 的缺失处理很方便,但不能防止屏蔽。

来源:这个答案