最近我回顾了 XGBoost 算法,我注意到这个算法可以在训练阶段处理丢失的数据(不需要插补)。我想知道当 XGboost 用于预测新观察或有必要对丢失的数据进行插补时,它是否可以处理丢失的数据(无需插补)。
提前致谢。
最近我回顾了 XGBoost 算法,我注意到这个算法可以在训练阶段处理丢失的数据(不需要插补)。我想知道当 XGboost 用于预测新观察或有必要对丢失的数据进行插补时,它是否可以处理丢失的数据(无需插补)。
提前致谢。
xgboost 在训练时决定缺失值是进入右节点还是左节点。它选择哪个来最小化损失。如果在训练时没有缺失值,则默认将任何新的缺失值发送到正确的节点。
如果您的缺失分布中有信号,那么这基本上符合模型。
如果您的评分数据的缺失值分布与您的训练数据不同,请务必小心。xgboost 的缺失处理很方便,但不能防止屏蔽。
来源:这个答案