数据挖掘 - 处理 LightGBM 模型的缺失值 - 吾爱随笔录

数据挖掘机器学习 xgboost lightgbm

2022-02-23 14:01:35

我读过 LightGBM 默认处理缺失值。并且有某些参数可以改变对缺失值的考虑，例如 zero_as_missing 等。我看到有些人在缺失值的地方使用负值（-1、-999）。

所以，我的问题是，哪个更好1）让它模型处理或2）用负值手动替换值？

提前致谢

2个回答

默认行为允许将缺失值发送到拆分的任一分支。替换为小于所有数据的负值会强制（最初）缺失值采用左分支，因此您的模型的容量（略）少。这可能是好事也可能是坏事，取决于你在偏差方差曲线上的位置。

所以，我认为这里最好的答案是“这取决于你的数据”。如果您的缺失值实际上表现得像较小的值，那么将它们编码为大的负数会强制执行这一点，以一种可能有益的方式减少容量。但如果不深入研究探索性数据分析或复杂插补方法 (MICE)，我个人会坚持默认行为。

你有两个简单的选择：

其它你可能感兴趣的问题