机器学习和缺失数据:估算,如果是,什么时候?

机器算法验证 机器学习 特征选择 缺失数据
2022-03-28 15:37:43

我通常更多地在事物的效果估计/因果推理方面工作,人们对缺失数据的多重插补非常满意,但现在我正在做一个更多地在机器学习方面的项目。

我们预计会有一些缺失的数据,因为它是真实世界的医学数据,而且总是如此。

一些合作者倾向于使用完整的案例类型分析,只使用具有完整数据的主题,但这让我有点紧张,因为我觉得那些缺失的数据模式可能会产生影响。

机器学习任务的“最佳实践”是使用某种形式的插补吗?如果是这样,是否应该在特征选择之前完成?

1个回答

一些合作者倾向于使用完整的案例类型分析,只使用具有完整数据的主题,但这让我有点紧张,因为我觉得那些缺失的数据模式可能会产生影响。

我认为您的直觉是正确的,丢失的数据可以具有强大的预测能力,不应丢弃。

问题是如何处理缺失的数据,这里有两个选项(在众多选项中)

  • 使用可以处理缺失数据的基于决策树的算法。特别是,它将丢失的分类数据视为自己的一个类别。例如 XGboost、Light GBM、Catboost 或任何其他高级树算法

  • 对于无法处理 NAN 的其他算法(例如逻辑回归、神经网络等):对缺失数据使用某种形式的插补:这将取决于数据分布的形状和细节。平均值并不总是最好的主意,而众数或百分位数有时更好

如果你对预测能力最感兴趣,那么我建议使用基于树的算法,这已经成为 Kaggle 比赛的常态(非常成功)