数据挖掘 - 为什么 sklearn 中的 HistGradientBoostingRegressor 速度如此之快且内存不足？ - 吾爱随笔录

我为我的问题训练了多个模型，大多数集成算法导致了长时间的拟合和训练时间以及磁盘上的巨大模型大小（对于 RandomForest 大约 10GB）但是当我从 sklearn 尝试 HistGradientBoostingRegressor 时，拟合和训练时间大约是 10 秒，模型大小也很低（大约 1MB），预测相当准确。当我遇到这种基于直方图的方法时，我正在尝试 GradientBoostRegressors。它在时间和内存复杂度上优于其他算法。我知道它基于微软的 LightGBM，它针对时间和内存进行了梯度提升优化，但我想知道为什么它更快（用比文档中解释的更简单的英语）和内存不足？如果您可以发布一些可以更好地解释这一点的资源，也会有所帮助。