XGBoost 的数据大小要求

数据挖掘 xgboost
2022-03-09 15:36:48

这是一个快速的问题。如果我比较神经网络和随机森林,神经网络对数据大小的要求是巨大的,但决策树或随机森林也可以处理更少的记录。

XGBoost 是否也会出现此类问题?它是否还需要大量数据才能进行多次迭代以减少误差项?

2个回答

不,Xgboost 更像是传统的 ML 算法。它不需要太多的数据,而且它的性能也比几乎所有的 ML 算法都要好

您需要的数据量取决于问题(请参阅这篇关于学习曲线的精彩文章),但总的来说,xgboost 像随机森林一样对数据非常有效,并且在医学等数据生产成本高昂的情况下发现了很多用途。在您的数据上尝试并绘制学习曲线 - 如果它是欠拟合的,您需要更多数据。