可以在数据子集上调整梯度提升回归器并获得相同的结果吗?

数据挖掘 scikit-学习 gbm
2022-02-10 10:03:53

我正在处理一个大型数据集(约 9M 行,具有 20 多个特征)。是否可以通过网格搜索对一小部分数据(约 100k 行)进行调整以确定最佳超参数?这主要用于选择 max_features、min_samples、max_depth。树和学习率稍后出现。调整分数与整个数据集会得到不同的结果吗?

1个回答

您永远不应该对整个数据集进行训练或网格搜索,因为这会导致过度拟合并降低模型在新数据上的准确性。您所描述的实际上是理想的方法:对数据的子集进行网格搜索/训练。是的,与使用整组数据相比,您的模型会得到不同的结果,但您的模型会因此变得更强大。

有关为什么要拆分/采样数据的更多详细信息,请参阅此问题:https ://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-验证集