在不过度拟合的情况下训练 XGBoost 的最小样本数

数据挖掘 神经网络 分类 xgboost 过拟合
2022-02-27 04:53:20

在使用神经网络进行图像处理时,我学到了一条经验法则:为避免过度拟合,为每个神经元提供至少 10 个训练示例。

分类器是否有类似的经验法则XGBoost,大概考虑到特征和估计器的数量?

而且,考虑到“维度的诅咒”,经验法则不应该n_training是几何n_dimensions而不是线性的吗?

2个回答

示例的数量应该与特征有关,这是完全正确的。但这不仅仅是特征的数量,因为数字的范围(最大最小和不同数字的计数)也很重要。另一方面,如果你有噪音,你需要更多的例子,所以它与你的数据集有关。

这不仅仅是样本的数量,这也是一个深度的问题。

你的深度越高,你越有可能过度拟合。

您可以通过添加大量树来减少过度拟合,从而使您的算法“稳定”