我在我的数据集上使用了所有类型的分类算法,但无论我如何尝试,我都无法提高我的分数。
所以我读过 Xgboost 分类器。所以我想知道在大约 1000 行的数据集上使用 xgboost 是否实用。
请告诉我。
我在我的数据集上使用了所有类型的分类算法,但无论我如何尝试,我都无法提高我的分数。
所以我读过 Xgboost 分类器。所以我想知道在大约 1000 行的数据集上使用 xgboost 是否实用。
请告诉我。
是的,XGBoost 以使用通常少于 1000 个实例的小型数据集获得非常好的结果而闻名。
当然,在选择适合您数据的机器学习模型时,实例的数量很重要,并且与您需要适合的模型参数的数量有关。模型中的参数数量越多,您需要的数据就越多,以减少最终模型的偏差。如果您确实在很少的实例上使用复杂模型获得了良好的结果,那么您很可能会过度拟合。例如,1000 个实例几乎不足以适应深度神经网络。
话虽如此,类的分布和数据中的噪声始终是限制您选择的任何模型与数据的匹配程度的限制因素。