数据挖掘 - 提升对迭代次数和特征数量的过度拟合有抵抗力吗？ - 吾爱随笔录

提升对迭代次数和特征数量的过度拟合有抵抗力吗？

数据挖掘特征选择 xgboost

2022-02-17 17:08:44

当我们使用许多迭代时，提升方法（例如流行的xgboost）不会过拟合 - Schapire 和 Freund。当我们为它们提供大量特征时，它们是否也能抵抗过度拟合（其中一些特征不是很有用？）如果是这样，这两个理想属性之间是否存在理论上的联系？

（与 https://stats.stackexchange.com/questions/35276/svm-overfitting-curse-of-dimensionality相关）

1个回答

我不能从理论的角度说话，但我可以说在实践中过度拟合大量特征并不是梯度提升的问题。我在一家大型金融机构工作，几十年来一直在做信用风险建模，在过去十年左右的时间里，他们几乎完全使用梯度提升来进行变量选择。梯度提升（以及任何基于树的方法）可用于查找相对特征重要性（基于每次拆分后减少了多少误差）。

我工作的统计学家通常会使用梯度提升，通过获取排名靠前的特征，将 2,000 个左右的特征缩小到更易于管理的 10-15 个。然后将这些特征输入逻辑回归模型，该模型比梯度提升更易于解释。即使在保留分区上，基于 2,000 个特征的梯度提升算法通常也优于逻辑回归模型。因此，梯度提升模型用于变量选择和预测性能基准测试。

其它你可能感兴趣的问题

上一篇根据相似度对技能进行排名下一篇Python中的单词分析