当我们使用许多迭代时,提升方法(例如流行的xgboost)不会过拟合 - Schapire 和 Freund。当我们为它们提供大量特征时,它们是否也能抵抗过度拟合(其中一些特征不是很有用?)如果是这样,这两个理想属性之间是否存在理论上的联系?
(与 https://stats.stackexchange.com/questions/35276/svm-overfitting-curse-of-dimensionality相关)
当我们使用许多迭代时,提升方法(例如流行的xgboost)不会过拟合 - Schapire 和 Freund。当我们为它们提供大量特征时,它们是否也能抵抗过度拟合(其中一些特征不是很有用?)如果是这样,这两个理想属性之间是否存在理论上的联系?
(与 https://stats.stackexchange.com/questions/35276/svm-overfitting-curse-of-dimensionality相关)
我不能从理论的角度说话,但我可以说在实践中过度拟合大量特征并不是梯度提升的问题。我在一家大型金融机构工作,几十年来一直在做信用风险建模,在过去十年左右的时间里,他们几乎完全使用梯度提升来进行变量选择。梯度提升(以及任何基于树的方法)可用于查找相对特征重要性(基于每次拆分后减少了多少误差)。
我工作的统计学家通常会使用梯度提升,通过获取排名靠前的特征,将 2,000 个左右的特征缩小到更易于管理的 10-15 个。然后将这些特征输入逻辑回归模型,该模型比梯度提升更易于解释。即使在保留分区上,基于 2,000 个特征的梯度提升算法通常也优于逻辑回归模型。因此,梯度提升模型用于变量选择和预测性能基准测试。