具有梯度提升的特征子采样

机器算法验证 机器学习 随机森林 助推
2022-04-03 15:52:23

构建随机森林模型的一个关键组成部分是特征子采样,即构建每个单独的树,只使用由树随机选择的预测变量的百分比。文献经常提出一个“经验法则”,如果有p预测器,我们使用p分类模型中每棵树的预测器或p/3回归模型中每棵树的预测因子(例如,参见 Hastie 和 Tibshirani 的Elements of Statistical Learning,第 15.3 节)。

我的问题是:如果我们构建一个包含特征子采样的梯度提升模型(使用 XGBoost 之类的包),我们是否仍应遵循以下“经验法则”?p或者p/3? 换句话说,在构建树时“学习”的模型中,将每棵树的预测变量数量限制在与随机森林相同的程度是否仍然合适?

1个回答

限制随机森林中每个学习者可用的预测器数量的一个重要动机是鼓励树之间的差异。因为每棵树都有相同的起点,所以需要像行和列子采样这样的技巧来确保您不会多次拥有同一棵树。对于 boosting 来说,这几乎不是一个大问题,因为树是相互残存的。每棵树都有一个新的、调整过的起点,一个新的、不同的树结构将是最佳的。

按行和列进行二次采样仍然会增加树之间的差异,并允许您的模型通过 boosting 更快地收敛,但这不是必需的。p/3或者p对于大多数增强问题来说,它似乎太低了。如果一对变量在同一棵树中一起存在的可能性很小,那么交互信号将更难找到。我在大约3/4.