多重共线性是梯度提升树(即GBM)的问题吗?

机器算法验证 多重共线性 助推
2022-04-04 14:19:39

一个关于随机森林多重共线性的问题已经被提出并回答了,但是提升树呢?

1个回答

我相信我可以回答这个问题,虽然它是一个旧的:

增强树对多重共线性免疫: https ://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself

另请参阅 Microsoft 使用 EBM 的 Boosted Trees 的最新实现: https ://interpret.ml/docs/ebm.html

提升过程被仔细限制为使用非常低的学习率以循环方式一次训练一个特征,因此特征顺序无关紧要。它循环遍历特征以减轻共线性的影响并学习每个特征的最佳特征函数,以显示每个特征如何有助于模型对问题的预测。

但! 正如您从第一个链接中看到的那样。那里的第二个答案强调,在推理或特征重要性方面,增强树无法解决多重共线性。

Boosted Trees 不知道,例如,如果您添加了第二个特征,该特征恰好与另一个完全线性相关。树只会说这两个特征(原始特征和人工特征)现在都很重要,也许它们将共享特征重要性。只是做一个简单的实验。你会看到他们无法处理 multicoll。是的,让我们说因果关系。

如果你想要这样的东西,你首先需要聚合特征或做一个正则化方法。

更新 2022/1/17

我做了一个实验,检查了增强树、游戏和决策树中多重共线性的解释部分。而对于预测,多重共线性没有影响,解释部分受它的影响很大。到目前为止,由于其循环程序,只有 EBM 提供了多重共线性处理。

请参阅我的另一篇文章: shap 值在树、集成、梯度提升和 GAM/Boosting 中的多重共线性方面的表现