他们是不是仅使用随机森林特征重要性方法就可以直观地找到特征重要性的方法?
我有一个二元逻辑回归问题,其中我有二元特征(1 或 0)和二元目标(1 或 0)。
我想看看哪些特征对预测目标最重要,并以某种方式对它们进行排名。
我为每个特征做了一个优势比,这让我对重要性有了一些了解。
还有其他方法吗?
他们是不是仅使用随机森林特征重要性方法就可以直观地找到特征重要性的方法?
我有一个二元逻辑回归问题,其中我有二元特征(1 或 0)和二元目标(1 或 0)。
我想看看哪些特征对预测目标最重要,并以某种方式对它们进行排名。
我为每个特征做了一个优势比,这让我对重要性有了一些了解。
还有其他方法吗?
有很多方法可以尝试估计特征重要性。就我个人而言,我认为随机森林措施被过度使用仅仅是因为它们的名字具有“重要性”并且很多人都听说过它们。然而,人们没有意识到的是,随机森林认为重要的那些特征对随机森林来说很重要。他们擅长在随机森林环境中预测您感兴趣的特征。将其盲目地应用于非随机森林问题是危险的。对随机森林的预测可能不适用于其他算法。此外,这些随机森林重要性度量并非没有缺陷,例如它们偏向于范围广泛的变量。
还有许多其他方法可用于可变重要性,例如信息增益和缓解。我建议你阅读 Robnik-Sikonja 的这篇论文
https://link.springer.com/content/pdf/10.1007%2F978-3-540-39857-8_30.pdf
它涵盖了许多不同的方法。
全局解释:
决策树中特征的整体重要性(也适用于随机森林和 GBDT)可以通过以下方式计算:
“权重”:使用特征将数据拆分到所有树的次数。
“增益”:使用该特征的所有拆分的平均增益。
'cover':使用该功能的所有拆分的平均覆盖率。
'total_gain':使用该功能的所有拆分的总增益。
'total_cover':使用该功能的所有拆分的总覆盖率。
这是从xgboost API中提取的。
Local Explanations 如果您想获得有关为什么做出预测的个别示例,您可以使用
有很多方法可以实现更好的模型可解释性和问责制。我向你推荐这本书。