隔离林特征重要性

数据挖掘 Python scikit-学习 特征选择 决策树 异常检测
2021-10-05 21:57:21

从 scikit-learn 版本 0.19.1 开始,没有用于计算隔离森林中特征重要性的实现。我也很难找到任何建议解决问题的方法的在线资源。有谁知道这样做的任何既定方法或有任何建议?

以下是我一直在思考的一些想法:

  1. 为每棵树中的每个节点计算某种“隔离度量”(例如拆分样本的百分比),并为每个拆分特征获取该度量的平均值。
  2. 模型拟合后,一次检查每个特征,随机排列该特征的数据,并计算异常分数。然后计算异常分数的平均变化。

欢迎所有见解。谢谢!

0个回答
没有发现任何回复~