如何评估决策树模型的特征质量

数据挖掘 特征选择 决策树 特征工程 特征构造
2021-10-15 01:53:09

大多数教程都假设特征在生成模型之前是已知的,并且无法选择“好”特征并丢弃“坏”特征。

天真的方法是用新特征测试模型,看看新结果与以前的模型相比如何变化,但是当树复杂时解释起来可能很复杂。

是否有一种学术方法来选择好的特征并丢弃坏的特征?

(资源赞赏)

3个回答

寻求有效特征选择的主要原因是机器学习算法得到更快的训练,降低了模型的复杂性,便于解释并提高了模型的准确性。

查找过滤器方法、包装器方法和嵌入式方法以了解有关您的问题的更多信息。

过滤方法通常用作预处理步骤。特征的选择独立于任何机器学习算法。相反,特征是根据它们在各种统计测试中与结果变量的相关性的分数来选择的。在这里,您必须寻找线性判别分析,皮尔逊相关性,卡方。

包装器方法的一些常见示例是:

前向选择:是一种迭代方法,我们从模型中没有特征开始。在每次迭代中,我们不断添加最能改善模型的特征,直到添加新变量不会提高模型的性能。

向后消除:在这里,我们从所有特征开始,并在每次迭代中删除最不重要的特征,从而提高模型的性能。我们重复此操作,直到在移除特征时没有观察到改进。

递归特征消除:它是一种贪心优化算法,旨在找到性能最佳的特征子集。它反复创建模型,并在每次迭代中保留性能最好或最差的特征。它用左边的特征构造下一个模型,直到所有的特征都用完。然后,它根据消除的顺序对特征进行排名。

嵌入式方法结合了过滤器和包装器方法的特性。它由具有自己内置特征选择方法的算法实现。

这些方法的一些最流行的例子是 LASSO 和 RIDGE 回归,它们具有内置的惩罚函数以减少过度拟合。

其他适合您的嵌入式方法示例是正则化树。

在 sklearn 中使用其中一些算法的链接。

sklearn - 特征选择

我希望这可以帮助你开始。

另一种评估特征的方法称为Permutation Importance简而言之,这种方法是对每个特征的随机采样值,并且每次测量这对模型性能的负面影响。对其值的随机采样对模型性能具有最大负面影响的特征被认为对模型最重要。

我没有添加评论的声誉。我认为马塞洛席尔瓦给出了一个非常好的答案(不知道如何链接他的名字)。在“Muñoz-Mas, R., Fukuda, S., Vezza, P., Martínez-Capel, F., 2016。比较决策树归纳的四种方法:入侵伊比利亚海鱼的案例研究 (Gobio lozanoi;Doadrio) and Madeira, 2004). Ecol. Inform. 34, 22–34. 10.1016/j.ecoinf.2016.04.011" 我们使用包装方法同时使用交叉验证和遗传算法。我们在那篇论文中做了一个很好的评论,所以它可能值得检查。基于森林的变体目前正在审查中。我是第一作者,如果您想讨论有关树木和森林的任何事情,请写信给我。另一种方法是使用条件随机森林“Strobl, C., Hothorn, Zeileis, A., 2009. 派对开打!RJ. 1 (2), 14-17。(和链接的参考)”使用整个变量子集,然后仅依次使用那些被证明与训练决策树最相关的变量。尽管如此,考虑到超参数在最终决策树中发挥作用,因此它们还需要一些调整。如果您对可解释性不感兴趣,我会使用森林而不是单个决策树。祝你好运。