特征选择对决策树算法有影响吗?

数据挖掘 机器学习 特征选择 决策树
2021-10-07 10:46:51

背景:目前我正在研究我的论文项目,该项目是构建基于树的集成方法,用于在大型数据集上进行分类。在开始建模之前,我花费了大量时间使用基于相关性的标准来选择特征子集来进行特征选择,从而使这些选择的特征与响应变量具有高相关性,而彼此之间具有低相关性。

然而,我的一位主管质疑我为什么在特征选择上花这么多时间,正如他所说,决策树算法可以自然地选择哪些特征是最重要的。后来我查看了Tan (2014) 的《数据挖掘导论》一书,它清楚地表明“特征选择作为数据挖掘算法的一部分自然发生......,例如决策树分类器”。花时间在功能选择上让我感到有点沮丧。当我最终运行带有和不带有特征选择的模型时,结果之间没有任何显着差异。

我的问题是:特征选择对决策树算法是否重要?

2个回答

对于决策树的集合,特征选择通常不是那么重要。在决策树的归纳过程中,根据信息增益等指标选择最优特征来分割数据,所以如果你有一些非信息性特征,它们根本不会被选择。

特征选择对于小型数据集仍然很重要,在这些数据集中,特征和类标签之间的虚假关系更为常见。

附带说明:通常的做法是从所有学习算法的数据集中删除一些特征,例如 ID 字段。这些特征对决策树尤其不利,因为它们通常最终成为具有最高信息增益的特征(因此被选择进行拆分),而实际上不包含可概括的信息。因此,通过这种方式,特征选择在使用决策树时会很有用,尽管 ID 字段应该首先被视为特征是有争议的。

在您的情况下,功能选择还有另一个好处。您提到您的项目适用于大型数据集。在实践中,通过在拟合模型之前进行特征选择,您可以加快拟合过程,因为要输入模型的数据更少。

这在您的数据很宽(即有很多列)时特别有用。