背景:目前我正在研究我的论文项目,该项目是构建基于树的集成方法,用于在大型数据集上进行分类。在开始建模之前,我花费了大量时间使用基于相关性的标准来选择特征子集来进行特征选择,从而使这些选择的特征与响应变量具有高相关性,而彼此之间具有低相关性。
然而,我的一位主管质疑我为什么在特征选择上花这么多时间,正如他所说,决策树算法可以自然地选择哪些特征是最重要的。后来我查看了Tan (2014) 的《数据挖掘导论》一书,它清楚地表明“特征选择作为数据挖掘算法的一部分自然发生......,例如决策树分类器”。花时间在功能选择上让我感到有点沮丧。当我最终运行带有和不带有特征选择的模型时,结果之间没有任何显着差异。
我的问题是:特征选择对决策树算法是否重要?