您建议选择多少棵树来执行递归特征消除 (RFE) 以优化随机森林分类器(针对二元分类问题)。我的数据集非常高维(> 200 000 个特征),我通常在运行分类时选择约 10 000 棵树而不选择特征。但我只是想知道将 RFE 设置为 ~ 500-1000 是否足以节省时间和 RAM。
PS:如果有任何区别,我会使用“randomForest”和“caret” R-packages。
您建议选择多少棵树来执行递归特征消除 (RFE) 以优化随机森林分类器(针对二元分类问题)。我的数据集非常高维(> 200 000 个特征),我通常在运行分类时选择约 10 000 棵树而不选择特征。但我只是想知道将 RFE 设置为 ~ 500-1000 是否足以节省时间和 RAM。
PS:如果有任何区别,我会使用“randomForest”和“caret” R-packages。
我现在实际上正在做这个实验。我从事文本分类工作,因此我的训练集通常具有数十万个特征,我正在研究将线性 SVM(针对 c 参数优化)与随机森林的 weka 实现进行比较。我发现,就我的数据而言,到目前为止,大约 74 棵树和 32 个特征似乎提供了相当不错的性能。当然,增加这些值往往会增加我观察到的 AUC,但它通常在千分之一位。我仍在尝试了解该算法如何处理我的数据,但我怀疑,基于Breiman 论文,您的训练集中的通用特征越多,树参数的数量就越不重要。如果您阅读了这篇论文(这是一篇非常棒的论文),每棵树都包含数据中特征的随机抽样,因此,如果您的集合中有很多有用的特征,那么您更有可能找到一些东西在任何特定的树中都有用。也就是说,我认为针对特定数据优化算法总是一个好主意。对于我的实验,我留出了一个训练/优化集,我在其上跨不同的参数值执行交叉验证。我很想听听你的发现!