随机森林的特征选择/组合

数据挖掘 机器学习 分类 特征选择 随机森林
2022-02-22 07:58:09

我正在使用随机森林来预测 1 或 0。我有大约 20 个可用于建模的变量。我意识到如果我放不同的变量会有不同的准确性/敏感性/特异性。我想知道是否有测试或方法可以告诉我哪些变量组合具有最高的准确性?或者哪个变量组合分别具有最高的敏感性和特异性?

提前致谢!

1个回答

sklearn 中的随机森林模型有一个feature_importances_属性可以告诉你哪些特征最重要。这是一个有用的例子

还有一些其他算法用于选择可以推广到其他模型的最佳特征,例如顺序后向选择顺序前向选择在顺序前向选择的情况下,您首先要找到为您提供最佳准确性的单个特征。然后,您会找到下一个与第一个功能相结合的功能,该功能可为您提供最佳准确性。这种模式一直持续到你找到k特征,在哪里k是您要使用的功能数量。顺序向后选择正好相反,您从所有功能开始并删除那些最妨碍您的准确性的功能。您可以在此处找到有关这些算法的更多信息