选择哪种特征选择技术(Boruta vs RFE vs step selection)

数据挖掘 机器学习 r 特征选择
2022-03-08 10:39:16

我有 103 列的数据。我想了解哪种算法最适合特征选择,以及将任何特征称为最佳的逻辑可能是什么。

I run below feature selection algorithms and below is the output:

    1) Boruta(given 11 variables as important)
    2) RFE(given 7 variables as important)
    3) Backward Step Selection(5 variables)
    4) Both Step Selection(5 variables)

我无法决定选择哪一个;有了领域知识,我似乎必须从 Boruta 获取结果(因为它提供了大多数变量,而且一切似乎都很重要)。

但是,我没有找到任何具体理由来选择最佳组合。

2个回答

在选择特征和精度之间需要权衡。较少的特征可能具有较低的精度(预测能力)。

考虑信息与性能的权衡,选择对您的问题有意义的功能。模型看到的预测能力越少。

一些算法固有地执行特征选择——例如LASSOrandom forests和梯度增强模型,如XGBoostLightGBM如果您正在使用这些,则无需手动选择功能。

但是,如果您沿着功能选择路线走下去,最好从您尝试过的所有方法(如果有的话)建议的功能开始。

选择“最佳”功能实际上取决于您的目标和设置。

  • 如果您正在追求建模精度,那么“最佳”功能可能是在包含在模型中时能够最大程度地提高模型精度的功能。
  • 如果您试图减少数据维度,“最佳”特征可能是捕获最多信息的特征(例如时间戳将捕获年、月、日、小时)。
  • 如果您要在实时生产中动态检索特征,考虑到其可用性和成本/时间,最好的特征可能是为模型增加最大准确性的特征。