Boruta 功能选择包

数据挖掘 机器学习 特征选择 预处理
2022-02-18 22:28:25

我正在使用 Boruta 特征选择(使用随机森林)来决定以下数据集中的重要特征。

   Gender Married Dependents     Education Self_Employed  ApplicantIncome  \
0   Male      No          0      Graduate            No             5849   
1   Male     Yes          1      Graduate            No             4583   
2   Male     Yes          0      Graduate           Yes             3000   
3   Male     Yes          0  Not Graduate            No             2583   
4   Male      No          0      Graduate            No             6000   

 CoapplicantIncome  LoanAmount  Loan_Amount_Term  Credit_History  \
0                0.0         NaN             360.0             1.0   
1             1508.0       128.0             360.0             1.0   
2                0.0        66.0             360.0             1.0   
3             2358.0       120.0             360.0             1.0   
4                0.0       141.0             360.0             1.0   

Property_Area Loan_Status  
0         Urban           Y  
1         Rural           N  
2         Urban           Y  
3         Urban           Y  
4         Urban           Y  

请帮助我澄清以下疑问 1)在应用 Boruta 之前,我是否需要将所有分类变量转换为数字变量(使用一种热编码)?2) Boruta 是否会处理 NA 值,或者我们是否需要在输入 Boruta 之前删除 NA 值?

在回归问题的情况下,Boruta 方法(随机森林分类器 -> Boruta)是否与分类问题中的方法相同?

谢谢你。

1个回答

R中,Boruta依赖于ranger随机森林的实现。所以:

  1. 无需将输入变量从分类转换为数值。
  2. 您需要NA在运行算法之前处理值。

请注意,这Boruta可能非常慢!