我正在使用 Boruta 特征选择(使用随机森林)来决定以下数据集中的重要特征。
Gender Married Dependents Education Self_Employed ApplicantIncome \
0 Male No 0 Graduate No 5849
1 Male Yes 1 Graduate No 4583
2 Male Yes 0 Graduate Yes 3000
3 Male Yes 0 Not Graduate No 2583
4 Male No 0 Graduate No 6000
CoapplicantIncome LoanAmount Loan_Amount_Term Credit_History \
0 0.0 NaN 360.0 1.0
1 1508.0 128.0 360.0 1.0
2 0.0 66.0 360.0 1.0
3 2358.0 120.0 360.0 1.0
4 0.0 141.0 360.0 1.0
Property_Area Loan_Status
0 Urban Y
1 Rural N
2 Urban Y
3 Urban Y
4 Urban Y
请帮助我澄清以下疑问 1)在应用 Boruta 之前,我是否需要将所有分类变量转换为数字变量(使用一种热编码)?2) Boruta 是否会处理 NA 值,或者我们是否需要在输入 Boruta 之前删除 NA 值?
在回归问题的情况下,Boruta 方法(随机森林分类器 -> Boruta)是否与分类问题中的方法相同?
谢谢你。