具有连续和分类特征的数据的特征选择?

数据挖掘 机器学习 特征选择 分类数据
2021-09-22 18:26:11

我正在研究一个分类问题,要预测 4 个序数类,将样本标记/预测为 1-4 的数字。我的训练数据集有大约 40,000 个样本的 284 个特征,我希望探索特征相关性和方差,并将其与使用过滤特征选择方法相关联。我一直希望从本指南中学习:https ://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/

然而,我的数据集主要具有连续特征,但它确实有大约 5 个分类特征。如何在我的统计和特征选择方法中考虑这两种类型?划分特征并分别探索相关性是否常见(例如,选择我的分类特征并使用卡方,然后选择我的连续特征并使用方差分析?)。或者我应该将我的连续变量或分类变量转换为另一个变量并将一种统计方法应用于所有特征?

我的目标是系统化并探索不同的统计和选择方法,但我不确定我应该如何将连续变量和分类变量一起或分开考虑。我是机器学习的新手(具有生物学背景),因此我将不胜感激任何帮助或资源以了解更多信息。

1个回答

我建议使用 Lasso 进行特征选择。我认为主要优点是它是一种多变量方法。但是,它比基于树的模型更适合线性模型。

有一些广泛的理论实践资源可以解释为什么使用它。我写了一篇将其与单变量方法进行比较的文章,另一篇将其与特征重要性进行了比较。

您可以使用 R 中的 glmnet 包或使用 scikit-learn 中的 Lasso() 类。