我正在研究一个分类问题,要预测 4 个序数类,将样本标记/预测为 1-4 的数字。我的训练数据集有大约 40,000 个样本的 284 个特征,我希望探索特征相关性和方差,并将其与使用过滤特征选择方法相关联。我一直希望从本指南中学习:https ://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
然而,我的数据集主要具有连续特征,但它确实有大约 5 个分类特征。如何在我的统计和特征选择方法中考虑这两种类型?划分特征并分别探索相关性是否常见(例如,选择我的分类特征并使用卡方,然后选择我的连续特征并使用方差分析?)。或者我应该将我的连续变量或分类变量转换为另一个变量并将一种统计方法应用于所有特征?
我的目标是系统化并探索不同的统计和选择方法,但我不确定我应该如何将连续变量和分类变量一起或分开考虑。我是机器学习的新手(具有生物学背景),因此我将不胜感激任何帮助或资源以了解更多信息。