我正在处理一个包含 30 列(29 个数字,1 个非序数分类)的数据集。我对分类特征进行了热编码,达到了 35 列。为了提高训练效率,我想对我的数据集进行特征选择。但是,我对如何处理结合了分类和数字特征的数据集感到困惑。
- 我读到对假人应用 PCA 是不合理的,因为它们是离散的。首先将 PCA 应用于数值特征然后将它们与假人连接是否合理?
- 我尝试通过交叉验证 (RFECV) 对整个特征空间实施递归特征消除。但是我认为删除一些但不是全部的虚拟特征是不合理的,因为它们是从一个类别中生成的。
有什么建议?任何帮助表示赞赏。
python pandas scikit-learn 特征选择