在回归模型中使用 100 个二元特征

数据挖掘 scikit-学习 回归 特征选择 交叉验证
2022-02-22 19:24:15

我有 100 列二进制值 [0, 1] 加上一些没有二进制值的额外列。我正在尝试做回归模型,但模型性能非常低。对于非二进制特征,我使用 PCA 来降低它的维度。我认为将 PCA 用于二进制值并不合适。我猜,它是因为大量的二进制列,模型做得不好。在这种情况下可以做些什么?我已经测试了 sklearn 中几乎所有可用的回归模型。

我可以采取什么方法来提高模型性能?有什么建议么。

1个回答

对这些二元特征进行降维的一种值得探索的方法是多重对应分析(可以使用Princemca等 Python 库),它与 PCA 类似,但处理的是名义分类变量。这是关于 PCA 和因子分析对二元特征的适用性以及同一主题的另一个很好的答案。