我有 100 列二进制值 [0, 1] 加上一些没有二进制值的额外列。我正在尝试做回归模型,但模型性能非常低。对于非二进制特征,我使用 PCA 来降低它的维度。我认为将 PCA 用于二进制值并不合适。我猜,它是因为大量的二进制列,模型做得不好。在这种情况下可以做些什么?我已经测试了 sklearn 中几乎所有可用的回归模型。
我可以采取什么方法来提高模型性能?有什么建议么。
我有 100 列二进制值 [0, 1] 加上一些没有二进制值的额外列。我正在尝试做回归模型,但模型性能非常低。对于非二进制特征,我使用 PCA 来降低它的维度。我认为将 PCA 用于二进制值并不合适。我猜,它是因为大量的二进制列,模型做得不好。在这种情况下可以做些什么?我已经测试了 sklearn 中几乎所有可用的回归模型。
我可以采取什么方法来提高模型性能?有什么建议么。
对这些二元特征进行降维的一种值得探索的方法是多重对应分析(可以使用Prince和mca等 Python 库),它与 PCA 类似,但处理的是名义分类变量。这是关于 PCA 和因子分析对二元特征的适用性以及同一主题的另一个很好的答案。