在应用 Lasso 之前是否应该省略高度相关的特征?

数据挖掘 机器学习 Python 逻辑回归 正则化 共线性
2022-02-26 13:30:10

如果您能告诉我是否应该在使用 Lasso 逻辑回归 ( L1) 进行特征选择之前省略高度相关的特征,我将不胜感激。

事实上,我想使用逻辑回归L1来进行预测和特征选择。然而,我的一些特征是高度相关的,例如,-1 或 0.9。我应该在应用 Lasso 之前忽略它们还是让 Lasso 决定它?

真的,我在 Raschka 先生的书(Python 机器学习)中读到

正则化是处理共线性(特征之间的高度相关性)的非常有用的方法。

然而,这个内核 (通过参考Wikipedia)指出,在模型中保留相关特征会对特征选择产生不利影响,但不会影响预测。

1个回答

使用 scikit-learn 包。在您的情况下,您需要找到sklearn.linear_model.LogisticRegression

用户指南

已经足够清楚了,可以理解。你不需要特殊的动作来赢得共线性。但是您可以使用非参数算法代替线性方法,例如随机森林sklearn.ensemble.RandomForestClassifier

在测试数据上比较逻辑回归和随机森林的结果