如果您能告诉我是否应该在使用 Lasso 逻辑回归 ( L1) 进行特征选择之前省略高度相关的特征,我将不胜感激。
事实上,我想使用逻辑回归L1来进行预测和特征选择。然而,我的一些特征是高度相关的,例如,-1 或 0.9。我应该在应用 Lasso 之前忽略它们还是让 Lasso 决定它?
真的,我在 Raschka 先生的书(Python 机器学习)中读到
正则化是处理共线性(特征之间的高度相关性)的非常有用的方法。
如果您能告诉我是否应该在使用 Lasso 逻辑回归 ( L1) 进行特征选择之前省略高度相关的特征,我将不胜感激。
事实上,我想使用逻辑回归L1来进行预测和特征选择。然而,我的一些特征是高度相关的,例如,-1 或 0.9。我应该在应用 Lasso 之前忽略它们还是让 Lasso 决定它?
真的,我在 Raschka 先生的书(Python 机器学习)中读到
正则化是处理共线性(特征之间的高度相关性)的非常有用的方法。
使用 scikit-learn 包。在您的情况下,您需要找到sklearn.linear_model.LogisticRegression
和用户指南
已经足够清楚了,可以理解。你不需要特殊的动作来赢得共线性。但是您可以使用非参数算法代替线性方法,例如随机森林sklearn.ensemble.RandomForestClassifier。
在测试数据上比较逻辑回归和随机森林的结果