如何在高维二元分类问题中改进基线逻辑回归?

数据挖掘 机器学习 分类 逻辑回归
2022-03-13 01:47:57

关于数据集的信息:

  • df.shape = (10000, 100)
  • 所有特征都是数值。
  • 每列中的异常值很少。异常值最多的列有 0.7% 的数据作为异常值。

我正在尝试改进我的基线逻辑回归;但是,我被困住了。

baseline = LogisticRegression(solver='lbfgs', max_iter=100, penalty='l2')

以下是我采取的一些方法和相关结果:

  1. 标准缩放器 - 逻辑回归(类似)
  2. 强大的缩放器 - 逻辑回归(类似)
  3. 去除异常值(IQR 方法) - 标准缩放器 - 逻辑回归(更差)
  4. 标准缩放器 - PCA(解释 83% 方差的 n_component=n_comp) - 逻辑回归(更糟)

所有方法的表现似乎都比基线差。

如何改进我的基线逻辑回归模型,或者我是否需要求助于随机森林等非线性模型(我已经尝试过,但是它过拟合了)?

提前致谢。

1个回答

您似乎正在使用手动试错法来搜索更好的超参数。

另一种方法是使用自动超参数搜索。为每个超参数定义一个搜索空间(即范围或分布)。然后使用交叉验证在搜索空间中找到最佳组合。对超参数进行随机搜索通常很有用。