关于数据集的信息:
df.shape = (10000, 100)
- 所有特征都是数值。
- 每列中的异常值很少。异常值最多的列有 0.7% 的数据作为异常值。
我正在尝试改进我的基线逻辑回归;但是,我被困住了。
baseline = LogisticRegression(solver='lbfgs', max_iter=100, penalty='l2')
以下是我采取的一些方法和相关结果:
- 标准缩放器 - 逻辑回归(类似)
- 强大的缩放器 - 逻辑回归(类似)
- 去除异常值(IQR 方法) - 标准缩放器 - 逻辑回归(更差)
- 标准缩放器 - PCA(解释 83% 方差的 n_component=n_comp) - 逻辑回归(更糟)
所有方法的表现似乎都比基线差。
如何改进我的基线逻辑回归模型,或者我是否需要求助于随机森林等非线性模型(我已经尝试过,但是它过拟合了)?
提前致谢。