Scikit 的 LogisticRegression 规范了截距项。
是否可以单独处理这些系数(就正则化而言)。
我可以看到两种情况可能有用:
- 截距项设置为预测总体均值的值
- 截距项是非正则化的(允许具有较大的值)。
(LR 会从第二个开始吗?)
为什么。如果正则化的目的是减少预测对任何一个因素的依赖,我们还应该鼓励(并强制)对“没有任何因素解释”产生更强的默认偏差。因为截距不是(可变)输入因子,所以我更愿意在截距上允许比其他因子更大的幅度权重。
虽然这可能会使我们损失训练损失,但由于训练集的方差,我们可能会看到系数的方差较低。