在逻辑回归中为高度倾斜的数据集添加权重

机器算法验证 回归 物流 加权回归
2022-03-29 12:39:12

我正在使用标准版本的逻辑回归将我的输入变量拟合到二进制输出变量。

但是在我的问题中,负输出(0s)远远超过正输出(1s)。比例为 20:1。因此,当我训练分类器时,似乎即使是强烈暗示正输出可能性的特征,其相应参数的值仍然非常低(高度负)。在我看来,发生这种情况是因为有太多的负面例子将参数拉向它们的方向。

所以我想知道是否可以为正面示例添加权重(例如使用 20 而不是 1)。这可能会受益吗?如果是这样,我应该如何添加权重(在下面的等式中)。

成本函数如下所示:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

这个成本函数的梯度(wrt)是:θ

grad=((h(xθ)y)X)

这里 = 测试用例的数量, = 特征矩阵, = 输出向量, = sigmoid 函数, = 我们尝试学习的参数。mxyhθ

最后,我运行梯度下降来找到可能的最低该实现似乎运行正确。J

2个回答

那将不再是最大的可能性。的这种极端分布才会出现问题,即,如果您计算正确分类的比例,则评分规则不正确。来自标准最大似然的概率估计是有效的。如果“阳性”的总数小于候选变量数量的 15 倍,则可能需要惩罚最大似然估计。Y

在这种情况下,通常最好使用可以捕获这种不对称性的灵活链接,而不是逻辑链接。例如 skew-normal、GEVsinh-arcsinh和其中的引用。还有很多其他的,但我不能发布超过 2 个链接。