机器算法验证 - 在逻辑回归中为高度倾斜的数据集添加权重 - 吾爱随笔录

我正在使用标准版本的逻辑回归将我的输入变量拟合到二进制输出变量。

但是在我的问题中，负输出（0s）远远超过正输出（1s）。比例为 20:1。因此，当我训练分类器时，似乎即使是强烈暗示正输出可能性的特征，其相应参数的值仍然非常低（高度负）。在我看来，发生这种情况是因为有太多的负面例子将参数拉向它们的方向。

所以我想知道是否可以为正面示例添加权重（例如使用 20 而不是 1）。这可能会受益吗？如果是这样，我应该如何添加权重（在下面的等式中）。

成本函数如下所示：

J = (- 1 / m) \cdot \sum_{i = 1}^{m} y \cdot \log (h (x \cdot θ)) + (1 - y) (1 - \log (h (x \cdot θ)))

$J = (-1 / m) \cdot\sum_{i=1}^{m} y\cdot\log(h(x\cdot\theta)) + (1-y)(1 - \log(h(x\cdot\theta)))$

这个成本函数的梯度（wrt）是： $\theta$

g r a d = ((h (x \cdot θ) - y)^{'} \cdot X)^{'}

$\mathrm{grad} = ((h(x\cdot\theta) - y)' \cdot X)'$

这里 = 测试用例的数量， = 特征矩阵， = 输出向量， = sigmoid 函数， = 我们尝试学习的参数。 $m$ $x$ $y$ $h$ $\theta$

最后，我运行梯度下降来找到可能的最低该实现似乎运行正确。 $J$