逻辑回归的灵活版本

机器算法验证 造型 物流 二进制数据
2022-04-01 23:48:17

我正在尝试拟合逻辑回归,其中任一组中的数据点数量存在巨大差异(70 Vs 10,000)。我的一位统计学家朋友告诉我,这是逻辑回归的一个已知问题,对于那些类型的数字,它会过度拟合数据并且基本上不起作用。当我对数据进行分类并与模型进行比较时,很明显情况确实如此。

我想知道是否有人知道更好/更灵活的方法来拟合这种二进制响应数据?

(顺便说一句,我不是统计学家,所以放轻松!)

4个回答

它不起作用不是来自组的不平衡大小,而是来自其中一个组的小。对较大的组进行下采样是可以的,但对过度拟合没有帮助。(顺便说一句,有一种简单而优雅的方法来纠正下采样模型的预测,方法是将 ±log(r) 添加到线性项,其中 r 是下采样率。)

如果过拟合确实是问题所在,您需要减少变量的数量,或者对模型进行正则化。

这个问题几乎出现在所有分类方法中,无论是逻辑回归、支持向量分类还是朴素贝叶斯分类。有两个相互交织的问题:

  • 在不平衡数据集上训练的模型可能会在获得偏向多数类的意义上过度拟合。

  • 在具有相同程度不平衡的测试数据集上评估此模型时,分类准确度可能是一种极具误导性的性能指标。

关于这些问题的文献提出了三种解决策略:

  1. 您可以通过对大类进行欠采样或对小类进行过采样来恢复训练集的平衡,以防止出现偏差(请参阅@grotos 的回复)。

  2. 或者,您可以修改错误分类的成本,以防止模型首先出现偏差。

  3. 另一个保障是用所谓的平衡精度代替精度它被定义为类特定精度的算术平均值,其中分别表示在正例和负例上获得的准确度。如果分类器在任一类上的表现都一样好,则该术语会降低到常规准确度(即,正确预测的数量除以预测的总数)。相比之下,如果常规精度仅高于偶然性ϕ:=12(π++π),π+π因为分类器利用了不平衡的测试集,所以平衡的准确度将酌情下降(请参见下面的草图,我从我对相关问题的回答中获取)。

精度与平衡精度

正如我之前的回复中所详述的,我建议至少结合考虑上述两种方法。例如,您可以对少数类进行过采样,以防止您的分类器偏向多数类。在此之后,在评估分类器的性能时,您可以用平衡的准确度代替准确度。

你的意思是响应的分布,即你有70个“YES”和10000个“NO”?

如果是这样,那是数据挖掘应用程序中的一个常见问题。想象一个有 1,000,000 个实例的数据库,其中只有大约 1,000 个案例是“是”。1% 甚至更低的响应率在业务预测建模中很常见。如果你选择一个样本来训练一个模型,那就是一个巨大的问题,尤其是在评估给定模型的稳定性方面。

我们所做的是选择不同比例的样本。在上述示例中,这将是 1000 个“是”案例,例如,9000 个“否”案例。这种方法提供了更稳定的模型。但是,它必须在真实样本(具有 1,000,000 行)上进行测试。

我已经使用数据挖掘模型对其进行了测试,例如逻辑回归、决策树等。但是,我还没有将它与“适当的”[1] 统计模型一起使用。

您可以将其搜索为“统计中的过采样”,第一个结果还不错: http: //www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf

[1] “适当”的意思是“不是数据挖掘”。

如果您想要一种对不同类示例的相对比例不敏感的分类技术,支持向量机和决策树一样具有该属性。