逻辑回归如何“优雅地”处理不平衡的类?

机器算法验证 物流 分类 不平衡类
2022-04-01 15:17:10

Frank Harrell 在这篇有趣的博文“分类与预测”中指出,使用分层抽样来处理不平衡的类是一个坏主意,因为在人为有偏差的数据集上训练的分类器将在现实世界的数据集上表现不佳,这将是分布与训练数据不同。

然后他说:

另一方面,逻辑回归通过以下两种方式优雅地处理这种情况:(1)将导致流行率如此低的变量作为预测变量,或者(2)(仅)重新校准另一个流行率更高的数据集的截距。

我很难消化这个,特别是逻辑回归优雅地处理这个的想法:

  • 他在(1)中的意思是什么:如果一种疾病真的很罕见,我们会将其作为一个特征包括在内吗?或者与合法登录相比,网络上的恶意攻击非常罕见,如何将其作为一项功能包含在内?

  • 在 (2) 中:重新校准逻辑回归中的截距不只是玩弄分类阈值 - 这可以通过各种二元分类方法来实现(并且通过偏置训练数据集隐式实现)?

  • 此外,考虑到我们的目的是检测罕见情况(就精度/召回权衡而言),引入分类器的偏差不是一个理想的结果吗?

1个回答
  • 不,我们不能将流行度作为一个特征。毕竟,这正是我们要建模的!

    FH 在这里的意思是,如果存在有助于目标流行的特征,这些将在逻辑回归中具有适当的参数估计。如果一种疾病极为罕见,则截距将非常小(即绝对值较大的负数)。如果某个预测变量增加了患病率,那么这个预测变量的参数估计值将是正的。(预测因素可能包括,例如,基因 SNP,或验血结果。)

    最终结果是,如果正确指定了模型,逻辑回归将为您提供新样本属于目标类的正确概率,即使目标类总体上非常罕见。这是应该的。练习的统计部分以概率预测结束。根据这个概率预测应该做出什么决定是另一回事,需要考虑决策成本

  • 不,逻辑回归中不涉及阈值。(也不是在任何其他概率模型中。)如上所述,稍后可以使用阈值(或多个阈值!)来权衡概率预测与成本。

    请注意 FH 讨论重新估计截距的上下文:它是解决罕见结果的过采样之一。过采样可用于逻辑回归。首先将模型拟合到对我们感兴趣的罕见结果进行过采样的样本。这为模型中的预测变量提供了有用的参数估计,但截距系数将偏高然后,在第二步中,我们可以确定预测器参数估计并仅通过将模型重新拟合到完整样本来重新估计截距系数。

  • FH 和我认为不,我们不应该以精确/召回权衡为目标相反,我们应该瞄准经过良好校准的概率预测,然后可以将其用于决策,以及我重复自己的错误分类和其他错误决策的后果。事实上,这正是逻辑回归所做的。它根本不关心精度或召回率。它关心的是可能性。这只是查看概率模型的另一种方式。不,在这种情况下,偏见不是一个可取的特征。