Frank Harrell 在这篇有趣的博文“分类与预测”中指出,使用分层抽样来处理不平衡的类是一个坏主意,因为在人为有偏差的数据集上训练的分类器将在现实世界的数据集上表现不佳,这将是分布与训练数据不同。
然后他说:
另一方面,逻辑回归通过以下两种方式优雅地处理这种情况:(1)将导致流行率如此低的变量作为预测变量,或者(2)(仅)重新校准另一个流行率更高的数据集的截距。
我很难消化这个,特别是逻辑回归优雅地处理这个的想法:
他在(1)中的意思是什么:如果一种疾病真的很罕见,我们会将其作为一个特征包括在内吗?或者与合法登录相比,网络上的恶意攻击非常罕见,如何将其作为一项功能包含在内?
在 (2) 中:重新校准逻辑回归中的截距不只是玩弄分类阈值 - 这可以通过各种二元分类方法来实现(并且通过偏置训练数据集隐式实现)?
此外,考虑到我们的目的是检测罕见情况(就精度/召回权衡而言),引入分类器的偏差不是一个理想的结果吗?