多项逻辑回归的过采样校正

机器算法验证 回归 物流 多项分布 过采样
2022-03-31 07:55:51

当使用逻辑回归对罕见事件进行建模时,过采样是降低计算复杂度的常用方法(即,保留所有罕见的正例,但只保留负例的子样本)。模型拟合后,在截距项上加一个偏移量是一种常用的方法来修正事件概率以反映原始样本比例。偏移量等于 log( r1*(1-p1) / (1-r1)*p1 ),其中 r1 是过采样数据中罕见事件的比例,p1 是原始数据中的比例。多项逻辑回归的等效公式是什么,其中对 1 个或多个类进行过采样?

1个回答

即兴发挥,我认为可以像逻辑回归一样进行:对类别和基本类别的概括是将第个校正项设置为 对应于 vs对比。对于和以前一样,并且,所以它简化为 K>2Ki

log(ripK)(rKpi)
iKK=2p1pK=p2=1p1
logr1(1p1)(1r1)p1.

但是,我很乐意对此进行更正。